Los agentes de usuario informático prometen operar escritorios reales y aplicaciones web, pero sus diseños, limitaciones y ventajas y desventajas a menudo no están claros. Analizamos los sistemas líderes desglosando su funcionamiento, su aprendizaje y las diferencias en sus arquitecturas. También hacemos referencia a una prueba de rendimiento centrada en la interfaz de usuario, basada en 100 capturas de pantalla de escritorio, que abarca 4 tipos de tareas y 5 ejecuciones por muestra. Esta prueba aísla la calidad de la percepción visual y destaca la importancia de los modelos robustos de visión y lenguaje, incluso para los agentes de usuario informático más complejos.
Consulte una tabla de características, notas sobre la arquitectura, conclusiones prácticas y resultados de pruebas comparativas para ayudar a los usuarios a elegir o crear el agente de uso informático adecuado:
Resultados de la prueba de referencia de la interfaz de usuario
Para obtener detalles sobre la metodología de evaluación comparativa, lea los detalles de la evaluación comparativa .
- Los modelos Qwen3-VL alcanzan una precisión de aproximadamente el 90% , con un error bajo (≈7–9 px).
- Los modelos especializados en interfaces de usuario, como UI-TARS, tienen un rendimiento mucho peor ( aproximadamente un 38 % de precisión ) y muestran una alta varianza y grandes errores, especialmente en interfaces densas y dependientes del estado.
- Las interfaces de usuario densas y dependientes del estado representan los casos más difíciles para la mayoría de los modelos.
Principales agentes de uso de computadoras
Consulte la sección de características para ver las características de la tabla y examine la sección de enfoques arquitectónicos para obtener detalles sobre la arquitectura de los agentes de uso de la computadora.
OpenAI Vista previa del uso del ordenador
La vista previa de uso informático de OpenAI es un modelo especializado diseñado para comprender y ejecutar tareas informáticas mediante la API Responses. Se centra en la entrada y salida de texto, con entrada de imágenes opcional, pero no admite audio ni vídeo.
Anthropic Uso de la computadora de Claude
La función "Uso del ordenador" de Claude es una característica beta que permite a Claude interactuar con un entorno de escritorio o con ventanas, como lo haría una persona. Funciona viendo la pantalla, moviendo el ratón y escribiendo en el teclado.
Claude no puede funcionar por sí solo sin la configuración del desarrollador. No accede automáticamente a tu ordenador real; interactúa con el entorno aislado que le proporcionas.
Intérprete abierto (modo sistema operativo)
Open Interpreter es un agente de terminal de código abierto capaz de ejecutar código e interactuar con su sistema.
Se ejecuta en tu propio ordenador, por lo que puede usar tus archivos, programas y navegador directamente. Los usuarios se comunican con él en lenguaje natural, y Open Interpreter traduce sus instrucciones en acciones mediante la generación y ejecución de código. Antes de ejecutar cualquier código, Open Interpreter muestra lo que planea ejecutar y solicita tu aprobación.
Agente Simulador S/S3
Simular Agent S3 es un agente de usuario informático que funciona observando pantallas, planificando acciones y controlando el ratón y el teclado para completar tareas complejas. Forma parte del marco de trabajo abierto Agent S para la interacción autónoma con interfaces gráficas de usuario (GUI).
El método Behavior Best-of-N (bBoN) es fundamental para que el Agente S3 genere múltiples secuencias de acciones posibles ("despliegues"), en lugar de una sola ejecución. Cada despliegue se convierte en una descripción del comportamiento, que es un resumen sencillo de lo sucedido. Posteriormente, un paso de evaluación independiente selecciona la mejor ejecución.
Cua AI
Cua AI es un marco de código abierto que permite crear, ejecutar y probar agentes de IA para uso informático en diversos entornos de escritorio, integrando modelos de visión, modelos de razonamiento y entornos de sistema operativo aislados en un único sistema. Cua puede ejecutar agentes en la nube mediante entornos aislados remotos. También permite ejecutarlos localmente si se requiere mayor control o privacidad.
Cua también te ayuda a generar capturas de pantalla de la interfaz de usuario y registros de acciones de los agentes. Puedes grabar interacciones de varios pasos, crear datos de entrenamiento y ejecutar pruebas de rendimiento para ver qué tan bien se desempeñan los agentes.
Claude Cowork
Claude Cowork permite que Claude realice tareas complejas directamente en tu ordenador. Utiliza el mismo diseño de agente que Claude Code, pero se centra en tareas que involucran tus archivos y programas locales, en lugar de ofrecer respuestas breves por chat. Esta función se encuentra en fase de prueba y se ejecuta dentro de la aplicación Claude Desktop para macOS.
Limitaciones actuales:
- Solo disponible en macOS de escritorio.
- Claude no retiene la memoria entre sesiones.
- Los espacios de coworking aún no pueden compartir su trabajo con otros.
Prueba de referencia de OSWorld
Resultados para el uso de computadora IA ág.
Descargo de responsabilidad: El mismo modelo puede aparecer en diferentes posiciones porque OSWorld enumera los resultados según la configuración de evaluación completa ( marco del agente , modelo de puesta en tierra o planificación, configuración Best-of-N, número de ejecuciones y límite de pasos), e incluso pequeños cambios en estas configuraciones se tratan como entradas separadas con diferentes resultados de rendimiento.
Metodología
La prueba de rendimiento incluye 369 tareas reales (o 361 si se excluyen las tareas de Drive que requieren configuración manual). Las tareas abarcan aplicaciones web y de escritorio, operaciones con archivos del sistema operativo y flujos de trabajo multiaplicación. Cada tarea parte de un estado inicial reproducible y se combina con un script de evaluación personalizado basado en la ejecución, lo que garantiza una puntuación fiable.
Proceso de evaluación
Los agentes interactúan con un entorno de sistema operativo en vivo. El éxito se mide por las acciones reales del agente, no por los textos que genera. Los entornos admiten la ejecución en paralelo y sin interfaz gráfica, lo que permite realizar pruebas escalables.
Alcance de referencia
OSWorld admite tareas abiertas en diversas aplicaciones, entradas multimodales, flujos de trabajo entre aplicaciones y estados iniciales intermedios. En comparación con pruebas de rendimiento anteriores, ofrece una cobertura más amplia y condiciones más realistas.
Líneas de base y análisis
La herramienta de evaluación comparativa analiza modelos generales, modelos especializados y marcos de agentes en las familias LLM y VLM. Los resultados muestran una gran diferencia entre el rendimiento humano (~72 %) y el de los agentes actuales, lo que pone de manifiesto las dificultades en la fundamentación de la interfaz gráfica de usuario y el conocimiento operativo. OSWorld también permite un análisis detallado de los tipos de tareas, la complejidad de la interfaz de usuario, las entradas y los sistemas operativos.
Dos enfoques arquitectónicos para los modelos de uso de computadoras
Hoy en día, la mayoría de los agentes de uso de computadoras se ajustan a uno de dos patrones de diseño:
- Agentes de extremo a extremo (E2E)
- Agentes compuestos
Ambos tienen como objetivo completar tareas en una computadora. Se diferencian en cómo dividen la percepción, el razonamiento y la acción.
Agentes de extremo a extremo (E2E)
Los agentes de extremo a extremo utilizan un modelo de lenguaje visual para gestionar todo el ciclo. El modelo recibe una captura de pantalla y una descripción de la tarea. A continuación, genera directamente la siguiente acción.
No existe una frontera clara entre ver, razonar y actuar. Estos procesos se aprenden conjuntamente dentro del mismo modelo.
Cómo funcionan los agentes de extremo a extremo
Captura de pantalla + Tarea → Representación unificada → Acción
El modelo razona directamente sobre píxeles y texto. No crea una lista explícita de botones o campos. En cambio, aprende asociaciones entre patrones visuales y acciones durante el entrenamiento.
Fortalezas
- Diseño de sistema más sencillo
- Menos puntos de integración donde pueden producirse errores.
- Suele ser más estable en tareas largas.
Limitaciones
- Visibilidad limitada sobre por qué se eligió una acción.
- Es más difícil depurar cuando algo sale mal.
- Menor control sobre los pasos intermedios del razonamiento.
Implicaciones prácticas
Dado que la percepción y la planificación están estrechamente vinculadas, es menos probable que los pequeños errores visuales se conviertan en fallos totales. Cuando una acción no funciona, el agente puede reevaluar la pantalla actualizada y adaptarse.
Compromiso: Es difícil inspeccionar las decisiones intermedias o aislar la fuente de los fallos.
Agentes compuestos
Los agentes compuestos dividen el bucle de interacción en etapas separadas. Cada etapa es gestionada por un modelo o subsistema diferente.
Cómo funcionan los agentes de IA compuestos
Un proceso típico se ve así:
- Conexión a tierra: Detectar elementos de la interfaz gráfica de usuario a partir de la captura de pantalla.
- Planificación: Decide qué hacer a continuación
- Ejecución: Realizar tareas en el sistema.
Este diseño hace explícito cada paso.
Fortalezas
- Clara separación de responsabilidades
- Más fácil inspeccionar los resultados intermedios
- Más adecuado para la investigación y los experimentos controlados.
Limitaciones
- Mayor complejidad del sistema
- Los errores pueden propagarse entre componentes.
- Suele ser menos fiable en entornos de escritorio reales.
Implicaciones prácticas
Los agentes compuestos se basan en representaciones estructuradas de la pantalla, como botones o campos de texto detectados. Esto mejora la transparencia, pero también aumenta su vulnerabilidad. Si la información contextual es imprecisa, es probable que las decisiones de planificación fallen.
Desventaja : Las tareas largas son especialmente difíciles. Pequeñas discrepancias entre el estado percibido y el estado real de la pantalla pueden acumularse con el tiempo.
Componentes básicos de los agentes que utilizan ordenadores (CUA, por sus siglas en inglés)
Los agentes de uso de computadoras modernas se construyen utilizando tres componentes principales:
1. Modelos de lenguaje visual (VLM)
Los VLM individuales constituyen el núcleo de la mayoría de los agentes de extremo a extremo. Procesan capturas de pantalla e instrucciones conjuntamente y generan acciones directamente.
Captura de pantalla + Tarea → Espacio conjunto de visión y lenguaje → Acción
El modelo codifica las entradas visuales y textuales en un espacio interno compartido. En este espacio, aprende cómo se relacionan los patrones visuales con las acciones sin necesidad de etiquetas explícitas.
No existe un paso de puesta a tierra independiente. La comprensión de la interfaz de usuario y la planificación de tareas se producen de forma implícita y simultánea.
Implicaciones prácticas: Los VLM individuales reducen la complejidad arquitectónica y limitan la propagación de errores. Priorizan la robustez y la simplicidad sobre la transparencia y el control granular.
2. Modelos de puesta a tierra
Los modelos de enclavamiento se centran exclusivamente en la percepción y desempeñan un papel crucial en los agentes compuestos. Su función es traducir capturas de pantalla sin procesar en descripciones estructuradas de la interfaz del ordenador. No razonan sobre objetivos ni seleccionan acciones.
Captura de pantalla → Modelo de base → Representación estructurada de la interfaz de usuario
Los resultados suelen incluir:
- Elementos de interfaz de usuario detectados
- Ubicaciones espaciales (cuadros delimitadores)
- Etiquetas semánticas (botón, campo de entrada, texto)
- Texto extraído
Esta representación se transmite a un modelo de planificación.
Fortalezas
- Percepción clara y verificable
- Más fácil registrar y analizar fallos
- Mayor transparencia
Limitaciones
- Los errores se propagan aguas abajo
- Sensible a los cambios visuales y a los diseños dinámicos.
- Resulta difícil mantener la coherencia a lo largo de muchos pasos.
Implicaciones prácticas: La conexión a tierra suele ser el eslabón más débil en los sistemas compuestos. Los elementos faltantes o desactualizados pueden inducir a error en los modelos de planificación y provocar fallos reiterados.
Referencia de UI Grounding: Por qué la calidad visual es importante
Para aislar el papel de la percepción visual, nos basamos en un punto de referencia específico para la validación de la interfaz de usuario que evalúa la eficacia con la que los modelos identifican la ubicación exacta en píxeles de un elemento de la interfaz de usuario a partir de una instrucción en lenguaje natural.
Configuración de referencia
- 100 capturas de pantalla de escritorio
- 4 tipos de tareas: simple, relacional, dependiente del estado, interfaz de usuario densa
- 5 ensayos por muestra para medir la consistencia.
- Resolución fija: 2560×1440
Para obtener un conjunto de datos y una metodología más detallados, visite AIMultiple UI Grounding on HuggingFace.
Llevar
La correcta comprensión de la interfaz de usuario sigue siendo un obstáculo importante. La evidencia actual demuestra que una percepción visual sólida y una comprensión implícita de la interfaz de usuario son más importantes que una especialización limitada en la misma, especialmente para agentes informáticos fiables que operan en ordenadores de sobremesa reales.
Modelos de planificación
Los modelos de planificación determinan los siguientes pasos. Trabajan con datos estructurados de la interfaz de usuario, objetivos de tareas e historial de interacciones. No procesan imágenes sin procesar. Estos modelos desempeñan un papel crucial en la arquitectura del agente compuesto.
Interfaz de usuario estructurada + Objetivo de la tarea → Modelo de planificación → Siguiente acción
Los modelos de planificación pueden:
- Divide las tareas en pasos
- Seguimiento del progreso
- Aplicar reglas o heurísticas
- Razonamiento lógico explícito
Desafíos en la práctica
- Alta sensibilidad a los errores de entrada
Una conexión a tierra incorrecta conlleva planes erróneos. - Deriva de estado a lo largo del tiempo
Los cambios en la interfaz de usuario pueden invalidar suposiciones previas. - Recuperación de fallos limitada
Sin una retroalimentación sólida, los planificadores pueden entrar en un bucle o estancarse. - Desajustes en la ejecución
Los errores de sincronización, concentración o coordinación pueden arruinar los planes.
Implicaciones prácticas: Los modelos de planificación aportan estructura y transparencia, pero su eficacia depende en gran medida de una percepción precisa y una ejecución fiable.
Explicación de las características clave del agente de uso de la computadora
Entorno de ejecución
Define dónde se ejecuta el agente de uso del ordenador y cómo controla el sistema operativo (máquina virtual en la nube, máquina local o entorno de ejecución basado en contenedores).
Acceso al sistema local
Esto indica si el agente puede leer o escribir archivos en la máquina del usuario, no solo en un entorno aislado remoto. El acceso local es útil para flujos de trabajo personales, pero plantea mayores problemas de seguridad.
¿Cuál es la disyuntiva general entre los agentes de extremo a extremo y los agentes compuestos?
Actualmente, los agentes de extremo a extremo son más fiables para su uso directo en ordenadores personales. Su diseño unificado reduce los problemas de coordinación y los puntos de fallo.
Los agentes compuestos no son inherentemente más débiles. Ofrecen mayor flexibilidad, personalización e interpretabilidad. Sin embargo, requieren una base más sólida, una gestión de estado más rigurosa y una integración cuidadosa para funcionar correctamente en entornos reales.
La disyuntiva fundamental no radica en la capacidad, sino en la robustez frente al control .
¿Qué son los agentes de uso de computadoras?
Los agentes de usuario informático son sistemas diseñados para operar una computadora de manera similar a un ser humano. Observan la pantalla, deciden qué hacer e interactúan mediante acciones como hacer clic, escribir y desplazarse.
A primera vista, esto parece sencillo. En la práctica, es difícil. Los entornos de escritorio son dinámicos. Las interfaces cambian con frecuencia. No existen API fijas ni estructuras estables en las que basarse. Estos agentes deben trabajar a partir de lo que ven en la pantalla y razonar sobre ello en tiempo real.
A pesar de las diferentes implementaciones, la mayoría de los agentes de uso de computadoras siguen el mismo ciclo básico:
Observar → Interpretar → Decidir → Ejecutar
La forma en que se implementa este bucle determina la estabilidad, flexibilidad y fiabilidad de un agente en su uso real.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.