Benchmark

Agentes de uso de computadora: Benchmark y arquitectura

actualizado el 22 de jun. de 2026

Los agentes de uso de computadora prometen operar escritorios reales y aplicaciones web, pero sus diseños, límites y compensaciones a menudo no están claros. Examinamos los sistemas líderes desglosando cómo funcionan, cómo aprenden y cómo difieren sus arquitecturas. También hacemos referencia a un benchmark de anclaje de UI enfocado en 100 capturas de pantalla de escritorio, que abarca 4 tipos de tareas y 5 ejecuciones por muestra, lo cual aísla la calidad de la percepción visual y destaca por qué los modelos de visión-idioma fuertes importan incluso para los agentes de uso de computadora compuestos.

Consulte una tabla de características, notas de arquitectura, conclusiones prácticas y resultados de benchmark para ayudar a los usuarios a elegir o construir el agente de uso de computadora adecuado:

Resultados del benchmark de anclaje de UI

Loading Chart

Para detalles de la metodología del benchmark, lea los detalles del benchmark.

Los modelos Qwen3-VL alcanzan ~90% de precisión, con bajo error (≈7–9 px).
Los modelos especializados en UI como UI-TARS funcionan mucho peor (~38% de precisión) y muestran alta varianza y errores grandes, especialmente en interfaces dependientes del estado y densas.
Las UI dependientes del estado y densas son los casos más difíciles para la mayoría de los modelos.

Principales agentes de uso de computadora

Agente	Arquitectura	Entorno de ejecución	Acceso al sistema local
Claude Cowork	De extremo a extremo	Entorno de espacio de trabajo visual local	✅
OpenAI Vista previa de uso de computadora	De extremo a extremo	Ejecución de agente alojada en la nube a través de API	❌
Anthropic Claude Uso de computadora	De extremo a extremo	Sandbox local o en la nube (el cliente de API controla una VM)	❌
Open Interpreter (Modo OS)	Compuesto	Ejecución a nivel de sistema operativo local	✅
Simular Agent S/S3	Compuesto	El framework puede ejecutarse localmente o alojado (S/S3 de código abierto se ejecuta localmente)	❌ (pero la ejecución local es posible a través del framework de código abierto)
Cua IA	Compuesto	Sandbox en la nube + opciones de integración local	❌

Consulte la sección de características para las características de la tabla, y examine la sección de enfoques arquitectónicos para los detalles de la arquitectura de los agentes de uso de computadora.

OpenAI Vista previa de uso de computadora

La vista previa de uso de computadora de OpenAI es un modelo especializado diseñado para entender y ejecutar tareas de computadora a través de la API de Respuestas. Se centra en la entrada y salida de texto, con entrada de imagen opcional, pero no admite audio ni video.

Anthropic Claude Uso de computadora

Claude Uso de computadora es una función beta que permite a Claude interactuar con un entorno de escritorio o computadora con ventanas, tal como lo haría una persona. Funciona viendo la pantalla, moviendo el mouse y escribiendo en el teclado.

Claude no puede actuar por sí solo sin la configuración de un desarrollador. No accede automáticamente a su computadora real; interactúa con el sandbox que usted proporciona.

Open Interpreter (Modo OS)

Open Interpreter es un agente de terminal de código abierto capaz de ejecutar código e interactuar con su sistema.

Se ejecuta en su propia computadora, por lo que puede usar sus archivos, programas y navegador directamente. Los usuarios se comunican con él en inglés sencillo, y traduce sus instrucciones en acciones generando y ejecutando código. Antes de que se ejecute cualquier código, Open Interpreter muestra lo que planea ejecutar y solicita su aprobación.

Simular Agent S/S3

Simular Agent S3 es un agente de uso de computadora que funciona observando pantallas, planificando acciones y controlando el mouse y el teclado para completar tareas complejas. Es parte del framework abierto Agent S para la interacción autónoma de GUI.

Comportamiento Best-of-N (bBoN) es un método central que permite a Agent S3 generar múltiples secuencias de acciones posibles ("ejecuciones"), en lugar de una sola ejecución. Convierte cada ejecución en una narrativa de comportamiento, que es un resumen simple de lo que sucedió. Luego, un paso de juicio separado elige la mejor ejecución.

Cua IA

Cua IA es un framework de código abierto que permite construir, ejecutar y probar agentes de IA de uso de computadora en entornos de escritorio vinculando modelos de visión, modelos de razonamiento y entornos de sistema operativo en sandbox en un solo sistema. Cua puede ejecutar agentes en la nube usando sandboxes remotos. También le permite ejecutarlos localmente si desea más control o privacidad.

Cua también le ayuda a generar capturas de pantalla de UI y registros de acciones de agentes. Puede registrar interacciones de varios pasos, crear datos de entrenamiento y ejecutar benchmarks para ver qué tan bien funcionan los agentes.

Claude Cowork

Claude Cowork es una forma de tener que Claude realice trabajo complejo directamente en su computadora. Utiliza el mismo diseño de agente que Claude Code, pero con un enfoque en tareas que involucran sus archivos y programas locales, en lugar de solo proporcionar respuestas de chat cortas. Esta función está en vista previa de investigación y se ejecuta dentro de la aplicación Claude Desktop para macOS.

Límites actuales:

Solo disponible en macOS Desktop.
Claude no mantiene memoria entre sesiones.
Cowork aún no puede compartir su trabajo con otros.

Benchmark OSWorld

Resultados para IA agéntica de uso de computadora

Rango	Modelo y fecha	Enfoque y detalles	Tasa de éxito (Promedio±Desviación estándar)
1	agent s3 con Opus 4.5 + GPT-5 bBoN (N=10) Simular	Tipo: Framework agéntico Pasos máximos: 100 Ejecuciones: 1	72.6%
2	agent s3 con GPT-5 bBoN (N=10) Simular	Tipo: Framework agéntico Pasos máximos: 100 Ejecuciones: 1	69.9%
3	UiPath Screen Agent con Opus 4.5 UiPath	Tipo: Framework agéntico Pasos máximos: 100 Ejecuciones: 1	67.1%
4	agent s3 con Opus 4.5 bBoN (N=1) Simular	Tipo: Framework agéntico Pasos máximos: 100 Ejecuciones: 5	66.0%
5	OS-Symphony con GPT-5 Shanghai IA Laboratory	Tipo: Framework agéntico Pasos máximos: 50 Ejecuciones: 1	65.8%
6	UiPath Screen Agent con Opus 4.5 UiPath	Tipo: Framework agéntico Pasos máximos: 50 Ejecuciones: 1	64.4%
7	GBOX Agent GBOX.IA	Tipo: Framework agéntico Pasos máximos: 15 Ejecuciones: 1	64.2%
8	GTA1 con GPT-5 Salesforce y The Australian National University y The University of Hong Kong	Tipo: Framework agéntico Pasos máximos: 100 Ejecuciones: 1	63.4%
9	claude-sonnet-4-5-20250929 Anthropic	Tipo: Modelo general Pasos máximos: 100 Ejecuciones: 1	62.9%
10	agent s3 con GPT-5 bBoN (N=1) Simular	Tipo: Framework agéntico Pasos máximos: 100 Ejecuciones: 10	62.6%

Descargo de responsabilidad: El mismo modelo puede aparecer en diferentes rangos porque OSWorld lista los resultados por configuración completa de evaluación (framework de agente, modelo de anclaje o planificación, configuración Best-of-N, número de ejecuciones y límite de pasos), e incluso pequeños cambios en estas configuraciones se tratan como entradas separadas con diferentes resultados de rendimiento.

Metodología

El benchmark incluye 369 tareas del mundo real (o 361 excluyendo las tareas de Google Drive que requieren configuración manual). Las tareas abarcan aplicaciones web y de escritorio, operaciones de archivos de SO y flujos de trabajo de varias aplicaciones. Cada tarea comienza desde un estado inicial reproducible y se empareja con un script de evaluación basado en ejecución personalizado, asegurando una puntuación confiable.

Proceso de evaluación

Los agentes interactúan con un entorno de SO en vivo. El éxito se mide por lo que el agente hace realmente, no por las salidas de texto. Los entornos admiten ejecución paralela y sin cabeza, permitiendo pruebas escalables.

Alcance del benchmark

OSWorld admite tareas abiertas en aplicaciones arbitrarias, entradas multimodales, flujos de trabajo entre aplicaciones y estados iniciales intermedios. En comparación con benchmarks anteriores, ofrece una cobertura más amplia y condiciones más realistas.

Líneas base y análisis

El benchmark evalúa modelos generales, modelos especializados y frameworks agénticos en familias LLM y VLM. Los resultados muestran una gran brecha entre el rendimiento humano (~72%) y los agentes actuales, destacando los desafíos en el anclaje de GUI y el conocimiento operativo. OSWorld también permite un análisis detallado en tipos de tareas, complejidad de UI, entradas y sistemas operativos.

Dos enfoques arquitectónicos para modelos de uso de computadora

Hoy en día, la mayoría de los agentes de uso de computadora caen en uno de dos patrones de diseño:

Agentes de extremo a extremo (E2E)
Agentes compuestos

Ambos buscan completar tareas en una computadora. Difieren en cómo dividen la percepción, el razonamiento y la acción.

Agentes de extremo a extremo (E2E)

Los agentes de extremo a extremo utilizan un solo modelo de visión-idioma para manejar todo el bucle. El modelo recibe una captura de pantalla y una descripción de la tarea. Luego, genera la siguiente acción directamente.

No hay un límite claro entre ver, razonar y actuar. Estos procesos se aprenden juntos dentro del mismo modelo.

Cómo funcionan los agentes E2E

Captura de pantalla + Tarea → Representación unificada → Acción

El modelo razona directamente sobre píxeles y texto. No construye una lista explícita de botones o campos. En su lugar, aprende asociaciones entre patrones visuales y acciones durante el entrenamiento.

Fortalezas

Diseño de sistema más simple
Menos puntos de integración donde pueden ocurrir errores
A menudo más estable en tareas largas

Limitaciones

Visibilidad limitada sobre por qué se eligió una acción
Más difícil de depurar cuando algo sale mal
Menos control sobre los pasos intermedios de razonamiento

Implicaciones prácticas

Como la percepción y la planificación están estrechamente vinculadas, los pequeños errores visuales son menos propensos a escalar a fallos completos. Cuando una acción no funciona, el agente puede reevaluar la pantalla actualizada y adaptarse.

Compensación: Es difícil inspeccionar decisiones intermedias o aislar la fuente de fallos.

Deja que nuestro equipo automatice uno de tus procesos de negocio con agentes de IA, sin coste alguno.

Automatizar un proceso

Agentes compuestos

Los agentes compuestos dividen el bucle de interacción en etapas separadas. Cada etapa es manejada por un modelo o subsistema diferente.

Cómo funcionan los agentes de IA compuestos

Una pipeline típica se ve así:

Anclaje: Detectar elementos de interfaz gráfica de usuario desde la captura de pantalla
Planificación: Decidir qué hacer a continuación
Ejecución: Realizar tareas en el sistema

Este diseño hace que cada paso sea explícito.

Fortalezas

Separación clara de responsabilidades
Más fácil inspeccionar salidas intermedias
Más adecuado para investigación y experimentos controlados

Limitaciones

Mayor complejidad del sistema
Los errores pueden propagarse entre componentes
A menudo menos confiable en entornos de escritorio reales

Implicaciones prácticas

Los agentes compuestos dependen de representaciones estructuradas de la pantalla, como botones detectados o campos de texto. Esto mejora la transparencia pero añade fragilidad. Si el anclaje es inexacto, las decisiones de planificación probablemente fallarán.

Compensación: Las tareas largas son especialmente desafiantes. Pequeñas discrepancias entre el estado percibido y real de la pantalla pueden acumularse con el tiempo.

Bloques de construcción principales de agentes de uso de computadora (CUAs)

Los agentes modernos de uso de computadora se construyen utilizando tres componentes principales:

1. Modelos de visión-idioma (VLMs)

Los VLMs individuales forman el núcleo de la mayoría de los agentes de extremo a extremo. Procesan capturas de pantalla e instrucciones juntos y generan acciones directamente.

Captura de pantalla + Tarea → Espacio conjunto de visión-idioma → Acción

El modelo codifica entradas visuales y textuales en un espacio interno compartido. En este espacio, aprende cómo los patrones visuales se relacionan con las acciones sin etiquetas explícitas.

No hay un paso de anclaje separado. La comprensión de la UI y la planificación de tareas ocurren implícita y simultáneamente.

Implicaciones prácticas: Los VLMs individuales reducen la complejidad arquitectónica y limitan la propagación de errores. Favorecen la robustez y la simplicidad sobre la transparencia y el control fino.

2. Modelos de anclaje

Los modelos de anclaje se centran únicamente en la percepción y juegan un papel crucial en los agentes compuestos. Su trabajo es traducir capturas de pantalla crudas en descripciones estructuradas de la interfaz de computadora. No razonan sobre objetivos ni seleccionan acciones.

cómo se usa el modelo de anclaje en agentes de uso de computadora

Captura de pantalla → Modelo de anclaje → Representación estructurada de UI

Las salidas a menudo incluyen:

Elementos de UI detectados
Ubicaciones espaciales (cajas delimitadoras)
Etiquetas semánticas (botón, campo de entrada, texto)
Texto extraído

Esta representación se pasa a un modelo de planificación.

Fortalezas

Percepción clara e inspeccionable
Más fácil registrar y analizar fallos
Mejor transparencia

Limitaciones

Los errores se propagan aguas abajo
Sensible a cambios visuales y diseños dinámicos
Difícil mantener la consistencia en muchos pasos

Implicaciones prácticas: El anclaje a menudo es el eslabón más débil en los sistemas compuestos. Elementos faltantes o desactualizados pueden engañar a los modelos de planificación y causar fallos repetidos.

Benchmark de anclaje de UI: Por qué importa la calidad de la visión

Para aislar el papel de la percepción visual, hacemos referencia a un benchmark de anclaje de UI enfocado que evalúa qué tan bien los modelos identifican la ubicación exacta en píxeles de un elemento de UI a partir de una instrucción en lenguaje natural.

Configuración del benchmark

100 capturas de pantalla de escritorio
4 tipos de tareas: simple, relacional, dependiente del estado, UI densa
5 ejecuciones por muestra para medir la consistencia
Resolución fija: 2560×1440

Para un conjunto de datos y metodología más detallados, visite AIMultiple UI Grounding en HuggingFace.

Conclusión
El anclaje preciso de UI sigue siendo un gran cuello de botella. La evidencia actual muestra que la percepción visual robusta y la comprensión implícita de la UI importan más que la especialización estrecha de la UI, especialmente para agentes de uso de computadora confiables que operan en escritorios reales.

Modelos de planificación

Los modelos de planificación determinan los siguientes pasos. Trabajan con datos de UI estructurados, objetivos de tareas e historial de interacción. No procesan imágenes crudas. Estos modelos juegan un papel crucial en la arquitectura de agentes compuestos.

UI estructurada + Objetivo de tarea → Modelo de planificación → Siguiente acción

Los modelos de planificación pueden:

Dividir tareas en pasos
Rastrear el progreso
Aplicar reglas o heurísticas
Registrar el razonamiento explícitamente

Desafíos en la práctica

Alta sensibilidad a errores de entrada
Un anclaje incorrecto conduce a planes defectuosos.
Deriva del estado con el tiempo
Los cambios en la UI pueden invalidar suposiciones anteriores.
Recuperación de fallos limitada
Sin retroalimentación sólida, los planificadores pueden entrar en bucle o detenerse.
Discrepancias de ejecución
Errores de tiempo, enfoque o coordinación pueden romper los planes.

Implicaciones prácticas: Los modelos de planificación añaden estructura y transparencia, pero su efectividad depende en gran medida de una percepción precisa y una ejecución confiable.

No te pierdas nuestros análisis comparativos e insights basados en datos. El botón abre Google; seleccionar AIMultiple confirma que deseas ver AIMultiple con más frecuencia en los resultados de búsqueda de Google.

Añadir como fuente preferida

Explicación de las características clave de los agentes de uso de computadora

Entorno de ejecución

Define dónde se ejecuta el agente de uso de computadora y cómo controla el sistema operativo (VM en la nube, máquina local o entorno de ejecución basado en contenedores).

Acceso al sistema local

Esto muestra si el agente puede leer o escribir archivos en la máquina real del usuario, no solo en un sandbox remoto. El acceso local es útil para flujos de trabajo personales pero plantea mayores preocupaciones de seguridad.

¿Cuál es la compensación general entre agentes E2E y compuestos?

Los agentes de extremo a extremo son actualmente más confiables para uso directo en computadoras personales. Su diseño unificado reduce problemas de coordinación y puntos de fallo.

Los agentes compuestos no son inherentemente más débiles. Ofrecen mayor flexibilidad, personalización e interpretabilidad. Sin embargo, requieren un anclaje más fuerte, una gestión de estado más estrecha e integración cuidadosa para funcionar bien en entornos reales.

La compensación central no es la capacidad, sino robustez versus control.

¿Qué son los agentes de uso de computadora?

Los agentes de uso de computadora son sistemas diseñados para operar una computadora de manera similar a un humano. Miran la pantalla, deciden qué hacer e interactúan a través de acciones como hacer clic, escribir y desplazarse.

A primera vista, esto suena simple. En la práctica, es difícil. Los entornos de escritorio son dinámicos. Las interfaces cambian a menudo. No hay APIs fijas ni estructuras estables en las que confiar. Estos agentes deben trabajar con lo que ven en la pantalla y razonar sobre ello en tiempo real.

A pesar de las diferentes implementaciones, la mayoría de los agentes de uso de computadora siguen el mismo bucle básico:

Observar → Interpretar → Decidir → Ejecutar

Cómo se implementa este bucle determina qué tan estable, flexible y confiable es un agente en uso real.

Cita este benchmark

Elige el formato que se ajuste al lugar donde vas a publicar. Pegar la versión con enlace en tu CMS conserva el enlace de retroceso.

Cem Dilmegani (2026) - "Agentes de uso de computadora: Benchmark y arquitectura". Publicado en línea en AIMultiple.com. Recuperado el 22 de Junio de 2026, de: https://aimultiple.com/computer-use-agents [Recurso en línea]

Dilmegani, C. (2026, 22 de Junio). Agentes de uso de computadora: Benchmark y arquitectura. AIMultiple. https://aimultiple.com/computer-use-agents

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Agentes de uso de computadora: Benchmark y arquitectura}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/computer-use-agents}},
  note   = {AIMultiple. Recuperado el 22 de Junio de 2026}
}

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo