Agentes de uso de computador prometem operar desktops e aplicativos web reais, mas seus projetos, limitações e compensações muitas vezes não são claros. Examinamos os principais sistemas, analisando como funcionam, como aprendem e como suas arquiteturas diferem. Também utilizamos um benchmark focado em interfaces de usuário, baseado em 100 capturas de tela de desktops, abrangendo 4 tipos de tarefas e 5 execuções por amostra, que isola a qualidade da percepção visual e destaca por que modelos robustos de visão e linguagem são importantes mesmo para agentes de uso de computador complexos.
Consulte uma tabela de recursos, notas sobre a arquitetura, dicas práticas e resultados de benchmarks para ajudar os usuários a escolher ou criar o agente de uso do computador mais adequado:
Resultados de teste de ancoragem da interface do usuário
Para obter detalhes sobre a metodologia de avaliação comparativa, leia os detalhes da avaliação comparativa .
- Os modelos Qwen3-VL atingem uma precisão de ~90% , com baixo erro (≈7–9 px).
- Modelos especializados em interfaces de usuário, como o UI-TARS, têm um desempenho muito pior ( acurácia de aproximadamente 38% ) e apresentam alta variância e grandes erros, especialmente em interfaces densas e dependentes do estado.
- Interfaces de usuário densas e dependentes do estado são os casos mais difíceis para a maioria dos modelos.
Principais agentes de uso de computador
Consulte a seção de funcionalidades para obter informações sobre as funcionalidades na tabela e examine a seção de abordagens arquitetônicas para obter detalhes sobre a arquitetura dos agentes de uso do computador.
OpenAI Pré-visualização de uso do computador
O modelo `OpenAI's computer use-preview` é um modelo especializado criado para entender e executar tarefas de computador por meio da API de Respostas. Ele se concentra na entrada e saída de texto, com entrada de imagem opcional, mas não oferece suporte a áudio ou vídeo.
Anthropic Uso de computador por Claude
O recurso "Uso do Computador por Claude" é uma funcionalidade beta que permite a Claude interagir com um computador desktop ou com janelas, tal como uma pessoa faria. Funciona ao ver a tela, mover o cursor do mouse e digitar no teclado.
Claude não pode funcionar sozinho sem a configuração de um desenvolvedor. Ele não acessa automaticamente seu computador real; ele interage com o ambiente isolado (sandbox) que você fornece.
Interpretador aberto (modo SO)
O Open Interpreter é um agente de terminal de código aberto capaz de executar código e interagir com o seu sistema.
Ele é executado no seu próprio computador, podendo usar seus arquivos, programas e navegador diretamente. Os usuários se comunicam com ele em inglês simples, e ele traduz as instruções em ações, gerando e executando código. Antes de qualquer execução de código, o Open Interpreter exibe o que pretende executar e solicita sua aprovação.
Agente Simulador S/S3
O Simular Agent S3 é um agente de uso de computador que funciona observando telas, planejando ações e controlando o mouse e o teclado para concluir tarefas complexas. Ele faz parte da estrutura aberta Agent S para interação autônoma com interfaces gráficas de usuário (GUI).
O Behavior Best-of-N (bBoN) é um método fundamental que permite ao Agente S3 gerar múltiplas sequências de ações possíveis ("execuções"), em vez de uma única execução. Ele transforma cada execução em uma narrativa comportamental, que é um resumo simples do que aconteceu. Uma etapa de julgamento separada escolhe então a melhor execução.
Cua AI
Cua AI é uma estrutura de código aberto que permite criar, executar e testar agentes de IA para uso computacional em ambientes de desktop, integrando modelos de visão, modelos de raciocínio e ambientes de sistema operacional isolados em um único sistema. O Cua pode executar agentes na nuvem usando ambientes isolados remotos. Ele também permite executá-los localmente, caso você deseje maior controle ou privacidade.
O Cua também ajuda você a gerar capturas de tela da interface do usuário e registros de ações do agente. Você pode gravar interações de várias etapas, criar dados de treinamento e executar benchmarks para ver o desempenho dos agentes.
Claude Cowork
O Claude Cowork permite que o Claude execute tarefas complexas diretamente no seu computador. Ele utiliza o mesmo design de agente do Claude Code, mas com foco em tarefas que envolvem seus arquivos e programas locais, em vez de apenas fornecer respostas curtas por chat. Este recurso está em fase de pré-visualização para pesquisa e funciona dentro do aplicativo Claude Desktop para macOS.
Limitações atuais:
- Disponível apenas para macOS Desktop.
- Claude não retém a memória entre sessões.
- A Cowork ainda não pode compartilhar seu trabalho com outras pessoas.
benchmark OSWorld
Resultados para IA agente de uso de computador
Aviso: O mesmo modelo pode aparecer em classificações diferentes porque o OSWorld lista os resultados por configuração completa de avaliação ( estrutura do agente , modelo de planejamento ou de fundamentação, configuração Best-of-N, número de execuções e limite de etapas), e até mesmo pequenas alterações nessas configurações são tratadas como entradas separadas com resultados de desempenho diferentes.
Metodologia
O benchmark inclui 369 tarefas do mundo real (ou 361, excluindo as tarefas do Drive que exigem configuração manual). As tarefas abrangem aplicativos web e desktop, operações de arquivos do sistema operacional e fluxos de trabalho com vários aplicativos. Cada tarefa começa de um estado inicial reproduzível e é combinada com um script de avaliação personalizado baseado em execução, garantindo uma pontuação confiável.
Processo de avaliação
Os agentes interagem com um ambiente de sistema operacional em tempo real. O sucesso é medido pelo que o agente realmente faz, e não por saídas de texto. Os ambientes suportam execução paralela e sem interface gráfica, permitindo testes escaláveis.
Escopo de referência
O OSWorld suporta tarefas abertas em aplicações arbitrárias, entradas multimodais, fluxos de trabalho entre aplicações e estados iniciais intermediários. Comparado a benchmarks anteriores, oferece uma cobertura mais ampla e condições mais realistas.
Linhas de base e análise
O benchmark avalia modelos gerais, modelos especializados e frameworks de agentes nas famílias LLM e VLM. Os resultados mostram uma grande lacuna entre o desempenho humano (~72%) e os agentes atuais, destacando desafios na fundamentação da interface gráfica do usuário (GUI) e no conhecimento operacional. O OSWorld também permite análises detalhadas considerando tipos de tarefas, complexidade da interface do usuário, entradas e sistemas operacionais.
Duas abordagens arquitetônicas para modelos de uso de computadores
Atualmente, a maioria dos agentes de uso de computador se enquadra em um dos dois padrões de design:
- Agentes de ponta a ponta (E2E)
- Agentes Compostos
Ambos têm como objetivo realizar tarefas em um computador. Eles diferem na forma como dividem a percepção, o raciocínio e a ação.
Agentes de ponta a ponta (E2E)
Os agentes de ponta a ponta usam um modelo de visão e linguagem para lidar com todo o ciclo. O modelo recebe uma captura de tela e uma descrição da tarefa. Em seguida, ele gera a próxima ação diretamente.
Não existe uma fronteira clara entre ver, raciocinar e agir. Esses processos são aprendidos em conjunto, dentro do mesmo modelo.
Como funcionam os agentes E2E
Captura de tela + Tarefa → Representação Unificada → Ação
O modelo raciocina diretamente sobre pixels e texto. Ele não constrói uma lista explícita de botões ou campos. Em vez disso, aprende associações entre padrões visuais e ações durante o treinamento.
Pontos fortes
- Projeto de sistema mais simples
- Menos pontos de integração onde podem ocorrer erros.
- Geralmente mais estável em tarefas longas
Limitações
- Visibilidade limitada sobre os motivos da escolha de uma ação.
- Mais difícil depurar quando algo dá errado.
- Menos controle sobre as etapas intermediárias de raciocínio
Implicações práticas
Como a percepção e o planejamento estão intimamente ligados, pequenos erros visuais têm menos probabilidade de se transformarem em falhas completas. Quando uma ação não funciona, o agente pode reavaliar a tela atualizada e se adaptar.
Compensação: É difícil inspecionar decisões intermediárias ou isolar a origem das falhas.
Agentes compostos
Os agentes compostos dividem o ciclo de interação em estágios separados. Cada estágio é gerenciado por um modelo ou subsistema diferente.
Como funcionam os agentes de IA compostos
Um pipeline típico tem a seguinte aparência:
- Aterramento: Detectar elementos da interface gráfica do usuário a partir da captura de tela.
- Planejamento: Decida o que fazer a seguir
- Execução: Realizar tarefas no sistema
Este design torna cada etapa explícita.
Pontos fortes
- Separação clara de responsabilidades
- Mais fácil inspecionar as saídas intermediárias.
- Mais adequado para pesquisa e experimentos controlados.
Limitações
- Maior complexidade do sistema
- Os erros podem se propagar entre componentes.
- Frequentemente menos confiável em ambientes de desktop reais.
Implicações práticas
Os agentes compostos dependem de representações estruturadas da tela, como botões detectados ou campos de texto. Isso melhora a transparência, mas aumenta a fragilidade. Se o posicionamento for impreciso, as decisões de planejamento provavelmente falharão.
Compensação : Tarefas longas são especialmente desafiadoras. Pequenas discrepâncias entre o estado percebido e o estado real da tela podem se acumular ao longo do tempo.
Elementos fundamentais dos agentes que utilizam computadores (CUAs)
Os agentes de uso de computador modernos são construídos usando três componentes principais:
1. Modelos de visão-linguagem (VLMs)
Os VLMs individuais formam o núcleo da maioria dos agentes de ponta a ponta. Eles processam capturas de tela e instruções em conjunto e geram ações diretamente.
Captura de tela + Tarefa → Espaço Conjunto de Visão e Linguagem → Ação
O modelo codifica entradas visuais e textuais em um espaço interno compartilhado. Nesse espaço, ele aprende como os padrões visuais se relacionam com ações sem rótulos explícitos.
Não existe uma etapa de ancoragem separada. A compreensão da interface do usuário e o planejamento de tarefas ocorrem de forma implícita e simultânea.
Implicações práticas: Os VLMs individuais reduzem a complexidade arquitetônica e limitam a propagação de erros. Eles priorizam a robustez e a simplicidade em detrimento da transparência e do controle granular.
2. Modelos de aterramento
Os modelos de fundamentação focam-se exclusivamente na percepção e desempenham um papel crucial nos agentes compostos. Sua função é traduzir capturas de tela brutas em descrições estruturadas da interface do computador. Eles não raciocinam sobre objetivos nem selecionam ações.
Captura de tela → Modelo de Fundamentação → Representação Estruturada da Interface do Usuário
Os resultados geralmente incluem:
- Elementos de interface do usuário detectados
- Localizações espaciais (caixas delimitadoras)
- Rótulos semânticos (botão, campo de entrada, texto)
- Texto extraído
Essa representação é passada para um modelo de planejamento.
Pontos fortes
- Percepção clara e inspecionável
- Mais fácil de registrar e analisar falhas.
- Maior transparência
Limitações
- Os erros se propagam a jusante
- Sensível a mudanças visuais e layouts dinâmicos.
- É difícil manter a consistência ao longo de muitas etapas.
Implicações práticas: O aterramento costuma ser o elo mais frágil em sistemas complexos. Elementos ausentes ou desatualizados podem levar a modelos de planejamento equivocados e causar falhas repetidas.
Análise comparativa do UI Grounding: por que a qualidade visual é importante
Para isolar o papel da percepção visual, utilizamos como referência um benchmark de ancoragem de interface do usuário específico que avalia a precisão com que os modelos identificam a localização exata em pixels de um elemento da interface do usuário a partir de uma instrução em linguagem natural.
Configuração de benchmark
- 100 capturas de tela da área de trabalho
- 4 tipos de tarefas: interface de usuário simples, relacional, dependente de estado e densa.
- 5 repetições por amostra para medir a consistência.
- Resolução fixa: 2560×1440
Para obter um conjunto de dados e metodologia mais detalhados, visite AIMultiple UI Grounding no HuggingFace.
Remover
A fundamentação precisa da interface do usuário continua sendo um grande obstáculo. As evidências atuais mostram que uma percepção visual robusta e a compreensão implícita da interface do usuário são mais importantes do que uma especialização restrita na interface, especialmente para agentes confiáveis de uso do computador que operam em desktops reais.
Modelos de planejamento
Os modelos de planejamento determinam os próximos passos. Eles trabalham com dados estruturados da interface do usuário, objetivos da tarefa e histórico de interações. Não processam imagens brutas. Esses modelos desempenham um papel crucial na arquitetura de agentes composta.
Interface de usuário estruturada + Objetivo da tarefa → Modelo de planejamento → Próxima ação
Os modelos de planejamento podem:
- Divida as tarefas em etapas.
- Acompanhe o progresso
- Aplicar regras ou heurísticas
- Raciocínio logarítmico explícito
Desafios na prática
- Alta sensibilidade a erros de entrada
Um aterramento incorreto leva a planos falhos. - Desvio de estado ao longo do tempo
Alterações na interface do usuário podem invalidar suposições anteriores. - Recuperação limitada de falhas
Sem um feedback consistente, os planejadores podem ficar presos em ciclos repetitivos ou estagnados. - Incompatibilidades de execução
Erros de sincronização, concentração ou coordenação podem arruinar planos.
Implicações práticas: Os modelos de planejamento adicionam estrutura e transparência, mas sua eficácia depende muito de uma percepção precisa e de uma execução confiável.
Explicação das principais características do agente de uso do computador
Ambiente de execução
Define onde o agente de utilização do computador é executado e como ele controla o sistema operacional (máquina virtual na nuvem, máquina local ou ambiente de execução baseado em contêiner).
Acesso ao sistema local
Isso demonstra se o agente pode ler ou gravar arquivos na máquina real do usuário, e não apenas em um ambiente remoto isolado (sandbox). O acesso local é útil para fluxos de trabalho pessoais, mas levanta maiores preocupações de segurança.
Qual é a relação de compromisso geral entre agentes de ponta a ponta e agentes compostos?
Atualmente, os agentes de ponta a ponta são mais confiáveis para uso direto em computadores pessoais. Seu design unificado reduz problemas de coordenação e pontos de falha.
Agentes compostos não são inerentemente mais fracos. Eles oferecem maior flexibilidade, personalização e interpretabilidade. No entanto, exigem uma base mais sólida, um gerenciamento de estado mais rigoroso e uma integração cuidadosa para terem um bom desempenho em ambientes reais.
A principal questão não é a capacidade, mas sim a robustez versus o controle .
O que são agentes de utilização de computador?
Os agentes de utilização de computador são sistemas projetados para operar um computador de maneira semelhante a um ser humano. Eles observam a tela, decidem o que fazer e interagem por meio de ações como clicar, digitar e rolar a tela.
À primeira vista, isso parece simples. Na prática, é difícil. Os ambientes de desktop são dinâmicos. As interfaces mudam com frequência. Não existem APIs fixas ou estruturas estáveis nas quais se possa confiar. Esses agentes precisam trabalhar com base no que veem na tela e raciocinar sobre isso em tempo real.
Apesar das diferentes implementações, a maioria dos agentes de uso de computador segue o mesmo ciclo básico:
Observar → Interpretar → Decidir → Executar
A forma como esse ciclo é implementado determina o quão estável, flexível e confiável um agente será em uso real.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.