Avaliação em Mundo Aberto

Melhores 30+ Agentes Web de Código Aberto

atualizado em 25 jun. 2026

Testamos 30+ agentes web de código aberto em quatro categorias: agentes autônomos, controladores de uso do computador, raspadores web e frameworks de desenvolvimento.

Executamos benchmarks idênticos usando o conjunto de testes WebVoyager, que abrange 643 tarefas em 15 sites reais, para medir quais ferramentas realmente concluem tarefas web em várias etapas e quais falham quando os sites usam menus suspensos dinâmicos ou layouts pesados em JavaScript.

Loading Chart

Agentes Web de Código Aberto: Estrelas no GitHub

Veja as fontes dos benchmarks.

Benchmark WebVoyager: Metodologia

Agentes testados

Incluímos agentes que atenderam a todos os três critérios: código-fonte abertamente disponível, uma pontuação relatada no benchmark WebVoyager a partir da própria avaliação publicada pelo agente e manutenção ativa (último commit dentro de 6 meses da data da nossa revisão).

Browser-Use: ponte LLM-navegador, baseado em DOM com integração LangChain
Skyvern 2.0: Baseado em visão, arquitetura planejador-ator-validador, implantação em nuvem
Agent-E: Apenas DOM, sem modelos de visão, conjunto de dados completo de 643 tarefas
WebVoyager: Linha de base multimodal original, híbrido de GPT-4V + DOM

Os agentes listados no artigo mais amplo, mas sem pontuações publicadas do WebVoyager (Auto-GPT, AgenticSeek, OpenManus, LaVague e outros), foram avaliados qualitativamente quanto à arquitetura, modelo de implantação e capacidades declaradas. Eles não estão incluídos na comparação quantitativa.

Condições de teste

Cada equipe executou sua própria avaliação; não reexecutamos os testes de forma independente. As diferenças nas pontuações refletem parcialmente condições de teste diferentes:

Browser-Use testou 586 das 643 tarefas, removendo 55 com respostas desatualizadas (produtos descontinuados da Apple, datas de voos expiradas, receitas excluídas). Os testes foram executados em máquinas locais com endereços IP seguros. A integração LangChain e prompts de sistema reescritos foram aplicados antes dos testes.

Skyvern 2.0 testou 635 das 643 tarefas, removendo 8 com respostas inválidas e atualizou as datas de 2023/2024 em tarefas de viagem para 2025. Os testes foram executados no Skyvern Cloud usando navegadores em nuvem assíncronos – não máquinas locais. As condições de nuvem expõem os agentes a detecção de bots e desafios CAPTCHA que o teste local evita. As gravações completas dos testes estão disponíveis em eval.skyvern.com.

Agent-E testou o conjunto de dados completo de 643 tarefas sem modificações. Usou apenas análise DOM, sem modelos de visão. A linha de base de comparação foi o agente WebVoyager original, não o GPT-4o.

WebVoyager (original) testou o conjunto de dados completo usando capturas de tela GPT-4V mais DOM. Serve como a linha de base multimodal que o Agent-E superou usando apenas texto.

Pontuação

A conclusão da tarefa é binária: o agente completa toda a tarefa de várias etapas ou não. Não é concedido crédito parcial. Uma tarefa é marcada como concluída somente quando a saída final esperada (um preço, uma confirmação de reserva, um resultado de pesquisa) corresponde à verdade fundamental.

A taxa de aprovação é relatada como: tasks completed / tasks attempted × 100

Onde as equipes removeram tarefas do conjunto de dados, o denominador reflete seu conjunto reduzido, não as 643 originais.

O que essas pontuações significam na prática

As tarefas do benchmark WebVoyager são executadas em sites ao vivo em condições cooperativas, sem proteção agressiva contra bots, sem Cloudflare, sem DataDome. O Browser-Use e o Agent-E foram executados em máquinas locais com IPs equivalentes a residenciais. O Skyvern usou deliberadamente infraestrutura de nuvem para aproximar a realidade de produção. As taxas de sucesso no mundo real em sites de produção protegidos serão menores do que as pontuações de benchmark para todos os agentes.

O benchmark não mede velocidade, custo por tarefa ou resiliência a medidas anti-bot. Uma pontuação de 89.1% no WebVoyager não significa que o agente concluirá 89% das tarefas em um site de produção com proteção Cloudflare.

Limitações

Denominadores não comparáveis: O Browser-Use testou 586 tarefas, o Skyvern testou 635, o Agent-E testou 643. Uma pontuação mais alta em um conjunto menor não é diretamente comparável a uma pontuação mais baixa no conjunto completo.

Resultados autorrelatados: Todas as pontuações vêm da própria avaliação publicada de cada equipe. Não realizamos um reteste controlado com condições idênticas em todos os agentes.

Desvio do benchmark: O conjunto de tarefas do WebVoyager foi publicado em 2023. Várias tarefas fazem referência a produtos, preços e datas que não existem mais. As equipes trataram isso de forma diferente; algumas os removeram, enquanto outras atualizaram as datas, introduzindo inconsistência.

Diferença local vs. nuvem: O Browser-Use e o Agent-E testaram localmente (IPs seguros, sem detecção de bots). O Skyvern testou na nuvem (exposição real à proteção contra bots). A comparação direta das pontuações subestima a lacuna de produção para agentes testados localmente.

Sem dados de custo ou latência: O benchmark mede apenas a conclusão da tarefa. O custo por tarefa e o tempo médio de conclusão não são capturados nas pontuações do WebVoyager, embora sejam significativos para decisões de implantação em produção.

Instantâneo estático: As pontuações refletem as versões do agente e os estados dos sites no momento do teste. Ambos mudam com frequência; um redesenho de site ou atualização de agente pode alterar os resultados materialmente.

Principais Atualizações Recentes

Crise de Segurança: Distribuição de Malware OpenClaw

Mais de 400 "skills" maliciosos foram enviados para o ClawHub (mercado do OpenClaw) entre o final de janeiro e o início de fevereiro, distribuindo malware que rouba credenciais. A IBM, a Anthropic e a Palo Alto Networks emitiram avisos. Os pesquisadores de segurança agora recomendam o uso apenas de ambientes isolados e fontes verificadas.

Crescimento Viral do OpenClaw

O OpenClaw (anteriormente Moltbot/Clawdbot) alcançou 147.000 estrelas no GitHub, o projeto de IA de código aberto de crescimento mais rápido. É executado localmente, integra-se com plataformas de mensagens e usa o Model Context Protocol para mais de 100 serviços. A Cloudflare lançou o middleware Moltworker para apoiar sua infraestrutura.¹

Rede social exclusiva para IA lançada no final de janeiro, atingiu 1,5 milhão de agentes em poucos dias. Os agentes publicam e interagem autonomamente enquanto os humanos observam.²

Padronização do Model Context Protocol

O MCP tornou-se o protocolo dominante para integração agente-ferramenta, com mais de 100 servidores disponíveis. O gerenciamento e a governança agora são críticos para implantações empresariais.

Modelos NVIDIA Nemotron 3

A NVIDIA lançou a família Nemotron 3 (Nano, Super, Ultra) otimizada para IA agêntica, oferecendo 4x maior taxa de transferência. Inclui NeMo Gym e Agentic Safety Dataset no GitHub e no Hugging Face.³

Agentes Web Autônomos e Copilotos

Ferramentas que navegam em sites e concluem tarefas de várias etapas com orientação mínima.

Agentes Autônomos de Propósito Geral

OpenClaw (anteriormente Moltbot/Clawdbot): Execute isso em sua máquina local para automatizar tarefas em aplicativos de mensagens, calendários e e-mail. Diga "agende uma reunião com a equipe para a próxima terça-feira e envie convites de calendário", e ele lida com todo o fluxo de trabalho. Usa o Model Context Protocol para se conectar a mais de 100 serviços sem chamadas de API na nuvem.

Quem usa: Adotantes iniciais dispostos a gerenciar riscos de segurança para automação local. Usuários que desejam interfaces conversacionais para fluxos de trabalho de desktop.

Limitações:

Grandes vulnerabilidades de segurança no ecossistema de skills (400+ pacotes maliciosos em uma semana)
Ainda em desenvolvimento rápido com frequentes alterações que quebram a compatibilidade
Documentação inconsistente devido a múltiplos ciclos de rebranding
Intensivo em recursos (requer computação local significativa)

AgenticSeek: Substitua serviços comerciais baseados em nuvem por uma alternativa local que não envia dados de navegação para servidores externos. Instale-o em sua máquina, descreva o que você precisa ("extraia todos os preços de produtos desta página") e ele lida com cliques e coleta de dados. Baseado em Python, executado totalmente auto-hospedado.

Quem usa: Usuários preocupados com a privacidade que não compartilharão dados de navegação. Organizações com requisitos de residência de dados.

Limitações:

Limitado a concorrência em uma única máquina (5-10 instâncias de navegador)
Sem rotação de proxy integrada ou recursos anti-detecção
Requer configuração e manutenção do ambiente Python
Mais lento que as soluções em nuvem para tarefas em grande escala

Auto-GPT: Lida com navegação na web juntamente com operações de arquivo e execução de código. Implante através da interface do navegador ou da linha de comando. Quando você atribui uma tarefa como "pesquise preços de concorrentes e salve em uma planilha", ele determina quais sites visitar, quais dados recuperar e como organizar a saída.

Quem usa: Desenvolvedores que criam fluxos de trabalho de automação personalizados. Usuários confortáveis com ferramentas de linha de comando.

Limitações:

Falta de recursos específicos da web, como rotação de proxy e gerenciamento de cookies
Sem prevenção integrada de detecção de bots (sites com Cloudflare o bloquearão)
Intensivo em recursos (inicia várias instâncias do navegador)
Requer engenharia manual de prompts para tarefas complexas

AgentGPT: Configure agentes diretamente no seu navegador sem escrever código. Desenvolva agentes especializados como "ResearchGPT" ou "DataGPT" que decompõem metas em etapas. A plataforma lida com a orquestração. Você descreve o que deseja realizar. Auto-hospedável se você não quiser usar a versão hospedada deles.

Quem usa: Usuários não técnicos que precisam de automação simples. Equipes que desejam configurações de agente compartilhadas.

Limitações:

Personalização limitada em comparação com soluções codificadas
Gargalos de desempenho em tarefas complexas de várias etapas
A versão hospedada envia dados para seus servidores (auto-hospedagem necessária para privacidade)
Sem recursos avançados como fingerprinting de navegador ou manipulação de CAPTCHA

SuperAGI: Framework para construir agentes autônomos personalizados com modelos para fluxos de trabalho comuns. Estenda-o com sua própria lógica. Lida com automação do navegador como um componente de fluxos de trabalho maiores. Implante localmente ou envie para infraestrutura em nuvem.

Quem usa: Equipes de desenvolvimento que constroem sistemas de agentes de produção. Organizações que precisam de frameworks de automação personalizáveis.

Limitações:

Curva de aprendizado íngreme (requer entendimento da arquitetura de agentes)
Biblioteca de modelos ainda limitada (requer desenvolvimento personalizado para a maioria dos casos de uso)
Lacunas na documentação para recursos avançados
Desenvolvimento ativo significa alterações que quebram a compatibilidade entre versões

Nanobrowser: Abordagem de extensão do Chrome, instale-o e controle os agentes a partir da barra de ferramentas do navegador. Bom para tarefas rápidas como "extrair todos os e-mails desta página" ou "preencher este formulário com dados da minha planilha".

Quem usa: Usuários casuais que precisam de automação ocasional do navegador. Usuários que não configurarão servidores ou ambientes Python.

Limitações:

Não pode escalar além de algumas abas (sem processamento simultâneo)
Sem integração com pipelines de automação de backend
Limitado ao navegador Chrome
Permissões de extensão levantam preocupações de segurança

OpenManus: Alternativa de código aberto para serviços de automação de navegador comerciais. Executa tarefas de navegador que levam horas ou dias, como monitorar sites para mudanças de preço ou esperar que produtos voltem ao estoque. Implante localmente com Python e Docker, mantenha-o em execução em segundo plano.

Atualização recente: A DeepWisdom (empresa controladora do OpenManus) renomeou oficialmente sua tecnologia de agente principal para Atoms em meados de janeiro. O novo framework Atoms muda o foco de ferramentas de desenvolvedor hobby para implantação de agentes de nível comercial com módulos integrados para pagamentos e autenticação.⁴

Quem usa: Usuários que executam tarefas de monitoramento de longa duração. Desenvolvedores que constroem sistemas de notificação automatizados.

Limitações:

Requer configuração do Docker e Python
Sem suporte a proxy integrado (os sites detectarão solicitações repetidas do mesmo IP)
Vazamentos de memória em tarefas de longa execução (requer reinicializações periódicas)
Rebranding para Atoms pode causar confusão na documentação

Agentes de Uso do Computador

Automação de desktop que controla navegadores como uma peça de fluxos de trabalho mais amplos do computador.

OpenInterpreter: Agente baseado em terminal que executa scripts Python, JavaScript e shell com base no que você digita. Peça para "raspar este site e analisar os dados no pandas", e ele gera o código de raspagem, o executa e, em seguida, realiza a análise. A automação do navegador integra-se com o acesso ao sistema de arquivos e processamento de dados.

Quem usa: Desenvolvedores confortáveis com interfaces de terminal. Cientistas de dados que combinam raspagem web com fluxos de trabalho de análise.

Quando faz sentido: Você precisa de automação que abranja navegação web e computação local. Você deseja inspecionar e modificar o código gerado antes da execução. Seus fluxos de trabalho envolvem transformação de dados após a coleta.

Limitações:

Interface apenas de terminal (sem GUI)
Risco de segurança (executa código arbitrário em sua máquina)
Sem sandboxing por padrão (pode acessar qualquer arquivo ou recurso do sistema)
Curva de aprendizado para não programadores

UI-TARS: Framework de pesquisa acadêmica que tira capturas de tela do seu desktop, analisa-as com modelos de visão e gera comandos para controlar elementos da GUI. Construído para testar novas abordagens para automação de desktop, não para uso em produção.

Quem usa: Pesquisadores acadêmicos explorando automação baseada em visão. Laboratórios testando sistemas de controle multimodais.

Quando faz sentido: Você está conduzindo pesquisas sobre automação baseada em visão. Você precisa experimentar abordagens de análise de captura de tela. Você está escrevendo artigos acadêmicos sobre automação de GUI.

Limitações:

Não pronto para produção (protótipo de pesquisa)
Alta latência (o processamento do modelo de visão leva 2-3 segundos por ação)
Caro (o GPT-4V cobra por token de imagem)
Sem recuperação de erro ou lógica de repetição

AutoBrowser MCP: Servidor MCP que permite ao Claude controlar navegadores Chrome através do Model Context Protocol, fornecendo capacidades de interação com o navegador baseadas em visão. O Claude vê a tela do seu navegador, decide o que clicar e executa a ação. Funciona como uma extensão do Chrome mais um servidor local.

Quem usa: Usuários do Claude que desejam controle do navegador. Desenvolvedores que constroem sistemas de automação baseados em MCP.

Quando faz sentido: Você já está usando o Claude e deseja adicionar automação do navegador. Você prefere controle conversacional a APIs programáticas. A interação baseada em visão é necessária para layouts complexos.

Limitações:

Requer acesso à API do Claude (não disponível em todas as regiões)
Os custos do modelo de visão aumentam rapidamente
A latência é maior do que as abordagens baseadas em DOM
Limitado ao navegador Chrome

Open Operator: A resposta da equipe Browser-Use ao Operator da OpenAI. Fornece aos modelos de linguagem acesso direto ao Chrome através de uma visão simplificada do DOM. Execute-o no modo totalmente autônomo ou ative o modo de aprovação, no qual você confirma cada ação antes da execução. Instale via Python ou extensão do navegador.

Atualização recente: O Browser-Use anunciou integração estratégica com a Parallel IA no final de janeiro, permitindo pesquisas web multiencadeadas. A atualização permite que os agentes executem até 20 etapas de navegador por minuto, igualando ou excedendo o desempenho humano em tarefas de pesquisa complexas.⁵

Quem usa: Equipes já usando o framework Browser-Use. Organizações que desejam fluxos de trabalho de aprovação para ações de agente.

Quando faz sentido: Você precisa de navegação autônoma com supervisão humana. Seus fluxos de trabalho exigem velocidade (execução multiencadeada). Você está construindo no ecossistema Browser-Use.

Limitações:

Requer instalação do framework Browser-Use
O modo de aprovação desacelera significativamente a automação
Recursos anti-detecção limitados (sites com proteção contra bots o bloquearão)
Apenas Python (sem suporte a JavaScript/TypeScript)

Cowork (Anthropic): Ferramenta de desktop da Anthropic que dá ao Claude acesso direto a sistemas de arquivos e ambientes de navegador dentro de um aplicativo unificado. Expande a API de Uso do Computador para um produto voltado ao consumidor. Disponível para download; não está mais limitado à prévia de pesquisa. Proprietário, incluído aqui para comparação com alternativas de código aberto.

Agentes de Navegação Web

Foco específico em fluxos de trabalho de sites em várias etapas.

Agent-E: Lê o HTML da página para encontrar elementos clicáveis e caminhos de navegação. Usa "Destilação DOM" para reduzir as páginas a elementos interativos essenciais, além de "Colheita de Skills" para lembrar padrões bem-sucedidos. Pontuou 73,1% no benchmark WebVoyager usando texto puro, sem modelos de visão.

Quem usa: Organizações que priorizam custo sobre precisão. Desenvolvedores que constroem sistemas de automação baseados em DOM.

Quando faz sentido: Você precisa de automação rápida e barata em sites estáticos. Seus sites-alvo não usam formulários dinâmicos pesados em JavaScript. Você pode tolerar uma taxa de sucesso de 73% em troca de custos mais baixos.

Limitações:

Sem recuperação de erro integrada quando a estrutura do DOM muda inesperadamente
Dificuldade com formulários dinâmicos onde menus suspensos revelam novas opções com base nas seleções
O desempenho cai significativamente em sites pesados em JavaScript
Resultados ruins em sites de reservas

AutoWebGLM: Simplifica o HTML antes de alimentá-lo aos modelos de linguagem. Páginas complexas são reduzidas a elementos de navegação essenciais e campos de formulário. Usa aprendizado por reforço para melhorar as decisões de navegação ao longo do tempo. Executa auto-hospedado via Python.

Quem usa: Equipes de pesquisa explorando automação web baseada em RL. Organizações com recursos de computação para treinamento de modelo.

Quando faz sentido: Você pode investir no treinamento de modelos personalizados para seus sites específicos. Seus fluxos de trabalho são repetitivos o suficiente para se beneficiar da otimização RL. Você tem infraestrutura de ML Python.

Limitações:

Documentação limitada e suporte da comunidade
Requer fase de treinamento antes da implantação (não é plug-and-play)
Precisa de exemplos significativos para aprender políticas eficazes
Quebra quando os sites redesinham os layouts

Agentes de Navegação Baseados em Visão

Combinam capturas de tela com análise de texto para interpretar o layout visual da página.

Extensão Autogen WebSurfer: Conecte-se ao framework AutoGen da Microsoft para adicionar navegação web. Requer instalação do Playwright. O framework permite criar equipes de agentes, um agente pesquisa enquanto outro processa os resultados, e um terceiro interage com você.

Quem usa: Equipes que já usam o framework AutoGen. Usuários do ecossistema Microsoft.

Quando faz sentido: Você está construindo sistemas multiagentes dentro do AutoGen. Você precisa de colaboração orquestrada de agentes. Você deseja o suporte e a documentação da Microsoft.

Limitações reais:

Exemplos limitados e projetos da comunidade
Requer a adoção de todo o framework AutoGen (não pode ser usado de forma independente)
A sobrecarga do framework não vale a pena para tarefas de automação simples
Curva de aprendizado íngreme para orquestração multiagente

Skyvern: Sistema de três fases: o planejador divide as tarefas em etapas, o ator as executa, o validador confirma o sucesso. Captura capturas de tela para identificar visualmente botões e formulários. Essa abordagem aborda sites pesados em JavaScript nos quais o DOM muda após o carregamento da página. Pontuou 85,85% no WebVoyager. Implante auto-hospedado ou use sua nuvem gerenciada.

WebVoyager: O agente de benchmark original do artigo de 2024 que introduziu o conjunto de testes WebVoyager. Usa capturas de tela do GPT-4V juntamente com análise DOM em uma abordagem híbrida. Pontuou 57,1% no conjunto completo de 643 tarefas, a linha de base contra a qual os agentes subsequentes se medem. Não é mantido ativamente como uma ferramenta de produção; seu valor é como referência de pesquisa e ponto de origem do benchmark.

Quem usa: Organizações que precisam de alta precisão em aplicativos web modernos. Equipes dispostas a pagar custos de modelo de visão por melhores resultados.

Quando faz sentido: Seus sites-alvo usam JavaScript pesado e layouts dinâmicos. Você precisa de 85%+ de precisão. Você pode pagar custos 10-20x mais altos do que a análise DOM. Seus fluxos de trabalho justificam infraestrutura em nuvem.

Limitações:

A versão auto-hospedada requer computação significativa para modelos de visão
Caro (o GPT-4V cobra por token de imagem; cada visualização de página custa 10-20x mais do que a análise DOM)
Mais lento do que as abordagens DOM (2-3 segundos por página para processamento de visão)
A implantação em nuvem expõe você à detecção de bots

LiteWebAgent: Modelo de linguagem de visão com memória e planejamento que controla o Chrome através do Protocolo DevTools. Mantém o contexto entre carregamentos de página, lembrando o que viu nas páginas anteriores ao tomar decisões de navegação. Framework Python, implantação auto-hospedada.
Quem usa: Desenvolvedores que constroem agentes personalizados baseados em visão. Equipes que precisam de memória entre páginas.
Quando faz sentido: Seus fluxos de trabalho exigem lembrar informações em várias páginas. Você precisa de capacidades de visão, mas deseja mais controle do que o Skyvern. Você pode manter infraestrutura de ML Python.

Limitações:

Requer computação significativa para modelos de visão
A arquitetura de memória aumenta a complexidade e os modos de falha
Testes limitados em sites de produção com detecção de bots
Comunidade pequena (menos exemplos e integrações do que alternativas)

Deixe nossa equipe automatizar um dos seus processos de negócio com agentes de IA, gratuitamente.

Automatizar um processo

Ferramentas de habilitação de agentes

Frameworks que permitem que LLMs ou usuários enviem comandos para navegadores sem planejamento autônomo de tarefas.

Linguagem Natural para Ação Web

LaVague: você diz: "Clique no botão verde". O LaVague o encontra e clica nele. Lida com a identificação de elementos em diferentes layouts de página. Bom para tarefas repetitivas onde você sabe exatamente o que deseja, mas não quer escrever seletores. Baseado em Python, executa auto-hospedado.

ZeroStep: Transforma instruções conversacionais em código de teste Playwright. Você descreve a ação em inglês simples, e ele gera os comandos Playwright. Acelera a escrita de testes se você já estiver usando o Playwright. Ferramenta CLI Node.js.

Pontes LLM-Navegador

Conectam modelos de linguagem diretamente aos controles do navegador.

Browser-Use: Pega o DOM confuso e o reestrutura para LLMs. Remove elementos irrelevantes, rotula componentes interativos e fornece interfaces de controle. Foi isso que permitiu ao Browser-Use atingir 89,1% no WebVoyager. Disponível como uma biblioteca Python ou API, implante auto-hospedado ou use sua nuvem.

Browserless: Instâncias remotas do Chrome que você controla via REST ou WebSocket. Inicie centenas de navegadores na nuvem sem gerenciar infraestrutura. Cada navegador é executado sem cabeça, portanto, sem sobrecarga de GUI. Use sua API hospedada ou Docker para auto-hospedagem.

ZeroStep (Playwright IA): Camada de IA sobre o Playwright. Escreva prompts em vez de seletores. Combina a confiabilidade do Playwright com a flexibilidade do LLM para identificar elementos. Requer Node.js e instalação do Playwright.

Kits de Ferramentas de Automação e Raspagem Web

Ferramentas específicas para tarefas, onde você inicia cada trabalho individualmente.

Extensões de Automação de Navegador

PulsarRPA: Extensão do Chrome para extração de dados. Aponte-a para uma tabela ou lista, mostre o que extrair, e ela lida com o resto. Inclui backend para agendamento e armazenamento de resultados.

Quem usa: Usuários não técnicos que precisam de extração regular de dados. Analistas de negócios extraindo dados para planilhas.

Quando faz sentido: Você extrai dados dos mesmos sites repetidamente. Você não quer escrever código. Você precisa de agendamento e armazenamento de resultados. Seus sites-alvo não bloqueiam extensões do navegador.

Limitações:

Apenas Chrome (sem Firefox ou Safari)
Quebra quando os sites-alvo mudam os layouts
Sem suporte a proxy (os sites detectam solicitações repetidas do mesmo IP)
Limitado à extração de dados tabulares

VimGPT: Projeto experimental onde o GPT-4 Vision controla seu navegador através de atalhos de teclado Vimium. O modelo vê capturas de tela e gera comandos de teclado.

Quem usa: Pesquisadores explorando controle de visão + teclado. Entusiastas do Vim curiosos sobre automação de IA.

Quando faz sentido: Você está conduzindo pesquisas sobre automação baseada em teclado. Você busca entender as capacidades dos modelos de visão. Você não está implantando automação de produção.

Limitações:

Apenas experimental (não prático para trabalho real)
Requer extensão Vimium mais backend Python
Alta latência (processamento de visão + geração de comandos)
Caro (custos do GPT-4V por captura de tela)

Raspadores e Rastreadores de IA

Crawl4AI: Um rastreador que usa LLMs para decidir o que é importante em uma página. Em vez de pegar tudo, ele identifica o conteúdo relevante com base no seu objetivo. Baseado em Python, integra-se com bibliotecas padrão de raspagem.

Crescimento recente: Alcançou o primeiro lugar nos trending do GitHub e ultrapassou 58.000 estrelas. Otimizado para integração com LLM com saída em markdown e filtragem de conteúdo BM25. Escolha popular para pipelines RAG que exigem implantação local-first.⁶

Quem usa: Desenvolvedores que constroem sistemas RAG. Equipes que precisam de suporte local a LLM sem custos de API.

Quando faz sentido: Você está construindo aplicações LLM que precisam de dados web. Você deseja saída formatada em markdown. Você precisa de implantação local sem dependências de API em nuvem. Seu caso de uso envolve filtragem de conteúdo e classificação de relevância.

Limitações:

Requer LLM executando localmente ou via API (não independente)
Mais lento que raspadores tradicionais (processamento LLM por página)
Pode perder conteúdo importante se o LLM julgar incorretamente
Maior uso de recursos do que raspadores baseados em regras

FireCrawl: Converte sites em Markdown limpo ou JSON. Lida com navegação, renderização JavaScript e extração de conteúdo. Saída estruturada para alimentar janelas de contexto de LLM. Biblioteca Node.js ou CLI.

Quem usa: Desenvolvedores de aplicações LLM. Equipes que constroem sistemas de IA que processam conteúdo web.

Quando faz sentido: Você precisa de extração de texto limpo para processamento LLM. Seus sites-alvo usam renderização JavaScript. Você deseja saída estruturada (Markdown/JSON). Você está construindo aplicações Node.js.

Limitações:

Apenas Node.js (sem bindings Python)
Conversão opinativa para Markdown (pode perder a formatação que você precisa)
Personalização limitada das regras de extração
Sem limitação de taxa integrada ou anti-detecção

GPT-crawler: Rastreia sites e gera dados de treinamento para GPTs personalizados. Aponte-o para documentação ou uma base de conhecimento, ele extrai o conteúdo e o formata para ajuste fino. Ferramenta CLI Python.

Quem usa: Equipes que constroem modelos GPT personalizados. Organizações que criam assistentes de IA específicos de domínio.

Quando faz sentido: Você está ajustando modelos de linguagem. Você precisa de dados de treinamento estruturados de fontes web. Seu conteúdo é documentação ou bases de conhecimento. Você pode executar ferramentas CLI Python.

Limitações:

Formato de saída específico para ajuste fino de GPT (não de propósito geral)
Sem atualizações incrementais (re-rastreia todo o site para atualizações)
Manipulação limitada de autenticação ou paywalls
Assume estrutura de conteúdo estática

ScrapeGraphAI: Constrói grafos de conhecimento a partir de conteúdo rastreado. Bom para sites de documentação onde você precisa entender as relações entre conceitos. Gera resumos estruturados ou grafos de fatos. Implantação Python.

Quem usa: Equipes de gestão do conhecimento. Pesquisadores que constroem mapas conceituais a partir de conteúdo web.

Quando faz sentido: Você precisa de extração de relacionamentos, não apenas de conteúdo. Seus sites-alvo são documentação ou conteúdo educacional. Você está construindo bases de conhecimento ou mapas conceituais. Você tem infraestrutura Python.

Limitações:

Configuração complexa (requer banco de dados de grafos e modelos NLP)
Mais lento que raspadores simples (extração de entidades + mapeamento de relacionamentos)
A qualidade depende da estrutura do conteúdo de origem
Limitado a texto (não lida bem com tabelas ou imagens)

AutoScraper: Raspador que aprende por exemplo. Mostre a ele uma página com os dados que você deseja, ele descobre o padrão e o aplica a páginas semelhantes. Biblioteca Python leve para tarefas simples de extração.

Quem usa: Desenvolvedores que precisam de extração rápida sem escrever seletores XPath ou CSS. Equipes que prototipam fluxos de trabalho de raspagem.

Quando faz sentido: Suas páginas-alvo seguem padrões consistentes. Você não quer escrever seletores manualmente. Você precisa de protótipos rápidos. Seus sites não mudam layouts com frequência.

Limitações:

Quebra quando os layouts das páginas mudam
Limitado a estruturas de página semelhantes (não pode generalizar para sites diferentes)
Sem suporte a renderização JavaScript
Correspondência simples de padrões (sem raciocínio de IA sobre o conteúdo)

LLM Scraper: Envie uma página para um LLM e pergunte "Extraia todos os preços de produtos" ou "Encontre informações de contato". O modelo interpreta sua intenção e extrai dados relevantes. Flexível, mas mais caro que raspadores baseados em regras. Baseado em Python.

Quem usa: Equipes que precisam de extração flexível sem escrever regras. Desenvolvedores que constroem tarefas de extração únicas.

Quando faz sentido: As estruturas das páginas variam muito para extração baseada em regras. Você precisa de compreensão semântica ("encontre o nome do autor"). O custo não é sua principal preocupação. Você deseja desenvolvimento rápido sem engenharia de seletores.

Limitações:

Caro (custos de API de LLM por página)
Mais lento que raspadores baseados em regras (latência da API)
Pode extrair dados errados se o prompt não for claro
Sem garantia de extração consistente de campos entre páginas

Ferramentas de Pesquisa de IA

BingGPT: Interface de bate-papo que combina a pesquisa do Bing com respostas GPT. Faça perguntas, obtenha respostas com fontes. Aplicativo de desktop, não baseado em navegador.

BraveGPT: Extensão de navegador de IA que adiciona respostas GPT aos resultados de pesquisa do Brave. Veja os resultados de pesquisa tradicionais e um resumo de IA lado a lado. Sobrepõe-se diretamente nas páginas de pesquisa.

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

Frameworks de Controle Web para Desenvolvedores

Bibliotecas de baixo nível para controle programático do navegador.

Frameworks de Teste

Playwright: Automação entre navegadores da Microsoft. Suporta Chromium, Firefox, WebKit. Esperas integradas, interceptação de rede e emulação móvel. Disponível em JavaScript, Python, .NET e Java. Padrão da indústria para testes web modernos.

Selenium: O framework original de automação de navegador. Funciona em todos os principais navegadores. Ecossistema maior, mas arquitetura mais antiga. Bindings de linguagem para Python, Java, C#, Ruby, mais. Padrão de protocolo WebDriver.

taiko: Framework da ThoughtWorks com sintaxe legível. Bom para testes funcionais onde a legibilidade do teste é importante. Apenas Node.js.

Bibliotecas de Automação

Puppeteer: Biblioteca do Google para controlar o Chrome/Chromium. API de alto nível para capturas de tela, geração de PDF e raspagem. Funciona no ecossistema Node.js com TypeScript. Escolha padrão para automação headless do Chrome.

Browser-Use: Listado anteriormente como ponte LLM, mas também funciona como uma biblioteca de automação para desenvolvedores. Converte o DOM em um formato estruturado, lida com navegação e interação. Biblioteca Python com opção de API.

O que Torna Esses Agentes Web Diferentes

O Browser-Use pontuou 89,1% nos testes WebVoyager, enquanto o Agent-E atingiu 73,1% no conjunto de dados completo. O Browser-Use usa planejamento autônomo de tarefas com integração LangChain. O Agent-E analisa a estrutura do DOM diretamente sem modelos de visão, o que é executado mais rápido, mas tem dificuldades quando os sites usam menus suspensos dinâmicos ou revelam novas opções com base nas escolhas do usuário.

Níveis de Autonomia

Agentes totalmente autônomos como Browser-Use, Skyvern e Agent-E aceitam metas de alto nível ("encontre o voo mais barato para Paris") e planejam suas próprias etapas de navegação. Eles se adaptam a elementos inesperados como banners de cookies ou captchas. No entanto, cada decisão requer uma chamada de LLM, aumentando tanto o custo quanto o tempo de resposta.

Ferramentas de orientação passo a passo como LaVague e ZeroStep executam comandos específicos ("clique no botão de pesquisa", "insira texto no campo 2"). Execução mais rápida, pois pulam a sobrecarga de planejamento. Mas se um site redesenha seu layout, você precisa atualizar as instruções manualmente.

Frameworks de codificação manual como Playwright e Selenium exigem código explícito para cada clique, preenchimento de formulário e navegação. Os testes são executados de forma idêntica todas as vezes até que o site altere um ID de elemento ou nome de classe. Então os seletores quebram e você reescreve o código.

Como Eles Interpretam as Páginas

Processamento baseado em visão: O Skyvern 2.0, o WebVoyager e o VimGPT capturam capturas de tela e as enviam para modelos de visão como o GPT-4V. Eles identificam botões e formulários observando a página renderizada.

O Skyvern 2.0 na verdade usa um loop planejador-ator-validador. O planejador divide tarefas complexas em metas menores, o ator as executa e o validador confirma se cada meta foi bem-sucedida. Essa abordagem de três fases ajudou o Skyvern a saltar de 45% (versão de prompt único) para 68,7% (com planejador) para 85,85% (com validador verificando se as ações realmente funcionaram).

O processamento de visão funciona em sites pesados em JavaScript, onde o DOM é reconstruído após o carregamento da página. Mas o GPT-4V cobra por token de imagem, tornando cada visualização de página 10-20x mais cara do que a leitura do HTML. Os modelos de visão também adicionam 2-3 segundos por página em comparação com a análise DOM.

Análise DOM: O Browser-Use e o Agent-E leem o HTML da página diretamente. Eles escaneiam o código em busca de elementos clicáveis, campos de entrada e links de navegação.

O Agent-E usa "Destilação DOM" para reduzir páginas complexas a elementos essenciais, além de "Colheita de Skills" para lembrar e reutilizar padrões de interação bem-sucedidos. Ele superou o agente multimodal WebVoyager (que usa visão) em sites como Huggingface, Apple e Amazon usando apenas texto. Mas o planejamento do Agent-E fica fora de sincronia quando os sites revelam dinamicamente novas opções – como menus suspensos que mudam com base em suas seleções.

A análise DOM custa menos e é executada mais rapidamente. A precisão de 89,1% do Browser-Use vem em parte da integração LangChain e prompts atualizados, não apenas de pular chamadas de visão. Mas as abordagens DOM têm dificuldades quando os sites usam shadow DOM, nomes de classe ofuscados ou manipulação pesada de JavaScript.

Abordagem combinada: O LiteWebAgent e o AutoWebGLM analisam o DOM para estrutura e, em seguida, usam visão para verificar o que os usuários realmente veem. Mais preciso do que apenas DOM, mais barato do que visão pura, mas você está executando dois sistemas por página.

Especialização

O Auto-GPT e o AgenticSeek lidam com navegação web juntamente com operações de arquivo e execução de código. Eles carecem de recursos específicos da web, como rotação de proxy e gerenciamento de cookies, limitando a eficácia em sites com detecção de bots.

O Agent-E e o WebVoyager fazem apenas navegação web. O Agent-E alcançou 73,1% geral no conjunto completo de 643 tarefas do WebVoyager, superando os 57,1% do agente multimodal WebVoyager. Forte desempenho em sites como Wolfram (95,7%), Google Search (90,7%) e Google Maps (87,8%). Fraco em sites dinâmicos: apenas 27,3% no Booking.com e 35,7% no Google Flights, onde os menus suspensos e campos de formulário mudam com base nas seleções do usuário.

O Crawl4AI e o FireCrawl extraem dados e convertem páginas para Markdown ou JSON. Eles não preenchem formulários nem clicam em fluxos de trabalho. Use-os quando precisar de conteúdo em formato estruturado, não quando precisar concluir tarefas de várias etapas.

O Playwright e o Selenium automatizam testes de navegador. Eles produzem resultados idênticos entre execuções, essenciais para testes de regressão. Mas esse determinismo significa que eles não podem se adaptar. Quando um site muda, seu conjunto de testes quebra.

Opções de Implantação

Execução local: O AgenticSeek, o Nanobrowser e o OpenInterpreter são executados em sua máquina. Seus dados de navegação permanecem locais e você evita custos de API. Mas uma estação de trabalho típica lida com 5-10 instâncias de navegador simultâneas antes que a CPU/RAM atinja o limite.

APIs em nuvem: O Browserless fornece instâncias remotas do Chrome via REST ou WebSocket. Você pode iniciar centenas de sessões paralelas com rotação automática de proxy. Cada solicitação adiciona 100-300ms de latência em comparação com navegadores locais, e seu tráfego é roteado através de seus servidores, a menos que você auto-hospede com Docker.

Implantação flexível: O Skyvern é executado localmente durante o desenvolvimento e, em seguida, é implantado na nuvem para produção. Seu benchmark foi executado no Skyvern Cloud (não em máquinas locais) para testar condições do mundo real com navegadores em nuvem assíncronos e endereços IP realistas. A maioria dos benchmarks é executada em IPs locais seguros com boas impressões digitais de navegador, o que não corresponde à realidade da produção.

Padrões de Integração

O WebSurfer do AutoGen requer a adoção de todo o framework multiagente da Microsoft. Você obtém orquestração de agentes integrada e gerenciamento de memória, mas não pode integrá-lo facilmente com sistemas existentes.

O Browser-Use e o Playwright funcionam como bibliotecas independentes. Incorpore-os em qualquer projeto Python ou Node.js. Mas você construirá sua própria coordenação de agentes, tratamento de erros e armazenamento de resultados.

O Nanobrowser e o BraveGPT são instalados como extensões do Chrome. Não é necessária configuração de servidor, adicione ao navegador e comece. Não podem escalar além de algumas abas simultâneas e não se integram a pipelines de automação de backend.

Considerações de Produção

O Skyvern e o Browserless incluem suporte a proxy residencial, movimentos de mouse aleatórios e rotação de impressão digital do navegador. Esses recursos evitam banimentos de IP e acionamentos de CAPTCHA em sites protegidos.

O WebVoyager e o AutoWebGLM focam em algoritmos de navegação. O Agent-E alcançou 73,1% usando análise DOM apenas de texto, superando a abordagem multimodal de 57,1% do WebVoyager. Mas sites de produção com Cloudflare ou DataDome bloquearão agentes sem anti-detecção adequada.

Contexto importante do benchmark: O Browser-Use e o Agent-E executaram testes localmente com endereços IP seguros. O Skyvern executou especificamente seus testes em infraestrutura de nuvem para corresponder às condições reais de produção, onde você enfrenta detecção de bots, fingerprinting de navegador e desafios CAPTCHA. Os próprios testes de benchmark são executados em sites cooperativos sem proteção agressiva contra bots, portanto, as taxas de sucesso no mundo real serão menores do que esses números sugerem.

Fontes dos benchmarks

Browser-Use⁷
Skyvern 2.0⁸
Agent-E⁹
WebVoyager¹⁰

Cite esta pesquisa

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Cem Dilmegani (2026) - "Melhores 30+ Agentes Web de Código Aberto". Publicado on-line em AIMultiple.com. Acessado em 25 Junho 2026, em: https://aimultiple.com/open-source-web-agents [Recurso on-line]

Dilmegani, C. (2026, 25 Junho). Melhores 30+ Agentes Web de Código Aberto. AIMultiple. https://aimultiple.com/open-source-web-agents

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Melhores 30+ Agentes Web de Código Aberto}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/open-source-web-agents}},
  note   = {AIMultiple. Acessado em 25 Junho 2026}
}

Links de referência

Clawdbot to Moltbot to OpenClaw: The AI agent generating buzz and fear globally

CNBC

OpenClaw, Moltbook and the future of AI agents | IBM

NVIDIA Debuts Nemotron 3 Family of Open Models | NVIDIA Newsroom

Huawei announces all intelligence strategy to promote deep AI integration across industries

Browser Use Parallel AI - The Future of Web Search

Browser Use

Best open-source web crawlers in 2026

Firecrawl

Browser Use = state of the art Web Agent

Browser Use

Skyvern Browser Agent 2.0: How We Reached State of the Art in Evals

Skyvern Blog

[2401.13919] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

10.

[2401.13919] WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo