Os agentes de IA são cada vez mais comercializados como trabalhadores digitais completos, mas o desempenho no mundo real pode variar bastante dependendo da tarefa, das ferramentas e do ambiente de execução. Para entender o que esses sistemas realmente podem oferecer hoje, realizamos testes práticos de benchmarking em cenários de negócios reais.
Passamos mais de 40 horas testando os 5 melhores agentes de IA para ver se eles podem nos ajudar em
Resultados de benchmark do fluxo de trabalho empresarial
O agente ChatGPT foi o mais bem-sucedido neste teste comparativo, concluindo 80% da tarefa.
Agente ChatGPT
O Agente ChatGPT foi projetado para conectar o Operador OpenAI e pesquisas aprofundadas, permitindo que o agente execute tarefas longas que exigem recursos analíticos. O Operador OpenAI foi descontinuado com o lançamento do Agente ChatGPT.
Isso permite ao usuário assumir o controle do login em contas ou da execução de tarefas que são difíceis para o agente.
Exibe o navegador que está sendo usado em tempo real e explica as ações que estão sendo executadas.
O agente lidou com sucesso com a navegação, o redirecionamento e as atualizações do gráfico, mas não conseguiu atualizar a configuração dos botões conforme instruído, especificamente criando botões para cada categoria de dados, mantendo o estilo e a funcionalidade existentes.
Google Projeto Mariner
O Projeto Mariner ainda não está disponível publicamente, mas pode ser testado com permissão após entrar na lista de espera. Ele funciona diretamente no navegador como uma extensão do Chrome. Pode ser usado como um processo com intervenção humana. Por exemplo, quando um CAPTCHA aparece na tela, o Mariner pede ao usuário que assuma o controle e resolva o CAPTCHA.
Uso do navegador
O Browser Use é um agente de IA de código aberto que você pode usar com suas chaves de API.
Você pode acompanhar as ações do agente na aba do navegador que ele abre, e também pode ler algumas das saídas dessas ações no seu terminal. 1
O sistema fez login no observablehq.com e criou um fork do modelo com sucesso. No entanto, em seguida, excluiu o modelo original. Não conseguiu nomear o notebook criado corretamente. Sugerimos que mantivesse a célula de estilo como estava, mas não obteve sucesso ao tentar inserir o código de dados na célula. Também não conseguiu alterar o código do gráfico nem o código do botão.
Usamos o recurso de uso do navegador com a chave de API ChatGPT-4o.
O uso do navegador também pode ser feito em uma interface web, mas nesta tarefa, não o utilizamos. 2
Anthropic Uso do computador
O projeto Anthropic foca na segurança da IA, e observamos esses esforços em seu agente. Tentamos de todas as maneiras possíveis, mas o agente não conseguiu acessar nossa conta ObservableHQ. Ele recusou o acesso por motivos de segurança.
Além disso, não é possível assumir o processo do agente e deixá-lo continuar, uma vez que usamos o ambiente virtual recomendado por Anthropic.
Portanto, o agente recebeu 0 pontos em nossa tarefa, já que não conseguiu prosseguir.
Análise comparativa de fluxo de trabalho empresarial e preços de agentes de IA.
Anthropic O uso do computador requer chaves de API, o que pode torná-lo mais caro para tarefas longas do que outras opções.
O ChatGPT Agent pode ser usado com uma conta ChatGPT.
O Browser Use é uma ferramenta de código aberto cujo único custo são as chamadas à API.
Metodologia para avaliação comparativa de fluxos de trabalho empresariais
Nosso objetivo era testar se os agentes poderiam auxiliar no fluxo de trabalho da nossa empresa. Queríamos testar um exemplo real da nossa organização, então decidimos verificar se eles conseguiam gerar os gráficos interativos que criamos no observablehq.com.
Com essa tarefa, nosso objetivo era avaliar o uso de ferramentas e as habilidades de programação deles.
Embora tenhamos alguns modelos de gráficos, a alteração de dados exige a modificação dos trechos de código tanto dos gráficos quanto dos botões.
Fornecemos a eles a seguinte instrução:
# Instruções para atualização do modelo observável
Tenho um modelo de gráfico no observablehq.com e, usando esse modelo, quero que você crie novos gráficos com os novos dados que eu fornecerei. Aqui estão as instruções:
1. Acesso e Configuração
– Acesse observablehq.com
– Localize o modelo chamado “vis_template” e faça um fork dele, nomeando o fork como “new_graph1”, na seção de notebooks.
2. Estrutura do Modelo
– Célula de estilo: Não modificar (contém configurações de fonte)
– Célula de botões: Deve ser atualizada com base em novos dados
– Célula do gráfico: Deve ser atualizada com base em novos dados.
3. Tratamento de Dados
– Você receberá dados com as plataformas e suas respectivas pontuações em diferentes categorias.
– Tanto os nomes das plataformas quanto os nomes das categorias nos dados podem ser diferentes do modelo.
– A estrutura de dados será sempre: plataformas com pontuações (0-1) para cada categoria.
4. Atualizações necessárias
– Botões:
* Crie um botão para cada categoria nos novos dados.
* Mantenha “Geral” como o primeiro botão
* Manter o estilo dos botões e o design responsivo existentes
– Gráfico:
* Atualizar os nomes das plataformas no eixo y
* Atualize todos os valores de pontuação e cálculos
* Manter o esquema de cores e as animações existentes
* Manter a responsividade em dispositivos móveis (ponto de interrupção < 500px)
5. Requisitos de teste
– Verifique se todos os botões funcionam corretamente.
– Verifique as atualizações do gráfico quando as categorias forem selecionadas.
– Testar o layout responsivo nas visualizações para dispositivos móveis e computadores.
– Garantir que o posicionamento do logotipo permaneça correto com os novos dados.
Lembre-se: a estrutura e o estilo do modelo devem permanecer inalterados – atualize apenas os dados e os elementos necessários relacionados à categoria.
Aqui estão os novos dados a serem usados: dados = [
{ plataforma: “AcmeOCR”, Documentos_digitalizados: 0,95, Texto_digital: 0,99 },
{ plataforma: “TextPro”, documentos_digitalizados: 0,92, texto_digital: 0,97 },
{ plataforma: “DocReader”, documentos_digitalizados: 0,88, texto_digital: 0,96 },
{ plataforma: “SmartScan”, documentos_digitalizados: 0,85, texto_digital: 0,94 }
]
Para manter a objetividade, não fornecemos mais perguntas. Respondemos apenas com " Sim " quando questionados se queríamos continuar e inserimos nossas credenciais para acessar o observablehq.com.
Critérios de avaliação :
- Faça login – ou peça ao usuário para acessar sua conta no observablehq.com. (10 pontos)
- Encontrando o modelo (10 pontos)
- Forke (10 pontos)
- Mude o nome (10 pontos)
- Não alterar a célula de estilo. (5 pontos)
- Atualizando os dados no código (15 pontos)
- Atualizando o código do gráfico (20 pontos)
- Atualizando o código do botão (20 pontos)
Tenha cautela ao usar agentes de IA em suas próprias contas. Isso pode causar problemas de segurança ou atividades indesejadas.
Resultados de referência de pesquisa na Web
Para investigar os casos de uso de agentes de IA em negócios, utilizamos duas tarefas diferentes de web scraping. Todos os agentes falharam na maioria das tarefas. O uso de computadores e o Dendrite tiveram um desempenho ligeiramente melhor do que o Phidata.
Para saber mais sobre web scraping, você pode ler Roadmap to Web Scraping: Use Cases, Methods & Tools e RPA Web Scraping .
Tarefa 1:
Solicitação: Forneça todos os provedores de GPUs em nuvem que oferecem H100. Precisamos de todas as ofertas de H100 de cada provedor. Portanto, um provedor de GPU pode ser apresentado em várias linhas se oferecer várias opções de GPU H100 (por exemplo, uma oferta com uma única H100 e outra com duas). Para cada linha, precisamos dos seguintes dados: URL onde a oferta é compartilhada, número de GPUs como um número inteiro e preço por hora em decimal (em dólares). O resultado deve ser um arquivo JSON.
Avaliamos suas capacidades para
Encontre todas as fontes corretas (Figura 1)
Forneça informações corretas (Figura 2).
Tarefa 2:
Instruções: Encontre empresas privadas de tecnologia B2B que receberam financiamento em outubro de 2024. Formate cada resultado como: [Company name] recebeu [amount] em [setor/indústria].
Nesta tarefa, o uso do computador Anthropic (Figura 3) e o Phidata (Figura 4) não conseguiram fornecer respostas.
A busca do ChatGPT retornou 7 empresas, das quais 6 estão corretas. No entanto, uma empresa foi listada como tendo captado recursos em agosto de 2024, o que não atende ao nosso requisito de empresas que captaram recursos em outubro de 2024. Portanto, essa informação está incorreta.
A Dendrite indicou corretamente duas empresas, embora existam muitas mais. Isso ocorre porque ela se baseou em resultados incompletos do mecanismo de busca.
O número Perplexity forneceu informações sobre 6 empresas, e embora seus nomes, valores arrecadados e setores de atuação estejam corretos, nenhuma delas concluiu a captação de recursos em outubro de 2024. Portanto, essas informações não atendem aos nossos requisitos.
Assim, os líderes dessa tarefa são a busca do ChatGPT e o Dendrite.
Anthropic Uso do computador
O uso do computador gera inúmeras chamadas de API para uma única tarefa. Executar um agente com uso do computador é lento.
Inicialmente, encontramos problemas devido aos limites de taxa do Anthropic. No Nível 1, o Anthropic permite que os usuários façam 50 solicitações de API por minuto. Isso não foi suficiente para concluir nossas tarefas, então precisamos executar o prompt várias vezes.
Em seguida, solicitamos um limite de API mais alto e o recebemos em poucas horas, o que facilitou a realização de testes comparativos.
Perplexity
A ferramenta de busca do Perplexity está acessível diretamente em seu site. Assim como a busca do ChatGPT, ela não é uma IA ativa, mas optamos por incluí-la em nossos testes, visto que nossa tarefa de referência envolve web scraping.
Pesquisa ChatGPT
O recurso de busca do ChatGPT está disponível para usuários Pro e de equipe diretamente na interface do ChatGPT. Embora não seja uma IA ativa, incluímos o recurso em nossos testes porque o foco deste benchmark é a extração de dados da web.
Dendrito
A Dendrite fornece exemplos de agentes, como agentes de extração de dados, em seu site, o que facilita a criação de novos agentes.
Os agentes da Dendrite estão apresentando desempenho mais lento do que a maioria dos outros agentes neste teste de desempenho.
Diferentemente de outros agentes, ele exige que os usuários insiram a consulta de pesquisa.
Phidata
A Phidata fornece exemplos, como agentes de busca na web, em seu site para facilitar a criação de novos agentes. Desenvolvemos um agente em minutos.
Os resultados alucinatórios dos agentes da Phidata em nossa análise comparativa forneceram links para páginas e informações de preços que não existem.
comparação de preços de agentes de IA em pesquisas na web
O custo do uso do computador (Anthropic) é baseado em requisições à API. Por exemplo, gastamos aproximadamente US$ 2,50 para executar essas duas tarefas, executando cada uma algumas vezes. US$ 0,50 por execução de tarefa é caro. Se você deseja usar automação de processos baseada em agentes , pode encontrar opções mais econômicas.
A funcionalidade de busca do ChatGPT está disponível para usuários assinantes dos planos Plus e Team, com preços de US$ 20 por mês e US$ 25 por usuário por mês (cobrança anual), respectivamente.
A Dendrite oferece um plano gratuito limitado e um plano para desenvolvedores com o preço de US$ 30. Os detalhes específicos sobre as limitações do plano gratuito serão atualizados assim que forem oficialmente divulgados.
A Phidata oferece planos gratuitos, profissionais e empresariais. Planos que não sejam gratuitos ainda não estão disponíveis. Além disso, a empresa afirma que disponibilizará um plano profissional gratuito para estudantes, educadores e startups.
Nossa metodologia para avaliação comparativa de buscas na web
Versões : A versão mais recente está disponível desde 1º de novembro de 2024.
Ambiente de implantação:
Os programas Dendrite e Phidata foram executados em nosso laptop.
Anthropic O uso do computador foi implementado em uma VM na nuvem, pois não era recomendado implementá-lo em dispositivos do usuário.
O recurso de busca do ChatGPT e o código Perplexity estão disponíveis diretamente em seus respectivos sites.
Processo:
Para avaliar as capacidades de busca na web dos fornecedores, primeiro compilamos uma lista de referência dos 100 principais provedores de nuvem . Em seguida, comparamos essa lista com os resultados dos agentes de IA.
Para avaliar a precisão das informações, verificamos todos os links fornecidos para confirmar se as informações apresentadas estavam corretas.
Não tentamos a engenharia de resposta rápida para obter resultados mais precisos.
Pontuação:
Como o número de resultados fornecidos varia, procuramos manter o sistema de pontuação o mais simples possível. Para a tarefa 1, se um produto retornar uma URL que não seja de uma fonte confiável, ele receberá uma pontuação de 0.
Além disso, o número de saídas varia de 6 a 28, portanto, é importante observar que um produto com 3 respostas corretas em 6 saídas e outro com 14 respostas corretas em 24 saídas recebem a mesma pontuação na Figura 2.
Não atribuímos uma pontuação aos produtos para a Tarefa 2, visto que os resultados da pesquisa variam significativamente com base no navegador utilizado e na localização do usuário, e os produtos coletam dados dessas fontes de acordo com essas variações. No entanto, como o ChatGPT e o Dendrite forneceram resultados precisos, eles são considerados os melhores para esta tarefa.
Isenção de responsabilidade
Como os agentes usam navegadores e locais diferentes, esses modelos podem encontrar fontes diferentes durante a extração de dados da web. Para sermos justos com todos os agentes, todas as fontes potenciais foram incluídas em nossa base de dados de referência.
Como esses produtos estão na versão 1 ou beta, eles apresentam diversas limitações. Continuaremos realizando testes de desempenho e atualizaremos os resultados conforme forem surgindo.
Como esses modelos são recém-desenvolvidos, podem apresentar vulnerabilidades de segurança, por isso recomendamos utilizá-los em uma máquina virtual ou contêiner. Anthropic também menciona a necessidade de tomar essa precaução ao usar o computador. 3
Perguntas frequentes
Os agentes de IA podem automatizar fluxos de trabalho complexos, reduzindo a necessidade de intervenção humana e aumentando a eficiência. Eles conseguem lidar com exceções e casos extremos, tornando-os mais confiáveis do que as soluções de automação tradicionais.
Agentes de IA podem realizar tarefas que seriam difíceis ou entediantes para humanos. Eles também podem ser usados para processamento de linguagem natural, processamento de dados e análise.
Escolha um fornecedor levando em consideração suas necessidades, habilidades e preços.
Podem ser integrados a sistemas externos através de chamadas de API e podem acessar uma ampla gama de fontes de dados.
Ao projetar a tarefa para seu agente de IA, você deve ser capaz de fornecer um comando que seja orientado a um objetivo e não confunda o modelo.
Os agentes de IA devem ser projetados levando em consideração a privacidade e a segurança dos dados, utilizando técnicas como criptografia e controles de acesso. No estágio atual de desenvolvimento, sugerimos que você não compartilhe seus dados sensíveis com agentes de inteligência artificial.
Os agentes de IA podem aumentar a eficiência e a produtividade, automatizando tarefas repetitivas e liberando os agentes humanos para se concentrarem em tarefas mais complexas.
Eles podem analisar dados corporativos e automatizar processos de negócios. Se você precisar saber mais, consulte Automação de Processos Autônomos. Ao criar agentes autônomos, você pode automatizar processos e realizar mais tarefas.
Se você utiliza um agente em sua empresa, use métricas como eficiência, produtividade e satisfação do cliente para medir o sucesso dos agentes de IA.
Monitore o desempenho dos agentes de IA ao longo do tempo, fazendo ajustes conforme necessário.
Utilize dados e análises para fornecer informações sobre os processos de tomada de decisão e a confiabilidade dos agentes de IA.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.