Comparativo de plataformas de agentes de IA: Agentes gerenciados Claude vs. Vertex Agent Engine
Avaliamos 4 plataformas de agentes de IA em 3 dimensões: conclusão de tarefas (10 tarefas de codificação × 3 execuções), capacidades específicas da plataforma (direcionamento, reconexão, recuperação de conversas longas, manipulação de arquivos grandes) e custo.
Resultados do benchmark de plataformas de agentes de IA
Plataforma | Modelo | Taxa de aprovação | Tempo na parede | Custo | Token |
|---|---|---|---|---|---|
Agentes Gerenciados Claude | Claude Sonnet 4.6 | 30/30 (100%) | 1.172s | $ 2,50 | 93 mil |
Motor de Agentes de IA Vertex | Gemini 2.5 Pro | 30/30 (100%) | 1.447s | $ 1,45 | 159 mil |
OpenAI Respostas + CI | GPT-5.4 | 27/30 (90%) | 522s | $ 1,54 | 113 mil |
Controle (hospedado pelo próprio usuário) | Claude Sonnet 4.6 | 30/30 (100%) | 794s | $ 1,96 | 464 mil |
Tanto o Claude Managed Agents quanto o Vertex AI Agent Engine alcançaram taxas de aprovação de 100% no conjunto de tarefas, com o Vertex se destacando no custo (US$ 1,45 contra US$ 2,50). Para recursos específicos de ambiente de execução disponíveis apenas em plataformas gerenciadas, como direcionamento intermediário, desconexão/reconexão e compactação de conversas longas, o Claude Managed Agents é o mais completo, mas o Vertex Agent Engine o iguala nos testes portáteis (compactação, manipulação de arquivos grandes).
Principais conclusões da avaliação comparativa da tarefa
- Claude MA e Vertex AE empataram na taxa de aprovação em 30/30 (100%). Ambos lidam com todos os tipos de tarefas, incluindo tarefas de rede (06, 10) que dispararam OpenAI.
- As falhas de OpenAI decorrem de sua política de sandbox. As tarefas 06 (API REST) e 10 (downloader concorrente) exigem HTTP de saída. O sandbox do Code Interpreter restringe isso, e ambas falharam em 2/3 e 1/3 das tentativas, respectivamente. Observamos que GPT-5.4 consegue escrever o código, mas o sandbox não o executa de forma confiável.
- O Vertex AE é o mais barato, custando US$ 1,45 no total. O Claude MA é o mais caro, custando US$ 2,50. Ele é 72% mais caro que o Vertex no mesmo conjunto de tarefas com a mesma taxa de aprovação.
- O Vertex AE é o mais lento. A orquestração gerenciada do ADK adiciona sobrecarga.
Capacidades específicas do arnês
Duas plataformas são comparadas diretamente em relação a recursos que só existem devido à presença de um chicote de fios gerenciado.
Veja abaixo a metodologia de avaliação comparativa.
plataformas de agentes de IA
Agentes Gerenciados Claude
O Claude Managed Agents da Anthropic oferece um ambiente de execução de agentes hospedado que combina sessões com estado, execução de ferramentas integradas, streaming baseado em eventos e compactação automática para cargas de trabalho autônomas de longa duração. A plataforma se diferencia por meio de primitivas exclusivas indisponíveis em ofertas comparáveis, como injeção de eventos de usuário no meio do fluxo para direcionamento em tempo real, fluxos SSE retomáveis para desconexão/reconexão e integração nativa com servidores MCP. Tudo isso é entregue como um serviço totalmente gerenciado, sem necessidade de provisionamento de infraestrutura por desenvolvedores. 1
O preço é de US$ 0,08 por hora de sessão, além dos custos padrão do token da API Claude.
Prós:
- Sessões com estado e injeção de eventos no meio do fluxo permitem que novas mensagens do usuário direcionem os agentes durante a execução em andamento.
- Suporte para desconexão e reconexão via fluxos SSE persistentes; as sessões continuam sendo executadas no servidor mesmo durante interrupções de rede e os clientes podem retomar o consumo de eventos ao se reconectarem.
- O conjunto de ferramentas integrado do agente inclui bash, operações de arquivo (leitura, gravação, edição, glob, grep) e ferramentas da web (web_fetch, web_search) acessíveis por meio de um único parâmetro de configuração, eliminando a necessidade de configuração personalizada de ferramentas.
- Integração nativa com o servidor MCP (Model Context Protocol) para extensões de ferramentas personalizadas sem modificar o conjunto de ferramentas integrado do agente.
Contras:
- Atualmente em versão beta; todas as solicitações exigem o cabeçalho managed-agents-2026-04-01 beta, e o comportamento pode ser aprimorado entre as versões.
- Exclusivo para Claude, sem flexibilidade de modelos em comparação com plataformas como AWS Bedrock AgentCore ou Northflank, que suportam múltiplos provedores de modelos.
Salesforce Agentforce
Salesforce O Agentforce se diferencia pelo acesso nativo a dados de CRM através do Atlas Reasoning Engine e por agentes pré-configurados para fluxos de trabalho de vendas, serviços, marketing e comércio. 2
A plataforma integra-se com o MuleSoft Agent Fabric para orquestração entre sistemas e oferece o Agentforce 360 para parcerias com a AWS.
A Agentforce atende organizações que necessitam de fluxos de trabalho autônomos voltados para o cliente, incorporados diretamente em sua infraestrutura de nuvem existente.
Prós:
– O acesso nativo aos dados do CRM por meio do Atlas Reasoning Engine permite ações do agente sensíveis ao contexto.
– Agentes pré-configurados disponíveis para vendas, atendimento, marketing e comércio reduzem o tempo de implantação.
– FedRAMP autorizado em Salesforce Nuvem governamental para setores regulamentados.
– O plano gratuito Foundations inclui 1.000 conversas e 200.000 Créditos Flex para testes iniciais.
Contras:
– SaaS exclusivamente em nuvem, sem opção de implantação local disponível.
– Agnosticismo de modelo limitado; por padrão, utiliza modelos gerenciados por Salesforce com suporte restrito a provedores externos.
– Requer investimento existente no ecossistema Salesforce para atingir o valor máximo.
Microsoft Estúdio Copiloto
Prós:
– Incluído com Microsoft licenças do Office 365 Copilot para uso interno do agente sem custo adicional. 3
– Agentes de voz em tempo real e suporte telefônico IVR para cenários de atendimento ao cliente.
– FedRAMP autorizado pelo Governo através do número Azure para implantações no setor público.
– Suporta os modelos OpenAI, Anthropic e frameworks de código aberto em um único ambiente de compilação.
Contras:
– Funcionalidade limitada fora do ecossistema Microsoft; requer o compromisso com Azure ou M365 para recursos completos.
– Não há um nível gratuito permanente independente; requer uma assinatura existente do M365 Copilot para uso incluído.
– Modelo de IA de voz em tempo real hospedado somente na América do Norte a partir de abril de 2026.
O Copilot Studio é mais econômico para organizações que já utilizam o Office 365, o Teams e o Microsoft 365, oferecendo automação voltada para o funcionário que herda as configurações existentes de identidade, segurança e conformidade.
Google Agentspace e Vertex AI Agent Builder
A oferta dupla da Google combina o Agentspace para gerenciamento de conhecimento empresarial e o Vertex AI Agent Builder para desenvolvimento de baixo código, diferenciando-se pela integração de modelos da Gemini, contexto entre produtos do Google Workspace e suporte a entrada multimodal para texto, voz e imagens. 4
A plataforma oferece US$ 300 em créditos gratuitos para novos usuários e preços de pagamento conforme o uso para o Vertex AI Agent Engine.
Prós:
– Crédito gratuito de US$ 300 para novos usuários possibilita a criação de protótipos abrangentes sem investimento inicial.
– Implantação local suportada através de Google Nuvem Distribuída para ambientes regulamentados.
– FedRAMP autorizado através da Nuvem Google.
– Google O ADK (Agent Development Kit) oferece suporte ao desenvolvimento com foco em código em Python, TypeScript, Go e Java.
Contras:
– Gemini-limites de projeto primário da flexibilidade do modelo em comparação com plataformas totalmente agnósticas.
Agentes do AWS Bedrock e AgentCore
Os AWS Bedrock Agents e a plataforma mais recente AgentCore oferecem gerenciamento de infraestrutura sem servidor para agentes de escala empresarial, lançados no re:Invent 2025. 5
Os diferenciais incluem o modelo de pagamento conforme o uso, a US$ 0,0895 por hora de vCPU para o ambiente de execução AgentCore, opções de throughput provisionado e Mem0 como provedor de memória exclusivo.
Prós:
– Autorização FedRAMP High na AWS GovCloud para cargas de trabalho sensíveis.
– O streaming bidirecional suporta agentes de voz com fala simultânea do usuário e do agente.
– Nível gratuito disponível para novos clientes da AWS para experimentação inicial.
– Acesso a modelos de Anthropic, Amazon, Meta, Mistral e AI21 através do catálogo Bedrock.
Contras:
– Não existem modelos de agentes pré-construídos específicos para cada domínio; é necessário criar um do zero usando o SDK.
– Sem opção de implantação local; funciona exclusivamente na infraestrutura da AWS.
– A criação de agentes exige uma codificação significativa de API/SDK em comparação com os construtores visuais.
O AWS Bedrock atende empresas que necessitam de infraestrutura de agentes escalável e sem servidor, com profunda integração ao ecossistema da AWS, oferecendo eficiência de custos por meio de faturamento granular baseado no uso.
IBM watsonx Orquestrar
IBM watsonx Orchestrate tem como alvo empresas regulamentadas com mais de 150 agentes pré-construídos específicos para cada domínio, como RH, compras, vendas e finanças, além do Skills Studio para a criação de habilidades personalizadas. 6
A plataforma oferece flexibilidade de implantação em nuvem híbrida e local por meio do Cloud Pak para Data e do Software Hub.
Prós:
– A instalação local é suportada através do Cloud Pak for Data (IBM) para requisitos de residência de dados.
– Mais de 150 agentes e ferramentas pré-construídos da IBM e parceiros, com mais de 80 integrações de aplicativos empresariais, incluindo SAP, Salesforce e Workday.
– A autorização do FedRAMP foi ampliada em abril de 2026 para implantações federais.
– Verdadeiro agnosticismo de modelo, suportando múltiplos fornecedores de LLM sem dependência de fornecedor.
Contras:
– Não há versão gratuita permanente; é necessária uma assinatura paga do plano Essentials ou Standard para uso contínuo.
– Os recursos de voz e telefonia estão disponíveis no watsonx Orchestrate por meio da configuração de voz nativa no ADK e integrações com provedores como Deepgram e ElevenLabs, embora a telefonia avançada possa exigir configuração adicional.
– Estrutura de preços complexa que exige orçamentos personalizados para recursos corporativos.
Agentes de IA do ServiceNow
Os agentes de IA da ServiceNow são integrados diretamente à plataforma Now, diferenciando-se pela integração nativa com os fluxos de trabalho de TI, RH e atendimento ao cliente, em vez de operar como uma plataforma independente.
A plataforma inclui uma Torre de Controle de IA para governança, fluxos de trabalho de agentes pré-construídos para ITSM e HRSD, e um Mecanismo de Contexto que conecta o histórico de políticas às ações dos agentes. 7
Prós:
– Herda a governança, as regras de SLA e os fluxos de trabalho de aprovação existentes da Now Platform.
– Os agentes de voz com IA são compatíveis com Genesys Cloud, Twilio e 3CLogic como provedores de CCaaS.
– Os agentes web de IA aprendem com demonstrações humanas para automatizar tarefas baseadas em navegador.
Contras:
– Não há um plano gratuito permanente; novos clientes recebem apenas 100 chamadas gratuitas do Build Agent.
– A autorização FedRAMP High para AI Agents, AI Agent Orchestrator e AI Agent Studio foi confirmada para clientes do Government Community Cloud (GCC) a partir de março de 2026.
– Valor limitado para organizações que ainda não utilizam o ServiceNow para gerenciamento de serviços de TI ou RH.
Kore.ai
A Kore.ai se concentra em IA conversacional empresarial com mais de 300 agentes pré-construídos, mais de 250 integrações empresariais e uma arquitetura agnóstica de modelo que oferece suporte a implantações em nuvem e locais.
A plataforma atende seis verticais, incluindo bancos, saúde e varejo, com implantações comprovadas na Eli Lilly (70% das solicitações de suporte técnico foram automatizadas). 8
Prós:
– Infraestrutura de voz nativa que oferece interações de voz globais com baixa latência.
– Implantação flexível, incluindo opções locais e em nuvem privada.
– Apoio a múltiplos fornecedores de LLM.
Contras:
– Não há um nível gratuito permanente; oferece apenas US$ 500 em créditos únicos para o teste inicial.
LangGraph
Prós:
– A licença de código aberto do MIT permite o uso comercial e a modificação irrestritos.
– O controle determinístico do fluxo de trabalho por meio de arquitetura gráfica garante caminhos de execução reproduzíveis.
– A integração de observabilidade da LangSmith fornece monitoramento e rastreamento de produção.
Contras:
– Não possui construtor visual sem código; requer código Python ou JavaScript para definir os grafos dos agentes.
– Não possui integração nativa de voz ou telefonia; requer codificação personalizada para canais de voz.
– Curva de aprendizado acentuada para equipes não familiarizadas com paradigmas de programação baseados em grafos.
O LangGraph é ideal para equipes de engenharia que desenvolvem agentes de nível de produção que exigem lógica condicional complexa, recuperação de erros e auditabilidade de etapas de execução individuais.
CrewAI
Prós:
– A abstração baseada em funções espelha as estruturas de equipes humanas para uma coordenação intuitiva entre agentes.
– Núcleo de código aberto gratuito, sem taxas de licenciamento para implantações auto-hospedadas.
– Editor visual e copiloto de IA disponíveis no plano gratuito para membros da equipe sem conhecimento técnico.
Contras:
– Não possui um mercado de modelos oficial mantido pelo fornecedor; depende de contribuições da comunidade.
– A abordagem "code-first" exige conhecimento de Python para a criação do agente.
– Os preços dos planos Enterprise estão disponíveis apenas mediante solicitação, o que pode gerar incerteza orçamentária para pequenas equipes em comparação com outras opções de código aberto.
O CrewAI permite a prototipagem rápida de fluxos de trabalho de agentes baseados em funções, sendo particularmente adequado para processamento de documentos, fluxos de trabalho de pesquisa e tarefas de geração de conteúdo em várias etapas.
n8n
A n8n opera sob uma licença de código justo (Licença de Uso Sustentável), oferecendo mais de 400 conectores de aplicativos nativos com nós de IA visual e infraestrutura auto-hospedável.
Prós:
– A versão Community Edition auto-hospedada inclui SSO SAML, LDAP, RBAC e armazenamento de segredos criptografados sem custo adicional.
– Suporte nativo para LangChain e LlamaIndex em fluxos de trabalho visuais.
– O editor visual de fluxo de trabalho permite a automação complexa sem a necessidade de programação.
Contras:
– A licença Fair-Code exige uma licença paga para hospedagem comercial ou produtos SaaS.
– Não possui nó nativo de voz ou telefonia; requer integração de API externa para voz.
– Nenhuma autorização FedRAMP confirmada.
O n8n integra a automação de fluxos de trabalho tradicionais e agentes de IA, atendendo analistas de negócios técnicos e equipes de DevOps que precisam de implantação auto-hospedada para residência de dados, mantendo os recursos de construção visual.
Dify
Dify é uma plataforma LLMOps de código aberto com mais de 114.000 estrelas no GitHub, o que a coloca entre os 100 melhores projetos de código aberto do mundo.
A plataforma suporta pipelines RAG, ferramentas de engenharia de resposta rápida e arquitetura agnóstica de modelo.
Prós:
– A Community Edition auto-hospedada é permanentemente gratuita, com controle total dos dados por meio da implantação do Docker.
– O construtor visual de fluxos de trabalho permite a criação de agentes complexos sem a necessidade de programação.
– Suporta centenas de modelos de lógica de nível de habilidade (LLMs) proprietários e de código aberto de dezenas de fornecedores de inferência.
Contras:
– O suporte de voz requer plugins do marketplace, como Agora ou Tencent RTC; não há telefonia PSTN nativa.
– Sem autorização FedRAMP.
– O plano Cloud Team, a US$ 159 por mês, pode ser caro para equipes pequenas.
O Dify é ideal para equipes de produto e operações que precisam de agentes com reconhecimento de documentos e fortes recursos de RAG (Radio Access Group), especialmente aquelas que priorizam o controle de dados por meio de hospedagem própria.
Fluxo de voz
A Voiceflow se diferencia por ser a única plataforma importante que trata o design de agentes com foco em voz como um elemento primordial, e não como um mero complemento, apresentando uma tela de design criada especificamente para agentes de voz e de chat com latência inferior a 500 ms.
A plataforma é especializada em automação de tickets de atendimento ao cliente e sistemas de URA (Unidade de Resposta Audível).
Prós:
– Canais nativos de voz e telefonia com suporte a IVR e latência inferior a 500 ms.
– Capacidades de extração de entidades para consultas em bases de conhecimento.
– O plano gratuito inclui 2 agentes e 100 tokens de IA mensais sem prazo de validade.
– Tela visual projetada especificamente para fluxos de trabalho de IA conversacional.
Contras:
– A implantação local está disponível apenas por meio de contratos empresariais personalizados.
O Voiceflow atende equipes de CX e suporte que criam agentes conversacionais voltados para o cliente, os quais precisam ser implementados em canais de voz, chat e mensagens a partir de uma única interface de design.
Relevância IA
A Relevance AI oferece a flexibilidade de "traga seu próprio LLM" (BYOLLM) com um modelo de cobrança baseado em ações, permitindo que equipes não técnicas criem equipes multiagentes por meio de descrições em linguagem natural.
Prós:
– O nível gratuito inclui 100 créditos por dia, sem prazo de validade.
– Mais de 2.000 integrações, incluindo HubSpot, Salesforce, Slack e Gmail.
– Verdadeiro agnosticismo de modelo, com suporte a múltiplos provedores de LLM.
Contras:
– Sem opções de hospedagem própria ou implantação local; SaaS exclusivamente em nuvem.
– Não há autorização FedRAMP para setores regulamentados.
– Os recursos de voz exigem integração com Vapi ou Twilio, em vez de telefonia nativa.
Lindy AI
A Lindy AI oferece mais de 5.000 integrações via Pipedream, modelos de agentes pré-configurados para triagem e agendamento de e-mails e recursos de agente para chamadas telefônicas por meio da funcionalidade de voz Gaia. 9
A plataforma utiliza um modelo de execução baseado em crédito, com um nível gratuito disponível.
Prós:
– O plano gratuito inclui 400 créditos por mês e uma base de conhecimento com 1 milhão de caracteres.
– Verdadeiro agnosticismo de modelo e extensa biblioteca de integração.
Contras:
– A implantação local está disponível apenas por meio de contratos empresariais personalizados para setores regulamentados.
Ideal para usuários individuais de negócios, fundadores e equipes de operações que precisam de automação rápida de fluxos de trabalho de e-mail, calendário e CRM sem a necessidade de recursos de engenharia.
Metodologia
O que uma plataforma de agentes de IA gerenciados realmente oferece em comparação com seus concorrentes e com a alternativa de construir sua própria infraestrutura de agentes? O mercado de ferramentas de IA apresenta uma lacuna persistente nesse aspecto. Produtos de "agentes gerenciados" são rotineiramente comparados usando as mesmas métricas de conclusão de tarefas utilizadas para modelos de linguagem brutos, o que confunde duas coisas muito diferentes: a capacidade do modelo de gerar código correto e a capacidade da infraestrutura de executar esse código de forma confiável em um ambiente de execução gerenciado com estado, ferramentas e isolamento. Criamos este benchmark para separar esses sinais.
O que é uma plataforma de agentes gerenciados?
Estamos avaliando uma categoria específica: ambientes de execução hospedados que agrupam inferência LLM, orquestração de agentes e execução de código em sandbox em um único serviço gerenciado. Isso é diferente de (1) APIs de inferência LLM brutas, (2) frameworks de orquestração de agentes que você hospeda por conta própria e (3) sandboxes de computação que você utiliza com seu próprio modelo. As quatro plataformas em teste apresentam cada uma uma forma ligeiramente diferente desse pacote:
- Agentes Gerenciados Claude (Anthropic): Sistema totalmente gerenciado. Definições de agentes, sessões, streaming baseado em eventos, compactação e execução de ferramentas são todos realizados no servidor. Um dos dois verdadeiros concorrentes nesta categoria.
- Vertex AI Agent Engine (Google): Ambiente totalmente gerenciado. Implante um agente definido pelo ADK em um ambiente de execução gerenciado; a implantação hospeda o estado do agente e a execução da ferramenta. Acessado através do SDK vertexai.agent_engines.
- API de Respostas OpenAI com Interpretador de Código : Categoria adjacente. API de Inferência com ferramenta sandbox Python integrada, mas sem estado de sessão persistente em múltiplas etapas ou direcionamento em tempo real.
- Controle: API de Mensagens Claude com um loop de ferramentas local : Incluído como linha de base. Mesmo modelo que Claude MA (claude-sonnet-4-6), mas implementamos o loop do agente localmente em cerca de 150 linhas de Python. As ferramentas (bash, write, read, edit) são executadas em um diretório temporário por tarefa na máquina de benchmark. Isso isola a contribuição do harness gerenciado além do "modelo mais loop de ferramentas". Executar a API de Mensagens com um loop de agente local produz uma comparação onde o modelo é idêntico, mas o harness está ausente. Qualquer diferença entre Claude MA e o controle é atribuível inteiramente ao harness, e não à capacidade do modelo.
O conjunto de tarefas
Dez tarefas de programação distribuídas em três níveis de dificuldade. Cada tarefa possui um enunciado fixo especificando o resultado esperado e um script de verificação que define critérios de aprovação/reprovação. Cada tarefa é executada três vezes por plataforma para medir a variação.
Testes de estresse específicos para cada tipo de arnês
O conjunto de tarefas mede a correção de ponta a ponta. Ele não consegue medir funcionalidades que existem apenas devido a um ambiente gerenciado: persistência de sessão com estado, direcionamento em tempo real, retomada de conexão, compactação automática de contexto e manipulação de artefatos do sistema de arquivos gerenciado. Para essas funcionalidades, desenvolvemos dois conjuntos de testes adicionais.
Suíte A: Direção e Interrupção
Três testes que exercitam movimentos primitivos específicos do arnês.
O agente A1 inicia uma tarefa de codificação e, em seguida, injeta um novo evento de usuário via POST /events após 10 segundos, alterando os requisitos. Por fim, verifica, inspecionando o sistema de arquivos do contêiner, se o artefato final reflete o novo requisito em vez do original.
A2 abre um fluxo SSE, encerra a conexão após quatro eventos, reconecta e verifica se a sessão ainda atinge o status_idle.
A3 envia uma mensagem deliberadamente contraditória e mede se o agente pede esclarecimentos ou escolhe silenciosamente uma interpretação.
Apenas o A3 é portátil entre plataformas. A injeção de eventos em tempo real do A1 não tem equivalente direto no OpenAI Responses (solicitação/resposta única) ou no Vertex Agent Engine (o modelo de sessão não possui injeção de mensagens em tempo real). A desconexão/reconexão do A2 também não tem equivalente em nenhum outro lugar. Essas são vantagens estruturais genuínas do modelo de sessão orientado a eventos do Claude MA, não comparáveis com as alternativas. Executamos o A1 e o A2 apenas no Claude MA e o A3 tanto no Claude MA quanto no Vertex Agent Engine.
Suíte B: Compactação e Contexto
Dois testes que exercitam as funcionalidades de contexto gerenciado.
B1 insere uma string de canário única (um token derivado de UUID) na primeira rodada de uma sessão, executa 23 rodadas de preenchimento com pequenas tarefas de codificação não relacionadas, cada uma produzindo chamadas e resultados de ferramentas, e então pede ao agente para recuperar o canário da memória na 25ª rodada, sem permitir nenhuma busca de arquivo. A recuperação bem-sucedida após 23 rodadas de preenchimento é uma evidência de que o framework preserva o contexto inicial por meio de qualquer política de compactação que utilize.
B2 pede ao agente para gerar um arquivo de texto de 50.000 linhas com um marcador oculto e, em seguida, responder a uma pergunta que exige a localização desse marcador. Isso testa se o agente consegue raciocinar sobre artefatos maiores do que sua janela de contexto sem tentar ler o arquivo inteiro.
Tanto o B1 quanto o B2 foram executados no Claude MA e no Vertex Agent Engine, usando os mesmos prompts e protocolos.
LLM como juiz para avaliação comportamental
Para o Conjunto A3 (contradições), a verificação de aprovação/reprovação não é determinística; consideramos a questão “o agente pediu esclarecimentos?” como um julgamento qualitativo sobre o comportamento conversacional. Utilizamos um modelo de aprendizagem baseado no modelo do agente como juiz, com três salvaguardas metodológicas:
- O modelo de avaliação difere do modelo testado: Claude Opus 4.6 é o modelo de avaliação utilizado para evitar o viés de autoavaliação.
- Rubrica estruturada com 4 dimensões booleanas: O avaliador retorna uma pontuação em JSON: contradição_reconhecida, pedido_de_esclarecimento, prosseguimento_com_suposição, suposição_documentada e um parágrafo de justificativa.
- Verificação de consistência em 3 execuções: Cada julgamento é executado 3 vezes. Apresentamos o consenso majoritário por dimensão e a taxa de concordância por dimensão. Se a concordância em qualquer dimensão for inferior a 67%, o juiz é sinalizado como inconsistente nessa dimensão e o resultado é tratado como de baixa confiança.
Uma heurística de palavras-chave é executada em paralelo como uma verificação de consistência. A divergência entre a heurística e o avaliador é registrada para revisão manual.
Pontuação
Para cada tarefa executada em cada plataforma:
- Aprovado/reprovado
- Tempo decorrido : Segundos decorridos desde o envio do prompt até o recebimento do evento terminal (status_idle para Claude MA, conclusão da tarefa para Vertex AE, conclusão da resposta para OpenAI, saída do loop da ferramenta para controle).
- Contagem de chamadas de ferramentas : invocações distintas de ferramentas. Útil como uma impressão digital comportamental; menos útil como uma métrica de eficiência porque a granularidade da ferramenta difere significativamente entre as plataformas.
- Uso do token : Analisado a partir de eventos model_request_end em Claude MA, usage_metadata em Vertex AE, response.usage em OpenAI, acumulação por turno no loop de mensagens do controle. Dividido em entrada, saída, leitura de cache e criação de cache.
- Custo em USD : Calculado a partir do uso de tokens em comparação com os preços publicados: claude-sonnet-4-6 a US$ 3/US$ 15/US$ 0,30/US$ 3,75 por milhão; gpt-5.4 a US$ 2,50/US$ 15/US$ 0,25; gemini-2.5-pro a US$ 1,25/US$ 10/US$ 0,13. Taxas de infraestrutura específicas da plataforma são adicionadas: US$ 0,08/hora de sessão do Claude MA, proporcional ao tempo de execução; US$ 0,03/container do OpenAI, quando qualquer chamada de ferramenta ocorreu; taxa de hospedagem do Vertex AE de aproximadamente US$ 0,35/hora, proporcional ao tempo de atividade da implantação.
Os resultados dos conjuntos A e B também capturam métricas em nível de sessão (turnos, recall do canário, consenso do juiz e concordância).
Considerações sobre equidade e limitações conhecidas
Diversas assimetrias na configuração afetam a forma como os números devem ser lidos; elas serão destacadas explicitamente:
O controle executa a ferramenta na máquina de benchmark sem qualquer comunicação de ida e volta com a nuvem. Isso lhe confere uma vantagem injusta no tempo de execução, que não reflete tanto a velocidade do agente, mas sim o salto na rede. Quando observamos o controle concluindo tarefas cerca de 25% mais rápido que o Claude MA no mesmo modelo, aproximadamente metade dessa diferença se deve à assimetria de comunicação de ida e volta.
O interpretador de código OpenAI opera em um ambiente isolado (sandbox) com restrições de rede. As tarefas 06 (API REST) e 10 (downloader concorrente) exigem HTTP de saída, que o CI permite apenas intermitentemente. As falhas do OpenAI nessas tarefas são falhas de política do ambiente isolado, não falhas de capacidade do modelo. O GPT-5.4 pode escrever código HTTP concorrente correto; a plataforma nem sempre consegue executá-lo. Os leitores não devem interpretar a afirmação “OpenAI falha em tarefas de rede” como uma declaração sobre o modelo.
A versão Gemini 3.1-pro-preview está bloqueada por uma lista de permissões de pré-visualização em nível de projeto. Tentamos avaliar o desempenho deste modelo tanto na API direta do Vertex quanto no Vertex Agent Engine. As chamadas diretas à API retornaram 404; as implantações do Agent Engine com o modelo foram bem-sucedidas no momento da implantação, mas as chamadas de inferência retornaram zero eventos sem nenhum erro. Recorremos à versão gemini-2.5-pro.
Uma série de tarefas de refatoração com duração de várias horas, depuração em bases de código desconhecidas ou fluxos de trabalho autônomos de longa duração exigiriam diferentes níveis de desempenho das ferramentas e provavelmente diferenciariam as opções de melhor desempenho com mais clareza.
Não medimos a latência de provisionamento, o comportamento de inicialização a frio, o desempenho de sessões simultâneas ou os limites de taxa. Esses aspectos são importantes para cargas de trabalho de produção de alto desempenho, mas estavam fora do escopo desta rodada.
Funcionalidades comuns a todas as plataformas de agentes de IA
Cada plataforma nesta comparação oferece funcionalidades básicas que definem a categoria de agentes de IA. Essas características comuns estabelecem o produto mínimo viável para a automação baseada em agentes, enquanto as características diferenciadoras determinam a escolha da plataforma.
Orquestração multiagente: Todas as plataformas suportam orquestração multiagente, embora a implementação varie (consulte as seções de cada plataforma acima).
Utilização de ferramentas e integrações externas: Agentes em todas as plataformas podem acessar APIs externas, bancos de dados e aplicativos de negócios. O número de conectores predefinidos varia de aproximadamente 50 (Dify) a mais de 9.000 (Relevance AI), com todas as plataformas suportando definições de API personalizadas.
Gerenciamento de memória persistente e contexto: Reter informações dentro de sessões (memória de curto prazo) e entre sessões (memória de longo prazo) é uma capacidade padrão, alcançada por meio de bancos de dados vetoriais, objetos de sessão ou janelas de contexto configuráveis, dependendo da plataforma.
Monitoramento e observabilidade: Todas as plataformas expõem registros, rastreamentos ou análises para inspecionar a execução do agente, rastrear o uso e a latência do token e identificar falhas.
Supervisão humana e controles de aprovação: Mecanismos para revisão, aprovação ou substituição humana das ações do agente estão presentes em todas as plataformas. Exemplos incluem os portões de aprovação por ferramenta do n8n, as primitivas de interrupção e retomada do LangGraph, os controles de política do Bedrock AgentCore, a Torre de Controle de IA do ServiceNow e a escalação automática do Lindy.
Base de conhecimento e geração aprimorada por recuperação (RAG): Fundamentar os agentes em conhecimento personalizado por meio da indexação e recuperação de documentos é uma capacidade básica em toda a categoria. As implementações incluem o pipeline RAG da Dify, a Base de Conhecimento da Voiceflow, as Bases de Conhecimento da Bedrock, o mecanismo RAG da Vertex AI e a IA de busca da Kore.ai.
Interface de criação de agentes sem código ou com pouco código: Interfaces gráficas ou de linguagem natural para criação de agentes estão disponíveis em todas as plataformas. As plataformas corporativas oferecem estúdios sem código (Agentforce Builder, Copilot Studio, Watsonx Orchestrate), enquanto os frameworks de desenvolvimento fornecem ferramentas visuais complementares (LangGraph Studio, AutoGen Studio, CrewAI Studio).
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.