Contate-nos
Nenhum resultado encontrado.

Análise comparativa de frameworks de IA agenic em fluxos de trabalho analíticos

Cem Dilmegani
Cem Dilmegani
atualizado em Jan 26, 2026
Veja o nosso normas éticas

As estruturas para a construção de fluxos de trabalho orientados a agentes diferem substancialmente na forma como lidam com decisões e erros, contudo, seu desempenho em dados imperfeitos do mundo real permanece em grande parte não testado.

Para avaliar o desempenho dessas ferramentas em fluxos de trabalho analíticos do mundo real, passamos 3 dias comparando o desempenho do LangGraph, LangChain, CrewAI e Swarm usando um conjunto de dados de comércio eletrônico com 100 registros e inconsistências de dados controladas, como IDs ausentes, valores nulos e formatos de data inconsistentes.

Análise comparativa de agentes

Cada estrutura foi avaliada quanto à precisão e eficiência da tomada de decisões , desempenho da integração de ferramentas e desempenho de execução (tempo e uso de tokens).

Precisão e eficiência na tomada de decisões

Loading Chart
  • A precisão da decisão mede a eficácia com que cada estrutura resolveu problemas relacionados a dados, incluindo valores nulos, atribuições padrão, mapeamentos de campos e recuperação de falhas.
  • A eficiência de decisão representa a proporção de problemas críticos resolvidos em relação ao total de decisões. Uma pontuação de 100% indica uma resolução ideal em uma única etapa, enquanto valores mais baixos indicam tentativas adicionais ou ciclos de decisão redundantes que aumentam a sobrecarga computacional. Você pode consultar a metodologia de avaliação aqui .

Enxame

Alta eficiência, alta precisão (60%, 90%)

O Swarm alcançou alta precisão, mantendo ao mesmo tempo uma execução eficiente em todos os fluxos de trabalho analíticos.

As métricas de desempenho mostraram consistentemente um número baixo de decisões e um número mínimo de tentativas. Esse resultado reflete a arquitetura modular e específica para cada tarefa do Swarm, na qual agentes individuais gerenciam funções analíticas definidas, como análise de KPIs ou pesquisa de concorrentes.

O Swarm, portanto, combina forte coordenação com distribuição eficiente de tarefas , tornando-o uma boa opção para ambientes analíticos multiagentes que exigem velocidade e precisão.

LangGraph

Alta eficiência, alta precisão (60%, 100%)

O LangGraph alcançou alta precisão e execução eficiente, concluindo fluxos de trabalho analíticos com menos eventos de decisão.

As métricas de testes repetidos mostraram consistentemente caminhos de execução diretos e um número mínimo de tentativas. Esse padrão reflete a arquitetura baseada em grafos do LangGraph, que predefine as dependências de execução e reduz operações redundantes.

Dessa forma, o LangGraph oferece desempenho preciso, consistente e eficiente , tornando-o uma boa opção para fluxos de trabalho analíticos estruturados .

CrewAI

Baixa eficiência, alta precisão (21%, 87%)

A CrewAI alcançou alta precisão, mas exigiu um número substancialmente maior de decisões para concluir cada fluxo de trabalho.

Os dados registrados pelo DecisionTracker e pelo AccuracyLatencyTracker mostraram a ocorrência de vários eventos de decisão adicionais após falhas da ferramenta.
Esse padrão indica uma forte tolerância a falhas, que garantiu resultados finais confiáveis, mas aumentou a sobrecarga computacional e o tempo de execução.

Portanto, a CrewAI prioriza a integridade e a confiabilidade dos resultados em detrimento da eficiência de execução.

LangChain

Eficiência média, baixa precisão (42%, 78%)

O LangChain demonstrou eficiência moderada, mas menor precisão em comparação com outras estruturas.

As métricas registradas mostraram iterações de decisão repetidas após falhas da ferramenta, visto que a estrutura tentava novamente operações idênticas em vez de se adaptar a estratégias alternativas. Esse padrão de execução sequencial limitou a eficácia da recuperação e resultou na conclusão parcial da tarefa.

Portanto, o LangChain oferece uma taxa de transferência razoável, mas uma tolerância a falhas fraca , tornando-o mais adequado para fluxos de trabalho analíticos mais simples e de baixo risco .

desempenho de integração de ferramentas

Enxame

(Taxa de sucesso de 100% na coordenação de ferramentas)

A Swarm manteve uma taxa de sucesso de 100% em suas ferramentas graças à sua arquitetura de agentes especializados. Agentes distintos gerenciavam tarefas analíticas como análise de KPIs, comparação com a concorrência e conversão de moedas, permitindo transições de tarefas perfeitas e utilização eficiente das ferramentas .

LangGraph

(Taxa de sucesso de 100% na coordenação de ferramentas)

O LangGraph alcançou uma taxa de sucesso de execução de ferramentas de 100%. Sua orquestração baseada em grafos mapeou com eficácia as dependências entre as ferramentas e a ordem de execução, evitando chamadas redundantes ou conflitantes. A estrutura demonstrou alta confiabilidade e coordenação consistente em todos os módulos.

CrewAI

(Taxa de sucesso de coordenação de ferramentas de 37%)

O CrewAI apresentou uma baixa taxa de execuções bem-sucedidas de ferramentas, particularmente nos módulos de KPI e validação. Apesar disso, todas as tarefas foram concluídas por meio de ciclos adicionais de raciocínio e recuperação, indicando forte tolerância a falhas com maior sobrecarga computacional .

LangChain

(Taxa de sucesso de coordenação de ferramentas de 51%)

O LangChain obteve sucesso moderado na execução das ferramentas, mas apresentou deficiências na recuperação adaptativa. Quando as chamadas das ferramentas falhavam, ele repetia a mesma sequência de operações, resultando em processamento redundante e saídas incompletas .

Tempo de execução e token de conclusão

Enxame

Mais rápido e mais eficiente

O Swarm concluiu todos os fluxos de trabalho em aproximadamente 20 segundos , utilizando cerca de 1.000 tokens , o menor valor entre todas as estruturas analisadas. Seus tempos de conclusão consistentes e o consumo mínimo de tokens indicam uma execução estável e eficiente em todas as execuções .

LangGraph

Desempenho equilibrado

O Swarm concluiu todos os fluxos de trabalho em aproximadamente 20 segundos , utilizando cerca de 1.000 tokens , o menor valor entre todas as estruturas analisadas. Seus tempos de conclusão consistentes e o consumo mínimo de tokens indicam uma execução estável e eficiente em todas as execuções .

CrewAI

Requer muitos recursos, mas é confiável.

O CrewAI exigiu cerca de 32 segundos e 4,5 mil tokens por execução, o maior consumo de recursos no benchmark. Ciclos de raciocínio e validação mais longos resultaram em tempos de execução maiores, mas com conclusão consistente das tarefas, indicando alta confiabilidade com custo aumentado .

LangChain

Mais lento e menos eficiente

O LangChain concluiu as execuções em aproximadamente 48 segundos , consumindo cerca de 2,1 mil tokens . Tentativas repetidas após falhas na execução da ferramenta contribuíram para tempos de execução mais longos e utilização ineficiente de recursos .

abordagens de tratamento de erros

Para avaliar o gerenciamento de erros nativo, cada framework foi avaliado usando sua própria lógica de processamento de dados em vez de um pipeline de pré-processamento compartilhado. Essa comparação destacou diferenças importantes entre frameworks que priorizam a integridade dos dados e aqueles que enfatizam a completude do processamento .

LangGraph e Swarm priorizaram a precisão e a integridade dos dados por meio de validação e exclusão, enquanto CrewAI e LangChain priorizaram a completude, seja retendo dados incompletos ou imputando valores ausentes, o que levou a uma maior variabilidade na precisão analítica.

Segue uma análise detalhada:

Enxame

O Swarm aplicou uma lógica de salto precisa, excluindo registros inválidos ou incompletos, mantendo a continuidade geral do fluxo de trabalho. Após a resolução de pequenos problemas de compatibilidade com a API, a estrutura processou de forma consistente os registros verificados sem afetar o fluxo de execução.

LangGraph

O LangGraph impôs uma validação de dados rigorosa, omitindo entradas com valores nulos ou incompletos. Essa abordagem conservadora garantiu a precisão analítica, processando apenas os registros que passaram nas verificações de integridade, mantendo resultados consistentes em todas as execuções de teste.

CrewAI

A CrewAI operava sob o princípio de "perda zero de dados", retendo todos os registros, incluindo aqueles com campos ausentes ou inválidos. Embora essa abordagem preservasse a integridade do conjunto de dados, ela reduzia a precisão dos cálculos devido à inclusão de pontos de dados não verificados.

LangChain

O LangChain utilizou técnicas de imputação de dados para inferir valores ausentes a partir de campos existentes. Por exemplo, quando o valor de `Final_Price` era nulo, ele calculou substitutos a partir dos campos `Price` e `Discount` . Embora adaptativo, esse método introduziu desvios dos resultados esperados, impactando a precisão dos resultados.

Quando usar cada framework?

  • CrewAI: Quando problemas inesperados são prováveis e a resolução autônoma de problemas é necessária.
  • LangGraph: Para raciocínio e estrutura equilibrados. Ideal para casos de uso de propósito geral.
  • Swarm: Em ambientes de produção onde velocidade e confiabilidade são essenciais. Mais rápido e consistente.
  • LangChain: Ideal para quando são necessárias rastreabilidade e transparência detalhadas. Registra cada etapa, porém é mais lento que as alternativas.

Experiência do desenvolvedor

Desempenho da integração entre frameworks e LLM: Diferentes frameworks demonstram níveis variados de compatibilidade e desempenho com provedores de LLM específicos. Por exemplo, o LangChain apresenta integração e precisão superiores quando combinado com os modelos ChatGPT da OpenAI, oferecendo resultados mais precisos por meio do processamento otimizado de prompts.

Consistência comportamental orientada pela arquitetura: Embora as estruturas possam utilizar diferentes LLMs com eficiência variável, suas principais características comportamentais permaneceram amplamente consistentes entre os modelos. Os comportamentos característicos que observamos – como padrões de tomada de decisão, tratamento de recuperação e capacidades de raciocínio alternativo – dependem principalmente de seu projeto arquitetônico subjacente, e não do LLM específico empregado.

Isso sugere que as combinações de framework e LLM podem impactar as métricas de desempenho, mas os padrões comportamentais principais, como a abordagem "custe o que custar" da CrewAI ou a coordenação especializada de agentes do Swarm, permanecem consistentes independentemente do modelo de linguagem utilizado.

Desafios de integração: Encontramos desafios de integração consideráveis ao tentar conectar o CrewAI com os modelos Claude de Anthropic. Apesar de várias tentativas de configuração, erros persistentes na configuração do ambiente impediram a implantação bem-sucedida.

Nossa pesquisa indica que este não é um problema isolado – vários desenvolvedores da comunidade relataram dificuldades semelhantes de integração entre o CrewAI e os serviços Anthropic, sugerindo possíveis incompatibilidades arquitetônicas ou limitações no tratamento da API.

Recomendações para a combinação de framework e LLM: Com base nessas descobertas, recomendamos avaliar diferentes combinações de framework e LLM ao selecionar frameworks para seu caso de uso específico.

Como os agentes lidam com tarefas de análise

A análise de dados por agentes transforma o papel da IA de ferramenta passiva em execução autônoma. Em vez de esperar por instruções explícitas a cada etapa, os agentes analíticos percebem o estado atual dos dados, decidem quais ações tomar e adaptam sua abordagem com base em resultados intermediários.

Principais competências em contextos analíticos:

  • Preparação autônoma de dados: os agentes detectam valores ausentes, identificam outliers, padronizam formatos e validam os resultados limpos sem exigir configuração manual para cada transformação.
  • Geração dinâmica de consultas: as solicitações em linguagem natural são traduzidas em consultas executáveis, com agentes otimizando e ajustando a sintaxe com base no banco de dados de destino.
  • Teste iterativo de hipóteses: Quando a análise inicial não for conclusiva, os agentes podem reformular sua abordagem, testar hipóteses alternativas ou solicitar fontes de dados adicionais.
  • Detecção de anomalias em tempo real: O monitoramento contínuo de métricas permite que os agentes identifiquem padrões inesperados e alertem as partes interessadas antes que os problemas se agravem.

Limitações práticas:

  • Preocupações com o determinismo: O comportamento probabilístico do modelo significa que consultas idênticas podem produzir resultados ligeiramente diferentes em execuções distintas, o que complica os requisitos de reprodutibilidade.
  • Precisão numérica: agentes baseados em LLM podem interpretar incorretamente formatos numéricos ou introduzir erros de cálculo, exigindo camadas de validação para métricas críticas.

Metodologia de referência

Objetivo : Nosso objetivo foi comparar objetivamente quatro frameworks de agentes de IA (LangGraph, LangChain, CrewAI, Swarm) usando conjuntos de dados e sistemas de medição idênticos. Avaliamos a precisão da tomada de decisão, a eficiência de recursos e as capacidades de integração de ferramentas dos frameworks sob condições de erro realistas.

Descrição do conjunto de dados: Garantimos condições de teste idênticas para cada framework. Utilizamos o mesmo conjunto de dados JSON, os mesmos KPIs de referência, as mesmas APIs simuladas e os mesmos atrasos de tempo em todos os frameworks.

Utilizamos um conjunto de dados de 100 registros, o que foi suficiente para observar as capacidades de decisão. Reiniciamos os sistemas de rastreamento antes de cada teste (decision_tracker, perf_tracker reset). Utilizamos as mesmas funções de ferramenta em todas as estruturas, mas adaptamos as convenções de nomenclatura para cada uma (_swarm_tool, crewai tool).

Perturbações nos dados : Foram utilizados dados de compras de comércio eletrônico. O conjunto de dados contém os seguintes campos:

  • ID do usuário (Identificador do cliente),
  • ID_do_produto (Identificador do produto),
  • Categoria (Categoria de produto),
  • Preço (Rs.) (Preço original),
  • Desconto (%) (Percentagem de desconto),
  • Preço_final(Rs.) (Preço final após o desconto),
  • Método de pagamento (Método de pagamento),
  • Data_da_compra (Data da compra).

Utilizamos dados de comércio eletrônico deliberadamente corrompidos:

  • Valores nulos
  • Campos vazios – “Product_ID”: “”, “User_ID”: “”, “Category”: “”
  • Nomes de campos mistos – “custo”: 1200,0, “receita”: 150,0
  • Inconsistência de dados – Variações no formato de data (“07/01/2024” vs “dd-mm-aaaa”)
  • Valores zero/negativos

Definição das tarefas : Cada estrutura recebeu 5 tarefas idênticas:

  1. Processamento de dados – Processamento de dados aprimorado com execução específica da estrutura para limpeza e transformação.
  2. Cálculo de KPIs – Aplique algoritmos de cálculo de KPIs idênticos usando a ferramenta enhanced_kpi_calculator.
  3. Análise da concorrência – Realize uma análise da concorrência para os 3 principais produtos usando a API de Concorrência.
  4. Conversão de moeda – Converta a receita total para USD usando a CurrencyAPI.
  5. Tratamento de erros – Implementar estratégias nativas de gerenciamento de erros para inconsistências de dados.

Principais pontos de decisão esperados:

  1. Decisão sobre tratamento de valores nulos – Como lidar com Final_Price nulo
  2. Decisão padrão para campos vazios – Como preencher campos vazios
  3. Decisão de mapeamento de campo – Transformações de campo
  4. Decisão sobre inconsistência de dados – Normalização de formato
  5. Decisão de ignorar valores zero – Incluir/excluir valores zero
  6. Decisão sobre a execução de ferramentas : Qual ferramenta usar e quando? Há alguma chance de sucesso? O que fazer em caso de erro? Como lidar com falhas das ferramentas e quais estratégias alternativas adotar?

Executamos cada pipeline do framework 10 vezes e calculamos os valores medianos para todas as métricas.

Consistência na execução: Implementamos a mesma infraestrutura de medição em todas as estruturas:

  • Rastreador de latência de precisão para medição de tempo (temporizador de início/temporizador de fim),
  • DecisionTracker para registro de decisões com categorização,
  • Processador de dados analítico aprimorado para lógica de limpeza de dados idêntica,
  • APIs simuladas, incluindo a API do concorrente (atraso de 0,05s)
  • API de moeda (atraso de 0,1s)

Mantivemos configurações específicas para cada framework: o LangGraph utilizou orquestração baseada em grafos com pontuação de confiança e roteamento inteligente. O LangChain empregou um agente ReAct sequencial com ConversationBufferMemory e registro detalhado de logs. O CrewAI utilizou colaboração multiagente com resolução autônoma de problemas.

Todas as estruturas (CrewAI, LangGraph, LangChain e Swarm) foram testadas usando GPT-4.1 para garantir um desempenho consistente do modelo e uma comparação justa entre as métricas de avaliação.

Métricas de avaliação

A precisão da decisão mede a confiabilidade com que uma estrutura resolve problemas críticos de dados e é calculada da seguinte forma:

A precisão foi determinada comparando as decisões de cada estrutura com critérios de lógica de negócios predefinidos.

Cada decisão foi avaliada de forma binária (correta/incorreta) com base em:

  • Recuperação de falhas de ferramentas : se as operações com falha foram resolvidas com sucesso usando raciocínio alternativo.
  • Tratamento de valores nulos : se os registros inválidos foram ignorados corretamente.
  • Valores padrão para campos vazios : indica se os valores ausentes foram substituídos corretamente (por exemplo, "DESCONHECIDO").

A eficiência da decisão avalia a eficácia com que uma estrutura aborda questões críticas de dados e é calculada da seguinte forma:

Os pontos críticos foram definidos como o número mínimo de etapas de decisão necessárias (por exemplo, tratamento de valores nulos, valores padrão para campos vazios, mapeamento de campos). Uma pontuação de 100% indica uma decisão por ponto crítico, enquanto decisões adicionais sinalizam ineficiência ou processamento excessivo.

O desempenho da ferramenta foi medido usando a taxa de sucesso primária , que representa a proporção de chamadas diretas da ferramenta concluídas com sucesso:

A capacidade de recuperação mede a habilidade de uma estrutura em se recuperar com sucesso de chamadas de ferramentas com falha e é calculada como:

Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo
Pesquisado por
Nazlı Şipi
Nazlı Şipi
Pesquisador de IA
Nazlı é analista de dados na AIMultiple. Ela possui experiência prévia em análise de dados em diversos setores, onde trabalhou na transformação de conjuntos de dados complexos em insights acionáveis.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450