Análise comparativa de frameworks de IA agenic em fluxos de trabalho analíticos
As estruturas para a construção de fluxos de trabalho orientados a agentes diferem substancialmente na forma como lidam com decisões e erros, contudo, seu desempenho em dados imperfeitos do mundo real permanece em grande parte não testado.
Para avaliar o desempenho dessas ferramentas em fluxos de trabalho analíticos do mundo real, passamos 3 dias comparando o desempenho do LangGraph, LangChain, CrewAI e Swarm usando um conjunto de dados de comércio eletrônico com 100 registros e inconsistências de dados controladas, como IDs ausentes, valores nulos e formatos de data inconsistentes.
Análise comparativa de agentes
Cada estrutura foi avaliada quanto à precisão e eficiência da tomada de decisões , desempenho da integração de ferramentas e desempenho de execução (tempo e uso de tokens).
Precisão e eficiência na tomada de decisões
- A precisão da decisão mede a eficácia com que cada estrutura resolveu problemas relacionados a dados, incluindo valores nulos, atribuições padrão, mapeamentos de campos e recuperação de falhas.
- A eficiência de decisão representa a proporção de problemas críticos resolvidos em relação ao total de decisões. Uma pontuação de 100% indica uma resolução ideal em uma única etapa, enquanto valores mais baixos indicam tentativas adicionais ou ciclos de decisão redundantes que aumentam a sobrecarga computacional. Você pode consultar a metodologia de avaliação aqui .
Enxame
Alta eficiência, alta precisão (60%, 90%)
O Swarm alcançou alta precisão, mantendo ao mesmo tempo uma execução eficiente em todos os fluxos de trabalho analíticos.
As métricas de desempenho mostraram consistentemente um número baixo de decisões e um número mínimo de tentativas. Esse resultado reflete a arquitetura modular e específica para cada tarefa do Swarm, na qual agentes individuais gerenciam funções analíticas definidas, como análise de KPIs ou pesquisa de concorrentes.
O Swarm, portanto, combina forte coordenação com distribuição eficiente de tarefas , tornando-o uma boa opção para ambientes analíticos multiagentes que exigem velocidade e precisão.
LangGraph
Alta eficiência, alta precisão (60%, 100%)
O LangGraph alcançou alta precisão e execução eficiente, concluindo fluxos de trabalho analíticos com menos eventos de decisão.
As métricas de testes repetidos mostraram consistentemente caminhos de execução diretos e um número mínimo de tentativas. Esse padrão reflete a arquitetura baseada em grafos do LangGraph, que predefine as dependências de execução e reduz operações redundantes.
Dessa forma, o LangGraph oferece desempenho preciso, consistente e eficiente , tornando-o uma boa opção para fluxos de trabalho analíticos estruturados .
CrewAI
Baixa eficiência, alta precisão (21%, 87%)
A CrewAI alcançou alta precisão, mas exigiu um número substancialmente maior de decisões para concluir cada fluxo de trabalho.
Os dados registrados pelo DecisionTracker e pelo AccuracyLatencyTracker mostraram a ocorrência de vários eventos de decisão adicionais após falhas da ferramenta.
Esse padrão indica uma forte tolerância a falhas, que garantiu resultados finais confiáveis, mas aumentou a sobrecarga computacional e o tempo de execução.
Portanto, a CrewAI prioriza a integridade e a confiabilidade dos resultados em detrimento da eficiência de execução.
LangChain
Eficiência média, baixa precisão (42%, 78%)
O LangChain demonstrou eficiência moderada, mas menor precisão em comparação com outras estruturas.
As métricas registradas mostraram iterações de decisão repetidas após falhas da ferramenta, visto que a estrutura tentava novamente operações idênticas em vez de se adaptar a estratégias alternativas. Esse padrão de execução sequencial limitou a eficácia da recuperação e resultou na conclusão parcial da tarefa.
Portanto, o LangChain oferece uma taxa de transferência razoável, mas uma tolerância a falhas fraca , tornando-o mais adequado para fluxos de trabalho analíticos mais simples e de baixo risco .
desempenho de integração de ferramentas
Enxame
(Taxa de sucesso de 100% na coordenação de ferramentas)
A Swarm manteve uma taxa de sucesso de 100% em suas ferramentas graças à sua arquitetura de agentes especializados. Agentes distintos gerenciavam tarefas analíticas como análise de KPIs, comparação com a concorrência e conversão de moedas, permitindo transições de tarefas perfeitas e utilização eficiente das ferramentas .
LangGraph
(Taxa de sucesso de 100% na coordenação de ferramentas)
O LangGraph alcançou uma taxa de sucesso de execução de ferramentas de 100%. Sua orquestração baseada em grafos mapeou com eficácia as dependências entre as ferramentas e a ordem de execução, evitando chamadas redundantes ou conflitantes. A estrutura demonstrou alta confiabilidade e coordenação consistente em todos os módulos.
CrewAI
(Taxa de sucesso de coordenação de ferramentas de 37%)
O CrewAI apresentou uma baixa taxa de execuções bem-sucedidas de ferramentas, particularmente nos módulos de KPI e validação. Apesar disso, todas as tarefas foram concluídas por meio de ciclos adicionais de raciocínio e recuperação, indicando forte tolerância a falhas com maior sobrecarga computacional .
LangChain
(Taxa de sucesso de coordenação de ferramentas de 51%)
O LangChain obteve sucesso moderado na execução das ferramentas, mas apresentou deficiências na recuperação adaptativa. Quando as chamadas das ferramentas falhavam, ele repetia a mesma sequência de operações, resultando em processamento redundante e saídas incompletas .
Tempo de execução e token de conclusão
Enxame
Mais rápido e mais eficiente
O Swarm concluiu todos os fluxos de trabalho em aproximadamente 20 segundos , utilizando cerca de 1.000 tokens , o menor valor entre todas as estruturas analisadas. Seus tempos de conclusão consistentes e o consumo mínimo de tokens indicam uma execução estável e eficiente em todas as execuções .
LangGraph
Desempenho equilibrado
O Swarm concluiu todos os fluxos de trabalho em aproximadamente 20 segundos , utilizando cerca de 1.000 tokens , o menor valor entre todas as estruturas analisadas. Seus tempos de conclusão consistentes e o consumo mínimo de tokens indicam uma execução estável e eficiente em todas as execuções .
CrewAI
Requer muitos recursos, mas é confiável.
O CrewAI exigiu cerca de 32 segundos e 4,5 mil tokens por execução, o maior consumo de recursos no benchmark. Ciclos de raciocínio e validação mais longos resultaram em tempos de execução maiores, mas com conclusão consistente das tarefas, indicando alta confiabilidade com custo aumentado .
LangChain
Mais lento e menos eficiente
O LangChain concluiu as execuções em aproximadamente 48 segundos , consumindo cerca de 2,1 mil tokens . Tentativas repetidas após falhas na execução da ferramenta contribuíram para tempos de execução mais longos e utilização ineficiente de recursos .
abordagens de tratamento de erros
Para avaliar o gerenciamento de erros nativo, cada framework foi avaliado usando sua própria lógica de processamento de dados em vez de um pipeline de pré-processamento compartilhado. Essa comparação destacou diferenças importantes entre frameworks que priorizam a integridade dos dados e aqueles que enfatizam a completude do processamento .
LangGraph e Swarm priorizaram a precisão e a integridade dos dados por meio de validação e exclusão, enquanto CrewAI e LangChain priorizaram a completude, seja retendo dados incompletos ou imputando valores ausentes, o que levou a uma maior variabilidade na precisão analítica.
Segue uma análise detalhada:
Enxame
O Swarm aplicou uma lógica de salto precisa, excluindo registros inválidos ou incompletos, mantendo a continuidade geral do fluxo de trabalho. Após a resolução de pequenos problemas de compatibilidade com a API, a estrutura processou de forma consistente os registros verificados sem afetar o fluxo de execução.
LangGraph
O LangGraph impôs uma validação de dados rigorosa, omitindo entradas com valores nulos ou incompletos. Essa abordagem conservadora garantiu a precisão analítica, processando apenas os registros que passaram nas verificações de integridade, mantendo resultados consistentes em todas as execuções de teste.
CrewAI
A CrewAI operava sob o princípio de "perda zero de dados", retendo todos os registros, incluindo aqueles com campos ausentes ou inválidos. Embora essa abordagem preservasse a integridade do conjunto de dados, ela reduzia a precisão dos cálculos devido à inclusão de pontos de dados não verificados.
LangChain
O LangChain utilizou técnicas de imputação de dados para inferir valores ausentes a partir de campos existentes. Por exemplo, quando o valor de `Final_Price` era nulo, ele calculou substitutos a partir dos campos `Price` e `Discount` . Embora adaptativo, esse método introduziu desvios dos resultados esperados, impactando a precisão dos resultados.
Quando usar cada framework?
- CrewAI: Quando problemas inesperados são prováveis e a resolução autônoma de problemas é necessária.
- LangGraph: Para raciocínio e estrutura equilibrados. Ideal para casos de uso de propósito geral.
- Swarm: Em ambientes de produção onde velocidade e confiabilidade são essenciais. Mais rápido e consistente.
- LangChain: Ideal para quando são necessárias rastreabilidade e transparência detalhadas. Registra cada etapa, porém é mais lento que as alternativas.
Experiência do desenvolvedor
Desempenho da integração entre frameworks e LLM: Diferentes frameworks demonstram níveis variados de compatibilidade e desempenho com provedores de LLM específicos. Por exemplo, o LangChain apresenta integração e precisão superiores quando combinado com os modelos ChatGPT da OpenAI, oferecendo resultados mais precisos por meio do processamento otimizado de prompts.
Consistência comportamental orientada pela arquitetura: Embora as estruturas possam utilizar diferentes LLMs com eficiência variável, suas principais características comportamentais permaneceram amplamente consistentes entre os modelos. Os comportamentos característicos que observamos – como padrões de tomada de decisão, tratamento de recuperação e capacidades de raciocínio alternativo – dependem principalmente de seu projeto arquitetônico subjacente, e não do LLM específico empregado.
Isso sugere que as combinações de framework e LLM podem impactar as métricas de desempenho, mas os padrões comportamentais principais, como a abordagem "custe o que custar" da CrewAI ou a coordenação especializada de agentes do Swarm, permanecem consistentes independentemente do modelo de linguagem utilizado.
Desafios de integração: Encontramos desafios de integração consideráveis ao tentar conectar o CrewAI com os modelos Claude de Anthropic. Apesar de várias tentativas de configuração, erros persistentes na configuração do ambiente impediram a implantação bem-sucedida.
Nossa pesquisa indica que este não é um problema isolado – vários desenvolvedores da comunidade relataram dificuldades semelhantes de integração entre o CrewAI e os serviços Anthropic, sugerindo possíveis incompatibilidades arquitetônicas ou limitações no tratamento da API.
Recomendações para a combinação de framework e LLM: Com base nessas descobertas, recomendamos avaliar diferentes combinações de framework e LLM ao selecionar frameworks para seu caso de uso específico.
Como os agentes lidam com tarefas de análise
A análise de dados por agentes transforma o papel da IA de ferramenta passiva em execução autônoma. Em vez de esperar por instruções explícitas a cada etapa, os agentes analíticos percebem o estado atual dos dados, decidem quais ações tomar e adaptam sua abordagem com base em resultados intermediários.
Principais competências em contextos analíticos:
- Preparação autônoma de dados: os agentes detectam valores ausentes, identificam outliers, padronizam formatos e validam os resultados limpos sem exigir configuração manual para cada transformação.
- Geração dinâmica de consultas: as solicitações em linguagem natural são traduzidas em consultas executáveis, com agentes otimizando e ajustando a sintaxe com base no banco de dados de destino.
- Teste iterativo de hipóteses: Quando a análise inicial não for conclusiva, os agentes podem reformular sua abordagem, testar hipóteses alternativas ou solicitar fontes de dados adicionais.
- Detecção de anomalias em tempo real: O monitoramento contínuo de métricas permite que os agentes identifiquem padrões inesperados e alertem as partes interessadas antes que os problemas se agravem.
Limitações práticas:
- Preocupações com o determinismo: O comportamento probabilístico do modelo significa que consultas idênticas podem produzir resultados ligeiramente diferentes em execuções distintas, o que complica os requisitos de reprodutibilidade.
- Precisão numérica: agentes baseados em LLM podem interpretar incorretamente formatos numéricos ou introduzir erros de cálculo, exigindo camadas de validação para métricas críticas.
Metodologia de referência
Objetivo : Nosso objetivo foi comparar objetivamente quatro frameworks de agentes de IA (LangGraph, LangChain, CrewAI, Swarm) usando conjuntos de dados e sistemas de medição idênticos. Avaliamos a precisão da tomada de decisão, a eficiência de recursos e as capacidades de integração de ferramentas dos frameworks sob condições de erro realistas.
Descrição do conjunto de dados: Garantimos condições de teste idênticas para cada framework. Utilizamos o mesmo conjunto de dados JSON, os mesmos KPIs de referência, as mesmas APIs simuladas e os mesmos atrasos de tempo em todos os frameworks.
Utilizamos um conjunto de dados de 100 registros, o que foi suficiente para observar as capacidades de decisão. Reiniciamos os sistemas de rastreamento antes de cada teste (decision_tracker, perf_tracker reset). Utilizamos as mesmas funções de ferramenta em todas as estruturas, mas adaptamos as convenções de nomenclatura para cada uma (_swarm_tool, crewai tool).
Perturbações nos dados : Foram utilizados dados de compras de comércio eletrônico. O conjunto de dados contém os seguintes campos:
- ID do usuário (Identificador do cliente),
- ID_do_produto (Identificador do produto),
- Categoria (Categoria de produto),
- Preço (Rs.) (Preço original),
- Desconto (%) (Percentagem de desconto),
- Preço_final(Rs.) (Preço final após o desconto),
- Método de pagamento (Método de pagamento),
- Data_da_compra (Data da compra).
Utilizamos dados de comércio eletrônico deliberadamente corrompidos:
- Valores nulos
- Campos vazios – “Product_ID”: “”, “User_ID”: “”, “Category”: “”
- Nomes de campos mistos – “custo”: 1200,0, “receita”: 150,0
- Inconsistência de dados – Variações no formato de data (“07/01/2024” vs “dd-mm-aaaa”)
- Valores zero/negativos
Definição das tarefas : Cada estrutura recebeu 5 tarefas idênticas:
- Processamento de dados – Processamento de dados aprimorado com execução específica da estrutura para limpeza e transformação.
- Cálculo de KPIs – Aplique algoritmos de cálculo de KPIs idênticos usando a ferramenta enhanced_kpi_calculator.
- Análise da concorrência – Realize uma análise da concorrência para os 3 principais produtos usando a API de Concorrência.
- Conversão de moeda – Converta a receita total para USD usando a CurrencyAPI.
- Tratamento de erros – Implementar estratégias nativas de gerenciamento de erros para inconsistências de dados.
Principais pontos de decisão esperados:
- Decisão sobre tratamento de valores nulos – Como lidar com Final_Price nulo
- Decisão padrão para campos vazios – Como preencher campos vazios
- Decisão de mapeamento de campo – Transformações de campo
- Decisão sobre inconsistência de dados – Normalização de formato
- Decisão de ignorar valores zero – Incluir/excluir valores zero
- Decisão sobre a execução de ferramentas : Qual ferramenta usar e quando? Há alguma chance de sucesso? O que fazer em caso de erro? Como lidar com falhas das ferramentas e quais estratégias alternativas adotar?
Executamos cada pipeline do framework 10 vezes e calculamos os valores medianos para todas as métricas.
Consistência na execução: Implementamos a mesma infraestrutura de medição em todas as estruturas:
- Rastreador de latência de precisão para medição de tempo (temporizador de início/temporizador de fim),
- DecisionTracker para registro de decisões com categorização,
- Processador de dados analítico aprimorado para lógica de limpeza de dados idêntica,
- APIs simuladas, incluindo a API do concorrente (atraso de 0,05s)
- API de moeda (atraso de 0,1s)
Mantivemos configurações específicas para cada framework: o LangGraph utilizou orquestração baseada em grafos com pontuação de confiança e roteamento inteligente. O LangChain empregou um agente ReAct sequencial com ConversationBufferMemory e registro detalhado de logs. O CrewAI utilizou colaboração multiagente com resolução autônoma de problemas.
Todas as estruturas (CrewAI, LangGraph, LangChain e Swarm) foram testadas usando GPT-4.1 para garantir um desempenho consistente do modelo e uma comparação justa entre as métricas de avaliação.
Métricas de avaliação
A precisão da decisão mede a confiabilidade com que uma estrutura resolve problemas críticos de dados e é calculada da seguinte forma:
A precisão foi determinada comparando as decisões de cada estrutura com critérios de lógica de negócios predefinidos.
Cada decisão foi avaliada de forma binária (correta/incorreta) com base em:
- Recuperação de falhas de ferramentas : se as operações com falha foram resolvidas com sucesso usando raciocínio alternativo.
- Tratamento de valores nulos : se os registros inválidos foram ignorados corretamente.
- Valores padrão para campos vazios : indica se os valores ausentes foram substituídos corretamente (por exemplo, "DESCONHECIDO").
A eficiência da decisão avalia a eficácia com que uma estrutura aborda questões críticas de dados e é calculada da seguinte forma:
Os pontos críticos foram definidos como o número mínimo de etapas de decisão necessárias (por exemplo, tratamento de valores nulos, valores padrão para campos vazios, mapeamento de campos). Uma pontuação de 100% indica uma decisão por ponto crítico, enquanto decisões adicionais sinalizam ineficiência ou processamento excessivo.
O desempenho da ferramenta foi medido usando a taxa de sucesso primária , que representa a proporção de chamadas diretas da ferramenta concluídas com sucesso:
A capacidade de recuperação mede a habilidade de uma estrutura em se recuperar com sucesso de chamadas de ferramentas com falha e é calculada como:
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.