Análise comparativa dos 13 melhores programas de mestrado em Direito (LLM) da Agentic: comparação entre os 13 melhores.
Avaliamos o desempenho de 13 modelos de lógica de aprendizado de máquina (LLM ) em 10 tarefas de desenvolvimento de software usando uma ferramenta de linha de comando (CLI) com agentes . Executamos cerca de 300 etapas de validação automatizadas por modelo para medir o desempenho nas camadas de API e interface do usuário.
Resultados de referência do Agentic LLM
Comparação de taxas de sucesso
Claude 4.5 Sonnet e GPT-5.2 obtiveram as pontuações gerais mais altas, com os resultados mais consistentes tanto na lógica da API quanto na integração da interface do usuário. Gemini 3.1 Pro Preview e GPT-5.2 Codex vieram em seguida, com lógica de backend funcional, mas com desempenho de frontend inferior.
Claude Sonnet 4.5
Obtendo a maior taxa de UI entre todos os modelos testados, o modelo Claude Sonnet 4.5 produziu consistentemente front-ends funcionais com lógica de back-end também funcional. Ele implementou com sucesso operações CRUD, validação de entrada, coleções de recursos, fluxos de trabalho com várias etapas e ciclos de vida de status com vários estágios. No entanto, algumas tarefas tinham a autenticação configurada corretamente, mas apresentavam falhas na criação de recursos, na aplicação de restrições ou no controle de acesso baseado em funções em endpoints específicos do domínio.
Prévia do Gemini 3.1 Pro
Código de backend tecnicamente preciso, mas com infraestrutura frágil. Passou pelas etapas básicas de autenticação e listagem em algumas tarefas, mas geralmente falhou em:
- Inicialização do frontend
- Validação de esquema rigorosa
- Restrições de validação baseadas no tempo
- Transições de estado complexas
- Criação de recursos em cascata
GPT-5.2
A maioria das tarefas executadas pelo GPT-5.2 apresentou back-ends funcionais e front-ends operacionais, com ótimo desempenho em operações CRUD, validação de entrada, controle de acesso baseado em funções e fluxos de trabalho com várias etapas. Onde apresentou deficiências:
- Lógica da máquina de estados: autenticação e listagem de recursos implementadas, mas transições de status de administrador e imposição de estado irreversível ignoradas.
- Imposição de funções ou criação de recursos restrita em algumas tarefas
GPT-5.2 Códice
Fluxos básicos como registro, listagem de recursos e gerenciamento de coleções foram bem tratados pelo Codex GPT-5.2. Suas principais fragilidades:
- Pontos de extremidade de recuperação de detalhes ausentes
- Sem transições de estado administrativo
- Metade de suas interfaces de usuário apresentaram falhas com erros de tempo de execução (5 de 10).
Em comparação com GPT-5.2, o Codex gerou backends mais confiáveis, mas frontends significativamente menos estáveis.
Exemplo de registro:
Gemini 3 Pro
Em tarefas mais simples de função única, o Gemini 3 Pro implementou corretamente CRUD, pesquisa, acesso baseado em funções e recuperação de dados. Aplicações com múltiplas funções foram seu ponto fraco.
- Aprovado na verificação de integridade e autenticação, mas reprovado na criação de recursos, gerenciamento de associações, imposição de funções e fluxos de trabalho administrativos.
- Falhei em 13 de 16 etapas em duas tarefas com múltiplas funções.
- A renderização do frontend falhou em 4 tarefas.
Claude Sonnet 4.6
Com duas falhas totais no backend e baixas pontuações na API na maioria das tarefas, o modelo Claude Sonnet 4.6 apresentou desempenho inconsistente. Uma exceção: obteve uma pontuação de 0,92 na API em uma única tarefa com CRUD, autenticação, aplicação de funções e gerenciamento de recursos quase completos (falhando apenas na exclusão). Nas demais tarefas, gerou a estrutura do projeto e camadas de autenticação funcionais, mas deixou a lógica de negócios específica do domínio incompleta. Implementações ausentes:
- Criação, listagem e recuperação de detalhes de recursos
- Transições de estado, aplicação de funções, validação de entrada
- Fluxos de trabalho do domínio: carrinho/finalização de compra, gerenciamento de ingressos, agendamentos, enquetes, confirmação de presença em eventos, rastreamento de transações
Claude Opus 4.6
Interfaces quase completas surgiram do Claude Opus 4.6, mas com lógica de backend mínima. Elas passaram pelas etapas de verificação de integridade, registro e login, mas geralmente falharam em:
- Criação de recursos
- transições de estado
- Acesso baseado em funções
- Validação de entrada
- Fluxos de trabalho administrativos
Exemplo de registro:
Kimi K2.5
Implementações completas para alguns tipos de tarefas contrastaram com falhas nos backends para outros, sugerindo que o Kimi K2.5 lida bem com tarefas CRUD mais simples, mas tem dificuldades com aplicações complexas de múltiplas funções ou etapas.
GLM 4.7
O desempenho geral de GLM 4.7 apresentou resultados limitados. Suas tarefas com maior pontuação tinham front-ends parcialmente carregados, mas os endpoints de autenticação retornavam códigos de status incorretos. A maioria das tarefas apresentava código de back-end ou front-end com problemas.
Grok 4
O código de backend resultante do Grok 4 era mínimo, implementando tipicamente apenas endpoints de verificação de integridade e autenticação. Ele concluiu uma tarefa completamente, mas falhou nas demais:
- Listagens de serviços
- Criação de recursos
- Operações administrativas
- transições de estado
Devstral 2 2512
Parte da lógica de backend foi gerada pelo Devstral, mas nenhum código de frontend válido apareceu em nenhuma tarefa devido a arquivos ausentes ou referências de módulo quebradas.
Qwen3 Coder Próximo
O código de backend que não pôde ser executado caracterizou a maioria das tarefas tentadas por Qwen3 Coder Next. Onde os backends começaram, os frontends falharam devido à falta de pontos de entrada ou componentes quebrados.
Prévia do Trinity Large
Com as pontuações mais baixas no geral, o Trinity Large Preview gerou estruturas de projeto com erros que impediam a execução dos aplicativos. A maioria dos backends não possuía implementações de rotas funcionais e os frontends apresentavam componentes ausentes ou quebrados.
Comparação de custos e sucesso
Claude Opus 4.6 foi o modelo mais caro por execução, mas ficou no meio do ranking, enquanto Devstral teve um custo semelhante ao de Claude 4.5 Sonnet, mas obteve uma pontuação significativamente menor. GPT-5.2 e GPT-5.2 Codex alcançaram pontuações altas a um custo relativamente baixo.
Tokens de conclusão e tempo de conclusão da tarefa
O Devstral consumiu uma grande quantidade de tokens em todos os modelos, mas não produziu nenhum frontend funcional, o que significa que grande parte de sua saída era código não funcional ou redundante.
Kimi K2.5 e GLM 4.7 apresentaram as maiores latências, gastando significativamente mais tempo por tarefa sem uma melhoria correspondente nos resultados.
O Grok-4 também se mostrou lento, apesar de gerar relativamente poucos tokens, indicando longas pausas entre as gerações em vez de grandes volumes de dados. Já o Gemini 3 Pro Preview e o Codex GPT-5.2, por outro lado, foram mais rápidos, concluindo as tarefas rapidamente com uso moderado de tokens e ficando ambos na metade superior da pontuação geral.
Desempenho do LLM em uma única tarefa bem-sucedida
Após realizarmos nosso teste comparativo com 10 tarefas, descobrimos que não havia nenhuma tarefa que todos os LLMs (Learning Learning Machines) concluíssem corretamente, e que havia muitas etapas em que eles falhavam. Portanto, queríamos ver como os tokens e a latência se comportariam em uma tarefa que todos eles pudessem concluir com sucesso e facilidade.
Para isso, desenvolvemos uma tarefa básica mínima: uma API simples de Notas em memória com quatro endpoints CRUD, validação básica e sem autenticação ou banco de dados. Todos os participantes do LLM concluíram essa tarefa com 100% de aprovação, confirmando que todos os modelos conseguem lidar com a geração de APIs simples quando a complexidade é removida.
Isso nos permitiu comparar o uso de tokens, o custo e a latência em uma única tarefa bem-sucedida.
Comparação de custo e linhas de código
No teste de desempenho completo, o Claude 4.5 Sonnet foi o modelo com a melhor pontuação, a um custo médio de US$ 0,29 por tarefa; aqui, ele completou a tarefa básica por apenas US$ 0,012, igualando-se aos modelos mais baratos.
Qwen3 Coder (US$ 0,012) e Trinity (gratuito), que ficaram em último e penúltimo lugar no teste de desempenho completo, respectivamente, ofereceram preços competitivos em comparação com os modelos Sonnet, que obtiveram as melhores pontuações. Isso significa que, em uma tarefa que todos eles conseguem concluir, a diferença de custo entre os melhores e os piores desempenhos praticamente desaparece, com exceção do Opus, que permanece caro independentemente da dificuldade da tarefa.
O Gemini 3.1 Pro Preview, a US$ 0,016, demonstrou um preço eficiente nesta tarefa básica, embora seu custo fosse ligeiramente superior ao dos modelos mais baratos. Isso o posicionou de forma competitiva entre os modelos de gama média, mostrando uma relação custo-benefício razoável quando a complexidade da tarefa é reduzida.
O Devstral 2 2512 apresentou a redução de custos mais drástica, caindo de US$ 0,31 por tarefa para US$ 0,021. Como obteve uma pontuação de apenas 0,07 no benchmark completo, isso revela um aspecto importante da precificação do LLM : custos elevados nem sempre refletem taxas caras por token; eles podem resultar de repetidas tentativas malsucedidas, em vez da estrutura de preços base do modelo.
Claude Opus 4.6 permaneceu o mais caro, a US$ 0,086, valor consistente com sua média de US$ 1,17 no benchmark completo, confirmando que seu preço por token o torna dispendioso independentemente da dificuldade da tarefa.
Grok-4 gerou o menor número de linhas de código, o que está de acordo com seu baixo uso de tokens no benchmark completo. Codex e GPT-5.2 apresentaram custos semelhantes, mas GPT-5.2 foi mais rápido e eficiente. Isso reflete o benchmark completo, no qual GPT-5.2 obteve uma pontuação mais alta com o mesmo custo, demonstrando que alcança as soluções de forma mais direta.
Tokens de conclusão e comparação de conclusão de tarefas
O modelo Kimi K2.5 levou 135 segundos para concluir uma tarefa que a maioria dos modelos terminou em menos de 30 segundos, confirmando que a alta latência observada no benchmark completo é uma limitação do modelo, e não da complexidade da tarefa.
O modelo GLM 4.7, o mais lento no benchmark completo, concluiu esta tarefa em 24 segundos, uma redução de 25 vezes, sugerindo que sua latência aumenta com a dificuldade.
Qwen3 Coder foi o mais rápido, com 10 segundos, apesar de ter ficado em último lugar no benchmark completo. GPT-5.2 usou menos tokens que GPT-5.2 Codex e terminou mais rápido, o que está de acordo com o benchmark completo, onde GPT-5.2 obteve uma pontuação mais alta, sendo mais conciso.
O que são sistemas LLM agentivos?
O desenvolvimento de software é iterativo: escrever código, executá-lo, identificar erros, corrigi-los e repetir. Os sistemas de IA agéticos permitem que os LLMs sigam esse mesmo ciclo. O modelo opera dentro de um ambiente de desenvolvimento onde pode escrever arquivos, executar comandos, ler resultados e fazer alterações com base no que observa, continuando até que a tarefa seja concluída.
Isso é importante porque aplicações reais não são arquivos únicos. Elas possuem back-ends com rotas e modelos de banco de dados, front-ends com componentes e chamadas de API, arquivos de configuração, dependências e testes. Fazer com que tudo isso funcione em conjunto exige testes e refinamentos iterativos, que é exatamente o que a arquitetura de agentes possibilita.
Como funciona
O modelo reside dentro de um ambiente com acesso a um shell, sistema de arquivos e saída de execução. Quando solicitado a compilar um aplicativo, ele grava arquivos incrementalmente. Após cada etapa, o ambiente mostra ao modelo o que aconteceu: o servidor iniciou, os testes foram aprovados, o analisador de código sinalizou erros. Com base nesse feedback, o modelo decide o que escrever ou corrigir em seguida.
Isso difere fundamentalmente da geração de código único. Em configurações de geração única, o modelo gera toda a base de código às cegas, sem nenhuma maneira de verificar se funciona. Em sistemas LLM com agentes, o modelo observa as consequências de cada ação e corrige o curso. No entanto, essa capacidade por si só não é suficiente. O modelo ainda precisa de um raciocínio robusto para implementar a lógica de negócios corretamente, e é aí que as diferenças de desempenho realmente se manifestam.
Metodologia de referência Agentic LLM
Utilizamos o Aider para todos os agentes e nos conectamos aos modelos por meio do OpenRouter. Avaliamos a capacidade deles de trabalhar de forma autônoma em 10 tarefas de desenvolvimento de software (T-1 a T-10), que variam de sistemas de reserva simples a painéis interativos complexos. Essas tarefas exigem que os agentes gerenciem projetos com múltiplos arquivos e entreguem produtos funcionais.
Execução e orquestração
Cada agente e tarefa começa em um ambiente limpo. As instruções são fornecidas em um arquivo TASK.md e utilizamos um monitor de atividade (heartbeat) de 20 minutos para os scripts de inicialização. Durante essa fase, registramos os códigos de saída, o tempo de execução e se os arquivos de backend e frontend foram criados. Também monitoramos o uso de tokens em tempo real nas categorias de entrada, saída e cache.
Validação de backend : Implantamos os projetos gerados em ambientes isolados para testá-los em relação a um contrato YAML canônico. A validação abrange cenários de funcionamento normal, tratamento de erros (400/403/409) e consistência de dados.
Testamos os resultados em dois modos:
O modo adaptativo valida a funcionalidade mesmo com nomes de rotas diferentes, enquanto o modo estrito exige a adesão exata ao contrato.
A pontuação geral do backend é calculada como: backend_overall = (tarefas_prontas / total_tarefas) × Média(Taxas de sucesso adaptativas + taxas de sucesso estritas)
Testes de interface do usuário e cenários de usuário
Utilizamos automação de navegador para simular fluxos de usuários reais, incluindo verificações prévias, renderização e autenticação. Verificamos etapas funcionais como o envio de login e o comportamento pós-login para garantir que o aplicativo funcione sem falhas.
O desempenho da interface do usuário é medido pela taxa de aprovação de etapas: taxa_de_aprovação_de_etapas = aprovadas / (aprovadas + reprovadas + bloqueadas)
Cálculo de tokens
A contagem de tokens é extraída da resposta da API LLM. Subtraímos os tokens de entrada em cache do total de tokens de entrada para obter a entrada efetiva, que reflete apenas os tokens recém-processados. Os tokens de saída nunca são armazenados em cache, portanto, permanecem inalterados.
Agregação final
A pontuação final do benchmark é calculada combinando os resultados das fases anteriores: Pontuação Final = (0,7 × backend_geral) + (0,3 × ui_geral). Atribuímos um peso maior ao backend porque falhas de lógica no nível da API frequentemente invalidam qualquer sucesso no frontend.
Exemplo de tarefa
Tarefa 6: Sistema de tickets de suporte técnico
A Tarefa 6 concentra-se no desenvolvimento de um ecossistema complexo de suporte ao cliente. O objetivo principal é construir uma plataforma que intermedie a comunicação entre clientes e agentes de suporte, aplicando rigorosamente as regras de negócio e os limites de segurança. Esta tarefa avalia a capacidade de um agente de lidar com máquinas de estado multiusuário, isolamento de dados e comunicação multithread em um ambiente full-stack.
A tarefa exigia a construção de um sistema de suporte técnico com as seguintes características:
- Permissões distintas para Clientes (emissão/resposta) e Agentes (gestão/resolução).
- Um fluxo de trabalho de status rígido que impede transições ilegais e impõe ações específicas para cada função.
- Isolamento avançado de dados, onde solicitações de recursos não autorizados retornam o código 404 em vez do 403 para proteger a integridade do sistema.
- Um sistema de respostas cronológicas para uma interação perfeita entre agente e cliente.
- Um backend FastAPI combinado com um frontend responsivo baseado em Vite (React/Vue/Svelte).
- Configuração reproduzível através de comandos específicos do shell para ativação imediata do sistema.
Você pode consultar a documentação da Tarefa 6 no GitHub .
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.