Análise comparativa de 38 mestrados em Direito (LLM) em Finanças: Claude Opus 4.6, Gemini 3.1 Pro e outros.
Avaliamos 38 mestrados em Direito (LLMs) na área de finanças com base em 238 questões complexas do benchmark FinanceReasoning para identificar quais modelos se destacam em tarefas complexas de raciocínio financeiro, como análise de demonstrações financeiras, previsão e cálculo de índices.
Visão geral comparativa de finanças do LLM
Avaliamos os LLMs em 238 questões difíceis do benchmark FinanceReasoning (Tang et al.). 1 Este subconjunto visa as tarefas de raciocínio financeiro mais desafiadoras, avaliando o raciocínio quantitativo complexo e de múltiplas etapas envolvendo conceitos e fórmulas financeiras. Nossa avaliação empregou um design de enunciado personalizado e critérios de pontuação de precisão e consumo de fichas.
Para uma explicação detalhada de como essas métricas foram calculadas e da estrutura utilizada para esta avaliação, consulte nossa metodologia de benchmark financeiro .
Resultados: Qual o melhor LLM para finanças?
Desempenho de alto nível (precisão superior a 83%):
O algoritmo gpt-5-2025-08-07 alcançou a maior precisão, com 88,23%, utilizando 829.720 tokens. Isso representa o estado da arte atual em desempenho para tarefas de raciocínio financeiro.
claude-opus-4.6 alcança uma precisão de 87,82% com 164.369 tokens, oferecendo um desempenho próximo ao melhor, consumindo significativamente menos tokens do que o líder.
gpt-5-mini-2025-08-07 atinge 87,39% de precisão com 595.505 tokens, oferecendo uma forte alternativa dentro da família GPT-5.
gemini-3.1-pro-preview alcança uma precisão de 86,55% com 475.148 tokens, superando seu antecessor gemini-3-pro-preview (86,13%) enquanto consome 35% menos tokens (730.759 tokens).
Tanto o gemini-3-pro-preview quanto o gpt-5.2 estão empatados com 86,13% de precisão. No entanto, o gpt-5.2 atinge esse resultado com 247.660 tokens, em comparação com os 730.759 tokens do gemini-3-pro-preview, tornando-o três vezes mais eficiente.
Alto desempenho (precisão de 80 a 83%):
claude-opus-4.5 oferece 84,03% de precisão com 144.505 tokens, mantendo o forte equilíbrio de desempenho e eficiência de Claude.
claude-sonnet-4.6 e gemini-3-flash-preview estão empatados com 83,61% de precisão. Claude Sonnet 4.6 usa 161.035 tokens, enquanto o Gemini 3 Flash Preview atinge esse resultado com 118.530 tokens, tornando-se a opção mais eficiente em termos de tokens entre todos os modelos de alto desempenho.
O modelo kimi-k2.5 atinge uma precisão de 82,77%, mas requer 877.868 tokens, o maior consumo entre os modelos neste nível de desempenho.
Nível intermediário (70-80% de precisão):
o3-pro-2025-06-10 (78,15% de precisão, 473.659 tokens) e kimi-k2 (78,15% de precisão, 100.323 tokens) estão empatados. O modelo Kimi-k2 é o mais eficiente neste grupo.
o3-mini-2025-01-31 (77,31% de precisão, 376.929 tokens), gpt-5-nano-2025-08-07 (76,89% de precisão, 1.028.909 tokens) e claude-sonnet-4-20250514 (76,05% de precisão, 135.462 tokens) vêm logo em seguida.
Desempenho baixo (precisão <70%):
claude-3-5-sonnet-20241022 (67,65% de precisão, 90.103 tokens) e gpt-oss-20b (67,65% de precisão, 515.041 tokens) lideram este nível.
gemini-2.5-flash (65,55% de precisão, 286.603 tokens), glm-4.5 (64,29% de precisão, 692.662 tokens) e gpt-4.1-nano-2025-04-14 (63,45% de precisão, 171.096 tokens) seguem.
O modelo com a classificação mais baixa é deepseek-v3-0324 , que teve uma precisão de 10,92% com 100.861 tokens.
Informações sobre desempenho:
O teste de referência não mostra uma correlação clara entre o consumo de tokens e a precisão. O usuário deepseek-r1-0528 consumiu a maior quantidade de tokens (1.251.064), mas alcançou uma precisão de 62,18%, enquanto o usuário claude-opus-4-20250514 obteve 80,25% com 132.274 tokens.
A eficiência de tokens varia drasticamente mesmo entre modelos de alto desempenho. O modelo gemini-3-flash-preview utiliza 118.530 tokens para atingir uma precisão de 83,61%, enquanto o modelo kimi-k2.5 consome 877.868 tokens para uma precisão de 82,77% (7,4 vezes mais tokens para um desempenho ligeiramente inferior).
A tabela acima apresenta outros benchmarks de modelos de IA, incluindo aqueles utilizados para este benchmark.
Metodologia de referência para raciocínio financeiro
Nosso benchmark fornece uma avaliação justa, transparente e reproduzível do desempenho de Modelos de Linguagem de Grande Porte (LLM, na sigla em inglês) em tarefas complexas de raciocínio financeiro.
Configuração de teste e conjunto de dados
- Conjunto de benchmarks: Utilizamos os dados, o código e os scripts de avaliação do benchmark FinanceReasoning. Selecionamos este conjunto devido ao seu foco especializado em problemas financeiros quantitativos e inferenciais.
- Corpus de conhecimento e consultas de teste: Concentramos nossa análise no subconjunto difícil, composto por 238 questões desafiadoras. Conforme definido pelo benchmark, cada ponto de dados inclui:
- Uma questão que exige raciocínio lógico e dedução numérica em várias etapas.
- Um contexto que geralmente contém informações densas apresentadas em formatos estruturados, como tabelas Markdown (por exemplo, balanços patrimoniais, dados de desempenho de ações).
- Uma resposta definitiva e precisa para a avaliação objetiva.
- Exemplos de tipos de consulta: A dificuldade do benchmark reside na necessidade de os modelos lidarem com tarefas de raciocínio financeiro diversas e complexas. Para ilustrar essa abrangência, destacamos dois exemplos representativos do conjunto de testes:
Exemplo: Raciocínio algorítmico e de séries temporais (análise técnica)
Contexto: Um investidor está analisando os preços das ações nos últimos 25 dias para calcular o Canal de Keltner usando uma EMA de 10 dias e um ATR de 10 dias, com um multiplicador de 1,5.
Pergunta: Qual é o valor da última faixa superior no Canal de Keltner…? Responda com duas casas decimais.
Esta consulta testa a capacidade de um modelo atuar como um analista quantitativo, através de:
- Desconstruindo um indicador composto: Reconhecendo que o “Canal de Keltner” é derivado de dois outros indicadores complexos:
- a média móvel exponencial (EMA)
- a faixa média verdadeira (ATR) .
- Implementação da lógica algorítmica: Implementação correta dos algoritmos iterativos para EMA e ATR, partindo do zero, em uma série temporal de 25 pontos de dados.
- Sintetizando os resultados: Combinando os valores calculados de acordo com a fórmula final do Canal de Keltner (Banda Superior = EMA + (Multiplicador × ATR)).
Princípios básicos de avaliação
- Chamadas de API isoladas e padronizadas: Para cada modelo, realizamos a avaliação programaticamente por meio de seus respectivos endpoints de API (por exemplo, OpenRouter, OpenAI). Isso garantiu que cada modelo recebesse exatamente a mesma entrada sob condições idênticas, eliminando a variabilidade das interações da interface do usuário.
- Geração de resposta livre: Não restringimos os modelos a um formato de múltipla escolha. Em vez disso, eles foram solicitados a gerar uma resposta abrangente e de resposta livre, permitindo uma avaliação mais autêntica de suas capacidades de raciocínio.
- Estratégia de Raciocínio Lógico (CoT): Para obter e avaliar o processo de raciocínio dos modelos, empregamos uma estratégia de raciocínio lógico (CoT). O sistema instruía explicitamente cada modelo a "primeiro pensar no problema passo a passo" antes de chegar a uma resposta final. Essa abordagem permite uma análise mais profunda de como um modelo chega à sua conclusão, além do resultado final.
Métricas e estrutura de avaliação
Utilizamos a estrutura de avaliação totalmente automatizada do benchmark FinanceReasoning para pontuar os resultados do modelo. Essa estrutura foi projetada para medir tanto a correção conceitual quanto o custo computacional.
1. Métrica principal: Precisão
Essa métrica responde à pergunta crucial: “O modelo consegue resolver corretamente o problema financeiro?” O processo de pontuação envolve um sofisticado fluxo de duas etapas:
- Etapa 1: Extração de respostas baseada em LLM: A saída bruta de um modelo é um texto não estruturado contendo tanto seu raciocínio quanto a resposta final. Para analisar de forma confiável o valor numérico ou booleano definitivo, utilizamos um modelo supervisor poderoso (openai/gpt-4o) como um analisador inteligente. Esse método identifica consistentemente a resposta final pretendida, mesmo com pequenas variações de formatação entre diferentes modelos.
- Etapa 2: Comparação baseada em tolerância: Uma simples “correspondência exata” é insuficiente para problemas numéricos. Portanto, a resposta extraída foi comparada programaticamente com o valor correto. O script aplica um limite de tolerância numérica (uma diferença relativa de 0,2%) para lidar de forma justa com pequenas variações de ponto flutuante ou arredondamento, garantindo que soluções conceitualmente sólidas sejam marcadas como corretas.
2. Métrica secundária: Consumo de tokens
Essa métrica responde à pergunta: "Qual é o custo computacional para o modelo resolver esses problemas?" Ela mede o custo total associado à geração das 238 respostas.
- Cálculo: Para cada chamada de API, coletamos os dados de uso retornados pelo provedor do modelo, que incluem prompt_tokens e completion_tokens. A pontuação final de um modelo é a soma dos completion_tokens (tokens de saída gerados pelo modelo) em todas as 238 perguntas. Isso fornece uma medida clara da verbosidade do modelo e do custo computacional geral para a tarefa.
Essa abordagem de duas métricas, fornecida pelo próprio benchmark FinanceReasoning, permite uma avaliação holística, equilibrando a capacidade bruta de resolução de problemas de um modelo (precisão) com sua eficiência operacional (consumo de tokens).
Raciocínio financeiro com Geração Aumentada por Recuperação (RAG)
Para superar os modelos independentes, projetamos e implementamos uma estrutura RAG personalizada, distinta da implementação original do benchmark. Nossa abordagem é baseada em uma pilha de banco de dados vetorial moderna (Qdrant) para fornecer aos LLMs conhecimento relevante e específico do domínio no momento da inferência, ajudando-os a resolver problemas além de seus dados de treinamento. Testamos isso no conjunto de dados gpt-4o-mini para medir seu impacto.
Resultados e análise: A relação de compromisso RAG
A introdução do RAG teve um impacto significativo e mensurável no desempenho de gpt-4o-mini.
Principais conclusões da avaliação RAG:
- Melhoria significativa na precisão: o RAG demonstrou aprimorar a capacidade de resolução de problemas do modelo, aumentando a precisão em mais de 10 pontos percentuais . Isso confirma que fornecer contexto externo relevante é altamente eficaz para tarefas de raciocínio complexas e específicas de um domínio.
- O custo da precisão: Esse ganho de desempenho teve um alto custo. O consumo total de tokens aumentou quase 18 vezes e o tempo total de execução aumentou 20 vezes. Isso se deve às chamadas de API adicionais para incorporação e, mais importante, aos prompts muito maiores e mais complexos que o LLM precisa processar.
- Implicações para modelos maiores: Os resultados de gpt-4o-mini sugerem que, embora o RAG possa desbloquear um desempenho superior, a aplicação desse método a modelos maiores e mais dispendiosos, como GPT-4o ou Claude Opus, será substancialmente mais custosa e demorada. Isso destaca o equilíbrio crítico entre precisão, custo e latência no desenvolvimento de sistemas de IA financeira de nível de produção.
Metodologia RAG de raciocínio financeiro
Nosso pipeline RAG é construído sobre uma pilha moderna usando o Qdrant como banco de dados vetorial e o modelo OpenAI de text-embedding-3-small para gerar representações vetoriais semânticas. O processo consiste em duas fases principais: uma fase de indexação offline e uma fase de recuperação e geração online.
1. Indexação de corpus de conhecimento
- Criação do corpus: Reunimos uma base de conhecimento especializada a partir de duas fontes fornecidas pelo benchmark:
- Documentos financeiros: Uma coleção de artigos (financial_documents.json) que explicam vários conceitos e termos financeiros.
- Funções financeiras: Uma biblioteca de funções Python prontas para uso (functions-article-all.json) projetadas para resolver cálculos financeiros específicos.
- Intelfragmentação e incorporação eficientes: Para preparar este corpus para uma recuperação eficiente, cada documento e função foi processado e indexado:
- Fragmentação: Os documentos foram segmentados em partes menores e semanticamente coerentes com base em suas seções. Cada função Python foi tratada como uma única parte atômica. Isso garante que o contexto recuperado seja focado e relevante.
- Incorporação: Cada fragmento foi então convertido em um vetor de 1536 dimensões usando o modelo text-embedding-3-small.
- Indexação: Esses vetores foram indexados em duas coleções separadas dentro de nossa instância local do Qdrant (financial_documents_openai_small e financial_functions_openai_small), otimizadas para busca de similaridade de cosseno.
2. Inferência baseada em RAG
Para cada uma das 238 questões, o processo de raciocínio do modelo foi aprimorado com as seguintes etapas automatizadas:
- Geração de embeddings (chamadas de API 1 e 2): A consulta do usuário (pergunta + contexto) foi convertida em um vetor de embedding. Isso exigiu duas chamadas à API de embeddings de OpenAI para preparar as buscas em ambas as coleções.
- Recuperação de múltiplas fontes: O vetor de consulta foi usado para realizar uma busca semântica em ambas as coleções do Qdrant simultaneamente, a fim de recuperar as informações mais relevantes:
- Os 3 trechos de documentos mais relevantes da coleção financial_documents.
- As duas funções Python mais relevantes da coleção financial_functions.
- Aumento do prompt: Os documentos e funções recuperados foram inseridos dinamicamente no prompt, criando um "pacote de informações" rico e contextualizado. Isso aumentou significativamente o tamanho do prompt de entrada (de ~300-500 tokens para ~3.000-5.000+ tokens ).
- Geração da resposta final (chamada de API 3): Este prompt aumentado foi enviado ao modelo gpt-4o-mini para gerar a resposta final e fundamentada.
Limitações de referência para mestrados em direito financeiro
Nosso parâmetro de avaliação, embora abrangente, está sujeito a diversas limitações importantes:
- Risco de contaminação de dados : É possível que esses modelos tenham sido treinados no conjunto de dados de referência, visto que este é público. Isso pode levar a pontuações infladas, dificultando a avaliação da verdadeira capacidade de raciocínio.
- Análise RAG de modelo único : A avaliação RAG foi realizada em um modelo (gpt-4o-mini), portanto, as compensações observadas entre desempenho e custo podem não se aplicar a todos os outros modelos.
Conclusão
Nossa análise comparativa de 38 modelos em tarefas complexas de raciocínio financeiro revela descobertas importantes:
- O modelo gpt-5-2025-08-07 lidera o mercado : com 88,23% de precisão, este modelo define o padrão atual para tarefas de raciocínio financeiro.
- Existem várias alternativas fortes : claude-opus-4.6 (87,82%) e gpt-5-mini-2025-08-07 (87,39%) oferecem desempenho próximo ao máximo, com Claude Opus 4.6 alcançando isso com um consumo de tokens significativamente menor (164.369 tokens).
- Melhorias geracionais importam : gemini-3.1-pro-preview (86,55%) supera gemini-3-pro-preview (86,13%) usando 35% menos tokens, mostrando que atualizações iterativas do modelo podem melhorar tanto a precisão quanto a eficiência.
- A eficiência é tão importante quanto a precisão : o algoritmo gemini-3-flash-preview atinge 83,61% de precisão com 118.530 tokens, provando que alto desempenho e baixo custo podem coexistir. Da mesma forma, o gpt-5.2 demonstra alta eficiência com 247.660 tokens, alcançando 86,13% de precisão.
- Impacto do RAG : A Geração Aumentada por Recuperação (RAG) aumenta significativamente a precisão de um modelo (+10 pontos percentuais para gpt-4o-mini), mas a um custo substancial em termos de consumo de tokens (aumento de 18 vezes) e latência (20 vezes mais lenta).
Registro de alterações
20 de fevereiro de 2026
Adicionados 2 novos modelos ao benchmark:
- Google: Prévia do Gemini 3.1 Pro (google/gemini-3.1-pro-preview)
- Anthropic: Claude Sonnet 4.6 (antrópico/claude-sonnet-4.6)
6 de fevereiro de 2026
Adicionados 7 novos modelos ao benchmark:
- Claude Opus 4.6 (antrópico/claude-opus-4.6)
- Prévia do Gemini 3 Pro (google/gemini-3-pro-preview)
- GPT 5.2 (openai/gpt-5.2)
- Claude Opus 4.5 (antrópico/claude-opus-4.5)
- Pré-visualização em Flash do Gemini 3 (google/gemini-3-flash-preview)
- Kimi K2.5 (moonshotai/kimi-k2.5)
- Claude Sonnet 4.5 (antrópico/claude-sonnet-4.5)
Leitura complementar
A análise financeira pode se referir a múltiplas capacidades, como análise de ações, interpretação da legislação financeira e raciocínio financeiro. Em nosso estudo comparativo, focamos especificamente no raciocínio financeiro, enquanto outras tarefas são abordadas em artigos separados.
- LLM para análise de ações: Esses modelos ajudam a processar dados de mercado, relatórios de empresas e notícias para identificar oportunidades de investimento. (Veja a análise completa aqui: Negociação de ações baseada em IA )
- IA para direito financeiro: Alguns profissionais com mestrado em direito (LLM) podem interpretar regulamentações financeiras, contratos e requisitos de conformidade para auxiliar em tarefas jurídico-financeiras. (Veja nossa lista de ferramentas de IA jurídica aqui: Ferramentas de IA Jurídica )
Perguntas frequentes
Um LLM (modelo de linguagem de grande porte) em finanças é um modelo de IA que utiliza técnicas de processamento de linguagem natural para realizar análises financeiras complexas, gestão de conformidade e compreensão de documentos. Esses modelos auxiliam as instituições financeiras a lidar com a legislação financeira, os requisitos regulatórios e as demandas dinâmicas do setor financeiro.
Intelchatbots inteligentes:
Assistentes virtuais baseados em LLM permitem que empresas financeiras ofereçam suporte automatizado ao cliente 24 horas por dia, 7 dias por semana, lidando com consultas rotineiras e tarefas de integração sem intervenção humana. Isso reduz o tempo de espera e melhora a satisfação do cliente, liberando os agentes humanos para questões mais complexas.
Consultoria e análise:
Os bancos de investimento utilizam LLMs (Modelos de Aprendizagem Baseados em Lógica) para analisar tendências de mercado, notícias financeiras e dados de clientes. Esses modelos processam grandes volumes de informações não estruturadas, permitindo que os consultores ofereçam aconselhamento de investimento personalizado e gestão de portfólio com insights em tempo real.
Análise de documentos regulatórios:
Escritórios de advocacia e instituições financeiras utilizam LLMs (Modelos de Liderança em Direito) para processar documentos regulatórios complexos, como os registros da SEC (Comissão de Valores Mobiliários dos EUA). Esses modelos extraem informações essenciais e resumem relatórios, reduzindo o tempo de revisão manual e ajudando as empresas a se manterem em conformidade com as regulamentações em constante evolução.
Detecção de fraudes:
Os LLMs analisam vastos conjuntos de dados financeiros em tempo real para detectar padrões de transações suspeitas e táticas de fraude emergentes. Suas capacidades de aprendizado contínuo permitem uma identificação de fraudes mais rápida e precisa do que os métodos tradicionais.
Automação jurídica e de conformidade:
Escritórios de advocacia e equipes de compliance utilizam LLMs para revisar contratos, interpretar leis bancárias e verificar a conformidade regulatória. A automatização dessas tarefas reduz o tempo de revisão e os custos jurídicos, ao mesmo tempo que garante a adesão a regulamentações financeiras complexas.
Perguntas e respostas sobre documentos e reconhecimento de entidades nomeadas (NER):
Instituições financeiras utilizam LLMs (Learning Learning Machines) para responder a perguntas de investidores, extraindo dados de relatórios financeiros e teleconferências de resultados. O NER (Enterprise Recordings) permite a marcação automática de nomes de empresas, códigos de ações (símbolos de negociação) e entidades reguladoras, agilizando a recuperação de dados.
Eficiência e automação: os LLMs automatizam análises de rotina (como resumir relatórios de resultados, processar empréstimos ou declarações), economizando horas de trabalho dos analistas e reduzindo erros.
Atendimento ao cliente 24 horas por dia, 7 dias por semana: assistentes virtuais de IA e chatbots com tecnologia LLM podem lidar com as dúvidas dos clientes ininterruptamente, com respostas conversacionais, melhorando a experiência e a satisfação do cliente.
Assessoria financeira personalizada: Analisando o histórico e o perfil de risco de um cliente, os consultores financeiros especializados (LLMs) oferecem assessoria financeira ou de investimento sob medida.
Detecção de fraudes e gestão de riscos: os analistas de risco jurídico examinam grandes conjuntos de dados de transações para identificar anomalias ou padrões de fraude, adaptando-se a novas táticas de golpes e ajudando a construir perfis de risco.
Conformidade e relatórios: as LLMs elaboram automaticamente relatórios regulatórios, extraem informações relevantes para políticas e ajudam a interpretar leis e regulamentos financeiros complexos para fins de conformidade.
Sim, existem vários modelos específicos para o setor financeiro. Por exemplo, o BloombergGPT foi projetado para auxiliar na regulação financeira, nos mercados de capitais e na gestão de conformidade, processando grandes conjuntos de dados financeiros, incluindo documentos da bolsa de valores nacional e registros regulatórios.
Outros modelos, como o FinBERT e o FinGPT, focam-se no direito financeiro, no direito bancário internacional e no aconselhamento financeiro personalizado, adaptando grandes modelos de linguagem ao vocabulário especializado das finanças, como símbolos de negociação de classes e textos regulamentares.
Financeiro O raciocínio é a capacidade de analisar dados financeiros para tomar decisões de negócios ou investimentos bem fundamentadas.
As principais tarefas incluem:
– Analisar demonstrações financeiras (lucro, fluxo de caixa, balanço patrimonial)
– Orçamento e previsão
– Avaliação de investimentos (VPL, TIR, ROI)
– Gerenciar o fluxo de caixa e a liquidez
– Avaliação de riscos financeiros e índices de desempenho
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.