Comparatif de 38 LLM en finance : Claude Opus 4.6, Gemini 3.1 Pro et plus
Nous avons évalué 38 LLM en finance sur 238 questions difficiles du benchmark FinanceReasoning pour identifier les modèles qui excellent dans les tâches complexes de raisonnement financier comme l'analyse des états financiers, les prévisions et les calculs de ratios.
Aperçu des critères de référence en finance LLM
Nous avons évalué les LLM sur 238 questions difficiles du référentiel FinanceReasoning (Tang et al.). 1 sous-ensemble cible les tâches de raisonnement financier les plus complexes, évaluant un raisonnement quantitatif complexe et à plusieurs étapes faisant intervenir des concepts et des formules financières. Notre évaluation a utilisé une conception de consigne personnalisée et des critères de notation basés sur la précision et le nombre de jetons utilisés.
Pour une explication détaillée de la manière dont ces indicateurs ont été calculés et du cadre utilisé pour cette évaluation, veuillez consulter notre méthodologie d'analyse comparative financière .
Résultats : Quel LLM est le meilleur en finance ?
Performances de haut niveau (>83 % de précision) :
Le modèle gpt-5-2025-08-07 atteint une précision maximale de 88,23 % avec 829 720 jetons. Il représente actuellement la meilleure performance pour les tâches de raisonnement financier.
claude-opus-4.6 obtient une précision de 87,82 % avec 164 369 jetons, offrant des performances quasi optimales tout en consommant beaucoup moins de jetons que le leader.
gpt-5-mini-2025-08-07 atteint une précision de 87,39 % avec 595 505 jetons, offrant une alternative solide au sein de la famille GPT-5.
gemini-3.1-pro-preview obtient une précision de 86,55 % avec 475 148 jetons, surpassant son prédécesseur gemini-3-pro-preview (86,13 %) tout en consommant 35 % de jetons en moins (730 759 jetons).
Les algorithmes gemini-3-pro-preview et gpt-5.2 affichent tous deux une précision de 86,13 %. Cependant, gpt-5.2 atteint ce résultat avec 247 660 jetons, contre 730 759 pour gemini-3-pro-preview, ce qui le rend trois fois plus efficace.
Performances élevées (80-83 % de précision) :
claude-opus-4.5 offre une précision de 84,03 % avec 144 505 jetons, maintenant ainsi le solide équilibre entre performance et efficacité de Claude.
Les modèles claude-sonnet-4.6 et gemini-3-flash-preview affichent une précision de 83,61 %. Le modèle Claude Sonnet 4.6 utilise 161 035 jetons, tandis que Gemini 3 Flash Preview atteint ce résultat avec 118 530 jetons, ce qui en fait l'option la plus économe en jetons parmi tous les modèles performants.
kimi-k2.5 atteint une précision de 82,77% mais nécessite 877 868 jetons, la consommation la plus élevée parmi les modèles de ce niveau de performance.
Niveau intermédiaire (précision de 70 à 80 %) :
Les modèles o3-pro-2025-06-10 (précision de 78,15 %, 473 659 jetons) et kimi-k2 (précision de 78,15 %, 100 323 jetons) sont à égalité. Kimi-k2 est le modèle le plus performant de ce groupe.
o3-mini-2025-01-31 (77,31 % de précision, 376 929 jetons), gpt-5-nano-2025-08-07 (76,89 % de précision, 1 028 909 jetons) et claude-sonnet-4-20250514 (76,05 % de précision, 135 462 jetons) suivent de près.
Faibles performances (<70 % de précision) :
claude-3-5-sonnet-20241022 (67,65 % de précision, 90 103 jetons) et gpt-oss-20b (67,65 % de précision, 515 041 jetons) sont en tête de ce niveau.
gemini-2.5-flash (65,55 % de précision, 286 603 jetons), glm-4.5 (64,29 % de précision, 692 662 jetons) et gpt-4.1-nano-2025-04-14 (63,45 % de précision, 171 096 jetons) suivent.
Le modèle le moins bien classé est deepseek-v3-0324 , qui avait une précision de 10,92 % avec 100 861 jetons.
Analyse des performances :
L'analyse comparative ne révèle aucune corrélation claire entre la consommation de jetons et la précision. deepseek-r1-0528 a consommé le plus grand nombre de jetons (1 251 064) tout en atteignant une précision de 62,18 %, tandis que claude-opus-4-20250514 a obtenu un score de 80,25 % avec 132 274 jetons.
L'efficacité du traitement des jetons varie considérablement, même parmi les modèles les plus performants. gemini-3-flash-preview utilise 118 530 jetons pour atteindre une précision de 83,61 %, tandis que kimi-k2.5 consomme 877 868 jetons pour une précision de 82,77 % (7,4 fois plus de jetons pour des performances légèrement inférieures).
Le tableau ci-dessus présente d'autres modèles de référence d'IA, y compris ceux utilisés pour cette analyse comparative.
Méthodologie de référence pour le raisonnement financier
Notre référentiel fournit une évaluation juste, transparente et reproductible des performances des Large Language Model (LLM) sur des tâches complexes de raisonnement financier.
Configuration du test et corpus de données
- Suite de tests de référence : Nous avons utilisé les données, le code et les scripts d’évaluation de la suite de tests de référence FinanceReasoning. Nous l’avons choisie pour sa spécialisation dans les problèmes financiers quantitatifs et inférentiels.
- Corpus de connaissances et requêtes de test : Notre analyse s’est concentrée sur le sous-ensemble difficile, comprenant 238 questions complexes. Conformément à la définition du référentiel, chaque point de données inclut :
- Une question nécessitant un raisonnement logique et numérique en plusieurs étapes.
- Un contexte, qui contient souvent des informations denses présentées dans des formats structurés comme les tableaux Markdown (par exemple, les bilans, les données sur la performance boursière).
- Une réponse définitive et objective en matière de notation.
- Exemples de requêtes : La difficulté de ce test de performance réside dans l’exigence que les modèles traitent des tâches de raisonnement financier diverses et complexes. Pour illustrer cette diversité, nous présentons deux exemples représentatifs de l’ensemble de test :
Exemple : Raisonnement algorithmique et sur les séries temporelles (analyse technique)
Contexte : Un investisseur analyse les cours boursiers des 25 derniers jours afin de calculer le canal de Keltner en utilisant une moyenne mobile exponentielle (EMA) et un ATR (Average True Range) sur 10 jours, avec un coefficient multiplicateur de 1,5.
Question : Quelle est la valeur de la dernière bande supérieure du canal de Keltner… ? Réponse à deux décimales près.
Cette requête teste la capacité d'un modèle à agir comme un analyste quantitatif en :
- Déconstruction d’un indicateur composite : reconnaître que le « canal de Keltner » est dérivé de deux autres indicateurs complexes :
- la moyenne mobile exponentielle (EMA)
- la portée réelle moyenne (ATR) .
- Mise en œuvre de la logique algorithmique : mise en œuvre correcte des algorithmes itératifs pour l’EMA et l’ATR à partir de zéro sur une série temporelle de 25 points de données.
- Synthèse des résultats : Combinaison des valeurs calculées selon la formule finale du canal de Keltner (Bande supérieure = EMA + (Multiplicateur × ATR)).
Principes fondamentaux d'évaluation
- Appels API isolés et standardisés : pour chaque modèle, l’évaluation a été réalisée par programmation via son point de terminaison API respectif (par exemple, OpenRouter, OpenAI). Ceci a permis de garantir que chaque modèle recevait exactement les mêmes données d’entrée dans des conditions identiques, éliminant ainsi toute variabilité liée aux interactions avec l’interface utilisateur.
- Génération libre : Nous n’avons pas limité les modèles à un format à choix multiples. Au contraire, nous les avons invités à générer une réponse libre et exhaustive, permettant ainsi une évaluation plus authentique de leurs capacités de raisonnement.
- Incitation par la chaîne de pensée (CoT) : Afin de susciter et d’évaluer le processus de raisonnement des modèles, nous avons utilisé une stratégie d’incitation par la chaîne de pensée (CoT). Le système demandait explicitement à chaque modèle de « réfléchir au problème étape par étape » avant de parvenir à une réponse finale. Cette approche permet une analyse plus approfondie de la manière dont un modèle arrive à sa conclusion, au-delà du résultat final.
Métriques et cadre d'évaluation
Nous avons utilisé le cadre d'évaluation entièrement automatisé du benchmark FinanceReasoning pour évaluer les résultats du modèle. Ce cadre est conçu pour mesurer à la fois la validité conceptuelle et le coût de calcul.
1. Indicateur principal : Précision
Cet indicateur permet de répondre à la question cruciale : « Le modèle peut-il résoudre correctement le problème financier ? » Le processus de notation repose sur un système sophistiqué en deux étapes :
- Étape 1 : Extraction de la réponse par LLM : La sortie brute d’un modèle est un texte non structuré contenant à la fois son raisonnement et la réponse finale. Afin d’extraire avec fiabilité la valeur numérique ou booléenne définitive, nous avons utilisé un modèle superviseur performant (openai/gpt-4o) comme analyseur syntaxique intelligent. Cette méthode identifie systématiquement la réponse finale attendue, même en cas de légères variations de formatage entre les différents modèles.
- Étape 2 : Comparaison basée sur la tolérance : Une simple correspondance exacte est insuffisante pour les problèmes numériques. Par conséquent, la réponse extraite a été comparée automatiquement à la valeur de référence. Le script applique un seuil de tolérance numérique (une différence relative de 0,2 %) afin de gérer équitablement les légères variations dues aux nombres à virgule flottante ou à l’arrondi, garantissant ainsi que les solutions conceptuellement valides soient considérées comme correctes.
2. Indicateur secondaire : Consommation de jetons
Cette métrique répond à la question : « Quel est le coût de calcul pour le modèle de résoudre ces problèmes ? » Elle mesure le coût total associé à la génération des 238 réponses.
- Calcul : Pour chaque appel d’API, nous avons collecté les données d’utilisation renvoyées par le fournisseur du modèle, notamment les jetons d’invite (prompt_tokens) et les jetons de complétion (completion_tokens). Le score final d’un modèle correspond à la somme des jetons de complétion (completion_tokens) pour l’ensemble des 238 questions. Ceci permet d’évaluer clairement la verbosité du modèle et son coût de calcul global pour la tâche.
Cette approche à deux indicateurs, fournie par le benchmark FinanceReasoning lui-même, permet une évaluation holistique, équilibrant la capacité brute de résolution de problèmes d'un modèle (précision) par rapport à son efficacité opérationnelle (consommation de jetons).
Raisonnement financier avec génération augmentée par récupération (RAG)
Pour surpasser les modèles autonomes, nous avons conçu et implémenté un framework RAG personnalisé, distinct de l'implémentation originale du benchmark. Notre approche repose sur une pile de bases de données vectorielles moderne (Qdrant) afin de fournir aux modèles linéaires logiques (LLM) des connaissances pertinentes et spécifiques au domaine lors de l'inférence, les aidant ainsi à résoudre des problèmes qui dépassent le cadre de leurs données d'entraînement. Nous avons testé cette approche sur le jeu de données gpt-4o-mini afin d'en mesurer l'impact.
Résultats et analyse : Le compromis RAG
L'introduction de RAG a eu un impact significatif et mesurable sur les performances de gpt-4o-mini.
Principaux enseignements de l'évaluation RAG :
- Amélioration significative de la précision : RAG a considérablement amélioré les capacités de résolution de problèmes du modèle, augmentant sa précision de plus de 10 points de pourcentage . Ceci confirme que la fourniture d’un contexte externe pertinent est très efficace pour les tâches de raisonnement complexes et spécifiques à un domaine.
- Le prix de la précision : ce gain de performance a un coût élevé. La consommation totale de jetons a été multipliée par près de 18 et le temps d’exécution total par 20. Ceci est dû aux appels API supplémentaires pour l’intégration et, surtout, aux requêtes beaucoup plus volumineuses et complexes que le LLM doit traiter.
- Implications pour les modèles plus grands : Les résultats de gpt-4o-mini suggèrent que, bien que RAG puisse améliorer les performances, l’application de cette méthode à des modèles plus grands et plus coûteux, tels que GPT-4o ou Claude Opus, sera considérablement plus onéreuse et chronophage. Ceci met en évidence le compromis crucial entre précision, coût et latence lors de la conception de systèmes d’IA financière destinés à la production.
Méthodologie RAG du raisonnement financier
Notre pipeline RAG repose sur une architecture moderne utilisant Qdrant comme base de données vectorielles et le modèle OpenAI text-embedding-3-small pour la génération de représentations vectorielles sémantiques. Le processus se compose de deux phases principales : une phase d’indexation hors ligne et une phase de génération et de récupération en ligne.
1. Indexation des corpus de connaissances
- Création du corpus : Nous avons constitué une base de connaissances spécialisée à partir de deux sources fournies par le référentiel :
- Documents financiers : Une collection d’articles (financial_documents.json) expliquant divers concepts et termes financiers.
- Fonctions financières : une bibliothèque de fonctions Python prêtes à l’emploi (functions-article-all.json) conçues pour résoudre des calculs financiers spécifiques.
- Intelligent chunking & embedding: Pour préparer ce corpus à une recherche efficace, chaque document et fonction a été traité et indexé :
- Découpage en blocs : Les documents ont été segmentés en blocs plus petits et sémantiquement cohérents en fonction de leurs sections. Chaque fonction Python a été traitée comme un bloc atomique unique. Ceci garantit que le contexte récupéré est ciblé et pertinent.
- Intégration : Chaque morceau a ensuite été converti en un vecteur de 1536 dimensions à l'aide du modèle text-embedding-3-small.
- Indexation : Ces vecteurs ont été indexés dans deux collections distinctes au sein de notre instance locale de Qdrant (financial_documents_openai_small et financial_functions_openai_small), optimisées pour la recherche de similarité cosinus.
2. Inférence basée sur RAG
Pour chacune des 238 questions, le processus de raisonnement du modèle a été complété par les étapes automatisées suivantes :
- Génération des vecteurs d'intégration (appels API 1 et 2) : La requête de l'utilisateur (question + contexte) a été convertie en un vecteur d'intégration. Cela a nécessité deux appels à l'API d'intégration de OpenAI afin de préparer les recherches dans les deux collections.
- Recherche multi-sources : le vecteur de requête a été utilisé pour effectuer une recherche sémantique simultanément dans les deux collections Qdrant afin de récupérer les informations les plus pertinentes :
- Les 3 extraits de documents les plus pertinents de la collection financial_documents.
- Les 2 fonctions Python les plus pertinentes de la collection financial_functions.
- Augmentation de l'invite : les documents et fonctions récupérés ont été injectés dynamiquement dans l'invite, créant ainsi un « paquet d'informations » riche et contextuel. Cela a considérablement augmenté la taille de l'invite de saisie (d'environ 300-500 jetons à plus de 3 000-5 000 jetons ).
- Génération de la réponse finale (appel API 3) : Cette invite augmentée a été envoyée au modèle gpt-4o-mini pour générer la réponse finale raisonnée.
Limites de référence des LLM en finance
Notre référentiel, bien que complet, présente plusieurs limitations importantes :
- Risque de contamination des données : Il est possible que ces modèles aient été entraînés sur l’ensemble de données de référence, celui-ci étant public. Cela pourrait entraîner une surestimation des scores et rendre difficile l’évaluation de leur véritable capacité de raisonnement.
- Analyse RAG sur un seul modèle : L'évaluation RAG a été réalisée sur un seul modèle (gpt-4o-mini), de sorte que les compromis observés entre performance et coût peuvent ne pas s'appliquer à tous les autres modèles.
Conclusion
Notre analyse comparative de 38 modèles sur des tâches complexes de raisonnement financier révèle des résultats clés :
- gpt-5-2025-08-07 domine le secteur : Avec une précision de 88,23 %, ce modèle établit la norme actuelle pour les tâches de raisonnement financier.
- Plusieurs alternatives solides existent : claude-opus-4.6 (87,82%) et gpt-5-mini-2025-08-07 (87,39%) offrent des performances proches des meilleures, Claude Opus 4.6 atteignant ce résultat avec une consommation de jetons nettement inférieure (164 369 jetons).
- Les améliorations générationnelles sont importantes : gemini-3.1-pro-preview (86,55%) surpasse gemini-3-pro-preview (86,13%) tout en utilisant 35% de jetons en moins, montrant que les mises à jour itératives du modèle peuvent améliorer à la fois la précision et l'efficacité.
- L'efficacité est aussi importante que la précision : gemini-3-flash-preview atteint une précision de 83,61 % avec 118 530 jetons, prouvant ainsi que hautes performances et faible coût peuvent coexister. De même, gpt-5.2 fait preuve d'une grande efficacité avec 247 660 jetons, tout en atteignant une précision de 86,13 %.
- Impact de RAG : La génération augmentée par récupération (RAG) augmente considérablement la précision d'un modèle (+10 points de pourcentage pour gpt-4o-mini) mais à un coût substantiel en termes de consommation de jetons (augmentation de 18x) et de latence (20x plus lente).
Journal des modifications
20 février 2026
Deux nouveaux modèles ont été ajoutés au banc d'essai :
- Google: Aperçu de Gemini 3.1 Pro (google/gemini-3.1-pro-preview)
- Anthropic: Claude Sonnet 4.6 (anthropique/claude-sonnet-4.6)
6 février 2026
Ajout de 7 nouveaux modèles au banc d'essai :
- Claude Opus 4.6 (anthropique/claude-opus-4.6)
- Aperçu de Gemini 3 Pro (google/gemini-3-pro-preview)
- GPT 5.2 (openai/gpt-5.2)
- Claude Opus 4.5 (anthropique/claude-opus-4.5)
- Aperçu Flash de Gemini 3 (google/gemini-3-flash-preview)
- Kimi K2.5 (moonshotai/kimi-k2.5)
- Claude Sonnet 4.5 (anthropique/claude-sonnet-4.5)
Pour en savoir plus
L'analyse financière peut englober plusieurs compétences, telles que l'analyse boursière, l'interprétation du droit financier et le raisonnement financier. Dans notre étude comparative, nous nous sommes concentrés sur le raisonnement financier, les autres tâches étant traitées dans des articles distincts.
- Modèles de marché pour l'analyse boursière : Ces modèles permettent de traiter les données de marché, les rapports d'entreprise et l'actualité afin d'identifier les opportunités d'investissement. (Voir l'analyse complète ici : Trading boursier basé sur l'IA )
- Intelligence artificielle en droit financier : Certains titulaires d’un LLM peuvent interpréter les réglementations financières, les contrats et les exigences de conformité afin de faciliter les tâches juridiques et financières. (Consultez notre liste d’outils d’IA juridique ici : Outils d’IA juridique )
FAQ
Un LLM (Large Language Model) en finance est un modèle d'IA qui utilise des techniques de traitement automatique du langage naturel pour réaliser des analyses financières complexes, gérer la conformité et comprendre les documents. Ces modèles aident les institutions financières à s'orienter dans le droit financier, les exigences réglementaires et les besoins évolutifs du secteur financier.
Intelchatbots intelligents :
Les assistants virtuels pilotés par LLM permettent aux entreprises financières d'offrir un support client automatisé 24h/24 et 7j/7 en gérant les demandes courantes et les tâches d'intégration sans intervention humaine. Cela réduit les temps d'attente et améliore la satisfaction client, tout en libérant les agents humains pour les problèmes complexes.
Conseil et analyse :
Les banques d'investissement utilisent des modèles linéaires (LLM) pour analyser les tendances du marché, l'actualité financière et les données clients. Ces modèles traitent de grands volumes d'informations non structurées, permettant ainsi aux conseillers de fournir des conseils d'investissement personnalisés et une gestion de portefeuille grâce à des analyses en temps réel.
Analyse des documents réglementaires :
Les cabinets d'avocats et les institutions financières utilisent des LLM (Legal Law Management) pour traiter des documents réglementaires complexes tels que les rapports déposés auprès de la SEC (Securities and Exchange Commission). Ces modèles extraient les informations clés et synthétisent les rapports, réduisant ainsi le temps de vérification manuelle et aidant les entreprises à se conformer à l'évolution de la réglementation.
Détection des fraudes :
Les systèmes d'apprentissage automatique (LLM) analysent en temps réel de vastes ensembles de données financières afin de détecter les schémas de transactions suspects et les nouvelles tactiques de fraude. Leurs capacités d'apprentissage continu permettent une identification de la fraude plus rapide et plus précise que les méthodes traditionnelles.
Automatisation juridique et de conformité :
Les cabinets d'avocats et les équipes de conformité utilisent des logiciels juridiques automatisés (LLM) pour examiner les contrats, interpréter le droit bancaire et vérifier la conformité réglementaire. L'automatisation de ces tâches réduit le temps d'examen et les coûts juridiques tout en garantissant le respect des réglementations financières complexes.
Questions et réponses sur les documents et reconnaissance d'entités nommées (NER) :
Les institutions financières utilisent des LLM pour répondre aux questions des investisseurs en extrayant des données des rapports financiers et des conférences téléphoniques sur les résultats. La reconnaissance d'entités nommées (NER) permet l'étiquetage automatique des noms d'entreprises, des symboles boursiers et des organismes de réglementation, ce qui simplifie la récupération des données.
Efficacité et automatisation : les LLM automatisent les analyses de routine (par exemple, la synthèse des rapports de résultats, le traitement des prêts ou des déclarations), ce qui permet de gagner du temps d’analyse et de réduire les erreurs.
Service client 24h/24 et 7j/7 : les assistants virtuels et les chatbots basés sur l’IA et fournis par LLM peuvent traiter les demandes des clients 24 h/24 et 7 j/7 avec des réponses conversationnelles, améliorant ainsi l’expérience et la satisfaction client.
Conseils financiers personnalisés : En analysant l’historique et le profil de risque d’un client, les conseillers en gestion de patrimoine (LLM) fournissent des conseils financiers ou d’investissement sur mesure.
Détection des fraudes et gestion des risques : les LLM analysent de vastes ensembles de données transactionnelles pour repérer les anomalies ou les schémas de fraude, s’adapter aux nouvelles tactiques d’escroquerie et contribuer à l’élaboration de profils de risque.
Conformité et rapports : les LLM rédigent automatiquement les rapports réglementaires, extraient les faits pertinents pour les politiques et aident à analyser les lois et réglementations financières complexes à des fins de conformité.
Oui, il existe plusieurs modèles plus vastes et spécifiques au domaine de la finance. Par exemple, BloombergGPT est conçu pour faciliter la réglementation financière, les marchés de capitaux et la gestion de la conformité en traitant d'importants ensembles de données financières, notamment des documents provenant des bourses nationales et des déclarations réglementaires.
D'autres modèles comme FinBERT et FinGPT se concentrent sur le droit financier, le droit bancaire international et les conseils financiers personnalisés, en adaptant de grands modèles linguistiques au vocabulaire spécialisé de la finance, comme les symboles de négociation de classes et les textes réglementaires.
Financier Le raisonnement est la capacité d'analyser des données financières pour prendre des décisions éclairées en matière d'affaires ou d'investissement.
Les principales tâches comprennent :
– Analyse des états financiers (bénéfice, flux de trésorerie, bilan)
– Élaboration de budgets et de prévisions
– Évaluation des investissements (VAN, TRI, ROI)
– Gestion des flux de trésorerie et des liquidités
– Évaluation des risques financiers et des ratios de performance
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.