What are the best practices when using large language models?

AI tools can generate false information or misleading outputs. To prevent AI hallucinations, users can double-check the answers and should ask more straightforward questions. This factually incorrect information in AI-generated text can lead to undesirable outcomes, especially in areas such as scientific writing and legal research.

Why do AI systems hallucinate?

Publications have identified several causes of AI hallucinations. When generative artificial intelligence systems like large language models produce factually incorrect outputs, it's often due to insufficient training data or reliance on outdated factual data. Research shows that previous methods for creating knowledge base systems didn't adequately prevent models from hallucinating references or producing inaccurate information when processing internet data to answer complex problems.

Why should we fact-check AI outputs?

AI-generated content often lacks verification against external sources, leading to misleading outputs. Generative models struggle with topics outside their training corpus and can invent plausible-sounding facts that fail expert verification.While valuable in areas such as legal research, AI systems can produce inaccuracies, especially for low-traffic subjects or under adversarial attack. Models may confuse correlation with causation, and even accurate outputs can include fabrications, highlighting the need for fact-checking against trustworthy sources. This issue persists due to inadequate review standards for how models process data.

IA Fondements de l'IA

Hallucination par l'IA : Comparez les meilleurs LLM comme GPT-5.2

Cem Dilmegani

mis à jour le Avr 20, 2026

Consultez notre normes éthiques

Les modèles d'IA peuvent générer des réponses qui semblent plausibles mais qui sont incorrectes ou trompeuses : c'est ce qu'on appelle des hallucinations de l'IA. 77 % des entreprises s'inquiètent de ces hallucinations. ¹

Nous avons comparé 37 LLM différents avec 60 questions pour mesurer leurs taux d'hallucinations :

résultats de référence sur les hallucinations de l'IA

Loading Chart

Notre analyse comparative a révélé que même les modèles les plus récents présentent un taux d'hallucinations supérieur à 15 % lorsqu'ils doivent analyser des énoncés fournis. Consultez la méthodologie de l'analyse comparative pour savoir comment nous avons mesuré ces taux.

Analyse du taux d'hallucinations : coût et contexte

Afin de garantir une comparaison équitable des coûts entre les modèles, nous normalisons les prix à l'aide d'une métrique unifiée qui reflète les pratiques d'utilisation réelles. Étant donné que la plupart des jetons dans les charges de travail pratiques proviennent des entrées plutôt que des sorties, nous calculons le coût du modèle comme suit : 0,75 × prix du jeton d'entrée + 0,25 × prix du jeton de sortie .

Cela empêche les modèles présentant des résultats artificiellement bon marché ou des intrants disproportionnellement coûteux de paraître trompeusement efficaces, permettant ainsi d'évaluer chaque modèle sur une échelle cohérente et comparable.

Tendances liées à la taille du contexte et aux hallucinations

Le graphique révèle des tendances distinctes lorsqu'on compare les taux d'hallucinations en fonction de la taille de la fenêtre contextuelle. Conformément aux données précédentes concernant le coût, il n'existe que peu ou pas de corrélation linéaire entre la capacité du contexte et la précision.

Un contexte large ne garantit pas l'exactitude

Contrairement à l'hypothèse selon laquelle des données d'entrée plus volumineuses conduisent à un meilleur raisonnement, une relation complexe se dessine. Les modèles conçus pour des fenêtres contextuelles massives (plus d'un million de jetons) n'atteignent pas systématiquement des taux d'hallucinations inférieurs à ceux de leurs homologues conçus pour des fenêtres plus restreintes. Comme le montrent les données, on trouve des modèles très fiables aussi bien pour des contextes courts que longs, ainsi que des modèles moins performants.

Cela suggère qu'une fenêtre de contexte étendue ne garantit pas automatiquement une meilleure cohérence factuelle. En définitive, des spécifications techniques telles que la taille du contexte ne sont pas des indicateurs définitifs de fiabilité ; les performances dépendent davantage de l'architecture spécifique du modèle et de la qualité de l'entraînement que de la seule capacité.

Que sont les hallucinations de l'IA ?

Les hallucinations surviennent lorsqu'un utilisateur de LLM produit des informations qui semblent réelles, mais qui sont soit entièrement inventées, soit factuellement inexactes. Contrairement aux simples erreurs, les hallucinations sont particulièrement problématiques car elles sont présentées avec la même assurance que les informations exactes, ce qui rend difficile leur identification par les utilisateurs sans confirmation extérieure.

Les impacts des hallucinations LLM

Les dérives de l'IA affectent de nombreux secteurs car les organisations dépendent des outils d'IA générative pour produire du texte , analyser des données et faciliter la prise de décision. Les conséquences possibles varient, mais plusieurs risques se dégagent systématiquement :

Atteinte à la réputation

Si un modèle produit des informations inexactes, des récits erronés ou des résultats trompeurs, les utilisateurs risquent de perdre confiance dans le système et l'organisation qui le déploie. Rétablir la confiance après la diffusion d'informations incorrectes auprès des clients, des équipes internes ou du public peut s'avérer complexe.

Par exemple , une analyse récente de GPTZero ² a révélé que des dizaines d'articles acceptés à NeurIPS 2025 contenaient des citations générées par IA qui n'avaient pas été détectées lors de l'évaluation par les pairs. Après avoir analysé plus de 4 000 articles acceptés, l'entreprise a découvert des centaines de références erronées dans au moins 50 articles, allant de citations entièrement fausses à des versions altérées de citations réelles.

Certaines erreurs concernaient des auteurs, des titres, des revues ou des liens fictifs, tandis que d'autres modifiaient subtilement des citations réelles en changeant les noms des auteurs ou les titres des articles. GPTZero précise que toutes les citations signalées ont ensuite été vérifiées par des experts.

NeurIPS a reconnu l'utilisation croissante de grands modèles de langage dans la rédaction scientifique et a indiqué suivre la situation de près, précisant que des références incorrectes n'invalident pas automatiquement les résultats d'un article. GPTZero a néanmoins qualifié ces résultats d'alarmants, étant donné que les articles avaient été formellement acceptés et publiés lors d'une conférence très sélective.

Ces résultats soulignent comment l'explosion du nombre de soumissions, plus de 21 000 en 2025, rend un examen approfondi difficile et soulève des inquiétudes quant à l'intégrité de la recherche, sa reproductibilité et les risques liés au recours aux citations générées par l'IA dans les publications universitaires. ³

Risque juridique

Dans les secteurs réglementés tels que la santé , la finance et le droit , les contenus générés par l'IA et comportant des erreurs factuelles peuvent entraîner des infractions à la conformité. Leur utilisation sans vérification peut conduire à des interprétations erronées des données ou des politiques, et engendrer des sanctions, des préjudices pour les clients ou des litiges.

Par exemple, les fausses citations de jurisprudence générées par l'IA constituent un problème grave et croissant pour les tribunaux. Rien qu'en 2025, les juges du monde entier ont rendu des centaines de décisions concernant ces anomalies dans les documents juridiques, représentant environ 90 % des cas connus à ce jour.

Les juges affirment que ces erreurs entraînent un gaspillage de temps et de ressources précieux, obligeant les tribunaux à enquêter sur des affaires inexistantes au lieu de se concentrer sur le fond des litiges. Des avocats comme des juges ont été pris en flagrant délit de recours à des résultats d'IA erronés, ce qui a provoqué des avertissements, des injonctions permanentes et des sanctions de plus en plus sévères.

À mesure que la prise de conscience des limites de l'IA s'accroît, les tribunaux se montrent moins tolérants envers les excuses, considérant les citations erronées comme une faute professionnelle plutôt que comme une preuve d'ignorance. Si les chercheurs qui suivent la question constatent une augmentation rapide de ces cas, nombreux sont ceux qui perçoivent l'IA comme un atout majeur pour le travail juridique, à condition que son utilisation soit transparente, rigoureusement contrôlée et qu'elle soit considérée comme un outil de rédaction plutôt que comme une source de vérité juridique. ⁴

Inefficacité opérationnelle

Lorsque les utilisateurs ne peuvent se fier aux textes ou aux résultats générés par l'IA, ils doivent les vérifier manuellement. Cela engendre une perte de temps et diminue la valeur ajoutée de l'intelligence artificielle générative. Au lieu de faciliter les flux de travail, les résultats erronés peuvent créer des goulots d'étranglement nécessitant une intervention humaine pour identifier les informations fausses.

Par exemple, lors d'un test de rapports de police rédigés par IA dans l'Utah, la bande son d'un film Disney a induit le système en erreur, l'amenant à déclarer par erreur qu'un policier s'était transformé en grenouille. Cet incident s'est produit en décembre lors d'un projet pilote d'outils d'IA tels que Draft One d'Axon, qui convertissent l'audio des caméras corporelles en rapports écrits afin de faire gagner du temps aux agents.

Si les autorités affirment que ces outils permettent de gagner plusieurs heures par semaine sur les tâches administratives, cet incident a révélé des problèmes plus profonds concernant la précision et le contrôle. Même les rapports de tests de routine ont nécessité des corrections, et les critiques mettent en garde contre le risque que l'IA interprète mal les sons, masque les incertitudes ou introduise des erreurs subtiles qui se retrouvent ensuite intégrées aux documents officiels. ⁵

Causes des hallucinations de l'IA

Comprendre pourquoi les hallucinations se produisent est essentiel pour concevoir des techniques d'atténuation des hallucinations et pour décider quand faire confiance au contenu généré par l'IA.

Limitations des données d'entraînement

Les grands modèles de langage sont entraînés sur d'immenses quantités de données internet, de documents et d'autres textes. Les limitations de ces données d'entraînement peuvent engendrer des résultats hallucinatoires.

L'insuffisance de données d'entraînement dans des domaines spécialisés peut engendrer des lacunes dans les connaissances. Lorsqu'on demande au modèle de générer du texte dans ces domaines, il peut combler les lacunes par des informations inventées plutôt que d'admettre son incertitude.
Des pages web de mauvaise qualité, des fausses informations ou des contenus trompeurs dans l'ensemble d'entraînement peuvent biaiser le modèle en faveur de récits erronés et d'erreurs factuelles.
Des données factuelles obsolètes peuvent amener le modèle à produire des informations incorrectes sur des sujets qui ont évolué après la période d'entraînement.
Les biais dans les données d'entraînement peuvent fausser la façon dont les modèles d'IA décrivent les personnes, les événements ou les résultats possibles.

Ces problèmes ne sont pas propres à la génération de texte. Des problèmes similaires surviennent dansles modèles de vision par ordinateur entraînés sur des ensembles de données biaisés ou incomplets, bien que les hallucinations prennent des formes différentes, telles que des erreurs de classification .

Coupure des connaissances et mises à jour continues

Les générations précédentes de modèles d'IA disposaient d'une date limite précise pour la gestion des connaissances et n'avaient pas accès aux données externes en temps réel. Lorsque les utilisateurs interrogeaient le modèle sur des événements récents, celui-ci générait souvent des résultats malgré tout, augmentant ainsi le risque d'hallucinations.

Les systèmes d'IA modernes combinent de plus en plus des données d'entraînement statiques avec l'extraction de connaissances à partir d'une base de connaissances en temps réel ou d'autres sources externes. Par conséquent :

Le seuil de connaissance reste important pour certains modèles, notamment pour les déploiements hors ligne.
Dans de nombreux contextes d'entreprise, la génération augmentée par récupération réduit l'impact des coupures en exploitant des données factuelles récentes provenant de sources de données internes ou externes.
Les hallucinations liées à la récence reflètent désormais souvent une récupération manquante ou mal alignée, et non plus seulement l'âge des paramètres du modèle.

Excès de confiance et prédiction du mot suivant

Un modèle de langage génère du texte mot par mot, en prédisant le mot suivant à partir du contexte d'entrée et des mots précédents. Ce modèle est optimisé pour produire des suites fluides et plausibles, et non des réponses correctes garanties. Cela entraîne plusieurs conséquences :

Le modèle peut privilégier une explication fluide plutôt que d'admettre qu'il ne connaît pas la bonne réponse.
Il peut sélectionner un schéma d'information plausible mais erroné si ce schéma apparaît fréquemment dans les données d'entraînement.
Le modèle peut sur-généraliser à partir de tendances observées dans les données et générer un contenu qui semble spécifique mais qui n'est pas fondé sur des sources factuelles.

Du point de vue de l'utilisateur, le style du texte généré par l'IA rend difficile la perception d'une réponse potentiellement erronée.

Interprétation erronée et consignes vagues

Les hallucinations peuvent également provenir de la formulation des invites de saisie :

Des instructions vagues laissent trop de liberté au modèle, ce qui peut entraîner des résultats inattendus ou des réponses qui ne correspondent pas à l'intention de l'utilisateur.
Des questions trop générales incitent le modèle à générer des résultats qui dépassent les connaissances présentes dans ses paramètres ou dans les documents extraits.
Une formulation ambiguë peut amener le modèle à choisir une interprétation et à produire avec assurance des informations inexactes sur la base de cette interprétation.

Des instructions plus précises et des contraintes explicites atténuent souvent ces effets, mais ne les éliminent pas.

Stratégies pour réduire les hallucinations de l'IA

Les techniques d'atténuation des hallucinations combinent généralement des choix d'architecture, des approches de formation et une conception au niveau du système plutôt qu'une solution unique.

outils de détection des hallucinations par l'IA

Les outils de détection d'hallucinations par l'IA évaluent si le contexte ou les données de référence fournis corroborent les résultats générés par l'IA. Ces outils utilisent généralement des méthodes d'analyse de la cohérence logique (LLM) associées à des techniques telles que l'analyse de cohérence, l'évaluation de la confiance et la vérification par implication logique.

Nous avons évalué 100 cas de test équilibrés de questions-réponses factuelles afin de comparer les outils de détection d'hallucinations par IA. W&B Weave et Arize Phoenix ont affiché des performances globales similaires, à respectivement 91 % et 90 %, tandis que Comet Opik a atteint une précision de 72 % grâce à une stratégie de détection plus prudente. Consultez la section « Outils de détection d'hallucinations par IA » pour en savoir plus sur les résultats.

Génération augmentée par la récupération

La génération augmentée par la récupération connecte les modèles d'IA générative à une base de connaissances externe. Lorsqu'un utilisateur envoie une requête :

Le système récupère les documents ou données pertinents à partir de sources sélectionnées, telles que des bases de données internes, de la littérature spécialisée ou des pages Web sélectionnées.
Ces passages récupérés sont transmis au modèle de langage en tant que contexte supplémentaire.
Le modèle génère des résultats qui devraient rester plus proches des données factuelles récupérées plutôt que de se baser uniquement sur sesparamètres appris.

Les conceptions récentes de génération augmentée par récupération étendent ce modèle en :

Récupération en plusieurs étapes, où le système récupère, résume, puis récupère à nouveau si des informations sont manquantes.
La recherche structurée, où les outils d'IA interrogent des API, des bases de données SQL ou des graphes de connaissances plutôt que de simples documents non structurés.
Le contrôle de la qualité de la récupération, qui vérifie si le contexte récupéré soutient effectivement la réponse, peut signaler les cas potentiels d'hallucination.

RAG ne garantit pas l'exactitude des faits, mais il réduit généralement les hallucinations, surtout lorsque la base de connaissances est soigneusement constituée et régulièrement mise à jour.

Par exemple , un nouvel article présente REFIND, une méthode d'amélioration de la recherche permettant de détecter les segments hallucinés dans les sorties de grands modèles de langage en mesurant la sensibilité de chaque jeton généré aux preuves externes.

En utilisant une nouvelle mesure appelée le ratio de sensibilité au contexte (CSR), REFIND compare les probabilités des jetons avec et sans documents récupérés, signalant les jetons qui changent de manière significative comme des hallucinations probables.

Évaluée sur le jeu de données multilingue SemEval-2025 Mu-SHROOM, cette approche surpasse les méthodes de référence existantes, notamment pour les langues à faibles ressources. Les résultats montrent que l'ancrage de la détection des hallucinations dans les preuves extraites permet une identification plus précise, fiable et évolutive des erreurs factuelles dans les textes générés par LLM. ⁶

Conception rapide dans les systèmes modernes

L'ingénierie des prompts a évolué avec l'amélioration des modèles d'IA générative. Il ne s'agit plus seulement de formulations astucieuses. Dans les systèmes actuels, la conception des prompts se concentre sur :

Énoncer clairement la tâche, les données d'entrée et les contraintes, en précisant ce qui est considéré comme correct et ce qui doit rester sans réponse.
Demander au modèle de répondre « Je ne sais pas » ou de demander des informations supplémentaires lorsque les données fournies sont incomplètes.
Encourager le modèle à se référer explicitement au contexte cité plutôt que d'inventer des détails absents des données fournies.
Harmoniser les instructions de rôle, les outils et les paramètres de récupération afin que le modèle sache quand utiliser des sources externes et quand se fier à ses propres paramètres.

De bonnes suggestions améliorent la qualité des résultats de l'IA, mais elles font désormais partie d'un système plus vaste qui comprend la récupération, les outils et la vérification.

Méthodes externes de vérification des faits

La vérification des contenus générés par l'IA à l'aide de données factuelles fiables demeure une stratégie essentielle. Cette vérification peut s'effectuer de plusieurs manières :

Récupération et comparaison automatisées : le système utilise la génération augmentée par la récupération pour extraire les documents, puis vérifie si ces documents étayent les affirmations clés du contenu généré.
Vérification inter-modèles : un modèle de langage génère une réponse, puis un autre modèle ou une configuration différente la vérifie pour détecter d’éventuelles erreurs factuelles.
Vérification par outils : les modèles d'IA font appel à des outils d'IA spécialisés, tels que des interpréteurs de code, des calculatrices ou des API de domaine, pour vérifier les valeurs numériques, les dates ou les sorties structurées.
Relevé humain : des experts du domaine examinent les textes les plus critiques générés par l'IA avant leur utilisation en production ou leur publication.

Les systèmes modernes combinent souvent ces approches, en utilisant des contrôles automatiques pour la plupart des contenus et en soumettant les cas suspects à un examen humain.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Approches actives pour réduire les hallucinations

Des travaux récents en intelligence artificielle ont introduit les systèmes agentiques , dans lesquels un modèle est capable de planifier, d'utiliser des outils et d'effectuer plusieurs actions au lieu de répondre en une seule fois. Cela modifie la façon dont les hallucinations se manifestent et dont elles peuvent être atténuées.

Les systèmes de modélisation du langage agentiel peuvent :

Décomposez un problème en sous-problèmes et résolvez-les étape par étape.
Déterminez à quel moment des données supplémentaires sont nécessaires et effectuez des recherches complémentaires à partir d'une base de connaissances ou de sources externes.
Utilisez des outils spécifiques au domaine, tels que des API de recherche, des bases de données ou des calculateurs, pour vérifier les résultats intermédiaires.
Réévaluer leur propre brouillon de réponse et réviser les parties qui contredisent les preuves recueillies.

Par exemple, au lieu de générer immédiatement une longue réponse, l'agent IA peut :

Récupérez les documents pertinents.
Résumer et comparer différentes sources.
Identifier les contradictions ou les données manquantes.
Posez des questions complémentaires à l'utilisateur si la tâche n'est pas suffisamment définie.
Générez ensuite la réponse finale.

Cette structure en plusieurs étapes rend les hallucinations plus visibles et offre des points supplémentaires où des vérifications peuvent être effectuées.

Estimation de l'incertitude et scores de confiance

Un autre domaine de recherche actif consiste à estimer la probabilité qu'une sortie d'IA contienne des erreurs factuelles. L'estimation de l'incertitude peut être utilisée aussi bien pendant qu'après la génération. Voici quelques approches possibles :

Scores de confiance au niveau des jetons, indiquant le degré de confiance du modèle pour chaque mot ou expression. Les zones de faible confiance peuvent être signalées pour vérification.
Contrôles de cohérence, où le modèle répond à la même question de plusieurs manières ou avec des invites variées, et le système mesure la stabilité des réponses.
Contrôles de suffisance du contexte, dans lesquels un modèle distinct évalue si les documents récupérés contiennent suffisamment d'informations pour répondre à la question.
Évaluation des risques avant génération, où le système prédit si une entrée donnée est susceptible d'induire des hallucinations dans une configuration de modèle spécifique.

Ces méthodes ne suppriment pas les hallucinations, mais elles aident les organisations à identifier les résultats à haut risque et à les acheminer vers des processus de vérification plus rigoureux ou vers des examinateurs humains.

Communiquer l'incertitude aux utilisateurs

Il est crucial de communiquer l'incertitude aux utilisateurs lorsque les systèmes d'IA rencontrent des limitations. Voici quelques pratiques efficaces :

L'utilisation d'un langage volontairement incertain permet de définir des attentes appropriées et de réduire les informations trompeuses susceptibles de diffuser des informations inexactes.
En intégrant des indicateurs factuellement erronés, les modèles peuvent signaler leurs doutes quant à la fiabilité de leurs réponses. Cette transparence, recommandée dans de récentes publications d'analyse technologique, empêche les utilisateurs de prendre pour argent comptant le contenu généré par l'IA.
La mise en évidence des éléments textuels spécifiques qui ont influencé la réponse du modèle aide les utilisateurs à comprendre le raisonnement derrière les résultats incertains, tandis que l'affichage des niveaux de confiance permet une évaluation plus fiable.
Face à des problèmes complexes, la présentation de sources multiples encourage les utilisateurs à vérifier indépendamment les affirmations plutôt que de se fier uniquement aux résultats de l'IA qui peuvent contenir des hallucinations.

Ces approches, validées par de nombreux retours d'information humains, créent une relation plus honnête entre les utilisateurs et les modèles d'IA génératifs en reconnaissant quand les limitations de la base de connaissances pourraient conduire à des hallucinations potentielles.

Estimer le risque d'hallucinations avant qu'elles ne surviennent.

La détection de contenus falsifiés après leur génération par le LLM est au cœur de la plupart des recherches actuelles sur les hallucinations. Des outils comme RefChecker et Hallucination Guard visent à identifier ou à évaluer les résultats suspects, permettant ainsi aux utilisateurs de filtrer ou de corriger les hallucinations.

Une nouvelle perspective propose une nouvelle interprétation du problème, suggérant que les hallucinations sont des artefacts de compression plutôt que des « bugs ». Lors de leur fonctionnement, les grands modèles de langage décompressent des informations préalablement compressées dans leurs paramètres. À l’instar d’un fichier ZIP corrompu qui produit des données erronées lors de sa décompression, le modèle comble les lacunes avec un contenu plausible mais factice lorsque son « budget d’information » est limité. ⁷

Les modèles linéaires à long terme (LLM) optimisent l'efficacité moyenne, ce qui peut entraîner des hallucinations systématiques occasionnelles. La loi de décompression du niveau d'attente (EDFL) définit les seuils d'information nécessaires pour prévenir ces hallucinations dans les LLM.

Le calculateur de risques d'hallucinations open source permet l'évaluation des risques en amont de la génération, la définition des marges d'erreur, l'évaluation du contexte et des garanties de type SLA, autant d'éléments très utiles dans les secteurs réglementés. Il est compatible avec toute API conforme à la norme OpenAI.

méthodologie de référence pour les hallucinations de l'IA

Notre objectif est de déterminer si les modèles peuvent traiter les informations d'entreprise et en tirer des conclusions pertinentes. Il s'agit d'un domaine où les modèles d'apprentissage automatique (LLM) peuvent générer le plus de valeur pour les entreprises, et nous souhaitions comprendre les taux d'erreurs dans ce contexte.

Notre outil de référence évalue les taux d'hallucinations LLM à l'aide d'un ensemble de données de questions tirées d'articles de CNN News.

Nous avons utilisé un système automatisé de collecte de données web pour constituer l'ensemble de données, en extrayant les articles directement du flux RSS de CNN. À partir de ces articles, nous avons élaboré 60 questions conçues pour évaluer rigoureusement la capacité d'un étudiant en master de droit (LLM) à extraire des informations factuelles et spécifiques à chaque article.

Les questions ont été intentionnellement conçues pour :

Demandez des valeurs numériques précises (pourcentages, dates, quantités).
Nous abordons des sujets variés tels que les prix du pétrole, l'histoire de l'art, la recherche scientifique, la finance, et bien plus encore.
Inclure les relations temporelles et les faits statistiques difficiles à deviner.
Exiger une extraction exacte des informations du texte fourni plutôt qu'un raisonnement généralisé.
Facilitez la vérification en vérifiant si la réponse correspond à la figure de l'article original.

Évaluation à l'aide d'un système de vérification des faits en trois étapes

Une fois les questions envoyées à chaque LLM via des appels API, les réponses sont évaluées à l'aide d'un processus de vérification des faits en deux étapes :

Vérification statique de correspondance exacte : le système effectue d’abord une comparaison rapide entre la réponse du LLM et la valeur de référence extraite de l’article. Si les valeurs correspondent exactement, la réponse est considérée comme correcte.
Validation sémantique par LLM en tant que juge : si aucune correspondance exacte n’est trouvée, une étape d’évaluation supplémentaire utilise un modèle LLM en tant que juge pour déterminer si la réponse est sémantiquement équivalente à la vérité de terrain.
Cela explique les variations de mise en forme ou de formulation, telles que :
- « 26 millions » contre « 26 000 000 »
- « n/a », « non disponible » ou « non communiqué »
- de légères différences de formulation qui conservent la même signification.
Dernière vérification : Le système LLM-en-jeu de juge peut également avoir des hallucinations. Pour pallier ce problème, nous avons créé un second système LLM-en-jeu de juge afin de vérifier les résultats marqués comme « échec » par le premier système LLM-en-jeu de juge, et ainsi déterminer s’il s’agit réellement d’un échec ou d’une hallucination de notre système LLM-en-jeu de juge. Si une réponse est jugée suspecte par ce second système LLM-en-jeu de juge, nous la vérifions et la corrigeons manuellement afin de nous assurer qu’aucune erreur ne s’est glissée lors des évaluations.

La réponse est classée comme hallucination uniquement si elle échoue à la fois au test de correspondance exacte, à l'évaluation de l'équivalence sémantique et au test final.

Exemple

Consigne : « Répondez à la question en utilisant uniquement les informations figurant dans l'article fourni. N'arrondissez pas les réponses. Répondez uniquement par un mot ou un chiffre, ou indiquez « non mentionné ». »

Article : Des scientifiques identifient l’ingrédient secret des peintures de Léonard de Vinci ⁸

Question : À quel siècle la peinture à l'huile s'est-elle répandue en Europe du Nord ?
Vérité de terrain : Non communiquée.

L'article ne fournit pas cette information ; il ne fait référence qu'au Moyen Âge. Par conséquent, toute réponse autre que « non précisé » indique que le modèle ne suit pas l'article et génère des informations inventées ou supposées, ce qui provoque une hallucination.

FAQ

Les outils d'IA peuvent générer des informations erronées ou des résultats trompeurs. Pour éviter ces hallucinations, il est conseillé aux utilisateurs de vérifier les réponses et de poser des questions plus directes. Ces informations factuellement incorrectes dans les textes générés par l'IA peuvent avoir des conséquences indésirables, notamment dans des domaines comme la rédaction scientifique et la recherche juridique.

Plusieurs publications ont identifié les causes des erreurs d'interprétation des données par l'IA. Lorsque des systèmes d'intelligence artificielle génératifs, tels que les grands modèles de langage, produisent des résultats factuellement incorrects, cela est souvent dû à un manque de données d'entraînement ou à l'utilisation de données obsolètes. Les recherches montrent que les méthodes précédentes de création de bases de connaissances ne permettaient pas d'empêcher efficacement les modèles de se tromper de référence ou de produire des informations inexactes lors du traitement de données internet pour résoudre des problèmes complexes.

Le contenu généré par l'IA manque souvent de vérification auprès de sources externes, ce qui peut induire en erreur. Les modèles génératifs peinent à traiter des sujets extérieurs à leur corpus d'entraînement et peuvent inventer des faits apparemment plausibles qui résistent à la vérification par des experts.

Bien qu'utiles dans des domaines tels que la recherche juridique, les systèmes d'IA peuvent produire des inexactitudes, notamment pour les sujets peu traités ou en cas d'attaques adverses.

Les modèles peuvent confondre corrélation et causalité, et même des résultats précis peuvent contenir des erreurs, ce qui souligne la nécessité de vérifier les faits auprès de sources fiables. Ce problème persiste en raison de normes d'évaluation insuffisantes concernant le traitement des données par les modèles.

Lectures complémentaires

Liens de référence

Managing gen AI risks | Deloitte Insights

Deloitte

GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers

AI Detection Resources | GPTZero

NeurIPS research papers contained 100+ AI-hallucinated citations, new report claims | Fortune

Fortune

AI-Faked Cases Become Core Issue Irritating Overworked Judges

forbes.com

Forbes

https://arxiv.org/pdf/2502.13622

LLM hallucinations predicted with new algorithm, open-sourced | Leon Chlon, PhD posted on the topic | LinkedIn

An Old Master’s secret ingredient? Egg yolk, new study suggests | CNN

Getty Images

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Commentaires 4

Partagez vos idées

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Abraham

Aug 25, 2025 at 11:57

This article is updated in June while the GPT 5 is announced in August. How did you test GPT 5 in AI Hallucination Rates figure

Aleyna Daldal

Sep 05, 2025 at 08:46

Hi! Thanks for your comment. We use WordPress for our articles, which allows us to update graphs and tables independently of the main text. This means that even if the article text shows an earlier update date, we can still add the latest results to the figures without altering the written sections.

Rui

Aug 08, 2025 at 20:31

Hi Cem, I've been using this article as a reference of severity of hallucination. Is it possible to refresh the report with the newly released GPT-5? Thanks!

Aleyna Daldal

Sep 05, 2025 at 08:48

Hi Rui, Thanks a lot for your interest and for using our article as a reference. We’ve already refreshed the report with GPT-5 results, so you’ll find the latest updates included in the article.

Tim

Jul 19, 2025 at 10:13

Is there any chance that you might add Claude Sonnet/Opus 4 as well as Gemini 2.5 Pro?

Aleyna Daldal

Sep 05, 2025 at 08:48

Hi Tim, Thank you for your support and suggestion. Claude Sonnet/Opus 4 and Gemini 2.5 Pro have already been added to the article, so you can now see them included in the comparisons.

Joon

Feb 28, 2025 at 16:29

Hi, thank you for interesting benchmark! I was wondering Grok3's hallucination rate, both in Think mode and without. Are you planning to add these?

Cem Dilmegani

Mar 17, 2025 at 02:52

Hi Joon and thank you for your comment, Yes, we are waiting for API access.

Hallucination par l'IA : Comparez les meilleurs LLM comme GPT-5.2

résultats de référence sur les hallucinations de l'IA

Analyse du taux d'hallucinations : coût et contexte

Tendances liées à la taille du contexte et aux hallucinations

Un contexte large ne garantit pas l'exactitude

Que sont les hallucinations de l'IA ?