Nous avons comparé trois outils de détection d'hallucinations : Weights & Biases (W&B) Weave HallucinationFree Scorer, Arize Phoenix HallucinationEvaluator et Comet Opik Hallucination Metric, sur 100 cas de test.
Chaque outil a été évalué sur la base de son exactitude, de sa précision, de son rappel et de sa latence afin de fournir une comparaison équitable de ses performances en situation réelle.
Analyse comparative des outils de détection des hallucinations par IA
Nous avons testé 100 réponses (50 correctes, 50 hallucinées) de scénarios de questions-réponses factuelles par rapport à leur contexte source.
Comparaison de la précision et de la latence
W&B Weave et Arize Phoenix ont affiché une précision quasi identique, respectivement de 91 % et 90 %, identifiant correctement 90 cas de test sur 100. Les deux outils ont démontré une performance fiable sur l'ensemble des données. Comet Opik, avec une précision de 72 %, n'a correctement classé que 72 tests sur 100, un écart significatif dû à son approche prudente.
En termes de vitesse, Arize Phoenix s'est distingué avec un temps de 2 secondes par test, le rendant adapté aux applications en temps réel. W&B Weave a traité les tests en 4 secondes, ce qui est acceptable pour la plupart des cas d'utilisation en production. Comet Opik s'est avéré nettement plus lent, avec 8,5 secondes par test, ce qui suggère des temps de traitement irréguliers susceptibles d'affecter l'expérience utilisateur dans les applications sensibles à la latence.
Score F1, précision et rappel
Les scores F1 (moyenne harmonique de la précision et du rappel) ont confirmé ces tendances : W&B Weave (90,5 %) et Phoenix (89,4 %) ont tous deux obtenu des performances solides et équilibrées. En comparaison, le score d’Opik (61,1 %) reflète un compromis entre une précision parfaite et un rappel faible. L’absence de faux positifs d’Opik s’est faite au prix de 28 faux négatifs, ce qui le rend adapté uniquement aux situations où les fausses alarmes sont plus coûteuses que les détections manquées.
Le test de rappel (capacité à identifier les hallucinations réelles) a révélé des stratégies distinctes. W&B Weave arrive en tête avec un taux de rappel de 86 %, identifiant 43 hallucinations sur 50 et n'en manquant que 7. Phoenix suit de près avec 84 %, détectant 42 hallucinations et en manquant 8. Le taux de rappel de Comet Opik est nettement inférieur, à 44 %, n'identifiant que 22 hallucinations et en manquant 28 ; plus de la moitié des hallucinations réelles sont ainsi passées inaperçues.
La précision (fiabilité des alertes) a présenté des variations importantes. Comet Opik a atteint une précision parfaite de 100 % sans aucun faux positif : lorsqu’il a signalé une hallucination, l’alerte était toujours correcte. Phoenix (95,5 %) et Weave (95,6 %) ont affiché une précision quasi identique, avec seulement 2 faux positifs sur 50 réponses légitimes, démontrant ainsi une grande fiabilité sans être excessivement conservateurs.
Facteurs susceptibles d'influencer les différences de performance
Les différences de performance observées sont probablement dues à la philosophie de conception, au choix du seuil et à l'interprétation de la mise à la terre.
Différences dans la stratégie de détection et les objectifs d'optimisation
- Il semble que ces outils soient optimisés pour différents compromis en matière d'erreurs plutôt que pour un même objectif.
- Les W&B Weave et Arize Phoenix visent une performance équilibrée, en maintenant une grande précision tout en capturant la plupart des hallucinations.
- Comet Opik adopte une stratégie très prudente, privilégiant l'absence de faux positifs même si de nombreuses hallucinations ne sont pas détectées.
- Ce choix stratégique explique directement la précision parfaite et le rappel nettement inférieur d'Opik.
Compromis précision-rappel intégrés à la conception des outils
- L'absence de faux positifs de Comet Opik indique un seuil de décision strict, ne signalant les hallucinations que lorsque le niveau de confiance est très élevé.
- W&B Weave et Phoenix utilisent des seuils moins restrictifs, autorisant certains faux positifs en échange d'un rappel beaucoup plus élevé.
- Ces différences de seuil peuvent entraîner :
- Précision similaire entre Weave et Phoenix
- Des écarts importants de rappel ont été constatés entre Opik et les deux autres outils.
- Différences correspondantes au niveau du score F1 et de la précision globale
Variations dans la mise en œuvre du LLM en tant que juge
- Bien que les trois outils utilisent une approche LLM-en-tant-que-juge, leurs implémentations diffèrent.
- W&B Weave met l'accent sur le raisonnement par chaîne de pensée, ce qui peut améliorer la sensibilité aux affirmations subtiles et non étayées.
- Arize Phoenix intègre des résultats basés sur des étiquettes avec des scores de confiance, permettant des jugements plus nuancés.
- Comet Opik se concentre sur des décisions binaires à haute fiabilité, ce qui réduit les fausses alarmes mais limite sa sensibilité aux hallucinations limites.
Différences de latence liées à la profondeur d'évaluation
- La faible latence d'Arize Phoenix suggère un pipeline d'évaluation plus léger ou plus rationalisé, adapté à une utilisation en temps réel.
- La latence modérée de W&B Weave est cohérente avec un raisonnement plus riche et une journalisation des traces plus poussée.
- La latence plus élevée et moins constante de Comet Opik reflète probablement des étapes de raisonnement ou de vérification internes plus poussées, ce qui renforce son caractère conservateur.
outils de détection des hallucinations par l'IA
HallucinationFree Scorer de W&B Weave
Figure 1 : Tableau de bord des traces de W&B Weave.
Le correcteur HallucinationFree de Weave, doté de pondérations et de biais (W&B), est un outil d'évaluation intégré qui vérifie si les résultats des modèles de langage naturel (MLN) contiennent des hallucinations en les comparant au contexte fourni. Ce correcteur utilise une approche où le MNL joue le rôle de juge afin de déterminer si la réponse générée reste cohérente avec le matériel source.
Le système d'évaluation prend deux entrées : le contexte (le texte source) et la sortie (la réponse générée par le modèle de langage). Il utilise ensuite ce modèle pour analyser si la sortie introduit des informations absentes du contexte. Le résultat comprend un indicateur booléen « hallucination » et une justification expliquant la décision.
Caractéristiques principales :
- Raisonnement par chaîne de pensée : Chaque évaluation comprend une explication de la raison pour laquelle le résultat a été qualifié d’hallucination ou non.
- Classification binaire : Renvoie des décisions claires (vrai/faux) avec des preuves à l'appui.
- Intégration avec le traçage Weave : les résultats sont automatiquement enregistrés sur le tableau de bord Weave pour visualisation.
- Modèle personnalisable : Prend en charge différents juges LLM, y compris OpenAI, Anthropic et d'autres fournisseurs.
HallucinationEvaluator d'Arize Phoenix
L'outil d'évaluation des hallucinations d'Arize Phoenix est une mesure intégrée qui détecte les hallucinations dans les résultats des modèles linguistiques en vérifiant si les réponses sont fondées sur les documents de référence fournis. Cet outil utilise une approche où le modèle linguistique joue le rôle de juge afin d'évaluer la cohérence factuelle entre le contexte et le contenu généré.
L'évaluateur prend en entrée trois éléments : la requête de l'utilisateur (entrée), le texte de référence (contexte) et la réponse du modèle (sortie). Il analyse si la réponse contient des informations qui ne peuvent être déduites du contexte et renvoie un résultat étiqueté (« factuel » ou « halluciné ») accompagné d'une explication et d'un score de confiance.
Caractéristiques principales :
- Performances équilibrées : Donne des résultats satisfaisants en termes de précision et de rappel.
- Sortie étiquetée : renvoie des étiquettes catégorielles (« factuel » ou « halluciné ») plutôt que des scores numériques uniquement.
- Explications détaillées : Fournit une justification pour chaque décision d’évaluation
Métrique d'hallucination de la comète Opik
L'indicateur d'hallucinations de Comet Opik est un outil d'évaluation intégré qui détermine si les résultats des modèles de langage naturel (MLN) contiennent des informations fabriquées ou non étayées. Cet indicateur utilise une méthodologie d'évaluation du MNL pour vérifier que les réponses générées restent fidèles au contexte fourni.
Cette métrique accepte trois entrées : la requête de l’utilisateur (entrée), le document source (contexte) et la réponse du modèle (sortie). Elle évalue si la sortie introduit des affirmations non étayées par le contexte.
Le résultat comprend un score binaire (0 pour aucune hallucination, 1 pour hallucination détectée) et un raisonnement détaillé expliquant l'évaluation.
Caractéristiques principales :
- Explications détaillées : Chaque évaluation fournit une justification complète expliquant pourquoi le contenu a été signalé ou approuvé.
- Analyse à trois entrées : prend en compte la requête, le contexte et la réponse conjointement pour l’évaluation.
- Suivi des expériences : Les résultats sont automatiquement enregistrés dans le système de suivi des expériences d'Opik.
- Approche conservatrice : Conçue pour minimiser les faux positifs en ne signalant que les hallucinations à forte probabilité.
Qu’est-ce qu’une hallucination liée à l’IA ?
Les hallucinations sont des cas où les systèmes d'IA génèrent un contenu qui semble cohérent mais qui est erroné. Dans la recherche sur les modèles de langage à grande échelle, les hallucinations sont considérées comme un défi fondamental, car l'IA générative répond souvent avec assurance même lorsque les données d'entraînement sous-jacentes ne confirment pas l'affirmation. Une étude sur les hallucinations de l'IA indique qu'elles surviennent lorsque les modèles s'appuient sur des connaissances linguistiques a priori plutôt que sur une vérité de terrain vérifiable issue du contexte fourni. 1
Des sources industrielles soulignent que les erreurs de l'IA se produisent dans divers domaines tels que les applications de santé , les services juridiques , la recherche d'entreprise et le support client . Dans ces contextes, ces erreurs minent la confiance des utilisateurs, notamment lorsque des décisions cruciales dépendent de résultats corrects de l'IA.
La reconnaissance et la détection des hallucinations sont donc devenues un élément central du développement moderne de l'IA, à la fois pour protéger les utilisateurs finaux et pour assurer le déploiement sûr des applications d'IA qui reposent sur des modèles de langage.
Sources et taxonomie des hallucinations
Les hallucinations peuvent provenir de comportements internes au modèle, tels qu'une dépendance excessive aux modèles statistiques, des lacunes dans les données d'entraînement et la nature probabiliste de la génération de séquences.
Selon un article sur la détection et l'atténuation des hallucinations, les LLM peuvent produire des inexactitudes factuelles même lorsqu'ils semblent sûrs d'eux, car les continuations probables sont déduites plutôt que des preuves vérifiables. 2
D'autres hallucinations résultent de défaillances contextuelles, notamment des échecs de récupération dans les systèmes de génération augmentée par récupération ( systèmes RAG ), des incitations ambiguës ou un ancrage incomplet. Il est également suggéré que les modèles multimodaux présentent des hallucinations dues à des confusions d'objets, des incohérences temporelles ou des détails de scène inventés.
Détection des hallucinations dans les flux de travail des agents
Les flux de travail d'agents en plusieurs étapes introduisent des risques d'hallucination spécifiques, différents de ceux des interactions LLM en une seule étape. Lorsqu'un agent opère de manière autonome sur plusieurs étapes, une hallucination survenant à un stade précoce peut se propager à travers les décisions, les appels d'outils et les résultats ultérieurs.
Principaux défis liés à la détection des hallucinations intentionnelles :
- Propagation des erreurs : Un fait falsifié lors de la phase de planification peut influencer le choix des outils, la récupération des données et les réponses finales.
- Hallucinations lors de l'appel d'outils : les agents peuvent invoquer des outils avec des paramètres incorrects ou mal interpréter les résultats des outils.
- Corruption d'État : des informations hallucinées stockées dans la mémoire de l'agent affectent les étapes de raisonnement futures.
- Complexité de l'attribution : identifier l'étape qui a déclenché l'hallucination nécessite un traçage de bout en bout.
Approches de détection pour les systèmes multi-agents :
- Vérification par étape : validation de chaque résultat intermédiaire avant que l’agent ne passe à l’action suivante.
- Validation des résultats de l'outil : vérification croisée des réponses de l'outil par rapport aux formats attendus et aux contraintes connues
- Analyse de trajectoire : examen de la séquence complète des décisions de l’agent afin d’identifier les points de divergence entre le raisonnement et les informations fondées.
- Contrôles de cohérence entre les étapes : comparaison des affirmations faites à différentes étapes pour détecter les contradictions
Les outils HallucinationFree Scorer de W&B Weave et HallucinationEvaluator d'Arize Phoenix peuvent être appliqués à chaque étape de l'agent, tandis que leurs tableaux de bord intégrés affichent la trace d'exécution complète pour l'analyse des causes profondes.
Prévention des hallucinations en temps réel
La détection des hallucinations après leur génération apporte des informations précieuses, mais n'empêche pas les contenus problématiques d'atteindre les utilisateurs. Les systèmes de prévention en temps réel interviennent avant la diffusion de la réponse.
Mécanismes de prévention :
- Garde-fous de sortie : filtres qui analysent le contenu généré en fonction de critères de factualité avant de le renvoyer à l’utilisateur.
- Seuil de confiance : Block signaler ou signaler les réponses lorsque la confiance interne du modèle tombe en dessous des niveaux acceptables.
- Contrôles de validation de la récupération : vérification que les affirmations générées sont étayées par des documents récupérés avant de finaliser la réponse.
- Stratégies de repli : renvoyer une réponse par défaut sûre ou passer à des files d’attente de révision lorsque le risque d’hallucination est élevé.
Capacités de l'outil pour la prévention en temps réel :
- W&B Weave intègre la notation des hallucinations dans les pipelines de production, permettant des vérifications automatisées avant que les réponses ne soient fournies.
- Arize Phoenix assure une surveillance en temps réel avec des fonctionnalités d'alerte qui signalent les résultats à haut risque pour un examen immédiat.
- Comet Opik propose un suivi des expériences avec une évaluation automatisée, permettant aux équipes de définir des critères de qualité qui bloquent les réponses dépassant les seuils d'hallucination.
Approches de la détection des hallucinations
Il existe six approches principales utilisées pour détecter les hallucinations :
1. Méthodes basées sur la cohérence
Les méthodes basées sur la cohérence évaluent une réponse en la comparant à plusieurs générations alternatives.
Une approche consiste à échantillonner plusieurs réponses et à les comparer à l'aide de mesures de similarité sémantique, de chevauchement de n-grammes ou de vérification question-réponse.
Lorsque les réponses se contredisent ou présentent des incohérences logiques, la probabilité d'hallucinations augmente.
Une autre technique utilise l'entropie sémantique, qui regroupe les réponses par sens plutôt que par formulation. Cette méthode évalue l'incertitude au niveau conceptuel. Une entropie élevée indique une connaissance instable, ce qui en fait l'un des outils de détection d'hallucinations par IA les plus efficaces pour identifier les confabulations.
Les recommandations du secteur suivent des tendances similaires :
- Générer plusieurs réponses internes et signaler les incohérences.
- Alerter les examinateurs humains lorsque le niveau de confiance varie selon plusieurs indicateurs.
- Utilisez les alertes en temps réel lorsque la variabilité des réponses indique une incertitude.
Les systèmes basés sur la cohérence sont particulièrement précieux lorsque les organisations doivent détecter rapidement les anomalies dans les applications destinées aux utilisateurs.
2. Détection basée sur les probabilités et la confiance
De nombreux systèmes analysent la croyance interne du modèle quant à sa propre sortie. Les probabilités au niveau des jetons, les valeurs d'entropie, les courbes d'étalonnage et les estimations de confiance basées sur la marge sont couramment utilisées. Les segments à faible confiance sont souvent corrélés à des taux d'hallucinations plus élevés.
Bien que l'entropie brute puisse être trompeuse en raison de la variabilité de sa formulation, les signaux de confiance restent utiles, notamment lorsqu'ils sont associés à des indicateurs de cohérence. Ces valeurs facilitent également la détection des hallucinations en temps réel, grâce à la surveillance continue des réponses de l'IA.
De nombreux outils exposent ces scores via des plugins qui :
- Signaler les réponses incertaines générées par l'IA
- Prioriser l'avis d'experts
- Assurer la surveillance en temps réel de la dérive de confiance en production
3. Détection par référence ou par contexte
L'évaluation par référence compare les résultats du modèle au contexte fourni ou à des sources externes, ce qui est essentiel pour les systèmes RAG . Les techniques typiques comprennent :
- Modèles d'implication qui vérifient si les documents récupérés soutiennent la réponse.
- Méthodes d'alignement et de validation des preuves.
- Mesures de factualité qui évaluent si les affirmations correspondent au texte justificatif.
Remarque : La génération augmentée par la recherche doit vérifier la validité des données. Des problèmes tels que l’absence de preuves, une recherche hors domaine peu pertinente et des sources obsolètes ou incorrectes sont souvent à l’origine de réponses non étayées. Ces méthodes contribuent directement à l’exactitude des faits en garantissant que les affirmations sont liées à des données vérifiables.
4. Vérification augmentée par la récupération
La vérification augmentée par la recherche met l'accent sur le contrôle dynamique. Chaque affirmation générée est évaluée par rapport à un index de recherche, un entrepôt de données vectorielles ou une base de connaissances structurée, telle qu'un graphe de connaissances. Si une affirmation ne dispose pas de preuves à l'appui, le système peut :
- Rejetez-le
- Réviser
- Régénérez-le avec une mise à la terre explicite
Les systèmes plus avancés étendent cette capacité au traçage des flux de travail, identifiant précisément l'étape à laquelle une allégation non fondée apparaît pour la première fois. Cela permet aux organisations de suivre les taux d'hallucinations, d'identifier les schémas récurrents et de garantir la transparence des processus de raisonnement en plusieurs étapes.
5. Méthodes basées sur des règles et contraintes de domaine
Les méthodes basées sur des règles imposent des contraintes spécifiques au domaine et comprennent :
- validateurs de citations juridiques
- gardiens de la terminologie médicale
- Vérifications basées sur des modèles pour les nombres ou dates inventés
Ces contraintes réduisent les erreurs d'interprétation dans les secteurs réglementés et améliorent la fiabilité pour des cas d'utilisation spécifiques. Il est recommandé de combiner ces signaux basés sur des règles avec le jugement humain, notamment pour les décisions à forts enjeux où le risque d'informations erronées est inacceptable.
6. Détection multimodale des hallucinations
Des hallucinations sont également observées en dehors du texte. En voici quelques exemples :
- Hallucination d'objets dans la légende d'images.
- Descriptions des événements incorrectes dans la vidéo.
- Attributs erronés dans les annotations audio.
La détection multimodale utilise souvent des contrôles de cohérence intermodaux, l'ancrage visuel et des ensembles de données tels que POPE, MHalDetect et FactVC. Ces méthodes sont de plus en plus pertinentes à mesure que les organisations expérimentent desagents d'IA multimodaux.
Techniques et algorithmes de détection des hallucinations par l'IA
Détection au niveau du jeton
Les méthodes au niveau des jetons permettent de localiser précisément les lieux d'apparition des hallucinations. Exemples :
- Des ensembles de données qui étiquettent les jetons hallucinés à l'aide d'annotations humaines et de perturbations contextuelles, permettant aux modèles de classification de marquer les segments incorrects.
- Comparaisons probabilistes analysant la divergence entre les probabilités a priori et a posteriori des jetons, compte tenu du contexte fourni.
- Méthodes d'étiquetage de séquences permettant de signaler les segments suspects.
Ces techniques permettent une inspection détaillée des résultats de l'IA, ce qui est utile pour les applications impliquant la création de contenu long.
Détection au niveau de la phrase
Les méthodes d'analyse au niveau de la phrase évaluent la véracité d'énoncés complets. Exemples :
- Contrôles d'autocohérence basés sur l'échantillonnage, où les phrases sont comparées sur plusieurs générations pour détecter l'instabilité.
- L'entropie sémantique est utilisée pour identifier l'incertitude conceptuelle sans nécessiter de données étiquetées.
- Classificateurs basés sur l'implication qui détectent les affirmations non étayées ou contradictoires.
Ces approches sont courantes dans les outils de détection des hallucinations qui déterminent si une réponse générée doit être acceptée, révisée ou revérifiée.
Détection au niveau du flux de travail
La détection au niveau du flux de travail surveille les pipelines à plusieurs étapes où des anomalies peuvent apparaître progressivement. Les mécanismes courants incluent :
- Graphiques de provenance
- Contrôles d'implication au niveau de l'étape
- Validation du raisonnement intermédiaire
- Suivi des dépendances pour les tâches multi-sauts
Ces systèmes aident les organisations à maintenir une surveillance continue, à garantir une amélioration continue et à mettre en œuvre une détection en temps réel à travers des chaînes de raisonnement complexes.
Détection des hallucinations pour la génération augmentée de la récupération
La génération augmentée par récupération combine le raisonnement LLM avec des documents externes. De nombreuses hallucinations surviennent dans ce contexte, car le modèle peut inventer des informations lorsque la récupération est faible ou ambiguë.
Défis liés à la génération augmentée
- Documents récupérés manquants ou non pertinents
- Dépendance excessive aux a priori du modèle interne
- Interprétation erronée du contexte
- Sources obsolètes ou de mauvaise qualité
Ces problèmes sont fréquemment identifiés comme les causes profondes des réponses non étayées.
Méthodes utilisées dans la détection des hallucinations RAG
La détection efficace dans les environnements RAG utilise plusieurs mécanismes :
- Modèles d'implication contexte-réponse qui vérifient les liens logiques entre le texte récupéré et les réponses générées.
- Des contrôles de classement et de similarité permettent de s'assurer que les réponses reposent sur des preuves pertinentes.
- Cycles de vérification itératifs qui affinent les réponses lorsque les preuves sont insuffisantes.
- Techniques d'ancrage qui associent chaque affirmation à un passage ou à un nœud de graphe de connaissances.
Les équipes s'appuient souvent sur une surveillance en temps réel pour détecter les dérives de récupération, suivre les schémas d'hallucinations et s'assurer que les réponses restent liées au contexte fourni.
Détection multimodale des hallucinations
La détection multimodale a pris de l'importance à mesure que de plus en plus de modèles d'IA intègrent des images ,des vidéos et de l'audio. Plusieurs mécanismes sont utilisés :
- Modèles permettant de vérifier la présence ou l'absence d'objets dans des images.
- Systèmes qui vérifient si les légendes vidéo correspondent aux actions représentées.
- Évaluations du sous-titrage audio qui valident l'alignement avec la source sonore.
Des ensembles de données comme POPE, MHalDetect et FactVC permettent d'évaluer la cohérence factuelle dans des contextes multimodaux. Ces méthodes renforcent la supervision lorsque des agents d'IA traitent plusieurs types d'entrées.
Modèles industriels et meilleures pratiques
Les organisations qui adoptent les meilleures pratiques ci-dessous constatent généralement une baisse des taux d'hallucinations à mesure que la récupération s'améliore, que les incitations sont mieux structurées et que des données plus précises sont intégrées :
- Combiner des méthodes telles que les contrôles de cohérence, le calcul des probabilités et la validation de l'implication.
- Intégration de tableaux de bord de surveillance en temps réel pour suivre le comportement du système au fil du temps.
- Amélioration des messages d'invite et vérification de la réponse initiale grâce à l'ingénierie des messages d'invite.
- Recourir à l'expertise lorsque la création de contenu a des implications juridiques, médicales ou financières .
- Exécution de contrôles automatisés dans les systèmes CI/CD pour maintenir la qualité pendant le développement de l'IA.
- Déploiement de plugins de surveillance d'agents conçus pour observer les agents d'IA et détecter les anomalies.
orientations futures de la recherche
Plusieurs domaines devraient orienter la prochaine étape des progrès :
1. Estimation de l'incertitude au niveau de signification
L'évaluation sémantique suscite un intérêt croissant car elle détecte l'instabilité conceptuelle avec plus de fiabilité que l'évaluation probabiliste superficielle. Les méthodes futures pourraient intégrer les éléments suivants afin d'améliorer la sensibilité de la détection des hallucinations :
- Information mutuelle.
- Accord inter-modèles.
- Variance sémantique au niveau du cluster
2. Supervision évolutive via un raisonnement comparatif
Les approches multi-agents, telles que le débat sur les modèles ou l'examen croisé, peuvent aider à détecter des défaillances subtiles que les modèles uniques négligent.
3. Cadres multimodaux unifiés
Avec l'essor des modèles multimodaux, des approches de détection unifiées sont nécessaires pour traiter les hallucinations à travers les images, l'audio et la vidéo.
4. Détection prenant en compte le flux de travail
Le traçage au niveau du système permet d'identifier les étapes intermédiaires incorrectes et favorise l'amélioration continue au sein des pipelines plus vastes.
5. Des ensembles de données d'évaluation plus robustes
Des ensembles de données plus complexes sont nécessaires pour le raisonnement en plusieurs étapes, les tâches adverses et les scénarios à contexte long, permettant aux systèmes de moins souvent échouer grâce à une simple reconnaissance de formes.
Méthodologie de référence
Le test de référence s'appuyait sur un ensemble de données contrôlé de 50 éléments de connaissances extraits de scénarios de questions-réponses factuelles. Chaque élément comprenait un contexte source, une question, une réponse correcte fondée sur ce contexte et une réponse erronée contenant des informations inventées. Par exemple, un test portait sur la localisation du siège social du groupe Oberoi ; la réponse correcte « Delhi » était comparée à la réponse erronée « Mumbai ».
Chaque élément de connaissance a généré deux cas de test : l’un utilisant la réponse correcte (résultat attendu : absence d’hallucination) et l’autre la réponse hallucinée (résultat attendu : détection d’une hallucination). On a ainsi obtenu une répartition équilibrée (50/50) de 100 cas de test. Les trois outils ont traité ces mêmes cas de test séquentiellement, chacun recevant les mêmes données d’entrée (contexte, question et résultat).
Nous avons mesuré la latence de chaque cas de test individuellement afin de garantir une comparaison équitable, évitant ainsi les écueils du traitement parallèle ou de l'évaluation par lots qui pourraient fausser les résultats. Les étiquettes de référence ont été vérifiées manuellement pour assurer l'exactitude du calcul des vrais positifs, des faux positifs, des vrais négatifs et des faux négatifs.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.