L'évaluation des modèles de raisonnement logique (LLM) nécessite des outils permettant d'analyser le raisonnement multi-tours, les performances en production et l'utilisation de l'outil. Nous avons consacré deux jours à l'examen des cadres d'évaluation de LLM les plus courants, qui fournissent des métriques structurées, des journaux et des traces afin d'identifier comment et quand un modèle s'écarte du comportement attendu. Plus précisément, nous avons :
- Vérifié si les outils d'évaluation LLM prennent en charge l'analyse du suivi du comportement des agents et la surveillance de la production .
- Outils regroupés par axe d'évaluation fonctionnelle .
- Comparaison des capacités d'évaluation , des tests à un seul tour aux évaluations en situation réelle à plusieurs tours.
paysage d'évaluation des LLM
Catégorie fonctionnelle | Outils | Objectif principal |
|---|---|---|
OpenAI Évaluations, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI | Évaluer les résultats du LLM à l'aide de métriques de qualité, d'exactitude et de cohérence. | |
Promptfoo, Humanloop, Opik | Concevoir, tester et optimiser les invites pour une meilleure sortie du modèle. | |
Évaluations de LangChain, LangSmith, Évaluation de LlamaIndex | Évaluer les LLM au sein d'écosystèmes spécifiques comme LangChain ou LlamaIndex. | |
Arize Phoenix, Langfuse, Langtrace AI, Lunaire | Surveillance et analyse continues des performances du modèle en production. |
capacités d'évaluation des LLM
Explication des capacités d'évaluation :
- Passerelle IA (accès multi-modèles) : Capacité de la plateforme à évaluer plusieurs modèles de base via une interface API unifiée.
- Évaluations en un seul tour : Mesure les performances du modèle sur des invites individuelles pour des indicateurs tels que l’exactitude, la factualité ou la cohérence.
- Évaluations multi-tours : Permet d’évaluer des échanges conversationnels ou en plusieurs étapes afin de tester le raisonnement contextuel et la mémoire.
- Évaluations hors ligne : Les évaluations hors ligne servent à vérifier les résultats de l’application LLM avant sa mise en production. Utilisez-les pour les contrôles CI/CD de votre application LLM.
- Métriques LLM personnalisées : Permet de définir des métriques d’évaluation spécifiques à un domaine ou à une tâche, au-delà des méthodes de notation prédéfinies.
capacités de surveillance du comportement des agents et des outils
Les outils d’évaluation peuvent aider à détecter les comportements d’agents mal alignés, surtout si l’on élargit la définition de « l’évaluation » (pas seulement la demande ou la réponse, mais le comportement de l’agent au fil du temps, l’utilisation de l’outil, les effets secondaires).
Anthropic suggère que l'évaluation de la façon dont un modèle se comporte, et pas seulement de ce qu'il dit, pourrait devenir une dimension cruciale de la confiance et de la sécurité dans les systèmes d'IA de nouvelle génération. 1
- Si vous êtes intéressé par la surveillance de la production et l'évaluation au niveau du système, vous pouvez passer directement à la section sur les frameworks d'observabilité LLM dotés de capacités d'évaluation .
- Consultez la section Plateformes d'observabilité et d'évaluation LLM pour en savoir plus.
- Si vous utilisez des agents RAG ou des agents d'achèvement de tâches, nous disposons d'un guide distinct sur l'évaluation des agents .
cadres d'évaluation fondamentaux des LLM
OpenAI Évaluation
OpenAI Evals est un cadre d'évaluation open-source développé par OpenAI pour évaluer systématiquement les performances des grands modèles de langage (LLM).
Il s'agit d'une infrastructure d'évaluation à usage général qui permet aux utilisateurs de mesurer la qualité des modèles sur une grande variété de tâches ; de la génération et du raisonnement de texte à la génération de sorties structurées comme du code ou du SQL.
Voici un exemple de pipeline d'évaluation construit avec OpenAI Evals, conçu pour évaluer la capacité d'un modèle à générer des requêtes SQL syntaxiquement correctes. L'évaluation utilise des données synthétiques générées avec GPT-4 et une configuration YAML personnalisée pour enregistrer l'évaluation dans le framework :
DeepEval
Il s'agit d'un framework principalement basé sur Python, souvent décrit comme « pytest pour les masters en droit ». Il se distingue par son vaste ensemble de métriques validées par la recherche et sa capacité à tester des pipelines complets ou des composants isolés.
Voici un exemple d'évaluation de trace, représentant une exécution unique d'une application LLM. L'exécution d'évaluations sur les traces permet une évaluation de bout en bout du comportement du modèle, similaire aux évaluations ponctuelles réalisées lors du développement :
Source : ConfidentAI 3
MLflow (Évaluation LLM)
Il étend MLflow à l'évaluation des modèles de langage naturel (LLM). Son principal atout réside dans le suivi des expériences et la comparaison directe entre les différentes exécutions et versions.
Voici un exemple de la vue comparative des évaluations de MLflow, qui affiche côte à côte les résultats de plusieurs exécutions. Dans ce cas précis, le score de concision a progressé de 33 %, tandis que la couverture conceptuelle a diminué de 11 %.
Source : MLflow 4
Ragas
RAGAS (Retrieval-Augmented Generation Assessment Suite) est un framework d'évaluation open source conçu spécifiquement pour mesurer les performances des applications de génération augmentée par la recherche (RAG) et de modélisation linguistique active. Il offre un environnement d'expérimentation léger, comparable à l'utilisation de pandas pour l'analyse rapide des données.
RAGAS évalue l'efficacité avec laquelle un système récupère et intègre le contexte pertinent dans ses réponses générées. Il utilise pour cela un ensemble de métriques validées par la recherche, notamment :
- Fidélité : dans quelle mesure la réponse générée reflète fidèlement le contexte récupéré.
- Pertinence contextuelle : dans quelle mesure les documents récupérés sont pertinents par rapport à la requête.
- Pertinence de la réponse : dans quelle mesure la réponse générée est pertinente par rapport à la question de l’utilisateur.
- Rappel contextuel et précision contextuelle : avec quelle précision et exhaustivité les informations pertinentes sont récupérées.
Ces indicateurs se combinent pour produire un score RAG global, qui quantifie la qualité de la récupération et de la génération. Outre le score RAG, RAGAS prend désormais en charge des indicateurs pour les flux de travail multimodaux, l'utilisation d'outils, l'évaluation SQL et même les tâches multimodales grâce à des extensions telles que la fidélité multimodale et la sensibilité au bruit .
RAGAS introduit également de nouvelles métriques au fil du temps, disponibles dans le dépôt GitHub de RAGAS ici .
Voici une analyse de la distribution des scores par RAGAS :
Source : RAGAS 5
TruLens
TruLens est une bibliothèque open source conçue pour l'analyse qualitative des résultats des modèles linéaires. Son fonctionnement repose sur l'injection de fonctions de rétroaction qui s'exécutent après chaque appel de modèle afin d'évaluer la réponse. Elle est particulièrement adaptée à l'analyse du raisonnement et à l'évaluation qualitative, et pas seulement à la mesure de la précision.
Au-delà des tests de précision, TruLens prend en charge l'évaluation éthique et comportementale :
Deepchecks (LLM)
Deepchecks (LLM) est un framework d'évaluation open source initialement conçu pour la validation de modèles d'apprentissage automatique, et désormais étendu aux grands modèles de langage (LLM) et aux applications RAG. Il propose des modules spécifiquement adaptés à l'évaluation des pipelines de recherche basés sur les LLM.
Deepchecks (LLM) se distingue par son orientation vers les métriques d'évaluation et les pipelines d'automatisation :
- Agent-en-tant-que-juge
- Évaluation RAG
- cadre d'évaluation du LLM
- pipelines CI/CD
Voici un exemple de cas d'utilisation de questions-réponses où le modèle répond à une question médicale concernant la douleur liée à la GVHD.
Source : Deepchecks 6
Inspecter l'IA
Inspect AI est un framework d'évaluation open source pour les modèles d'apprentissage automatique (LLM), conçu pour les évaluations de niveau recherche. Il prend en charge l'évaluation au niveau du modèle et au niveau de l'agent, permettant ainsi aux utilisateurs d'évaluer non seulement les résultats d'un modèle à une étape donnée, mais aussi le comportement de l'agent sur plusieurs étapes, les chaînes de raisonnement et l'exécution des tâches au fil du temps.
Ce framework est facile à mettre en place dans des environnements isolés tels que des conteneurs Docker ou des machines virtuelles, ce qui le rend idéal pour évaluer en toute sécurité les flux de travail automatisés sans exposer le système hôte. Inspect propose un modèle clair de définition et d'exécution des tâches, permettant aux utilisateurs de définir rapidement les tâches d'évaluation, de contrôler la taille des échantillons (par exemple, pour les normes statistiques de type CI) et d'intégrer les évaluations dans des pipelines automatisés.
Inspect fournit également des journaux d'évaluation détaillés, étape par étape, incluant la latence et l'utilisation des jetons pour chaque étape, ainsi qu'un rapport sur les actions et les appels d'outils. Ce niveau de granularité facilite le diagnostic des écarts de comportement d'un modèle ou d'un agent par rapport aux attentes.
Un autre atout d'Inspect AI est qu'il est conçu pour une évaluation hors ligne, privilégiant l'exactitude, la transparence et la reproductibilité par rapport aux fonctionnalités de télémétrie en temps réel.
Tests et optimisation rapides
Promptfoo
Promptfoo est une boîte à outils open source pour la conception, le test et l'évaluation des invites. Elle permet les tests A/B des invites et des résultats LLM à l'aide de configurations YAML ou en ligne de commande simples et prend en charge les évaluations LLM en tant que juge.
Cet ensemble d'outils est conçu pour l'expérimentation légère, sans configuration cloud ni dépendances SDK. Il est largement utilisé par les développeurs pour l'itération rapide et les tests de robustesse automatisés (injection de code ou vérification de toxicité, par exemple). Idéal pour intégrer l'évaluation rapide aux flux de travail de développement quotidiens.
Boucle humaine
Humanloop est une plateforme d'évaluation et d'optimisation rapide axée sur le retour d'information humain. Elle permet aux équipes de recueillir et d'analyser les avis humains sur les résultats des modèles de modélisation linguistique (LLM), contribuant ainsi à améliorer la qualité, l'adéquation et la fiabilité des processus.
Opik (par Comet)
Opik est une plateforme open source d'évaluation et de surveillance des applications LLM développée par Comet. Elle fournit des outils permettant de suivre, d'évaluer et de surveiller les applications LLM tout au long de leur cycle de vie, du développement à la production.
Opik enregistre des traces complètes et des plages de flux de travail d'invite, prend en charge des métriques automatisées (y compris des métriques complexes comme l'exactitude factuelle via LLM-as-a-judge) et permet la comparaison des performances entre les versions d'invite ou de modèle.
Sa particularité réside dans l'association d'une évaluation rapide avec la gestion et l'observabilité des expériences, comblant ainsi le fossé entre les tests et le suivi de la production.
Évaluation spécifique au cadre
Évaluations de LangChain
LangChain Evals est un outil d'évaluation spécifique au framework LangChain. Il fournit un ensemble de modèles d'évaluation et de métriques intégrés, conçus pour évaluer les performances des applications LangChain, notamment celles impliquant des chaînes complexes de LLM.
LangSmith
LangSmith est une plateforme d'évaluation et d'observabilité développée par l'équipe LangChain. Elle fournit des outils pour l'enregistrement et l'analyse des interactions LLM, avec des capacités d'évaluation spécialisées pour des tâches telles que la détection des biais et les tests de sécurité.
Il s'agit d'un service géré (hébergé) plutôt que d'un outil entièrement open source, offrant un support de niveau entreprise pour les applications basées sur LangChain.
Évaluation de l'indice Llama
LlamaIndex Eval est un outil d'évaluation intégré au framework LlamaIndex (anciennement GPT Index), permettant d'évaluer les pipelines RAG construits sur LlamaIndex. Il comprend un évaluateur de correction qui compare les réponses générées aux réponses de référence pour une requête donnée et peut également utiliser GPT-5 comme juge pour évaluer la qualité des réponses de manière indépendante des références.
Sa fonctionnalité est similaire à celle de RAGAS, mais elle est nativement intégrée au flux de travail de LlamaIndex, permettant aux développeurs d'évaluer la qualité de la récupération et de la génération sans introduire de dépendances externes.
Cadres d'observabilité LLM dotés de capacités d'évaluation
Arize Phoenix
Phoenix, développé par Arize AI (une entreprise spécialisée dans l'observabilité du ML), est une boîte à outils open source permettant d'analyser et de résoudre les problèmes de comportement des modèles de ML en environnement de production. Contrairement aux frameworks d'évaluation traditionnels, Phoenix privilégie l'observabilité et l'analyse exploratoire plutôt que les métriques prédéfinies.
Phoenix peut être utilisé pour surveiller les systèmes RAG ou LLM déployés, puis se tourner vers des cadres comme RAGAS ou Giskard pour une évaluation plus approfondie au niveau des métriques des problèmes identifiés.
Langfuse
Langfuse se concentre principalement sur la surveillance des systèmes LLM (Large Language Model) et RAG (Retrieval-Augmented Generation). Il aide les équipes à suivre et à analyser les performances des modèles en environnement de production réel.
Bien qu'il permette d'évaluer les performances des modèles à l'aide de diverses métriques, son principal atout réside dans sa capacité à observer le comportement des pipelines LLM et RAG en cours d'exécution. Cela inclut le suivi des performances des sorties LLM, de la qualité de la récupération et de la dérive des modèles, garantissant ainsi que ces derniers continuent de respecter les normes de qualité lorsqu'ils interagissent avec des ensembles de données dynamiques ou évoluent au fil du temps.
Langtrace IA
Langtrace AI est spécialisée dans l'évaluation des applications LLM grâce à la capture de traces détaillées et de métriques de performance. Elle propose des outils de surveillance d'aspects clés tels que l'utilisation des jetons, la latence, la précision et le coût, offrant ainsi une vue d'ensemble complète du comportement et des performances du modèle.
lunaire
Lunary est spécialisée dans la fourniture d'une observabilité approfondie des interactions LLM, permettant aux développeurs de surveiller et d'évaluer le comportement du modèle dans des environnements de production en temps réel.
Métriques d'évaluation du LLM
Les méthodes d'évaluation des LLM ont évolué, passant des systèmes de notation statistiques traditionnels aux approches basées sur des modèles, puis aux approches où le LLM est considéré comme un juge. Voici une brève explication pour chacune d'elles :
- Les systèmes d'évaluation statistique (basés sur une référence) : des métriques comme l'exactitude, la précision, le rappel, le score F1, le BLEU et le ROUGE mesurent la similarité avec une réponse de référence. Ils fonctionnent bien pour les tâches structurées (par exemple, la classification, la synthèse) mais peinent à traiter les réponses ouvertes.
- Systèmes d'évaluation basés sur un modèle (sans référence) : des métriques telles que Supert, BLANC, SummaC ou QAFactEval évaluent la qualité du texte, sa factualité ou sa cohérence logique sans références exactes.
- Évaluateurs basés sur le LLM (LLM en tant que juge) : Les évaluations utilisent un autre modèle (par exemple, GPT-5 ) pour évaluer la qualité de la réponse dans son contexte.
Pour en savoir plus, consultez : Évaluations Agentic : Comment évaluons-nous les candidatures LLM ?
Pourquoi les évaluations de LLM sont difficiles
L'évaluation des modèles d'apprentissage automatique (LLM) est loin d'être simple. Outre le fait que les critères de qualité varient selon le cas d'utilisation, le processus d'évaluation lui-même est fondamentalement différent des tests logiciels traditionnels ou de l'évaluation prédictive de l'apprentissage automatique.
L'une des principales difficultés réside dans le non-déterminisme : les modèles linéaires à longue portée (LLM) génèrent des résultats probabilistes, de sorte qu'une même entrée peut produire des réponses différentes à chaque fois, ce qui rend la cohérence et la reproductibilité plus difficiles à mesurer.
Source de l'image : AI World 7
Si la nature probabiliste des LLM permet des réponses créatives et diversifiées , elle rend également les tests plus difficiles ; il faut déterminer si un éventail de résultats répond toujours aux attentes plutôt que de vérifier une seule réponse correcte.
Il n'existe pas de vérité absolue : les systèmes de gestion de l'apprentissage (LLM) traitent souvent de tâches ouvertes comme la rédaction, la synthèse ou la conversation. Dans ces cas, plusieurs réponses valides peuvent coexister. L'évaluation de tels systèmes nécessite de mesurer la similarité sémantique, le ton, le style ou l'exactitude factuelle, et non pas seulement la correspondance avec un texte de référence.
Diversité des entrées : les applications LLM sont confrontées à une grande variété d’entrées ; par exemple, un chatbot de support client peut traiter des questions relatives aux retours, à la facturation ou à la sécurité des comptes. Une évaluation efficace nécessite des ensembles de tests basés sur des scénarios qui rendent compte de cette diversité.
Même des tests hors ligne bien conçus peuvent échouer lors d'un déploiement en conditions réelles, où les utilisateurs introduisent des requêtes inattendues et des cas limites. Ceci souligne la nécessité d' une évaluation et d'une observabilité continues en production afin de garantir une qualité de modèle constante dans le temps.
Risques uniques dans l'évaluation LLM
Travailler avec des systèmes probabilistes qui suivent des instructions introduit des risques nouveaux et complexes que l'évaluation traditionnelle de l'IA couvre rarement :
- Hallucinations : Le modèle peut générer des faits faux ou trompeurs, par exemple en inventant des produits, en citant des sources inexistantes ou en fournissant des conseils médicaux ou juridiques incorrects.
- Jailbreaks : des utilisateurs malveillants peuvent exploiter des invites pour contourner les contraintes de sécurité , incitant le modèle à produire du contenu nuisible, biaisé ou interdit.
- Fuites de données : Un LLM peut révéler involontairement des informations sensibles ou confidentielles provenant de ses données de formation ou de ses systèmes connectés.
Pour atténuer ces problèmes, les équipes ont besoin de processus d'évaluation robustes qui vont au-delà des simples indicateurs de précision :
- Tester la robustesse des modèles avec des entrées adverses et des cas limites afin de déceler les vulnérabilités.
- Effectuez des tests d'intrusion et des évaluations de sécurité pour tester la résilience du modèle face aux incitations malveillantes.
- Surveillez en permanence les interactions en direct afin de détecter les problèmes émergents tels que les dérives, les fuites de données personnelles ou les sorties non sécurisées en production.
méthodes d'évaluation du LLM
Les méthodes d'évaluation des modèles de langage permettent de mesurer leurs performances dans des tâches telles que le raisonnement, la synthèse et le dialogue. Elles vont des métriques statistiques (BLEU, ROUGE, etc.) aux approches d'évaluation par un autre modèle, où ce dernier évalue la qualité, la sécurité et l'exactitude des faits. Il existe également des méthodes d'évaluation comportementales et dynamiques qui analysent l'évolution des modèles dans le temps et leur utilisation des outils.
Pour un aperçu plus détaillé des principales approches et de leurs défis, consultez notre article complet sur les méthodes d'évaluation des LLM .
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.