L'évaluation des modèles LLM nécessite des outils permettant d'analyser le raisonnement multi-tours, les performances en production et l'utilisation des outils. Nous avons consacré deux jours à l'examen des frameworks d'évaluation les plus utilisés pour les modèles LLM, qui fournissent des métriques structurées, des journaux et des traces afin d'identifier comment et quand un modèle s'écarte du comportement attendu. Plus précisément, nous avons :
- Vérifié si les outils d'évaluation LLM prennent en charge l'analyse du suivi du comportement des agents et la surveillance de la production .
- Outils regroupés par axe d'évaluation fonctionnelle .
- Comparaison des capacités d'évaluation , des tests à un seul tour aux évaluations en situation réelle à plusieurs tours.
LLM paysage d'évaluation
Catégorie fonctionnelle | Outils | Objectif principal |
|---|---|---|
OpenAI Evals, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI | Évaluer les sorties LLM en utilisant des métriques de qualité, d'exactitude et de cohérence. | |
Promptfoo, Humanloop, Opik | Concevoir, tester et optimiser les invites pour une meilleure sortie du modèle. | |
LangChain Évaluations, LangSmith, évaluation LlamaIndex | Évaluer LLMs dans des écosystèmes spécifiques comme LangChain ou LlamaIndex. | |
Arize Phoenix, Langfuse, Langtrace AI, Lunaire | Surveillance et analyse continues des performances du modèle en production. |
LLM capacités d'évaluation
Explication des capacités d'évaluation :
- Passerelle IA (accès multi-modèles) : Capacité de la plateforme à évaluer plusieurs modèles de base via une interface API unifiée.
- Évaluations en un seul tour : Mesure les performances du modèle sur des invites individuelles pour des indicateurs tels que l’exactitude, la factualité ou la cohérence.
- Évaluations multi-tours : Permet d’évaluer des échanges conversationnels ou en plusieurs étapes afin de tester le raisonnement contextuel et la mémoire.
- Évaluations hors ligne : Les évaluations hors ligne servent à vérifier les résultats de l’application LLM avant sa mise en production. Utilisez les évaluations hors ligne pour les contrôles CI/CD de votre application LLM.
- Métriques personnalisées LLM : Permet de définir des métriques d’évaluation spécifiques au domaine ou à la tâche au-delà des méthodes de notation prédéfinies.
capacités de surveillance du comportement des agents et des outils
Les outils d’évaluation peuvent aider à détecter les comportements d’agents mal alignés, surtout si l’on élargit la définition de « l’évaluation » (pas seulement la demande ou la réponse, mais le comportement de l’agent au fil du temps, l’utilisation de l’outil, les effets secondaires).
Anthropic suggère que l'évaluation de la façon dont un modèle se comporte, et pas seulement de ce qu'il dit, pourrait devenir une dimension cruciale de la confiance et de la sécurité dans les systèmes d'IA de nouvelle génération. 1
- Si vous êtes intéressé par la surveillance de la production, l'évaluation au niveau du système, vous pouvez passer à la section LLM frameworks d'observabilité avec capacités d'évaluation .
- Lisez LLM plateformes d'observabilité et d'évaluation pour en savoir plus.
- Si vous utilisez RAG ou des agents d'achèvement de tâches, nous avons un guide séparé sur l'évaluation des agents .
Cadres d'évaluation de base LLM
OpenAI Évaluation
OpenAI Evals est un cadre d'évaluation open-source développé par OpenAI pour évaluer systématiquement les performances des grands modèles de langage (LLMs).
Il s'agit d'une infrastructure d'évaluation à usage général qui permet aux utilisateurs de mesurer la qualité des modèles sur une grande variété de tâches ; de la génération et du raisonnement de texte à la génération de sorties structurées comme du code ou du SQL.
Voici un exemple de pipeline d'évaluation construit avec OpenAI Evals, conçu pour évaluer la capacité d'un modèle à générer des requêtes SQL syntaxiquement correctes. L'évaluation utilise des données synthétiques générées avec GPT-4 et une configuration YAML personnalisée pour enregistrer l'évaluation dans le framework :
DeepEval
Il s'agit d'un framework Python-first souvent décrit comme « pytest pour LLMs ». Il se distingue par son vaste ensemble de métriques basées sur la recherche et sa capacité à tester des pipelines complets ou des composants isolés.
Voici un exemple d'évaluation de trace, représentant une exécution unique de l'application LLM. L'exécution d'évaluations sur les traces permet une évaluation de bout en bout du comportement du modèle, similaire aux évaluations ponctuelles effectuées lors du développement :
Source : ConfidentAI 3
MLflow (LLM Évaluation)
Il étend MLflow à l'évaluation LLM. Son principal atout réside dans le suivi des expériences et la comparaison directe entre les exécutions et les versions.
Voici un exemple de la vue comparative des évaluations de MLflow, qui affiche côte à côte les résultats de plusieurs exécutions. Dans ce cas précis, le score de concision a progressé de 33 %, tandis que la couverture conceptuelle a diminué de 11 %.
Source : MLflow 4
Ragas
AS (Retrieval-Augmented Generation Assessment Suite) est un framework d'évaluation open source conçu spécifiquement pour mesurer les performances des applications de génération augmentée par la recherche (GAR) et des applications agentiques. Il offre un environnement d'expérimentation léger, comparable à l'utilisation de pandas pour l'analyse rapide des données.
RAGAS évalue l'efficacité avec laquelle un système récupère et intègre le contexte pertinent dans ses réponses générées. Il utilise pour cela un ensemble de métriques validées par la recherche, notamment :
- Fidélité : dans quelle mesure la réponse générée reflète fidèlement le contexte récupéré.
- Pertinence contextuelle : dans quelle mesure les documents récupérés sont pertinents par rapport à la requête.
- Pertinence de la réponse : dans quelle mesure la réponse générée est pertinente par rapport à la question de l’utilisateur.
- Rappel contextuel et précision contextuelle : avec quelle précision et exhaustivité les informations pertinentes sont récupérées.
Ces indicateurs se combinent pour produire un score global RAG, qui quantifie la qualité de la récupération et de la génération. Outre RAG, RAGAS prend désormais en charge des indicateurs pour les flux de travail d'agents, l'utilisation d'outils, l'évaluation SQL et même les tâches multimodales grâce à des extensions telles que la fidélité multimodale et la sensibilité au bruit .
RAGAS introduit également de nouvelles métriques au fil du temps, disponibles dans le dépôt GitHub RAGAS ici .
Voici une analyse de la distribution des scores par RAGAS :
Source : RAGAS 5
TruLens
TruLens est une bibliothèque open source conçue pour l'analyse qualitative des sorties LLM. Son fonctionnement repose sur l'injection de fonctions de rétroaction qui s'exécutent après chaque appel de modèle afin d'évaluer la réponse. Elle est particulièrement adaptée à l'analyse du raisonnement et à l'évaluation qualitative, et pas seulement à la mesure de la précision.
Au-delà des tests de précision, TruLens prend en charge l'évaluation éthique et comportementale :
Deepchecks (LLM)
Deepchecks (LLM) est un framework d'évaluation open source initialement conçu pour la validation de modèles d'apprentissage automatique, désormais étendu aux grands modèles de langage (LLMs) et aux applications RAG. Il propose des modules spécifiquement adaptés à l'évaluation des pipelines de recherche basés sur LLM.
Deepchecks (LLM) se distingue par son orientation vers les métriques d'évaluation et les pipelines d'automatisation :
- Agent-en-tant-que-juge
- RAG évaluation
- LLM cadre d'évaluation
- pipelines CI/CD
Voici un exemple de cas d'utilisation de questions-réponses où le modèle répond à une question médicale concernant la douleur liée à la GVHD.
Source : Deepchecks 6
Inspecter l'IA
Inspect AI est un framework d'évaluation open source (991259_2088) conçu pour les évaluations de niveau recherche. Il prend en charge l'évaluation au niveau du modèle et de l'agent, permettant ainsi aux utilisateurs d'évaluer non seulement les résultats d'un modèle à une seule étape, mais aussi le comportement de l'agent sur plusieurs étapes, les chaînes de raisonnement et l'exécution des tâches au fil du temps.
Ce framework est facile à mettre en place dans des environnements isolés tels que des conteneurs Docker ou des machines virtuelles, ce qui le rend idéal pour évaluer en toute sécurité les flux de travail automatisés sans exposer le système hôte. Inspect propose un modèle clair de définition et d'exécution des tâches, permettant aux utilisateurs de définir rapidement les tâches d'évaluation, de contrôler la taille des échantillons (par exemple, pour les normes statistiques de type CI) et d'intégrer les évaluations dans des pipelines automatisés.
Inspect fournit également des journaux d'évaluation détaillés, étape par étape, incluant la latence et l'utilisation des jetons pour chaque étape, ainsi qu'un rapport sur les actions et les appels d'outils. Ce niveau de granularité facilite le diagnostic des écarts de comportement d'un modèle ou d'un agent par rapport aux attentes.
Un autre atout d'Inspect AI est qu'il est conçu pour une évaluation hors ligne, privilégiant l'exactitude, la transparence et la reproductibilité par rapport aux fonctionnalités de télémétrie en temps réel.
Tests et optimisation rapides
Promptfoo
Promptfoo est une boîte à outils open source pour la conception, le test et l'évaluation des invites. Elle permet les tests A/B des invites et des sorties LLM à l'aide de configurations YAML ou en ligne de commande simples et prend en charge les évaluations LLM-as-a-juge.
Cet ensemble d'outils est conçu pour l'expérimentation légère, sans configuration cloud ni dépendances SDK. Il est largement utilisé par les développeurs pour l'itération rapide et les tests de robustesse automatisés (injection de code ou vérification de toxicité, par exemple). Idéal pour intégrer l'évaluation rapide aux flux de travail de développement quotidiens.
Boucle humaine
Humanloop est une plateforme d'évaluation et d'optimisation rapide centrée sur le retour d'information humain. Elle permet aux équipes de recueillir et d'analyser les avis humains sur les résultats de LLM, contribuant ainsi à améliorer la qualité, l'adéquation aux modèles et la fiabilité des processus.
Opik (par Comet)
Opik est une plateforme open source d'évaluation et de surveillance développée par Comet. Elle fournit des outils pour suivre, évaluer et surveiller les applications tout au long de leur cycle de vie, du développement à la production.
Opik enregistre des traces complètes et des étendues de flux de travail d'invite, prend en charge des métriques automatisées (y compris des métriques complexes comme l'exactitude factuelle via LLM-as-a-judge) et permet la comparaison des performances entre les versions d'invite ou de modèle.
Sa particularité réside dans l'association d'une évaluation rapide avec la gestion et l'observabilité des expériences, comblant ainsi le fossé entre les tests et le suivi de la production.
Évaluation spécifique au cadre
LangChain Évaluations
Evals est un outil d'évaluation spécifique au framework pour les workflows. Il fournit un ensemble de modèles d'évaluation et de métriques intégrés, conçus pour évaluer les performances des applications, notamment celles impliquant des chaînes complexes de processus.
LangSmith
LangSmith est une plateforme d'évaluation et d'observabilité développée par l'équipe LangChain. Elle fournit des outils pour l'enregistrement et l'analyse des interactions LLM, avec des capacités d'évaluation spécialisées pour des tâches telles que la détection des biais et les tests de sécurité.
Il s'agit d'un service géré (hébergé) plutôt que d'un outil entièrement open-source, offrant un support de niveau entreprise pour les applications basées sur LangChain.
Évaluation de l'indice Llama
LlamaIndex Eval est un outil d'évaluation intégré au framework LlamaIndex (anciennement GPT Index), permettant d'évaluer les pipelines construits sur LlamaIndex. Il comprend un évaluateur de correction qui compare les réponses générées aux réponses de référence pour une requête donnée et peut également utiliser LlamaIndex comme juge pour évaluer la qualité des réponses indépendamment de toute référence.
Sa fonctionnalité est similaire à RAGAS, mais elle est nativement intégrée au flux de travail LlamaIndex, permettant aux développeurs d'évaluer la qualité de la récupération et de la génération sans introduire de dépendances externes.
LLM cadres d'observabilité avec capacités d'évaluation
Arize Phoenix
Phoenix, développé par Arize AI (une entreprise spécialisée dans l'observabilité du ML), est une boîte à outils open source permettant d'analyser et de résoudre les problèmes de comportement dans les environnements de production. Contrairement aux frameworks d'évaluation traditionnels, Phoenix privilégie l'observabilité et l'analyse exploratoire plutôt que les métriques prédéfinies.
Phoenix peut être utilisé pour surveiller les systèmes déployés RAG ou LLM, puis se tourner vers des frameworks comme RAGAS ou Giskard pour une évaluation plus approfondie au niveau des métriques des problèmes identifiés.
Langfuse
Langfuse se concentre principalement sur la surveillance des systèmes LLM (Large Language Model) et RAG (Retrieval-Augmented Generation). Il aide les équipes à suivre et à analyser les performances des modèles en environnement de production réel.
Bien qu'il puisse évaluer les performances des modèles à l'aide de diverses métriques, son principal atout réside dans sa capacité à observer le comportement des pipelines LLM et RAG en cours d'exécution. Cela inclut le suivi des performances des sorties LLM, de la qualité de la récupération et de la dérive des modèles, garantissant ainsi que ces derniers continuent de respecter les normes de qualité lorsqu'ils interagissent avec des ensembles de données dynamiques ou évoluent au fil du temps.
Langtrace IA
Langtrace AI est spécialisée dans l'évaluation des applications LLM grâce à la capture de traces détaillées et de métriques de performance. Elle propose des outils de surveillance des aspects clés tels que l'utilisation des jetons, la latence, la précision et le coût, offrant ainsi une vue d'ensemble du comportement et des performances du modèle.
Lunaire
Lunary se spécialise dans la fourniture d'une observabilité approfondie des interactions LLM, permettant aux développeurs de surveiller et d'évaluer le comportement du modèle dans des environnements de production en temps réel.
Métriques d'évaluation LLM
Les métriques d'évaluation LLM ont évolué, passant des systèmes de notation statistiques traditionnels aux approches basées sur des modèles et maintenant aux approches LLM-en-tant-que-juge. Voici une brève explication pour chacune d'elles :
- Les systèmes d'évaluation statistique (basés sur une référence) : des métriques comme l'exactitude, la précision, le rappel, le score F1, le BLEU et le ROUGE mesurent la similarité avec une réponse de référence. Ils fonctionnent bien pour les tâches structurées (par exemple, la classification, la synthèse) mais peinent à traiter les réponses ouvertes.
- Systèmes d'évaluation basés sur un modèle (sans référence) : des métriques telles que Supert, BLANC, SummaC ou QAFactEval évaluent la qualité du texte, sa factualité ou sa cohérence logique sans références exactes.
- LLM-scorers (LLM-as-a-judge) : Les évaluations utilisent un autre modèle (par exemple, GPT-5 ) pour évaluer la qualité de la réponse dans son contexte.
Pour en savoir plus, consultez : Évaluations Agentic : Comment évaluons-nous les applications LLM ?
Pourquoi les évaluations LLM sont-elles difficiles ?
L'évaluation de LLMs est loin d'être simple. Outre le fait que les critères de qualité varient selon le cas d'utilisation, le processus d'évaluation lui-même est fondamentalement différent des tests logiciels traditionnels ou de l'évaluation prédictive en apprentissage automatique.
L'une des principales difficultés réside dans le non-déterminisme : les LLMs génèrent des sorties probabilistes, de sorte que la même entrée peut produire des réponses différentes à chaque fois, ce qui rend la cohérence et la reproductibilité plus difficiles à mesurer.
Source de l'image : AI World 7
Bien que la nature probabiliste de LLMs permette des réponses créatives et diversifiées , elle rend également les tests plus difficiles ; vous devez déterminer si une gamme de résultats répond toujours aux attentes plutôt que de vérifier une seule réponse correcte.
Il n'existe pas de vérité absolue : les systèmes de réponse aux questions ouvertes (par exemple, LLM) traitent souvent des tâches complexes comme la rédaction, la synthèse ou la conversation. Dans ces cas, plusieurs réponses valides peuvent exister. L'évaluation de tels systèmes nécessite de mesurer la similarité sémantique, le ton, le style ou l'exactitude factuelle, et non pas seulement la correspondance avec un texte de référence.
Diversité des entrées : les applications LLM sont confrontées à une grande variété d’entrées ; par exemple, un chatbot de support client peut traiter des questions relatives aux retours, à la facturation ou à la sécurité des comptes. Une évaluation efficace nécessite des ensembles de tests basés sur des scénarios qui rendent compte de cette diversité.
Même des tests hors ligne bien conçus peuvent échouer lors d'un déploiement en conditions réelles, où les utilisateurs introduisent des requêtes inattendues et des cas limites. Ceci souligne la nécessité d' une évaluation et d'une observabilité continues en production afin de garantir une qualité de modèle constante dans le temps.
Risques uniques dans l'évaluation LLM
Travailler avec des systèmes probabilistes qui suivent des instructions introduit des risques nouveaux et complexes que l'évaluation traditionnelle de l'IA couvre rarement :
- Hallucinations : Le modèle peut générer des faits faux ou trompeurs, par exemple en inventant des produits, en citant des sources inexistantes ou en fournissant des conseils médicaux ou juridiques incorrects.
- Jailbreaks : des utilisateurs malveillants peuvent exploiter des invites pour contourner les contraintes de sécurité , incitant le modèle à produire du contenu nuisible, biaisé ou interdit.
- Fuites de données : Un LLM pourrait révéler involontairement des informations sensibles ou confidentielles provenant de ses données d'entraînement ou de ses systèmes connectés.
Pour atténuer ces problèmes, les équipes ont besoin de processus d'évaluation robustes qui vont au-delà des simples indicateurs de précision :
- Tester la robustesse des modèles avec des entrées adverses et des cas limites afin de déceler les vulnérabilités.
- Effectuez des tests d'intrusion et des évaluations de sécurité pour tester la résilience du modèle face aux incitations malveillantes.
- Surveillez en permanence les interactions en direct afin de détecter les problèmes émergents tels que les dérives, les fuites de données personnelles ou les sorties non sécurisées en production.
LLM méthodes d'évaluation
Les méthodes d'évaluation (référence 991259_2088) permettent de mesurer les performances d'un modèle de langage pour des tâches telles que le raisonnement, la synthèse et le dialogue. Elles utilisent des métriques statistiques (par exemple, BLEU, ROUGE) et des approches d'évaluation par un autre modèle, ce dernier évaluant la qualité, la sécurité et l'exactitude des faits. Il existe également des méthodes d'évaluation comportementales et dynamiques qui permettent de suivre l'évolution des modèles dans le temps et leur utilisation des outils.
Pour un aperçu plus approfondi des principales approches et de leurs défis, consultez notre article complet sur les méthodes d'évaluation LLM .
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.