Contactez-nous
Aucun résultat trouvé.

Le paysage de l'évaluation des LLM avec des cadres de référence

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 8, 2026
Consultez notre normes éthiques

L'évaluation des modèles de raisonnement logique (LLM) nécessite des outils permettant d'analyser le raisonnement multi-tours, les performances en production et l'utilisation de l'outil. Nous avons consacré deux jours à l'examen des cadres d'évaluation de LLM les plus courants, qui fournissent des métriques structurées, des journaux et des traces afin d'identifier comment et quand un modèle s'écarte du comportement attendu. Plus précisément, nous avons :

paysage d'évaluation des LLM

Catégorie fonctionnelle
Outils
Objectif principal
OpenAI Évaluations, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI
Évaluer les résultats du LLM à l'aide de métriques de qualité, d'exactitude et de cohérence.
Promptfoo, Humanloop, Opik
Concevoir, tester et optimiser les invites pour une meilleure sortie du modèle.
Évaluations de LangChain, LangSmith, Évaluation de LlamaIndex
Évaluer les LLM au sein d'écosystèmes spécifiques comme LangChain ou LlamaIndex.
Arize Phoenix, Langfuse, Langtrace AI, Lunaire
Surveillance et analyse continues des performances du modèle en production.

capacités d'évaluation des LLM

Explication des capacités d'évaluation :

  • Passerelle IA (accès multi-modèles) : Capacité de la plateforme à évaluer plusieurs modèles de base via une interface API unifiée.
  • Évaluations en un seul tour : Mesure les performances du modèle sur des invites individuelles pour des indicateurs tels que l’exactitude, la factualité ou la cohérence.
  • Évaluations multi-tours : Permet d’évaluer des échanges conversationnels ou en plusieurs étapes afin de tester le raisonnement contextuel et la mémoire.
  • Évaluations hors ligne : Les évaluations hors ligne servent à vérifier les résultats de l’application LLM avant sa mise en production. Utilisez-les pour les contrôles CI/CD de votre application LLM.
  • Métriques LLM personnalisées : Permet de définir des métriques d’évaluation spécifiques à un domaine ou à une tâche, au-delà des méthodes de notation prédéfinies.

capacités de surveillance du comportement des agents et des outils

Les outils d’évaluation peuvent aider à détecter les comportements d’agents mal alignés, surtout si l’on élargit la définition de « l’évaluation » (pas seulement la demande ou la réponse, mais le comportement de l’agent au fil du temps, l’utilisation de l’outil, les effets secondaires).

Anthropic suggère que l'évaluation de la façon dont un modèle se comporte, et pas seulement de ce qu'il dit, pourrait devenir une dimension cruciale de la confiance et de la sécurité dans les systèmes d'IA de nouvelle génération. 1

cadres d'évaluation fondamentaux des LLM

OpenAI Évaluation

OpenAI Evals est un cadre d'évaluation open-source développé par OpenAI pour évaluer systématiquement les performances des grands modèles de langage (LLM).

Il s'agit d'une infrastructure d'évaluation à usage général qui permet aux utilisateurs de mesurer la qualité des modèles sur une grande variété de tâches ; de la génération et du raisonnement de texte à la génération de sorties structurées comme du code ou du SQL.

Voici un exemple de pipeline d'évaluation construit avec OpenAI Evals, conçu pour évaluer la capacité d'un modèle à générer des requêtes SQL syntaxiquement correctes. L'évaluation utilise des données synthétiques générées avec GPT-4 et une configuration YAML personnalisée pour enregistrer l'évaluation dans le framework :

Source : OpenAI 2

DeepEval

Il s'agit d'un framework principalement basé sur Python, souvent décrit comme « pytest pour les masters en droit ». Il se distingue par son vaste ensemble de métriques validées par la recherche et sa capacité à tester des pipelines complets ou des composants isolés.

Voici un exemple d'évaluation de trace, représentant une exécution unique d'une application LLM. L'exécution d'évaluations sur les traces permet une évaluation de bout en bout du comportement du modèle, similaire aux évaluations ponctuelles réalisées lors du développement :

Source : ConfidentAI 3

MLflow (Évaluation LLM)

Il étend MLflow à l'évaluation des modèles de langage naturel (LLM). Son principal atout réside dans le suivi des expériences et la comparaison directe entre les différentes exécutions et versions.

Voici un exemple de la vue comparative des évaluations de MLflow, qui affiche côte à côte les résultats de plusieurs exécutions. Dans ce cas précis, le score de concision a progressé de 33 %, tandis que la couverture conceptuelle a diminué de 11 %.

Source : MLflow 4

Ragas

RAGAS (Retrieval-Augmented Generation Assessment Suite) est un framework d'évaluation open source conçu spécifiquement pour mesurer les performances des applications de génération augmentée par la recherche (RAG) et de modélisation linguistique active. Il offre un environnement d'expérimentation léger, comparable à l'utilisation de pandas pour l'analyse rapide des données.

RAGAS évalue l'efficacité avec laquelle un système récupère et intègre le contexte pertinent dans ses réponses générées. Il utilise pour cela un ensemble de métriques validées par la recherche, notamment :

  • Fidélité : dans quelle mesure la réponse générée reflète fidèlement le contexte récupéré.
  • Pertinence contextuelle : dans quelle mesure les documents récupérés sont pertinents par rapport à la requête.
  • Pertinence de la réponse : dans quelle mesure la réponse générée est pertinente par rapport à la question de l’utilisateur.
  • Rappel contextuel et précision contextuelle : avec quelle précision et exhaustivité les informations pertinentes sont récupérées.

Ces indicateurs se combinent pour produire un score RAG global, qui quantifie la qualité de la récupération et de la génération. Outre le score RAG, RAGAS prend désormais en charge des indicateurs pour les flux de travail multimodaux, l'utilisation d'outils, l'évaluation SQL et même les tâches multimodales grâce à des extensions telles que la fidélité multimodale et la sensibilité au bruit .

RAGAS introduit également de nouvelles métriques au fil du temps, disponibles dans le dépôt GitHub de RAGAS ici .

Voici une analyse de la distribution des scores par RAGAS :

Source : RAGAS 5

TruLens

TruLens est une bibliothèque open source conçue pour l'analyse qualitative des résultats des modèles linéaires. Son fonctionnement repose sur l'injection de fonctions de rétroaction qui s'exécutent après chaque appel de modèle afin d'évaluer la réponse. Elle est particulièrement adaptée à l'analyse du raisonnement et à l'évaluation qualitative, et pas seulement à la mesure de la précision.

Au-delà des tests de précision, TruLens prend en charge l'évaluation éthique et comportementale :

Deepchecks (LLM)

Deepchecks (LLM) est un framework d'évaluation open source initialement conçu pour la validation de modèles d'apprentissage automatique, et désormais étendu aux grands modèles de langage (LLM) et aux applications RAG. Il propose des modules spécifiquement adaptés à l'évaluation des pipelines de recherche basés sur les LLM.

Deepchecks (LLM) se distingue par son orientation vers les métriques d'évaluation et les pipelines d'automatisation :

  • Agent-en-tant-que-juge
  • Évaluation RAG
  • cadre d'évaluation du LLM
  • pipelines CI/CD

Voici un exemple de cas d'utilisation de questions-réponses où le modèle répond à une question médicale concernant la douleur liée à la GVHD.

Source : Deepchecks 6

Inspecter l'IA

Inspect AI est un framework d'évaluation open source pour les modèles d'apprentissage automatique (LLM), conçu pour les évaluations de niveau recherche. Il prend en charge l'évaluation au niveau du modèle et au niveau de l'agent, permettant ainsi aux utilisateurs d'évaluer non seulement les résultats d'un modèle à une étape donnée, mais aussi le comportement de l'agent sur plusieurs étapes, les chaînes de raisonnement et l'exécution des tâches au fil du temps.

Ce framework est facile à mettre en place dans des environnements isolés tels que des conteneurs Docker ou des machines virtuelles, ce qui le rend idéal pour évaluer en toute sécurité les flux de travail automatisés sans exposer le système hôte. Inspect propose un modèle clair de définition et d'exécution des tâches, permettant aux utilisateurs de définir rapidement les tâches d'évaluation, de contrôler la taille des échantillons (par exemple, pour les normes statistiques de type CI) et d'intégrer les évaluations dans des pipelines automatisés.

Inspect fournit également des journaux d'évaluation détaillés, étape par étape, incluant la latence et l'utilisation des jetons pour chaque étape, ainsi qu'un rapport sur les actions et les appels d'outils. Ce niveau de granularité facilite le diagnostic des écarts de comportement d'un modèle ou d'un agent par rapport aux attentes.

Un autre atout d'Inspect AI est qu'il est conçu pour une évaluation hors ligne, privilégiant l'exactitude, la transparence et la reproductibilité par rapport aux fonctionnalités de télémétrie en temps réel.

Tests et optimisation rapides

Promptfoo

Promptfoo est une boîte à outils open source pour la conception, le test et l'évaluation des invites. Elle permet les tests A/B des invites et des résultats LLM à l'aide de configurations YAML ou en ligne de commande simples et prend en charge les évaluations LLM en tant que juge.

Cet ensemble d'outils est conçu pour l'expérimentation légère, sans configuration cloud ni dépendances SDK. Il est largement utilisé par les développeurs pour l'itération rapide et les tests de robustesse automatisés (injection de code ou vérification de toxicité, par exemple). Idéal pour intégrer l'évaluation rapide aux flux de travail de développement quotidiens.

Boucle humaine

Humanloop est une plateforme d'évaluation et d'optimisation rapide axée sur le retour d'information humain. Elle permet aux équipes de recueillir et d'analyser les avis humains sur les résultats des modèles de modélisation linguistique (LLM), contribuant ainsi à améliorer la qualité, l'adéquation et la fiabilité des processus.

Opik (par Comet)

Opik est une plateforme open source d'évaluation et de surveillance des applications LLM développée par Comet. Elle fournit des outils permettant de suivre, d'évaluer et de surveiller les applications LLM tout au long de leur cycle de vie, du développement à la production.

Opik enregistre des traces complètes et des plages de flux de travail d'invite, prend en charge des métriques automatisées (y compris des métriques complexes comme l'exactitude factuelle via LLM-as-a-judge) et permet la comparaison des performances entre les versions d'invite ou de modèle.

Sa particularité réside dans l'association d'une évaluation rapide avec la gestion et l'observabilité des expériences, comblant ainsi le fossé entre les tests et le suivi de la production.

Évaluation spécifique au cadre

Évaluations de LangChain

LangChain Evals est un outil d'évaluation spécifique au framework LangChain. Il fournit un ensemble de modèles d'évaluation et de métriques intégrés, conçus pour évaluer les performances des applications LangChain, notamment celles impliquant des chaînes complexes de LLM.

LangSmith

LangSmith est une plateforme d'évaluation et d'observabilité développée par l'équipe LangChain. Elle fournit des outils pour l'enregistrement et l'analyse des interactions LLM, avec des capacités d'évaluation spécialisées pour des tâches telles que la détection des biais et les tests de sécurité.

Il s'agit d'un service géré (hébergé) plutôt que d'un outil entièrement open source, offrant un support de niveau entreprise pour les applications basées sur LangChain.

Évaluation de l'indice Llama

LlamaIndex Eval est un outil d'évaluation intégré au framework LlamaIndex (anciennement GPT Index), permettant d'évaluer les pipelines RAG construits sur LlamaIndex. Il comprend un évaluateur de correction qui compare les réponses générées aux réponses de référence pour une requête donnée et peut également utiliser GPT-5 comme juge pour évaluer la qualité des réponses de manière indépendante des références.

Sa fonctionnalité est similaire à celle de RAGAS, mais elle est nativement intégrée au flux de travail de LlamaIndex, permettant aux développeurs d'évaluer la qualité de la récupération et de la génération sans introduire de dépendances externes.

Cadres d'observabilité LLM dotés de capacités d'évaluation

Arize Phoenix

Phoenix, développé par Arize AI (une entreprise spécialisée dans l'observabilité du ML), est une boîte à outils open source permettant d'analyser et de résoudre les problèmes de comportement des modèles de ML en environnement de production. Contrairement aux frameworks d'évaluation traditionnels, Phoenix privilégie l'observabilité et l'analyse exploratoire plutôt que les métriques prédéfinies.

Phoenix peut être utilisé pour surveiller les systèmes RAG ou LLM déployés, puis se tourner vers des cadres comme RAGAS ou Giskard pour une évaluation plus approfondie au niveau des métriques des problèmes identifiés.

Langfuse

Langfuse se concentre principalement sur la surveillance des systèmes LLM (Large Language Model) et RAG (Retrieval-Augmented Generation). Il aide les équipes à suivre et à analyser les performances des modèles en environnement de production réel.

Bien qu'il permette d'évaluer les performances des modèles à l'aide de diverses métriques, son principal atout réside dans sa capacité à observer le comportement des pipelines LLM et RAG en cours d'exécution. Cela inclut le suivi des performances des sorties LLM, de la qualité de la récupération et de la dérive des modèles, garantissant ainsi que ces derniers continuent de respecter les normes de qualité lorsqu'ils interagissent avec des ensembles de données dynamiques ou évoluent au fil du temps.

Langtrace IA

Langtrace AI est spécialisée dans l'évaluation des applications LLM grâce à la capture de traces détaillées et de métriques de performance. Elle propose des outils de surveillance d'aspects clés tels que l'utilisation des jetons, la latence, la précision et le coût, offrant ainsi une vue d'ensemble complète du comportement et des performances du modèle.

lunaire

Lunary est spécialisée dans la fourniture d'une observabilité approfondie des interactions LLM, permettant aux développeurs de surveiller et d'évaluer le comportement du modèle dans des environnements de production en temps réel.

Métriques d'évaluation du LLM

Les méthodes d'évaluation des LLM ont évolué, passant des systèmes de notation statistiques traditionnels aux approches basées sur des modèles, puis aux approches où le LLM est considéré comme un juge. Voici une brève explication pour chacune d'elles :

  • Les systèmes d'évaluation statistique (basés sur une référence) : des métriques comme l'exactitude, la précision, le rappel, le score F1, le BLEU et le ROUGE mesurent la similarité avec une réponse de référence. Ils fonctionnent bien pour les tâches structurées (par exemple, la classification, la synthèse) mais peinent à traiter les réponses ouvertes.
  • Systèmes d'évaluation basés sur un modèle (sans référence) : des métriques telles que Supert, BLANC, SummaC ou QAFactEval évaluent la qualité du texte, sa factualité ou sa cohérence logique sans références exactes.
  • Évaluateurs basés sur le LLM (LLM en tant que juge) : Les évaluations utilisent un autre modèle (par exemple, GPT-5 ) pour évaluer la qualité de la réponse dans son contexte.

Pour en savoir plus, consultez : Évaluations Agentic : Comment évaluons-nous les candidatures LLM ?

Pourquoi les évaluations de LLM sont difficiles

L'évaluation des modèles d'apprentissage automatique (LLM) est loin d'être simple. Outre le fait que les critères de qualité varient selon le cas d'utilisation, le processus d'évaluation lui-même est fondamentalement différent des tests logiciels traditionnels ou de l'évaluation prédictive de l'apprentissage automatique.

L'une des principales difficultés réside dans le non-déterminisme : les modèles linéaires à longue portée (LLM) génèrent des résultats probabilistes, de sorte qu'une même entrée peut produire des réponses différentes à chaque fois, ce qui rend la cohérence et la reproductibilité plus difficiles à mesurer.

Source de l'image : AI World 7

Si la nature probabiliste des LLM permet des réponses créatives et diversifiées , elle rend également les tests plus difficiles ; il faut déterminer si un éventail de résultats répond toujours aux attentes plutôt que de vérifier une seule réponse correcte.

Il n'existe pas de vérité absolue : les systèmes de gestion de l'apprentissage (LLM) traitent souvent de tâches ouvertes comme la rédaction, la synthèse ou la conversation. Dans ces cas, plusieurs réponses valides peuvent coexister. L'évaluation de tels systèmes nécessite de mesurer la similarité sémantique, le ton, le style ou l'exactitude factuelle, et non pas seulement la correspondance avec un texte de référence.

Diversité des entrées : les applications LLM sont confrontées à une grande variété d’entrées ; par exemple, un chatbot de support client peut traiter des questions relatives aux retours, à la facturation ou à la sécurité des comptes. Une évaluation efficace nécessite des ensembles de tests basés sur des scénarios qui rendent compte de cette diversité.

Même des tests hors ligne bien conçus peuvent échouer lors d'un déploiement en conditions réelles, où les utilisateurs introduisent des requêtes inattendues et des cas limites. Ceci souligne la nécessité d' une évaluation et d'une observabilité continues en production afin de garantir une qualité de modèle constante dans le temps.

Risques uniques dans l'évaluation LLM

Travailler avec des systèmes probabilistes qui suivent des instructions introduit des risques nouveaux et complexes que l'évaluation traditionnelle de l'IA couvre rarement :

  • Hallucinations : Le modèle peut générer des faits faux ou trompeurs, par exemple en inventant des produits, en citant des sources inexistantes ou en fournissant des conseils médicaux ou juridiques incorrects.
  • Jailbreaks : des utilisateurs malveillants peuvent exploiter des invites pour contourner les contraintes de sécurité , incitant le modèle à produire du contenu nuisible, biaisé ou interdit.
  • Fuites de données : Un LLM peut révéler involontairement des informations sensibles ou confidentielles provenant de ses données de formation ou de ses systèmes connectés.

Pour atténuer ces problèmes, les équipes ont besoin de processus d'évaluation robustes qui vont au-delà des simples indicateurs de précision :

  • Tester la robustesse des modèles avec des entrées adverses et des cas limites afin de déceler les vulnérabilités.
  • Effectuez des tests d'intrusion et des évaluations de sécurité pour tester la résilience du modèle face aux incitations malveillantes.
  • Surveillez en permanence les interactions en direct afin de détecter les problèmes émergents tels que les dérives, les fuites de données personnelles ou les sorties non sécurisées en production.

méthodes d'évaluation du LLM

Les méthodes d'évaluation des modèles de langage permettent de mesurer leurs performances dans des tâches telles que le raisonnement, la synthèse et le dialogue. Elles vont des métriques statistiques (BLEU, ROUGE, etc.) aux approches d'évaluation par un autre modèle, où ce dernier évalue la qualité, la sécurité et l'exactitude des faits. Il existe également des méthodes d'évaluation comportementales et dynamiques qui analysent l'évolution des modèles dans le temps et leur utilisation des outils.

Pour un aperçu plus détaillé des principales approches et de leurs défis, consultez notre article complet sur les méthodes d'évaluation des LLM .

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450