Aucun résultat trouvé.

IA Modèles d'IA LLM

Le paysage de l'évaluation LLM avec des cadres de référence

mis à jour le Mai 22, 2026

Consultez notre normes éthiques

L'évaluation des modèles LLM nécessite des outils permettant d'analyser le raisonnement multi-tours, les performances en production et l'utilisation des outils. Nous avons consacré deux jours à l'examen des frameworks d'évaluation les plus utilisés pour les modèles LLM, qui fournissent des métriques structurées, des journaux et des traces afin d'identifier comment et quand un modèle s'écarte du comportement attendu. Plus précisément, nous avons :

Vérifié si les outils d'évaluation LLM prennent en charge l'analyse du suivi du comportement des agents et la surveillance de la production .
Outils regroupés par axe d'évaluation fonctionnelle .
Comparaison des capacités d'évaluation , des tests à un seul tour aux évaluations en situation réelle à plusieurs tours.

LLM paysage d'évaluation

Catégorie fonctionnelle	Outils	Objectif principal
Cadres d'évaluation de base LLM	OpenAI Evals, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI	Évaluer les sorties LLM en utilisant des métriques de qualité, d'exactitude et de cohérence.
Tests et optimisation rapides	Promptfoo, Humanloop, Opik	Concevoir, tester et optimiser les invites pour une meilleure sortie du modèle.
Évaluation spécifique au cadre	LangChain Évaluations, LangSmith, évaluation LlamaIndex	Évaluer LLMs dans des écosystèmes spécifiques comme LangChain ou LlamaIndex.
LLM observabilité et surveillance	Arize Phoenix, Langfuse, Langtrace AI, Lunaire	Surveillance et analyse continues des performances du modèle en production.

LLM capacités d'évaluation

Explication des capacités d'évaluation :

Passerelle IA (accès multi-modèles) : Capacité de la plateforme à évaluer plusieurs modèles de base via une interface API unifiée.
Évaluations en un seul tour : Mesure les performances du modèle sur des invites individuelles pour des indicateurs tels que l’exactitude, la factualité ou la cohérence.
Évaluations multi-tours : Permet d’évaluer des échanges conversationnels ou en plusieurs étapes afin de tester le raisonnement contextuel et la mémoire.
Évaluations hors ligne : Les évaluations hors ligne servent à vérifier les résultats de l’application LLM avant sa mise en production. Utilisez les évaluations hors ligne pour les contrôles CI/CD de votre application LLM.
Métriques personnalisées LLM : Permet de définir des métriques d’évaluation spécifiques au domaine ou à la tâche au-delà des méthodes de notation prédéfinies.

capacités de surveillance du comportement des agents et des outils

Les outils d’évaluation peuvent aider à détecter les comportements d’agents mal alignés, surtout si l’on élargit la définition de « l’évaluation » (pas seulement la demande ou la réponse, mais le comportement de l’agent au fil du temps, l’utilisation de l’outil, les effets secondaires).

Anthropic suggère que l'évaluation de la façon dont un modèle se comporte, et pas seulement de ce qu'il dit, pourrait devenir une dimension cruciale de la confiance et de la sécurité dans les systèmes d'IA de nouvelle génération. ¹

Si vous êtes intéressé par la surveillance de la production, l'évaluation au niveau du système, vous pouvez passer à la section LLM frameworks d'observabilité avec capacités d'évaluation .
Lisez LLM plateformes d'observabilité et d'évaluation pour en savoir plus.
Si vous utilisez RAG ou des agents d'achèvement de tâches, nous avons un guide séparé sur l'évaluation des agents .

Cadres d'évaluation de base LLM

OpenAI Évaluation

OpenAI Evals est un cadre d'évaluation open-source développé par OpenAI pour évaluer systématiquement les performances des grands modèles de langage (LLMs).

Il s'agit d'une infrastructure d'évaluation à usage général qui permet aux utilisateurs de mesurer la qualité des modèles sur une grande variété de tâches ; de la génération et du raisonnement de texte à la génération de sorties structurées comme du code ou du SQL.

Voici un exemple de pipeline d'évaluation construit avec OpenAI Evals, conçu pour évaluer la capacité d'un modèle à générer des requêtes SQL syntaxiquement correctes. L'évaluation utilise des données synthétiques générées avec GPT-4 et une configuration YAML personnalisée pour enregistrer l'évaluation dans le framework :

Source : OpenAI ²

DeepEval

Il s'agit d'un framework Python-first souvent décrit comme « pytest pour LLMs ». Il se distingue par son vaste ensemble de métriques basées sur la recherche et sa capacité à tester des pipelines complets ou des composants isolés.

Voici un exemple d'évaluation de trace, représentant une exécution unique de l'application LLM. L'exécution d'évaluations sur les traces permet une évaluation de bout en bout du comportement du modèle, similaire aux évaluations ponctuelles effectuées lors du développement :

Source : ConfidentAI ³

MLflow (LLM Évaluation)

Il étend MLflow à l'évaluation LLM. Son principal atout réside dans le suivi des expériences et la comparaison directe entre les exécutions et les versions.

Voici un exemple de la vue comparative des évaluations de MLflow, qui affiche côte à côte les résultats de plusieurs exécutions. Dans ce cas précis, le score de concision a progressé de 33 %, tandis que la couverture conceptuelle a diminué de 11 %.

Source : MLflow ⁴

Ragas

AS (Retrieval-Augmented Generation Assessment Suite) est un framework d'évaluation open source conçu spécifiquement pour mesurer les performances des applications de génération augmentée par la recherche (GAR) et des applications agentiques. Il offre un environnement d'expérimentation léger, comparable à l'utilisation de pandas pour l'analyse rapide des données.

RAGAS évalue l'efficacité avec laquelle un système récupère et intègre le contexte pertinent dans ses réponses générées. Il utilise pour cela un ensemble de métriques validées par la recherche, notamment :

Fidélité : dans quelle mesure la réponse générée reflète fidèlement le contexte récupéré.
Pertinence contextuelle : dans quelle mesure les documents récupérés sont pertinents par rapport à la requête.
Pertinence de la réponse : dans quelle mesure la réponse générée est pertinente par rapport à la question de l’utilisateur.
Rappel contextuel et précision contextuelle : avec quelle précision et exhaustivité les informations pertinentes sont récupérées.

Ces indicateurs se combinent pour produire un score global RAG, qui quantifie la qualité de la récupération et de la génération. Outre RAG, RAGAS prend désormais en charge des indicateurs pour les flux de travail d'agents, l'utilisation d'outils, l'évaluation SQL et même les tâches multimodales grâce à des extensions telles que la fidélité multimodale et la sensibilité au bruit .

RAGAS introduit également de nouvelles métriques au fil du temps, disponibles dans le dépôt GitHub RAGAS ici .

Voici une analyse de la distribution des scores par RAGAS :

Source : RAGAS ⁵

TruLens

TruLens est une bibliothèque open source conçue pour l'analyse qualitative des sorties LLM. Son fonctionnement repose sur l'injection de fonctions de rétroaction qui s'exécutent après chaque appel de modèle afin d'évaluer la réponse. Elle est particulièrement adaptée à l'analyse du raisonnement et à l'évaluation qualitative, et pas seulement à la mesure de la précision.

Au-delà des tests de précision, TruLens prend en charge l'évaluation éthique et comportementale :

Deepchecks (LLM)

Deepchecks (LLM) est un framework d'évaluation open source initialement conçu pour la validation de modèles d'apprentissage automatique, désormais étendu aux grands modèles de langage (LLMs) et aux applications RAG. Il propose des modules spécifiquement adaptés à l'évaluation des pipelines de recherche basés sur LLM.

Deepchecks (LLM) se distingue par son orientation vers les métriques d'évaluation et les pipelines d'automatisation :

Agent-en-tant-que-juge
RAG évaluation
LLM cadre d'évaluation
pipelines CI/CD

Voici un exemple de cas d'utilisation de questions-réponses où le modèle répond à une question médicale concernant la douleur liée à la GVHD.

Source : Deepchecks ⁶

Inspecter l'IA

Inspect AI est un framework d'évaluation open source (991259_2088) conçu pour les évaluations de niveau recherche. Il prend en charge l'évaluation au niveau du modèle et de l'agent, permettant ainsi aux utilisateurs d'évaluer non seulement les résultats d'un modèle à une seule étape, mais aussi le comportement de l'agent sur plusieurs étapes, les chaînes de raisonnement et l'exécution des tâches au fil du temps.

Ce framework est facile à mettre en place dans des environnements isolés tels que des conteneurs Docker ou des machines virtuelles, ce qui le rend idéal pour évaluer en toute sécurité les flux de travail automatisés sans exposer le système hôte. Inspect propose un modèle clair de définition et d'exécution des tâches, permettant aux utilisateurs de définir rapidement les tâches d'évaluation, de contrôler la taille des échantillons (par exemple, pour les normes statistiques de type CI) et d'intégrer les évaluations dans des pipelines automatisés.

Inspect fournit également des journaux d'évaluation détaillés, étape par étape, incluant la latence et l'utilisation des jetons pour chaque étape, ainsi qu'un rapport sur les actions et les appels d'outils. Ce niveau de granularité facilite le diagnostic des écarts de comportement d'un modèle ou d'un agent par rapport aux attentes.

Un autre atout d'Inspect AI est qu'il est conçu pour une évaluation hors ligne, privilégiant l'exactitude, la transparence et la reproductibilité par rapport aux fonctionnalités de télémétrie en temps réel.

Tests et optimisation rapides

Promptfoo

Promptfoo est une boîte à outils open source pour la conception, le test et l'évaluation des invites. Elle permet les tests A/B des invites et des sorties LLM à l'aide de configurations YAML ou en ligne de commande simples et prend en charge les évaluations LLM-as-a-juge.

Cet ensemble d'outils est conçu pour l'expérimentation légère, sans configuration cloud ni dépendances SDK. Il est largement utilisé par les développeurs pour l'itération rapide et les tests de robustesse automatisés (injection de code ou vérification de toxicité, par exemple). Idéal pour intégrer l'évaluation rapide aux flux de travail de développement quotidiens.

Boucle humaine

Humanloop est une plateforme d'évaluation et d'optimisation rapide centrée sur le retour d'information humain. Elle permet aux équipes de recueillir et d'analyser les avis humains sur les résultats de LLM, contribuant ainsi à améliorer la qualité, l'adéquation aux modèles et la fiabilité des processus.

Opik (par Comet)

Opik est une plateforme open source d'évaluation et de surveillance développée par Comet. Elle fournit des outils pour suivre, évaluer et surveiller les applications tout au long de leur cycle de vie, du développement à la production.

Opik enregistre des traces complètes et des étendues de flux de travail d'invite, prend en charge des métriques automatisées (y compris des métriques complexes comme l'exactitude factuelle via LLM-as-a-judge) et permet la comparaison des performances entre les versions d'invite ou de modèle.

Sa particularité réside dans l'association d'une évaluation rapide avec la gestion et l'observabilité des expériences, comblant ainsi le fossé entre les tests et le suivi de la production.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Évaluation spécifique au cadre

LangChain Évaluations

Evals est un outil d'évaluation spécifique au framework pour les workflows. Il fournit un ensemble de modèles d'évaluation et de métriques intégrés, conçus pour évaluer les performances des applications, notamment celles impliquant des chaînes complexes de processus.

LangSmith

LangSmith est une plateforme d'évaluation et d'observabilité développée par l'équipe LangChain. Elle fournit des outils pour l'enregistrement et l'analyse des interactions LLM, avec des capacités d'évaluation spécialisées pour des tâches telles que la détection des biais et les tests de sécurité.

Il s'agit d'un service géré (hébergé) plutôt que d'un outil entièrement open-source, offrant un support de niveau entreprise pour les applications basées sur LangChain.

Évaluation de l'indice Llama

LlamaIndex Eval est un outil d'évaluation intégré au framework LlamaIndex (anciennement GPT Index), permettant d'évaluer les pipelines construits sur LlamaIndex. Il comprend un évaluateur de correction qui compare les réponses générées aux réponses de référence pour une requête donnée et peut également utiliser LlamaIndex comme juge pour évaluer la qualité des réponses indépendamment de toute référence.

Sa fonctionnalité est similaire à RAGAS, mais elle est nativement intégrée au flux de travail LlamaIndex, permettant aux développeurs d'évaluer la qualité de la récupération et de la génération sans introduire de dépendances externes.

LLM cadres d'observabilité avec capacités d'évaluation

Arize Phoenix

Phoenix, développé par Arize AI (une entreprise spécialisée dans l'observabilité du ML), est une boîte à outils open source permettant d'analyser et de résoudre les problèmes de comportement dans les environnements de production. Contrairement aux frameworks d'évaluation traditionnels, Phoenix privilégie l'observabilité et l'analyse exploratoire plutôt que les métriques prédéfinies.

Phoenix peut être utilisé pour surveiller les systèmes déployés RAG ou LLM, puis se tourner vers des frameworks comme RAGAS ou Giskard pour une évaluation plus approfondie au niveau des métriques des problèmes identifiés.

Langfuse

Langfuse se concentre principalement sur la surveillance des systèmes LLM (Large Language Model) et RAG (Retrieval-Augmented Generation). Il aide les équipes à suivre et à analyser les performances des modèles en environnement de production réel.

Bien qu'il puisse évaluer les performances des modèles à l'aide de diverses métriques, son principal atout réside dans sa capacité à observer le comportement des pipelines LLM et RAG en cours d'exécution. Cela inclut le suivi des performances des sorties LLM, de la qualité de la récupération et de la dérive des modèles, garantissant ainsi que ces derniers continuent de respecter les normes de qualité lorsqu'ils interagissent avec des ensembles de données dynamiques ou évoluent au fil du temps.

Langtrace IA

Langtrace AI est spécialisée dans l'évaluation des applications LLM grâce à la capture de traces détaillées et de métriques de performance. Elle propose des outils de surveillance des aspects clés tels que l'utilisation des jetons, la latence, la précision et le coût, offrant ainsi une vue d'ensemble du comportement et des performances du modèle.

Lunaire

Lunary se spécialise dans la fourniture d'une observabilité approfondie des interactions LLM, permettant aux développeurs de surveiller et d'évaluer le comportement du modèle dans des environnements de production en temps réel.

Métriques d'évaluation LLM

Les métriques d'évaluation LLM ont évolué, passant des systèmes de notation statistiques traditionnels aux approches basées sur des modèles et maintenant aux approches LLM-en-tant-que-juge. Voici une brève explication pour chacune d'elles :

Les systèmes d'évaluation statistique (basés sur une référence) : des métriques comme l'exactitude, la précision, le rappel, le score F1, le BLEU et le ROUGE mesurent la similarité avec une réponse de référence. Ils fonctionnent bien pour les tâches structurées (par exemple, la classification, la synthèse) mais peinent à traiter les réponses ouvertes.
Systèmes d'évaluation basés sur un modèle (sans référence) : des métriques telles que Supert, BLANC, SummaC ou QAFactEval évaluent la qualité du texte, sa factualité ou sa cohérence logique sans références exactes.
LLM-scorers (LLM-as-a-judge) : Les évaluations utilisent un autre modèle (par exemple, GPT-5 ) pour évaluer la qualité de la réponse dans son contexte.

Pour en savoir plus, consultez : Évaluations Agentic : Comment évaluons-nous les applications LLM ?

Pourquoi les évaluations LLM sont-elles difficiles ?

L'évaluation de LLMs est loin d'être simple. Outre le fait que les critères de qualité varient selon le cas d'utilisation, le processus d'évaluation lui-même est fondamentalement différent des tests logiciels traditionnels ou de l'évaluation prédictive en apprentissage automatique.

L'une des principales difficultés réside dans le non-déterminisme : les LLMs génèrent des sorties probabilistes, de sorte que la même entrée peut produire des réponses différentes à chaque fois, ce qui rend la cohérence et la reproductibilité plus difficiles à mesurer.

Source de l'image : AI World ⁷

Bien que la nature probabiliste de LLMs permette des réponses créatives et diversifiées , elle rend également les tests plus difficiles ; vous devez déterminer si une gamme de résultats répond toujours aux attentes plutôt que de vérifier une seule réponse correcte.

Il n'existe pas de vérité absolue : les systèmes de réponse aux questions ouvertes (par exemple, LLM) traitent souvent des tâches complexes comme la rédaction, la synthèse ou la conversation. Dans ces cas, plusieurs réponses valides peuvent exister. L'évaluation de tels systèmes nécessite de mesurer la similarité sémantique, le ton, le style ou l'exactitude factuelle, et non pas seulement la correspondance avec un texte de référence.

Diversité des entrées : les applications LLM sont confrontées à une grande variété d’entrées ; par exemple, un chatbot de support client peut traiter des questions relatives aux retours, à la facturation ou à la sécurité des comptes. Une évaluation efficace nécessite des ensembles de tests basés sur des scénarios qui rendent compte de cette diversité.

Même des tests hors ligne bien conçus peuvent échouer lors d'un déploiement en conditions réelles, où les utilisateurs introduisent des requêtes inattendues et des cas limites. Ceci souligne la nécessité d' une évaluation et d'une observabilité continues en production afin de garantir une qualité de modèle constante dans le temps.

Risques uniques dans l'évaluation LLM

Travailler avec des systèmes probabilistes qui suivent des instructions introduit des risques nouveaux et complexes que l'évaluation traditionnelle de l'IA couvre rarement :

Hallucinations : Le modèle peut générer des faits faux ou trompeurs, par exemple en inventant des produits, en citant des sources inexistantes ou en fournissant des conseils médicaux ou juridiques incorrects.
Jailbreaks : des utilisateurs malveillants peuvent exploiter des invites pour contourner les contraintes de sécurité , incitant le modèle à produire du contenu nuisible, biaisé ou interdit.
Fuites de données : Un LLM pourrait révéler involontairement des informations sensibles ou confidentielles provenant de ses données d'entraînement ou de ses systèmes connectés.

Pour atténuer ces problèmes, les équipes ont besoin de processus d'évaluation robustes qui vont au-delà des simples indicateurs de précision :

Tester la robustesse des modèles avec des entrées adverses et des cas limites afin de déceler les vulnérabilités.
Effectuez des tests d'intrusion et des évaluations de sécurité pour tester la résilience du modèle face aux incitations malveillantes.
Surveillez en permanence les interactions en direct afin de détecter les problèmes émergents tels que les dérives, les fuites de données personnelles ou les sorties non sécurisées en production.

LLM méthodes d'évaluation

Les méthodes d'évaluation (référence 991259_2088) permettent de mesurer les performances d'un modèle de langage pour des tâches telles que le raisonnement, la synthèse et le dialogue. Elles utilisent des métriques statistiques (par exemple, BLEU, ROUGE) et des approches d'évaluation par un autre modèle, ce dernier évaluant la qualité, la sécurité et l'exactitude des faits. Il existe également des méthodes d'évaluation comportementales et dynamiques qui permettent de suivre l'évolution des modèles dans le temps et leur utilisation des outils.

Pour un aperçu plus approfondi des principales approches et de leurs défis, consultez notre article complet sur les méthodes d'évaluation LLM .

Liens de référence

SHADE-Arena: Evaluating Sabotage and Monitoring in LLM Agents \ Anthropic

Getting Started with OpenAI Evals

LLM Tracing Quickstart | Confident AI Docs

LLM Tracing Quickstart | Confident AI Docs

Compare LLMs using Ragas Evaluations - Ragas

Compare Between Versions

Why LLMs Can't Give the Same Answer Twice / AI World

Cem Dilmegani

Analyste principal

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

À lire ensuite

AI AgentsMai 22

Analyse comparative des LLM d'Agentic : Comparaison des 13 meilleurs LLM

Berk Kalelioğlu

Outils d'observabilité LLM : Poids et biais, Langsmith

Matériel d'IAAvr 24

Moteurs d'inférence LLM : vLLM vs LMDeploy vs SGLang

Automatisation LLM : 7 outils incontournables et 8 études de cas

LCM : De la tokenisation LLM à la représentation au niveau conceptuel

Mémoire IAFév 22

Les meilleurs LLM pour les fenêtres de contexte étendues en 2026