RAG (Retrieval-Augmented Generation) améliore les réponses des modèles linéaires à longue portée (LLM) en intégrant des sources de données externes. Nous avons comparé différents modèles d'intégration et testé séparément diverses tailles de segments afin de déterminer les combinaisons les plus performantes pour les systèmes RAG.
Explorez les principaux cadres et outils RAG , découvrez ce qu'est le RAG, comment il fonctionne, ses avantages et son rôle dans le paysage actuel des LLM.
Résultats de référence RAG
Modèles d'intégration
Les performances des systèmes RAG dépendent fortement de la qualité des modèles d'intégration, car ceux-ci influencent directement la précision et l'efficacité du système dans la récupération des informations pertinentes.
Pour ce faire, nous avons évalué les performances de 4 modèles d'intégration :
Ces résultats montrent que Mistral Embed a atteint la plus grande précision dans notre test de référence, soulignant l'importance de choisir le bon modèle d'intégration pour les systèmes RAG.
L'intégration de données influe directement sur la pertinence des informations extraites et sur la précision des réponses générées. Pour comprendre notre processus d'évaluation, veuillez consulter notre méthodologie d'intégration.
Pour notre analyse comparative détaillée de la précision et du coût des principaux fournisseurs comme OpenAI, Gemini et Cohere, consultez notre analyse comparative complète des modèles d'intégration .
Taille des morceaux
Dans les systèmes RAG, la taille des segments détermine leur taille avant traitement. Ces segments sont ensuite convertis en vecteurs par des modèles d'intégration et stockés dans une base de données vectorielles . Lorsqu'une question est posée, le modèle extrait les segments les plus pertinents de cette base et génère une réponse à partir de ces informations.
Choisir la bonne combinaison de taille de segment et de modèle d'intégration est essentiel pour équilibrer la précision de la récupération et l'efficacité globale du système :
Les résultats des tests de performance mettent en évidence l'importance de la taille des segments dans les systèmes RAG. Cette taille influe directement sur la segmentation du texte et la qualité des informations extraites ; il est donc nécessaire de trouver un équilibre pour garantir un fonctionnement à la fois efficace et précis du système.
Les résultats indiquent qu'une taille de bloc de 512 jetons offre les meilleures performances, en équilibrant la précision et l'efficacité de la récupération.
Dans le test de taille des blocs, nous avons utilisé :
- Modèle d'intégration : OpenAI text-embedding-3-small
- Base de données vectorielles : Pinecone.
Méthodologie de référence pour la taille des blocs RAG
Cette étude visait spécifiquement à évaluer les performances des systèmes de génération augmentée par extraction (RAG). Afin de tester la capacité des systèmes RAG à extraire et générer des informations précises et pertinentes à partir d'une base de données vectorielles, nous avons constitué un jeu de données à partir d'articles de CNN News et formulé des questions. Les tests se sont concentrés sur l'examen de l'impact de paramètres critiques tels que la taille des segments et les modèles d'intégration.
- Les articles de CNN News ont été chargés dans une base de données vectorielle. Cette base de données a servi de source de connaissances pour le modèle LLM, garantissant ainsi que les réponses générées par le modèle étaient exclusivement basées sur les données fournies.
- Chaque réponse générée par le modèle linéaire a été comparée aux données de référence des articles sources. Cette comparaison a été effectuée automatiquement à l'aide d'un système d'évaluation de la précision, le taux de précision étant calculé en fonction de la correspondance exacte entre les réponses et les données des articles.
RAG vs. Fenêtre de contexte
RAG récupère des données externes pour les requêtes, tandis que les fenêtres de contexte traitent des quantités fixes de texte. Avec l'extension des fenêtres de contexte à des millions de jetons, certains s'interrogent sur la nécessité de RAG ; pourtant, nos résultats montrent qu'il continue d'offrir des avantages significatifs en termes de précision.
Nous avons comparé le RAG à une approche utilisant une fenêtre de contexte longue :
Pour la fenêtre de contexte :
Nous avons utilisé la longueur de contexte native de Llama 4 Scout.
Pour RAG :
- LLM : Llama 4 Scout
- Base de données vectorielles : Pinecone
- Modèle d'intégration : OpenAI text-embedding-3-large
- Taille du morceau : 512
RAG vs fenêtre contextuelle : raisons potentielles des différences de performance
Précision
RAG atteint une précision supérieure car il agit comme un filtre strict, éliminant 99 % du texte non pertinent avant son traitement par le LLM. Cette approche d'attention stricte et discriminative contraint le modèle à se concentrer uniquement sur les faits pertinents, réduisant ainsi le bruit et garantissant efficacement une précision élevée.
Dérive de l'attention
L'analyse contextuelle de longs documents a donné de faibles résultats en raison du phénomène de « perte d'informations au milieu », où l'attention du modèle se dilue naturellement dans les longs documents. Le modèle peine à prioriser un fait pertinent lorsqu'il est noyé parmi des dizaines de milliers d'éléments de texte sans rapport.
Pourquoi RAG reste efficace
Les systèmes RAG exploitent des bases de connaissances externes, telles que des bases de données vectorielles, pour extraire les informations les plus pertinentes pour une requête donnée. En segmentant les données en blocs et en les intégrant, Llama 4 a pu se concentrer sur des données de haute qualité et contextuellement pertinentes plutôt que de traiter un contexte complet et volumineux.
Cela évite l'encombrement de données non pertinentes qui surcharge souvent les modèles dans les scénarios à contexte long. RAG aide le modèle à maintenir sa clarté et à fournir des réponses plus précises en se concentrant sur des entrées plus petites et ciblées.
Dans les contextes de longue durée, les modèles ont souvent du mal à traiter et à hiérarchiser efficacement les informations, ce qui entraîne une baisse de leurs performances. 1
Les fenêtres de contexte longues peuvent-elles remplacer RAG ?
Les fenêtres de contexte longues permettent de traiter de grands ensembles de données en une seule opération. Cependant, leurs inconvénients pratiques, tels que les baisses de performance et l'inefficacité de calcul, font de RAG une option plus fiable pour les tâches exigeant une grande précision.
Les systèmes RAG relèvent ces défis en ajustant des paramètres tels que la taille des segments et les modèles d'intégration, trouvant ainsi un équilibre entre efficacité et performance. Les fenêtres de contexte offrent une vision limitée des données d'entrée, tandis que les systèmes RAG extraient des informations externes pertinentes pour améliorer la qualité de la réponse. De ce fait, les systèmes RAG sont mieux adaptés aux tâches nécessitant des connaissances actualisées ou spécifiques au domaine, allant au-delà des données d'entraînement internes du modèle.
Bien que les fenêtres de contexte puissent convenir à des tâches plus simples dans les limites de jetons du modèle, RAG est plus efficace lorsque des connaissances externes sont nécessaires.
Méthodologie pour l'évaluation comparative RAG vs. fenêtre de contexte
Nous avons évalué les performances de Llama 4 Scout selon deux approches : RAG et une fenêtre de contexte longue. Pour RAG, nous avons intégré Llama 4 Scout avec Pinecone comme base de données vectorielles, en utilisant le modèle OpenAI pour les plongements lexicaux et une taille de segment de 512.
Pour l'approche par fenêtre de contexte, nous avons utilisé exclusivement la longueur de contexte native de Llama 4 Scout, sans récupération externe. Les deux méthodes ont été évaluées à l'aide de notre jeu de données mentionné précédemment , la précision étant calculée comme le pourcentage de réponses correctes à un ensemble de requêtes.
Pourquoi le RAG est-il important maintenant ?
L'importance de la génération augmentée par la recherche (RAG) s'est accrue ces dernières années en raison du besoin croissant de systèmes d'IA capables de fournir des réponses précises, transparentes et contextuellement pertinentes. Cependant, les dirigeants d'entreprise ne connaissent peut-être pas ce terme, car la RAG est un domaine émergent (voir figure ci-dessous).
Alors que les entreprises et les développeurs cherchent à surmonter les limitations des modèles de langage de grande taille (LLM) traditionnels, telles que des connaissances obsolètes, un manque de transparence et des résultats hallucinatoires, RAG est apparu comme une solution essentielle.
Quels sont les modèles et outils RAG disponibles ?
Les modèles et outils de génération augmentée par la récupération (RAG) peuvent être divisés en trois catégories :
- Les LLM dotés de capacités RAG intégrées permettent d'améliorer la précision des réponses en accédant à des connaissances externes.
- Bibliothèques et frameworks RAG pouvant être appliqués aux LLM pour des implémentations personnalisées.
- Des composants , tels que des cadres d'intégration, des bases de données vectorielles et des modèles de récupération, qui peuvent être combinés entre eux ou avec de grands modèles de langage (LLM) pour construire des systèmes RAG.
LLM avec capacités RAG intégrées
Plusieurs LLM intègrent désormais une fonctionnalité RAG native pour améliorer leur précision et leur pertinence en récupérant des connaissances externes.
- Meta AI : Le modèle RAG de Meta AI intègre la recherche et la génération dans un cadre unique, utilisant Dense Passage Retrieval (DPR) pour la recherche et BART pour la génération. Ce modèle est disponible sur Hugging Face pour les tâches nécessitant une forte intensité de connaissances.
- Claude de Anthropic : Inclut une API de citations pour les modèles comme Claude 3.5 Sonnet et Haiku, permettant le référencement des sources.
- SuperRAG 2.0 de Mistral : Ce modèle offre une récupération avec intégration dans Mistral 8x7B v1.
- Cohere's Command R : Optimisé pour RAG avec prise en charge multilingue et citations, accessible via API ou poids du modèle Hugging Face.
- Gemini Embedding : Google's Gemini embedding model for RAG.
- Mistral Embed : Le modèle d'intégration de Mistral complète ses offres LLM en produisant des intégrations vectorielles denses optimisées pour les tâches RAG.
- OpenAI Embeddings : OpenAI propose différents modèles d'embedding, tels que Embedding-3-Large, Embedding-3-Small et text-embedding-ada-002, chacun adapté à différents cas d'utilisation dans les tâches de traitement du langage naturel comme la génération augmentée par la récupération.
Bibliothèques et frameworks RAG
Ces outils permettent aux développeurs d'ajouter des fonctionnalités RAG aux LLM existants, offrant ainsi flexibilité et évolutivité.
- Haystack : Un framework de bout en bout développé par Deepset pour la construction de pipelines RAG, axé sur la recherche de documents et la réponse aux questions.
- LlamaIndex : Spécialisée dans l'ingestion et l'indexation de données, améliorant les LLM grâce à des systèmes de recherche.
- Weaviate : Une base de données vectorielles avec des fonctionnalités RAG, prenant en charge des flux de travail de recherche et de récupération évolutifs.
- DSPY : Un framework de programmation déclarative pour l'optimisation de RAG dans les grands modèles de langage.
- Pathway : Un cadre pour le déploiement à grande échelle de RAG avec connectivité des données.
- Azure Apprentissage automatique : Fournit des capacités RAG via Azure AI Studio et des pipelines d'apprentissage automatique.
- IBM watsonx.ai : Fournit des frameworks pour le développement d'applications qui facilitent la mise en œuvre de RAG avec de grands modèles de langage.
Pour une comparaison et une analyse plus détaillées, consultez notre analyse comparative des cadres RAG .
Cadres d'intégration pour RAG
Les frameworks d'intégration simplifient le développement d'applications contextuelles et de raisonnement basées sur les LLM. Ils offrent des composants modulaires et des chaînes préconfigurées adaptées à des besoins spécifiques, tout en permettant la personnalisation.
- LangChain : Un framework pour la création d'applications contextuelles, couramment utilisé avec RAG et LLM.
- Dust : Facilite la création d'assistants IA personnalisés grâce à la recherche sémantique et à la prise en charge RAG, améliorant ainsi les applications LLM.
Les utilisateurs peuvent associer ces frameworks à des bases de données vectorielles pour implémenter pleinement RAG , augmentant ainsi la profondeur contextuelle des résultats LLM.
Bases de données vectorielles pour RAG
Les bases de données vectorielles (VD) gèrent des données multidimensionnelles, telles que les symptômes des patients, les résultats des analyses sanguines, les comportements et les indicateurs de santé, ce qui les rend essentielles pour les systèmes RAG.
- Deep Lake : Un lac de données optimisé pour les LLM, prenant en charge le stockage vectoriel et l'intégration avec des outils comme LlamaIndex.
- Pinecone : Un service de base de données vectorielles géré pour les configurations RAG.
- Weaviate : Combine le stockage vectoriel avec des fonctionnalités RAG pour la récupération.
- Milvus : Une base de données vectorielles open source pour les cas d'utilisation de l'IA .
- Qdrant : Un moteur de recherche vectorielle pour la recherche de similarités.
- Zep Vector Store : Une plateforme open-source qui prend en charge un magasin de documents vectoriels, où vous pouvez télécharger, intégrer et rechercher des documents pour RAG.
Autres modèles de récupération prenant en charge RAG
Étant donné que RAG exploite des techniques de séquence à séquence et de récupération comme DPR, les développeurs peuvent combiner ces modèles avec des LLM pour permettre une génération augmentée par la récupération.
- BART avec récupération : Intègre la puissance générative de BART avec des mécanismes de récupération pour RAG.
- BM25 : Un algorithme de recherche traditionnel basé sur la fréquence des termes, largement utilisé pour sa simplicité.
- Modèle ColBERT : Basé sur BERT (Bidirectional Encoder Representations from Transformers), il est conçu pour combiner la recherche dense et la recherche clairsemée traditionnelle.
- Modèle DPR (Dense Passage Retrieval) : Un modèle utilisé pour les tâches de recherche d'informations, en particulier dans le domaine des systèmes de réponse aux questions (QA) et de recherche.
Qu'est-ce que la génération augmentée par la récupération ?
En 2020, Lewis et ses collègues ont introduit les modèles RAG pour manipuler les connaissances avec précision. Ils décrivent RAG comme une approche de réglage fin à usage général, capable de combiner des modèles de génération de mémoire paramétrique pré-entraînés avec une mémoire non paramétrique.
En termes simples, la génération augmentée par la recherche (RAG) est une approche de traitement automatique du langage naturel (TALN) qui combine des éléments des modèles de recherche et de génération afin d'améliorer la qualité et la pertinence du contenu généré. Il s'agit d'une approche hybride qui tire parti des atouts des deux techniques pour pallier les limitations des méthodes purement génératives ou purement basées sur la recherche. Voici une courte vidéo sur la RAG :
Comment fonctionnent les modèles RAG ?
Le système RAG fonctionne en deux phases : la récupération et la génération de contenu.
Dans la phase de récupération :
Les algorithmes recherchent et extraient activement des informations pertinentes en fonction de la requête ou de la question de l'utilisateur, grâce à des techniques comme BM25. Ces informations extraites servent de base à la génération de réponses cohérentes et contextuellement pertinentes.
- Dans un contexte grand public, ces informations peuvent provenir de documents indexés sur Internet. Dans un contexte d'entreprise, un ensemble de sources plus restreint est généralement utilisé afin de renforcer la sécurité et la fiabilité des connaissances internes. Par exemple, le système RAG peut rechercher :
- Les facteurs contextuels actuels, tels que les mises à jour météorologiques en temps réel et la position précise de l'utilisateur
- Informations centrées sur l'utilisateur, leurs commandes précédentes sur le site web, leurs interactions avec le site web et l'état actuel de leur compte.
- Données factuelles pertinentes dans récupéré documents qui sont soit privés, soit mis à jour après le processus de formation du LLM.
Dans la phase de génération de contenu :
- Après avoir récupéré les représentations vectorielles pertinentes, un modèle de langage génératif, tel qu'un modèle basé sur les transformeurs comme GPT, prend le relais. Il utilise le contexte récupéré pour générer des réponses en langage naturel. Le texte généré peut ensuite être conditionné ou affiné en fonction du contenu récupéré afin de garantir sa pertinence et son exactitude contextuelles. Le système peut inclure des liens ou des références aux sources consultées à des fins de transparence et de vérification.
Les LLM de RAG utilisent deux systèmes pour obtenir des données externes :
- Base de données vectorielles : Les bases de données vectorielles facilitent la recherche de documents pertinents par similarité. Elles peuvent fonctionner indépendamment ou être intégrées à l’application LLM.
- Systèmes de stockage de fonctionnalités : il s’agit de systèmes ou de plateformes permettant de gérer et de stocker les caractéristiques des données structurées utilisées dans les applications d’apprentissage automatique et d’intelligence artificielle. Ils fournissent des données organisées et accessibles pour les processus d’entraînement et d’inférence des modèles d’apprentissage automatique tels que les LLM.
Qu’est-ce que la génération augmentée par récupération dans les grands modèles de langage ?
Les modèles RAG génèrent des solutions capables de relever les défis rencontrés par les grands modèles de langage (LLM). Ces principaux problèmes sont les suivants :
- Accès et manipulation limités des connaissances : les modèles linéaires à longue portée (LLM) peinent à maintenir leurs connaissances du monde à jour, car la mise à jour de leurs données d’entraînement est impossible. De plus, leur capacité à manipuler précisément les connaissances est limitée. Cette limitation affecte leurs performances sur les tâches nécessitant une forte intensité de connaissances, les exposant souvent à un retard par rapport aux architectures spécialisées. Par exemple, les LLM manquent de connaissances spécifiques à un domaine, car ils sont entraînés pour des tâches généralisées.
- Manque de transparence : les LLM peinent à fournir des informations transparentes sur leur processus décisionnel. Il est difficile de retracer comment et pourquoi ils parviennent à des conclusions ou des réponses spécifiques, ce qui leur vaut souvent d’être considérés comme des « boîtes noires ».
- Réponses incohérentes : les modèles de langage peuvent répondre à des questions de manière apparemment exacte ou cohérente, alors qu’elles sont en réalité entièrement inventées ou inexactes. La prise en compte et la réduction de ces réponses incohérentes constituent un enjeu crucial pour améliorer la fiabilité et la crédibilité des contenus générés par les modèles de langage.
Quels sont les différents types de chiffons ?
RAG spéculatif
Speculative RAG utilise un modèle de langage spécialisé plus petit pour générer en parallèle plusieurs réponses à partir de différents sous-ensembles de documents, tandis qu'un modèle de langage généraliste plus large vérifie et sélectionne la meilleure réponse. Cette approche à deux systèmes améliore la précision tout en réduisant la latence, ce qui la rend idéale pour les applications à haut débit où la vitesse et la précision sont toutes deux essentielles.
Réglage fin augmenté par récupération (RAFT)
RAFT combine RAG et un réglage fin supervisé pour améliorer les performances spécifiques au domaine. Imaginez-le comme la préparation à un examen à livre ouvert : au lieu de s’appuyer sur des documents externes lors de l’interrogation (RAG) ou de tout mémoriser (réglage fin), RAFT entraîne le modèle à « étudier » les documents au préalable.
Comment ça marche :
- Les données d'entraînement comprennent des questions, des documents « oracles » (contenant la réponse) et des documents « distracteurs » (bruit non pertinent).
- Le modèle apprend à identifier les informations pertinentes tout en ignorant les distracteurs.
- Les réponses structurées selon un raisonnement logique améliorent la qualité du raisonnement.
À prendre en compte : des recherches récentes suggèrent que RAFT offre les gains les plus significatifs sur les anciens modèles de recherche. Les modèles plus récents pourraient présenter des améliorations plus modestes grâce à leurs mécanismes de récupération intégrés plus performants.
Architectures RAG avancées
L'architecture RAG a évolué au-delà des types classiques « Contextuel » et « Spéculatif » pour adopter des architectures sophistiquées conçues pour le raisonnement complexe. Le modèle de base « récupérer puis générer » est remplacé par des boucles où le modèle dialogue activement avec le processus de récupération.
RAG basé sur les graphes (GraphRAG)
GraphRAG va au-delà de la simple récupération de fragments de texte. Il construit un graphe de connaissances où les documents et les entités sont des nœuds, permettant ainsi au système de récupérer des « sous-graphes » ou des chemins de raisonnement plutôt que des extraits isolés.
- Fonctionnement : Au lieu de classer les passages isolément, le système identifie les relations (liens) entre les entités. Il peut parcourir ces connexions pour répondre à des questions à plusieurs étapes (par exemple : « Quel est le lien entre le PDG de l’entreprise A et le fournisseur de l’entreprise B ? »).
- Conscience de la structure : des systèmes comme G-RETRIEVER construisent des sous-graphes connectés minimaux qui encodent les contextes multi-sauts avant même que le LLM ne voie l’invite, améliorant ainsi la fidélité et réduisant les hallucinations.
- Idéal pour : Les tâches de raisonnement complexes où les relations entre les points de données importent plus que la correspondance de mots-clés.
RAG hybride et contextuel
- Contextual RAG : Améliore la recherche standard en prétraitant les blocs avec des « embeddings contextuels » ou des résumés qui expliquent pourquoi un bloc est pertinent, réduisant ainsi les échecs de recherche.
- Recherche hybride : Elle combine la recherche dense (vecteurs sémantiques) et la recherche parcimonieuse (mots-clés BM25). La recherche dense capture le sens sémantique tandis que BM25 repère les correspondances exactes avec les mots-clés que la recherche sémantique pourrait manquer. Cette combinaison est désormais considérée comme une bonne pratique pour limiter les échecs de recherche.
Agentic RAG
Les pipelines Agentic utilisent un contrôleur LLM pour orchestrer plusieurs outils et banques de mémoire. L'agent peut planifier un flux de travail (par exemple : « Récupérer les données financières », puis « Utiliser l'outil de calcul », puis « Résumer »).
- Orchestration : Contrairement au RAG linéaire, un système agentiel utilise des jetons de planification (PENSÉE, ACTION, OBSERVATION) pour décider dynamiquement de son prochain mouvement.
- Utilisation de l'outil : Il peut basculer à chaud entre les outils (par exemple, passer d'un index vectoriel dense à une requête de base de données SQL) en fonction de l'intention de l'utilisateur.
RAG itératif et actif
Ces systèmes envisagent la récupération comme un processus conversationnel plutôt que comme une étape ponctuelle. Le modèle détermine quand récupérer les données et quelles informations conserver.
- RAG actif (FLARE) : Des mécanismes comme FLARE (Forward-Looking Active REtrieval) contrôlent la fiabilité du modèle pendant la génération. Si le modèle génère des jetons de faible fiabilité, il s'interrompt pour formuler une requête de recherche et récupérer de nouvelles données, plutôt que de produire des résultats erronés. Cette technique est particulièrement efficace pour la génération de textes longs, où les besoins d'information évoluent au fil du texte.
- Self-RAG : Le modèle génère des « jetons de réflexion » (par exemple,
Retrieve,ISREL,ISSUP,ISUSE) pour analyser le contenu qu’il extrait. Il évalue la pertinence des passages, la présence de preuves étayant le contenu généré et l’utilité globale de la réponse, décidant ainsi de conserver, d’affiner ou d’éliminer les preuves avant de générer la réponse finale. - Raffinement cyclique : les architectures comme Chain-of-Note obligent le LLM à rédiger des notes concises sur les documents récupérés afin d’évaluer leur fiabilité avant de synthétiser une réponse.
Comment évaluer les systèmes RAG
L'évaluation RAG est plus complexe que les tests LLM standard car elle nécessite l'évaluation de deux composantes distinctes : le Retriever (trouver les données pertinentes) et le Generator (synthétiser la réponse avec précision). La communauté de recherche s'est éloignée des métriques superficielles (comme BLEU ou ROUGE) au profit de cadres d'évaluation sémantiques et algorithmiques qui mesurent trois piliers fondamentaux : la pertinence du contexte , la fidélité et la pertinence de la réponse .
Matrice d'évaluation RAG
1. Métriques au niveau des composants
Pour diagnostiquer les problèmes de performance, vous devez évaluer séparément les étapes de récupération et de génération.
Métriques de récupération (La phase de recherche)
Si le processus de récupération échoue, le générateur n'a aucune chance. Les indicateurs clés sont les suivants :
- Précision@k et Rappel@k : la précision mesure le nombre de documents récupérés qui sont réellement pertinents, tandis que le rappel mesure si le système a trouvé tous les documents pertinents disponibles dans la base de données.
- Rang réciproque moyen (RRM) : Ce critère est essentiel pour les systèmes RAG où le LLM accorde une importance primordiale aux premiers segments. Le RRM évalue la position du premier document pertinent dans la liste.
- Gain cumulatif actualisé normalisé (nDCG) : Contrairement aux mesures binaires succès/échec, le nDCG tient compte de la pertinence graduée, récompensant les systèmes qui placent les documents les plus utiles en haut de la fenêtre de contexte.
Métriques de génération (Phase de réponse)
- Fidélité (Fidélité) : Mesure si la réponse générée provient exclusivement du contexte récupéré. Il s’agit du principal critère de détection des hallucinations ; si le modèle ajoute des informations absentes de la source, la fidélité diminue.
- Pertinence de la réponse : évalue si la réponse répond réellement à la question de l’utilisateur, en veillant à ce que le modèle ne résume pas le contexte sans répondre à la question spécifique.
- Rejet négatif : une mesure de sécurité essentielle qui teste la capacité du système à dire « Je ne sais pas » lorsque le contexte récupéré ne contient pas la réponse, plutôt que d’halluciner un mensonge plausible.
2. Cadres d'évaluation automatisés
S’appuyer uniquement sur l’évaluation humaine est lent et coûteux. La norme du secteur a évolué vers des cadres de référence basés sur le modèle « LLM-as-a-jugement », où un modèle performant évalue les résultats de votre processus RAG (Rapid, Agile, Grade).
- RAGAS (Évaluation sans référence) : RAGAS utilise des modèles de langage en interne pour évaluer la qualité des réponses sans nécessiter de réponses de référence validées par des humains. Il fournit un ensemble complet de métriques, notamment la précision contextuelle, le rappel contextuel, la fidélité et la pertinence des réponses. RAGAS est très performant et évolutif, bien qu’il puisse être sensible aux consignes utilisées pour l’évaluation.
- ARES (Automated RAG Evaluation System) : ARES affine des modèles de langage légers à l'aide de données d'entraînement synthétiques afin d'évaluer la pertinence du contexte, la fidélité et la pertinence des réponses. Il utilise l'inférence basée sur la prédiction (PPI) avec un petit ensemble (environ 150 points de données annotés manuellement) pour générer des intervalles de confiance. Bien qu'ARES offre une précision supérieure et reste efficace malgré les changements de domaine, sa configuration est plus complexe que celle de RAGAS.
3. Analyse comparative avancée
Au-delà de la précision de base, les tests de performance avancés évaluent des modes de défaillance spécifiques :
- Robustesse au bruit : le modèle peut-il filtrer les documents non pertinents mélangés à la fenêtre de contexte ?
- Intégration de l'information : le modèle peut-il synthétiser une réponse qui nécessite de combiner des indices provenant de plusieurs documents distincts (raisonnement à sauts multiples) ?
- Robustesse contrefactuelle : le modèle peut-il identifier et corriger les erreurs lorsque les informations récupérées entrent en conflit avec ses connaissances paramétriques internes (ou vice versa) ?
Quels sont les avantages de la génération augmentée par la récupération ?
Les formulations RAG peuvent être appliquées à diverses applications de TALN, notamment les chatbots, les systèmes de questions-réponses et la génération de contenu, où la récupération correcte des informations et la génération de langage naturel sont essentielles. Les principaux avantages offerts par RAG sont les suivants :
Pertinence et précision améliorées
Les outils et modèles d'IA de génération comme ChatGPT ont le potentiel d'automatiser les tâches de traitement automatique du langage naturel (TALN) à forte intensité de connaissances qui représentent environ 70 % du temps des employés. 3 Pourtant, environ 67 % des chefs d’entreprise et des analystes considèrent que le contenu généré par l’IA est biaisé ou inexact, ce qui réduit le taux d’adoption des LLM. 4
En intégrant un module de recherche, les modèles RAG peuvent accéder à des sources de connaissances externes, garantissant ainsi que le texte généré repose sur des informations exactes et à jour. Il en résulte des réponses plus pertinentes et précises, réduisant les erreurs d'interprétation lors de la formulation de questions et de la génération de contenu.
Cohérence contextuelle
Les modèles basés sur la recherche d'informations contextualisent le processus de génération, facilitant ainsi la production de textes cohérents et adaptés au contexte. Il en résulte des réponses plus cohérentes et compréhensibles, car le module de génération peut s'appuyer sur les informations extraites.
Gestion des requêtes en domaine ouvert
Les modèles RAG excellent dans le traitement des questions ouvertes, même lorsque les informations requises ne figurent pas dans les données d'entraînement. Leur module de recherche peut extraire des informations pertinentes d'une vaste base de connaissances, permettant ainsi au modèle de fournir des réponses ou de générer du contenu sur divers sujets.
Biais générationnel réduit
L'intégration de la récupération d'informations peut contribuer à atténuer certains biais inhérents aux modèles purement génératifs. En s'appuyant sur des informations existantes provenant de sources diverses, les modèles RAG peuvent générer des réponses moins biaisées et plus objectives.
Calcul efficace
Les modèles basés sur la recherche d'informations peuvent s'avérer efficaces sur le plan du calcul pour les tâches où la base de connaissances est disponible et structurée. Au lieu de générer des réponses à partir de zéro, ils peuvent extraire et adapter des informations existantes, réduisant ainsi le coût de calcul.
Capacités multimodales
Les modèles RAG peuvent être étendus pour fonctionner avec plusieurs modalités, telles que le texte et les images. Cela leur permet de générer un texte contextuellement pertinent pour un contenu textuel et visuel, ouvrant ainsi la voie à des applications comme la légende d'images, le résumé de contenu, et bien plus encore.
Personnalisation et réglage fin
Les modèles RAG peuvent être personnalisés pour des domaines ou des cas d'utilisation spécifiques. Cette adaptabilité les rend adaptés à diverses applications, notamment les chatbots spécialisés, le support client et les systèmes de recherche d'informations.
Collaboration homme-IA
Les modèles RAG peuvent aider les humains dans leurs tâches de recherche d'informations en résumant et en présentant rapidement les informations pertinentes issues d'une base de connaissances, réduisant ainsi le temps et les efforts nécessaires à la recherche manuelle.
Réglage fin vs. génération augmentée par récupération
En règle générale, un modèle de base peut acquérir de nouvelles connaissances par deux méthodes principales :
- Réglage fin : ce processus nécessite l’ajustement des modèles pré-entraînés en fonction d’un ensemble d’entraînement et des poids du modèle.
- RAG : Cette méthode introduit des connaissances par le biais d’entrées de modèle ou insère des informations dans une fenêtre de contexte.
Le perfectionnement est une approche courante. Cependant, il n'est pas recommandé pour améliorer la mémorisation de faits, mais plutôt pour affiner ses performances dans des tâches spécialisées. Voici une comparaison détaillée des deux approches :
Avertissements
Le domaine RAG est émergent, ce qui explique le manque de sources recensant ces outils et frameworks. C'est pourquoi AIMultiple s'est appuyé sur les déclarations publiques des fournisseurs pour établir cette catégorisation. AIMultiple améliorera cette liste de fournisseurs et cette catégorisation à mesure que le marché évoluera.
Les modèles RAG et les bibliothèques listés ci-dessus sont triés par ordre alphabétique sur cette page, car AIMultiple n'a actuellement pas accès à des indicateurs plus pertinents pour classer ces entreprises.
Les listes de fournisseurs ne sont pas exhaustives.
Pour en savoir plus
Découvrez les dernières nouveautés concernant les LLM et les LLMOps en consultant :
- Comparaison de plus de 10 outils LLMOps : un référentiel complet des fournisseurs
- Comparatif des 20 meilleurs outils de gouvernance de l'IA : Analyse comparative des fournisseurs
- Modèles d'intégration : OpenAI vs Gemini vs Cohere
- Hybrid RAG : Amélioration de la précision RAG
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.