Contactez-nous
Aucun résultat trouvé.

Hybrid RAG : Amélioration de la précision RAG

Cem Dilmegani
Cem Dilmegani
mis à jour le Mar 11, 2026
Consultez notre normes éthiques

La recherche par vecteurs denses excelle dans la capture de l'intention sémantique, mais elle peine souvent avec les requêtes exigeant une grande précision des mots clés. Afin de quantifier cet écart, nous avons comparé un système de recherche par vecteurs denses standard à un système RAG hybride intégrant des vecteurs clairsemés SPLADE.

Notre évaluation, réalisée sur un ensemble soigneusement sélectionné de 100 questions complexes et réalistes, s'est concentrée sur la capacité de chaque système à retrouver et à classer correctement la meilleure réponse possible.

Comparaison des performances : recherche dense vs recherche hybride

Notre analyse comparative révèle qu'un système de recherche hybride bien paramétré surpasse nettement une approche basée uniquement sur la densité, en fournissant des résultats plus précis et mieux classés.

Loading Chart
  • Amélioration de la précision du classement (MRR +18,5 %) : Le système hybride a permis d’améliorer le classement réciproque moyen de 0,410 à 0,486 . Cette amélioration substantielle est le résultat le plus convaincant, car elle se traduit directement par une meilleure expérience utilisateur en augmentant considérablement la probabilité que la meilleure réponse apparaisse en première position.
  • Amélioration du taux de récupération (Rappel à 5 : +7,2 %) : Le modèle hybride a augmenté le score de rappel à 5 de 0,655 à 0,702 . Cela démontre sa capacité à trouver la bonne réponse parmi les 5 premiers résultats de manière plus systématique, en faisant remonter des documents que l’approche basée uniquement sur la densité aurait complètement manqués.

Pour comprendre en détail notre évaluation et nos indicateurs, consultez notre méthodologie de référence pour Hybrid RAG .

Précision vs. latence : le compromis de performance

Bien que le système hybride offre une précision supérieure, cette performance accrue a un coût de calcul mesurable.

Le système hybride introduit une latence supplémentaire de 201 ms par requête, soit une augmentation de 24,5 % du temps de traitement. Pour comprendre en détail notre processus de mesure de la latence et notre méthodologie de chronométrage, veuillez consulter notre méthodologie de mesure de la latence .

Où va tout ce temps libre ?

L'augmentation de 201 ms de la latence pour le système hybride n'est pas répartie uniformément sur toutes les opérations. Notre analyse temporelle détaillée révèle précisément où se situe le coût de calcul :

Cette analyse montre clairement que la majeure partie de la latence provient de l'étape initiale de génération du vecteur, où le système doit créer à la fois un vecteur dense et un vecteur clairsemé.

Les étapes de recherche et de fusion proprement dites sont remarquablement rapides et représentent ensemble moins de 7 % du temps total. Par exemple, la génération de vecteurs denses et clairsemés pourrait être parallélisée afin de réduire ce goulot d'étranglement.

Raisons potentielles des différences de performance

Rappel sémantique vs précision lexicale

La recherche dense repose sur la similarité sémantique, efficace pour cerner l'intention de l'utilisateur, mais qui peut sous-estimer l'importance des termes et contraintes exacts. Cela limite sa capacité à retrouver systématiquement des documents qui dépendent de mots-clés ou d'attributs spécifiques.

Dans le test de performance, le récupérateur dense uniquement correspondait souvent à l'intention générale des requêtes, mais manquait des contraintes strictes telles que les noms exacts des ingrédients.

Couverture de récupération à double signal

Hybrid RAG combine des représentations denses et éparses, permettant au système d'évaluer les documents selon des perspectives à la fois sémantiques et lexicales. Cette double couverture augmente la probabilité de retrouver et de bien classer les documents pertinents.

Sensibilité du rang par fusion

La fusion réciproque des classements (RRF) privilégie les documents bien classés selon plusieurs critères de recherche plutôt que de se fier uniquement aux scores de similarité bruts. Cette agrégation basée sur le classement améliore la précision des meilleurs résultats lorsque la pertinence sémantique et la précision des mots-clés sont alignées.

Surcharge de génération de vecteurs

La recherche hybride nécessite la génération de vecteurs denses et creux pour chaque requête, ce qui augmente la charge de calcul avant même le début de la recherche. Ce prétraitement supplémentaire a un impact direct sur la latence de bout en bout.

Sensibilité au réglage des paramètres

Les performances hybrides dépendent fortement de l'équilibre des paramètres de fusion. Une pondération excessive des signaux épars peut nuire à la pertinence sémantique et dégrader les résultats.

Architecture système RAG hybride

Notre système hybride combine deux approches de récupération complémentaires, chacune répondant à des caractéristiques de requête différentes grâce à une architecture de traitement parallèle soigneusement conçue.

Figure 1 : Le flux de travail de notre système de recherche hybride, de la requête initiale de l'utilisateur à la liste finale classée des documents envoyés au LLM.

Composante dense : Compréhension sémantique

  • Modèle : OpenAI text-embedding-3-small
  • Point fort : Capture le sens sémantique et le contexte , excellant dans la compréhension de l'intention de l'utilisateur même lorsque les requêtes ne contiennent pas de mots-clés spécifiques.
  • Cas d'utilisation : Une requête comme « soulagement de la douleur doux pour l'estomac » trouvera avec succès des documents mentionnant des concepts comme « doux pour ma digestion » ou « n'a pas provoqué de maux d'estomac », même si le mot exact « doux pour l'estomac » n'est pas utilisé.

Composante éparse : Précision des mots clés

  • Modèle : SPLADE (SParse Lexical and Expansion model)
  • Point fort : Identifie et attribue une grande importance aux mots clés discriminants, notamment les noms techniques, les numéros de modèle et les attributs spécifiques du produit qu'une recherche purement sémantique pourrait négliger.
  • Cas d'utilisation : Une requête contenant un terme spécifique comme « acétaminophène » exige une correspondance exacte. SPLADE garantit un classement élevé des documents contenant ce terme précis, contrairement à un modèle plus dense qui pourrait généraliser à « analgésique » et passer à côté de l'ingrédient spécifique.

L'algorithme de fusion de rang réciproque (RRF)

La requête d'un utilisateur est vectorisée simultanément par les modèles OpenAI et SPLADE, ce qui génère deux listes classées indépendantes. L'étape cruciale consiste à combiner ces listes à l'aide de la fusion de rangs réciproques (RRF).

RRF résout le problème de la fusion des résultats provenant de systèmes aux échelles de notation incompatibles (par exemple, un score dense de 0,89 contre un score clairsemé de 95,4). Au lieu d'utiliser les scores bruts, il se concentre uniquement sur le classement des documents (1er, 2e, 3e).

Exemple : Pour la requête « déodorant naturel sans aluminium ni parabènes »

  • Une recherche approfondie classe un avis sur un « déodorant bio et sans produits chimiques » en première position (pertinence sémantique).
  • Une recherche partielle classe un avis contenant les mots-clés « sans aluminium » et « sans parabène » en première position (mots-clés exacts).
  • La fusion RRF permet aux documents figurant en bonne place dans les deux listes d'être placés en tête.

Une critique qui est sémantiquement pertinente ET qui contient les mots-clés exacts obtient la meilleure note combinée.

Le score final utilise la formule suivante :

où k=60 et rank_i représente la position du document dans chaque résultat de recherche. Le paramètre sparse_boost (1.2) privilégie légèrement la précision des mots clés sans pour autant compromettre la compréhension sémantique.

Le rôle du réglage des paramètres de fusion

Un résultat clé de notre recherche est que la simple combinaison de deux systèmes de recherche ne garantit pas une amélioration des performances. Notre configuration hybride initiale a en fait obtenu des résultats inférieurs à ceux de la configuration de référence utilisant uniquement la méthode de recherche dense, avec un MRR de seulement 0,390.

Le problème venait d'un paramètre de fusion mal réglé :

  • Paramètre initial problématique : sparse_boost = 3.0
  • Paramètre optimisé : sparse_boost = 1.2

La configuration initiale accordait aux correspondances de mots clés issues de SPLADE une pondération trois fois supérieure à celle des correspondances sémantiques issues du modèle dense. Cette pondération excessive a eu pour conséquence que des documents riches en mots clés mais sémantiquement non pertinents ont supplanté les résultats contextuellement appropriés, dégradant ainsi les performances globales.

L'optimisation à sparse_boost = 1.2 offre une légère préférence pour les correspondances de mots clés sans pour autant négliger la compréhension sémantique, un équilibre qui s'est avéré crucial pour atteindre l'amélioration de 18,5 % du MRR.

Quand la recherche hybride excelle : La requête multi-contraintes

L’avantage des systèmes hybrides en termes de performances se manifeste clairement dans certains types de requêtes qui mettent à l’épreuve les approches exclusivement denses. Voici une requête courante et complexe extraite de notre ensemble de données « Santé et soins personnels » :

« J’ai besoin d’un déodorant naturel sans aluminium et sans parabènes. »

Cette requête comporte deux parties distinctes : une intention sémantique générale (« déodorant naturel ») et deux contraintes de mots clés strictes (« sans aluminium », « sans parabène »).

Comment réagit un système basé uniquement sur les critères de densité : Un système de recherche basé uniquement sur les critères de densité comprend parfaitement l’intention « déodorant naturel ». Il trouvera des avis mentionnant des « déodorants doux et biologiques ». Cependant, il pourrait attribuer un bon classement à un avis évoquant un produit « entièrement naturel » et « sans aluminium », même si la présence de parabènes n’y est jamais mentionnée. Le système saisit correctement l’intention principale, mais échoue sur l’un des critères non négociables.

Comment le système hybride l'emporte : Le système hybride résout ce problème grâce à une double approche :

  • La recherche parcimonieuse (filtre de précision) : le modèle SPLADE trouve immédiatement les documents contenant les mots clés exacts et à forte pondération « sans aluminium » et « sans parabène ».
  • La recherche dense (filtre de pertinence) : Simultanément, le modèle OpenAI recherche des documents sémantiquement liés à « déodorant naturel et efficace ».
  • La fusion (RRF) : RRF examine ensuite les deux classements. Un document figurant en bonne place dans les deux listes, par exemple une critique élogieuse vantant explicitement les mérites d’un produit « naturel », « efficace », « sans aluminium » et « sans parabène », reçoit le score fusionné maximal et accède à la première place.

Reclasseurs : une seconde étape de récupération optionnelle

Dans les chaînes de recherche en deux étapes, les modules de reclassement fonctionnent comme une seconde étape de filtrage : le système récupère d'abord un large ensemble de documents candidats, puis un module de reclassement par encodage croisé les évalue et les réordonne en fonction de la pertinence de la requête. Concrètement, un système peut récupérer des dizaines, voire des centaines de candidats (par exemple, en utilisant une recherche hybride dense-éparse, récupérant de l'ordre de 50 à 100 éléments) et utiliser ensuite le module de reclassement pour sélectionner les passages les plus pertinents pour le modèle de langage. Cette approche en deux étapes permet de récupérer des passages pertinents qui ne figuraient pas parmi les premiers résultats en les intégrant à la sélection finale pour la génération.

Dans le test de reranker , nous avons testé 8 modèles de reranker sur environ 145 000 avis Amazon en anglais et avons constaté que le meilleur reranker a augmenté le taux de réussite à la première requête de 62,67 % à 83,00 % par rapport à un récupérateur dense, tout en ajoutant moins de 250 ms de latence par requête.

Ce benchmark RAG hybride ne comprend pas d'étape de réordonnancement. Notre objectif était d'isoler l'impact de la combinaison de signaux de recherche denses et épars via RRF. L'ajout d'un réordonnanceur à la recherche hybride constitue une suite logique et pourrait permettre d'améliorer encore la précision, mais introduirait une variable confondante, rendant plus difficile l'attribution des améliorations à la méthode de recherche ou au modèle de réordonnancement.

Méthodologie de référence pour RAG hybride

Notre méthodologie d'évaluation a été conçue pour garantir une comparaison équitable, transparente et reproductible entre les systèmes de recherche à densité uniquement et les systèmes hybrides.

Configuration du test et corpus de données

  • Corpus de connaissances : Nous avons utilisé un ensemble de données de 494 094 avis d’utilisateurs réels provenant de l’ensemble de données Amazon Customer Reviews (catégorie Santé et soins personnels). 1 .
  • Base de données vectorielles : Nous avons utilisé Qdrant pour héberger deux collections distinctes.
    • La collection dense uniquement ne stockait que OpenAI vecteurs.
    • La collection hybride a utilisé la fonctionnalité « vecteurs nommés » de Qdrant pour stocker à la fois un vecteur dense (dense) et un vecteur clairsemé (text-sparse) pour chaque document.
  • Métrique de similarité : La similarité cosinus a été utilisée pour toutes les recherches de vecteurs denses.

Requêtes de test : Processus de sélection

Nous avons créé un ensemble de tests de haute qualité composé de 100 questions grâce à un processus en trois étapes, basé sur le code, afin d'éviter une évaluation anecdotique ou biaisée :

  1. Prétraitement : Nous avons nettoyé par programmation les données brutes de questions-réponses d’Amazon 2 Nous avons éliminé les questions absurdes ou de faible qualité. Pour chaque question, nous avons établi une réponse de référence en sélectionnant celle qui avait reçu le plus de votes « utiles » de la part des utilisateurs.
  2. Classification de la difficulté : Nous avons appliqué un script basé sur des règles pour évaluer et classer toutes les questions selon leur niveau de difficulté. Les questions contenant un langage comparatif (« différence entre », « par rapport à », « meilleur que ») ou demandant des opinions (« expérience avec ») ont été considérées comme plus difficiles que les simples questions factuelles (« quelles sont les dimensions »).
  3. Sélection finale : Nous avons sélectionné manuellement les 100 questions de référence finales de la catégorie « difficile ». Cela nous permet de tester les limites de chaque système de recherche, là où les différences de performance sont les plus marquées.

Métriques d'évaluation

  • Taux de rappel (Recall@5) : cet indicateur répond à une question fondamentale : « Le système a-t-il trouvé l’information correcte ? » Il mesure le pourcentage de requêtes pour lesquelles la réponse exacte figurait parmi les cinq premiers résultats de recherche. Un score de rappel élevé indique un système performant qui parvient à fournir des informations pertinentes.
  • MRR (Rang réciproque moyen) : Cette métrique, sensible au classement, répond à la question : « À quelle vitesse l’utilisateur a-t-il trouvé l’information correcte ? » Elle valorise fortement la première réponse correcte (score de 1,0), les scores diminuant pour les rangs suivants (0,5 pour la 2e, 0,33 pour la 3e, etc.). Un MRR élevé est essentiel pour l’expérience utilisateur, car il indique que le résultat le plus précis est affiché en premier.

Mesure de la latence

Afin de fournir une analyse complète des performances, nous avons mesuré la latence de bout en bout des requêtes pour les systèmes à densité unique et hybride. Cette mesure est essentielle pour comprendre le coût réel des gains de précision apportés par l'approche hybride.

Le processus a été implémenté dans nos scripts d'évaluation Python à l'aide de la fonction de haute précision `time.perf_counter()`. Pour chacune des 100 requêtes de test, nous avons mesuré le temps total écoulé entre la soumission de la requête à la fonction de récupération et le retour de la liste finale des documents classés.

Pour le système hybride, nous avons effectué une analyse plus fine en chronométrant indépendamment ses trois étapes distinctes :

  1. Génération de vecteurs : Le temps total requis pour générer à la fois le vecteur dense (via un appel API à OpenAI) et le vecteur clairsemé (via l'inférence du modèle SPLADE local).
  2. Opérations de recherche : Temps nécessaire pour exécuter deux requêtes de recherche distinctes sur la base de données vectorielles Qdrant, une pour le vecteur dense et une pour le vecteur clairsemé.
  3. Fusion (RRF) : Le temps de calcul de l'algorithme de fusion de rang réciproque pour fusionner les deux ensembles de résultats et produire la liste finale réorganisée.

Les valeurs de latence finales présentées dans nos résultats correspondent à la moyenne arithmétique des temps enregistrés pour l'ensemble des 100 requêtes de test, convertie en millisecondes (ms) pour plus de clarté. Cette approche garantit la robustesse de nos mesures de latence et leur représentativité de l'expérience utilisateur moyenne.

Limites et étendue

Notre analyse comparative porte spécifiquement sur le secteur de la santé et des soins personnels, à partir des données d'avis clients d'Amazon. Les performances peuvent varier selon les secteurs présentant des caractéristiques linguistiques ou des exigences terminologiques techniques distinctes.

L'évaluation a utilisé une granularité au niveau du document, traitant chaque avis comme un vecteur unique. Les résultats peuvent varier selon la stratégie de segmentation ou l'approche de recherche fine.

Pour en savoir plus

Explorez d'autres indicateurs RAG, tels que :

Conclusion

Ce test de performance confirme qu'un système de recherche hybride bien paramétré offre un avantage significatif par rapport à une approche exclusivement lexicale pour les requêtes complexes issues du monde réel. En combinant intelligemment recherche sémantique et lexicale, le modèle hybride améliore la précision du classement, ce qui permet d'obtenir des résultats plus pertinents et mieux classés.

Principaux enseignements de notre analyse comparative :

  • Le système hybride surpasse le système dense uniquement : le système hybride optimisé a obtenu une augmentation de +7,2 % du rappel à 5 et une augmentation substantielle de +18,5 % du MRR, prouvant sa capacité supérieure à la fois à trouver et à classer correctement la meilleure réponse.
  • L'optimisation est indispensable : la simple combinaison de recherches denses et clairsemées ne suffit pas. Notre système hybride initial, non optimisé, était moins performant que le système de référence utilisant uniquement la recherche dense. L'optimisation stratégique des paramètres de fusion s'est avérée essentielle pour améliorer les performances.
  • La précision a un prix : l’amélioration de la précision du système hybride a entraîné une augmentation de la latence d’environ 201 ms (24,5 %) par requête. Ce compromis est un élément crucial à prendre en compte par les concepteurs de systèmes, qui doivent trouver un équilibre entre la précision requise et les exigences de performance en temps réel.

FAQ

RAG permet à un modèle génératif, tel qu'un modèle de langage étendu (LLM), de générer des réponses à partir de données externes plutôt que de se fier uniquement à ses données d'entraînement internes. Cela améliore la précision factuelle en ancrant les réponses dans les informations extraites.
Cependant, toutes les données ne sont pas identiques. Certaines requêtes exigent une compréhension sémantique, tandis que d'autres reposent sur une correspondance précise des mots clés, notamment pour les requêtes structurées ou les entités extraites d'informations complexes. C'est pourquoi la génération augmentée par recherche hybride (Hybrid RAG) est essentielle. Elle combine une recherche sémantique dense avec une recherche lexicale parcimonieuse, offrant à la fois pertinence contextuelle et précision des mots clés. Cette approche hybride garantit que le système extrait le contexte des données textuelles structurées et non structurées, fournissant ainsi des réponses plus précises.

La version actuelle se concentre sur les données textuelles non structurées, telles que les avis sur les produits, qui contiennent souvent des opinions nuancées, des détails techniques et des variations linguistiques. Le système utilise plusieurs techniques de recherche pour garantir la saisie du sens et de la terminologie exacte.
À l'avenir, Hybrid RAG pourrait être étendu pour inclure des informations structurées et des données graphiques, lui permettant ainsi de répondre à des requêtes plus complexes en intégrant les faits issus des graphes de connaissances au sentiment ou au contexte des avis. Il en résulterait un contexte unifié reliant les données brutes, les documents structurés et le contenu narratif, offrant un contexte plus riche lors de la génération des réponses.

Lorsqu'un utilisateur soumet une requête, le système active deux composants de recherche parallèles : un modèle dense (sémantique) et un modèle parcimonieux (lexical). Le modèle dense capture les significations et les relations générales, tandis que le modèle parcimonieux, basé sur SPLADE, se concentre sur les termes clés.
Ces deux ensembles de résultats sont fusionnés à l'aide de la fusion par classement réciproque (RRF), ce qui résout l'incompatibilité des scores entre différentes méthodes de recherche. Cette approche hybride permet au système de récupérer plusieurs documents répondant à différentes parties d'une requête, améliorant ainsi sa capacité à générer des réponses cohérentes basées sur le contexte le plus pertinent et le plus complet disponible.

Oui, l'approche hybride est plus gourmande en ressources. Elle nécessite davantage de puissance de calcul en raison de la génération de deux vecteurs, des doubles opérations de recherche et de la logique de fusion. Cela se traduit par des temps de traitement des requêtes plus longs et un besoin d'infrastructure supplémentaire pour gérer d'importants volumes de données.
Malgré cela, les gains de performance, notamment en termes de rang réciproque moyen (MRR) et de rappel à 5 points, justifient ce compromis pour les applications où l'exactitude et l'exhaustivité des données factuelles sont essentielles. Lors d'une évaluation comparative rigoureuse, la méthode hybride a systématiquement permis d'obtenir des informations plus pertinentes et plus précises que les systèmes utilisant uniquement des données denses.

Contrairement aux techniques RAG traditionnelles qui reposent uniquement sur des plongements denses, Hybrid RAG exploite plusieurs méthodes de recherche pour optimiser la qualité des réponses. Grâce à sa conception à double recherche, il prend en charge un plus large éventail de requêtes, des plus vagues aux plus spécifiques.
Sa nature hybride la rend particulièrement performante dans les cas d'utilisation où de multiples contraintes doivent être satisfaites, comme la combinaison d'informations structurées (par exemple, « sans parabènes ») et d'intentions plus générales (par exemple, « déodorant naturel »). Cette analyse comparative démontre que Hybrid RAG offre une réponse plus équilibrée et adaptative, basée sur des signaux à la fois denses et épars.

Oui, les développements futurs d'Hybrid RAG prévoient l'intégration de graphes de connaissances et de données structurées en complément du texte. Ainsi, il pourra répondre à des requêtes structurées et fournir des réponses synthétisant les relations basées sur les graphes (comme les catégories de produits ou les interactions entre ingrédients) avec les avis libres des utilisateurs.
Cela permettrait au système de générer des réponses fondées à la fois sur des structures factuelles précises et sur des récits humains nuancés, améliorant ainsi l'exactitude des faits et la satisfaction des utilisateurs.

Comme Hybrid RAG effectue deux types de recherche puis fusionne les résultats, il consomme naturellement davantage de ressources de calcul. La génération de vecteurs, notamment lors de la génération d'embeddings denses et clairsemés, représente plus de 90 % de la latence totale. Comparée à une approche utilisant uniquement des embeddings denses, cela augmente la latence (environ 201 ms par requête dans notre test de performance).

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet
Recherche effectuée par
Ekrem Sarı
Ekrem Sarı
Chercheur en IA
Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et les frameworks RAG.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450