What is Retrieval-Augmented Generation (RAG), and why is a hybrid approach necessary?

RAG allows a generative model, like a Large Language Model (LLM), to generate responses based on external data rather than relying solely on its internal training data. This improves factual accuracy by grounding answers in retrieved information.However, not all data is the same. Some queries demand semantic understanding, while others rely on precise keyword matching, especially when dealing with structured queries or entities extracted from complex information. That’s why hybrid retrieval augmented generation (Hybrid RAG) is essential. It combines dense semantic search with sparse lexical search, providing both contextual relevance and keyword precision. This hybrid nature ensures that the system retrieves context from both structured and unstructured text data, delivering more accurate responses.

How does this Hybrid RAG system handle different types of data?

The current implementation focuses on unstructured text data, such as product reviews, which often contain nuanced opinions, technical details, and varied linguistic patterns. The system uses multiple retrieval techniques to ensure it captures both meaning and exact terms.Looking forward, Hybrid RAG could be extended to include structured information and graph data, allowing it to answer more complex queries by integrating facts from knowledge graphs with the sentiment or context in reviews. This would result in a unified context that bridges raw data, structured documents, and narrative content, enabling richer context during response generation.

What happens during the information retrieval process in this specific system?

When a user submits a query, the system activates two parallel retrieval components: a dense retriever (semantic) and a sparse retriever (lexical). The dense model captures broad meanings and relationships, while the SPLADE-based sparse model locks onto key terms.These two result sets are fused using Reciprocal Rank Fusion (RRF), which resolves the scoring incompatibility between different retrieval methods. This hybrid approach allows the system to retrieve multiple documents that satisfy different parts of a query, improving its ability to generate coherent responses based on the most relevant and comprehensive context available.

Are there downsides to using a hybrid system? What are the computational costs?

Yes, the hybrid approach is more resource-intensive. It requires more computational resources due to dual-vector generation, double-search operations, and fusion logic. This means longer query processing times and a need for additional infrastructure to handle large volumes of data.Despite this, the performance gains, especially in Mean Reciprocal Rank (MRR) and Recall@5, make it a worthwhile trade-off for applications where factual accuracy and completeness matter. When compared in a rigorous benchmark, the hybrid method consistently retrieved more contextually appropriate and precise information than dense-only systems.

How does Hybrid RAG compare to other RAG methods?

Unlike traditional RAG techniques that rely solely on dense embeddings, Hybrid RAG leverages multiple retrieval methods to maximize answer quality. It supports a broader spectrum of query types, from vague to highly specific, thanks to its dual-retrieval design.Its hybrid nature makes it especially powerful in use cases where multiple constraints must be satisfied, such as combining structured information (e.g., “paraben-free”) with broader intents (e.g., “natural deodorant”). This comparative analysis demonstrates that Hybrid RAG offers a more balanced and adaptive response based on both dense and sparse signals.

Can this system work with graph-based or structured data in the future?

Yes, future directions for Hybrid RAG include incorporating knowledge graphs and structured data alongside text. By doing so, it can respond to structured queries and provide answers that synthesize graph-based relationships (like product categories or ingredient interactions) with freeform user reviews.This would allow the system to generate responses grounded in both precise factual structures and nuanced human narratives, improving both factual accuracy and user satisfaction.

Why does better accuracy require more processing power?

Because Hybrid RAG performs two types of retrieval and then fuses the results, it naturally uses more computational resources. Vector generation, especially when generating both dense and sparse embeddings, accounts for over 90% of total latency. Compared to a dense-only approach, this increases latency (~201ms per query in our benchmark).

IA CHIFFON

Hybrid RAG : Amélioration de la précision RAG

Cem Dilmegani

avec

Ekrem Sarı

mis à jour le Mar 11, 2026

Consultez notre normes éthiques

La recherche par vecteurs denses excelle dans la capture de l'intention sémantique, mais elle peine souvent avec les requêtes exigeant une grande précision des mots clés. Afin de quantifier cet écart, nous avons comparé un système de recherche par vecteurs denses standard à un système RAG hybride intégrant des vecteurs clairsemés SPLADE.

Notre évaluation, réalisée sur un ensemble soigneusement sélectionné de 100 questions complexes et réalistes, s'est concentrée sur la capacité de chaque système à retrouver et à classer correctement la meilleure réponse possible.

Comparaison des performances : recherche dense vs recherche hybride

Notre analyse comparative révèle qu'un système de recherche hybride bien paramétré surpasse nettement une approche exclusivement dense en fournissant des résultats plus précis et mieux classés.

Loading Chart

Amélioration de la précision du classement (MRR +18,5 %) : Le système hybride a permis d’améliorer le classement réciproque moyen de 0,410 à 0,486 . Cette amélioration substantielle est le résultat le plus convaincant, car elle se traduit directement par une meilleure expérience utilisateur en augmentant considérablement la probabilité que la meilleure réponse apparaisse en première position.
Amélioration du taux de récupération (Rappel à 5 : +7,2 %) : Le modèle hybride a augmenté le score de rappel à 5 de 0,655 à 0,702 . Cela démontre sa capacité à trouver la bonne réponse parmi les 5 premiers résultats de manière plus systématique, en faisant remonter des documents que l’approche basée uniquement sur la densité aurait complètement manqués.

Pour comprendre en détail notre évaluation et nos indicateurs, consultez notre méthodologie de référence pour Hybrid RAG .

Précision vs. latence : le compromis de performance

Bien que le système hybride offre une précision supérieure, cette performance accrue a un coût de calcul mesurable.

Le système hybride introduit une latence supplémentaire de 201 ms par requête, soit une augmentation de 24,5 % du temps de traitement. Pour comprendre en détail notre processus de mesure de la latence et notre méthodologie de chronométrage, veuillez consulter notre méthodologie de mesure de la latence .

Où va tout ce temps libre ?

L'augmentation de 201 ms de la latence pour le système hybride n'est pas répartie uniformément sur toutes les opérations. Notre analyse temporelle détaillée révèle précisément où se situe le coût de calcul :

Cette analyse montre clairement que la majeure partie de la latence provient de l'étape initiale de génération du vecteur, où le système doit créer à la fois un vecteur dense et un vecteur clairsemé.

Les étapes de recherche et de fusion proprement dites sont remarquablement rapides et représentent ensemble moins de 7 % du temps total. Par exemple, la génération de vecteurs denses et clairsemés pourrait être parallélisée afin de réduire ce goulot d'étranglement.

Raisons potentielles des différences de performance

Rappel sémantique vs précision lexicale

La recherche dense repose sur la similarité sémantique, efficace pour cerner l'intention de l'utilisateur, mais qui peut sous-estimer l'importance des termes et contraintes exacts. Cela limite sa capacité à retrouver systématiquement des documents qui dépendent de mots-clés ou d'attributs spécifiques.

Dans le test de performance, le récupérateur dense uniquement correspondait souvent à l'intention générale des requêtes, mais manquait des contraintes strictes telles que les noms exacts des ingrédients.

Couverture de récupération à double signal

Hybrid RAG combine des représentations denses et éparses, permettant au système d'évaluer les documents selon des perspectives à la fois sémantiques et lexicales. Cette double couverture augmente la probabilité de retrouver et de bien classer les documents pertinents.

Sensibilité du rang par fusion

La fusion réciproque des classements (RRF) privilégie les documents bien classés selon plusieurs critères de recherche plutôt que de se fier uniquement aux scores de similarité bruts. Cette agrégation basée sur le classement améliore la précision des meilleurs résultats lorsque la pertinence sémantique et la précision des mots-clés sont alignées.

Surcharge de génération de vecteurs

La recherche hybride nécessite la génération de vecteurs denses et creux pour chaque requête, ce qui augmente la charge de calcul avant même le début de la recherche. Ce prétraitement supplémentaire a un impact direct sur la latence de bout en bout.

Sensibilité au réglage des paramètres

Les performances hybrides dépendent fortement de l'équilibre des paramètres de fusion. Une pondération excessive des signaux épars peut nuire à la pertinence sémantique et dégrader les résultats.

Architecture système RAG hybride

Notre système hybride combine deux approches de récupération complémentaires, chacune répondant à des caractéristiques de requête différentes grâce à une architecture de traitement parallèle soigneusement conçue.

Figure 1 : Le flux de travail de notre système de récupération hybride, de la requête initiale de l'utilisateur à la liste finale classée des documents envoyés au LLM .

Composante dense : Compréhension sémantique

Modèle : OpenAI text-embedding-3-small
Point fort : Capture le sens sémantique et le contexte , excellant dans la compréhension de l'intention de l'utilisateur même lorsque les requêtes ne contiennent pas de mots-clés spécifiques.
Cas d'utilisation : Une requête comme « soulagement de la douleur doux pour l'estomac » trouvera avec succès des documents mentionnant des concepts comme « doux pour ma digestion » ou « n'a pas provoqué de maux d'estomac », même si le mot exact « doux pour l'estomac » n'est pas utilisé.

Composante éparse : Précision des mots clés

Modèle : SPLADE (SParse Lexical and Expansion model)
Point fort : Identifie et attribue une grande importance aux mots clés discriminants, notamment les noms techniques, les numéros de modèle et les attributs spécifiques du produit qu'une recherche purement sémantique pourrait négliger.
Cas d'utilisation : Une requête contenant un terme spécifique comme « acétaminophène » exige une correspondance exacte. SPLADE garantit un classement élevé des documents contenant ce terme précis, contrairement à un modèle plus dense qui pourrait généraliser à « analgésique » et passer à côté de l'ingrédient spécifique.

L'algorithme de fusion de rang réciproque (RRF)

La requête d'un utilisateur est vectorisée simultanément par les modèles OpenAI et SPLADE, ce qui génère deux listes de classement indépendantes. L'étape cruciale consiste à combiner ces listes à l'aide de la fusion de classement réciproque (RRF).

RRF résout le problème de la fusion des résultats provenant de systèmes aux échelles de notation incompatibles (par exemple, un score dense de 0,89 contre un score clairsemé de 95,4). Au lieu d'utiliser les scores bruts, il se concentre uniquement sur le classement des documents (1er, 2e, 3e).

Exemple : Pour la requête « déodorant naturel sans aluminium ni parabènes »

Une recherche approfondie classe un avis sur un « déodorant bio et sans produits chimiques » en première position (pertinence sémantique).
Une recherche partielle classe un avis contenant les mots-clés « sans aluminium » et « sans parabène » en première position (mots-clés exacts).
La fusion RRF permet aux documents figurant en bonne place dans les deux listes d'être placés en tête.

Une critique qui est sémantiquement pertinente ET qui contient les mots-clés exacts obtient la meilleure note combinée.

Le score final est calculé selon la formule suivante :

où k=60 et rank_i représente la position du document dans chaque résultat de recherche. Le paramètre sparse_boost (1.2) privilégie légèrement la précision des mots clés sans pour autant compromettre la compréhension sémantique.

Le rôle du réglage des paramètres de fusion

Un résultat clé de notre recherche est que la simple combinaison de deux systèmes de recherche ne garantit pas une amélioration des performances. Notre configuration hybride initiale a en fait obtenu des résultats inférieurs à ceux de la configuration de référence utilisant uniquement la méthode de recherche dense, avec un MRR de seulement 0,390.

Le problème venait d'un paramètre de fusion mal réglé :

Paramètre initial problématique : sparse_boost = 3.0
Paramètre optimisé : sparse_boost = 1.2

La configuration initiale accordait aux correspondances de mots clés issues de SPLADE une pondération trois fois supérieure à celle des correspondances sémantiques issues du modèle dense. Cette pondération excessive avait pour conséquence que des documents riches en mots clés mais sémantiquement non pertinents éclipsaient les résultats contextuellement appropriés, dégradant ainsi les performances globales.

L'optimisation à sparse_boost = 1.2 offre une légère préférence pour les correspondances de mots clés sans pour autant négliger la compréhension sémantique, un équilibre qui s'est avéré crucial pour atteindre l'amélioration de 18,5 % du MRR.

Quand la recherche hybride excelle : La requête multi-contraintes

L’avantage des systèmes hybrides en termes de performances se manifeste clairement dans certains types de requêtes qui mettent à l’épreuve les approches exclusivement denses. Voici une requête courante et complexe extraite de notre ensemble de données « Santé et soins personnels » :

« J’ai besoin d’un déodorant naturel sans aluminium et sans parabène. »

Cette requête comporte deux parties distinctes : une intention sémantique générale (« déodorant naturel ») et deux contraintes de mots clés strictes (« sans aluminium », « sans parabène »).

Comment réagit un système basé uniquement sur les critères de densité : Un système de recherche basé uniquement sur les critères de densité comprend parfaitement l’intention « déodorant naturel ». Il trouvera des avis mentionnant des « déodorants doux et biologiques ». Cependant, il pourrait attribuer un bon classement à un avis évoquant un produit « entièrement naturel » et « sans aluminium », même si la présence de parabènes n’y est jamais mentionnée. Le système saisit correctement l’intention principale, mais échoue sur l’un des critères non négociables.

Comment le système hybride l'emporte : Le système hybride résout ce problème grâce à une double approche :

La recherche parcimonieuse (filtre de précision) : le modèle SPLADE trouve immédiatement les documents contenant les mots clés exacts et à forte pondération « sans aluminium » et « sans parabène ».
La recherche dense (filtre de pertinence) : Simultanément, le modèle OpenAI recherche des documents sémantiquement liés à « déodorant naturel et efficace ».
La fusion (RRF) : RRF examine ensuite les deux classements. Un document figurant en bonne place dans les deux listes, par exemple une critique élogieuse vantant explicitement les mérites d’un produit « naturel », « efficace », « sans aluminium » et « sans parabène », reçoit le score fusionné maximal et accède à la première place.

Reclasseurs : une seconde étape de récupération optionnelle

Dans les chaînes de recherche en deux étapes, les modules de reclassement fonctionnent comme une seconde étape de filtrage : le système récupère d'abord un large ensemble de documents candidats, puis un module de reclassement par encodage croisé les évalue et les réordonne en fonction de la pertinence de la requête. Concrètement, un système peut récupérer des dizaines, voire des centaines de candidats (par exemple, en utilisant une recherche hybride dense-éparse, récupérant de l'ordre de 50 à 100 éléments) et utiliser ensuite le module de reclassement pour sélectionner les passages les plus pertinents pour le modèle de langage. Cette approche en deux étapes permet de récupérer des passages pertinents qui ne figuraient pas parmi les premiers résultats en les intégrant à la sélection finale pour la génération.

Dans le test de reranker , nous avons testé 8 modèles de reranker sur environ 145 000 avis Amazon en anglais et avons constaté que le meilleur reranker a augmenté le taux de réussite à la première requête de 62,67 % à 83,00 % par rapport à un récupérateur dense, tout en ajoutant moins de 250 ms de latence par requête.

Ce benchmark RAG hybride ne comprend pas d'étape de réordonnancement. Notre objectif était d'isoler l'impact de la combinaison de signaux de recherche denses et épars via RRF. L'ajout d'un réordonnanceur à la recherche hybride constitue une suite logique et pourrait permettre d'améliorer encore la précision, mais introduirait une variable confondante, rendant plus difficile l'attribution des améliorations à la méthode de recherche ou au modèle de réordonnancement.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Suivre

Méthodologie de référence pour RAG hybride

Notre méthodologie d'évaluation a été conçue pour garantir une comparaison équitable, transparente et reproductible entre les systèmes de recherche à densité uniquement et les systèmes hybrides.

Configuration du test et corpus de données

Corpus de connaissances : Nous avons utilisé un ensemble de données de 494 094 avis d’utilisateurs réels provenant de l’ensemble de données Amazon Customer Reviews (catégorie Santé et soins personnels). ¹ .
Base de données vectorielles : Nous avons utilisé Qdrant pour héberger deux collections distinctes.
- La collection dense ne stockait que des vecteurs OpenAI .
- La collection hybride a utilisé la fonctionnalité « vecteurs nommés » de Qdrant pour stocker à la fois un vecteur dense (dense) et un vecteur clairsemé (text-sparse) pour chaque document.
Métrique de similarité : La similarité cosinus a été utilisée pour toutes les recherches de vecteurs denses.

Requêtes de test : Processus de sélection

Nous avons créé un ensemble de tests de haute qualité composé de 100 questions grâce à un processus en trois étapes, basé sur le code, afin d'éviter une évaluation anecdotique ou biaisée :

Prétraitement : Nous avons nettoyé par programmation les données brutes de questions-réponses d’Amazon ² Nous avons éliminé les questions absurdes ou de faible qualité. Pour chaque question, nous avons établi une réponse de référence en sélectionnant celle qui avait reçu le plus de votes « utiles » de la part des utilisateurs.
Classification de la difficulté : Nous avons appliqué un script basé sur des règles pour évaluer et classer toutes les questions selon leur niveau de difficulté. Les questions contenant un langage comparatif (« différence entre », « par rapport à », « meilleur que ») ou demandant des opinions (« expérience avec ») ont été considérées comme plus difficiles que les simples questions factuelles (« quelles sont les dimensions »).
Sélection finale : Nous avons sélectionné manuellement les 100 questions de référence finales de la catégorie « difficile ». Cela nous permet de tester les limites de chaque système de recherche, là où les différences de performance sont les plus marquées.

Métriques d'évaluation

Taux de rappel (Recall@5) : cet indicateur répond à une question fondamentale : « Le système a-t-il trouvé l’information correcte ? » Il mesure le pourcentage de requêtes pour lesquelles la réponse exacte figurait parmi les cinq premiers résultats de recherche. Un score de rappel élevé indique un système performant qui parvient à fournir des informations pertinentes.
MRR (Rang réciproque moyen) : Cette métrique, sensible au classement, répond à la question : « À quelle vitesse l’utilisateur a-t-il trouvé l’information correcte ? » Elle valorise fortement la première réponse correcte (score de 1,0), les scores diminuant pour les rangs suivants (0,5 pour la 2e, 0,33 pour la 3e, etc.). Un MRR élevé est essentiel pour l’expérience utilisateur, car il indique que le résultat le plus précis est affiché en premier.

Mesure de la latence

Afin de fournir une analyse complète des performances, nous avons mesuré la latence de bout en bout des requêtes pour les systèmes à densité unique et hybride. Cette mesure est essentielle pour comprendre le coût réel des gains de précision apportés par l'approche hybride.

Le processus a été implémenté dans nos scripts d'évaluation Python à l'aide de la fonction de haute précision `time.perf_counter()`. Pour chacune des 100 requêtes de test, nous avons mesuré le temps total écoulé entre la soumission de la requête à la fonction de récupération et le retour de la liste finale des documents classés.

Pour le système hybride, nous avons effectué une analyse plus fine en chronométrant indépendamment ses trois étapes distinctes :

Génération de vecteurs : Temps total nécessaire pour générer à la fois le vecteur dense (via un appel API à OpenAI ) et le vecteur clairsemé (via l'inférence du modèle SPLADE local).
Opérations de recherche : Temps nécessaire pour exécuter deux requêtes de recherche distinctes sur la base de données vectorielles Qdrant , une pour le vecteur dense et une pour le vecteur clairsemé.
Fusion (RRF) : Le temps de calcul de l'algorithme de fusion de rang réciproque pour fusionner les deux ensembles de résultats et produire la liste finale réorganisée.

Les valeurs de latence finales présentées dans nos résultats correspondent à la moyenne arithmétique des temps enregistrés pour l'ensemble des 100 requêtes de test, convertie en millisecondes (ms) pour plus de clarté. Cette approche garantit la robustesse de nos mesures de latence et leur représentativité de l'expérience utilisateur moyenne.

Limites et étendue

Notre analyse comparative porte spécifiquement sur le secteur de la santé et des soins personnels, à partir des données d'avis clients d'Amazon. Les performances peuvent varier selon les secteurs présentant des caractéristiques linguistiques ou des exigences terminologiques techniques distinctes.

L'évaluation a utilisé une granularité au niveau du document, traitant chaque avis comme un vecteur unique. Les résultats peuvent varier selon la stratégie de segmentation ou l'approche de recherche fine.

Pour en savoir plus

Explorez d'autres indicateurs RAG , tels que :

Les 10 meilleurs modèles d'intégration multilingues pour RAG

Modèles d'intégration : OpenAI vs Gemini vs Cohere

Les 16 meilleurs modèles d'embeddings open source pour RAG

Meilleure base de données vectorielles pour RAG : Qdrant vs Weaviate vs Pinecone

Analyse comparative d'Agentic RAG : routage multi-bases de données et génération de requêtes

Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI

Conclusion

Ce test de performance confirme qu'un système de recherche hybride bien paramétré offre un avantage significatif par rapport à une approche exclusivement lexicale pour les requêtes complexes issues du monde réel. En combinant intelligemment recherche sémantique et lexicale, le modèle hybride améliore la précision du classement, ce qui permet d'obtenir des résultats plus pertinents et mieux classés.

Principaux enseignements de notre analyse comparative :

Le système hybride surpasse le système dense uniquement : le système hybride optimisé a obtenu une augmentation de +7,2 % du rappel à 5 et une augmentation substantielle de +18,5 % du MRR, prouvant sa capacité supérieure à la fois à trouver et à classer correctement la meilleure réponse.
L'optimisation est indispensable : la simple combinaison de recherches denses et clairsemées ne suffit pas. Notre système hybride initial, non optimisé, était moins performant que le système de référence utilisant uniquement la recherche dense. L'optimisation stratégique des paramètres de fusion s'est avérée essentielle pour améliorer les performances.
La précision a un prix : l’amélioration de la précision du système hybride a entraîné une augmentation de la latence d’environ 201 ms (24,5 %) par requête. Ce compromis est un élément crucial à prendre en compte par les concepteurs de systèmes, qui doivent trouver un équilibre entre la nécessité de précision et les exigences de performance en temps réel.

FAQ

RAG permet à un modèle génératif, tel qu'un modèle de langage étendu ( LLM ), de générer des réponses à partir de données externes plutôt que de se fier uniquement à ses données d'entraînement internes. Cela améliore la précision factuelle en ancrant les réponses dans les informations extraites.
Cependant, toutes les données ne sont pas identiques. Certaines requêtes exigent une compréhension sémantique, tandis que d'autres reposent sur une correspondance précise des mots clés, notamment pour les requêtes structurées ou les entités extraites d'informations complexes. C'est pourquoi la génération augmentée par recherche hybride (Hybrid RAG ) est essentielle. Elle combine une recherche sémantique dense avec une recherche lexicale parcimonieuse, offrant à la fois pertinence contextuelle et précision des mots clés. Cette approche hybride garantit que le système extrait le contexte des données textuelles structurées et non structurées, fournissant ainsi des réponses plus précises.

La version actuelle se concentre sur les données textuelles non structurées, telles que les avis sur les produits, qui contiennent souvent des opinions nuancées, des détails techniques et des variations linguistiques. Le système utilise plusieurs techniques de recherche pour garantir la saisie du sens et de la terminologie exacte.
À l'avenir, Hybrid RAG pourrait être étendu pour inclure des informations structurées et des données graphiques, lui permettant ainsi de répondre à des requêtes plus complexes en intégrant les faits issus des graphes de connaissances au sentiment ou au contexte des avis. Il en résulterait un contexte unifié reliant les données brutes, les documents structurés et le contenu narratif, offrant un contexte plus riche lors de la génération des réponses.

Lorsqu'un utilisateur soumet une requête, le système active deux composants de recherche parallèles : un modèle dense (sémantique) et un modèle parcimonieux (lexical). Le modèle dense capture les significations et les relations générales, tandis que le modèle parcimonieux, basé sur SPLADE, se concentre sur les termes clés.
Ces deux ensembles de résultats sont fusionnés à l'aide de la fusion par classement réciproque (RRF), ce qui résout l'incompatibilité des scores entre différentes méthodes de recherche. Cette approche hybride permet au système de récupérer plusieurs documents répondant à différentes parties d'une requête, améliorant ainsi sa capacité à générer des réponses cohérentes basées sur le contexte le plus pertinent et le plus complet disponible.

Oui, l'approche hybride est plus gourmande en ressources. Elle nécessite davantage de puissance de calcul en raison de la génération de deux vecteurs, des doubles opérations de recherche et de la logique de fusion. Cela se traduit par des temps de traitement des requêtes plus longs et un besoin d'infrastructure supplémentaire pour gérer d'importants volumes de données.
Malgré cela, les gains de performance, notamment en termes de rang réciproque moyen (MRR) et de rappel à 5 points (Recall@5), justifient ce compromis pour les applications où l'exactitude et l'exhaustivité des données factuelles sont essentielles. Lors d'une évaluation comparative rigoureuse, la méthode hybride a systématiquement permis d'obtenir des informations plus pertinentes et plus précises que les systèmes basés uniquement sur des données denses.

Contrairement aux techniques RAG traditionnelles qui reposent uniquement sur des plongements denses, Hybrid RAG exploite plusieurs méthodes de recherche pour optimiser la qualité des réponses. Grâce à sa conception à double recherche, il prend en charge un plus large éventail de requêtes, des plus vagues aux plus spécifiques.
Sa nature hybride la rend particulièrement performante dans les cas d'utilisation où de multiples contraintes doivent être satisfaites, comme la combinaison d'informations structurées (par exemple, « sans parabènes ») et d'intentions plus générales (par exemple, « déodorant naturel »). Cette analyse comparative démontre que Hybrid RAG offre une réponse plus équilibrée et adaptative, basée sur des signaux à la fois denses et épars.

Oui, les développements futurs d'Hybrid RAG prévoient l'intégration de graphes de connaissances et de données structurées en complément du texte. Ainsi, il pourra répondre à des requêtes structurées et fournir des réponses qui synthétisent les relations basées sur les graphes (comme les catégories de produits ou les interactions entre ingrédients) avec les avis libres des utilisateurs.
Cela permettrait au système de générer des réponses fondées à la fois sur des structures factuelles précises et sur des récits humains nuancés, améliorant ainsi l'exactitude des faits et la satisfaction des utilisateurs.

Comme Hybrid RAG effectue deux types de recherche puis fusionne les résultats, il consomme naturellement davantage de ressources de calcul. La génération de vecteurs, notamment lors de la génération d'embeddings denses et clairsemés, représente plus de 90 % de la latence totale. Par rapport à une approche utilisant uniquement des embeddings denses, cela augmente la latence (environ 201 ms par requête dans notre test de performance).

Liens de référence

McAuley-Lab/Amazon-Reviews-2023 · Datasets at Hugging Face

McAuley-Lab

Amazon question/answer data

Cem Dilmegani

Analyste principal

Suivre

Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.

Voir le profil complet

Recherche effectuée par

Ekrem Sarı

Chercheur en IA

Suivre

Ekrem est chercheur en IA chez AIMultiple, spécialisé dans l'automatisation intelligente, les GPU, les agents IA et les frameworks RAG.

Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

Hybrid RAG : Amélioration de la précision RAG

Comparaison des performances : recherche dense vs recherche hybride