L'efficacité de tout système de génération augmentée par récupération (RAG) dépend de la précision de son récupérateur.
Nous avons comparé les performances de 11 modèles d'intégration de texte de pointe, notamment ceux de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral et Voyage AI, en utilisant environ 500 000 avis Amazon. Nous avons évalué la capacité de chaque modèle à retrouver et à classer la bonne réponse en premier.
Comparaison des modèles d'intégration : précision et prix
Le critère le plus important pour évaluer la performance d'un modèle d'intégration est sa capacité à trouver et à classer en premier le document correct. Nous avons quantifié cette performance à l'aide de notre « score de précision » et l'avons comparé au prix de chaque modèle. Pour comprendre en détail notre approche d'évaluation, veuillez consulter notre méthodologie d'analyse comparative des modèles d'intégration .
Le nuage de points montre que les modèles plus chers n'offrent pas nécessairement une meilleure précision. Les modèles les plus performants présentent le meilleur compromis entre précision et coût.
- Meilleure précision globale : mistral-embed a atteint la plus haute précision (77,8 %), ce qui le rend idéal pour les scénarios privilégiant la précision de récupération même à un coût modéré.
- Performances de milieu de gamme : le Voyage-4 offre une précision (68,6 %) à un coût compétitif (0,06 $), offrant un bon équilibre entre performance et prix.
- Options à coût modéré : Snowflake (Fonctions d'IA Cortex) snowflake-arctic-embed-l-v2.0 (66,6%) offre de bonnes performances de précision à un coût modéré.
- Alternative plus coûteuse : Google (API Vertex AI) gemini-embedding-001 a atteint une précision plus élevée (71,5 %) mais avec le prix le plus élevé, limitant son attrait dans les projets sensibles aux coûts.
- Modèles coûteux sous-performants : Les modèles embed-v4.0 de marques leaders du secteur comme OpenAI text-embedding-3-large et Cohere ont obtenu une précision inférieure à celle d'alternatives comparables ou moins chères.
Pour comprendre comment nous avons calculé le score, consultez notre méthodologie de précision .
Un modèle doit comprendre le sens général et la pertinence d'une requête. Le « score de pertinence » (similarité moyenne de la requête) mesure la concordance sémantique entre les 5 premiers documents extraits et la requête de l'utilisateur.
Pour comprendre comment nous avons calculé le score, consultez notre méthodologie de pertinence .
- Leaders constants : Les plus performants en matière de précision, comme mistral-embed et Google (API d’IA de Vertex), sont également en tête en matière de pertinence, ce qui indique une compréhension sémantique robuste et complète.
- Le « piège de la pertinence » : Il est intéressant de noter que certains modèles excellent dans la recherche de documents sémantiquement liés, mais pas nécessairement dans la recherche des documents pertinents. Par exemple, le document OpenAI associé à text-embedding-3-small a obtenu un score de pertinence honorable (48,6 %), mais un score de précision parmi les plus faibles (39,2 %). Cela indique que le modèle identifie le domaine d’information général, mais peine à trouver des réponses précises.
Un score de pertinence élevé est une condition nécessaire, mais non suffisante, pour un système de recherche de premier ordre. Les meilleurs modèles excellent à la fois dans la compréhension globale du sujet et dans l'identification précise de la réponse correcte.
Calculateur de prix pour l'intégration de modèles
Pour vous aider à traduire nos conclusions en un budget pratique pour votre propre projet, utilisez le calculateur interactif ci-dessous pour estimer les coûts d'intégration en fonction du nombre de jetons dans votre ensemble de données.
Remarque : Le prix de Snowflake varie selon l’édition et la région. Notre analyse comparative a été réalisée avec l’édition Standard de Snowflake (0,10 $ par million de jetons). Prix des autres éditions : Entreprise (0,15 $), Commerciale (0,20 $).
Comprendre les caractéristiques clés du modèle d'intégration
Il est crucial de comprendre les attributs techniques clés qui définissent les capacités et les besoins en ressources d'un modèle d'intégration.
- Dimension de l'embedding : taille du vecteur produit par le modèle. Les dimensions indiquées dans notre tableau correspondent à la taille par défaut ou optimale recommandée par le fournisseur pour une utilisation générale. Des dimensions plus élevées (par exemple, 3072 pour OpenAI et text-embedding-3-large) capturent davantage de nuances sémantiques, mais nécessitent beaucoup plus de ressources de stockage et de calcul. Des dimensions plus faibles (par exemple, 768 pour text-embedding-005) sont plus efficaces. Nos résultats démontrent que des dimensions plus importantes n'améliorent pas automatiquement la précision de la recherche.
- Nombre maximal de jetons : longueur maximale d'une séquence de texte traitable en une seule passe. Une fenêtre de contexte plus large est avantageuse pour l'intégration de longs documents sans découpage en segments. Bien que notre approche au niveau du document soit compatible avec tous les modèles, cet attribut devient crucial lors de la mise en œuvre de stratégies de découpage en segments fines pour les grands extraits de texte.
Raisons potentielles des différences de performance du modèle d'intégration
1. Approche architecturale fondamentale
Les choix de conception fondamentaux affectent les capacités de raisonnement et sémantiques inhérentes au modèle, qu'il s'agisse d'un décodeur basé sur LLM ou d'un encodeur traditionnel comme BERT.
- Il est confirmé que Mistral (mistral-embed) est dérivé de leur architecture LLM plutôt que d'un encodeur BERT standard.
- Compréhension sémantique approfondie : contrairement aux anciens modèles qui mappent les mots-clés, l’architecture LLM comprend intrinsèquement le « suivi d’instructions ». Cela lui permet d’analyser la logique complexe de la requête (contraintes) et de gérer la syntaxe informelle/bruiteuse des avis Amazon.
- Snowflake (Arctic-embed) est basé sur des fondements d'encodeur open-source standard, affinés sur des paires de récupération massives.
- Architecture de base robuste : une architecture traditionnelle optimisée pour la recherche. Elle ne possède pas la complexité d’un LLM, mais offre des performances constantes et prévisibles pour les recherches standard.
2. Données d'entraînement et stratégie de réglage fin
Les méthodes spécialisées utilisées pendant l'entraînement (par exemple, l'extraction de négatifs durs ou l'apprentissage contrastif) ont un impact direct sur la capacité du modèle à gérer les nuances et à distinguer les concepts similaires.
- Voyage AI (voyage-4/3.5/3) est construit par des chercheurs de Stanford spécialisés dans RAG ; les données d'entraînement incluent explicitement des négatifs « délicats » (A vs non-A).
- Prise en compte des contraintes : le modèle est finement ajusté mathématiquement pour éloigner considérablement les éléments « similaires mais erronés » (comme Naturel vs Sans aluminium) dans l’espace vectoriel, évitant ainsi le « piège de la pertinence ».
- Cohere (embed-v4.0) est spécialisé dans la maximisation de la distance entre paires distinctes ; souvent conçu pour fonctionner en tandem avec un Reranker.
- Dérive/concentration : Les modèles contrastifs nécessitent souvent une seconde étape de « réordonnancement » pour gérer le bruit. Pris individuellement (en une seule passe), ils peinent à faire correspondre la syntaxe « bruitée » des avis à la syntaxe formelle des requêtes, contrairement aux plongements lexicaux plus récents basés sur les modèles linéaires à longue portée (LLM).
3. Stratégie de représentation vectorielle
L'approche de OpenAI pour créer des représentations vectorielles flexibles introduit un compromis entre la flexibilité de la longueur du vecteur et la conservation des détails sémantiques.
- OpenAI (text-embedding-3) , également connu sous le nom d'apprentissage de représentation Matryoshka, permet la troncature vectorielle et charge les informations générales en amont.
- Le compromis de la compression : l’apprentissage par matrice oblige le modèle à compresser les nuances pour garantir la flexibilité du vecteur. Il capture efficacement le sujet général (pertinence), mais perd les détails spécifiques (précision) nécessaires au respect de contraintes strictes, ce qui conduit à une classification moins performante.
Méthodologie de référence pour l'intégration de modèles
Notre banc d’essai fournit une évaluation juste, transparente et reproductible des performances du modèle d’intégration pour RAG .
Configuration du test et corpus de données
- Corpus de connaissances : Nous avons utilisé comme base de connaissances un ensemble de données de 494 094 avis d'utilisateurs réels provenant de l'ensemble de données d'avis Amazon. 1
- Base de données vectorielles : Nous avons utilisé Qdrant pour héberger toutes les collections vectorielles, qui ont été explicitement configurées pour la recherche de similarité cosinus.
- Questions de test : Nous avons sélectionné manuellement un ensemble de 100 questions complexes et réalistes à partir d’un ensemble de données externe d’Amazon Q&A. 2 Ces questions ont été sélectionnées pour tester le raisonnement sophistiqué, et chacune comportait une « meilleure réponse » élue par l’utilisateur, servant de référence. Pour illustrer la nature de ces requêtes, l’ensemble de test comprenait des questions complexes à contraintes multiples, telles que :
- « Existe-t-il un anti-transpirant naturel A&H contenant une alternative sûre à l'aluminium et aux parabènes ? »
- Ce type de requête est particulièrement complexe car il exige du modèle qu'il comprenne simultanément plusieurs contraintes (Marque : A&H ; Attribut : naturel ; Contrainte négative : sans aluminium/parabène) et le concept abstrait de trouver une « alternative ».
Principes fondamentaux d'évaluation
- Collections isolées et dimensions natives : pour chaque modèle, nous avons intégré l’intégralité du corpus dans une collection dédiée et isolée. Conformément aux benchmarks standards tels que MTEB, nous avons évalué chaque modèle en utilisant ses dimensions d’intégration natives et optimales. 3
- Granularité de la recherche : Ce test a été réalisé au niveau du document. Chaque avis utilisateur a été considéré comme un document unique et converti en un vecteur unique. Aucun découpage fin n’a été appliqué.
- Évaluation sans exemple : Le test a été réalisé selon un cadre « sans exemple ». Cela signifie que les modèles ont été évalués sur un jeu de données spécifique qu’ils n’avaient pas utilisé lors de leur entraînement initial. Nous n’avons procédé à aucun réglage fin ni à aucun entraînement sur notre jeu de données ou nos requêtes spécifiques.
Métriques d'évaluation : une approche à deux niveaux
Nous avons utilisé une évaluation en deux étapes pour distinguer la pertinence sémantique générale de la précision de la recherche. Au cœur de ces deux métriques se trouve la similarité cosinus, une méthode standard permettant de mesurer la similarité entre deux vecteurs dans l'espace d'intégration.
Métrique 1 : La pertinence (score de similarité moyen des requêtes)
Cette métrique répond à la question : « Le modèle comprend-il le sujet général de la requête ? » Elle mesure la pertinence sémantique globale des 5 premiers documents récupérés par rapport à la requête de l’utilisateur.
Calcul : Pour chaque requête, les étapes suivantes ont été effectuées :
- Le texte de la requête a été converti en vecteur à l'aide du modèle testé.
- Une recherche a été effectuée pour récupérer les 5 premiers documents.
- Nous avons calculé la similarité cosinus entre ces deux vecteurs résultants.
- Le score final de la requête correspond à la moyenne de ces cinq valeurs de similarité.
Métrique 2 : La précision (score de similarité avec la vérité terrain)
Il s'agit de notre indicateur principal et le plus crucial. Il répond à la question : « Le modèle peut-il trouver la meilleure réponse possible et la présenter en premier à l'utilisateur ? »
Calcul : Pour chaque requête, nous avons effectué une comparaison précise :
- Le document le mieux classé renvoyé par le système de récupération a été identifié.
- Le texte de réponse « vérité terrain » prédéfini a également été identifié.
- Point crucial, le texte du document de rang 1 et le texte de la réponse de référence ont tous deux été convertis en vecteurs à l'aide du même modèle évalué.
- On a ensuite calculé la similarité cosinus entre ces deux vecteurs. La similarité des documents classés de 2 à 5 a été explicitement ignorée.
Un score élevé à cet indicateur mesure directement la précision d'un modèle et sa capacité à distinguer les informations les plus utiles parmi un ensemble de documents sémantiquement similaires.
Cadre de mesure : Similarité cosinus
Notre évaluation utilise la similarité cosinus, une mesure robuste de la similarité entre deux vecteurs.
Au lieu de mesurer la distance physique entre les vecteurs, cette métrique calcule le cosinus de l'angle entre eux. En substance, elle détermine si les vecteurs pointent dans la même direction, fournissant ainsi une mesure d'orientation pure, et non de magnitude. Le score obtenu varie de 1 à -1.
- 1 : Les vecteurs sont identiques en orientation (similarité sémantique maximale).
- 0 : Les vecteurs sont orthogonaux, ce qui indique l'absence de relation sémantique.
- -1 : Les vecteurs pointent dans des directions opposées (sens opposé).
Pour notre test d'intégration, cela nous permet de quantifier avec précision la similarité sémantique entre un document récupéré et la requête d'un utilisateur ou une réponse de référence. Nous avons utilisé ce calcul fondamental pour construire nos deux indicateurs principaux.
Limites des modèles d'intégration de référence
Bien que ce référentiel ait été conçu pour être objectif, il est important de tenir compte de sa portée et de ses limites spécifiques. Les facteurs suivants doivent être pris en considération lors de l'interprétation des résultats :
- Spécificité du domaine : Les résultats sont fortement spécifiques à l’ensemble de données d’avis Amazon utilisé. La hiérarchie des performances de ces modèles pourrait varier selon les domaines auxquels ils sont appliqués, notamment pour des textes juridiques, des articles universitaires ou du code logiciel. Un modèle performant pour la compréhension de textes d’avis informels et subjectifs n’est pas forcément le plus adapté à un corpus exigeant une compréhension approfondie du langage technique ou formel.
- Granularité au niveau du document : Notre méthodologie a évalué les modèles à une granularité « au niveau du document », en traitant chaque analyse complète comme un vecteur unique. Cette approche teste la capacité d’un modèle à comprendre le contexte global d’un document. Elle ne mesure cependant pas les performances sur des tâches de recherche plus fines qui nécessiteraient de segmenter les documents en unités plus petites (par exemple, des paragraphes ou des phrases). Les performances d’un modèle peuvent varier selon la stratégie de segmentation utilisée.
Pour en savoir plus
Explorez d'autres indicateurs RAG, tels que :
- Meilleure base de données vectorielles pour RAG : Qdrant vs Weaviate vs Pinecone
- Hybrid RAG : Amélioration de la précision RAG
- Analyse comparative d'Agentic RAG : routage multi-bases de données et génération de requêtes
Conclusion
D'après notre évaluation, mistral-embed a atteint la plus grande précision (77,8 %), ce qui en fait le meilleur choix pour les scénarios où la précision de récupération est primordiale, même à un coût modéré.
Pour les implémentations soucieuses des coûts, voyage-3.5-lite apparaît comme le choix optimal pour les systèmes RAG de production, offrant un excellent équilibre précision-coût avec des performances solides (66,1 %) à l'un des prix les plus bas.
L'API Google (Vertex AI API) gemini-embedding-001 offre une autre option de haute précision (71,5 %), adaptée aux applications critiques en matière de précision où un prix premium est acceptable.
Pour les organisations au sein de l'écosystème Snowflake, Snowflake (Cortex AI Functions) snowflake-arctic-embed-l-v2.0 offre une précision compétitive (66,6%) à un coût modéré.
Principales conclusions concernant la sélection du modèle d'intégration :
- Des dimensions plus élevées ne garantissent pas de meilleures performances
- Un prix élevé n'est pas synonyme de précision supérieure.
- L'évaluation comparative spécifique au domaine est essentielle pour la sélection du modèle d'intégration
FAQ
Les modèles d'embeddings permettent de convertir un texte en un format compréhensible par les machines. Ils utilisent un réseau neuronal pour générer des embeddings à partir d'un texte non structuré. Le résultat est un vecteur de nombres qui représente numériquement le sens du texte original. Ce vecteur positionne le texte comme un point dans un espace mathématique de grande dimension appelé espace d'embedding, où les textes de sens similaire sont regroupés.
Il s'agit d'une distinction fondamentale en traitement automatique du langage naturel (TALN). Les plongements lexicaux traditionnels créent un vecteur unique pour chaque mot, sans tenir compte du contexte. Les plongements de phrases modernes, utilisés par les modèles de ce test, sont plus sophistiqués. Ils créent des vecteurs contextualisés pour des phrases entières, en comprenant que le sens d'un mot varie selon le texte environnant. Cela leur permet de saisir des relations sémantiques beaucoup plus nuancées.
Les modèles pré-entraînés sont un type de modèle d'apprentissage automatique entraîné sur de vastes quantités de données textuelles générales. Tous les modèles d'embeddings de haute qualité de notre banc d'essai sont pré-entraînés. Cet entraînement initial leur confère une compréhension fondamentale du langage et des relations sémantiques. Notre test mesure ensuite l'efficacité avec laquelle ces connaissances pré-entraînées traitent les données complexes de notre domaine spécifique, sans nécessiter de données d'entraînement supplémentaires et personnalisées.
Bien que notre analyse comparative se soit concentrée sur le traitement automatique du langage naturel, les mêmes principes s'appliquent à d'autres types de données. Des modèles d'apprentissage automatique spécialisés sont conçus pour traiter différentes formes de données complexes. Par exemple, les modèles d'intégration d'images sont créés à l'aide de réseaux neuronaux convolutifs pour capturer les caractéristiques visuelles, tandis que les modèles d'intégration de graphes servent à créer des représentations numériques des nœuds et de leurs connexions dans les données de réseau. C'est cette flexibilité qui confère à la technologie d'intégration sa puissance pour un large éventail de systèmes d'IA.
La qualité des plongements lexicaux influe considérablement sur la précision du benchmark. Plusieurs facteurs contribuent à générer des plongements lexicaux de haute qualité : Architecture du modèle : L’utilisation d’un modèle d’apprentissage automatique performant, tel qu’un Transformer, est essentielle.
Qualité des données : Les performances du modèle dépendent fortement de la qualité de ses données d’entraînement initiales et de la propreté des données d’entrée qu’il traite.
Méthodologie : Notre utilisation d'un cadre « zéro-shot » sur des données complexes garantit que nous testons la véritable capacité du modèle à créer des représentations robustes et généralisables.
L'espace d'intégration est l'espace conceptuel multidimensionnel où résident toutes les représentations numériques (vecteurs) générées par un modèle. Dans cet espace, la distance et la direction entre les vecteurs correspondent à leurs relations sémantiques. Lors d'une recherche, la requête est convertie en un vecteur et placée dans ce même espace d'intégration. Le rôle du moteur de recherche est de trouver les vecteurs voisins les plus proches, qui représentent les documents les plus similaires sémantiquement ; il s'agit d'un élément fondamental du traitement du langage naturel par les systèmes d'IA modernes.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.