Nous avons évalué 10 modèles d'intégration multilingues sur environ 606 000 avis Amazon dans 6 langues (allemand, anglais, espagnol, français, japonais et chinois). Nous avons généré 1 800 requêtes (300 par langue), chacune faisant référence à des détails précis de l'avis source.
Les modèles entraînés pour la recherche (séparation requête vs document) surpassent les modèles plus grands entraînés pour la similarité textuelle générale : e5_base (110 millions de paramètres) surpasse les modèles avec 5 à 70 fois plus de paramètres, tandis que LaBSE (471 millions de paramètres), un modèle multilingue largement cité, se classe avant-dernier.
précision de la recherche multilingue
Le critère Top-1 indique si l'avis correct est le premier résultat affiché ; le critère Top-10 indique s'il apparaît parmi les dix premiers résultats.
Précision Top-1
Précision Top-3
Précision Top-5
Précision Top-10
Explication des indicateurs
- Précision Top-K : Indique si le document correct (correspondant exactement à product_id) apparaît parmi les K premiers résultats. « Le modèle peut-il trouver le bon avis en allemand parmi environ 130 000 avis en allemand lorsqu’une question en allemand est posée ? »
- Top-1/3/5/10 : valeurs K testées. Top-1 est le critère le plus strict (le document correct doit être le premier résultat), Top-10 est le plus permissif.
Pour comprendre en détail notre évaluation et nos indicateurs, consultez notre configuration d'évaluation et notre méthodologie de référence pour les modèles d'intégration multilingues.
Corpus : environ 606 000 avis (longueur minimale des avis : 100 caractères ; ZH : environ 17 700, DE/EN/ES/FR/JA : environ 120 000 à 145 000 chacun), sans approximation par similarité cosinus, correspondance exacte de l’identifiant du produit uniquement. Évaluation réalisée sur la carte mère NVIDIA H100 PCIe 80 Go.
Latence et débit
La latence détermine la viabilité d'un modèle en production. Les modèles dont la latence est inférieure à 15 ms permettent une recherche en temps réel ; au-delà de 25 ms, le traitement par lots ou la mise en cache sont nécessaires.
Principales conclusions
1. e5_base est en tête dans toutes les langues.
e5_base atteint une moyenne de 16,5 % de résultats Top-1 sur 6 langues, surpassant le modèle suivant (e5_small) de 3,8 points de pourcentage. Son entraînement asymétrique des préfixes de requête/passage produit des représentations vectorielles précises qui permettent de bien discriminer les avis sémantiquement similaires dans une même langue.
2. Les modèles basés sur les LLM sont compétitifs malgré leur taille
Les modèles qwen3_emb_06b (600 millions de paramètres) et llama_embed_nemotron_8b (8 milliards de paramètres) atteignent tous deux une précision monolingue supérieure à 10 %. Leur pré-entraînement multilingue massif semble construire des représentations que le réglage fin de la recherche ne peut pas complètement effacer, leur permettant de rester compétitifs avec des modèles ayant un nombre de paramètres bien inférieur. Nemotron atteint 25,8 % dans le Top 10, soit le troisième meilleur résultat global.
3. nomic_embed_v1_5 ne fonctionne pas avec les langues CJK.
Le modèle nomic atteint une précision de 0 % en chinois et de seulement 4 % en japonais, ce qui en fait le seul à échouer complètement pour des langues entières. Son entraînement centré sur l'anglais, combiné à une asymétrie des préfixes search_query/search_document, crée d'importantes lacunes de couverture pour les langues non européennes, malgré de bons résultats pour l'anglais (17 % de résultats dans le Top-1) et l'allemand (9 %).
4. LaBSE échoue dans la récupération malgré sa réputation
LaBSE a été spécifiquement conçu pour la similarité sémantique multilingue et est largement cité dans la littérature. Dans ce test comparatif, il se classe avant-dernier (4,8 % de résultats dans le Top-1). Son entraînement sur des paires de traductions et l'inférence en langage naturel n'a pas permis d'atteindre la précision discriminative requise pour la recherche : distinguer la critique source exacte parmi des centaines de produits sémantiquement similaires dans la même langue.
5. Le classement dans le top 10 profite à tous les modèles, mais surtout aux plus performants.
Passer du Top 1 au Top 10 double le rappel dans tous les domaines. Nemotron affiche la meilleure moyenne monolingue du Top 10 (25,8 %) malgré sa 3e place au Top 1 (12,0 %), ce qui suggère que son espace à 4096 dimensions possède une bonne structure de voisinage pour des valeurs de K plus élevées.
6. L'espagnol et le français obtiennent systématiquement des résultats inférieurs aux attentes.
Dans tous les modèles, l'espagnol (ES) et le français (FR) se classent systématiquement en dessous de l'allemand (DE), de l'anglais (EN), du japonais (JA) et du chinois (ZH). Cette tendance se confirme même pour les modèles ayant bénéficié d'un entraînement multilingue explicite, ce qui suggère une sous-représentation dans les corpus de pré-entraînement ou une inadéquation du domaine pour les avis sur les produits.
Comment fonctionnent les plongements multilingues
Un modèle d'intégration transforme un texte en un vecteur de grande dimension (par exemple, 384 ou 768 nombres) qui capture le sens du texte plutôt que les mots eux-mêmes. Deux textes sémantiquement similaires devraient avoir des vecteurs proches dans cet espace, quelle que soit la langue.
Un modèle d'intégration multilingue gère plusieurs langues dans un même espace vectoriel. Lors de la recherche d'informations, ce modèle doit trouver le document pertinent parmi des dizaines de milliers d'avis rédigés dans la même langue et traitant souvent de produits et de sujets similaires. La difficulté réside dans la précision du discernement : distinguer l'avis source exact parmi des centaines d'avis sémantiquement similaires appartenant à la même catégorie.
Configuration d'évaluation multilingue
Environ 606 000 avis produits sont indexés dans Qdrant (uniquement les avis d'au moins 100 caractères ; environ 17 700 en chinois, et entre 120 000 et 145 000 dans les autres langues). 1 800 requêtes (300 par langue) sont générées nativement par LLM à partir d'avis respectant le même seuil de longueur. Chaque requête doit faire référence à des détails précis de l'avis source (mesures, quantités, marques, dates) ; les questions génériques sont éliminées grâce à un score de spécificité. Pour une requête formulée dans la langue X, l'objectif est de retrouver l'avis source parmi les avis publiés dans cette même langue. Qdrant filtre les résultats par langue. La précision est mesurée par la correspondance exacte de l'identifiant produit (product_id) parmi les 10 premiers résultats (Top-1/3/5/10), sans recours à la similarité cosinus.
Exemples de requêtes issues du benchmark :
Allemand (électronique, OPINION) :
Français (pharmacie, USAGE) :
Espagnol (fournitures industrielles, FACTUEL) :
Le modèle doit faire correspondre chaque requête à son avis source exact grâce à l'identifiant du produit (product_id). Une requête concernant la perte de signal Wi-Fi due à un câble d'antenne pourrait correspondre sémantiquement à des milliers d'avis sur des produits électroniques traitant de problèmes de connectivité ; or, un seul décrit une chute du signal de 60 % à 20 % après l'installation de ce câble précis.
Analyse technique et recommandations
Modèles symétriques et asymétriques
L'objectif de l'entraînement prédit en grande partie les performances de récupération :
Pourquoi les modèles asymétriques sont les plus performants : le préfixe requête/passage entraîne le modèle à intégrer les requêtes et les documents dans des régions systématiquement différentes de l’espace, créant ainsi une géométrie spécifique à la recherche. Ceci produit des représentations plus discriminantes qui séparent les documents sémantiquement similaires mais distincts. e5_base atteint ce résultat avec 110 millions de paramètres car c’est l’objectif de l’entraînement, et non la capacité du modèle, qui détermine la précision de la recherche.
Pourquoi les modèles basés sur LLM sont-ils compétitifs ? Un pré-entraînement multilingue massif permet de construire une structure sémantique riche dans les poids du modèle. L’ajustement fin de la recherche ajoute un alignement spécifique à la tâche à cette compréhension approfondie du langage, ce qui se traduit par des performances compétitives. Le compromis réside dans la latence : les vecteurs de dimension 4096 de Nemotron coûtent 25 ms par requête contre 11 ms pour e5_base.
Pourquoi LaBSE échoue malgré sa réputation : LaBSE a été entraîné sur des paires de traductions pour rapprocher le sens des phrases entre les langues, une tâche de similarité. La recherche est fondamentalement différente : elle exige de distinguer la critique source exacte parmi des centaines de produits sémantiquement similaires dans la même langue. L’entraînement sur la similarité optimise la proximité sémantique globale ; la recherche exige une discrimination fine entre les quasi-doublons.
Quel modèle devez-vous utiliser ?
Meilleure précision : e5_base (16,5 % Top-1, latence de 11 ms). À utiliser avec un filtre de langue.
Meilleur compromis latence/précision : e5_small (12,7 % Top-1, 9,7 ms), presque aussi rapide que minilm avec une meilleure précision.
Meilleur rappel top-10 : nemotron (25,8 % Top-10) si vous pouvez vous permettre la latence de 25 ms et la mémoire GPU pour les vecteurs de 4096 dimensions.
Pour les systèmes de production sensibles à la latence : e5_small ou minilm à environ 10 ms. e5_small est fortement préféré (12,7 % contre 3,8 %).
Utilisez systématiquement un filtre linguistique lorsque vous savez que la langue de la requête et celle du document correspondent. Tous les modèles affichent des gains de précision significatifs grâce à la recherche filtrée par langue.
méthodologie des modèles d'intégration multilingues
- GPU : NVIDIA H100 PCIe 80 Go via Runpod
- Base de données vectorielles : Qdrant 1.12.0 (binaire local)
- Bibliothèque d'intégration : sentence-transformers 5.2.2
- Génération de la requête : Claude Sonnet 4.6 via OpenRouter. Chaque question doit faire référence à des détails précis tirés de son analyse source ; les questions génériques (score de spécificité < 4/5) sont éliminées.
- Jeu de données : Amazon Reviews Multi (Kaggle) 1 Fichier train.csv. Environ 606 000 avis indexés (minimum 100 caractères ; chinois : environ 17 700, autres langues : environ 120 000 à 145 000 chacun). 6 langues : allemand, anglais, espagnol, français, japonais, chinois.
- Requêtes : 1 800 au total (300 par langue, 5 types de questions, générées nativement dans chaque langue).
- Format du document :
"Review Title: {title}\nReview: {body}" - Vérité de référence : correspondance exacte de product_id uniquement. Pas de solution de repli basée sur la similarité cosinus.
- Recherche : recherche vectorielle Qdrant avec distance cosinus. Top-K = 10. Filtre linguistique appliqué pour une évaluation monolingue.
- Embedding : normalisation L2. Préfixes asymétriques le cas échéant :
"query: "/"passage: "(e5),"search_query: "/"search_document: "(nomic). - Aucun réglage fin : tous les modèles ont été évalués sans exemple préalable avec des pondérations par défaut.
- Latence : inférence de l’embedding uniquement (requête unique). N’inclut pas le temps de recherche du vecteur.
Modèles évalués
Pourquoi les scores sont-ils inférieurs à ceux du BEIR/MTEB ?
Les chiffres de précision absolue de ce test de référence ne doivent pas être comparés directement aux scores publiés par BEIR ou MTEB. Ces deux tests diffèrent structurellement à plusieurs égards :
La métrique de correspondance exacte représente la principale différence structurelle. Chaque requête fait référence à des détails concrets de son avis source (par exemple : « Combien d'heures l'imprimante 3D a-t-elle mis pour imprimer le fichier du chat depuis la carte SD ? »), ce qui garantit une cible unique et claire pour chaque requête. Pourtant, la métrique attribue toujours zéro à un avis sémantiquement pertinent provenant d'un produit différent. Des métriques à crédit partiel comme le nDCG donneraient des résultats plus élevés pour les mêmes résultats de recherche. Dans ce test comparatif, ce qui importe, c'est le classement relatif des modèles , et non les valeurs absolues.
Limites
- Les types de questions peuvent ne pas refléter les requêtes réelles des utilisateurs. Les questions générées par LLM sont généralement bien formulées et précises. Les utilisateurs réels rédigent souvent des requêtes fragmentaires ou ambiguës.
- Seule la recherche dense est testée. Les méthodes parcimonieuses (BM25), la recherche hybride et les pipelines de réordonnancement ne sont pas évalués. Ces méthodes peuvent modifier significativement le classement entre les modèles.
- Un échantillon de 300 requêtes par langue représente une taille modérée. Les résultats par langue présentent des intervalles de confiance relativement étroits, mais les classements situés en milieu de tableau doivent néanmoins être interprétés avec prudence.
- Aucune évaluation de la qualité de l'intégration n'est effectuée au-delà de la simple récupération. La qualité du regroupement, la précision de la similarité sémantique et les autres tâches en aval ne sont pas mesurées.
Conclusion
Les modèles entraînés pour la recherche (avec des plongements lexicaux distincts pour les requêtes et les documents) surpassent systématiquement les modèles entraînés pour la similarité textuelle générale, quelle que soit la taille du modèle. e5_base (110 millions de paramètres) est plus performant que des modèles 5 à 70 fois plus volumineux. LaBSE (471 millions de paramètres), largement cité pour les tâches multilingues, se classe avant-dernier car son entraînement à la similarité ne permet pas d'atteindre la discrimination fine requise pour la recherche.
Les modèles basés sur LLM (qwen3 avec 600 millions de paramètres, nemotron avec 8 milliards de paramètres) atteignent une précision compétitive grâce à un pré-entraînement multilingue approfondi, mais au prix d'une latence élevée : nemotron affiche 25 ms par requête contre 11 ms pour e5_base, avec un rappel Top-10 à peine supérieur. Pour la plupart des systèmes de production, les modèles plus petits, entraînés par la recherche, offrent un meilleur compromis.
Pour les praticiens qui construisent des systèmes RAG multilingues, e5_base avec un filtre de langue est le choix évident (16,5 % Top-1, latence de 11 ms et un écart de 3,8 points de pourcentage avec la deuxième place).
Pour en savoir plus
Explorez d'autres indicateurs RAG, tels que :
- Modèles d'intégration : OpenAI vs Gemini vs Cohere
- Les 16 meilleurs modèles d'embeddings open source pour RAG
- Meilleure base de données vectorielles pour RAG : Qdrant vs Weaviate vs Pinecone
- Analyse comparative d'Agentic RAG : routage multi-bases de données et génération de requêtes
- Modèles d'intégration multimodaux : Apple vs Meta vs OpenAI
- Hybrid RAG : Amélioration de la précision RAG
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.