Los 10 mejores modelos de incrustación multilingüe para RAG

actualizado el Feb 20, 2026

Evaluamos el rendimiento de 10 modelos de incrustación multilingües con aproximadamente 606 000 reseñas de Amazon en 6 idiomas (alemán, inglés, español, francés, japonés y chino). Generamos 1800 consultas (300 por idioma), cada una de las cuales hacía referencia a detalles concretos de su reseña original.

Los modelos entrenados para la búsqueda (separación entre consulta y documento) superan a los modelos más grandes entrenados para la similitud general de texto: e5_base (110 millones de parámetros) supera a los modelos con entre 5 y 70 veces más parámetros, mientras que LaBSE (471 millones de parámetros), un modelo multilingüe ampliamente citado, ocupa el penúltimo lugar.

Precisión en la recuperación multilingüe

Top-1 mide si la reseña correcta es el primer resultado que se devuelve; Top-10 mide si aparece en algún lugar entre los diez primeros.

Precisión de primer nivel

Loading Chart

Precisión entre los 3 mejores

Precisión entre los 5 mejores

Precisión entre los 10 mejores

Explicación de las métricas

Precisión Top-K: Indica si el documento correcto (mediante coincidencia exacta de product_id) aparece entre los primeros K resultados. "¿Puede el modelo encontrar la reseña alemana correcta al formular una pregunta en alemán entre aproximadamente 130 000 reseñas alemanas?"
Top-1/3/5/10: Valores K probados. Top-1 es el más estricto (el documento correcto debe ser el primer resultado), Top-10 es el más permisivo.

Para comprender en detalle nuestra evaluación y métricas, consulte nuestra configuración de evaluación y metodología de referencia para modelos de incrustación multilingües.

Corpus : ~606k reseñas (min_review_length≥100 caracteres; ZH: ~17.7k, DE/EN/ES/FR/JA: ~120–145k cada una), sin reserva de similitud de coseno, solo coincidencia exacta de product_id. Evaluado en NVIDIA H100 PCIe 80GB.

Latencia y rendimiento

La latencia determina si un modelo es viable para la producción. Los modelos con una latencia inferior a 15 ms pueden admitir búsquedas en tiempo real; si supera los 25 ms, es necesario el procesamiento por lotes o el almacenamiento en caché.

Principales conclusiones

1. e5_base lidera en todos los idiomas.

e5_base alcanza un promedio del 16,5 % en el Top-1 en 6 idiomas, superando al siguiente modelo (e5_small) por 3,8 puntos porcentuales. Su entrenamiento asimétrico con prefijos de consulta/pasaje produce incrustaciones precisas que discriminan eficazmente entre reseñas semánticamente similares en el mismo idioma.

2. Los modelos basados en LLM son competitivos a pesar de su tamaño.

qwen3_emb_06b (600 millones de parámetros) y llama_embed_nemotron_8b (8 mil millones de parámetros) alcanzan una precisión monolingüe superior al 10 %. Su preentrenamiento multilingüe masivo parece generar representaciones que el ajuste fino de recuperación no puede eliminar por completo, manteniéndose competitivos con modelos que tienen una fracción de sus parámetros. nemotron alcanza el 25,8 % en el Top-10, el tercer mejor resultado en general.

3. nomic_embed_v1_5 falla en idiomas CJK

nomic alcanza una precisión del 0% en chino y solo del 4% en japonés, siendo el único modelo que falla por completo en idiomas enteros. Su entrenamiento centrado en el inglés, combinado con la asimetría de prefijos de búsqueda/documento, crea graves brechas de cobertura para idiomas no europeos, a pesar de funcionar bien para el inglés (17% Top-1) y el alemán (9%).

4. LaBSE falla en la recuperación a pesar de su reputación.

LaBSE fue diseñado específicamente para la similitud semántica multilingüe y es ampliamente citado en la literatura. En esta evaluación comparativa, ocupa el penúltimo lugar (4,8 % Top-1). Su entrenamiento con pares de traducción e inferencia del lenguaje natural no logró la precisión discriminativa necesaria para la recuperación: distinguir la reseña original exacta de cientos de productos semánticamente similares en el mismo idioma.

5. La escala de los 10 mejores beneficia a todos los modelos, pero especialmente a los más robustos.

Pasar del Top 1 al Top 10 duplica la recuperación en general. nemotron muestra el mejor promedio monolingüe del Top 10 (25,8 %) a pesar de ocupar el tercer lugar en el Top 1 (12,0 %), lo que sugiere que su espacio de 4096 dimensiones tiene una buena estructura de vecinos más cercanos para un K mayor.

6. El español y el francés obtienen sistemáticamente un rendimiento inferior.

En todos los modelos, ES y FR obtienen consistentemente peores resultados que DE, EN, JA y ZH. Este patrón se mantiene incluso en modelos con entrenamiento multilingüe explícito, lo que sugiere una menor representación en los corpus previos al entrenamiento o una falta de coincidencia de dominio para las reseñas de productos.

Cómo funcionan las incrustaciones multilingües

Un modelo de incrustación convierte el texto en un vector de alta dimensión (por ejemplo, de 384 o 768 números) que captura el significado del texto en lugar de las palabras específicas. Dos textos semánticamente similares deberían tener vectores cercanos en este espacio, independientemente del idioma.

Un modelo de incrustación multilingüe maneja múltiples idiomas en el mismo espacio vectorial. Al utilizarse para la recuperación de información, el modelo debe encontrar el documento correcto entre decenas de miles de reseñas en el mismo idioma que a menudo tratan sobre productos y temas similares. El desafío reside en la precisión discriminativa: distinguir la reseña original exacta de cientos de reseñas semánticamente similares en la misma categoría.

Configuración de evaluación multilingüe

Qdrant indexa aproximadamente 606.000 reseñas de productos (solo reseñas con un cuerpo de ≥100 caracteres; ZH: ~17.700, otros idiomas: ~120-145.000 cada uno). LLM genera de forma nativa 1.800 consultas (300 por idioma) a partir de reseñas que cumplen el mismo umbral de longitud. Cada consulta debe hacer referencia a detalles concretos de su reseña de origen (mediciones, cantidades, nombres de marcas, cronogramas); las preguntas genéricas se filtran mediante una puntuación de especificidad. Dada una consulta en el idioma X, la tarea es encontrar la reseña de origen entre las reseñas del mismo idioma. Qdrant filtra los resultados por idioma. La precisión se mide mediante la coincidencia exacta de product_id en Top-1/3/5/10 sin reserva de similitud de coseno.

Ejemplos de consultas del benchmark:

Alemán (electrónica, OPINIÓN):

Francés (farmacia, USO):

Español (suministros industriales, FACTUAL):

El modelo debe relacionar cada consulta con su reseña de origen exacta mediante el ID del producto. Una consulta sobre la pérdida de señal WiFi debido a un cable de antena podría coincidir semánticamente con miles de reseñas de productos electrónicos que tratan sobre problemas de conectividad; solo una describe una caída de la señal del 60 % al 20 % después de instalar este cable específico.

Análisis técnico y recomendaciones

Modelos simétricos frente a modelos asimétricos

El objetivo del entrenamiento predice en gran medida el rendimiento en la recuperación de información:

Por qué los modelos asimétricos ofrecen el mejor rendimiento: El prefijo de consulta/pasaje entrena al modelo para incrustar consultas y documentos en regiones sistemáticamente distintas del espacio, creando una geometría específica para la recuperación. Esto produce incrustaciones más discriminativas que separan documentos semánticamente similares pero distintos. e5_base logra esto con 110 millones de parámetros porque el objetivo de entrenamiento, y no la capacidad del modelo, determina la precisión de la recuperación.

¿Por qué los modelos basados en LLM son competitivos? El preentrenamiento multilingüe masivo crea una rica estructura semántica en los pesos del modelo. El ajuste fino de la recuperación añade una alineación específica para la tarea sobre esta profunda comprensión del lenguaje, lo que resulta en un rendimiento competitivo. La desventaja es la latencia: los vectores de 4096 dimensiones de nemotron cuestan 25 ms por consulta frente a los 11 ms de e5_base.

¿Por qué LaBSE falla a pesar de su reputación? LaBSE se entrenó con pares de traducciones para lograr una similitud de significado a nivel de oración entre idiomas, una tarea de similitud. La recuperación es fundamentalmente diferente: requiere distinguir la reseña original exacta de cientos de productos semánticamente similares en el mismo idioma. El entrenamiento de similitud optimiza la cercanía semántica general; la recuperación exige una discriminación precisa entre casi idénticos.

¿Qué modelo debería usar?

Mejor precisión: e5_base (16,5 % Top-1, latencia de 11 ms). Utilizar con un filtro de idioma.

La mejor relación latencia/precisión: e5_small (12,7 % Top-1, 9,7 ms), casi tan rápido como minilm con mayor precisión.

Mejor recuperación entre los 10 primeros: nemotron (25,8 % en el Top 10) si puedes permitirte la latencia de 25 ms y la memoria GPU para vectores de 4096 dimensiones.

Para sistemas de producción sensibles a la latencia: e5_small o minilm a ~10 ms. Se prefiere claramente e5_small (12,7 % frente a 3,8 %).

Utilice siempre un filtro de idioma cuando sepa que los idiomas de la consulta y del documento coinciden. Todos los modelos muestran mejoras significativas en la precisión con la búsqueda filtrada por idioma.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Metodología de modelos de incrustación multilingües

GPU: NVIDIA H100 PCIe 80GB vía Runpod
Base de datos de vectores: Qdrant 1.12.0 (binario local)
Biblioteca de incrustación: sentence-transformers 5.2.2
Generación de consultas: Claude Sonnet 4.6 a través de OpenRouter. Cada pregunta debe hacer referencia a detalles específicos de su revisión de origen; las preguntas genéricas (puntuación de especificidad < 4/5) se filtran.
Conjunto de datos: Reseñas de Amazon Multi (Kaggle) ¹ , train.csv. ~606k reseñas indexadas (mínimo 100 caracteres; ZH: ~17.7k, otros: ~120-145k cada uno). 6 idiomas: DE, EN, ES, FR, JA, ZH.
Consultas: 1800 en total (300 por idioma, 5 tipos de preguntas, generadas de forma nativa en cada idioma).
Formato del documento: "Review Title: {title}\nReview: {body}"
Verdad fundamental: solo coincidencia exacta de product_id. No hay alternativa de similitud de coseno.
Búsqueda: Qdrant búsqueda vectorial con distancia coseno. Top-K = 10. Filtro de idioma aplicado para evaluación monolingüe.
Incrustación: normalización L2. Prefijos asimétricos donde corresponda: "query: " / "passage: " (e5), "search_query: " / "search_document: " (nomic).
Sin ajustes finos: Todos los modelos se evaluaron sin ajustes previos y con pesos predeterminados.
Latencia: Inferencia de incrustación únicamente (consulta única). No incluye el tiempo de búsqueda vectorial.

Modelos evaluados

¿Por qué las puntuaciones son más bajas que las de BEIR/MTEB?

Los valores de precisión absoluta de esta evaluación comparativa no deben compararse directamente con las puntuaciones publicadas en BEIR o MTEB. Ambas evaluaciones difieren en varios aspectos estructurales:

La métrica de coincidencia exacta es la principal diferencia estructural. Cada consulta hace referencia a detalles concretos de su reseña de origen (por ejemplo, "¿Cuántas horas tardó la impresora 3D en imprimir el archivo del gato desde la tarjeta SD?"), por lo que cada consulta tiene un objetivo único y claro, pero la métrica sigue otorgando cero puntos a una reseña semánticamente relevante de un producto diferente. Las métricas de crédito parcial, como nDCG, arrojarían números más altos en los mismos resultados de recuperación. Lo que importa en esta comparativa es la clasificación relativa entre los modelos , no los números absolutos.

Limitaciones

Los tipos de preguntas pueden no representar consultas reales de los usuarios. Las preguntas generadas por LLM tienden a estar bien formuladas y ser específicas. Los usuarios reales suelen escribir consultas fragmentarias o ambiguas.
Solo se prueba la recuperación densa. No se evalúan los métodos dispersos (BM25), la recuperación híbrida ni los procesos de reordenamiento. Estos podrían alterar significativamente la clasificación entre los modelos.
Una muestra de 300 consultas por idioma es moderada. Los resultados por idioma presentan intervalos de confianza razonablemente estrechos, pero las clasificaciones cercanas al centro de la tabla deben interpretarse con cautela.
No se evalúa la calidad de la incrustación más allá de la recuperación. No se miden la calidad de la agrupación, la precisión de la similitud semántica ni otras tareas posteriores.

Conclusión

Los modelos entrenados para búsqueda (con incrustaciones de consulta y documento separadas) superan sistemáticamente a los modelos entrenados para similitud de texto general, independientemente del tamaño. e5_base (110 millones de parámetros) supera a modelos entre 5 y 70 veces más grandes. LaBSE (471 millones de parámetros), ampliamente citado para tareas multilingües, ocupa el penúltimo lugar porque su entrenamiento de similitud no desarrolla la discriminación precisa que requiere la recuperación.

Los modelos basados en LLM (qwen3 con 600 millones de parámetros, nemotron con 8 mil millones de parámetros) logran una precisión competitiva gracias al preentrenamiento multilingüe profundo, pero esto se traduce en una mayor latencia: nemotron tarda 25 ms por consulta frente a los 11 ms de e5_base, con una recuperación Top-10 solo ligeramente superior. Para la mayoría de los sistemas de producción, los modelos más pequeños entrenados para búsqueda ofrecen una mejor relación costo-beneficio.

Para los profesionales que desarrollan sistemas RAG multilingües, e5_base con un filtro de idioma es la opción ideal (16,5 % en el Top-1, 11 ms de latencia y una diferencia de 3,8 puntos porcentuales con respecto al segundo puesto).