Contáctanos
No se encontraron resultados.

Evaluación comparativa de los 16 mejores modelos de incrustación de código abierto para RAG

Ekrem Sarı
Ekrem Sarı
actualizado el Abr 25, 2026
Vea nuestra normas éticas

La mayoría de los sistemas de evaluación comparativa de incrustaciones miden la similitud semántica. Nosotros medimos la precisión. Probamos 16 modelos de código abierto, desde incrustaciones de 23 millones de parámetros hasta incrustaciones de 8 mil millones de parámetros, con 490 000 reseñas de productos de Amazon, puntuando cada uno según si recuperaba la reseña correcta mediante la coincidencia exacta del ASIN, y no solo documentos temáticamente similares.

Descripción general de la evaluación comparativa de modelos de incrustación de código abierto

Evaluamos la precisión y la velocidad de recuperación en 100 consultas seleccionadas manualmente, que abarcan tanto modelos ligeros optimizados para la velocidad como incrustaciones basadas en LLM a gran escala diseñadas para una máxima comprensión semántica.

Precisión: Rendimiento de recuperación Top-K

Loading Chart

¿Qué es la precisión top-K?

La precisión Top-K mide con qué frecuencia aparece el documento correcto entre los K primeros resultados recuperados:

  • Top-1: La respuesta correcta se clasifica en primer lugar (la más precisa).
  • Top-3: La respuesta correcta aparece entre los 3 primeros resultados.
  • Top-5: La respuesta correcta aparece entre los 5 primeros resultados (lo más relevante para RAG, que normalmente utiliza de 3 a 5 documentos de contexto).
  • Promedio: Precisión media en Top-1, Top-3 y Top-5

Una mayor precisión significa que el modelo encuentra con más frecuencia la reseña de producto correcta.

Conclusiones clave a partir de los resultados de precisión:

Resultados perfectos entre los 5 mejores: Tres modelos de la familia e5 (e5-small, e5-base-instruct, e5-large-instruct) lograron una precisión del 100 % entre los 5 mejores. Nunca fallaron la respuesta correcta cuando se les permitieron 5 intentos.

El modelo llama-embed-nemotron-8b , ganador del primer puesto, alcanzó una precisión del 62%, la más alta entre todos los modelos probados, incluidos aquellos 70 veces más pequeños.

Los modelos grandes decepcionan en el Top 5: a pesar de tener entre 7 y 8 mil millones de parámetros y vectores de 4096 dimensiones, los modelos más grandes (e5-mistral-7b, gte-qwen2-7b, sfr-mistral, gritlm-7b, llama-embed-nemotron-8b) solo lograron una precisión del 82-90% en el Top 5. El modelo e5-small, con 118 millones de parámetros, superó a todos ellos con un 100% en el Top 5.

La paradoja de la eficiencia: e5-small procesa las consultas 14 veces más rápido que llama-embed-nemotron-8b (16 ms frente a 195 ms) al tiempo que logra una mayor precisión Top-5 (100 % frente a 88 %).

El mejor modelo de gran tamaño, gritlm-7b, alcanzó la mayor precisión Top-5 (90 %) entre los modelos 7B+, pero muestra una anomalía en la clasificación. Su precisión Top-1 (38 %) es la más baja de su clase, lo que indica que el modelo encuentra documentos correctos, pero tiene dificultades para clasificarlos en primer lugar.

El grupo del 56%: Cinco modelos (jina-v3, qwen3-0.6b, snowflake-arctic, all-MiniLM-L6-v2 y otros) se estancaron en una precisión Top-5 del 56%, lo que muestra una clara brecha de rendimiento con respecto a los líderes.

El tamaño no equivale a precisión: el modelo más pequeño (e5-small, 118 millones de parámetros) superó a modelos 70 veces más grandes en la recuperación de los 5 primeros resultados para la búsqueda de productos.

El modelo all-MiniLM-L6-v2 (con más de 200 millones de descargas en HuggingFace) solo alcanzó una precisión del 56 % en el Top-5 y del 28 % en el Top-1, situándose entre los resultados más bajos. Su arquitectura de 2019 no puede competir con los modelos modernos optimizados para la recuperación de información.

Estado latente

¿Qué es la latencia?

  • Latencia (ms): Tiempo necesario para la generación de la representación vectorial (conversión de texto a vector). Cuanto menor sea el valor, mejor. El tiempo de búsqueda del vector no se incluye en estas mediciones.

Estas métricas miden la rapidez con la que un modelo puede atender a los usuarios en producción.

Conclusiones clave derivadas de los resultados de rendimiento:

Campeón de velocidad: e5-small ofreció una latencia de incrustación de 16 ms, el modelo más rápido probado. Es 14 veces más rápido que el grupo de modelos grandes (187-221 ms).

El problema de la latencia: Todos los modelos con más de 7 mil millones de parámetros presentan una latencia de entre 187 y 221 ms, aproximadamente 10 veces mayor que la de los modelos con menos de 1 mil millones. Esto los hace inadecuados para búsquedas en tiempo real orientadas al usuario sin aceleración por GPU.

La diferencia de rendimiento de 14x: e5-small procesa 14 consultas en el tiempo que llama-embed-nemotron-8b procesa 1, al tiempo que logra una precisión Top-5 un 12 % mayor.

Clúster con latencia inferior a 30 ms: Cinco modelos (e5-small, all-MiniLM-L6-v2, mpnet-base-v2, e5-base-instruct y bge-m3) lograron una latencia inferior a 30 ms, lo que los hace adecuados para aplicaciones en tiempo real.

El punto óptimo para producción: e5-small y e5-base-instruct combinan alta precisión (100 % Top-5) y baja latencia (menos de 30 ms), lo que los hace ideales para sistemas RAG de producción.

Compromiso del modelo grande: Si necesita la mayor precisión Top-1 y puede tolerar una latencia de aproximadamente 200 ms, llama-embed-nemotron-8b ofrece la mejor precisión de clasificación (62 % Top-1) entre todos los modelos probados.

Nota: Estos son tiempos de inferencia de modelos puros sin operaciones con bases de datos vectoriales. Todos los modelos se probaron en una GPU H100 NVIDIA con precisión BF16.

Características técnicas de los modelos de incrustación de código abierto

Comprender las especificaciones técnicas:

  • Parámetros: El tamaño del modelo en millones de pesos entrenables. Los modelos más grandes (500 millones o más) tienen mayor capacidad para aprender patrones complejos, pero requieren más memoria y capacidad de procesamiento.
  • Dimensión: La longitud del vector en el que se convierte cada texto (por ejemplo, 384 significa que cada documento se convierte en un vector de 384 números). Las dimensiones más altas (1024) permiten capturar más matices semánticos, pero requieren más almacenamiento y cálculos de similitud más lentos.
  • Longitud máxima: El número máximo de tokens (aproximadamente palabras) que el modelo puede procesar en una sola entrada. Los modelos con una longitud máxima de 8192 pueden manejar documentos muy largos sin necesidad de dividirlos en fragmentos, mientras que los modelos de 512 tokens requieren dividir los textos más largos.

Conclusión clave: Mayores especificaciones no implican automáticamente un mejor rendimiento. El modelo e5-small (118 millones de parámetros, 384 dimensiones, 512 tokens) obtuvo los mejores resultados a pesar de tener las especificaciones más pequeñas en el nivel superior.

Metodología de evaluación comparativa

Corpus y consultas

Conjunto de datos: 490.000 reseñas de clientes de Amazon (categoría Salud y cuidado personal)

  • Cada reseña = vector de documento único
  • Indexado en Qdrant con similitud de coseno.

Conjunto de prueba: 100 consultas seleccionadas manualmente

  • Preguntas reales de usuarios (por ejemplo, "¿Este probiótico es bueno para la digestión?")
  • Cada uno se asigna a un producto correcto mediante verificación ASIN.

Coincidencia de verdad fundamental

Nuestra evaluación utiliza el ASIN (Número de Identificación Estándar de Amazon) del producto para una coincidencia exacta:

  1. La consulta especifica el ASIN del producto de destino.
  2. El modelo recupera los 5 documentos principales (ordenados por similitud del coseno).
  3. El sistema comprueba si algún documento recuperado coincide con el ASIN real.
  4. Resultado binario: Coincidencia = Acierto ✓, Sin coincidencia = Fallo ✗

Ejemplo:

Esto garantiza la veracidad de los datos a nivel de producto , no solo la similitud semántica.

El papel de la similitud del coseno

Donde se utiliza la similitud del coseno:

  • Qdrant clasifica internamente los 490.000 documentos según su similitud con la consulta.
  • Se devuelven los 5 documentos con mayor puntuación.

Dónde NO se utiliza:

  • La verificación de la verdad fundamental utiliza la coincidencia exacta de ASIN (igualdad de cadena).
  • Puntuación de similitud alta ≠ respuesta correcta

Por qué esto es importante:

Un modelo podría recuperar documentos muy similares pero incorrectos desde el punto de vista factual:

Esto demuestra por qué la exactitud fáctica es más importante que la relevancia semántica para los sistemas RAG.

Configuración de evaluación

Hardware: NVIDIA H100 GPU de 80 GB a través de RunPod con precisión BF16 (bfloat16)

Base de datos de vectores: Qdrant (instancia local)

Modo: Sin ajustes (sin calibración)

Garantías de equidad:

  • El mismo corpus de 490.000 datos para todos los modelos.
  • Las mismas 100 consultas
  • Mismo hardware (H100 en RunPod) y canalización de preprocesamiento.
  • Colecciones aisladas (sin fuga de vectores)
  • Dimensiones de incrustación nativas por modelo
  • Precisión BF16 para todos los modelos.

Métrica

Precisión Top-K:

Medido en K=1, 3 y 5. El Top-5 es el más relevante ya que los sistemas RAG suelen utilizar de 3 a 5 documentos de contexto.

Actuación:

  • Latencia promedio: Tiempo medio para la generación de incrustaciones únicamente (conversión de texto a vector).

Limitaciones

Especificidad del dominio: Los resultados reflejan la recuperación de productos de salud y cuidado personal. El rendimiento puede variar en los dominios de búsqueda legal, financiera o de códigos.

Dependencia de hardware: Todos los modelos se probaron en NVIDIA H100 de 80 GB con precisión BF16. El rendimiento variará en:

  • GPU para consumidores (RTX 3090/4090): 2-3 veces más lentas, pueden requerir cuantización INT8 para modelos 7B+.
  • GPU en la nube (A100, L40S): Rendimiento similar al de H100.
  • Inferencia solo con CPU: entre 10 y 50 veces más lenta dependiendo del tamaño del modelo.

Requisitos de memoria de la GPU: Los modelos grandes (7B o más) requieren aproximadamente entre 16 y 20 GB de VRAM con precisión BF16. Las GPU de consumo con menos VRAM pueden necesitar cuantización INT8, lo que puede afectar la precisión entre un 5 % y un 10 %.

Coincidencia basada en ASIN: Nuestro método mide la precisión a nivel de producto. Los conjuntos de datos alternativos sin identificadores únicos requerirían métodos de verificación diferentes.

Solo con validación inicial: Modelos probados sin ajuste fino específico del dominio. Los modelos ajustados finamente podrían obtener clasificaciones diferentes.

modelos de incrustación de código abierto

llama-embed-nemotron-8b

El modelo de incrustación insignia de NVIDIA, construido sobre Llama-3.1-8B con atención bidireccional, está diseñado para sistemas RAG empresariales que requieren la máxima comprensión semántica.

En nuestra evaluación:

  • Presenta la mayor precisión Top-1 (62%) entre los 16 modelos. Clasifica la respuesta correcta en primer lugar con más frecuencia que cualquier otro modelo.
  • Buena precisión entre los 5 primeros puestos (88%), pero aún por debajo de la puntuación perfecta de la familia e5.

Ideal para: Implementaciones empresariales donde la precisión de primer nivel es fundamental y se dispone de infraestructura de GPU.

e5-pequeño

Un codificador de recuperación multilingüe compacto, optimizado para la búsqueda semántica de alto rendimiento, comúnmente utilizado en sistemas RAG, de recomendación y de recuperación de productos en tiempo real. Entrenado para una recuperación contrastiva eficiente, está diseñado para maximizar la velocidad de inferencia sin sacrificar la calidad de la clasificación.

En nuestra evaluación, ofreció el mejor equilibrio general:

  • 100 % de precisión en la recuperación de los 5 mejores resultados
  • La latencia más baja

instrucción base e5

Diseñado para alinear consultas y documentos, resulta ideal para búsquedas con reconocimiento de tareas, asistentes de IA y sistemas de recuperación guiada. Su objetivo de entrenamiento mejora la comprensión inmediata durante la inserción, aumentando la precisión en consultas estructuradas.

e5-instrucciones-grandes

Una variante de mayor capacidad diseñada para la recuperación de información con prioridad en la precisión en entornos de búsqueda de conocimiento empresarial, descubrimiento legal y consultas complejas. Se beneficia de un aprendizaje de representación más profundo, pero conlleva mayores costos de inferencia.

Observamos una precisión Top-K competitiva, pero importantes compensaciones en la latencia y las consultas por segundo (QPS), lo que refuerza la idea de que la escala del modelo por sí sola no garantiza una mejor recuperación en producción.

gte-multilingüe

Un modelo de recuperación densa en más de 70 idiomas, diseñado para la búsqueda multilingüe y el descubrimiento de contenido global, que se utiliza con frecuencia para la atención al cliente multilingüe y las bases de conocimiento internacionales.

Ofreció una precisión de recuperación fiable, pero una latencia mayor que los modelos que priorizan la optimización, lo que sugiere que la generalización amplia del lenguaje introduce una sobrecarga computacional incluso en condiciones de prueba de un solo idioma.

bge-m3

Codificador multirrepresentacional compatible con recuperación vectorial densa, dispersa e híbrida, diseñado para documentos extensos y sistemas de búsqueda multivectorial. Se utiliza frecuentemente en sistemas de búsqueda léxico-semántica híbridos que requieren flexibilidad.

A pesar de su versatilidad arquitectónica, obtuvo peores resultados que los modelos optimizados más pequeños en cuanto a precisión Top-K y presentó una mayor latencia, lo que pone de manifiesto que el diseño de incrustación multiobjetivo no siempre se traduce en una mayor precisión de recuperación.

nomic-embed-v1.5

Modelo de incrustación Mixture-of-Experts con reducción dimensional Matryoshka, diseñado para almacenamiento vectorial adaptativo e inferencia eficiente. Se suele emplear en sistemas de búsqueda vectorial sensibles al coste que escalan dinámicamente las dimensiones de incrustación.

En la práctica, la precisión se mantuvo sólida, pero no superó a las bases de datos más pequeñas basadas únicamente en datos densos en cuanto a velocidad o corrección, lo que demuestra que las mejoras teóricas en la eficiencia no siempre se traducen en mejores resultados en la recuperación de datos.

jina-v3

Un modelo de recuperación multilingüe diseñado para la búsqueda de documentos heterogéneos, API de búsqueda y recuperación de conocimiento empresarial en formatos mixtos. Creado para su generalización en diferentes dominios y tipos de contenido.

Ofreció una precisión y una latencia estables, pero no alcanzó el rendimiento de coincidencia exacta de primer nivel en tareas de recuperación a nivel de entidad, como las búsquedas de productos.

qwen3-0.6b

Un modelo de recuperación multilingüe optimizado para la búsqueda semántica y la agrupación basadas en instrucciones, utilizado en la búsqueda conversacional, la recuperación de preguntas y respuestas y los corpus multilingües.

Mostró una precisión competitiva, pero una latencia de inferencia mayor en relación con el tamaño de sus parámetros, lo que limita su eficiencia en implementaciones con un alto número de consultas por segundo (QPS).

copo de nieve-ártico

Un codificador de recuperación diseñado para la búsqueda semántica a escala empresarial y los sistemas de conocimiento interno, construido para ofrecer estabilidad en índices vectoriales muy grandes.

Si bien fue consistente, los modelos optimizados para la recuperación más pequeños lo superaron tanto en precisión como en latencia, lo que refuerza la idea de que la escala empresarial no equivale inherentemente a una mayor precisión en la recuperación.

todo-MiniLM-L6-v2

Un codificador denso, ligero y optimizado para la CPU, ampliamente utilizado para búsqueda local, creación de prototipos e implementación en el borde de la red donde la capacidad de procesamiento es limitada.

Se logró una excelente latencia y QPS, pero una menor precisión Top-K para la búsqueda exacta de entidades, lo que demuestra que los modelos semánticos compactos no siempre son suficientes para la recuperación de información fáctica sobre productos.

mpnet-base-v2

Un transformador entrenado para la similitud semántica y la agrupación, frecuentemente aplicado en análisis, recomendaciones y deduplicación semántica.

Si bien era eficaz para capturar el significado semántico, su rendimiento fue inferior en la recuperación de productos de coincidencia exacta y mostró una inferencia más lenta que los modelos compactos especializados en recuperación.

Consideraciones clave para la implementación de modelos de incrustación

Al implementar un modelo de incrustación (ya sea un modelo propietario o modelos de incrustación de código abierto), varios factores determinan cómo lograr un rendimiento y una eficiencia óptimos:

Rendimiento y precisión

Es necesario elegir el modelo de incrustación adecuado para satisfacer las necesidades específicas de recuperación o clasificación. El objetivo es generar incrustaciones que proporcionen una alta calidad de recuperación para su dominio.

  • Consejos: Consulte siempre los puntos de referencia establecidos para evaluar el rendimiento de un modelo en tareas relevantes para su aplicación (similitud semántica, agrupamiento, etc.).
  • Nota sobre el tamaño del modelo: Los modelos más grandes ofrecen mayor precisión (comprensión semántica superior) porque tienen más parámetros para aprender relaciones complejas, pero esto debe sopesarse con las limitaciones de implementación.

Latencia y escalabilidad

La baja latencia en la velocidad de incrustación es crucial para las aplicaciones en tiempo real (por ejemplo, búsqueda en tiempo real o recomendaciones dinámicas). Este punto se centra en los requisitos técnicos para ejecutar el modelo de forma rápida y fiable.

  • Consejos: Elija una plataforma de implementación que ofrezca escalado automático eficiente y hardware optimizado (GPU/TPU) para garantizar una latencia baja y constante, así como la capacidad de gestionar el tráfico fluctuante.
  • Nota sobre el tamaño del modelo: Los modelos más pequeños y eficientes (como los modelos destilados) suelen ser más adecuados cuando la baja latencia es fundamental. Una alta latencia en la etapa de recuperación de un sistema RAG degrada directamente la experiencia del usuario final al ralentizar la generación de respuestas.

3. Integración con sistemas de IA complejos

Los modelos de incrustación suelen ser componentes de soluciones de IA más amplias y complejas. Por ejemplo, un sistema RAG combina un modelo de incrustación de texto con un LLM.

  • Consejos: Seleccione plataformas que admitan de forma nativa el servicio multimodelos, funciones como la orquestación distribuida (gestión del flujo de datos entre modelos) y la observabilidad (monitorización del rendimiento en toda la cadena). Recuerde que su estrategia de implementación debe simplificar la construcción y el escalado de estas cadenas multimodelos.

Licencia y uso comercial

Si bien los pesos de los 16 modelos están disponibles públicamente, 3 modelos restringen su uso comercial. Antes de seleccionar un modelo para producción, consulte la tabla de licencias a continuación:

Conclusiones clave y uso comercial:

  • MIT / Apache 2.0: Estas son licencias permisivas estándar que permiten el uso comercial gratuito.
  • CC-BY-NC-4.0 (No comercial): Prohíbe estrictamente el uso comercial sin un acuerdo por separado.
  • NVIDIA Nemotron: Indica explícitamente “Este modelo es solo para uso no comercial/de investigación”.
  • Jina V3: Indica explícitamente “Para consultas sobre uso comercial, no dude en contactarnos” (a menos que se utilice a través de su API de pago).

¿Por qué los modelos grandes podrían tener un rendimiento inferior en el Top 5?

Si bien nuestro análisis comparativo muestra claramente que los modelos más pequeños superan a los más grandes en la recuperación de los 5 primeros resultados, las causas exactas requieren una investigación más profunda. Planteamos varias hipótesis sobre posibles factores:

Posibles efectos de centralidad: Las investigaciones sugieren que los espacios vectoriales de alta dimensión (4096 dimensiones frente a 384 dimensiones) pueden presentar centralidad, donde ciertos vectores se convierten en los vecinos más cercanos de muchas consultas. Esto podría explicar por qué los modelos más grandes con mayor dimensión muestran una menor recuperación Top-5, aunque no hemos medido directamente la centralidad en nuestros resultados.

Diferentes objetivos de entrenamiento: Los modelos de recuperación más pequeños pueden optimizarse específicamente para tareas orientadas a la recuperación, mientras que las incrustaciones basadas en LLM pueden priorizar la precisión. Los resultados de GritLM (38 % Top-1 frente a 90 % Top-5) sugieren posibles diferencias en la calibración de la clasificación, aunque esta interpretación requiere validación.

Adecuación al dominio: Las diferencias de rendimiento pueden reflejar parcialmente la composición de los datos de entrenamiento, ya que algunos modelos se adaptan mejor a la búsqueda de productos que otros.

¿Qué es un modelo de incrustación de código abierto?

Un modelo de incrustación de código abierto es un modelo de IA disponible públicamente que convierte texto en vectores numéricos que las personas y los sistemas pueden comparar, agrupar y buscar semánticamente. A diferencia de las API cerradas, puedes ejecutarlo en tu propia infraestructura, inspeccionarlo o ajustarlo, y adaptarlo a tu dominio.

Son importantes porque te brindan:

  • Propiedad total de los datos , lo que significa que no se filtrarán consultas a API de terceros.
  • Coste a largo plazo nulo o inferior a gran escala
  • Ajuste personalizado para una mayor precisión en el dominio específico (medicina, finanzas, búsqueda de productos, etc.).
  • Implementación sin conexión o en las instalaciones para entornos sensibles a la seguridad.
  • Libertad para optimizar en función de las compensaciones entre latencia, tamaño o precisión.

Casos de uso de modelos de incrustación

Los modelos de incrustación permiten la creación de incrustaciones de texto u otras incrustaciones de datos, que luego se posicionan en un espacio vectorial. La proximidad de estas representaciones vectoriales individuales en este espacio denota significado semántico y similitud, lo que hace que la generación de incrustaciones sea crucial para numerosas aplicaciones de IA, tales como:

La búsqueda semántica aprovecha los modelos de incrustación (incluidos los modelos de incrustación de texto especializados) para encontrar contenido o resultados relevantes basándose en el significado conceptual en lugar de la coincidencia de palabras clave.

La codificación del contenido en el almacén vectorial potencia a los motores de búsqueda, ya que ofrece una precisión de búsqueda significativamente mejor que los métodos tradicionales, donde la similitud a menudo se mide mediante la similitud del coseno.

Las empresas globales que utilizan los modelos de incrustación de código abierto de Jina AI (por ejemplo, jina-embeddings-v2) implementan la búsqueda semántica para potenciar la correspondencia de habilidades de RRHH, la conciliación financiera y la recuperación de conocimiento interno.

La compatibilidad con 8K tokens y el diseño multilingüe del modelo permiten una búsqueda empresarial de alta cobertura sin dependencia de API, lo que mejora la profundidad de recuperación y mantiene la inferencia a nivel local. 1

Consultas de clientes traducidas

Zendesk utiliza modelos de incrustación (codificadores binarios) para traducir las consultas de los clientes y los artículos de ayuda en vectores. La clasificación final es un sistema híbrido que combina la coincidencia de palabras clave (BM25) y la proximidad vectorial (similitud del coseno) para determinar la relevancia.

Zendesk informa que la implementación de la búsqueda semántica resultó en un aumento promedio del 7 % en el ranking recíproco medio (MRR) para los centros de ayuda en inglés. Esta es una métrica directa que demuestra que los clientes encontraron la respuesta correcta mucho más rápido, lo que se tradujo en un mayor éxito del autoservicio. 2

Recomendaciones personalizadas

Netflix utiliza el aprendizaje profundo para generar incrustaciones de contenido y usuarios. Estos vectores capturan preferencias de visualización sutiles y características del contenido para una clasificación y recomendación personalizadas.

Se atribuye al sistema en su conjunto un ahorro de más de mil millones de dólares anuales para la empresa, gracias a su alto índice de retención de clientes. 3

Recuperación de información (RI)

La generación de incrustaciones es fundamental para la recuperación de información en grandes bases de datos. Una aplicación destacada es la generación aumentada de recuperación (RAG), donde los datos recuperados del almacén vectorial mediante el modelo de incrustación ayudan a los modelos de lenguaje grandes (LLM) a generar contenido en tiempo real más preciso y actualizado. Esto mejora la precisión de la recuperación y la calidad general del contenido.

Ejemplo práctico de modelos de incrustación de código abierto en recuperación de información

Inteligencia de llamadas

AT&T procesa 40 millones de llamadas de atención al cliente al año, utilizando inteligencia artificial para categorizar cada llamada en una de las 80 categorías de servicio, con el fin de detectar señales de abandono y permitir una retención proactiva.

Tras utilizar inicialmente GPT-4 para la clasificación de llamadas, AT&T lo reemplazó con un modelo híbrido de código abierto que combina modelos GPT-4 optimizados, Danube de H2O.ai y Llama 70B Meta para casos complejos, reduciendo drásticamente los costos y manteniendo la precisión de la producción. El sistema de código abierto logró:

  • 35% del costo operativo anterior GPT-4
  • 91% de precisión relativa en comparación con GPT-4
  • Tiempo de procesamiento de 15 a 5 horas por día
  • Se consiguen aproximadamente 50.000 clientes al año gracias a una mejor detección de la deserción. 4

Ejemplo real de modelos de incrustación de código cerrado en recuperación de información

Chatbot RAG

DoorDash implementó un chatbot basado en RAG para automatizar la asistencia a sus repartidores. El sistema utiliza un modelo de incrustación óptimo dentro de su almacén de vectores para lograr una alta precisión en la recuperación de los artículos de la base de conocimientos, lo cual es fundamental para fundamentar el asesoramiento automatizado del LLM.

La implementación del sistema RAG, combinada con su riguroso control de calidad, logró reducir con éxito las alucinaciones relacionadas con LLM en un 90 % y los problemas graves de cumplimiento en un 99 %. 5

Agrupación y clasificación

Los modelos de incrustación pueden simplificar la clasificación y organización del contenido al agrupar incrustaciones de texto u otras representaciones de datos en el espacio vectorial. Esto es fundamental para diversas tareas posteriores, como agrupar las opiniones de los clientes según su sentimiento o categorizar documentos por tema.

Ejemplo práctico de modelos de incrustación de código abierto en agrupamiento y clasificación.

Agrupación y clasificación de tickets mediante IA

Volcano Engine de ByteDance implementó en producción un sistema de escalamiento y enrutamiento basado en IA que agrupa, elimina duplicados y clasifica tickets de soporte a gran escala mediante similitud semántica y modelos LLM internos (DouBao). El sistema analiza las conversaciones de soporte para agrupar automáticamente los problemas recurrentes, asignar categorías y enrutar los escalamientos a los responsables de resolución adecuados sin necesidad de etiquetado manual.

La implementación se validó con más de 20.000 tickets de soporte reales que podían:

  • Procesar cientos de nuevos tickets al día.
  • Reduzca la carga de trabajo operativa en aproximadamente 10 jornadas laborales diarias.
  • Aplique umbrales de similitud semántica de 0,86 a 0,95 para la eliminación de duplicados y la agrupación de tickets. 6

Ejemplo práctico de modelos de incrustación de código cerrado en agrupamiento y clasificación.

Clasificación de billetes mediante IA

Gelato, una plataforma de comercio electrónico, utilizó modelos integrados basados en la IA Vertex de Google para automatizar la clasificación y asignación de incidencias de ingeniería entrantes y errores de clientes.

El modelo de incrustación convierte la descripción textual del problema en un vector. Este vector es clasificado posteriormente por un modelo de aprendizaje automático en la categoría técnica correcta (por ejemplo, «Error de inicio de sesión», «Fallo en el pago», «Error de API»). De esta forma, Gelato aumentó la precisión en la asignación de tickets del 60 % al 90 %. 7

Sistemas de recomendación

Los modelos de incrustación ayudan a estos sistemas al comprender las preferencias del usuario basándose en el significado semántico de sus intereses y el contenido disponible. Al medir la similitud entre las incrustaciones de usuarios y elementos, los sistemas de recomendación pueden ofrecer sugerencias más personalizadas.

Ejemplo práctico de integración de modelos en sistemas de recomendación

Recomendaciones dinámicas mediante CoSeRNN

Spotify utiliza modelos de incrustación para crear representaciones vectoriales de canciones, artistas y usuarios. Un avance clave en su motor de recomendaciones es la implementación de la arquitectura CoSeRNN (Red Neuronal Recurrente Contextual y Secuencial). Este sistema va más allá de los perfiles de usuario estáticos para abordar la naturaleza dinámica de la escucha musical.

El sistema CoSeRNN modela las preferencias del usuario como una secuencia de incrustaciones dependientes del contexto. Estas incrustaciones se ven influenciadas por factores como la hora del día, el dispositivo utilizado y las canciones reproducidas recientemente. Esto ayuda al modelo a aprender a predecir un vector de preferencias que maximiza la similitud con otras canciones reproducidas en la sesión actual, lo que permite una personalización altamente precisa y en tiempo real.

El enfoque CoSeRNN, que se basa en la generación de incrustaciones de usuario secuenciales de alta calidad, obtuvo resultados significativamente mejores que los enfoques de la competencia, mostrando mejoras superiores al 10 % en todas las métricas de clasificación consideradas para las tareas de recomendación de sesiones y pistas. Esta mejora se correlaciona directamente con la satisfacción del usuario y reduce la tasa de omisión, ya que confirma que los usuarios escuchan más de lo que realmente desean en ese contexto específico. 8

Resumen de los estudios de caso del modelo de incrustación:

Conclusión

Nuestro análisis comparativo revela un hallazgo sorprendente: lo más grande no siempre es mejor para la recuperación de productos.

Para necesidades especializadas:

  • Máximo recuerdo de los 5 elementos principales: e5-small, e5-base-instruct o e5-large-instruct (100%)
  • Máxima precisión Top-1: llama-embed-nemotron-8b (62%)
  • Mejor modelo grande en general: gritlm-7b (90% Top-5) o llama-embed-nemotron-8b (mejor Top-1)
  • Soporte multilingüe: gte-multilingual-base o gte-qwen2-7b
  • Aplicaciones en tiempo real: e5-small (latencia de 16 ms con 100 % de Top-5)
  • Presupuesto/popularidad no equivale a rendimiento: Evite todos los MiniLM-L6-v2 y qwen3-0.6b.

La realidad de la producción: Para la mayoría de las aplicaciones RAG que recuperan de 3 a 5 documentos de contexto, e5-small o e5-base-instruct ofrecen la mejor relación calidad-precio. Logran una recuperación perfecta con una latencia de 16 a 28 ms. Los modelos grandes solo resultan atractivos cuando la precisión Top-1 es fundamental, pero incluso en hardware H100, su rendimiento es 12 veces menor que el de las alternativas compactas.

Siempre realice pruebas de rendimiento en su dominio y carga de trabajo específicos antes de comprometerse con la implementación en producción.

Preguntas frecuentes

Los modelos de incrustación convierten datos complejos (como texto, imágenes o audio) en vectores numéricos densos en un espacio multidimensional. Su propósito es capturar el significado semántico y las relaciones dentro de los datos, lo que permite que elementos similares se ubiquen cerca unos de otros en ese espacio vectorial.

Un modelo de incrustación procesa los datos de entrada sin procesar (por ejemplo, las palabras de una oración) y los pasa a través de una red neuronal para generar un vector de salida de longitud fija. Durante el entrenamiento, el modelo ajusta los vectores de manera que los datos con un significado o contexto subyacente similar tengan vectores más cercanos (medidos mediante métricas de distancia o similitud), lo que facilita su comparación para tareas como la búsqueda o la recomendación.

Para lograr modelos de incrustación de alta calidad y mejorar el rendimiento de tareas como la búsqueda y la clasificación, concéntrese en estas estrategias:

1. Ajuste fino : Comience con una representación vectorial de código abierto (como una variante del modelo BERT) y ajústela con sus datos o con datos específicos de sus dominios. Esto es fundamental para mejorar la precisión semántica y la relevancia de las representaciones vectoriales generadas en campos especializados, garantizando el uso del modelo adecuado.

2. Aprendizaje contrastivo : Este es uno de los métodos más efectivos para entrenar nuevos modelos de incrustación. El preentrenamiento contrastivo enseña al modelo a diferenciar entre pares de datos similares (positivos) y disímiles (negativos), lo que mejora significativamente su capacidad para capturar diferencias semánticas sutiles y optimizar la calidad de la recuperación.

3. Experimentación con dimensiones y arquitecturas : El número de dimensiones de incrustación puede afectar tanto a la calidad como a los recursos computacionales. Las dimensiones más altas suelen capturar información más rica, pero a un mayor coste de almacenamiento y computación. Explorar nuevos modelos o arquitecturas que vayan más allá de la recuperación densa estándar (como la incorporación de técnicas de recuperación dispersa) puede resultar beneficioso.

Ekrem Sarı
Ekrem Sarı
Investigador de IA
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y los marcos de trabajo RAG.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450