La eficacia de cualquier sistema de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) depende de la precisión de su recuperador.
Realizamos pruebas comparativas de 11 modelos líderes de incrustación de texto, incluidos los de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral y Voyage AI, utilizando aproximadamente 500.000 reseñas de Amazon. Evaluamos la capacidad de cada modelo para recuperar y clasificar primero la respuesta correcta.
Comparación de modelos de incrustación: precisión vs. precio
La medida más importante del éxito de un modelo de incrustación es su precisión para encontrar y clasificar primero el documento correcto. Cuantificamos esto utilizando nuestra "puntuación de precisión" y la comparamos con el precio de cada modelo. Para comprender nuestro enfoque de evaluación en detalle, consulte nuestra metodología de referencia para modelos de incrustación .
El diagrama de dispersión muestra que los modelos de mayor precio no necesariamente ofrecen mayor precisión. Los modelos de mejor rendimiento ofrecen el equilibrio óptimo entre precisión y costo.
- La mejor precisión en general: mistral-embed logró la mayor precisión (77,8 %), lo que la hace ideal para escenarios que priorizan la precisión de la recuperación incluso a un costo moderado.
- Rendimiento de gama media: Voyage-4 ofrece una precisión del 68,6 % a un precio competitivo (0,06 dólares), lo que proporciona un buen equilibrio entre rendimiento y precio.
- Opciones de costo moderado : Snowflake (Funciones de IA de Cortex) snowflake-arctic-embed-l-v2.0 (66,6 %) ofrece un buen rendimiento de precisión a un costo moderado.
- Alternativa de mayor precio: gemini-embedding-001 de Google (Vertex AI API) alcanzó una mayor precisión (71,5 %), pero con el precio más alto, lo que limita su atractivo en proyectos sensibles al costo.
- Modelos caros con rendimiento inferior: Marcas líderes en la industria como los modelos text-embedding-3-large y Cohere embed-v4.0 de OpenAI obtuvieron una precisión menor en comparación con alternativas comparables o de menor precio.
Para comprender cómo calculamos la puntuación, consulte nuestra metodología de precisión .
Un modelo debe comprender el significado general y la relevancia de una consulta. La "Puntuación de relevancia" (similitud promedio de la consulta) mide qué tan alineados semánticamente están los 5 documentos recuperados principales con la consulta del usuario.
Para comprender cómo calculamos la puntuación, consulte nuestra metodología de relevancia .
- Líderes consistentes: Los mejores en precisión, como mistral-embed y Google (Vertex AI API), también lideran en relevancia, lo que indica una comprensión semántica sólida y completa.
- La “trampa de la relevancia”: Un hallazgo interesante es que algunos modelos son buenos para encontrar documentos semánticamente relacionados, pero no necesariamente los correctos. Por ejemplo, el documento OpenAI, perteneciente a text-embedding-3-small, obtuvo una puntuación de relevancia respetable (48,6 %), pero una de las puntuaciones de precisión más bajas (39,2 %). Esto indica que identifica el área de información general, pero tiene dificultades para encontrar respuestas específicas.
Un alto índice de relevancia es una condición necesaria, pero no suficiente, para un buscador de primer nivel. Los mejores modelos destacan tanto por comprender el tema en profundidad como por identificar la respuesta correcta con gran precisión.
Calculadora de precios de modelos de incrustación
Para ayudarte a traducir nuestros hallazgos en un presupuesto práctico para tu propio proyecto, utiliza la calculadora interactiva que aparece a continuación para estimar los costes de integración en función del número de tokens de tu conjunto de datos.
Nota : El precio de Snowflake varía según la edición y la región. Nuestra prueba de rendimiento se realizó con la edición estándar de Snowflake (0,10 $ por millón de tokens). Precios para otras ediciones: Enterprise (0,15 $), Business Critical (0,20 $).
Comprender las características clave del modelo de incrustación
Es fundamental comprender los atributos técnicos clave que definen las capacidades y los requisitos de recursos de un modelo de integración.
- Dimensiones de incrustación: Tamaño del vector generado por el modelo. Las dimensiones que aparecen en nuestra tabla representan el tamaño predeterminado u óptimo recomendado por el proveedor para uso general. Las dimensiones más altas (por ejemplo, OpenAI y text-embedding-3-large, que tienen 3072) capturan más matices semánticos, pero requieren muchos más recursos de almacenamiento y computación. Las dimensiones más bajas (por ejemplo, Google y text-embedding-005, que tienen 768) son más eficientes. Nuestros resultados demuestran que las dimensiones más grandes no mejoran automáticamente la precisión de la recuperación.
- Tokens máximos: Longitud máxima de secuencia de texto que se puede procesar en una sola pasada. Una ventana de contexto más amplia resulta ventajosa para incrustar documentos largos sin segmentación. Si bien nuestro enfoque a nivel de documento se ajusta a los límites de todos los modelos, este atributo se vuelve fundamental al implementar estrategias de segmentación detalladas con segmentos de texto extensos.
Posibles razones detrás de las diferencias en el rendimiento del modelo de incrustación
1. Enfoque arquitectónico central
Las decisiones de diseño fundamentales afectan al razonamiento inherente y a las capacidades semánticas del modelo, ya sea un decodificador basado en LLM o un codificador tradicional como BERT.
- Se confirma que Mistral (mistral-embed) deriva de su arquitectura LLM en lugar de un codificador BERT estándar.
- Comprensión semántica profunda: a diferencia de los modelos más antiguos que asignan palabras clave, la arquitectura LLM comprende intrínsecamente el "seguimiento de instrucciones". Esto le permite analizar la lógica compleja de la consulta (restricciones) y manejar la sintaxis informal/ruidosa de las reseñas de Amazon.
- Snowflake (Arctic-embed) se basa en fundamentos de codificadores estándar de código abierto, ajustados con precisión en pares de recuperación masivos.
- Base sólida: Una arquitectura tradicional optimizada para la búsqueda. Carece del razonamiento profundo de un LLM, pero ofrece un rendimiento consistente y predecible para búsquedas estándar.
2. Datos de entrenamiento y estrategia de ajuste fino
Los métodos especializados utilizados durante el entrenamiento (por ejemplo, Hard-Negative Mining o Contrastive Learning) influyen directamente en la capacidad del modelo para manejar matices y distinguir entre conceptos similares.
- Voyage AI (voyage-4/3.5/3) es creado por investigadores de Stanford especializados en RAG; los datos de entrenamiento incluyen explícitamente negativos "complicados" (A frente a no-A).
- Conciencia de las restricciones: El modelo está ajustado matemáticamente para alejar en el espacio vectorial los elementos "similares pero incorrectos" (como Natural frente a Sin aluminio), evitando así la "Trampa de relevancia".
- Cohere (embed-v4.0) está especializado en maximizar la distancia entre pares distintos; a menudo diseñado para trabajar en conjunto con un Reranker.
- Desviación/enfoque: Los modelos contrastivos a menudo requieren un segundo paso de "reclasificación" para manejar el ruido. Por sí solo (en una sola pasada), tiene dificultades para mapear la sintaxis de revisión "ruidosa" a la sintaxis de consulta formal en comparación con las incrustaciones basadas en LLM más recientes.
3. Estrategia de representación vectorial
El enfoque de OpenAI para crear representaciones vectoriales flexibles introduce una compensación entre la flexibilidad de la longitud del vector y la retención de detalles semánticos.
- OpenAI (text-embedding-3) , también conocido como aprendizaje de representación Matryoshka, permite la truncación de vectores y adelanta la información general.
- La desventaja de la compresión: el aprendizaje Matryoshka obliga al modelo a comprimir los matices para garantizar la flexibilidad del vector. Captura eficazmente el tema general (relevancia), pero pierde los detalles específicos (precisión) necesarios para cumplir con las restricciones estrictas, lo que resulta en una clasificación de bajo rendimiento.
Metodología de referencia para la incrustación de modelos
Nuestro sistema de evaluación comparativa proporciona una valoración justa, transparente y reproducible del rendimiento del modelo de incrustación para RAG .
Configuración de la prueba y corpus de datos
- Corpus de conocimiento: Utilizamos un conjunto de datos de 494.094 reseñas de usuarios reales procedentes del conjunto de datos de reseñas de Amazon como base de conocimiento. 1
- Base de datos de vectores : Utilizamos Qdrant para alojar todas las colecciones de vectores, que fueron configuradas explícitamente para la búsqueda de similitud del coseno.
- Consultas de prueba: Seleccionamos manualmente un conjunto de 100 preguntas desafiantes del mundo real a partir de un conjunto de datos externo de preguntas y respuestas de Amazon. 2 Estas preguntas fueron seleccionadas para poner a prueba el razonamiento sofisticado, y cada una tenía una “mejor respuesta” votada por los usuarios que servía como referencia. Para ilustrar la naturaleza de estas consultas, el conjunto de prueba incluía preguntas complejas con múltiples restricciones, tales como:
- “¿Existe algún antitranspirante natural de A&H que contenga una alternativa segura al aluminio y los parabenos?”
- Este tipo de consulta es particularmente desafiante, ya que requiere que el modelo comprenda múltiples restricciones simultáneamente (Marca: A&H; Atributo: natural; Restricción negativa : sin aluminio/parabenos) y el concepto abstracto de encontrar una "alternativa".
Principios básicos de evaluación
- Colecciones aisladas y dimensiones nativas: Para cada modelo, integramos el corpus completo en una colección aislada y dedicada. Siguiendo estándares como MTEB, evaluamos cada modelo utilizando sus dimensiones de incrustación nativas y óptimas. 3
- Granularidad de recuperación: Realizamos esta prueba comparativa con una granularidad a nivel de documento. Tratamos cada reseña de usuario como un documento individual y la convertimos en un único vector. No se aplicó ninguna segmentación detallada.
- Evaluación sin datos de entrenamiento previos: La prueba se realizó sin datos de entrenamiento previos. Esto significa que los modelos se evaluaron con un conjunto de datos específico que no habían visto durante su entrenamiento inicial. No ajustamos ni entrenamos ningún modelo con nuestro conjunto de datos o consultas específicas.
Métricas de evaluación: Un enfoque de dos niveles
Empleamos una evaluación de dos niveles para distinguir entre la relevancia semántica general y la precisión de recuperación. En el centro de ambas métricas se encuentra la similitud del coseno, un método estándar para medir la similitud entre dos vectores en el espacio de incrustación.
Métrica 1: La relevancia (puntuación de “similitud media de la consulta”)
Esta métrica responde a la pregunta: "¿Comprende el modelo el tema general de la consulta?". Mide la relevancia semántica general de los 5 documentos recuperados principales para la consulta del usuario.
Cálculo: Para cada consulta, se siguieron los siguientes pasos:
- El texto de la consulta se convirtió en un vector utilizando el modelo que se estaba probando.
- Se realizó una búsqueda para recuperar los 5 documentos principales.
- Calculamos la similitud del coseno entre estos dos vectores resultantes.
- La puntuación final de la consulta es el promedio de estos cinco valores de similitud.
Métrica 2: La precisión (puntuación de “similitud con la verdad fundamental”)
Esta es nuestra métrica principal y más importante. Responde a la pregunta: "¿Puede el modelo encontrar la mejor respuesta y presentársela al usuario en primer lugar?".
Cálculo: Para cada consulta, realizamos una comparación precisa:
- Se identificó el documento mejor clasificado devuelto por el programa de recuperación.
- También se identificó el texto de respuesta predefinido que representaba la "verdad fundamental" .
- Fundamentalmente, tanto el texto del documento de Rango 1 como el texto de la respuesta real se convirtieron en vectores utilizando el mismo modelo que se estaba evaluando.
- A continuación, se calculó la similitud del coseno entre estos dos vectores resultantes. La similitud de los documentos clasificados del 2 al 5 se ignoró explícitamente.
Una puntuación alta en esta métrica mide directamente la precisión de un modelo y su capacidad para distinguir la información más útil de un conjunto de documentos semánticamente similares.
Marco de medición: similitud del coseno
Nuestra evaluación utiliza la similitud del coseno, una métrica robusta para medir la similitud entre dos vectores.
En lugar de medir la distancia física entre vectores, esta métrica calcula el coseno del ángulo entre ellos. En esencia, mide si los vectores apuntan en la misma dirección, proporcionando una medida pura de orientación, no de magnitud. La puntuación resultante oscila entre 1 y -1.
- 1: Los vectores tienen la misma orientación (máxima similitud semántica).
- 0: Los vectores son ortogonales, lo que indica que no existe relación semántica.
- -1: Los vectores apuntan en direcciones opuestas (significado opuesto).
Para nuestra prueba de incrustación, esto nos permite cuantificar de forma fiable la similitud semántica entre un documento recuperado y la consulta del usuario o una respuesta de referencia. Utilizamos este cálculo fundamental para construir nuestras dos métricas principales.
Limitaciones de los modelos de referencia de incrustación
Si bien este indicador se diseñó para ser objetivo, es importante reconocer su alcance y limitaciones específicas. Estos factores deben tenerse en cuenta al interpretar los resultados:
- Especificidad del dominio: Los resultados son altamente específicos del conjunto de datos de reseñas de Amazon utilizado. La jerarquía de rendimiento de estos modelos podría variar al aplicarse a otros dominios con características lingüísticas diferentes, como textos legales, artículos académicos o código de software. Un modelo que destaca en la comprensión de reseñas informales basadas en opiniones podría no ser la opción óptima para un corpus que requiera una comprensión profunda del lenguaje técnico o formal.
- Granularidad a nivel de documento: Nuestra metodología evaluó los modelos a nivel de documento, tratando cada revisión completa como un vector único. Este enfoque pone a prueba la capacidad del modelo para comprender el contexto general de un documento. Sin embargo, no mide el rendimiento en tareas de recuperación más específicas que requerirían dividir los documentos en fragmentos más pequeños (por ejemplo, párrafos u oraciones). El rendimiento de un modelo puede variar según la estrategia de segmentación utilizada.
Lecturas adicionales
Explore otros puntos de referencia RAG, como:
- Base de datos de vectores principal para RAG: Qdrant vs Weaviate vs Pinecone
- RAG híbrido: Mejorando la precisión del RAG
- Prueba de rendimiento Agentic RAG: enrutamiento y generación de consultas en múltiples bases de datos.
Conclusión
Según nuestra evaluación, mistral-embed logró la mayor precisión (77,8%), lo que la convierte en la mejor opción para escenarios donde la precisión de la recuperación es primordial, incluso a un costo moderado.
Para implementaciones que priorizan el ahorro de costes, voyage-3.5-lite se presenta como la opción óptima para sistemas RAG de producción, ya que ofrece un excelente equilibrio entre precisión y coste, con un rendimiento sólido (66,1 %) a uno de los precios más bajos.
La función gemini-embedding-001 de Google (Vertex AI API) proporciona otra opción de alta precisión (71,5 %), adecuada para aplicaciones críticas en las que se acepta un precio superior.
Para las organizaciones dentro del ecosistema Snowflake, Snowflake (Cortex AI Functions) snowflake-arctic-embed-l-v2.0 ofrece una precisión competitiva (66,6 %) a un costo moderado.
Principales hallazgos sobre la selección de modelos de integración:
- Mayores dimensiones no garantizan un mejor rendimiento.
- Los precios elevados no se correlacionan con una mayor precisión.
- La evaluación comparativa específica del dominio es esencial para la selección de modelos integrados.
Preguntas frecuentes
Los modelos de incrustación permiten traducir texto a un formato comprensible para las máquinas. Estos modelos toman texto no estructurado y utilizan una red neuronal para generar incrustaciones. El resultado es un vector numérico que representa el significado del texto original. Este vector sitúa el texto como un punto dentro de un concepto matemático de alta dimensión llamado espacio de incrustación, donde los textos con significados similares se encuentran cerca unos de otros.
Esta es una distinción clave en el procesamiento del lenguaje natural (PLN). Las incrustaciones de palabras tradicionales crean un único vector para cada palabra, sin capturar el contexto. Las incrustaciones de oraciones modernas, utilizadas por los modelos en esta prueba, son más avanzadas. Crean vectores contextualizados para oraciones completas, comprendiendo que el significado de una palabra cambia según el texto circundante. Esto les permite capturar relaciones semánticas mucho más sutiles.
Los modelos preentrenados son un tipo de modelo de aprendizaje automático que se ha entrenado con grandes cantidades de datos de texto general. Todos los modelos de incrustación de alta calidad en nuestro conjunto de datos de referencia son preentrenados. Este entrenamiento inicial les proporciona una comprensión fundamental del lenguaje y las relaciones semánticas. Nuestra prueba mide la eficacia con la que este conocimiento preentrenado maneja los datos complejos de nuestro dominio específico sin necesidad de datos de entrenamiento adicionales y personalizados.
Si bien nuestro análisis comparativo se centró en el procesamiento del lenguaje natural, los mismos principios se aplican a otros tipos de datos. Los modelos especializados de aprendizaje automático están diseñados para manejar diferentes formas de datos complejos. Por ejemplo, los modelos de incrustación de imágenes se crean utilizando redes neuronales convolucionales para capturar características visuales, mientras que los modelos de incrustación de grafos se utilizan para crear representaciones numéricas de los nodos y sus conexiones en los datos de red. Esta flexibilidad es lo que hace que la tecnología de incrustación sea tan potente para una amplia gama de sistemas de IA.
La calidad de las incrustaciones afecta significativamente la precisión del benchmark. Varios factores contribuyen a generar incrustaciones de alta calidad: Arquitectura del modelo: Es fundamental utilizar un modelo de aprendizaje automático potente como un Transformer.
Calidad de los datos: El rendimiento del modelo depende en gran medida de la calidad de sus datos de entrenamiento originales y de la limpieza de los datos de entrada que procesa.
Metodología: El uso de un marco de "ejercicio de validación cruzada" en datos complejos garantiza que estemos probando la verdadera capacidad del modelo para crear incrustaciones que sean robustas y generalizables.
El espacio de incrustación es el espacio conceptual multidimensional donde residen todas las representaciones numéricas (vectores) generadas por un modelo. En este espacio, la distancia y la dirección entre los vectores corresponden a sus relaciones semánticas. Al realizar una búsqueda, la consulta se convierte en un vector y se ubica en este mismo espacio de incrustación. La función del recuperador es encontrar los vectores vecinos más cercanos, que representan los documentos semánticamente más similares, lo que lo convierte en un pilar fundamental del procesamiento del lenguaje natural por parte de los sistemas de IA modernos.
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.