Contáctanos
No se encontraron resultados.

RAG híbrido: Mejorando la precisión del RAG

Cem Dilmegani
Cem Dilmegani
actualizado el Mar 11, 2026
Vea nuestra normas éticas

La búsqueda vectorial densa es excelente para capturar la intención semántica, pero a menudo tiene dificultades con consultas que requieren una alta precisión de palabras clave. Para cuantificar esta brecha, comparamos un recuperador estándar basado únicamente en vectores densos con un sistema RAG híbrido que incorpora vectores dispersos SPLADE.

Nuestra evaluación, realizada sobre un conjunto seleccionado de 100 preguntas desafiantes del mundo real, se centró en la capacidad de cada sistema para recuperar y clasificar correctamente la mejor respuesta.

Comparación de rendimiento: Recuperación densa frente a recuperación híbrida

Nuestras pruebas comparativas revelan que un sistema de búsqueda híbrido bien ajustado supera significativamente a un enfoque basado únicamente en datos densos, al ofrecer resultados más precisos y mejor clasificados.

Loading Chart
  • Mayor precisión en la clasificación (MRR +18,5 %): El sistema híbrido elevó el Rango Recíproco Medio de 0,410 a 0,486 . Esta mejora sustancial es el resultado más relevante, ya que se traduce directamente en una mejor experiencia de usuario al aumentar significativamente la probabilidad de que la mejor respuesta aparezca en la primera posición.
  • Mejora de la tasa de recuperación (Recall@5 +7,2%): El modelo híbrido aumentó la puntuación Recall@5 de 0,655 a 0,702 . Esto demuestra su capacidad para encontrar la respuesta correcta entre los 5 primeros resultados de forma más consistente, logrando identificar documentos que el enfoque basado únicamente en datos densos habría pasado por alto por completo.

Para comprender en detalle nuestra evaluación y métricas, consulte nuestra metodología de referencia para Hybrid RAG .

Precisión frente a latencia: la disyuntiva en el rendimiento

Si bien el sistema híbrido ofrece una precisión superior, este rendimiento mejorado conlleva un coste computacional considerable.

El sistema híbrido introduce una latencia adicional de 201 ms por consulta, lo que representa un aumento del 24,5 % en el tiempo de procesamiento. Para comprender en detalle nuestro proceso de medición de latencia y metodología de temporización, consulte nuestra metodología de medición de latencia .

¿En qué se gasta el tiempo extra?

El aumento de 201 ms en la latencia del sistema híbrido no se distribuye uniformemente entre todas las operaciones. Nuestro análisis detallado de tiempos revela con precisión dónde reside el costo computacional:

Este desglose muestra claramente que la mayor parte de la latencia proviene del paso inicial de generación del vector, donde el sistema debe crear tanto un vector denso como un vector disperso.

Los pasos de búsqueda y fusión son extraordinariamente rápidos, y en conjunto representan menos del 7 % del tiempo total. Por ejemplo, la generación de vectores densos y dispersos podría paralelizarse para reducir este cuello de botella.

Posibles razones de las diferencias de rendimiento

Recuperación semántica frente a precisión léxica

La recuperación densa se basa en la similitud semántica, que es eficaz para capturar la intención del usuario, pero puede restar importancia a los términos y restricciones exactos. Esto limita su capacidad para recuperar de forma consistente documentos que dependen de palabras clave o atributos específicos.

En la prueba comparativa, el recuperador que solo utilizaba datos densos a menudo coincidía con la intención general de las consultas, pero no cumplía con restricciones estrictas, como los nombres exactos de los ingredientes.

Cobertura de recuperación de doble señal

El sistema RAG híbrido combina representaciones densas y dispersas, lo que permite evaluar documentos desde perspectivas tanto semánticas como léxicas. Esta doble cobertura aumenta la probabilidad de recuperar y clasificar adecuadamente los documentos relevantes.

Clasificación de sensibilidad mediante fusión

La fusión de rangos recíprocos (RRF) prioriza los documentos que obtienen una buena clasificación en múltiples señales de recuperación, en lugar de basarse en puntuaciones de similitud directas. Esta agregación basada en rangos mejora la precisión de los resultados principales cuando coinciden la relevancia semántica y la precisión de las palabras clave.

Costos generales de generación de vectores

La recuperación híbrida requiere generar vectores tanto densos como dispersos para cada consulta, lo que aumenta el trabajo computacional incluso antes de que comience la búsqueda. Este preprocesamiento adicional impacta directamente en la latencia de extremo a extremo.

Sensibilidad al ajuste de parámetros

El rendimiento híbrido depende en gran medida del equilibrio de los parámetros de fusión. Dar demasiada ponderación a las señales dispersas puede suprimir la relevancia semántica y degradar los resultados.

Arquitectura de sistema RAG híbrido

Nuestro sistema híbrido combina dos enfoques de recuperación complementarios, cada uno de los cuales aborda diferentes características de la consulta a través de una arquitectura de procesamiento paralelo cuidadosamente diseñada.

Figura 1: Flujo de trabajo de nuestro sistema de recuperación híbrido, desde la consulta inicial del usuario hasta la lista final de documentos clasificados que se envían al LLM.

Componente denso: comprensión semántica

  • Modelo: OpenAI text-embedding-3-small
  • Fortaleza: Captura el significado semántico y el contexto , destacando por su capacidad para comprender la intención del usuario incluso cuando las consultas carecen de palabras clave específicas.
  • Caso de uso: Una consulta como "analgésico que no irrita el estómago" coincidirá con éxito con documentos que mencionen conceptos como "suave para la digestión" o "no causó malestar estomacal", incluso si no se utiliza la palabra exacta "amigable".

Componente disperso: precisión de palabras clave

  • Modelo: SPLADE (modelo léxico y de expansión disperso)
  • Fortaleza: Identifica y otorga gran importancia a las palabras clave discriminatorias, incluidos los nombres técnicos, los números de modelo y los atributos específicos del producto que una búsqueda puramente semántica podría pasar por alto.
  • Caso de uso: Una consulta que contiene un término específico como "paracetamol" requiere una coincidencia exacta de palabras clave. SPLADE garantiza que los documentos que contienen este término preciso tengan una alta clasificación, una tarea en la que un modelo denso podría generalizar a "analgésico" y pasar por alto el ingrediente específico.

El algoritmo de fusión de rango recíproco (RRF)

La consulta del usuario se vectoriza simultáneamente mediante los modelos OpenAI y SPLADE, lo que da como resultado dos listas clasificadas independientes. El paso crucial consiste en combinar estas listas mediante la Fusión de Rango Recíproco (RRF).

RRF resuelve el problema de combinar resultados de sistemas con escalas de puntuación incompatibles (por ejemplo, una puntuación densa de 0,89 frente a una puntuación dispersa de 95,4). En lugar de utilizar puntuaciones brutas, se centra exclusivamente en la posición del documento en el ranking (1.º, 2.º, 3.º).

Ejemplo : Para la consulta “desodorante natural sin aluminio ni parabenos”

  • Una búsqueda exhaustiva sitúa una reseña sobre "desodorante orgánico y sin químicos" en el puesto número 1 (relevancia semántica).
  • Una búsqueda escasa clasifica una reseña que contiene “sin aluminio” y “sin parabenos” como la número 1 (palabras clave exactas).
  • La fusión de RRF promueve los documentos que aparecen en los primeros puestos de ambas listas.

Una reseña que sea semánticamente relevante Y que contenga las palabras clave exactas obtiene la puntuación combinada más alta.

La puntuación final utiliza la fórmula:

donde k=60 y rank_i es la posición del documento en cada resultado de búsqueda. El parámetro sparse_boost (1.2) favorece ligeramente la precisión de las palabras clave sin comprometer la comprensión semántica.

El papel del ajuste de parámetros de fusión

Una conclusión clave de nuestra investigación es que la simple combinación de dos sistemas de recuperación no garantiza un mejor rendimiento. Nuestra configuración híbrida inicial tuvo un rendimiento inferior al del sistema de referencia basado únicamente en datos densos, alcanzando un MRR de tan solo 0,390.

El problema radicaba en un parámetro de fusión mal ajustado:

  • Configuración problemática inicial : sparse_boost = 3.0
  • Configuración optimizada : sparse_boost = 1.2

La configuración inicial otorgaba a las coincidencias de palabras clave de SPLADE el triple de peso que a las coincidencias semánticas del modelo denso. Esta ponderación tan agresiva provocó que los documentos semánticamente irrelevantes pero ricos en palabras clave predominaran sobre los resultados contextualmente apropiados, lo que degradó el rendimiento general.

La optimización a sparse_boost = 1.2 proporciona una ligera preferencia por las coincidencias de palabras clave sin anular la comprensión semántica, un equilibrio que resultó fundamental para lograr la mejora del 18,5 % en el MRR.

Cuando la recuperación híbrida destaca: La consulta con múltiples restricciones

La ventaja de rendimiento de los sistemas híbridos se hace evidente en tipos de consultas específicos que suponen un reto para los enfoques basados únicamente en datos densos. Una consulta común y compleja de nuestro conjunto de datos "Salud y cuidado personal" es:

“Necesito un desodorante natural que no contenga aluminio ni parabenos.”

Esta consulta tiene dos partes diferenciadas: una intención semántica amplia ("desodorante natural") y dos restricciones de palabras clave estrictas ("sin aluminio", "sin parabenos").

Cómo responde un sistema de búsqueda basado únicamente en la densidad: Un sistema de búsqueda basado únicamente en la densidad es excelente para comprender la intención de "desodorante natural". Encontrará reseñas que hablen de "desodorantes suaves y orgánicos". Sin embargo, podría clasificar en un puesto alto una reseña que hable de ser "totalmente natural" y "sin aluminio", incluso si no menciona los parabenos. El sistema capta correctamente la intención principal, pero falla en una de las restricciones innegociables.

Cómo gana el sistema híbrido: El sistema híbrido aborda este problema mediante un enfoque dual:

  • La búsqueda dispersa (filtro de precisión): El modelo SPLADE encuentra inmediatamente documentos que contienen las palabras clave exactas y de alto peso "sin aluminio" y "sin parabenos".
  • La búsqueda densa (filtro de relevancia): Simultáneamente, el modelo OpenAI busca documentos que estén semánticamente relacionados con "desodorante natural y eficaz".
  • La fusión (RRF): RRF examina ambas listas clasificadas. Un documento que aparece en los primeros puestos de ambas, por ejemplo, una reseña entusiasta que elogia explícitamente un producto por ser "natural", "eficaz", "sin aluminio" y "sin parabenos", recibe la puntuación fusionada más alta posible y asciende al puesto número 1.

Reclasificadores: Una segunda etapa de recuperación opcional

Los reordenadores funcionan como un proceso de filtrado de segunda etapa en las canalizaciones de recuperación de dos etapas: el sistema primero recupera un amplio conjunto de documentos candidatos, y luego un reordenador de codificadores cruzados los puntúa y reordena según la relevancia de la consulta. En la práctica, un sistema podría recuperar docenas o incluso cientos de candidatos (por ejemplo, utilizando una búsqueda híbrida densa-dispersa, recuperando entre 50 y 100 elementos) y luego usar el reordenador para seleccionar los pocos pasajes más relevantes para el modelo de lenguaje. Este enfoque de dos etapas puede recuperar pasajes relevantes que no se encontraban entre los elementos mejor clasificados, promoviéndolos a la selección final para su generación.

En la prueba comparativa de reclasificación , probamos 8 modelos de reclasificación en aproximadamente 145.000 reseñas en inglés de Amazon y descubrimos que el mejor reclasificador aumentó Hit@1 del 62,67 % al 83,00 % además de un recuperador denso, al tiempo que añadió menos de 250 ms de latencia por consulta.

Este benchmark híbrido RAG no incluye una etapa de reordenamiento. Nuestro objetivo era aislar el impacto de combinar señales de recuperación densas y dispersas mediante RRF. Añadir un reordenador a la recuperación híbrida es un paso lógico y podría generar mayores mejoras en la precisión, pero introduciría una variable de confusión que dificultaría atribuir las mejoras al método de recuperación o al modelo de reordenamiento.

Metodología de referencia para RAG híbrido

Nuestra metodología de evaluación fue diseñada para garantizar una comparación justa, transparente y reproducible entre los sistemas de recuperación exclusivamente densos e híbridos.

Configuración de la prueba y corpus de datos

  • Corpus de conocimiento: Utilizamos un conjunto de datos de 494.094 reseñas de usuarios reales del conjunto de datos de reseñas de clientes de Amazon (categoría Salud y cuidado personal). 1 .
  • Base de datos de vectores: Utilizamos Qdrant para alojar dos colecciones separadas.
    • La colección densa únicamente almacenó solo OpenAI vectores.
    • La colección híbrida utilizó la función de "vectores con nombre" de Qdrant para almacenar un vector denso (dense) y un vector disperso (text-sparse) para cada documento.
  • Métrica de similitud: Se utilizó la similitud del coseno para todas las búsquedas de vectores densos.

Consultas de prueba: Proceso de selección

Creamos un conjunto de pruebas de alta calidad con 100 preguntas mediante un proceso de tres pasos basado en código para evitar evaluaciones anecdóticas o sesgadas:

  1. Preprocesamiento: Limpiamos programáticamente los datos brutos de preguntas y respuestas de Amazon. 2 Filtrando las preguntas sin sentido o de baja calidad. Establecimos una respuesta de referencia para cada pregunta seleccionando la respuesta con la mayor cantidad de votos de usuarios que la calificaron como "útil".
  2. Clasificación de dificultad: Aplicamos un sistema basado en reglas para puntuar y clasificar todas las preguntas según su dificultad. Las preguntas que contenían lenguaje comparativo («diferencia entre», «vs», «mejor que») o que solicitaban opiniones («experiencia con») se consideraron más difíciles que las preguntas fácticas sencillas («¿cuáles son las dimensiones?»).
  3. Selección final: Seleccionamos manualmente el conjunto final de 100 preguntas de referencia de la categoría "difícil". Esto garantiza que estemos probando los límites de cada sistema de recuperación, donde las diferencias de rendimiento son más evidentes.

Métricas de evaluación

  • Recall@5 (Tasa de aciertos): Esta métrica responde a una pregunta fundamental: "¿Encontró el sistema la información correcta?". Mide el porcentaje de consultas cuya respuesta veraz apareció entre los 5 primeros resultados de búsqueda. Un valor alto de Recall@5 indica un sistema eficaz que logra mostrar información relevante.
  • MRR (Rango recíproco medio): Esta métrica, sensible al rango, responde a la pregunta: "¿Con qué rapidez encontró el usuario la información correcta?". Recompensa en gran medida clasificar la respuesta correcta en primer lugar (una puntuación de 1,0), con puntuaciones decrecientes para los rangos inferiores (0,5 para el 2.º, 0,33 para el 3.º, etc.). Un MRR alto es crucial para la experiencia del usuario, ya que indica que el resultado más preciso se muestra en la parte superior.

Medición de latencia

Para ofrecer un análisis de rendimiento completo, medimos la latencia de consulta de extremo a extremo tanto para el sistema denso como para el híbrido. Esta medición es fundamental para comprender el coste real de las mejoras en la precisión que proporciona el enfoque híbrido.

El proceso se implementó en nuestros scripts de evaluación de Python utilizando la función time.perf_counter() de alta precisión. Para cada una de las 100 consultas de prueba, medimos el tiempo total transcurrido desde el momento en que se envió una consulta a la función de recuperación hasta que se devolvió la lista final de documentos clasificados.

Para el sistema híbrido, realizamos un análisis más detallado cronometrando sus tres etapas distintas de forma independiente:

  1. Generación de vectores : El tiempo total requerido para generar tanto el vector denso (mediante una llamada a la API OpenAI) como el vector disperso (mediante inferencia del modelo SPLADE local).
  2. Operaciones de búsqueda : Tiempo necesario para ejecutar dos consultas de búsqueda separadas en la base de datos de vectores Qdrant, una para el vector denso y otra para el vector disperso.
  3. Fusión (RRF) : Tiempo de cálculo para que el algoritmo de Fusión de Rango Recíproco combine los dos conjuntos de resultados y produzca la lista final reordenada.

Las cifras de latencia finales que se muestran en nuestros resultados representan la media aritmética de los tiempos registrados en las 100 consultas de prueba, convertidas a milisegundos (ms) para mayor claridad. Este enfoque garantiza que nuestras métricas de latencia sean sólidas y representativas de la experiencia promedio del usuario.

Limitaciones y alcance

Nuestro análisis comparativo se centra específicamente en el sector de la salud y el cuidado personal, utilizando datos de reseñas de Amazon. Los patrones de rendimiento pueden variar en otros sectores con características lingüísticas o requisitos de terminología técnica distintos.

La evaluación empleó un nivel de detalle a nivel de documento, tratando cada reseña como un vector individual. Los resultados pueden variar según la estrategia de segmentación o el enfoque de recuperación de datos.

Lecturas adicionales

Explore otros puntos de referencia RAG, como:

Conclusión

Esta prueba de rendimiento confirma que un sistema de recuperación híbrido bien optimizado ofrece una ventaja significativa sobre un enfoque basado únicamente en la densidad de datos para consultas complejas del mundo real. Al combinar de forma inteligente la búsqueda semántica y léxica, el modelo híbrido mejora la precisión de la clasificación, lo que se traduce en resultados más precisos y mejor posicionados.

Las principales conclusiones de nuestro análisis comparativo incluyen:

  • El sistema híbrido supera al sistema exclusivamente denso: el sistema híbrido optimizado logró un aumento del +7,2 % en Recall@5 y un incremento sustancial del +18,5 % en MRR, lo que demuestra su capacidad superior para encontrar y clasificar correctamente la mejor respuesta.
  • La optimización es fundamental: la simple combinación de búsqueda densa y dispersa no es suficiente. Nuestro sistema híbrido inicial, sin optimizar, tuvo un rendimiento inferior al del sistema de referencia basado únicamente en búsqueda densa. La optimización estratégica de los parámetros de fusión fue esencial para mejorar el rendimiento.
  • La precisión tiene un precio: la mayor precisión del sistema híbrido introdujo un aumento de latencia de aproximadamente 201 ms (24,5 %) por consulta. Esta compensación es un factor crítico para los diseñadores de sistemas, quienes deben encontrar el equilibrio entre la necesidad de precisión y los requisitos de rendimiento en tiempo real.

Preguntas frecuentes

RAG permite que un modelo generativo, como un Modelo de Lenguaje a Gran Escala (LLM), genere respuestas basadas en datos externos en lugar de depender únicamente de sus datos de entrenamiento internos. Esto mejora la precisión al fundamentar las respuestas en la información recuperada.
Sin embargo, no todos los datos son iguales. Algunas consultas requieren comprensión semántica, mientras que otras dependen de la coincidencia precisa de palabras clave, especialmente al tratar con consultas estructuradas o entidades extraídas de información compleja. Por ello, la generación aumentada de recuperación híbrida (Hybrid RAG) resulta esencial. Combina la búsqueda semántica densa con la búsqueda léxica dispersa, proporcionando relevancia contextual y precisión de palabras clave. Esta naturaleza híbrida garantiza que el sistema recupere el contexto tanto de datos de texto estructurados como no estructurados, ofreciendo respuestas más precisas.

La implementación actual se centra en datos de texto no estructurados, como reseñas de productos, que suelen contener opiniones matizadas, detalles técnicos y diversos patrones lingüísticos. El sistema utiliza múltiples técnicas de recuperación para garantizar la captura tanto del significado como de los términos exactos.
De cara al futuro, Hybrid RAG podría ampliarse para incluir información estructurada y datos gráficos, lo que le permitiría responder a consultas más complejas mediante la integración de datos de grafos de conocimiento con el sentimiento o el contexto de las reseñas. Esto daría como resultado un contexto unificado que conectaría datos brutos, documentos estructurados y contenido narrativo, lo que facilitaría un contexto más rico durante la generación de respuestas.

Cuando un usuario envía una consulta, el sistema activa dos componentes de recuperación en paralelo: un recuperador denso (semántico) y un recuperador disperso (léxico). El modelo denso captura significados y relaciones generales, mientras que el modelo disperso basado en SPLADE se centra en los términos clave.
Estos dos conjuntos de resultados se combinan mediante la Fusión de Rango Recíproco (RRF), que resuelve la incompatibilidad de puntuación entre los diferentes métodos de recuperación. Este enfoque híbrido permite al sistema recuperar múltiples documentos que satisfacen distintas partes de una consulta, mejorando su capacidad para generar respuestas coherentes basadas en el contexto más relevante y completo disponible.

Sí, el enfoque híbrido consume más recursos. Requiere más recursos computacionales debido a la generación de vectores duales, las operaciones de doble búsqueda y la lógica de fusión. Esto implica tiempos de procesamiento de consultas más prolongados y la necesidad de infraestructura adicional para gestionar grandes volúmenes de datos.
A pesar de esto, las mejoras en el rendimiento, especialmente en el Rango Recíproco Medio (MRR) y la Recall@5, hacen que valga la pena la inversión en aplicaciones donde la precisión y la exhaustividad de los datos son cruciales. En una prueba de rendimiento rigurosa, el método híbrido recuperó de forma consistente información más precisa y contextualmente apropiada que los sistemas basados únicamente en datos densos.

A diferencia de las técnicas RAG tradicionales que se basan únicamente en incrustaciones densas, la técnica RAG híbrida aprovecha múltiples métodos de recuperación para maximizar la calidad de las respuestas. Gracias a su diseño de recuperación dual, admite un espectro más amplio de tipos de consultas, desde las más vagas hasta las más específicas.
Su naturaleza híbrida lo hace especialmente eficaz en casos de uso donde deben cumplirse múltiples restricciones, como la combinación de información estructurada (por ejemplo, «sin parabenos») con intenciones más generales (por ejemplo, «desodorante natural»). Este análisis comparativo demuestra que Hybrid RAG ofrece una respuesta más equilibrada y adaptativa basada en señales tanto densas como dispersas.

Sí, las futuras líneas de desarrollo de Hybrid RAG incluyen la incorporación de grafos de conocimiento y datos estructurados junto con texto. De esta forma, podrá responder a consultas estructuradas y proporcionar respuestas que sinteticen relaciones basadas en grafos (como categorías de productos o interacciones entre ingredientes) con reseñas de usuarios de formato libre.
Esto permitiría al sistema generar respuestas basadas tanto en estructuras fácticas precisas como en narrativas humanas matizadas, mejorando así la exactitud de los datos y la satisfacción del usuario.

Debido a que Hybrid RAG realiza dos tipos de recuperación y luego fusiona los resultados, naturalmente utiliza más recursos computacionales. La generación de vectores, especialmente al generar incrustaciones densas y dispersas, representa más del 90 % de la latencia total. En comparación con un enfoque que solo utiliza incrustaciones densas, esto aumenta la latencia (aproximadamente 201 ms por consulta en nuestra prueba de rendimiento).

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo
Investigado por
Ekrem Sarı
Ekrem Sarı
Investigador de IA
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y los marcos de trabajo RAG.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450