Las mejores herramientas, marcos de trabajo y bibliotecas RAG

con

actualizado el Feb 4, 2026

RAG (Generación Aumentada por Recuperación) mejora las respuestas de LLM mediante la adición de fuentes de datos externas. Comparamos diferentes modelos de incrustación y probamos por separado varios tamaños de fragmentos para determinar qué combinaciones funcionan mejor para los sistemas RAG.

Explore los principales marcos y herramientas RAG , aprenda qué es RAG, cómo funciona, sus beneficios y su papel en el panorama actual de los másteres en derecho (LLM).

Resultados de referencia RAG

Modelos de incrustación

El rendimiento de los sistemas RAG depende en gran medida de la calidad de los modelos de incrustación, ya que estos influyen directamente en la precisión y la eficacia del sistema para recuperar información relevante.

Para evaluar esto, analizamos el rendimiento de 4 modelos de incrustación:

Loading Chart

Estos resultados muestran que Mistral Embed logró la mayor precisión en nuestra prueba comparativa, lo que subraya la importancia de seleccionar el modelo de incrustación adecuado para los sistemas RAG.

Las incrustaciones afectan directamente tanto la relevancia de la información recuperada como la precisión de las respuestas generadas. Para comprender nuestro proceso de evaluación, consulte nuestra metodología de incrustaciones.

Para nuestro análisis comparativo detallado que compara la precisión y el costo de los principales proveedores como OpenAI, Gemini y Cohere, consulte nuestro análisis comparativo completo de modelos de incrustación .

Tamaño del trozo

En los sistemas RAG, el tamaño de los fragmentos determina el tamaño de los segmentos de texto al dividirlos para su procesamiento. Estos segmentos se convierten en vectores mediante modelos de incrustación y se almacenan en una base de datos vectorial . Cuando se formula una pregunta, el modelo recupera los segmentos más relevantes de la base de datos vectorial y genera una respuesta basada en esta información.

Elegir la combinación adecuada de tamaño de fragmento y modelo de incrustación es esencial para equilibrar la precisión de la recuperación y la eficiencia general del sistema:

Los resultados de la prueba comparativa demuestran la importancia del tamaño de los fragmentos en los sistemas RAG. El tamaño de los fragmentos afecta directamente a la segmentación del texto y a la calidad de la información recuperada, por lo que se requiere un equilibrio para garantizar que el sistema funcione de forma eficiente y precisa.

Los resultados indican que un tamaño de bloque de 512 tokens ofrece el mejor rendimiento, equilibrando la precisión y la eficiencia de la recuperación.

En la prueba de rendimiento del tamaño de los fragmentos, utilizamos:

Modelo de incrustación: OpenAI text-embedding-3-small
Base de datos de vectores: Pinecone.

Metodología de referencia del tamaño de los fragmentos RAG

Este estudio se diseñó específicamente para evaluar el rendimiento de los sistemas de Generación Aumentada por Recuperación (RAG). Para probar la capacidad de RAG de recuperar y generar información precisa y relevante a partir de una base de datos vectorial, preparamos un conjunto de datos basado en artículos de CNN News y formulamos preguntas. Las pruebas se centraron en examinar el impacto de parámetros críticos como el tamaño de los fragmentos y los modelos de incrustación.

Los artículos de CNN News se cargaron en una base de datos vectorial. Esta base de datos sirvió como fuente de conocimiento para el modelo LLM, asegurando que las respuestas generadas por el modelo se basaran exclusivamente en los datos proporcionados.
Cada respuesta generada por el LLM se comparó con la información veraz de los artículos originales. Esta comparación se realizó automáticamente mediante un sistema de evaluación de precisión, cuyo índice se calculó en función de la coincidencia exacta entre las respuestas y los datos de los artículos.

RAG frente a Ventana de contexto

RAG recupera datos externos para las consultas, mientras que las ventanas de contexto procesan cantidades fijas de texto. A medida que las ventanas de contexto se expanden a millones de tokens, algunos se preguntan si RAG seguirá siendo necesario; sin embargo, nuestros resultados demuestran que continúa ofreciendo claras ventajas en cuanto a precisión.

Comparamos el RAG con un enfoque de ventana de contexto larga:

Para la ventana de contexto:

Utilizamos la longitud de contexto nativa de Llama 4 Scout.

Para RAG:

LLM: Llama 4 Scout
Base de datos de vectores: Pinecone
Modelo de incrustación : OpenAI text-embedding-3-large
Tamaño del fragmento: 512

RAG frente a ventana de contexto: posibles razones de las diferencias de rendimiento

Exactitud

RAG logró una mayor precisión porque actúa como un filtro estricto, eliminando el 99 % del texto irrelevante antes de que el LLM lo procese. Este enfoque de atención discriminativa obliga al modelo a centrarse únicamente en los hechos relevantes, reduciendo el ruido y garantizando así una alta precisión.

Desviación de la atención

El análisis de ventanas de contexto largas tuvo un rendimiento bajo debido al fenómeno de "perdición", donde la atención del modelo se diluye naturalmente en documentos extensos. El modelo tiene dificultades para priorizar un único hecho relevante cuando este se encuentra oculto entre decenas de miles de tokens de texto no relacionado.

Por qué RAG sigue siendo eficaz

Los sistemas RAG utilizan bases de conocimiento externas, como bases de datos vectoriales, para recuperar la información más relevante para una consulta determinada. Al segmentar los datos en fragmentos e incrustarlos, Llama 4 pudo centrarse en datos de alta calidad y contextualmente relevantes, en lugar de procesar un contexto extenso completo.

Esto evita la acumulación de datos irrelevantes que suele saturar los modelos en escenarios de contexto extenso. RAG ayuda al modelo a mantener la claridad y a ofrecer respuestas más precisas al centrarse en datos de entrada más pequeños y específicos.

En contextos de gran duración, los modelos suelen tener dificultades para procesar y priorizar la información de forma eficaz, lo que conlleva una disminución del rendimiento. ¹

¿Pueden las ventanas de contexto largas reemplazar a RAG?

Las ventanas de contexto largas permiten procesar grandes conjuntos de datos de una sola vez. Sin embargo, sus desventajas prácticas, como la disminución del rendimiento y la ineficiencia computacional, hacen que RAG sea una opción más fiable para tareas que requieren alta precisión.

Los sistemas RAG abordan estos desafíos ajustando parámetros como el tamaño de los fragmentos y los modelos de incrustación, logrando un equilibrio entre eficiencia y efectividad. Las ventanas de contexto ofrecen una visión limitada de la entrada, mientras que RAG recupera información externa relevante para mejorar la calidad de la respuesta. Esto hace que RAG sea más adecuado para tareas que requieren conocimientos actualizados o específicos del dominio que superan los datos de entrenamiento internos del modelo.

Si bien las ventanas de contexto pueden funcionar para tareas más sencillas dentro del límite de tokens del modelo, RAG es más eficaz cuando se requiere conocimiento externo.

Metodología para la comparación RAG frente a la ventana de contexto

Evaluamos el rendimiento de Llama 4 Scout utilizando dos enfoques: RAG y una ventana de contexto larga. Para RAG, integramos Llama 4 Scout con Pinecone como base de datos vectorial, utilizando el modelo text-embedding-3-large de OpenAI para las incrustaciones y un tamaño de fragmento de 512.

Para el enfoque de ventana de contexto, nos basamos únicamente en la longitud de contexto nativa de Llama 4 Scout sin recuperación externa. Ambos métodos se evaluaron utilizando nuestro conjunto de datos mencionado anteriormente , y la precisión se calculó como el porcentaje de respuestas correctas a un conjunto de consultas.

¿Por qué es importante RAG ahora?

La importancia de la Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha aumentado en los últimos años debido a la creciente necesidad de sistemas de IA que proporcionen respuestas precisas, transparentes y contextualmente relevantes. Sin embargo, es posible que los líderes empresariales desconozcan el término, ya que RAG es un campo emergente (véase la figura a continuación).

A medida que las empresas y los desarrolladores buscan superar las limitaciones de los modelos de lenguaje grandes tradicionales (LLM, por sus siglas en inglés), como el conocimiento obsoleto, la falta de transparencia y los resultados ilusorios, RAG ha surgido como una solución fundamental.

¿Cuáles son los modelos y herramientas RAG disponibles?

Los modelos y herramientas de Generación Aumentada por Recuperación (RAG) se pueden dividir en tres categorías:

Los sistemas LLM con capacidades RAG integradas mejoran la precisión de la respuesta mediante el acceso a conocimientos externos.

Bibliotecas y marcos de trabajo RAG que se pueden aplicar a los LLM para implementaciones personalizadas.

Componentes , como marcos de integración, bases de datos vectoriales y modelos de recuperación, que se pueden combinar entre sí o con grandes modelos de lenguaje (LLM) para construir sistemas RAG.

LLM con capacidades RAG integradas

Varios modelos de lenguaje natural (LLM) ahora incorporan la funcionalidad RAG nativa para mejorar su precisión y relevancia mediante la recuperación de conocimiento externo.

Meta IA : El modelo RAG de Meta IA integra la recuperación y la generación dentro de un único marco, utilizando Recuperación de Pasajes Densos (DPR) para el proceso de recuperación y BART para la generación. Este modelo está disponible en Hugging Face para tareas que requieren un alto nivel de conocimiento.
Claude de Anthropic : Incluye una API de citas para modelos como Claude 3.5 Sonnet y Haiku, lo que permite referenciar fuentes.
SuperRAG 2.0 de Mistral : Este modelo ofrece recuperación con integración en Mistral 8x7B v1.
Cohere's Command R : Optimizado para RAG con soporte multilingüe y citas, accesible a través de API o pesos del modelo Hugging Face.
Incrustaciones Gemini : modelo de incrustación Gemini de Google para RAG.
Mistral Embed : El modelo de incrustación de Mistral complementa sus ofertas LLM al producir incrustaciones vectoriales densas optimizadas para tareas RAG.
OpenAI Incrustaciones : OpenAI ofrece varios modelos de incrustación, como Embedding-3-Large, Embedding-3-Small y text-embedding-ada-002, cada uno adecuado para diferentes casos de uso en tareas de procesamiento del lenguaje natural como la generación aumentada por recuperación.

Bibliotecas y marcos de trabajo RAG

Estas herramientas permiten a los desarrolladores añadir funcionalidades RAG a los LLM existentes, proporcionando flexibilidad y escalabilidad.

Haystack : Un marco de trabajo integral desarrollado por Deepset para la creación de pipelines RAG, centrado en la búsqueda de documentos y la respuesta a preguntas.
LlamaIndex : Se especializa en la ingesta e indexación de datos, mejorando los modelos de lenguaje natural con sistemas de recuperación.
Weaviate : Una base de datos vectorial con características RAG, que admite flujos de trabajo de búsqueda y recuperación escalables.
DSPY : Un marco de programación declarativa para optimizar RAG en modelos de lenguaje grandes.
Ruta de implementación : Un marco para desplegar RAG a gran escala con conectividad de datos.
Azure Aprendizaje automático : Proporciona capacidades RAG a través de Azure AI Studio y pipelines de aprendizaje automático.
IBM watsonx.ai : Proporciona marcos para desarrollar aplicaciones que facilitan la implementación de RAG con grandes modelos de lenguaje.

Para una comparación y un análisis más detallados, consulte nuestra comparativa de marcos RAG .

Marcos de integración para RAG

Los marcos de integración agilizan el desarrollo de aplicaciones sensibles al contexto y con capacidad de razonamiento, basadas en modelos de lógica descriptiva (LLM). Ofrecen componentes modulares y cadenas preconfiguradas adaptadas a necesidades específicas, a la vez que permiten la personalización.

LangChain : Un marco de trabajo para crear aplicaciones sensibles al contexto, comúnmente utilizado con RAG y LLM.
Dust : Facilita la creación de asistentes de IA personalizados con búsqueda semántica y soporte RAG, mejorando las aplicaciones LLM.

Los usuarios pueden combinar estos marcos con bases de datos vectoriales para implementar completamente RAG , lo que aumenta la profundidad contextual de los resultados de LLM.

Bases de datos de vectores para RAG

Las bases de datos vectoriales (VD, por sus siglas en inglés) manejan datos multidimensionales, como síntomas de pacientes, resultados de análisis de sangre, comportamientos y métricas de salud, lo que las hace vitales para los sistemas RAG.

Deep Lake : Un lago de datos optimizado para LLM, que admite el almacenamiento vectorial y la integración con herramientas como LlamaIndex.
Pinecone : Un servicio de base de datos de vectores administrado para configuraciones RAG.
Weaviate : Combina el almacenamiento vectorial con funciones RAG (Raspberry Pi) para la recuperación de datos.
Milvus : Una base de datos vectorial de código abierto para casos de uso de IA .
Qdrant : Un motor de búsqueda vectorial para la búsqueda de similitud.
Zep Vector Store : Una plataforma de código abierto que admite un almacén de vectores de documentos, donde puede cargar, incrustar y buscar documentos para RAG.

Otros modelos de recuperación compatibles con RAG

Dado que RAG aprovecha técnicas de recuperación y de secuencia a secuencia como DPR, los desarrolladores pueden combinar estos modelos con LLM para permitir la generación aumentada por recuperación.

BART con Recuperación : Integra el poder generativo de BART con mecanismos de recuperación para RAG.
BM25 : Un algoritmo de recuperación tradicional basado en la frecuencia de términos, ampliamente utilizado por su simplicidad.
Modelo ColBERT : Basado en BERT (Representaciones de codificador bidireccional de transformadores) y diseñado para combinar la recuperación densa con la recuperación dispersa tradicional.
Modelo DPR (Recuperación de Pasajes Densos) : Un modelo utilizado para tareas de recuperación de información, particularmente en el ámbito de los sistemas de respuesta a preguntas (QA) y de búsqueda.

¿Qué es la generación aumentada por recuperación?

En 2020, Meta Research introdujo los modelos RAG para manipular el conocimiento con precisión. Lewis y sus colegas se refieren a RAG como un enfoque de ajuste fino de propósito general que puede combinar modelos de generación de memoria paramétrica preentrenados con una memoria no paramétrica.

En términos sencillos, la generación aumentada por recuperación (RAG) es un enfoque de procesamiento del lenguaje natural (PLN) que combina elementos de los modelos de recuperación y generación para mejorar la calidad y la relevancia del contenido generado. Se trata de un enfoque híbrido que aprovecha las ventajas de ambas técnicas para superar las limitaciones de los métodos puramente generativos o basados únicamente en la recuperación. Aquí les presentamos un breve video sobre RAG:

¿Cómo funcionan los modelos RAG?

El sistema RAG funciona en dos fases: recuperación y generación de contenido.

En la fase de recuperación :

Los algoritmos buscan y recuperan activamente fragmentos de información relevantes a partir de la pregunta o indicación del usuario, utilizando técnicas como BM25. Esta información recuperada sirve de base para generar respuestas coherentes y contextualmente pertinentes.

En entornos de consumo de dominio abierto, esta información puede obtenerse de documentos indexados en internet. En entornos empresariales de dominio cerrado, se suele utilizar un conjunto de fuentes más restringido para mejorar la seguridad y la fiabilidad del conocimiento interno. Por ejemplo, el sistema RAG puede buscar:
- Factores contextuales actuales, como actualizaciones meteorológicas en tiempo real y la ubicación precisa del usuario.
- Detalles centrados en el usuario, sus pedidos anteriores en el sitio web, sus interacciones con el sitio web y el estado actual de su cuenta.
- Datos fácticos relevantes en recuperado Documentos que son privados o que fueron actualizados después del proceso de formación del LLM.

En la fase de generación de contenido :

Tras recuperar las incrustaciones relevantes, un modelo de lenguaje generativo, como un modelo basado en transformadores tipo GPT, toma el control. Este modelo utiliza el contexto recuperado para generar respuestas en lenguaje natural. El texto generado puede ajustarse o refinarse aún más en función del contenido recuperado para garantizar su coherencia con el contexto y su precisión contextual. El sistema puede incluir enlaces o referencias a las fuentes consultadas con fines de transparencia y verificación.

Figura 1: Arquitectura RAG ²

Los sistemas RAG LLM utilizan dos sistemas para obtener datos externos:

Base de datos vectorial: Las bases de datos vectoriales ayudan a encontrar documentos relevantes mediante búsquedas de similitud. Pueden funcionar de forma independiente o formar parte de la solicitud del máster en Derecho (LLM).
Almacenes de características: Se trata de sistemas o plataformas para gestionar y almacenar características de datos estructurados utilizadas en aplicaciones de aprendizaje automático e inteligencia artificial. Proporcionan datos organizados y accesibles para los procesos de entrenamiento e inferencia en modelos de aprendizaje automático como los LLM.

¿Qué es la generación aumentada por recuperación en modelos de lenguaje grandes?

Los modelos RAG generan soluciones que pueden abordar los desafíos que enfrentan los modelos de lenguaje grandes (LLM). Estos problemas principales incluyen:

Acceso y manipulación limitados del conocimiento: Los modelos de aprendizaje automático (MLA) tienen dificultades para mantener actualizado su conocimiento del mundo, ya que las actualizaciones de sus conjuntos de datos de entrenamiento son inviables. Además, presentan limitaciones para manipular el conocimiento con precisión. Esta limitación afecta su rendimiento en tareas que requieren un uso intensivo del conocimiento, lo que a menudo provoca que se queden rezagados con respecto a las arquitecturas específicas para cada tarea. Por ejemplo, los MLA carecen de conocimiento específico del dominio, ya que están entrenados para tareas generalizadas.
Falta de transparencia: Los programas de maestría en derecho (LLM) tienen dificultades para brindar información transparente sobre cómo toman decisiones. Es difícil rastrear cómo y por qué llegan a conclusiones o respuestas específicas, por lo que a menudo se les considera "cajas negras".
Respuestas engañosas: Los modelos de lenguaje pueden responder preguntas que parecen precisas o coherentes, pero que en realidad son completamente inventadas o inexactas. Abordar y reducir estas respuestas engañosas es un desafío crucial para mejorar la fiabilidad y la credibilidad del contenido generado por los modelos de lenguaje.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

¿Cuáles son los diferentes tipos de RAG?

RAG especulativo

El algoritmo RAG especulativo utiliza un modelo de lenguaje (LM) más pequeño y especializado para generar múltiples respuestas a partir de diferentes subconjuntos de documentos en paralelo, mientras que un LM generalista más grande verifica y selecciona la mejor respuesta. Este enfoque de sistema dual mejora la precisión y reduce la latencia, lo que lo hace ideal para aplicaciones de alto rendimiento donde tanto la velocidad como la precisión son cruciales.

Ajuste fino aumentado por recuperación (RAFT)

RAFT combina RAG con el ajuste fino supervisado para mejorar el rendimiento específico del dominio. Imagínelo como prepararse para un examen a libro abierto: en lugar de depender de documentos externos en el momento de la consulta (RAG) o memorizarlo todo (ajuste fino), RAFT entrena el modelo para que "estudie" los documentos de antemano.

Cómo funciona:

Los datos de entrenamiento incluyen preguntas, documentos "oráculo" (que contienen la respuesta) y documentos "distractores" (ruido irrelevante).
El modelo aprende a identificar la información relevante mientras ignora los distractores.
Las respuestas en forma de cadena de pensamiento mejoran la calidad del razonamiento.

Consideración: Investigaciones recientes sugieren que RAFT ofrece las mejoras más significativas en comparación con los modelos LLM más antiguos. Los modelos más nuevos pueden mostrar mejoras más modestas, ya que cuentan con mejores mecanismos de recuperación integrados.

Arquitecturas RAG avanzadas

El panorama de RAG ha evolucionado más allá de los tipos estándar "Contextual" y "Especulativo" hacia arquitecturas sofisticadas diseñadas para el razonamiento complejo. El modelo básico de "recuperación y generación" está siendo reemplazado por bucles donde el modelo dialoga activamente con el recuperador.

RAG basado en grafos (GraphRAG)

GraphRAG va más allá de la simple recuperación de fragmentos de texto planos. Construye un grafo de conocimiento donde los documentos y las entidades son nodos, lo que permite al sistema recuperar "subgrafos" o rutas de razonamiento en lugar de fragmentos aislados.

Cómo funciona: En lugar de clasificar los pasajes de forma aislada, el sistema identifica relaciones (aristas) entre entidades. Puede recorrer estas conexiones para responder preguntas de múltiples saltos (por ejemplo, "¿Qué relación tiene el director ejecutivo de la empresa A con el proveedor de la empresa B?").
Conciencia de la estructura: Sistemas como G-RETRIEVER construyen subgrafos conectados mínimos que codifican contextos de múltiples saltos incluso antes de que el LLM vea la indicación, lo que mejora la fidelidad y reduce las alucinaciones.
Ideal para: Tareas de razonamiento complejas donde las relaciones entre los puntos de datos importan más que la coincidencia de palabras clave.

RAG híbrido y contextual

RAG contextual: Mejora la recuperación estándar mediante el preprocesamiento de fragmentos con "incrustaciones contextuales" o resúmenes que explican por qué un fragmento es relevante, reduciendo así los fallos de recuperación.
Recuperación híbrida : Combina la recuperación densa (vectores semánticos) con la recuperación dispersa (palabras clave BM25). La recuperación densa captura el significado semántico, mientras que BM25 detecta coincidencias exactas de palabras clave que la búsqueda semántica podría pasar por alto. Esta combinación se considera actualmente una buena práctica para mitigar los fallos de recuperación.

RAG agencial

Las canalizaciones basadas en agentes utilizan un controlador LLM para coordinar múltiples herramientas y bancos de memoria. El agente puede planificar un flujo de trabajo (por ejemplo, "Recuperar datos financieros", luego "Usar la herramienta de calculadora" y, finalmente, "Resumir").

Orquestación: A diferencia del RAG lineal, un sistema con agentes utiliza fichas de planificación (PENSAMIENTO, ACCIÓN, OBSERVACIÓN) para decidir su siguiente movimiento de forma dinámica.
Uso de herramientas: Permite intercambiar herramientas en caliente (por ejemplo, pasando de un índice vectorial denso a una consulta de base de datos SQL) según la intención del usuario.

RAG iterativo y activo

Estos sistemas tratan la recuperación como un ciclo conversacional en lugar de un paso aislado. El modelo determina cuándo recuperar la información y qué conservar.

RAG activo (FLARE): Mecanismos como FLARE (Recuperación Activa Prospectiva) supervisan la confianza del modelo durante la generación. Si el modelo genera tokens de baja confianza, se detiene para formular una consulta de búsqueda y recuperar nuevos datos, en lugar de generar información errónea. Esto resulta especialmente eficaz para la generación de textos largos, donde las necesidades de información evolucionan a lo largo del texto.
Autoanálisis: El modelo genera "tokens de reflexión" (por ejemplo, Retrieve, ISREL, ISSUP, ISUSE) para analizar críticamente el contenido recuperado. Evalúa la relevancia de los pasajes, si el contenido generado está respaldado por evidencia y la utilidad general de la respuesta, decidiendo si conservar, refinar o descartar la evidencia antes de generar la respuesta final.
Refinamiento cíclico: Arquitecturas como la de Cadena de Notas obligan al LLM a escribir notas concisas sobre los documentos recuperados para evaluar su fiabilidad antes de sintetizar una respuesta.

Cómo evaluar los sistemas RAG

La evaluación de RAG es más compleja que las pruebas LLM estándar porque requiere evaluar dos componentes distintos: el Recuperador (encontrar los datos correctos) y el Generador (sintetizar la respuesta con precisión). La comunidad de investigación ha dejado de lado las métricas superficiales simples (como BLEU o ROUGE) para adoptar marcos de evaluación semánticos y algorítmicos que miden tres pilares fundamentales: Relevancia del Contexto , Fidelidad y Relevancia de la Respuesta .

Matriz de evaluación RAG

1. Métricas a nivel de componente

Para diagnosticar problemas de rendimiento, debe evaluar las etapas de recuperación y generación por separado.

Métricas de recuperación (La fase de búsqueda)

Si el recuperador falla, el generador no tiene ninguna posibilidad. Las métricas clave incluyen:

Precision@k y Recall@k: Precision mide cuántos de los documentos recuperados son realmente relevantes, mientras que Recall mide si el sistema encontró todos los documentos relevantes disponibles en la base de datos.
Rango recíproco medio (MRR): Esto es fundamental para los sistemas RAG, donde el LLM presta mayor atención a los primeros fragmentos. El MRR evalúa en qué posición de la lista aparece el primer documento relevante.
Ganancia acumulativa descontada normalizada (nDCG): a diferencia de las métricas binarias de acierto/fallo, la nDCG tiene en cuenta la relevancia gradual, recompensando a los sistemas que colocan los documentos más útiles en la parte superior de la ventana de contexto.

Métricas de generación (Fase de respuesta)

Fidelidad (Fundamentación): Mide si la respuesta generada se deriva exclusivamente del contexto recuperado. Esta es la métrica principal para detectar alucinaciones; si el modelo añade información que no está presente en la fuente, la fidelidad disminuye.
Relevancia de la respuesta: Evalúa si la respuesta aborda realmente la consulta del usuario, asegurando que el modelo no resuma el contexto sin responder a la pregunta específica.
Rechazo negativo: Una métrica de seguridad crítica que pone a prueba la capacidad del sistema para decir "No lo sé" cuando el contexto recuperado no contiene la respuesta, en lugar de generar una falsedad que parezca plausible.

2. Marcos de evaluación automatizados

Depender exclusivamente de la evaluación humana es lento y costoso. El estándar de la industria ha cambiado hacia marcos de "LLM como juez", donde un modelo sólido evalúa los resultados de su canalización RAG.

RAGAS (Evaluación sin Referencia): RAGAS utiliza modelos lingüísticos para evaluar la calidad de las respuestas sin necesidad de respuestas de referencia etiquetadas por humanos. Proporciona un conjunto completo de métricas, que incluyen precisión contextual, exhaustividad contextual, fidelidad y relevancia de la respuesta. RAGAS es altamente eficiente y escalable, aunque puede ser sensible a las preguntas específicas utilizadas para la evaluación.
ARES (Sistema Automatizado de Evaluación RAG): ARES optimiza los sistemas ligeros de evaluación de modelos de lenguaje (LM) mediante datos de entrenamiento sintéticos para evaluar la relevancia del contexto, la fidelidad de las respuestas y la pertinencia de las mismas. Utiliza inferencia basada en predicción (PPI) con un pequeño conjunto (aproximadamente 150 puntos de datos anotados por humanos) para generar intervalos de confianza. Si bien ARES ofrece mayor precisión y mantiene su eficacia en diferentes dominios, requiere una configuración más compleja en comparación con RAGAS.

3. Evaluación comparativa avanzada

Más allá de la precisión básica, las pruebas de rendimiento avanzadas evalúan modos de fallo específicos:

Robustez frente al ruido: ¿Puede el modelo filtrar los documentos irrelevantes que se encuentran mezclados en la ventana de contexto?
Integración de la información: ¿Puede el modelo sintetizar una respuesta que requiera combinar pistas de varios documentos distintos (razonamiento de múltiples saltos)?
Robustez contrafactual: ¿Puede el modelo identificar y corregir errores cuando la información recuperada entra en conflicto con su conocimiento paramétrico interno (o viceversa)?

¿Cuáles son los beneficios de la generación aumentada mediante recuperación de información?

Las formulaciones RAG se pueden aplicar a diversas aplicaciones de PLN, incluidos chatbots, sistemas de respuesta a preguntas y generación de contenido, donde la recuperación correcta de información y la generación de lenguaje natural son fundamentales. Las principales ventajas que ofrece RAG incluyen:

Mayor relevancia y precisión

Las herramientas y modelos de Gen AI, como ChatGPT, tienen el potencial de automatizar tareas de PLN intensivas en conocimiento que representan aproximadamente el 70 % del tiempo de los empleados. ³ Sin embargo, aproximadamente el 67% de los líderes empresariales y analistas consideran que el contenido generado por IA es sesgado o inexacto, lo que reduce la tasa de adopción de los LLM. ⁴

Al incorporar un componente de recuperación, los modelos RAG pueden acceder a fuentes de conocimiento externas, lo que garantiza que el texto generado se base en información precisa y actualizada. Esto da como resultado respuestas más relevantes y precisas desde el punto de vista contextual, lo que reduce las confusiones al responder preguntas y generar contenido.

Coherencia contextual

Los modelos basados en la recuperación de información proporcionan contexto para el proceso de generación, lo que facilita la creación de textos coherentes y adecuados al contexto. Esto da lugar a respuestas más cohesivas y comprensibles, ya que el componente de generación puede basarse en la información recuperada.

Manejo de consultas de dominio abierto

Los modelos RAG destacan por abordar preguntas de dominio abierto donde la información requerida puede no estar presente en los datos de entrenamiento. El componente de recuperación puede obtener información relevante de una vasta base de conocimientos, lo que permite al modelo proporcionar respuestas o generar contenido sobre diversos temas.

Sesgo de generación reducido

La incorporación de la recuperación de datos puede ayudar a mitigar algunos sesgos inherentes a los modelos puramente generativos. Al basarse en información existente de diversas fuentes, los modelos RAG pueden generar respuestas menos sesgadas y más objetivas.

Computación eficiente

Los modelos basados en recuperación de información pueden ser computacionalmente eficientes para tareas en las que la base de conocimiento está disponible y estructurada. En lugar de generar respuestas desde cero, pueden recuperar y adaptar la información existente, reduciendo así el coste computacional.

Los modelos RAG pueden ampliarse para trabajar con múltiples modalidades, como texto e imágenes. Esto les permite generar texto contextualmente relevante para contenido textual y visual, lo que abre posibilidades para aplicaciones como la generación de subtítulos para imágenes, la creación de resúmenes de contenido y mucho más.

Personalización y ajuste fino

Los modelos RAG se pueden personalizar para dominios o casos de uso específicos. Esta adaptabilidad los hace adecuados para diversas aplicaciones, incluidos chatbots especializados, atención al cliente y sistemas de recuperación de información.

Colaboración entre humanos e IA

Los modelos RAG pueden ayudar a los humanos en las tareas de recuperación de información al resumir y presentar rápidamente la información relevante de una base de conocimientos, reduciendo el tiempo y el esfuerzo necesarios para la búsqueda manual.

Ajuste fino frente a generación aumentada por recuperación

Por lo general, un modelo fundacional puede adquirir nuevos conocimientos a través de dos métodos principales:

Ajuste fino: Este proceso requiere ajustar los modelos preentrenados en función de un conjunto de entrenamiento y los pesos del modelo.
RAG: Este método introduce conocimiento a través de entradas del modelo o inserta información en una ventana de contexto.

El ajuste fino ha sido un enfoque común. Sin embargo, no se recomienda para mejorar la memorización de datos, sino para perfeccionar su rendimiento en tareas especializadas. A continuación, se presenta una comparación exhaustiva entre ambos enfoques:

Descargo de responsabilidad

RAG es un campo emergente, por lo que existen pocas fuentes que puedan categorizar estas herramientas y marcos de trabajo. Por lo tanto, AIMultiple se basó en declaraciones públicas de proveedores para dicha categorización. AIMultiple mejorará esta lista de proveedores y la categorización a medida que el mercado crezca.

Los modelos y bibliotecas RAG mencionados anteriormente están ordenados alfabéticamente en esta página, ya que AIMultiple actualmente no tiene acceso a métricas más relevantes para clasificar a estas empresas.

Las listas de proveedores no son exhaustivas.

Lecturas adicionales

Descubra las últimas novedades sobre LLM y LLMOps consultando:

Enlaces de referencia

https://arxiv.org/pdf/2404.06654

Epsilla x LangChain: Retrieval Augmented Generation (RAG) in LLM-Powered Question-Answering Pipelines

LangChain Blog

https://www.mckinsey.de/~/media/mckinsey/locations/europe%20and%20middle%20east/deutschland/news/presse/2023/2023-06-14%20mgi%20genai%20report%2023/the-economic-potential-of-generative-ai-the-next-productivity-frontier-vf.pdf

AI study: Over 60 per cent use Artificial Intelligence at work – almost half of all employees are worried about losing their jobs | Deloitte Switzerland

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Investigado por