Herramientas de evaluación RAG: Pesos y sesgos frente a Ragas frente a DeepEval

con

actualizado el Mar 23, 2026

Cuando una canalización RAG recupera el contexto incorrecto, el LLM genera con seguridad la respuesta incorrecta. Los evaluadores de relevancia de contexto son la principal defensa.

Comparamos cinco herramientas con 1460 preguntas y más de 14 600 contextos calificados en condiciones idénticas: mismo modelo de evaluador (GPT-4o), configuraciones predeterminadas y sin indicaciones personalizadas. En condiciones estándar, WandB, TruLens y Ragas se destacaron como las mejores. Bajo presión adversaria (negaciones difíciles con intercambio de entidades), WandB obtuvo el mejor rendimiento.

Resultados comparativos de las herramientas de evaluación RAG

Loading Chart

Los tres primeros (WandB, TruLens, Ragas) están estadísticamente empatados en precisión Top-1 (IC del 95% que se superpone entre el 94,0% y el 98,0%).

Para comprender en detalle nuestra evaluación y métricas, consulte nuestra metodología de referencia para las herramientas de evaluación RAG.

Explicación de las métricas

Precisión Top-1 : ¿Puede la herramienta asignar la puntuación de relevancia más alta al contexto de referencia? Esto mide la seguridad frente a la recuperación adversaria, un modo de fallo común en producción.

NDCG@5 (ganancia acumulativa descontada normalizada) : Dados cinco contextos con diferentes niveles de relevancia (4, 3, 2, 1, 0), ¿la herramienta los clasifica en el orden correcto? A diferencia de la precisión binaria, NDCG premia a las herramientas que asignan puntuaciones proporcionalmente más altas a los contextos más relevantes.

Coeficiente de correlación de rangos de Spearman (ρ) : ¿Qué tan bien se correlaciona la clasificación de la puntuación de una herramienta con el orden de relevancia real? Una herramienta perfecta produciría ρ = 1,0.

MRR (rango recíproco medio) : Promedio de 1/rango para el contexto de referencia. Si una herramienta clasifica el contexto de referencia en primer lugar, MRR = 1,0; en segundo lugar, MRR = 0,5; en tercer lugar, MRR = 0,33. Penaliza a las herramientas que ocultan el contexto correcto por debajo de otros menos relevantes.

Principales conclusiones

WandB lidera en identificación, TruLens lidera en clasificación : WandB tiene la mayor precisión Top-1 (94,5 %), pero el NDCG@5 más bajo (0,910) y el coeficiente de correlación de Spearman más bajo (0,669). TruLens lidera en NDCG@5 (0,932), coeficiente de correlación de Spearman más bajo (0,750) y tasa de rechazo media (0,594). La diferencia radica en el diseño de la puntuación: la puntuación binaria de WandB es simple pero imprecisa; la escala de 4 puntos de TruLens tiene mayor resolución pero es más propensa a las inversiones.
TruLens tiene el índice de discriminación más alto : al distinguir un contexto correcto de una versión casi idéntica con entidades intercambiadas, TruLens acierta en la dirección el 35,5 % de las veces con solo un 8,4 % de inversiones (una proporción de 4,2:1). Ninguna otra herramienta iguala este resultado.
Ninguna herramienta distingue entre contextos fácticos incorrectos y correctos : las cinco herramientas puntúan las negaciones rotundas más alto que los contextos parciales, invirtiendo el orden correcto de relevancia. Un pasaje con las entidades correctas y la respuesta incorrecta obtiene sistemáticamente una puntuación mayor que un pasaje con el tema correcto pero sin respuesta. Esto concuerda con la idea de que la relevancia del contexto mide la adecuación temática, no la precisión fáctica.
DeepEval subestima los contextos óptimos : la descomposición de sentencias de DeepEval produce clasificaciones competitivas (NDCG@5 = 0,923), pero asigna a los contextos óptimos una puntuación media de 0,46 frente a 0,82–0,91 para otras herramientas. Esto la hace poco fiable para identificar el mejor contexto individual.
La escala ternaria de UpTrain limita la discriminación : tres valores de salida (0, 0,5, 1,0) no pueden representar cinco niveles de relevancia. UpTrain muestra la peor relación de discriminación (1,4:1) y la menor precisión de clasificación (27,6 % de ordenación perfecta).

Discriminación: la negatividad dorada frente a la dura

¿Con qué frecuencia la herramienta asigna una puntuación más alta al contexto ideal que al negativo duro con la entidad intercambiada?

Victoria = puntuación de oro estrictamente más alta. Empate = puntuación igual. Derrota = puntuación negativa dura más alta.

WandB tiene la menor cantidad de pérdidas (4,8 %) pero también la menor cantidad de victorias (15,5 %): su puntuación binaria produce empates el 80 % de las veces. Cuando diferencia, casi siempre acierta en la dirección. La precisión estricta Top-1 de WandB (el valor máximo único es el valor dorado) es de solo el 8,3 %, en comparación con el 25,3 % de TruLens; su Top-1 argmax es alto porque el contexto dorado está en el índice 0 y se beneficia del desempate.

Calidad de la clasificación

Precisión por pares = % de todos los 10 pares de contexto por muestra clasificados correctamente. Precisión de los 2 mejores = el contexto con la puntuación más alta es óptimo o parcial. Precisión de 5 vías = clasificación monótona perfecta en los 5 niveles.

WandB lidera en las tres métricas porque su puntuación binaria crea una división natural en dos niveles (relevante vs. irrelevante) que elimina los errores de ordenación dentro de cada nivel. Nota: la precisión por pares considera los empates como correctos (s[i] >= s[j]), lo que beneficia a las herramientas binarias. NDCG@5 y Spearman ρ (mostrados en el gráfico anterior) penalizan los empates y clasifican a TruLens en primer lugar.

Puntuaciones promedio por nivel de relevancia

Ninguna herramienta ordena correctamente Parcial > Negativo Duro.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Cómo evalúa cada herramienta la relevancia del contexto

Las cinco herramientas utilizan GPT-4o como juez subyacente, pero emplean diferentes estrategias de evaluación.

WandB Weave: Indicación LLM binaria

WandB envía una única solicitud al LLM pidiéndole que califique la relevancia "en una escala de 0 a 1". Sin embargo, su esquema de respuesta interno define la puntuación como un número entero , por lo que el modelo solo puede devolver 0 o 1 .

Una llamada LLM, una decisión binaria. WandB responde con precisión a la pregunta "¿es este el contexto correcto?" (máxima precisión Top-1), pero no puede expresar grados de relevancia: un contexto parcial y una negación rotunda obtienen la misma puntuación.

Valores de salida: 0, 1

TruLens: escala Likert de 4 puntos

TruLens utiliza el LLM como un “evaluador de RELEVANCIA” con criterios explícitos para una escala de 0 a 3 :

0: Irrelevante para la consulta
1: Relevante para alguna parte de la consulta
2: Relevante para la mayor parte de la consulta
3: Relevante para la totalidad de la consulta

La puntuación bruta se normaliza a un rango de 0,0 a 1,0 dividiéndola por 3. Esto le da a TruLens cuatro niveles de salida distintos, lo que proporciona la granularidad suficiente para distinguir los contextos parciales de las negaciones absolutas, manteniendo al mismo tiempo la simplicidad de la indicación.

Valores de salida: 0,0, 0,33, 0,67, 1,0

Ragas: Promedio de dos jueces

Ragas aplica dos preguntas independientes a cada evaluación, cada una con una formulación diferente de los mismos criterios (0 = irrelevante, 1 = parcialmente relevante, 2 = totalmente relevante). La puntuación final es el promedio de las evaluaciones de ambos jueces, normalizado a un rango de 0,0 a 1,0.

Debido a que se promedian dos escalas de 3 puntos, Ragas produce cinco valores posibles , más valores de salida que cualquier otra herramienta probada. El diseño de doble indicador también proporciona resistencia integrada a la sensibilidad a las indicaciones.

Valores de salida: 0,0, 0,25, 0,5, 0,75, 1,0

UpTrain: Clasificación ternaria (A/B/C)

UpTrain define la relevancia como una clasificación de opción múltiple :

A (1.0): El contexto puede responder a la consulta completamente
B (0,5): El contexto puede dar alguna respuesta relevante, pero no puede responder completamente.
C (0.0): El contexto no contiene información para responder a la consulta.

El diseño ternario puede distinguir lo "parcialmente relevante" de lo "irrelevante", pero no puede separar lo "engañoso" de lo "relacionado tangencialmente"; ambos pueden caer en la misma categoría.

Valores de salida: 0,0, 0,5, 1,0

DeepEval: Descomposición de sentencias (G-Eval)

En lugar de solicitar una única puntuación de relevancia, DeepEval descompone el contexto en enunciados individuales y, a continuación, pide al modelo LLM que determine si cada enunciado es relevante o irrelevante para la consulta. La puntuación final es la proporción de enunciados relevantes con respecto al total de enunciados.

El resultado es una puntuación continua (por ejemplo, 7 de 10 afirmaciones relevantes = 0,70). Sin embargo, el enfoque es estricto: incluso un contexto altamente relevante se penaliza si contiene oraciones fuera de tema. Los contextos óptimos a veces incluyen detalles contextuales que la descomposición marca como "irrelevantes", lo que reduce la puntuación por debajo de la de una negación dura más corta y específica. Esto explica la precisión Top-1 del 78,1 % de DeepEval.

Valores de salida: Continuo (0,0–1,0)

Metodología de referencia para las herramientas de evaluación RAG

Diseño de conjuntos de datos adversarios

Cada consulta tiene cinco contextos con un nivel de relevancia distinto :

Conjunto de datos

Combinamos dos fuentes:

HaluEval (480 ejemplos): Preguntas de cultura general sobre música, cine, deportes, historia, geografía y más. Claude genera negaciones explícitas, contextos parciales y negaciones implícitas.

HotPotQA (530 ejemplos): Preguntas de razonamiento de múltiples saltos que requieren la síntesis de información a través de varios documentos.

Total: 1010 muestras , cada una con 5 contextos = 5050 evaluaciones de contexto por herramienta . Todas las muestras pasaron el filtrado automático de fugas (se eliminaron 489 muestras durante la generación por fugas de respuestas).

Protocolo entre modelos

Para eliminar el sesgo de autopreferencia (donde un evaluador LLM prefiere el texto generado por sí mismo), utilizamos Claude Sonnet 4.5 para la generación de contexto adversario y GPT-4o como juez para todas las herramientas. Ambos fueron llamados a través de OpenRouter con temperature=0.

Las trampas adversarias

La trampa de los saltos múltiples (confusión de relaciones)

Las preguntas suelen requerir trazar una cadena de relaciones (por ejemplo, A está emparentado con B, quien a su vez está emparentado con C). Las preguntas negativas directas responden a una versión más sencilla de la pregunta, rompiendo la cadena.

Pregunta ID 89 : "¿Quién publica la serie de juegos de la que Retro City Rampage es una parodia?" Respuesta objetivo : Rockstar Games

La trampa del distractor de entidades

Los sistemas de recuperación suelen encontrar la ubicación o el sujeto correctos, pero devuelven metadatos sobre el evento o atributo incorrecto.

Pregunta ID 90 : “…¿El Bridge Inn es el lugar donde se celebra qué concurso anual de mentiras, que tiene lugar en Cumbria, Inglaterra?” Respuesta objetivo : El mayor mentiroso del mundo

La trampa de relevancia parcial

Un contexto con el tema y las entidades correctas, pero sin respuesta.

Pregunta ID 9 : "¿Quién escribió la letra de Portofino con un colaborador de 'El violinista en el tejado'?" Respuesta objetivo : Richard Ney

TruLens y DeepEval puntúan correctamente los contextos parciales con una puntuación más alta que las negaciones estrictas en estas muestras en particular, aunque este patrón no se mantiene en todo el conjunto de datos.

¿Qué herramienta deberías usar?

Conclusión

La granularidad de la puntuación es la principal disyuntiva. Las herramientas binarias (WandB) ganan en la identificación porque cualquier empate se resuelve a su favor; las herramientas multipunto (TruLens, Ragas) ganan en la clasificación porque pueden expresar grados de relevancia.

La relevancia del contexto funciona como un filtro inicial: todas las herramientas distinguen los contextos relevantes de los irrelevantes en más del 91 % de los casos (precisión por pares). Sin embargo, ninguna verifica la exactitud de los hechos. Un pasaje con las entidades correctas y la respuesta incorrecta obtiene una puntuación alta en todas las herramientas probadas. Para la corrección de los hechos, combínelo con métricas de fidelidad de la respuesta.

Limitaciones

Modelo de un solo juez : Todas las evaluaciones utilizan a GPT-4o como juez. Los resultados pueden diferir con otros modelos.
Relevancia del contexto únicamente : este indicador evalúa únicamente la relevancia del contexto, no la fidelidad de la respuesta ni otras métricas RAG.
Configuraciones predeterminadas : Las herramientas se evaluaron tal como vienen de fábrica. El rendimiento puede mejorar con la ingeniería de mensajes personalizados.
Ejecución única con convención de desempate : La prueba de rendimiento se ejecutó una vez con temperatura=0. La precisión Top-1 utiliza argmax (el primer índice gana en caso de empate), lo que beneficia a las herramientas con altas tasas de empate (WandB: 86%). Presentamos la precisión Top-1 estricta junto con argmax cuando corresponde.
Conjunto de datos exclusivamente para entornos adversarios : Todos los casos negativos estrictos utilizan el intercambio de entidades. Los resultados reflejan el rendimiento en condiciones adversarias; las herramientas pueden tener un rendimiento diferente en contextos recuperados de forma natural.

Lecturas adicionales

Explore otros puntos de referencia RAG, como:

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Investigado por