La evaluación de LLM requiere herramientas que evalúen el razonamiento de múltiples turnos, el rendimiento en producción y el uso de la herramienta. Dedicamos dos días a revisar marcos de evaluación populares de LLM que proporcionan métricas estructuradas, registros y trazas para identificar cómo y cuándo un modelo se desvía del comportamiento esperado. Específicamente, hicimos lo siguiente:
- Se comprobó si las herramientas de evaluación LLM admiten el análisis de seguimiento del comportamiento del agente y la monitorización de la producción .
- Herramientas agrupadas según su enfoque en la evaluación funcional .
- Se compararon las capacidades de evaluación , desde pruebas de un solo turno hasta evaluaciones de múltiples turnos en situaciones reales.
panorama de evaluación LLM
Categoría funcional | Herramientas | Propósito principal |
|---|---|---|
OpenAI Evals, DeepEval, MLflow (LLM Eval), RAGAS, TruLens, Deepchecks, Inspect AI | Evalúe los resultados de LLM utilizando métricas de calidad, precisión y coherencia. | |
Promptfoo, Humanloop, Opik | Diseñar, probar y optimizar las indicaciones para obtener mejores resultados del modelo. | |
LangChain Evaluaciones, LangSmith, Evaluación LlamaIndex | Evaluar LLM dentro de ecosistemas específicos como LangChain o LlamaIndex. | |
Arize Phoenix, Langfuse, Langtrace AI, Lunario | Seguimiento y análisis continuos del rendimiento del modelo en producción. |
LLM capacidades de evaluación
Explicación de las capacidades de evaluación:
- Puerta de enlace de IA (acceso a múltiples modelos): Capacidad de la plataforma para evaluar múltiples modelos base a través de una interfaz API unificada.
- Evaluaciones de una sola respuesta: Miden el rendimiento del modelo en indicaciones individuales para métricas como precisión, veracidad o coherencia.
- Evaluaciones de múltiples turnos: Permite evaluar intercambios conversacionales o de varios pasos para poner a prueba el razonamiento contextual y la memoria.
- Evaluaciones sin conexión: Las evaluaciones sin conexión se utilizan para comprobar los resultados de la aplicación LLM antes de su lanzamiento a producción. Utilice las evaluaciones sin conexión para las comprobaciones de CI/CD de su aplicación LLM.
- Métricas personalizadas LLM: Permite definir métricas de evaluación específicas del dominio o de la tarea más allá de los métodos de puntuación preestablecidos.
Capacidades de monitoreo del comportamiento del agente y de la herramienta
Las herramientas de evaluación pueden ayudar a detectar comportamientos inadecuados por parte de los agentes, especialmente a medida que se amplía el alcance de la "evaluación" (no solo la indicación o la respuesta, sino también el comportamiento del agente a lo largo del tiempo, el uso de la herramienta y los efectos secundarios).
El artículo Anthropic sugiere que evaluar cómo se comporta un modelo, y no solo lo que dice, podría convertirse en una dimensión crucial de la confianza y la seguridad en los sistemas de IA de próxima generación. 1
- Si está interesado en la monitorización de la producción y la evaluación a nivel de sistema, puede saltar a la sección de marcos de observabilidad con capacidades de evaluación LLM .
- Para obtener más información, consulte el documento LLM sobre plataformas de observabilidad y evaluación .
- Si utilizas RAG o agentes de finalización de tareas, tenemos una guía aparte sobre evaluación de agentes .
Marcos de evaluación principales LLM
OpenAI Evaluación s
OpenAI Evals es un marco de evaluación de código abierto desarrollado por OpenAI para evaluar sistemáticamente el rendimiento de grandes modelos de lenguaje (LLM).
Se trata de una infraestructura de evaluación de propósito general que permite a los usuarios medir la calidad del modelo en una amplia variedad de tareas; desde la generación de texto y el razonamiento hasta la generación de resultados estructurados como código o SQL.
Aquí se muestra un ejemplo de canalización de evaluación construida con OpenAI Evals, diseñada para evaluar la capacidad de un modelo para generar consultas SQL sintácticamente correctas. La evaluación utiliza datos sintéticos generados con GPT-4 y una configuración YAML personalizada para registrar la evaluación dentro del marco:
Evaluación profunda
Se trata de un framework diseñado principalmente para Python, a menudo descrito como "pytest para LLM". Destaca por su amplio conjunto de métricas respaldadas por investigaciones y su capacidad para probar pipelines completos o componentes aislados.
Aquí se muestra un ejemplo de evaluación de traza, que representa una única ejecución de una aplicación LLM. La ejecución de evaluaciones en trazas permite una evaluación integral del comportamiento del modelo, similar a las evaluaciones de una sola iteración realizadas durante el desarrollo:
Fuente: ConfidentAI 3
MLflow (LLM Evaluación)
Extiende MLflow a la evaluación LLM. Su principal fortaleza es el seguimiento de experimentos y la comparación lado a lado entre ejecuciones y versiones.
Aquí se muestra un ejemplo de la vista de comparación de evaluaciones de MLflow, que presenta los resultados de varias ejecuciones en paralelo. En este caso, la métrica de puntuación concisa mejoró un 33 %, mientras que la cobertura de conceptos disminuyó un 11 %.
Fuente: MLflow 4
Ragas
RAGAS (Retrieval-Augmented Generation Assessment Suite) es un marco de evaluación de código abierto diseñado específicamente para medir el rendimiento de las aplicaciones de Generación Aumentada por Recuperación (RAG) y las aplicaciones con agentes LLM. Proporciona un entorno de experimentación ligero, similar al uso de pandas para el análisis rápido de datos.
RAGAS evalúa la eficacia con la que un sistema recupera e integra el contexto relevante en las respuestas que genera. Lo hace a través de un conjunto de métricas respaldadas por investigaciones, que incluyen:
- Fidelidad : con qué precisión la respuesta generada refleja el contexto recuperado.
- Relevancia contextual : qué tan relevantes son los documentos recuperados para la consulta.
- Relevancia de la respuesta : qué tan relevante es la respuesta generada para la pregunta del usuario.
- Recuperación contextual y precisión contextual : con qué grado de exhaustividad y precisión se recupera la información relevante.
Estas métricas se combinan para producir una puntuación general RAG, que cuantifica tanto la calidad de recuperación como la de generación. Más allá de RAG, RAGAS ahora admite métricas para flujos de trabajo de agentes, uso de herramientas, evaluación de SQL e incluso tareas multimodales a través de extensiones como Fidelidad Multimodal y Sensibilidad al Ruido .
RAGAS también introduce nuevas métricas con el tiempo, disponibles en el repositorio de GitHub de RAGAS aquí .
Aquí se muestra un análisis de distribución de puntuaciones por RAGAS:
Fuente: RAGAS 5
Lentes TruLens
TruLens es una biblioteca de código abierto diseñada para el análisis cualitativo de las salidas de LLM. Funciona mediante la inyección de funciones de retroalimentación que se ejecutan después de cada llamada al modelo para evaluar la respuesta. Es muy adecuada para el análisis de razonamiento y la evaluación cualitativa, no solo para la precisión.
Más allá de las pruebas de precisión, TruLens ofrece apoyo para la evaluación ética y conductual:
Verificaciones profundas (LLM)
Deepchecks (LLM) es un marco de evaluación de código abierto originalmente diseñado para la validación de modelos de aprendizaje automático, ahora extendido para modelos de lenguaje grandes (LLM) y aplicaciones RAG. Ofrece módulos específicamente adaptados para evaluar pipelines de recuperación basados en LLM.
Deepchecks (LLM) destaca por su enfoque en las métricas de evaluación y las canalizaciones de automatización:
- Agente como juez
- Evaluación RAG
- Marco de evaluación LLM
- Pipelines de CI/CD
Aquí se muestra un ejemplo de un caso de uso de preguntas y respuestas en el que el modelo responde a una pregunta médica sobre el dolor relacionado con la enfermedad de injerto contra huésped (EICH).
Fuente: Deepchecks 6
Inspeccionar la IA
Inspect AI es un marco de evaluación de código abierto (LLM) desarrollado con un enfoque en evaluaciones de nivel de investigación. Admite evaluaciones tanto a nivel de modelo como de agente, lo que permite a los usuarios evaluar no solo los resultados de modelos de un solo paso, sino también el comportamiento de agentes de múltiples pasos, cadenas de razonamiento y la ejecución de tareas a lo largo del tiempo.
El marco de trabajo es fácil de configurar en entornos aislados, como contenedores Docker o máquinas virtuales, lo que permite evaluar de forma segura flujos de trabajo basados en agentes sin exponer el sistema anfitrión. Inspect proporciona un modelo claro de definición y ejecución de tareas, lo que permite a los usuarios definir rápidamente las tareas de evaluación, controlar el tamaño de las muestras (por ejemplo, para cumplir con los estándares estadísticos de CI) e integrar las evaluaciones en flujos de trabajo automatizados.
Inspect también proporciona registros de evaluación detallados paso a paso, incluyendo la latencia y el uso de tokens por paso, junto con un informe sobre las acciones y las llamadas a las herramientas. Este nivel de detalle facilita el diagnóstico de dónde y por qué un modelo o agente se desvía del comportamiento esperado.
Otro aspecto positivo de Inspect AI es que está diseñado para la evaluación sin conexión, priorizando la corrección, la transparencia y la reproducibilidad por encima de las funciones de telemetría en tiempo real.
Pruebas y optimización rápidas
Promptfoo
Promptfoo es un conjunto de herramientas de código abierto para la ingeniería, prueba y evaluación de mensajes de voz. Permite realizar pruebas A/B de mensajes de voz y salidas de LLM utilizando configuraciones sencillas en YAML o línea de comandos, y admite evaluaciones con LLM como juez.
Este conjunto de herramientas está diseñado para la experimentación sencilla, sin necesidad de configuración en la nube ni dependencias de SDK, y es ampliamente utilizado por desarrolladores para la iteración rápida de prompts y pruebas de robustez automatizadas (como la inyección de prompts o comprobaciones de toxicidad). Es ideal para integrar la evaluación de prompts en los flujos de trabajo de desarrollo cotidianos.
Bucle humano
Humanloop es una plataforma de evaluación y optimización rápida centrada en la retroalimentación humana. Permite a los equipos recopilar y analizar juicios humanos sobre los resultados de LLM, lo que ayuda a mejorar la calidad de la respuesta rápida, la alineación del modelo y la confiabilidad.
Opik (de Comet)
Opik es una plataforma de evaluación y monitorización de código abierto desarrollada por Comet. Proporciona herramientas para rastrear, evaluar y monitorizar aplicaciones a lo largo de su ciclo de vida de desarrollo y producción.
Opik registra trazas completas y lapsos de flujos de trabajo de solicitudes, admite métricas automatizadas (incluidas algunas complejas como la corrección de datos a través de LLM-as-a-judge) y permite la comparación del rendimiento entre versiones de solicitudes o modelos.
Su singularidad reside en combinar la evaluación rápida con la gestión de experimentos y la observabilidad, lo que permite cerrar la brecha entre las pruebas y el monitoreo de la producción.
Evaluación específica del marco
LangChain Evaluaciones
LangChain Evals es una herramienta de evaluación específica del marco para flujos de trabajo LangChain. Proporciona un conjunto de plantillas de evaluación integradas y métricas adaptadas para evaluar el rendimiento de las aplicaciones LangChain, especialmente aquellas que involucran cadenas complejas de LLM.
LangSmith
LangSmith es una plataforma de evaluación y observabilidad desarrollada por el equipo LangChain. Proporciona herramientas para registrar y analizar interacciones LLM, con capacidades de evaluación especializadas para tareas como la detección de sesgos y las pruebas de seguridad.
Se trata de un servicio gestionado (alojado) en lugar de una herramienta totalmente de código abierto, que ofrece soporte de nivel empresarial para aplicaciones basadas en LangChain.
Evaluación de LlamaIndex
LlamaIndex Eval es un conjunto de herramientas de evaluación integrado en el marco de LlamaIndex (anteriormente GPT Index), para evaluar las canalizaciones RAG creadas sobre LlamaIndex. Incluye un Evaluador de Corrección que compara las respuestas generadas con las respuestas de referencia para una consulta dada y también puede usar GPT-5 como juez para evaluar la calidad de la respuesta sin referencias.
Su funcionalidad es similar a la de RAGAS, pero está integrada de forma nativa en el flujo de trabajo de LlamaIndex, lo que permite a los desarrolladores evaluar la calidad de recuperación y generación sin introducir dependencias externas.
LLM marcos de observabilidad con capacidades de evaluación
Arize Phoenix
Phoenix, desarrollado por Arize AI (una empresa de observabilidad de aprendizaje automático), es un conjunto de herramientas de código abierto para analizar y solucionar problemas de comportamiento en entornos de producción. A diferencia de los marcos de evaluación tradicionales, Phoenix se centra en la observabilidad y el análisis exploratorio en lugar de métricas predefinidas.
Phoenix se puede utilizar para monitorear los sistemas implementados RAG o LLM, y luego recurrir a marcos como RAGAS o Giskard para una evaluación más profunda a nivel de métricas de los problemas identificados.
Langfuse
Langfuse se centra principalmente en la monitorización de sistemas LLM (modelos de lenguaje a gran escala) y RAG (generación aumentada por recuperación). Ayuda a los equipos a realizar un seguimiento y analizar el rendimiento de los modelos en entornos de producción en tiempo real.
Si bien puede evaluar el rendimiento del modelo mediante diversas métricas, su principal fortaleza reside en proporcionar visibilidad sobre cómo se comportan las canalizaciones LLM y RAG durante su funcionamiento. Esto incluye el seguimiento del rendimiento en las salidas LLM, la calidad de la recuperación y la deriva del modelo, lo que garantiza que los modelos sigan cumpliendo los estándares de calidad a medida que interactúan con conjuntos de datos dinámicos o cambian con el tiempo.
Langtrace AI
Langtrace AI se especializa en evaluar aplicaciones LLM mediante la captura de trazas detalladas y métricas de rendimiento. Ofrece herramientas para monitorear aspectos clave como el uso de tokens, la latencia, la precisión y el costo, brindando una visión integral del comportamiento y el rendimiento del modelo.
Lunar
Lunary se especializa en proporcionar una profunda observabilidad de las interacciones LLM, lo que permite a los desarrolladores monitorear y evaluar el comportamiento del modelo en entornos de producción en tiempo real.
Métricas de evaluación LLM
Las métricas de evaluación de LLM han evolucionado desde los puntuadores estadísticos tradicionales hasta los enfoques basados en modelos y ahora los enfoques de LLM como juez; aquí hay una breve explicación para cada uno:
- Los sistemas de puntuación estadística (basados en referencias) utilizan métricas como exactitud, precisión, exhaustividad, F1, BLEU y ROUGE, que miden la superposición con una respuesta de referencia. Funcionan bien para tareas estructuradas (por ejemplo, clasificación, resumen), pero presentan dificultades con resultados abiertos.
- Sistemas de puntuación basados en modelos (sin referencias): Métricas como Supert, BLANC, SummaC o QAFactEval evalúan la calidad, la veracidad o la coherencia lógica del texto sin referencias exactas.
- Calificadores basados en LLM (LLM como juez): Las evaluaciones utilizan otro modelo (por ejemplo, GPT-5 ) para evaluar la calidad de la respuesta en contexto.
Para más información, consulte: Evaluaciones agenciales: ¿Cómo evaluamos las aplicaciones LLM?
¿Por qué las evaluaciones LLM son difíciles?
Evaluar LLMs no es nada sencillo. Además de que los criterios de calidad varían según el caso de uso, el proceso de evaluación en sí es fundamentalmente diferente de las pruebas de software tradicionales o de la evaluación predictiva de aprendizaje automático.
Una dificultad clave es el no determinismo: los LLM generan resultados probabilísticos, por lo que la misma entrada puede producir respuestas diferentes cada vez, lo que dificulta la medición de la consistencia y la reproducibilidad.
Fuente de la imagen: AI world 7
Si bien la naturaleza probabilística de LLMs permite respuestas creativas y diversas , también dificulta las pruebas; debe determinar si un rango de resultados aún cumple con las expectativas en lugar de verificar una única respuesta correcta.
No existe una única verdad absoluta: los sistemas LLM suelen abordar tareas abiertas como escribir, resumir o conversar. En estos casos, pueden existir muchas respuestas válidas. Evaluar dichos sistemas requiere medir la similitud semántica, el tono, el estilo o la precisión factual, no solo la coincidencia con el texto de referencia.
Diversidad en el espacio de entrada: Las aplicaciones LLM se enfrentan a una gran variedad de entradas; por ejemplo, un bot de atención al cliente puede gestionar preguntas sobre devoluciones, facturación o seguridad de la cuenta. Una evaluación eficaz requiere conjuntos de pruebas basados en escenarios que capturen esta diversidad.
Incluso las pruebas offline bien diseñadas pueden fallar en entornos reales, donde los usuarios introducen indicaciones inesperadas y casos límite. Esto subraya la necesidad de una evaluación y observabilidad continuas en producción para garantizar una calidad constante del modelo a lo largo del tiempo.
Riesgos únicos en la evaluación LLM
Trabajar con sistemas probabilísticos que siguen instrucciones introduce riesgos nuevos y complejos que la evaluación tradicional de la IA rara vez contempla:
- Alucinaciones: El modelo puede generar información falsa o engañosa; por ejemplo, inventar productos, citar fuentes inexistentes o proporcionar asesoramiento médico o legal incorrecto.
- Rupturas de sistema: Los usuarios malintencionados pueden explotar las indicaciones para eludir las restricciones de seguridad , induciendo al modelo a producir contenido dañino, sesgado o no permitido.
- Fugas de datos: Un LLM podría revelar involuntariamente información confidencial o propietaria de sus datos de entrenamiento o sistemas conectados.
Para mitigar estos problemas, los equipos necesitan flujos de trabajo de evaluación sólidos que vayan más allá de las métricas de precisión:
- Somete los modelos a pruebas de estrés con entradas adversarias y casos extremos para descubrir vulnerabilidades.
- Realizar pruebas de intrusión y evaluaciones de seguridad para comprobar la resistencia del modelo a las indicaciones maliciosas.
- Supervise continuamente las interacciones en tiempo real para detectar problemas emergentes como desviaciones, fugas de privacidad o resultados inseguros en producción.
Métodos de evaluación LLM
Los métodos de evaluación LLM ayudan a medir el rendimiento de un modelo de lenguaje en tareas como el razonamiento, el resumen y el diálogo. Se utilizan métricas estadísticas (p. ej., BLEU, ROUGE) y enfoques de LLM como juez, donde otro modelo evalúa la calidad, la seguridad y la precisión de los datos. También existen métodos de evaluación basados en agentes y pruebas de comportamiento que monitorean cómo los modelos actúan a lo largo del tiempo y utilizan las herramientas.
Para obtener una visión más detallada de los enfoques clave y sus desafíos, consulte nuestro artículo completo sobre los métodos de evaluación LLM .
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.