Herramientas de detección de alucinaciones mediante IA: W&B Weave y Comet

con

actualizado el Ene 26, 2026

Realizamos una evaluación comparativa de tres herramientas de detección de alucinaciones: Weights & Biases (W&B) Weave HallucinationFree Scorer, Arize Phoenix HallucinationEvaluator y Comet Opik Hallucination Metric, en 100 casos de prueba.

Cada herramienta fue evaluada en función de su exactitud, precisión, exhaustividad y latencia para ofrecer una comparación justa de su rendimiento en el mundo real.

Referencia de herramientas de detección de alucinaciones mediante IA

Comprobamos 100 respuestas (50 correctas, 50 producto de alucinaciones) de situaciones reales de preguntas y respuestas, contrastándolas con su contexto de origen.

Comparación de precisión y latencia

Loading Chart

W&B Weave y Arize Phoenix lograron una precisión casi idéntica, del 91 % y el 90 % respectivamente, identificando correctamente 90 de cada 100 casos de prueba. Ambas herramientas demostraron un rendimiento fiable en todo el conjunto de datos. Comet Opik se quedó atrás con una precisión del 72 %, clasificando correctamente solo 72 de cada 100 pruebas, una diferencia significativa debido a su enfoque conservador.

En términos de velocidad, Arize Phoenix fue el ganador con 2 segundos por prueba, lo que lo hace adecuado para aplicaciones en tiempo real. W&B Weave procesó las pruebas en 4 segundos, un tiempo razonable para la mayoría de los casos de uso en producción. Comet Opik fue notablemente más lento, con 8,5 segundos por prueba, lo que sugiere tiempos de procesamiento inconsistentes que podrían afectar la experiencia del usuario en aplicaciones sensibles a la latencia.

Puntuación F1, precisión y exhaustividad

Las puntuaciones F1 (media armónica de precisión y exhaustividad) confirmaron estos patrones: W&B Weave, con un 90,5 %, y Phoenix, con un 89,4 %, lograron un rendimiento sólido y equilibrado. En comparación, el 61,1 % de Opik reflejó el equilibrio entre una precisión perfecta y una exhaustividad débil. La ausencia de falsos positivos en Opik se produjo a costa de 28 falsos negativos, lo que la hace adecuada únicamente para escenarios donde las falsas alarmas resultan más costosas que las detecciones omitidas.

La capacidad de recordar (para detectar alucinaciones reales) reveló distintas estrategias. W&B Weave lideró con un 86% de recuerdo, detectando 43 de 50 alucinaciones y fallando solo 7. Phoenix le siguió de cerca con un 84%, detectando 42 alucinaciones y fallando 8. El recuerdo de Comet Opik fue sustancialmente menor, con un 44%, detectando solo 22 alucinaciones y fallando 28; más de la mitad de todas las alucinaciones reales pasaron desapercibidas.

La precisión (fiabilidad de las alertas) mostró una variación significativa. Comet Opik logró una precisión perfecta del 100 % con cero falsos positivos; cuando identificó algo como alucinación, siempre acertó. Tanto Phoenix (95,5 %) como Weave (95,6 %) mostraron una precisión casi idéntica, produciendo cada uno solo 2 falsos positivos de 50 respuestas legítimas, lo que demuestra una gran fiabilidad sin ser excesivamente conservador.

Factores que podrían afectar las diferencias en el rendimiento

Las diferencias de rendimiento observadas posiblemente se deban a la filosofía de diseño, la selección del umbral y la interpretación de la conexión a tierra.

Diferencias en la estrategia de detección y los objetivos de optimización.

Las herramientas parecen estar optimizadas para diferentes compensaciones de errores en lugar de para el mismo objetivo.
Las gafas W&B Weave y Arize Phoenix buscan un rendimiento equilibrado, manteniendo una alta precisión a la vez que capturan la mayoría de las alucinaciones.
Comet Opik adopta una estrategia sumamente conservadora, priorizando cero falsos positivos incluso si se pasan por alto muchas alucinaciones.
Esta elección estratégica explica directamente la precisión perfecta de Opik y su recuperación sustancialmente menor.

Compromisos entre precisión y exhaustividad inherentes al diseño de herramientas

El hecho de que Comet Opik no registre ningún falso positivo indica un umbral de decisión estricto, que solo detecta alucinaciones cuando el nivel de confianza es muy alto.
W&B Weave y Phoenix utilizan umbrales menos restrictivos, lo que permite algunos falsos positivos a cambio de una tasa de recuperación mucho mayor.
Estas diferencias de umbral pueden conducir a:
- Precisión similar en Weave y Phoenix.
- Grandes diferencias en la recuperación entre Opik y las otras dos herramientas.
- Diferencias correspondientes en la puntuación F1 y la precisión general

Variaciones en la implementación del LLM como juez

Si bien las tres herramientas utilizan un enfoque en el que el LLM actúa como juez, sus implementaciones difieren.
El método W&B Weave hace hincapié en el razonamiento lógico, lo que puede mejorar la sensibilidad ante afirmaciones sutiles sin fundamento.
Arize Phoenix incorpora resultados basados en etiquetas con puntuaciones de confianza, lo que permite realizar juicios más matizados.
Comet Opik se centra en decisiones binarias de alta confianza, lo que reduce las falsas alarmas pero limita la sensibilidad a las alucinaciones leves.

Diferencias de latencia determinadas por la profundidad de evaluación

La menor latencia de Arize Phoenix sugiere un proceso de evaluación más ligero o optimizado, adecuado para su uso en tiempo real.
La latencia moderada de W&B Weave es coherente con un razonamiento más completo y un registro de trazas más exhaustivo.
La latencia más elevada y menos consistente del Comet Opik probablemente refleja pasos de razonamiento o verificación internos más extensos, lo que refuerza su diseño conservador.

Herramientas de detección de alucinaciones basadas en IA

Anotador sin alucinaciones de W&B Weave

Figura 1: Panel de seguimiento de W&B Weave.

El evaluador HallucinationFree de Weave, integrado en Weights & Biases (W&B), comprueba si las salidas de LLM contienen alucinaciones comparándolas con el contexto proporcionado. El evaluador utiliza un enfoque en el que LLM actúa como juez para determinar si la respuesta generada se mantiene fiel al material original.

El evaluador recibe dos entradas: el contexto (material de origen) y la salida (respuesta generada por el modelo de lenguaje natural). A continuación, utiliza un modelo de lenguaje para analizar si la salida introduce información no presente en el contexto. El resultado incluye un indicador booleano `has_hallucination` y una explicación de la decisión.

Características principales:

Razonamiento lógico : Cada evaluación incluye una explicación de por qué el resultado fue marcado como alucinación o no.
Clasificación binaria : Devuelve decisiones claras de verdadero/falso con evidencia que las respalda.
Integración con el sistema de seguimiento de Weave : Los resultados se registran automáticamente en el panel de control de Weave para su visualización.
Modelo personalizable : admite diferentes jueces LLM, incluidos OpenAI, Anthropic y otros proveedores.

Evaluador de alucinaciones de Arize Phoenix

El HallucinationEvaluator de Arize Phoenix es una métrica integrada que detecta alucinaciones en las salidas de LLM al verificar si las respuestas se basan en el material de referencia proporcionado. El evaluador utiliza un enfoque en el que LLM actúa como juez para valorar la coherencia factual entre el contexto y el contenido generado.

El evaluador recibe tres entradas: la consulta del usuario (entrada), el texto de referencia (contexto) y la respuesta del modelo (salida). Analiza si la respuesta contiene información que no se puede derivar del contexto y devuelve un resultado etiquetado ("cierto" o "alucinado") junto con una explicación y un índice de confianza.

Características principales:

Rendimiento equilibrado : Ofrece resultados en las métricas de precisión y exhaustividad.
Salida basada en etiquetas : Devuelve etiquetas categóricas ("real" o "alucinado") en lugar de solo puntuaciones numéricas.
Explicaciones detalladas : Proporciona el razonamiento para cada decisión de evaluación.

Métrica de alucinaciones del cometa Opik

La métrica de alucinaciones de Comet Opik es un evaluador integrado que determina si las salidas de LLM contienen información inventada o sin fundamento. Esta métrica utiliza una metodología en la que LLM actúa como juez para verificar que las respuestas generadas se mantengan fieles al contexto proporcionado.

La métrica acepta tres entradas: la consulta del usuario (entrada), el material de origen (contexto) y la respuesta del modelo (salida). Evalúa si la salida introduce afirmaciones que no están respaldadas por el contexto.

El resultado incluye una puntuación binaria (0 si no hay alucinaciones, 1 si se detectan alucinaciones) y una explicación detallada de la evaluación.

Características principales:

Explicaciones detalladas : Cada evaluación proporciona un razonamiento exhaustivo sobre por qué el contenido fue marcado o aprobado.
Análisis de tres entradas : Considera la consulta, el contexto y la respuesta en conjunto para su evaluación.
Seguimiento de experimentos : Los resultados se registran automáticamente en el sistema de seguimiento de experimentos de Opik.
Enfoque conservador : Diseñado para minimizar los falsos positivos al señalar únicamente las alucinaciones con alta probabilidad de ser ciertas.

¿Qué es una alucinación inducida por IA?

Las alucinaciones son casos en los que los sistemas de IA generan contenido que parece coherente, pero que no se ajusta a la realidad. En la investigación sobre modelos de lenguaje a gran escala, las alucinaciones se consideran un desafío fundamental, ya que la IA generativa suele responder con seguridad incluso cuando los datos de entrenamiento subyacentes no respaldan la afirmación. Un estudio sobre las alucinaciones en la IA señala que surgen cuando los modelos se basan en conocimientos lingüísticos previos en lugar de en información verificable del contexto proporcionado. ¹

Fuentes del sector destacan cómo se producen fallos en la IA en ámbitos como las aplicaciones sanitarias , los servicios jurídicos , la búsqueda empresarial y la atención al cliente . En estos casos, los fallos socavan la confianza del usuario, sobre todo cuando las decisiones cruciales dependen de resultados correctos de la IA.

Por lo tanto, el reconocimiento y la detección de alucinaciones se han convertido en un aspecto fundamental del desarrollo de la IA moderna, tanto para proteger a los usuarios finales como para garantizar el despliegue seguro de aplicaciones de IA que dependen de modelos de aprendizaje lúcido (MLV).

Fuentes y taxonomía de las alucinaciones

Las alucinaciones pueden surgir de comportamientos internos del modelo, como una dependencia excesiva de patrones estadísticos, lagunas en los datos de entrenamiento y la naturaleza probabilística de la generación de secuencias.

Según un artículo sobre la detección y mitigación de alucinaciones, los modelos de lógica difusa pueden producir imprecisiones fácticas incluso cuando parecen seguros, porque las posibles continuaciones se infieren en lugar de basarse en pruebas verificables. ²

Otras alucinaciones surgen de fallos contextuales, como fallos de recuperación en sistemas de generación aumentada por recuperación (RAG ), indicaciones ambiguas o una conexión incompleta con el contexto. También se sugiere que los modelos multimodales presentan alucinaciones debido a confusiones de objetos, inconsistencias temporales o detalles de escenas inventados.

Detección de alucinaciones en flujos de trabajo basados en agentes

Los flujos de trabajo de agentes de múltiples pasos introducen riesgos de alucinaciones únicos que difieren de las interacciones LLM de un solo turno. Cuando un agente opera de forma autónoma a través de múltiples pasos, una alucinación en una etapa temprana puede propagarse a través de decisiones, llamadas a herramientas y resultados posteriores.

Principales desafíos en la detección de alucinaciones con agentes:

Propagación de errores: Un hecho inventado en la fase de planificación puede influir en la selección de herramientas, la recuperación de datos y las respuestas finales.
Alucinaciones en las llamadas a herramientas: Los agentes pueden invocar herramientas con parámetros incorrectos o interpretar erróneamente los resultados de las herramientas.
Corrupción estatal: la información alucinatoria almacenada en la memoria del agente afecta los pasos de razonamiento futuros.
Complejidad de la atribución: Identificar qué paso introdujo la alucinación requiere un seguimiento de principio a fin.

Enfoques de detección para sistemas de agentes:

Verificación a nivel de paso: Validar cada salida intermedia antes de que el agente proceda a la siguiente acción.
Validación de la salida de la herramienta: Verificación cruzada de las respuestas de la herramienta con respecto a los formatos esperados y las restricciones conocidas.
Análisis de trayectoria: Revisar la secuencia completa de decisiones del agente para identificar dónde el razonamiento divergió de la información fundamentada.
Verificación de la coherencia entre las distintas etapas: Comparación de las afirmaciones realizadas en las diferentes fases para detectar contradicciones.

Las herramientas HallucinationFree Scorer de W&B Weave y HallucinationEvaluator de Arize Phoenix se pueden aplicar en cada paso del agente, mientras que sus paneles integrados muestran el rastro completo de la ejecución para el análisis de la causa raíz.

Prevención de alucinaciones en tiempo real

Detectar las alucinaciones después de su generación proporciona información valiosa, pero no impide que los usuarios reciban respuestas problemáticas. Los sistemas de prevención en tiempo real intervienen antes de que se produzca la respuesta.

Mecanismos de prevención:

Controles de salida: Filtros que analizan el contenido generado según criterios de veracidad antes de devolverlo al usuario.
Umbrales de confianza: Blocketiquetando o señalando las respuestas cuando la confianza interna del modelo cae por debajo de los niveles aceptables.
Puntos de validación de la recuperación: Verificar que las reclamaciones generadas estén respaldadas por los documentos recuperados antes de finalizar la respuesta.
Estrategias de reserva: devolver una respuesta predeterminada segura o derivar el caso a colas de revisión cuando el riesgo de alucinaciones sea alto.

Capacidades de la herramienta para la prevención en tiempo real:

W&B Weave integra la puntuación de alucinaciones en los flujos de producción, lo que permite realizar comprobaciones automatizadas antes de que se proporcionen las respuestas.
Arize Phoenix proporciona monitorización en tiempo real con capacidades de alerta que señalan los resultados de alto riesgo para su revisión inmediata.
Comet Opik ofrece seguimiento de experimentos con evaluación automatizada, lo que permite a los equipos establecer criterios de calidad que bloquean las respuestas que superan los umbrales de alucinación.

Métodos para la detección de alucinaciones

Existen seis métodos principales para detectar alucinaciones:

1. Métodos basados en la consistencia

Los métodos basados en la consistencia evalúan una respuesta comparándola con varias generaciones alternativas.
Un método consiste en muestrear múltiples respuestas y compararlas utilizando medidas de similitud semántica, superposición de n-gramas o verificación de preguntas y respuestas.

Cuando las respuestas se contradicen entre sí o contienen inconsistencias lógicas, aumenta la probabilidad de alucinaciones.

Otra técnica utiliza la entropía semántica, que agrupa las respuestas por significado en lugar de por fraseo. Este método estima la incertidumbre a nivel conceptual. Una entropía alta indica conocimiento inestable, lo que la convierte en una de las herramientas de detección de alucinaciones por IA más eficaces para identificar confabulaciones.

Las recomendaciones de la industria siguen patrones similares:

Genera varias respuestas internas y señala las inconsistencias.
Avisar a los revisores humanos cuando el nivel de confianza varíe según diferentes métricas.
Utilice alertas en tiempo real cuando la variabilidad de las respuestas indique incertidumbre.

Los sistemas basados en la coherencia son especialmente valiosos cuando las organizaciones deben detectar alucinaciones en las primeras etapas de las aplicaciones orientadas al usuario.

2. Detección basada en probabilidad y confianza

Muchos sistemas analizan la creencia interna del modelo sobre su propio resultado. Se suelen utilizar probabilidades a nivel de token, valores de entropía, curvas de calibración y estimaciones de confianza basadas en márgenes. Los segmentos de baja confianza suelen correlacionarse con mayores tasas de alucinaciones.

Si bien la entropía bruta puede resultar engañosa debido a la variabilidad en su formulación, las señales de confianza siguen siendo útiles, especialmente cuando se combinan con indicadores basados en la consistencia. Estos valores también permiten la detección de alucinaciones en tiempo real, donde las respuestas de la IA se supervisan continuamente.

Muchas herramientas exponen estas puntuaciones a través de complementos que:

Señalar respuestas inciertas generadas por IA
Priorizar la revisión de expertos
Admite la monitorización en tiempo real de la desviación de confianza en la producción.

3. Detección basada en referencias o contexto

La evaluación basada en referencias compara la salida del modelo con el contexto proporcionado o con fuentes externas, lo cual es esencial para los sistemas RAG . Las técnicas típicas incluyen:

Modelos de implicación que comprueban si los documentos recuperados respaldan la respuesta.
Métodos de alineación y fundamentación que validan la evidencia que los respalda.
Métricas de veracidad que miden si las afirmaciones coinciden con el texto que las respalda.

Nota: La generación aumentada de recuperación debe verificar la fundamentación. Problemas como la falta de evidencia, la recuperación deficiente fuera del dominio y las fuentes obsoletas o incorrectas suelen ser la causa principal de respuestas sin fundamento. Estos métodos respaldan directamente la precisión fáctica al garantizar que las afirmaciones estén vinculadas a datos verificables.

4. Verificación aumentada mediante recuperación

La verificación aumentada por recuperación enfatiza la comprobación dinámica. Cada afirmación generada se evalúa comparándola con un índice de búsqueda, un almacén de vectores o una base de conocimiento estructurada, como un grafo de conocimiento. Si una afirmación carece de evidencia que la respalde, el sistema puede:

Recházalo
Revísalo
Regenéralo con una conexión explícita.

Los sistemas más avanzados extienden esta funcionalidad al seguimiento del flujo de trabajo, identificando el paso exacto en el que aparece por primera vez una afirmación sin fundamento. Esto permite a las organizaciones realizar un seguimiento de las tasas de alucinaciones, identificar patrones de alucinaciones y mantener la transparencia en flujos de razonamiento de múltiples pasos.

5. Métodos basados en reglas y con restricciones de dominio.

Los métodos basados en reglas imponen restricciones específicas del dominio e incluyen:

Validadores de citas legales
protectores de terminología médica
Comprobaciones basadas en patrones para detectar números o fechas inventados.

Estas restricciones reducen las interpretaciones erróneas en industrias reguladas y mejoran la fiabilidad en casos de uso especializados. Se recomienda combinar estas señales basadas en reglas con el juicio humano, especialmente en decisiones de alto riesgo donde no se puede tolerar la información incorrecta.

6. Detección multimodal de alucinaciones

También se observan alucinaciones más allá del texto. Algunos ejemplos son:

Alucinación de objetos en los subtítulos de las imágenes.
Descripciones de eventos incorrectas en el video.
Atributos falsos en las anotaciones de audio.

La detección multimodal suele utilizar comprobaciones de coherencia intermodal, referencias visuales y conjuntos de datos como POPE, MHalDetect y FactVC. Estos métodos son cada vez más relevantes a medida que las organizaciones experimentan conagentes de IA multimodales.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Técnicas y algoritmos de detección de alucinaciones mediante IA

Detección a nivel de token

Los métodos a nivel de token localizan los lugares exactos donde surgen las alucinaciones. Algunos ejemplos son:

Conjuntos de datos que etiquetan tokens alucinados mediante anotaciones humanas y perturbación contextual, lo que permite a los modelos de clasificación marcar segmentos incorrectos.
Comparaciones basadas en probabilidades que analizan la divergencia entre las probabilidades previas y posteriores de los tokens, dado el contexto proporcionado.
Métodos de etiquetado de secuencias que señalan segmentos sospechosos.

Estas técnicas permiten una inspección detallada de los resultados de la IA, lo cual resulta útil para aplicaciones que implican la creación de contenido extenso.

Detección a nivel de oración

Los métodos a nivel de oración evalúan la veracidad de enunciados completos. Algunos ejemplos son:

Comprobaciones de autoconsistencia basadas en el muestreo, donde se comparan oraciones de varias generaciones para detectar inestabilidad.
La entropía semántica se utiliza para identificar la incertidumbre conceptual sin necesidad de datos etiquetados.
Clasificadores basados en inferencias que detectan afirmaciones sin fundamento o contradictorias.

Estos métodos son comunes en las herramientas de detección de alucinaciones que determinan si una respuesta generada debe aceptarse, revisarse o volver a comprobarse.

Detección a nivel de flujo de trabajo

La detección a nivel de flujo de trabajo supervisa procesos de varios pasos donde pueden surgir alucinaciones gradualmente. Los mecanismos comunes incluyen:

Gráficos de procedencia
Comprobaciones de implicación a nivel de paso
Validación de razonamiento intermedio
Rastreo de dependencias para tareas de múltiples saltos

Estos sistemas ayudan a las organizaciones a mantener una monitorización continua, garantizar la mejora continua e implementar la detección en tiempo real a través de cadenas de razonamiento complejas.

Detección de alucinaciones para la generación aumentada de recuperación

La generación aumentada de recuperación combina el razonamiento de LLM con documentos externos. Muchas alucinaciones se originan en este contexto porque el modelo puede inventar información cuando la recuperación es débil o ambigua.

Desafíos para la generación aumentada

Documentos recuperados faltantes o irrelevantes
Dependencia excesiva de modelos previos internos
Mala interpretación del contexto
Fuentes obsoletas o de baja calidad

Estos problemas se identifican con frecuencia como las causas fundamentales de las respuestas que no están fundamentadas.

Métodos utilizados en la detección de alucinaciones RAG

La detección eficaz en entornos RAG utiliza varios mecanismos:

Modelos de implicación contexto-respuesta que comprueban las conexiones lógicas entre el texto recuperado y las respuestas generadas.
Se realizan comprobaciones de clasificación y similitud para garantizar que las respuestas dependan de la evidencia pertinente.
Ciclos de verificación iterativos que perfeccionan las respuestas cuando la evidencia es insuficiente.
Técnicas de fundamentación que asocian cada afirmación a un pasaje o a un nodo del grafo de conocimiento.

Los equipos suelen recurrir a la monitorización en tiempo real para detectar desviaciones en la recuperación de información, supervisar los patrones de alucinaciones y garantizar que las respuestas permanezcan vinculadas al contexto proporcionado.

detección multimodal de alucinaciones

La detección multimodal ha cobrado importancia a medida que más modelos de IA incorporan imágenes ,vídeo y audio. Se utilizan varios mecanismos:

Modelos que verifican la presencia o ausencia de objetos en las imágenes.
Sistemas que comprueban si los subtítulos de los vídeos coinciden con las acciones representadas.
Evaluaciones de subtitulado de audio que validan la alineación con la fuente de sonido.

Los conjuntos de datos como POPE, MHalDetect y FactVC permiten evaluar la coherencia de los hechos en contextos multimodales. Estos métodos refuerzan la supervisión cuando los agentes de IA operan con múltiples tipos de entrada.

Patrones industriales y mejores prácticas

Las organizaciones que adoptan las mejores prácticas que se describen a continuación suelen observar una disminución en las tasas de alucinaciones a medida que mejora la recuperación de información, las indicaciones se estructuran mejor y se incorporan datos más precisos:

Combinando métodos como comprobaciones de consistencia, puntuación de probabilidad y validación de la implicación.
Integración de paneles de control de monitorización en tiempo real para realizar un seguimiento del comportamiento del sistema a lo largo del tiempo.
Mejorar las indicaciones y verificar la respuesta inicial mediante la ingeniería de indicaciones.
Recurrir a la revisión de expertos cuando la generación de contenido tenga implicaciones legales, médicas o financieras .
Realizar comprobaciones automatizadas en los sistemas CI/CD para mantener la calidad durante el desarrollo de la IA.
Implementación de complementos de monitorización de agentes diseñados para observar agentes de IA y detectar anomalías.

futuras líneas de investigación

Se prevé que varias áreas guíen la siguiente etapa del progreso:

1. Estimación de la incertidumbre a nivel de significado

La evaluación a nivel semántico está ganando atención porque detecta la inestabilidad conceptual de forma más fiable que la probabilidad a nivel superficial. Los métodos futuros podrían incorporar lo siguiente para mejorar la sensibilidad en la detección de alucinaciones:

Información mutua.
Acuerdo entre modelos.
Varianza semántica a nivel de clúster

2. Supervisión escalable mediante razonamiento comparativo

Los enfoques multiagente, como el debate de modelos o el interrogatorio cruzado, pueden ayudar a detectar fallos sutiles que los modelos individuales pasan por alto.

3. Marcos multimodales unificados

A medida que aumenta el uso de modelos multimodales, se necesitan enfoques de detección unificados para abordar las alucinaciones en imágenes, audio y vídeo.

4. Detección con conocimiento del flujo de trabajo

El rastreo a nivel de sistema permite identificar pasos intermedios incorrectos y respalda la mejora continua dentro de procesos más amplios.

5. Conjuntos de datos de evaluación más sólidos

Se necesitan conjuntos de datos más complejos para el razonamiento en varios pasos, las tareas adversarias y los escenarios de contexto extenso, lo que permite que los sistemas fallen con menos frecuencia mediante el reconocimiento simple de patrones.

Metodología de evaluación comparativa

La prueba de referencia utilizó un conjunto de datos controlado de 50 ítems de conocimiento extraídos de escenarios de preguntas y respuestas reales. Cada ítem incluía un contexto de origen, una pregunta, una respuesta correcta basada en ese contexto y una respuesta hipotética con información inventada. Por ejemplo, una prueba preguntaba sobre la ubicación de la sede central del Grupo Oberoi, donde la respuesta correcta «Delhi» se comparó con la respuesta hipotética «Mumbai».

Cada elemento de conocimiento generó dos casos de prueba: uno con la respuesta correcta (resultado esperado: ausencia de alucinaciones) y otro con la respuesta que indicaba alucinaciones (resultado esperado: detección de alucinaciones). Esto dio como resultado una distribución equilibrada del 50/50, con un total de 100 casos de prueba. Las tres herramientas procesaron los mismos casos de prueba de forma secuencial, recibiendo cada una las mismas entradas (contexto, pregunta y resultado).

Medimos la latencia de cada caso de prueba individualmente para garantizar una comparación justa, evitando los inconvenientes del procesamiento paralelo o la evaluación por lotes que podrían distorsionar los resultados. Las etiquetas de referencia se verificaron manualmente para asegurar la precisión en el cálculo de verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos.

Enlaces de referencia

https://arxiv.org/pdf/2309.05922

https://arxiv.org/pdf/2401.08358

Sıla Ermut

Analista de la industria

Sıla Ermut es analista de la industria en AIMultiple, especializada en marketing por correo electrónico y vídeos de ventas. Anteriormente trabajó como reclutadora en empresas de gestión de proyectos y consultoría. Sıla es licenciada en Psicología Social y en Relaciones Internacionales.

Ver perfil completo

Investigado por

Nazlı Şipi

Investigador de IA

Nazlı es analista de datos en AIMultiple. Cuenta con experiencia previa en análisis de datos en diversos sectores, donde se dedicó a transformar conjuntos de datos complejos en información útil para la toma de decisiones.

Ver perfil completo