Comparamos três ferramentas de detecção de alucinações: Weights & Biases (W&B) Weave HallucinationFree Scorer, Arize Phoenix HallucinationEvaluator e Comet Opik Hallucination Metric, em 100 casos de teste.
Cada ferramenta foi avaliada quanto à precisão, exatidão, recall e latência para proporcionar uma comparação justa de seu desempenho no mundo real.
Análise comparativa de ferramentas de detecção de alucinações por IA
Testamos 100 respostas (50 corretas, 50 alucinatórias) de cenários de perguntas e respostas factuais em relação ao seu contexto original.
Comparação de precisão e latência
O W&B Weave e o Arize Phoenix apresentaram precisão quase idêntica, de 91% e 90%, respectivamente, identificando corretamente 90 dos 100 casos de teste. Ambas as ferramentas demonstraram desempenho confiável em todo o conjunto de dados. O Comet Opik ficou para trás com 72% de precisão, classificando corretamente apenas 72 dos 100 testes, uma diferença significativa devido à sua abordagem conservadora.
Em termos de velocidade, o Arize Phoenix foi o vencedor, com 2 segundos por teste, o que o torna adequado para aplicações em tempo real. O W&B Weave processou os testes em 4 segundos, um tempo razoável para a maioria dos casos de uso em produção. O Comet Opik foi notavelmente mais lento, com 8,5 segundos por teste, sugerindo tempos de processamento inconsistentes que podem impactar a experiência do usuário em aplicações sensíveis à latência.
Pontuação F1, precisão e recall.
As pontuações F1 (média harmônica de precisão e recall) confirmaram esses padrões: W&B Weave, com 90,5%, e Phoenix, com 89,4%, alcançaram um desempenho forte e equilibrado. Em comparação, os 61,1% do Opik refletiram a compensação entre precisão perfeita e recall fraco. Os zero falsos positivos do Opik vieram ao custo de 28 falsos negativos, tornando-o adequado apenas para cenários em que alarmes falsos são mais custosos do que detecções perdidas.
A capacidade de recordar (capacidade de identificar alucinações reais) revelou estratégias distintas. W&B Weave liderou com 86% de recordação, identificando 43 das 50 alucinações e errando apenas 7. Phoenix ficou logo atrás com 84%, detectando 42 alucinações e errando 8. A recordação de Comet Opik foi substancialmente menor, com 44%, identificando apenas 22 alucinações e errando 28; mais da metade de todas as alucinações reais não foram detectadas.
A precisão (confiabilidade dos alertas) apresentou variação significativa. O Comet Opik alcançou precisão perfeita de 100%, com zero falsos positivos; quando sinalizou algo como alucinação, sempre acertou. Tanto o Phoenix (95,5%) quanto o Weave (95,6%) apresentaram precisão quase idêntica, cada um produzindo apenas 2 falsos positivos em 50 respostas legítimas, demonstrando alta confiabilidade sem ser excessivamente conservador.
Fatores que podem afetar as diferenças de desempenho
As diferenças de desempenho observadas são possivelmente impulsionadas pela filosofia de projeto, pela seleção do limiar e pela interpretação do aterramento.
Diferenças na estratégia de detecção e nos objetivos de otimização
- As ferramentas parecem estar otimizadas para diferentes compensações de erro, em vez de para o mesmo objetivo.
- Os modelos W&B Weave e Arize Phoenix visam um desempenho equilibrado, mantendo alta precisão e, ao mesmo tempo, capturando a maioria das alucinações.
- A Comet Opik adota uma estratégia altamente conservadora, priorizando zero falsos positivos, mesmo que muitas alucinações sejam perdidas.
- Essa escolha estratégica explica diretamente a precisão perfeita e o recall substancialmente menor do Opik.
Compromissos entre precisão e recuperação inerentes ao projeto da ferramenta
- O índice de zero falsos positivos do Comet Opik indica um limiar de decisão rigoroso, sinalizando alucinações apenas quando a confiança é muito alta.
- Os algoritmos W&B Weave e Phoenix utilizam limiares menos restritivos, permitindo alguns falsos positivos em troca de uma taxa de acerto muito maior.
- Essas diferenças de limiar podem levar a:
- Precisão semelhante em Weave e Phoenix
- Grandes discrepâncias de recall entre o Opik e as outras duas ferramentas.
- Diferenças correspondentes na pontuação F1 e na precisão geral.
Variações na implementação do LLM como juiz
- Embora as três ferramentas utilizem uma abordagem em que o mestre em direito atua como juiz, suas implementações diferem.
- A metodologia W&B Weave enfatiza o raciocínio em cadeia, o que pode melhorar a sensibilidade a afirmações sutis sem fundamento.
- O Arize Phoenix incorpora resultados baseados em rótulos com pontuações de confiança, permitindo julgamentos mais precisos.
- O Comet Opik se concentra em decisões binárias de alta confiança, o que reduz alarmes falsos, mas limita a sensibilidade a alucinações limítrofes.
Diferenças de latência impulsionadas pela profundidade da avaliação
- A menor latência do Arize Phoenix sugere um pipeline de avaliação mais leve e simplificado, adequado para uso em tempo real.
- A latência moderada do W&B Weave é compatível com um raciocínio mais rico e um registro de rastreamento mais eficiente.
- A latência mais alta e menos consistente do Comet Opik provavelmente reflete etapas de raciocínio interno ou verificação mais extensas, reforçando seu design conservador.
ferramentas de detecção de alucinações por IA
Alucinação de W&B Weave - Marcador Gratuito
Figura 1: Painel de rastreamento do W&B Weave.
O Weights & Biases (W&B) do Weave, através do HallucinationFree Scorer, é uma ferramenta de avaliação integrada que verifica se as saídas do LLM contêm alucinações, comparando-as com o contexto fornecido. O avaliador utiliza uma abordagem em que o LLM atua como juiz para determinar se a resposta gerada permanece ancorada no material de origem.
O avaliador recebe duas entradas: o contexto (material de origem) e a saída (resposta gerada pelo LLM). Em seguida, utiliza um modelo de linguagem para analisar se a saída introduz informações não presentes no contexto. O resultado inclui um indicador booleano `has_hallucination` e a justificativa da decisão.
Principais características:
- Raciocínio em cadeia : Cada avaliação inclui uma explicação do porquê da saída ter sido classificada como alucinação ou não.
- Classificação binária : Retorna decisões claras de verdadeiro/falso com evidências que as sustentam.
- Integração com o rastreamento Weave : Os resultados são registrados automaticamente no painel do Weave para visualização.
- Modelo personalizável : Suporta diferentes juízes de LLM, incluindo OpenAI, Anthropic e outros provedores.
Avaliador de alucinações de Arize Phoenix
O HallucinationEvaluator do Arize Phoenix é uma métrica integrada que detecta alucinações em saídas de LLM (Learning Learning Machines) verificando se as respostas estão fundamentadas no material de referência fornecido. O avaliador utiliza uma abordagem em que o LLM atua como juiz para avaliar a consistência factual entre o contexto e o conteúdo gerado.
O avaliador recebe três entradas: a consulta do usuário (entrada), o texto de referência (contexto) e a resposta do modelo (saída). Ele analisa se a resposta contém informações que não podem ser derivadas do contexto, retornando um resultado rotulado (“factual” ou “alucinatório”) juntamente com uma explicação e uma pontuação de confiança.
Principais características:
- Desempenho equilibrado : Oferece resultados tanto em métricas de precisão quanto de recall.
- Saída baseada em rótulos : retorna rótulos categóricos (“factual” ou “alucinado”) em vez de apenas pontuações numéricas.
- Explicações detalhadas : Apresenta a justificativa para cada decisão de avaliação.
Métrica de Alucinação do Cometa Opik
A métrica de alucinações do Comet Opik é um avaliador integrado que verifica se as saídas do LLM contêm informações fabricadas ou sem fundamento. A métrica utiliza uma metodologia em que o LLM atua como juiz para verificar se as respostas geradas permanecem fiéis ao contexto fornecido.
A métrica aceita três entradas: a consulta do usuário (entrada), o material de origem (contexto) e a resposta do modelo (saída). Ela avalia se a saída introduz afirmações não suportadas pelo contexto.
O resultado inclui uma pontuação binária (0 para nenhuma alucinação, 1 para alucinação detectada) e uma justificativa detalhada explicando a avaliação.
Principais características:
- Explicações detalhadas : Cada avaliação fornece uma justificativa completa sobre os motivos pelos quais o conteúdo foi sinalizado ou aprovado.
- Análise de três entradas : considera a consulta, o contexto e a resposta em conjunto para avaliação.
- Rastreamento de experimentos : Os resultados são registrados automaticamente no sistema de rastreamento de experimentos da Opik.
- Abordagem conservadora : Projetada para minimizar falsos positivos, sinalizando apenas alucinações de alta probabilidade.
O que é alucinação por IA?
Alucinações são casos em que sistemas de IA geram conteúdo que parece coerente, mas não é factual. Em pesquisas sobre modelos de linguagem em larga escala, as alucinações são consideradas um desafio fundamental, pois a IA generativa frequentemente responde com confiança mesmo quando os dados de treinamento subjacentes não corroboram a afirmação. Um estudo sobre alucinações em IA observa que elas surgem quando os modelos se baseiam em conhecimentos prévios linguísticos em vez de dados verificáveis provenientes do contexto fornecido. 1
Fontes da indústria destacam como as alucinações da IA ocorrem em domínios como aplicações de saúde , serviços jurídicos , buscas corporativas e suporte ao cliente . Nesses contextos, as alucinações minam a confiança do usuário, principalmente quando decisões importantes dependem de resultados corretos da IA.
O reconhecimento e a detecção de alucinações tornaram-se, portanto, essenciais para o desenvolvimento da IA moderna, tanto para proteger os usuários finais quanto para garantir a implantação segura de aplicações de IA que dependem de modelos de baixa resolução.
Fontes e taxonomia das alucinações
As alucinações podem surgir de comportamentos internos do modelo, como a dependência excessiva de padrões estatísticos, lacunas nos dados de treinamento e a natureza probabilística da geração de sequências.
De acordo com um artigo sobre detecção e mitigação de alucinações, os modelos de aprendizagem por vídeo (LLMs) podem produzir imprecisões factuais mesmo quando parecem confiantes, porque as continuações prováveis são inferidas em vez de serem comprovadas por evidências verificáveis. 2
Outras alucinações surgem de falhas contextuais, incluindo falhas de recuperação em sistemas de geração aumentada por recuperação (RAG ), instruções ambíguas ou ancoragem incompleta. Sugere-se também que modelos multimodais exibem alucinações por meio de confusões de objetos, inconsistências temporais ou detalhes de cena inventados.
Detecção de alucinações em fluxos de trabalho com agentes
Fluxos de trabalho de agentes com múltiplas etapas introduzem riscos únicos de alucinação que diferem das interações LLM de turno único. Quando um agente opera autonomamente em várias etapas, uma alucinação em um estágio inicial pode se propagar por decisões subsequentes, chamadas de ferramentas e resultados.
Principais desafios na detecção de alucinações agentivas:
- Propagação de erros: Um fato fabricado na fase de planejamento pode influenciar a seleção de ferramentas, a recuperação de dados e as respostas finais.
- Alucinações na chamada de ferramentas: Os agentes podem invocar ferramentas com parâmetros incorretos ou interpretar erroneamente as saídas das ferramentas.
- Corrupção estatal: informações alucinatórias armazenadas na memória do agente afetam etapas futuras de raciocínio.
- Complexidade da atribuição: Identificar qual etapa introduziu a alucinação requer um rastreamento de ponta a ponta.
Abordagens de detecção para sistemas agentes:
- Verificação em nível de etapa: Validação de cada saída intermediária antes que o agente prossiga para a próxima ação.
- Validação da saída da ferramenta: Comparação das respostas da ferramenta com os formatos esperados e as restrições conhecidas.
- Análise de trajetória: revisão da sequência completa de decisões do agente para identificar onde o raciocínio divergiu das informações fundamentadas.
- Verificações de consistência entre as etapas: Comparação das afirmações feitas em diferentes estágios para detectar contradições.
O HallucinationFree Scorer da W&B Weave e o HallucinationEvaluator da Arize Phoenix podem ser aplicados em cada etapa do agente, enquanto seus painéis integrados exibem o rastreamento completo da execução para análise da causa raiz.
Prevenção de alucinações em tempo real
A detecção de alucinações após a sua geração fornece informações valiosas, mas não impede que as mensagens problemáticas cheguem aos usuários. Sistemas de prevenção em tempo real intervêm antes que a resposta seja enviada.
Mecanismos de prevenção:
- Mecanismos de proteção de saída: Filtros que analisam o conteúdo gerado com base em critérios de veracidade antes de retorná-lo ao usuário.
- Limiares de confiança: Blocking ou sinalizando respostas quando a confiança interna do modelo cai abaixo dos níveis aceitáveis.
- Etapas de validação de recuperação: Verificação de que as alegações geradas são suportadas pelos documentos recuperados antes de finalizar a resposta.
- Estratégias de contingência: retornar uma resposta padrão segura ou encaminhar para filas de revisão quando o risco de alucinação for alto.
Funcionalidades da ferramenta para prevenção em tempo real:
- A W&B Weave integra a avaliação de alucinações em fluxos de trabalho de produção, permitindo verificações automatizadas antes que as respostas sejam fornecidas.
- O Arize Phoenix oferece monitoramento em tempo real com recursos de alerta que sinalizam resultados de alto risco para revisão imediata.
- O Comet Opik oferece rastreamento de experimentos com avaliação automatizada, permitindo que as equipes definam limites de qualidade que bloqueiam respostas que excedam os limiares de alucinação.
Abordagens para a detecção de alucinações
Existem seis abordagens principais utilizadas para detectar alucinações:
1. Métodos baseados na consistência
Os métodos baseados na consistência avaliam uma resposta comparando-a com várias gerações alternativas.
Uma abordagem consiste em analisar múltiplas respostas e compará-las usando medidas de similaridade semântica, sobreposição de n-gramas ou verificação de perguntas e respostas.
Quando as respostas se contradizem ou contêm inconsistências lógicas, a probabilidade de alucinação aumenta.
Outra técnica utiliza a entropia semântica, que agrupa as respostas por significado em vez de fraseado. Esse método estima a incerteza no nível conceitual. Alta entropia indica conhecimento instável, tornando essa uma das ferramentas de IA mais eficazes para detecção de alucinações e identificação de confabulações.
As recomendações da indústria seguem padrões semelhantes:
- Gere várias respostas internas e sinalize as inconsistências.
- Alerte os revisores humanos quando a confiança variar entre várias métricas.
- Utilize alertas em tempo real quando a variabilidade das respostas indicar incerteza.
Sistemas baseados em consistência são especialmente valiosos quando as organizações precisam detectar anomalias logo no início em aplicativos voltados para o usuário.
2. Detecção baseada em probabilidade e confiança
Muitos sistemas analisam a crença interna do modelo sobre sua própria saída. Probabilidades em nível de token, valores de entropia, curvas de calibração e estimativas de confiança baseadas em margem são comumente usados. Segmentos de baixa confiança frequentemente se correlacionam com taxas mais altas de alucinações.
Embora a entropia bruta possa ser enganosa devido à variação na formulação das perguntas, os sinais de confiança continuam sendo úteis, principalmente quando combinados com indicadores baseados em consistência. Esses valores também auxiliam na detecção de alucinações em tempo real, onde as respostas da IA são monitoradas continuamente.
Muitas ferramentas disponibilizam essas pontuações por meio de plugins que:
- Sinalizar respostas incertas geradas por IA
- Priorize a revisão por especialistas.
- Suporte ao monitoramento em tempo real da deriva de confiança na produção.
3. Detecção baseada em referência ou contexto
A avaliação baseada em referência compara a saída do modelo com o contexto fornecido ou com fontes externas, o que é essencial para sistemas RAG . As técnicas típicas incluem:
- Modelos de implicação que verificam se os documentos recuperados corroboram a resposta.
- Métodos de alinhamento e fundamentação que validam o suporte de evidências.
- Métricas de factualidade que medem se as afirmações correspondem ao texto de apoio.
Nota: A geração aumentada por recuperação deve verificar a fundamentação. Problemas como evidências ausentes, recuperação inadequada fora do domínio e fontes obsoletas ou incorretas são frequentemente as causas principais de respostas sem embasamento. Esses métodos apoiam diretamente a precisão factual, garantindo que as afirmações estejam vinculadas a dados verificáveis.
4. Verificação aumentada por recuperação
A verificação aumentada por recuperação enfatiza a verificação dinâmica. Cada afirmação gerada é avaliada em relação a um índice de busca, um repositório de vetores ou uma base de conhecimento estruturada, como um grafo de conhecimento. Se uma afirmação não tiver evidências que a sustentem, o sistema poderá:
- Rejeite-o
- Revise-o.
- Regenere-o com aterramento explícito
Sistemas mais avançados estendem isso ao rastreamento em nível de fluxo de trabalho, identificando a etapa exata em que uma alegação sem fundamento aparece pela primeira vez. Isso permite que as organizações monitorem as taxas de alucinações, identifiquem padrões de alucinações e mantenham a transparência em fluxos de raciocínio de várias etapas.
5. Métodos baseados em regras e com restrições de domínio
Os métodos baseados em regras impõem restrições específicas do domínio e incluem:
- Validadores de citações legais
- Terminologia médica guardas
- Verificações baseadas em padrões para números ou datas inventados.
Essas restrições reduzem as alucinações em setores regulamentados e melhoram a confiabilidade para casos de uso específicos. Recomenda-se que esses sinais baseados em regras sejam combinados com o julgamento humano, especialmente em decisões de alto risco, onde a possibilidade de informações incorretas não pode ser tolerada.
6. Detecção multimodal de alucinações
Alucinações também são observadas além do texto. Exemplos incluem:
- Alucinação de objetos na criação de legendas para imagens.
- Descrição incorreta dos eventos no vídeo.
- Atributos falsos em anotações de áudio.
A detecção multimodal frequentemente utiliza verificações de consistência intermodal, ancoragem visual e conjuntos de dados como POPE, MHalDetect e FactVC. Esses métodos são cada vez mais relevantes à medida que as organizações experimentamagentes de IA multimodais.
Técnicas e algoritmos de IA para detecção de alucinações
Detecção em nível de token
Métodos de análise de tokens localizam os pontos exatos onde as alucinações surgem. Exemplos incluem:
- Conjuntos de dados que rotulam tokens alucinatórios usando anotações humanas e perturbação contextual, permitindo que modelos de classificação marquem trechos incorretos.
- Comparações baseadas em probabilidades que analisam a divergência entre as probabilidades a priori e a posteriori de ocorrência de um determinado valor, dado o contexto fornecido.
- Abordagens de rotulagem de sequências que sinalizam trechos suspeitos.
Essas técnicas permitem a inspeção detalhada dos resultados da IA, o que é útil para aplicações que envolvem a criação de conteúdo de formato longo.
Detecção em nível de sentença
Os métodos de análise de sentença avaliam a veracidade de afirmações completas. Exemplos incluem:
- Verificações de autoconsistência baseadas em amostragem, onde as frases são comparadas em múltiplas gerações para detectar instabilidade.
- A entropia semântica é usada para identificar incertezas conceituais sem a necessidade de dados rotulados.
- Classificadores baseados em implicação que detectam afirmações sem fundamento ou contraditórias.
Essas abordagens são comuns em ferramentas de detecção de alucinações que determinam se uma resposta gerada deve ser aceita, revisada ou verificada novamente.
Detecção em nível de fluxo de trabalho
A detecção em nível de fluxo de trabalho monitora pipelines de múltiplas etapas onde alucinações podem surgir gradualmente. Mecanismos comuns incluem:
- Gráficos de proveniência
- Verificações de implicação em nível de etapa
- Validação do raciocínio intermediário
- Rastreamento de dependências para tarefas com múltiplos saltos
Esses sistemas ajudam as organizações a manter o monitoramento contínuo, garantir a melhoria contínua e implementar a detecção em tempo real em cadeias de raciocínio complexas.
Detecção de alucinações para geração aumentada de recuperação
A geração aumentada por recuperação combina o raciocínio LLM com documentos externos. Muitas alucinações surgem nesse contexto porque o modelo pode inventar informações quando a recuperação é fraca ou ambígua.
Desafios da geração aumentada
- Documentos recuperados ausentes ou irrelevantes
- Dependência excessiva de informações prévias de modelos internos
- Interpretação errônea do contexto
- Fontes desatualizadas ou de baixa qualidade
Esses problemas são frequentemente identificados como causas principais de respostas sem embasamento.
Métodos utilizados na detecção de alucinações RAG
A detecção eficaz em ambientes RAG utiliza diversos mecanismos:
- Modelos de inferência contexto-resposta que verificam as conexões lógicas entre o texto recuperado e as respostas geradas.
- Classificação e verificação de similaridade para garantir que as respostas dependam de evidências relevantes.
- Ciclos iterativos de verificação que refinam as respostas quando as evidências são insuficientes.
- Técnicas de fundamentação que mapeiam cada afirmação para uma passagem ou nó de grafo de conhecimento.
As equipes frequentemente dependem do monitoramento em tempo real para detectar desvios na recuperação da informação, monitorar padrões de alucinações e garantir que as respostas permaneçam vinculadas ao contexto fornecido.
detecção multimodal de alucinações
A detecção multimodal ganhou importância à medida que mais modelos de IA incorporam imagens ,vídeos e áudio. Vários mecanismos são utilizados:
- Modelos que verificam a presença ou ausência de objetos em imagens.
- Sistemas que verificam se as legendas dos vídeos correspondem às ações representadas.
- Avaliações de legendagem de áudio que validam o alinhamento com a fonte sonora.
Conjuntos de dados como POPE, MHalDetect e FactVC auxiliam na avaliação da veracidade dos fatos em contextos multimodais. Esses métodos reforçam a supervisão quando agentes de IA operam com múltiplos tipos de entrada.
Padrões industriais e melhores práticas
Organizações que adotam as melhores práticas abaixo normalmente observam uma queda nas taxas de alucinações à medida que a recuperação da informação melhora, os estímulos se tornam mais bem estruturados e dados mais precisos são incorporados:
- Combinando métodos como verificações de consistência, pontuação de probabilidade e validação de implicação.
- Integração de painéis de monitoramento em tempo real para acompanhar o comportamento do sistema ao longo do tempo.
- Aprimoramento das instruções e verificação da resposta inicial por meio da engenharia de instruções.
- Utilizar a revisão por especialistas quando a geração de conteúdo tiver implicações legais, médicas ou financeiras .
- Executar verificações automatizadas em sistemas CI/CD para manter a qualidade durante o desenvolvimento de IA.
- Implantação de plugins de monitoramento de agentes projetados para observar agentes de IA e detectar anomalias.
Direções futuras de pesquisa
Diversas áreas deverão orientar a próxima etapa do progresso:
1. Estimativa de incerteza em nível de significado
A avaliação em nível semântico está ganhando destaque por detectar instabilidade conceitual de forma mais confiável do que a probabilidade em nível superficial. Métodos futuros podem incorporar os seguintes elementos para aprimorar a sensibilidade da detecção de alucinações:
- Informação mútua.
- Concordância entre modelos.
- Variância semântica em nível de cluster
2. Supervisão escalável por meio de raciocínio comparativo
Abordagens multiagentes, como debate de modelos ou interrogatório cruzado, podem ajudar a detectar falhas sutis que modelos individuais não conseguem identificar.
3. Estruturas multimodais unificadas
Com o aumento da utilização de modelos multimodais, são necessárias abordagens de detecção unificadas para lidar com alucinações em imagens, áudio e vídeo.
4. Detecção com reconhecimento de fluxo de trabalho
O rastreamento em nível de sistema permite a identificação de etapas intermediárias incorretas e oferece suporte à melhoria contínua em fluxos de trabalho maiores.
5. Conjuntos de dados de avaliação mais robustos
São necessários conjuntos de dados mais complexos para raciocínio em várias etapas, tarefas adversárias e cenários de contexto extenso, permitindo que os sistemas falhem com menos frequência por meio do reconhecimento de padrões simples.
Metodologia de referência
O teste de referência utilizou um conjunto de dados controlado de 50 itens de conhecimento extraídos de cenários de perguntas e respostas factuais. Cada item incluía um contexto de origem, uma pergunta, uma resposta correta baseada nesse contexto e uma resposta alucinada que continha informações inventadas. Por exemplo, um teste perguntava sobre a localização da sede do Grupo Oberoi, onde a resposta correta “Delhi” era testada contra a resposta alucinada “Mumbai”.
Cada item de conhecimento gerou dois casos de teste: um usando a resposta correta (esperado: nenhuma alucinação) e outro usando a resposta alucinatória (esperado: alucinação detectada). Isso criou uma divisão equilibrada de 50/50, totalizando 100 casos de teste. Todas as três ferramentas processaram os mesmos casos de teste sequencialmente, recebendo cada uma as mesmas entradas (contexto, pergunta e saída).
Medimos a latência para cada caso de teste individualmente para garantir uma comparação justa, evitando as armadilhas do processamento paralelo ou da avaliação em lote que poderiam distorcer os resultados. Os rótulos de referência foram verificados manualmente para garantir a precisão no cálculo de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.