Melhores ferramentas, frameworks e bibliotecas RAG

com

atualizado em Fev 4, 2026

A Geração Aumentada por Recuperação (RAG, na sigla em inglês) aprimora as respostas do Modelo de Aprendizagem Baseado em Lógica (LLM, na sigla em inglês) adicionando fontes de dados externas. Avaliamos diferentes modelos de incorporação e testamos separadamente vários tamanhos de blocos para determinar quais combinações funcionam melhor para sistemas RAG.

Explore as principais estruturas e ferramentas RAG , aprenda o que é RAG, como funciona, seus benefícios e seu papel no cenário atual do LLM.

Resultados do benchmark RAG

Modelos de incorporação

O desempenho dos sistemas RAG depende fortemente da qualidade dos modelos de incorporação, uma vez que estes influenciam diretamente a precisão e a eficácia do sistema na recuperação de informações relevantes.

Para avaliar isso, analisamos o desempenho de 4 modelos de incorporação:

Loading Chart

Esses resultados mostram que Mistral Embed alcançou a maior precisão em nosso teste de referência, ressaltando a importância de selecionar o modelo de incorporação correto para sistemas RAG.

Os embeddings afetam diretamente tanto a relevância das informações recuperadas quanto a precisão das respostas geradas. Para entender nosso processo de avaliação, consulte nossa metodologia de embeddings.

Para nossa análise comparativa detalhada da precisão e do custo dos principais fornecedores, como OpenAI, Gemini e Cohere, consulte nossa análise comparativa completa de modelos de incorporação .

Tamanho do pedaço

O tamanho do bloco em sistemas RAG determina o tamanho dos segmentos de texto quando são divididos para processamento. Esses segmentos são então convertidos em vetores por modelos de incorporação e armazenados em um banco de dados vetorial . Quando uma pergunta é feita, o modelo recupera os segmentos mais relevantes do banco de dados vetorial e gera uma resposta com base nessas informações.

Escolher a combinação certa de tamanho de bloco e modelo de incorporação é essencial para equilibrar a precisão da recuperação e a eficiência geral do sistema:

Os resultados dos testes de referência mostram a importância do tamanho dos blocos em sistemas RAG. O tamanho dos blocos afeta diretamente a forma como o texto é segmentado e a qualidade da informação recuperada, exigindo um equilíbrio para garantir que o sistema opere de forma eficiente e precisa.

Os resultados indicam que um tamanho de bloco de 512 tokens oferece o melhor desempenho, equilibrando a precisão e a eficiência da recuperação.

No teste de tamanho de bloco, usamos:

Modelo de incorporação: OpenAI text-embedding-3-small
Banco de dados de vetores: Pinecone.

Metodologia de referência para tamanho de bloco RAG

Este estudo foi especificamente concebido para avaliar o desempenho de sistemas de Geração Aumentada por Recuperação (RAG). Para testar a capacidade do RAG de recuperar e gerar informações precisas e relevantes a partir de um banco de dados vetorial, preparamos um conjunto de dados baseado em artigos de notícias da CNN e formulamos perguntas. Os testes focaram-se em examinar o impacto de parâmetros críticos, como o tamanho dos blocos de dados e os modelos de incorporação.

Artigos da CNN foram carregados em um banco de dados vetorial. Esse banco de dados serviu como fonte de conhecimento para o LLM, garantindo que as respostas geradas pelo modelo fossem baseadas exclusivamente nos dados fornecidos.
Cada resposta gerada pelo LLM foi comparada com a verdade fundamental nos artigos de origem. Essa comparação foi realizada automaticamente usando um sistema de avaliação de precisão, com a taxa de acerto calculada com base na correspondência exata entre as respostas e os dados do artigo.

RAG vs. Janela de Contexto

O RAG recupera dados externos para consultas, enquanto as janelas de contexto processam quantidades fixas de texto. À medida que as janelas de contexto se expandem para milhões de tokens, alguns questionam se o RAG ainda será necessário, mas nossos resultados mostram que ele continua a oferecer vantagens claras em termos de precisão.

Comparamos o RAG com uma abordagem de janela de contexto longa:

Para a janela de contexto:

Utilizamos o comprimento de contexto nativo do Llama 4 Scout.

Para RAG:

LLM: Lhama 4 Escoteiro
Banco de dados de vetores: Pinecone
Modelo de incorporação : OpenAI text-embedding-3-large
Tamanho do bloco: 512

RAG versus janela de contexto: possíveis razões para as diferenças de desempenho

Precisão

O RAG alcançou maior precisão porque atua como um filtro rigoroso, removendo 99% do texto irrelevante antes do processamento pelo LLM. Essa abordagem de atenção rígida discriminativa força o modelo a se concentrar exclusivamente nos fatos relevantes, reduzindo o ruído e garantindo, efetivamente, alta precisão.

Desvio de atenção

O desempenho da janela de contexto longo foi baixo devido ao fenômeno de "perda no meio", em que a atenção do modelo de linguagem de longo prazo (LLM) se dilui naturalmente em documentos extensos. O modelo tem dificuldade em priorizar um único fato relevante quando este está oculto em meio a dezenas de milhares de ocorrências de texto não relacionado.

Por que o RAG continua sendo eficaz?

Os sistemas RAG utilizam bases de conhecimento externas, como bancos de dados vetoriais, para recuperar as informações mais relevantes para uma determinada consulta. Ao segmentar os dados em blocos e incorporá-los, o Llama 4 conseguiu se concentrar em dados de alta qualidade e contextualmente relevantes, em vez de processar um contexto extenso e completo.

Isso evita a sobrecarga de dados irrelevantes que frequentemente afeta os modelos em cenários de longo prazo. O RAG ajuda o modelo a manter a clareza e a fornecer respostas mais precisas, concentrando-se em entradas menores e direcionadas.

Em contextos longos, os modelos frequentemente têm dificuldade em processar e priorizar informações de forma eficaz, o que leva a um desempenho inferior. ¹

Será que janelas de contexto longo podem substituir o RAG?

Janelas de contexto longas podem processar grandes conjuntos de dados de uma só vez. No entanto, suas desvantagens práticas, como quedas de desempenho e ineficiência computacional, tornam o RAG uma opção mais confiável para tarefas que exigem alta precisão.

Os sistemas RAG abordam esses desafios ajustando parâmetros como o tamanho do bloco e os modelos de incorporação, alcançando um equilíbrio entre eficiência e eficácia. As janelas de contexto fornecem uma visão limitada da entrada, enquanto o RAG recupera informações externas relevantes para aprimorar a qualidade da resposta. Isso torna o RAG mais adequado para tarefas que exigem conhecimento atualizado ou específico do domínio, que exceda os dados de treinamento internos do modelo.

Embora as janelas de contexto possam funcionar para tarefas mais simples dentro do limite de tokens do modelo, o RAG (Random Access Graft) é mais eficaz quando é necessário conhecimento externo.

Metodologia para comparação entre RAG e janela de contexto.

Avaliamos o desempenho do Llama 4 Scout usando duas abordagens: RAG e uma janela de contexto longa. Para RAG, integramos o Llama 4 Scout com Pinecone como banco de dados vetorial, usando o modelo OpenAI de text-embedding-3-large para embeddings e um tamanho de bloco de 512.

Para a abordagem de janela de contexto, utilizamos exclusivamente o comprimento do contexto nativo do Llama 4 Scout, sem recuperação externa. Ambos os métodos foram avaliados usando nosso conjunto de dados mencionado anteriormente , com a precisão calculada como a porcentagem de respostas corretas a um conjunto de consultas.

Por que o RAG é importante agora?

A importância da Geração Aumentada por Recuperação (RAG, na sigla em inglês) aumentou nos últimos anos devido à crescente necessidade de sistemas de IA que forneçam respostas precisas, transparentes e contextualmente relevantes. No entanto, líderes empresariais podem não estar familiarizados com o termo, visto que a RAG é uma área emergente recente (veja a figura abaixo).

À medida que empresas e desenvolvedores buscam superar as limitações dos Modelos de Linguagem de Grande Porte (LLMs) tradicionais, como conhecimento desatualizado, falta de transparência e resultados alucinatórios, o RAG surge como uma solução crucial.

Quais são os modelos e ferramentas RAG disponíveis?

Os modelos e ferramentas de Geração Aumentada por Recuperação (RAG) podem ser divididos em três categorias:

LLMs com recursos RAG integrados para aprimorar a precisão das respostas, acessando conhecimento externo.

Bibliotecas e estruturas RAG que podem ser aplicadas a LLMs para implementações personalizadas.

Componentes , como estruturas de integração, bancos de dados vetoriais e modelos de recuperação, que podem ser combinados entre si ou com grandes modelos de linguagem (LLMs) para construir sistemas RAG.

LLMs com recursos RAG integrados

Diversos LLMs agora apresentam funcionalidade RAG nativa para aprimorar sua precisão e relevância, recuperando conhecimento externo.

Meta AI : O modelo RAG da Meta AI integra recuperação e geração em uma única estrutura, usando a Recuperação Densa de Passagens (DPR) para o processo de recuperação e o BART para a geração. Este modelo está disponível no Hugging Face para tarefas que exigem conhecimento intensivo.
Anthropic's Claude : Inclui uma API de citações para modelos como Claude 3.5 Sonnet e Haiku, permitindo a referência à fonte.
SuperRAG 2.0 da Mistral : Este modelo oferece recuperação com integração ao Mistral 8x7B v1.
Cohere's Command R : Otimizado para RAG com suporte multilíngue e citações, acessível via API ou pesos do modelo Hugging Face.
Gemini Embedding : Modelo de Gemini Embedding de Google para RAG.
Mistral Embed : O modelo de incorporação da Mistral complementa suas ofertas de LLM, produzindo incorporações vetoriais densas otimizadas para tarefas RAG.
OpenAI Embeddings : OpenAI oferece vários modelos de incorporação, como Embedding-3-Large, Embedding-3-Small e text-embedding-ada-002, cada um adequado para diferentes casos de uso em tarefas de processamento de linguagem natural, como geração aumentada por recuperação.

Bibliotecas e estruturas RAG

Essas ferramentas permitem que os desenvolvedores adicionem recursos RAG aos LLMs existentes, proporcionando flexibilidade e escalabilidade.

Haystack : Um framework completo da Deepset para a construção de pipelines RAG, com foco em busca de documentos e resposta a perguntas.
LlamaIndex : Especializada em ingestão e indexação de dados, aprimorando os LLMs com sistemas de recuperação de informações.
Weaviate : Um banco de dados vetorial com recursos RAG, que oferece suporte a fluxos de trabalho de busca e recuperação escaláveis.
DSPY : Uma estrutura de programação declarativa para otimizar RAG em grandes modelos de linguagem.
Pathway : Uma estrutura para implantar RAG em escala com conectividade de dados.
Azure Aprendizado de Máquina : Fornece recursos RAG por meio do Azure AI Studio e pipelines de Aprendizado de Máquina.
IBM watsonx.ai : Fornece estruturas para o desenvolvimento de aplicações que facilitam a implementação de RAG com grandes modelos de linguagem.

Para uma comparação e análise mais detalhadas, consulte nosso benchmark de frameworks RAG .

Estruturas de integração para RAG

Os frameworks de integração simplificam o desenvolvimento de aplicações sensíveis ao contexto e com capacidade de raciocínio, baseadas em LLMs (Learning Learning Machines). Eles oferecem componentes modulares e cadeias pré-configuradas, adaptadas a necessidades específicas, permitindo também a personalização.

LangChain : Uma estrutura para a criação de aplicações sensíveis ao contexto, comumente usada com RAG e LLMs.
Dust : Facilita a criação de assistentes de IA personalizados com pesquisa semântica e suporte a RAG, aprimorando os aplicativos LLM.

Os usuários podem combinar essas estruturas com bancos de dados vetoriais para implementar totalmente o RAG , aumentando a profundidade contextual das saídas do LLM.

Bancos de dados vetoriais para RAG

Os bancos de dados vetoriais (VDs) lidam com dados multidimensionais, como sintomas de pacientes, resultados de exames de sangue, comportamentos e métricas de saúde, tornando-os vitais para os sistemas RAG.

Deep Lake : Um data lake otimizado para LLMs, com suporte para armazenamento de vetores e integração com ferramentas como o LlamaIndex.
Pinecone : Um serviço de banco de dados vetorial gerenciado para configurações RAG.
Weaviate : Combina armazenamento vetorial com recursos compatíveis com RAG para recuperação de dados.
Milvus : Um banco de dados vetorial de código aberto para casos de uso de IA .
Qdrant : Um mecanismo de busca vetorial para busca por similaridade.
Zep Vector Store : Uma plataforma de código aberto que oferece suporte a um repositório de vetores de documentos, onde você pode carregar, incorporar e pesquisar documentos em busca de arquivos RAG.

Outros modelos de recuperação que suportam RAG

Como o RAG utiliza técnicas de sequência para sequência e de recuperação como o DPR, os desenvolvedores podem combinar esses modelos com LLMs para permitir a geração aumentada por recuperação.

BART com Recuperação : Integra o poder generativo do BART com mecanismos de recuperação para RAG.
BM25 : Um algoritmo de recuperação tradicional baseado na frequência de termos, amplamente utilizado devido à sua simplicidade.
Modelo ColBERT : Baseado no BERT (Bidirectional Encoder Representations from Transformers), foi projetado para combinar recuperação densa e recuperação esparsa tradicional.
Modelo DPR (Dense Passage Retrieval) : Um modelo utilizado para tarefas de recuperação de informação, particularmente no domínio de sistemas de resposta a perguntas (QA) e de busca.

O que é geração aumentada por recuperação?

Em 2020, a Meta Research introduziu os modelos RAG para manipular o conhecimento com precisão. Lewis e seus colegas se referem ao RAG como uma abordagem de ajuste fino de propósito geral que pode combinar modelos de geração de memória paramétrica pré-treinados com uma memória não paramétrica.

Em termos simples, a Geração Aumentada por Recuperação (RAG, na sigla em inglês) é uma abordagem de Processamento de Linguagem Natural (PLN) que combina elementos de modelos de recuperação e geração para melhorar a qualidade e a relevância do conteúdo gerado. É uma abordagem híbrida que aproveita os pontos fortes de ambas as técnicas para superar as limitações dos métodos puramente generativos ou puramente baseados em recuperação. Aqui está um breve vídeo sobre RAG:

Como funcionam os modelos RAG?

O sistema RAG opera em duas fases: Recuperação e geração de conteúdo.

Na fase de recuperação :

Os algoritmos buscam e recuperam ativamente trechos relevantes de informação com base na solicitação ou pergunta do usuário, utilizando técnicas como o BM25. Essa informação recuperada serve de base para gerar respostas coerentes e contextualizadas.

Em ambientes de consumo de domínio aberto, esses dados podem ser obtidos de documentos indexados na internet. Em ambientes corporativos de domínio fechado, um conjunto mais restrito de fontes é normalmente usado para aumentar a segurança e a confiabilidade do conhecimento interno. Por exemplo, o sistema RAG pode procurar por:
- Fatores contextuais atuais, como atualizações meteorológicas em tempo real e a localização precisa do usuário.
- Informações centradas no usuário, seus pedidos anteriores no site, suas interações com o site e o status atual de sua conta.
- Dados factuais relevantes em recuperado Documentos que sejam privados ou que tenham sido atualizados após o processo de formação do LLM.

Na fase de geração de conteúdo :

Após a recuperação dos embeddings relevantes, um modelo de linguagem generativo, como um modelo baseado em Transformers como o GPT, entra em ação. Ele utiliza o contexto recuperado para gerar respostas em linguagem natural. O texto gerado pode ser ainda mais condicionado ou refinado com base no conteúdo recuperado para garantir que esteja alinhado ao contexto e seja contextualmente preciso. O sistema pode incluir links ou referências às fontes consultadas para fins de transparência e verificação.

Figura 1: Arquitetura RAG ²

Os RAG LLMs utilizam dois sistemas para obter dados externos:

Banco de dados vetorial: Os bancos de dados vetoriais ajudam a encontrar documentos relevantes usando buscas por similaridade. Eles podem funcionar de forma independente ou fazer parte do aplicativo LLM.
Repositórios de recursos: São sistemas ou plataformas para gerenciar e armazenar recursos de dados estruturados usados em aplicações de aprendizado de máquina e IA. Eles fornecem dados organizados e acessíveis para processos de treinamento e inferência em modelos de aprendizado de máquina, como os Modelos de Aprendizado de Máquina de Longo Prazo (LLMs).

O que é geração aumentada por recuperação em grandes modelos de linguagem?

Os modelos RAG geram soluções que podem abordar os desafios enfrentados pelos Grandes Modelos de Linguagem (LLMs). Esses principais problemas incluem:

Acesso e manipulação de conhecimento limitados: os LLMs têm dificuldades em manter seu conhecimento de mundo atualizado, visto que a atualização de seus conjuntos de dados de treinamento é inviável. Além disso, apresentam limitações na manipulação precisa do conhecimento. Essa limitação afeta seu desempenho em tarefas que exigem conhecimento intensivo, frequentemente fazendo com que fiquem atrás de arquiteturas específicas para cada tarefa. Por exemplo, os LLMs carecem de conhecimento específico do domínio, pois são treinados para tarefas generalizadas.
Falta de transparência: os mestrados em direito têm dificuldade em fornecer informações transparentes sobre como tomam decisões. É difícil rastrear como e por que chegam a conclusões ou respostas específicas, por isso são frequentemente considerados "caixas-pretas".
Alucinações nas respostas: Os modelos de linguagem podem responder a perguntas que parecem precisas ou coerentes, mas que são totalmente inventadas ou imprecisas. Lidar com essas alucinações e reduzi-las é um desafio crucial para melhorar a confiabilidade e a credibilidade do conteúdo gerado por modelos de linguagem.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Quais são os diferentes tipos de RAG?

RAG especulativo

O algoritmo RAG especulativo utiliza um modelo de linguagem (LM) menor e especializado para elaborar múltiplas respostas a partir de diferentes subconjuntos de documentos em paralelo, enquanto um LM generalista maior verifica e seleciona a melhor resposta. Essa abordagem de sistema duplo aumenta a precisão e reduz a latência, tornando-a ideal para aplicações de alto desempenho onde tanto a velocidade quanto a precisão são importantes.

Ajuste fino aumentado por recuperação (RAFT)

O RAFT combina o RAG com o ajuste fino supervisionado para melhorar o desempenho em domínios específicos. Pense nisso como se estivesse se preparando para uma prova com consulta: em vez de depender de documentos externos no momento da consulta (RAG) ou memorizar tudo (ajuste fino), o RAFT treina o modelo para "estudar" os documentos antecipadamente.

Como funciona:

Os dados de treinamento incluem perguntas, documentos "oráculo" (que contêm a resposta) e documentos "distratores" (ruído irrelevante).
O modelo aprende a identificar informações relevantes enquanto ignora elementos distrativos.
Respostas em formato de cadeia de raciocínio melhoram a qualidade do raciocínio.

Consideração: Pesquisas recentes sugerem que o RAFT proporciona os ganhos mais significativos em relação aos modelos de memória de longo prazo mais antigos. Os modelos mais recentes podem apresentar melhorias mais modestas, pois possuem mecanismos de recuperação de informação mais eficientes.

Arquiteturas RAG avançadas

O cenário RAG evoluiu para além dos tipos padrão "Contextual" e "Especulativo", abrangendo arquiteturas sofisticadas projetadas para raciocínio complexo. A abordagem básica de "recuperar e depois gerar" está sendo substituída por loops nos quais o modelo interage ativamente com o recuperador.

RAG baseado em grafos (GraphRAG)

O GraphRAG vai além da simples recuperação de trechos de texto isolados. Ele constrói um grafo de conhecimento onde documentos e entidades são nós, permitindo que o sistema recupere "subgrafos" ou caminhos de raciocínio em vez de trechos isolados.

Como funciona: Em vez de classificar trechos isoladamente, o sistema identifica relações (arestas) entre entidades. Ele pode percorrer essas conexões para responder a perguntas de múltiplos níveis (por exemplo, "Qual é a relação entre o CEO da Empresa A e o fornecedor da Empresa B?").
Consciência da estrutura: Sistemas como o G-RETRIEVER constroem subgrafos conectados mínimos que codificam contextos de múltiplos saltos antes mesmo que o LLM veja o estímulo, melhorando a fidelidade e reduzindo as alucinações.
Ideal para: Tarefas de raciocínio complexas onde as relações entre os pontos de dados são mais importantes do que a correspondência de palavras-chave.

RAG Híbrido e Contextual

RAG contextual: Aprimora a recuperação padrão pré-processando trechos de dados com "embeddings contextuais" ou resumos que explicam por que um trecho é relevante, reduzindo as falhas de recuperação.
Recuperação Híbrida : Combina a Recuperação Densa (vetores semânticos) com a Recuperação Esparsa (palavras-chave BM25). A recuperação densa captura o significado semântico, enquanto o BM25 encontra correspondências exatas de palavras-chave que a busca semântica pode não detectar. Essa combinação é considerada uma prática recomendada para mitigar falhas na recuperação de informações.

RAG agente

Os pipelines agéticos usam um controlador LLM para orquestrar múltiplas ferramentas e bancos de memória. O agente pode planejar um fluxo de trabalho (por exemplo, "Recuperar dados financeiros", depois "Usar a calculadora" e, em seguida, "Resumir").

Orquestração: Ao contrário do RAG linear, um sistema agentivo usa tokens de planejamento (PENSAMENTO, AÇÃO, OBSERVAÇÃO) para decidir seu próximo movimento dinamicamente.
Utilização da ferramenta: Permite a troca dinâmica de ferramentas (por exemplo, alternando entre um índice vetorial denso e uma consulta de banco de dados SQL) dependendo da intenção do usuário.

RAG iterativo e ativo

Esses sistemas tratam a recuperação como um ciclo conversacional, em vez de uma etapa isolada. O modelo determina quando recuperar e o que manter.

RAG ativo (FLARE): Mecanismos como o FLARE (Forward-Looking Active REtrieval) monitoram a confiança do modelo durante a geração. Se o modelo gerar tokens de baixa confiança, ele pausa para formular uma consulta de busca e recuperar novos dados, em vez de gerar resultados aleatórios. Isso é especialmente eficaz para a geração de textos longos, onde as necessidades de informação evoluem ao longo do texto.
Auto-RAG: O modelo gera "tokens de reflexão" (por exemplo, Retrieve, ISREL, ISSUP, ISUSE) para analisar criticamente o conteúdo recuperado. Ele avalia se as passagens são relevantes, se o conteúdo gerado é sustentado por evidências e a utilidade geral da resposta — decidindo se deve manter, refinar ou descartar evidências antes de gerar a resposta final.
Refinamento Cíclico: Arquiteturas como a Chain-of-Note obrigam o aluno de Direito a escrever notas concisas sobre os documentos recuperados para avaliar sua confiabilidade antes de sintetizar uma resposta.

Como avaliar sistemas RAG

A avaliação do RAG é mais complexa do que a avaliação padrão do LLM, pois requer a análise de dois componentes distintos: o Recuperador (que encontra os dados corretos) e o Gerador (que sintetiza a resposta com precisão). A comunidade de pesquisa tem se afastado de métricas superficiais simples (como BLEU ou ROUGE) em direção a estruturas de avaliação semântica e algorítmica que mensuram três pilares fundamentais: Relevância do Contexto , Fidelidade e Relevância da Resposta .

Matriz de Avaliação RAG

1. Métricas em nível de componente

Para diagnosticar problemas de desempenho, é necessário avaliar as etapas de recuperação e geração separadamente.

Métricas de recuperação (A fase de busca)

Se o recuperador falhar, o gerador não terá chance. As principais métricas incluem:

Precisão@k e Revocação@k: A precisão mede quantos dos documentos recuperados são realmente relevantes, enquanto a revocação mede se o sistema encontrou todos os documentos relevantes disponíveis no banco de dados.
Classificação recíproca média (MRR): Este fator é crucial para sistemas RAG, nos quais o LLM (Literatura Lidgmentada de Grupos) prioriza os primeiros blocos de conteúdo. A MRR avalia a posição do primeiro documento relevante na lista.
Ganho cumulativo descontado normalizado (nDCG): Ao contrário das métricas binárias de acerto/erro, o nDCG leva em consideração a relevância gradual, recompensando os sistemas que colocam os documentos mais úteis no topo da janela de contexto.

Métricas de geração (A fase de resposta)

Fidelidade (Fundamentação): Mede se a resposta gerada deriva exclusivamente do contexto recuperado. Esta é a principal métrica para detectar alucinações; se o modelo adicionar informações não presentes na fonte, a fidelidade diminui.
Relevância da resposta: Avalia se a resposta realmente aborda a consulta do usuário, garantindo que o modelo não esteja resumindo o contexto sem responder à pergunta específica.
Rejeição negativa: Uma métrica de segurança crítica que testa a capacidade do sistema de dizer "Eu não sei" quando o contexto recuperado não contém a resposta, em vez de inventar uma falsidade que pareça plausível.

2. Estruturas de avaliação automatizadas

Depender exclusivamente da avaliação humana é lento e caro. O padrão da indústria mudou para estruturas de "LLM como avaliador", onde um modelo robusto avalia os resultados do seu pipeline RAG.

RAGAS (Avaliação sem Referência): O RAGAS utiliza modelos de linguagem para avaliar a qualidade das respostas sem a necessidade de respostas consideradas "padrão ouro" por especialistas. Ele fornece um conjunto abrangente de métricas, incluindo Precisão Contextual, Revocação Contextual, Fidelidade e Relevância da Resposta. O RAGAS é altamente eficiente e escalável em termos operacionais, embora possa ser sensível aos enunciados específicos utilizados para a avaliação.
ARES (Sistema Automatizado de Avaliação RAG): O ARES ajusta modelos de linguagem leves usando dados de treinamento sintéticos para avaliar a relevância contextual, a fidelidade da resposta e a relevância da resposta. Ele utiliza Inferência Baseada em Predição (PPI) com um pequeno conjunto (aproximadamente 150+) de pontos de dados anotados por humanos para gerar intervalos de confiança. Embora o ARES ofereça maior precisão e permaneça eficaz em diferentes domínios, ele requer mais configuração em comparação com o RAGAS.

3. Análise comparativa avançada

Além da precisão básica, os testes de benchmark avançados avaliam modos de falha específicos:

Robustez ao ruído: o modelo consegue filtrar documentos irrelevantes misturados na janela de contexto?
Integração de informações: O modelo consegue sintetizar uma resposta que exige a combinação de pistas de múltiplos documentos distintos (raciocínio multi-hop)?
Robustez contrafactual: O modelo consegue identificar e corrigir erros quando a informação recuperada entra em conflito com o seu conhecimento paramétrico interno (ou vice-versa)?

Quais são os benefícios da geração aumentada por recuperação?

As formulações RAG podem ser aplicadas a diversas aplicações de PNL (Processamento de Linguagem Natural), incluindo chatbots, sistemas de perguntas e respostas e geração de conteúdo, onde a recuperação correta de informações e a geração de linguagem natural são cruciais. As principais vantagens que o RAG oferece incluem:

Relevância e precisão aprimoradas

Ferramentas e modelos de IA de última geração, como o ChatGPT, têm o potencial de automatizar tarefas de PNL (Processamento de Linguagem Natural) que exigem conhecimento especializado e representam cerca de 70% do tempo dos funcionários. ³ No entanto, cerca de 67% dos líderes empresariais e analistas consideram o conteúdo gerado por IA tendencioso ou impreciso, reduzindo a taxa de adoção dos LLMs. ⁴

Ao incorporar um componente de recuperação de informações, os modelos RAG podem acessar fontes de conhecimento externas, garantindo que o texto gerado seja baseado em informações precisas e atualizadas. Isso leva a respostas mais contextualizadas e precisas, reduzindo as alucinações na formulação de perguntas e na geração de conteúdo.

Coerência contextual

Os modelos baseados em recuperação fornecem contexto para o processo de geração, facilitando a criação de textos coerentes e contextualmente apropriados. Isso resulta em respostas mais coesas e compreensíveis, uma vez que o componente de geração pode se basear nas informações recuperadas.

Tratamento de consultas de domínio aberto

Os modelos RAG se destacam ao lidar com questões de domínio aberto, onde as informações necessárias podem não estar presentes nos dados de treinamento. O componente de recuperação consegue obter informações relevantes de uma vasta base de conhecimento, permitindo que o modelo forneça respostas ou gere conteúdo sobre diversos tópicos.

Viés de geração reduzido

A incorporação da recuperação de informações pode ajudar a mitigar alguns vieses inerentes aos modelos puramente generativos. Ao se basearem em informações existentes de uma gama diversificada de fontes, os modelos RAG podem gerar respostas menos tendenciosas e mais objetivas.

Computação eficiente

Os modelos baseados em recuperação podem ser computacionalmente eficientes para tarefas em que a base de conhecimento está disponível e estruturada. Em vez de gerar respostas do zero, eles podem recuperar e adaptar informações existentes, reduzindo o custo computacional.

Os modelos RAG podem ser estendidos para funcionar com múltiplas modalidades, como texto e imagens. Isso permite gerar texto contextualmente relevante para conteúdo textual e visual, abrindo possibilidades para aplicações em legendagem de imagens, sumarização de conteúdo e muito mais.

Personalização e ajustes finos

Os modelos RAG podem ser personalizados para domínios ou casos de uso específicos. Essa adaptabilidade os torna adequados para diversas aplicações, incluindo chatbots específicos para determinados domínios, suporte ao cliente e sistemas de recuperação de informações.

Colaboração entre humanos e IA

Os modelos RAG podem auxiliar os humanos em tarefas de recuperação de informações, resumindo e apresentando rapidamente informações relevantes de uma base de conhecimento, reduzindo o tempo e o esforço necessários para a busca manual.

Ajuste fino versus geração aumentada por recuperação

Normalmente, um modelo de fundação pode adquirir novos conhecimentos por meio de dois métodos principais:

Ajuste fino: Este processo requer o ajuste de modelos pré-treinados com base em um conjunto de treinamento e nos pesos do modelo.
RAG: Este método introduz conhecimento através de entradas de modelo ou insere informações em uma janela de contexto.

O ajuste fino tem sido uma abordagem comum. No entanto, não é recomendado para aprimorar a memorização de fatos, mas sim para refinar o desempenho em tarefas específicas. Aqui está uma comparação abrangente entre as duas abordagens:

Avisos legais

RAG é um campo emergente, razão pela qual existem poucas fontes que conseguem categorizar essas ferramentas e frameworks. Portanto, a AIMultiple baseou-se em declarações públicas dos fornecedores para essa categorização. A AIMultiple aprimorará essa lista de fornecedores e a categorização à medida que o mercado crescer.

Os modelos e bibliotecas RAG listados acima estão classificados em ordem alfabética nesta página, visto que a AIMultiple não tem acesso a métricas mais relevantes para classificar essas empresas.

As listas de fornecedores não são exaustivas.

Leitura complementar

Descubra os desenvolvimentos recentes em LLMs e LLMOps consultando:

Links de referência

https://arxiv.org/pdf/2404.06654

Epsilla x LangChain: Retrieval Augmented Generation (RAG) in LLM-Powered Question-Answering Pipelines

LangChain Blog

https://www.mckinsey.de/~/media/mckinsey/locations/europe%20and%20middle%20east/deutschland/news/presse/2023/2023-06-14%20mgi%20genai%20report%2023/the-economic-potential-of-generative-ai-the-next-productivity-frontier-vf.pdf

AI study: Over 60 per cent use Artificial Intelligence at work – almost half of all employees are worried about losing their jobs | Deloitte Switzerland

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por