What is Retrieval-Augmented Generation (RAG), and why is a hybrid approach necessary?

RAG allows a generative model, like a Large Language Model (LLM), to generate responses based on external data rather than relying solely on its internal training data. This improves factual accuracy by grounding answers in retrieved information.However, not all data is the same. Some queries demand semantic understanding, while others rely on precise keyword matching, especially when dealing with structured queries or entities extracted from complex information. That’s why hybrid retrieval augmented generation (Hybrid RAG) is essential. It combines dense semantic search with sparse lexical search, providing both contextual relevance and keyword precision. This hybrid nature ensures that the system retrieves context from both structured and unstructured text data, delivering more accurate responses.

How does this Hybrid RAG system handle different types of data?

The current implementation focuses on unstructured text data, such as product reviews, which often contain nuanced opinions, technical details, and varied linguistic patterns. The system uses multiple retrieval techniques to ensure it captures both meaning and exact terms.Looking forward, Hybrid RAG could be extended to include structured information and graph data, allowing it to answer more complex queries by integrating facts from knowledge graphs with the sentiment or context in reviews. This would result in a unified context that bridges raw data, structured documents, and narrative content, enabling richer context during response generation.

What happens during the information retrieval process in this specific system?

When a user submits a query, the system activates two parallel retrieval components: a dense retriever (semantic) and a sparse retriever (lexical). The dense model captures broad meanings and relationships, while the SPLADE-based sparse model locks onto key terms.These two result sets are fused using Reciprocal Rank Fusion (RRF), which resolves the scoring incompatibility between different retrieval methods. This hybrid approach allows the system to retrieve multiple documents that satisfy different parts of a query, improving its ability to generate coherent responses based on the most relevant and comprehensive context available.

Are there downsides to using a hybrid system? What are the computational costs?

Yes, the hybrid approach is more resource-intensive. It requires more computational resources due to dual-vector generation, double-search operations, and fusion logic. This means longer query processing times and a need for additional infrastructure to handle large volumes of data.Despite this, the performance gains, especially in Mean Reciprocal Rank (MRR) and Recall@5, make it a worthwhile trade-off for applications where factual accuracy and completeness matter. When compared in a rigorous benchmark, the hybrid method consistently retrieved more contextually appropriate and precise information than dense-only systems.

How does Hybrid RAG compare to other RAG methods?

Unlike traditional RAG techniques that rely solely on dense embeddings, Hybrid RAG leverages multiple retrieval methods to maximize answer quality. It supports a broader spectrum of query types, from vague to highly specific, thanks to its dual-retrieval design.Its hybrid nature makes it especially powerful in use cases where multiple constraints must be satisfied, such as combining structured information (e.g., “paraben-free”) with broader intents (e.g., “natural deodorant”). This comparative analysis demonstrates that Hybrid RAG offers a more balanced and adaptive response based on both dense and sparse signals.

Can this system work with graph-based or structured data in the future?

Yes, future directions for Hybrid RAG include incorporating knowledge graphs and structured data alongside text. By doing so, it can respond to structured queries and provide answers that synthesize graph-based relationships (like product categories or ingredient interactions) with freeform user reviews.This would allow the system to generate responses grounded in both precise factual structures and nuanced human narratives, improving both factual accuracy and user satisfaction.

Why does better accuracy require more processing power?

Because Hybrid RAG performs two types of retrieval and then fuses the results, it naturally uses more computational resources. Vector generation, especially when generating both dense and sparse embeddings, accounts for over 90% of total latency. Compared to a dense-only approach, this increases latency (~201ms per query in our benchmark).

IA TRAPO

RAG Híbrido: Aumentando a Precisão RAG

Cem Dilmegani

com

Ekrem Sarı

atualizado em Mar 11, 2026

Veja o nosso normas éticas

A busca por vetores densos é excelente para capturar a intenção semântica, mas frequentemente apresenta dificuldades com consultas que exigem alta precisão de palavras-chave. Para quantificar essa lacuna, comparamos um recuperador padrão baseado apenas em vetores densos com um sistema RAG híbrido que incorpora vetores esparsos SPLADE.

Nossa avaliação, realizada com base em um conjunto selecionado de 100 perguntas desafiadoras do mundo real, focou na capacidade de cada sistema de recuperar e classificar corretamente a melhor resposta.

Comparação de desempenho: recuperação densa vs. recuperação híbrida

Nossos testes comparativos revelam que um sistema de busca híbrido bem ajustado supera significativamente uma abordagem exclusivamente densa, fornecendo resultados mais precisos e com melhor classificação.

Loading Chart

Melhor precisão na classificação (MRR +18,5%): O sistema híbrido elevou a Classificação Recíproca Média de 0,410 para 0,486 . Essa melhoria substancial é o resultado mais convincente, pois se traduz diretamente em uma melhor experiência do usuário, aumentando significativamente a probabilidade de a melhor resposta aparecer na primeira posição.
Taxa de recuperação aprimorada (Recall@5 +7,2%): O modelo híbrido aumentou a pontuação Recall@5 de 0,655 para 0,702 . Isso demonstra sua capacidade de encontrar a resposta correta entre os 5 primeiros resultados de forma mais consistente, revelando com sucesso documentos que a abordagem exclusivamente densa teria ignorado completamente.

Para entender detalhadamente nossa avaliação e métricas, consulte nossa metodologia de benchmark para Hybrid RAG .

Precisão versus latência: a relação de compromisso entre desempenho e custo.

Embora o sistema híbrido ofereça precisão superior, esse desempenho aprimorado tem um custo computacional considerável.

O sistema híbrido introduz uma latência adicional de 201 ms por consulta, representando um aumento de 24,5% no tempo de processamento. Para entender detalhadamente nosso processo de medição de latência e metodologia de temporização, consulte nossa metodologia de medição de latência .

Para onde vai o tempo extra?

O aumento de 201 ms na latência do sistema híbrido não é distribuído uniformemente entre todas as operações. Nossa análise detalhada de tempo revela precisamente onde reside o custo computacional:

Essa análise demonstra claramente que a maior parte da latência provém da etapa inicial de geração do vetor, na qual o sistema precisa criar tanto um vetor denso quanto um vetor esparso.

As etapas de busca e fusão propriamente ditas são notavelmente rápidas, contribuindo juntas com menos de 7% do tempo total. Por exemplo, a geração de vetores densos e esparsos poderia ser paralelizada para reduzir esse gargalo.

Possíveis razões para as diferenças de desempenho

Recuperação semântica versus precisão lexical

A recuperação densa baseia-se na similaridade semântica, que é eficaz para capturar a intenção do usuário, mas pode subestimar termos e restrições exatos. Isso limita sua capacidade de recuperar consistentemente documentos que dependem de palavras-chave ou atributos específicos.

No teste de desempenho, o recuperador que utiliza apenas dados densos frequentemente correspondia à intenção geral das consultas, mas não atendia a restrições rigorosas, como nomes exatos de ingredientes.

Cobertura de recuperação de sinal duplo

RAG híbrido combina representações densas e esparsas, permitindo que o sistema avalie documentos tanto do ponto de vista semântico quanto lexical. Essa dupla cobertura aumenta a probabilidade de que documentos relevantes sejam recuperados e classificados em posições elevadas.

Classificação da sensibilidade por meio da fusão

A Fusão de Classificação Recíproca (RRF) prioriza documentos que se classificam bem em múltiplos sinais de recuperação, em vez de se basear em pontuações de similaridade brutas. Essa agregação baseada em classificação melhora a precisão dos melhores resultados quando há alinhamento entre relevância semântica e precisão de palavras-chave.

Sobrecarga de geração de vetores

A recuperação híbrida exige a geração de vetores densos e esparsos para cada consulta, aumentando o trabalho computacional antes mesmo do início da busca. Esse pré-processamento adicional impacta diretamente a latência de ponta a ponta.

Sensibilidade ao ajuste de parâmetros

O desempenho híbrido depende muito do equilíbrio dos parâmetros de fusão. Dar peso excessivo a sinais esparsos pode suprimir a relevância semântica e degradar os resultados.

Arquitetura de sistema RAG híbrida

Nosso sistema híbrido combina duas abordagens de recuperação complementares, cada uma abordando diferentes características de consulta por meio de uma arquitetura de processamento paralelo cuidadosamente projetada.

Figura 1: O fluxo de trabalho do nosso sistema híbrido de recuperação de dados, desde a consulta inicial do usuário até a lista final de documentos classificados e enviada ao LLM .

Componente denso: Compreensão semântica

Modelo: OpenAI text-embedding-3-small
Ponto forte: Captura o significado semântico e o contexto , destacando-se na compreensão da intenção do usuário mesmo quando as consultas carecem de palavras-chave específicas.
Caso de uso: Uma consulta como "alívio da dor que não agride o estômago" encontrará com sucesso documentos que mencionam conceitos como "suave para a minha digestão" ou "não causou desconforto estomacal", mesmo que a palavra exata "suave" não seja usada.

Componente esparso: Precisão da palavra-chave

Modelo: SPLADE (Modelo de Expansão e Lexical Esparso)
Ponto forte: Identifica e atribui alta importância a palavras-chave discriminativas, incluindo nomes técnicos, números de modelo e atributos específicos do produto que uma pesquisa puramente semântica poderia ignorar.
Caso de uso: Uma consulta contendo um termo específico como "paracetamol" requer uma correspondência exata de palavra-chave. O SPLADE garante que os documentos que contêm esse termo preciso sejam classificados em posições elevadas, uma tarefa em que um modelo denso poderia generalizar para "analgésico" e não identificar o ingrediente específico.

O algoritmo de fusão de classificação recíproca (RRF)

Uma consulta do usuário é vetorizada simultaneamente pelos modelos OpenAI e SPLADE, resultando em duas listas classificadas independentes. A etapa crucial é combinar essas listas usando a Fusão de Classificação Recíproca (RRF).

O RRF resolve o desafio de combinar resultados de sistemas com escalas de pontuação incompatíveis (por exemplo, uma pontuação densa de 0,89 versus uma pontuação esparsa de 95,4). Em vez de usar pontuações brutas, ele se concentra exclusivamente na posição de classificação do documento (1º, 2º, 3º).

Exemplo : Para a pesquisa “desodorante natural sem alumínio e parabenos”

Uma pesquisa densa classifica uma avaliação sobre "desodorante orgânico e sem químicos" como número 1 (relevância semântica).
Uma pesquisa esparsa classifica uma avaliação que contém "sem alumínio" e "sem parabenos" como número 1 (palavras-chave exatas).
A fusão RRF promove documentos que aparecem em posições altas em ambas as listas para o topo.

Uma avaliação que seja semanticamente relevante E contenha as palavras-chave exatas obtém a pontuação combinada mais alta.

A pontuação final utiliza a seguinte fórmula:

onde k=60 e rank_i é a posição do documento em cada resultado de pesquisa. O parâmetro sparse_boost (1.2) favorece ligeiramente a precisão das palavras-chave sem sobrecarregar a compreensão semântica.

O papel do ajuste dos parâmetros de fusão

Uma descoberta fundamental de nossa pesquisa é que a simples combinação de dois sistemas de recuperação não garante um desempenho melhorado. Nossa configuração híbrida inicial, na verdade, apresentou desempenho pior do que a linha de base somente com busca densa, atingindo uma taxa de recuperação de memória (MRR) de apenas 0,390.

O problema era um parâmetro de fusão configurado incorretamente:

Configuração inicial problemática : sparse_boost = 3.0
Configuração otimizada : sparse_boost = 1.2

A configuração inicial atribuía às correspondências de palavras-chave do SPLADE um peso três vezes maior do que às correspondências semânticas do modelo denso. Essa ponderação excessiva fazia com que documentos semanticamente irrelevantes, porém ricos em palavras-chave, sobrepujassem os resultados contextualmente apropriados, degradando o desempenho geral.

A otimização para sparse_boost = 1.2 proporciona uma ligeira preferência por correspondências de palavras-chave sem sobrepor-se à compreensão semântica, um equilíbrio que se revelou crucial para alcançar a melhoria de 18,5% na taxa de revisão mensal (MRR).

Quando a recuperação híbrida se destaca: A consulta com múltiplas restrições

A vantagem de desempenho dos sistemas híbridos torna-se evidente em tipos de consulta específicos que desafiam abordagens exclusivamente densas. Uma consulta comum e desafiadora do nosso conjunto de dados "Saúde e Cuidados Pessoais" é:

“Preciso de um desodorante natural que seja livre de alumínio e de parabenos.”

Esta consulta tem duas partes distintas: uma intenção semântica ampla (“desodorante natural”) e duas restrições de palavras-chave estritas (“sem alumínio”, “sem parabenos”).

Como um sistema de busca que prioriza apenas dados densos responde: Um sistema de busca que prioriza apenas dados densos é excelente para entender a intenção de um "desodorante natural". Ele encontrará avaliações que discutem "desodorantes suaves e orgânicos". No entanto, ele pode classificar bem uma avaliação que menciona ser "totalmente natural" e "sem alumínio", mesmo que nunca mencione parabenos. O sistema captura corretamente a intenção principal, mas falha em uma das restrições não negociáveis.

Como o sistema híbrido vence: O sistema híbrido aborda essa questão por meio de uma abordagem dupla:

A busca esparsa (filtro de precisão): O modelo SPLADE encontra imediatamente documentos que contêm as palavras-chave exatas e de alta relevância “sem alumínio” e “sem parabenos”.
A busca densa (filtro de relevância): Simultaneamente, o modelo OpenAI busca documentos semanticamente relacionados a "desodorante natural e eficaz".
A fusão (RRF): O RRF analisa ambas as listas classificadas. Um documento que aparece bem posicionado em ambas, por exemplo, uma avaliação extremamente positiva que elogia explicitamente um produto por ser “natural”, “eficaz”, “sem alumínio” e “sem parabenos”, recebe a pontuação combinada mais alta possível e é promovido ao primeiro lugar.

Reclassificadores: Uma segunda etapa de recuperação opcional

Os reclassificadores funcionam como um processo de filtragem de segundo estágio em fluxos de recuperação de dois estágios: o sistema primeiro recupera um amplo conjunto de documentos candidatos e, em seguida, um reclassificador de codificação cruzada pontua e reordena esses documentos com base na relevância da consulta. Na prática, um sistema pode recuperar dezenas ou até centenas de candidatos (por exemplo, usando uma busca híbrida densa-esparsa, recuperando cerca de 50 a 100 itens) e, em seguida, usar o reclassificador para selecionar as passagens mais relevantes para o modelo de linguagem. Essa abordagem de dois estágios pode recuperar passagens relevantes que não estavam entre os itens mais bem classificados, promovendo-as para a seleção final para geração.

No teste de benchmark de reclassificação , testamos 8 modelos de reclassificação em aproximadamente 145 mil avaliações em inglês da Amazon e descobrimos que o melhor modelo elevou a taxa de acertos na primeira consulta (Hit@1) de 62,67% para 83,00%, além de utilizar um recuperador denso, adicionando menos de 250 ms de latência por consulta.

Este benchmark híbrido RAG não inclui uma etapa de reclassificação. Nosso objetivo aqui foi isolar o impacto da combinação de sinais de recuperação densos e esparsos por meio do RRF. Adicionar um reclassificador à recuperação híbrida é um próximo passo natural e poderia gerar ganhos adicionais de precisão, mas introduziria uma variável de confusão que dificultaria atribuir as melhorias ao método de recuperação ou ao modelo de reclassificação.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Metodologia de referência para RAG híbrido

Nossa metodologia de avaliação foi projetada para garantir uma comparação justa, transparente e reproduzível entre os sistemas de recuperação exclusivamente densos e os sistemas híbridos.

Configuração de teste e conjunto de dados

Corpus de conhecimento: Utilizamos um conjunto de dados com 494.094 avaliações reais de usuários, provenientes do conjunto de dados de Avaliações de Clientes da Amazon (categoria Saúde e Cuidados Pessoais). ¹ .
Banco de dados de vetores: Utilizamos Qdrant para hospedar duas coleções separadas.
- A coleção "dense-only" armazenava apenas vetores OpenAI .
- A coleção híbrida utilizou o recurso de "vetores nomeados" do Qdrant para armazenar um vetor denso (dense) e um vetor esparso (text-sparse) para cada documento.
Métrica de similaridade: A similaridade de cosseno foi usada para todas as buscas de vetores densos.

Consultas de teste: Processo de seleção

Criamos um conjunto de testes de alta qualidade com 100 perguntas por meio de um processo de três etapas, baseado em código, para evitar avaliações anedóticas ou tendenciosas:

Pré-processamento: Limpamos programaticamente os dados brutos do Amazon Q&A. ² , filtramos perguntas sem sentido ou de baixa qualidade. Estabelecemos uma resposta "verdadeira" para cada pergunta, selecionando a resposta com o maior número de votos de "útil" dos usuários.
Classificação de dificuldade: Aplicamos um script baseado em regras para pontuar e classificar todas as perguntas por nível de dificuldade. Perguntas que continham linguagem comparativa (“diferença entre”, “versus”, “melhor que”) ou que solicitavam opiniões (“experiência com”) foram consideradas mais difíceis do que perguntas factuais simples (“quais são as dimensões”).
Seleção final: Selecionamos manualmente o conjunto final de 100 questões de referência da categoria "difícil". Isso garante que estamos testando os limites de cada sistema de recuperação, onde as diferenças de desempenho são mais evidentes.

Métricas de avaliação

Recall@5 (Taxa de acerto): Essa métrica aborda uma questão básica: "O sistema encontrou a informação correta?" Ela mede a porcentagem de consultas para as quais a resposta correta apareceu entre os 5 primeiros resultados da busca. Uma alta pontuação de Recall@5 indica um sistema eficaz que consegue apresentar informações relevantes.
MRR (Classificação Recíproca Média): Esta é uma métrica sensível à classificação que responde à pergunta: "Com que rapidez o usuário encontrou a informação correta?". Ela recompensa fortemente a classificação da resposta correta em primeiro lugar (uma pontuação de 1,0), com pontuações decrescentes para classificações inferiores (0,5 para o 2º lugar, 0,33 para o 3º lugar, etc.). Um MRR alto é crucial para a experiência do usuário, pois significa que o resultado mais preciso é exibido no topo.

Medição de latência

Para fornecer uma análise de desempenho completa, medimos a latência de consulta de ponta a ponta tanto para o sistema exclusivamente denso quanto para o sistema híbrido. Essa medição é crucial para entender o custo real dos ganhos de precisão proporcionados pela abordagem híbrida.

O processo foi implementado em nossos scripts de avaliação em Python usando a função de alta precisão time.perf_counter(). Para cada uma das 100 consultas de teste, medimos o tempo total decorrido desde o momento em que uma consulta foi submetida à função de recuperação até o retorno da lista final de documentos classificados.

Para o sistema híbrido, realizamos uma análise mais detalhada, cronometrando suas três etapas distintas de forma independente:

Geração de vetores : O tempo total necessário para gerar tanto o vetor denso (por meio de uma chamada API para OpenAI ) quanto o vetor esparso (por meio da inferência do modelo SPLADE local).
Operações de busca : O tempo necessário para executar duas consultas de busca separadas no banco de dados de vetores Qdrant , uma para o vetor denso e outra para o vetor esparso.
Fusão (RRF) : O tempo computacional necessário para o algoritmo de Fusão de Classificação Recíproca mesclar os dois conjuntos de resultados e produzir a lista final reclassificada.

Os valores finais de latência apresentados em nossos resultados representam a média aritmética dos tempos registrados em todas as 100 consultas de teste, convertidos para milissegundos (ms) para maior clareza. Essa abordagem garante que nossas métricas de latência sejam robustas e representativas da experiência média do usuário.

Limitações e âmbito de aplicação

Nossa análise comparativa se concentra especificamente no domínio da saúde e cuidados pessoais, utilizando dados de avaliações da Amazon. Os padrões de desempenho podem variar em outros domínios com características linguísticas distintas ou requisitos de terminologia técnica específicos.

A avaliação utilizou granularidade ao nível do documento, tratando cada avaliação como um vetor único. Os resultados podem variar dependendo da estratégia de segmentação ou da abordagem de recuperação detalhada utilizada.

Leitura complementar

Explore outros benchmarks RAG , como:

Os 10 principais modelos de incorporação multilíngue para RAG

Modelos de incorporação: OpenAI vs Gemini vs Cohere

Os 16 principais modelos de incorporação de código aberto para RAG

Principais bases de dados vetoriais para RAG : Qdrant vs Weaviate vs Pinecone

Benchmark RAG agenic: roteamento em múltiplos bancos de dados e geração de consultas

Modelos de incorporação multimodal: Apple vs Meta vs OpenAI

Conclusão

Este teste comparativo confirma que um sistema de recuperação híbrido bem ajustado oferece uma vantagem de desempenho significativa em relação a uma abordagem exclusivamente densa para consultas complexas do mundo real. Ao combinar de forma inteligente a busca semântica e lexical, o modelo híbrido melhora a precisão da classificação, gerando resultados mais precisos e com melhor classificação.

Os principais pontos a serem destacados em nossa análise comparativa incluem:

O sistema híbrido supera o sistema exclusivamente denso: o sistema híbrido otimizado alcançou um aumento de 7,2% no Recall@5 e um aumento substancial de 18,5% no MRR, comprovando sua capacidade superior de encontrar e classificar corretamente a melhor resposta.
O ajuste fino é imprescindível: simplesmente combinar buscas densas e esparsas não é suficiente. Nosso sistema híbrido inicial, sem ajustes, apresentou desempenho inferior ao sistema de referência que utilizava apenas buscas densas. A otimização estratégica dos parâmetros de fusão foi essencial para os ganhos de desempenho.
A precisão tem um custo: a maior precisão do sistema híbrido introduziu um aumento de latência de aproximadamente 201 ms (24,5%) por consulta. Essa compensação é uma consideração crítica para os projetistas de sistemas, que precisam equilibrar a necessidade de precisão com os requisitos de desempenho em tempo real.

Perguntas frequentes

RAG permite que um modelo generativo, como um Modelo de Linguagem Amplo ( LLM ), gere respostas com base em dados externos, em vez de depender exclusivamente de seus dados de treinamento internos. Isso melhora a precisão factual, fundamentando as respostas em informações recuperadas.
No entanto, nem todos os dados são iguais. Algumas consultas exigem compreensão semântica, enquanto outras dependem de correspondência precisa de palavras-chave, especialmente ao lidar com consultas estruturadas ou entidades extraídas de informações complexas. É por isso que a geração aumentada de recuperação híbrida (Hybrid RAG ) é essencial. Ela combina busca semântica densa com busca lexical esparsa, fornecendo relevância contextual e precisão de palavras-chave. Essa natureza híbrida garante que o sistema recupere contexto tanto de dados textuais estruturados quanto não estruturados, fornecendo respostas mais precisas.

A implementação atual concentra-se em dados textuais não estruturados, como avaliações de produtos, que frequentemente contêm opiniões matizadas, detalhes técnicos e padrões linguísticos variados. O sistema utiliza múltiplas técnicas de recuperação para garantir a captura tanto do significado quanto dos termos exatos.
Olhando para o futuro, o Hybrid RAG poderia ser expandido para incluir informações estruturadas e dados em grafo, permitindo responder a consultas mais complexas ao integrar fatos de grafos de conhecimento com o sentimento ou contexto das avaliações. Isso resultaria em um contexto unificado que conecta dados brutos, documentos estruturados e conteúdo narrativo, possibilitando um contexto mais rico durante a geração de respostas.

Quando um usuário submete uma consulta, o sistema ativa dois componentes de recuperação paralelos: um recuperador denso (semântico) e um recuperador esparso (lexical). O modelo denso captura significados e relações amplas, enquanto o modelo esparso baseado em SPLADE se concentra em termos-chave.
Esses dois conjuntos de resultados são fundidos usando a Fusão de Classificação Recíproca (RRF), que resolve a incompatibilidade de pontuação entre diferentes métodos de recuperação. Essa abordagem híbrida permite que o sistema recupere múltiplos documentos que satisfazem diferentes partes de uma consulta, melhorando sua capacidade de gerar respostas coerentes com base no contexto mais relevante e abrangente disponível.

Sim, a abordagem híbrida exige mais recursos. Ela requer mais recursos computacionais devido à geração de vetores duplos, operações de busca dupla e lógica de fusão. Isso significa tempos de processamento de consultas mais longos e a necessidade de infraestrutura adicional para lidar com grandes volumes de dados.
Apesar disso, os ganhos de desempenho, especialmente em Classificação Recíproca Média (MRR) e Recall@5, tornam essa uma troca vantajosa para aplicações onde a precisão factual e a completude são importantes. Quando comparado em um benchmark rigoroso, o método híbrido recuperou consistentemente informações mais contextualmente apropriadas e precisas do que os sistemas exclusivamente densos.

Ao contrário das técnicas RAG tradicionais que dependem exclusivamente de embeddings densos, RAG Híbrido utiliza múltiplos métodos de recuperação para maximizar a qualidade das respostas. Ele suporta um espectro mais amplo de tipos de consulta, desde vagas até altamente específicas, graças ao seu design de recuperação dupla.
Sua natureza híbrida o torna especialmente poderoso em casos de uso onde múltiplas restrições precisam ser atendidas, como combinar informações estruturadas (por exemplo, "sem parabenos") com intenções mais amplas (por exemplo, "desodorante natural"). Esta análise comparativa demonstra que RAG Híbrido oferece uma resposta mais equilibrada e adaptativa com base em sinais densos e esparsos.

Sim, as direções futuras do Hybrid RAG incluem a incorporação de grafos de conhecimento e dados estruturados juntamente com texto. Ao fazer isso, ele pode responder a consultas estruturadas e fornecer respostas que sintetizam relacionamentos baseados em grafos (como categorias de produtos ou interações de ingredientes) com avaliações de usuários em formato livre.
Isso permitiria que o sistema gerasse respostas fundamentadas tanto em estruturas factuais precisas quanto em narrativas humanas repletas de nuances, melhorando tanto a precisão factual quanto a satisfação do usuário.

Como o Hybrid RAG realiza dois tipos de recuperação e, em seguida, funde os resultados, ele naturalmente utiliza mais recursos computacionais. A geração de vetores, especialmente ao gerar embeddings densos e esparsos, representa mais de 90% da latência total. Comparado a uma abordagem somente densa, isso aumenta a latência (aproximadamente 201 ms por consulta em nosso benchmark).

Links de referência

McAuley-Lab/Amazon-Reviews-2023 · Datasets at Hugging Face

McAuley-Lab

Amazon question/answer data

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por

Ekrem Sarı

Pesquisador de IA

Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e frameworks RAG.

Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

A seguir, leia

TRAPOMar 27

Ekrem Sarı

TRAPOAbr 26

Benchmark de modelos de incorporação de código aberto para RAG

Ekrem Sarı

TRAPOJan 29

Frameworks RAG: LangChain vs LangGraph vs LlamaIndex

Cem Dilmegani

com

Ekrem Sarı

RAG Híbrido: Aumentando a Precisão RAG

Comparação de desempenho: recuperação densa vs. recuperação híbrida