A busca por vetores densos é excelente para capturar a intenção semântica, mas frequentemente apresenta dificuldades com consultas que exigem alta precisão de palavras-chave. Para quantificar essa lacuna, comparamos um recuperador padrão baseado apenas em vetores densos com um sistema RAG híbrido que incorpora vetores esparsos SPLADE.
Nossa avaliação, realizada com base em um conjunto selecionado de 100 perguntas desafiadoras do mundo real, focou na capacidade de cada sistema de recuperar e classificar corretamente a melhor resposta.
Comparação de desempenho: recuperação densa vs. recuperação híbrida
Nossos testes comparativos revelam que um sistema de busca híbrido bem ajustado supera significativamente uma abordagem exclusivamente densa, fornecendo resultados mais precisos e com melhor classificação.
- Melhor precisão na classificação (MRR +18,5%): O sistema híbrido elevou a Classificação Recíproca Média de 0,410 para 0,486 . Essa melhoria substancial é o resultado mais convincente, pois se traduz diretamente em uma melhor experiência do usuário, aumentando significativamente a probabilidade de a melhor resposta aparecer na primeira posição.
- Taxa de recuperação aprimorada (Recall@5 +7,2%): O modelo híbrido aumentou a pontuação Recall@5 de 0,655 para 0,702 . Isso demonstra sua capacidade de encontrar a resposta correta entre os 5 primeiros resultados de forma mais consistente, revelando com sucesso documentos que a abordagem exclusivamente densa teria ignorado completamente.
Para entender detalhadamente nossa avaliação e métricas, consulte nossa metodologia de benchmark para Hybrid RAG .
Precisão versus latência: a relação de compromisso entre desempenho e custo.
Embora o sistema híbrido ofereça precisão superior, esse desempenho aprimorado tem um custo computacional considerável.
O sistema híbrido introduz uma latência adicional de 201 ms por consulta, representando um aumento de 24,5% no tempo de processamento. Para entender detalhadamente nosso processo de medição de latência e metodologia de temporização, consulte nossa metodologia de medição de latência .
Para onde vai o tempo extra?
O aumento de 201 ms na latência do sistema híbrido não é distribuído uniformemente entre todas as operações. Nossa análise detalhada de tempo revela precisamente onde reside o custo computacional:
Essa análise demonstra claramente que a maior parte da latência provém da etapa inicial de geração do vetor, onde o sistema precisa criar tanto um vetor denso quanto um vetor esparso.
As etapas de busca e fusão propriamente ditas são notavelmente rápidas, contribuindo juntas com menos de 7% do tempo total. Por exemplo, a geração de vetores densos e esparsos poderia ser paralelizada para reduzir esse gargalo.
Possíveis razões para as diferenças de desempenho
Recuperação semântica versus precisão lexical
A recuperação densa baseia-se na similaridade semântica, que é eficaz para capturar a intenção do usuário, mas pode subestimar termos e restrições exatos. Isso limita sua capacidade de recuperar consistentemente documentos que dependem de palavras-chave ou atributos específicos.
No teste de desempenho, o recuperador que utiliza apenas dados densos frequentemente correspondia à intenção geral das consultas, mas não atendia a restrições rigorosas, como nomes exatos de ingredientes.
Cobertura de recuperação de sinal duplo
O RAG híbrido combina representações densas e esparsas, permitindo que o sistema avalie documentos tanto do ponto de vista semântico quanto lexical. Essa dupla cobertura aumenta a probabilidade de que documentos relevantes sejam recuperados e classificados em posições elevadas.
Classificação da sensibilidade por meio da fusão
A Fusão de Classificação Recíproca (RRF) prioriza documentos que se classificam bem em múltiplos sinais de recuperação, em vez de se basear em pontuações de similaridade brutas. Essa agregação baseada em classificação melhora a precisão dos melhores resultados quando há alinhamento entre relevância semântica e precisão de palavras-chave.
Sobrecarga de geração de vetores
A recuperação híbrida exige a geração de vetores densos e esparsos para cada consulta, aumentando o trabalho computacional antes mesmo do início da busca. Esse pré-processamento adicional impacta diretamente a latência de ponta a ponta.
Sensibilidade ao ajuste de parâmetros
O desempenho híbrido depende muito do equilíbrio dos parâmetros de fusão. Dar peso excessivo a sinais esparsos pode suprimir a relevância semântica e degradar os resultados.
Arquitetura de sistema RAG híbrida
Nosso sistema híbrido combina duas abordagens de recuperação complementares, cada uma abordando diferentes características de consulta por meio de uma arquitetura de processamento paralelo cuidadosamente projetada.
Componente denso: Compreensão semântica
- Modelo: OpenAI text-embedding-3-small
- Ponto forte: Captura o significado semântico e o contexto , destacando-se na compreensão da intenção do usuário mesmo quando as consultas carecem de palavras-chave específicas.
- Caso de uso: Uma consulta como "alívio da dor que não agride o estômago" encontrará com sucesso documentos que mencionam conceitos como "suave para a minha digestão" ou "não causou desconforto estomacal", mesmo que a palavra exata "suave" não seja usada.
Componente esparso: Precisão da palavra-chave
- Modelo: SPLADE (Modelo de Expansão e Lexical Esparsa)
- Ponto forte: Identifica e atribui alta importância a palavras-chave discriminativas, incluindo nomes técnicos, números de modelo e atributos específicos do produto que uma pesquisa puramente semântica poderia ignorar.
- Caso de uso: Uma consulta contendo um termo específico como "paracetamol" requer uma correspondência exata de palavra-chave. O SPLADE garante que os documentos que contêm esse termo preciso sejam classificados em posições elevadas, uma tarefa em que um modelo denso poderia generalizar para "analgésico" e não identificar o ingrediente específico.
O algoritmo de fusão de classificação recíproca (RRF)
Uma consulta do usuário é vetorizada simultaneamente pelos modelos OpenAI e SPLADE, resultando em duas listas classificadas independentes. A etapa crucial é combinar essas listas usando a Fusão de Classificação Recíproca (RRF).
O RRF resolve o desafio de combinar resultados de sistemas com escalas de pontuação incompatíveis (por exemplo, uma pontuação densa de 0,89 versus uma pontuação esparsa de 95,4). Em vez de usar pontuações brutas, ele se concentra exclusivamente na posição de classificação do documento (1º, 2º, 3º).
Exemplo : Para a pesquisa “desodorante natural sem alumínio e parabenos”
- Uma pesquisa densa classifica uma avaliação sobre "desodorante orgânico e sem químicos" como número 1 (relevância semântica).
- Uma pesquisa esparsa classifica uma avaliação que contém "sem alumínio" e "sem parabenos" como número 1 (palavras-chave exatas).
- A fusão RRF promove documentos que aparecem em posições altas em ambas as listas para o topo.
Uma avaliação que seja semanticamente relevante E contenha as palavras-chave exatas obtém a pontuação combinada mais alta.
A pontuação final utiliza a seguinte fórmula:
onde k=60 e rank_i é a posição do documento em cada resultado de pesquisa. O parâmetro sparse_boost (1.2) favorece ligeiramente a precisão das palavras-chave sem sobrecarregar a compreensão semântica.
O papel do ajuste dos parâmetros de fusão
Uma descoberta fundamental de nossa pesquisa é que a simples combinação de dois sistemas de recuperação não garante um desempenho melhorado. Nossa configuração híbrida inicial, na verdade, apresentou desempenho pior do que a linha de base somente com busca densa, atingindo uma taxa de recuperação de memória (MRR) de apenas 0,390.
O problema era um parâmetro de fusão configurado incorretamente:
- Configuração inicial problemática : sparse_boost = 3.0
- Configuração otimizada : sparse_boost = 1.2
A configuração inicial atribuía às correspondências de palavras-chave do SPLADE um peso três vezes maior do que às correspondências semânticas do modelo denso. Essa ponderação excessiva fazia com que documentos semanticamente irrelevantes, porém ricos em palavras-chave, sobrepujassem os resultados contextualmente apropriados, degradando o desempenho geral.
A otimização para sparse_boost = 1.2 proporciona uma ligeira preferência por correspondências de palavras-chave sem sobrepor-se à compreensão semântica, um equilíbrio que se revelou crucial para alcançar a melhoria de 18,5% na taxa de revisão mensal (MRR).
Quando a recuperação híbrida se destaca: A consulta com múltiplas restrições
A vantagem de desempenho dos sistemas híbridos torna-se evidente em tipos de consulta específicos que desafiam abordagens exclusivamente densas. Uma consulta comum e desafiadora do nosso conjunto de dados "Saúde e Cuidados Pessoais" é:
“Preciso de um desodorante natural que seja livre de alumínio e de parabenos.”
Esta consulta tem duas partes distintas: uma intenção semântica ampla (“desodorante natural”) e duas restrições de palavras-chave estritas (“sem alumínio”, “sem parabenos”).
Como um sistema de busca que prioriza apenas densidades responde: Um sistema de busca que prioriza apenas densidades é excelente para entender a intenção de um "desodorante natural". Ele encontrará avaliações que discutem "desodorantes suaves e orgânicos". No entanto, ele pode classificar bem uma avaliação que menciona ser "totalmente natural" e "sem alumínio", mesmo que nunca mencione parabenos. O sistema captura corretamente a intenção principal, mas falha em uma das restrições não negociáveis.
Como o sistema híbrido vence: O sistema híbrido aborda essa questão por meio de uma abordagem dupla:
- A busca esparsa (filtro de precisão): O modelo SPLADE encontra imediatamente documentos que contêm as palavras-chave exatas e de alta relevância “sem alumínio” e “sem parabenos”.
- A busca densa (filtro de relevância): Simultaneamente, o modelo OpenAI busca documentos que sejam semanticamente relacionados a “desodorante natural e eficaz”.
- A fusão (RRF): O RRF analisa ambas as listas classificadas. Um documento que aparece bem posicionado em ambas, por exemplo, uma avaliação extremamente positiva que elogia explicitamente um produto por ser “natural”, “eficaz”, “sem alumínio” e “sem parabenos”, recebe a pontuação combinada mais alta possível e é promovido ao primeiro lugar.
Reclassificadores: Uma segunda etapa de recuperação opcional
Os reclassificadores funcionam como um processo de filtragem de segundo estágio em fluxos de recuperação de dois estágios: o sistema primeiro recupera um amplo conjunto de documentos candidatos e, em seguida, um reclassificador de codificação cruzada pontua e reordena esses documentos com base na relevância da consulta. Na prática, um sistema pode recuperar dezenas ou até centenas de candidatos (por exemplo, usando uma busca híbrida densa-esparsa, recuperando cerca de 50 a 100 itens) e, em seguida, usar o reclassificador para selecionar as passagens mais relevantes para o modelo de linguagem. Essa abordagem de dois estágios pode recuperar passagens relevantes que não estavam entre os itens mais bem classificados, promovendo-as para a seleção final para geração.
No teste de benchmark de reclassificação , testamos 8 modelos de reclassificação em aproximadamente 145 mil avaliações em inglês da Amazon e descobrimos que o melhor modelo elevou a taxa de acertos na primeira consulta (Hit@1) de 62,67% para 83,00%, além de utilizar um recuperador denso, adicionando menos de 250 ms de latência por consulta.
Este benchmark híbrido RAG não inclui uma etapa de reclassificação. Nosso objetivo aqui foi isolar o impacto da combinação de sinais de recuperação densos e esparsos por meio do RRF. Adicionar um reclassificador à recuperação híbrida é um próximo passo natural e poderia gerar ganhos adicionais de precisão, mas introduziria uma variável de confusão que dificultaria atribuir as melhorias ao método de recuperação ou ao modelo de reclassificação.
Metodologia de referência para RAG híbrido
Nossa metodologia de avaliação foi projetada para garantir uma comparação justa, transparente e reproduzível entre os sistemas de recuperação exclusivamente densos e os sistemas híbridos.
Configuração de teste e conjunto de dados
- Corpus de conhecimento: Utilizamos um conjunto de dados com 494.094 avaliações reais de usuários, provenientes do conjunto de dados de Avaliações de Clientes da Amazon (categoria Saúde e Cuidados Pessoais). 1 .
- Banco de dados de vetores: Utilizamos o Qdrant para hospedar duas coleções separadas.
- A coleção densa armazenou apenas OpenAI vetores.
- A coleção híbrida utilizou o recurso de "vetores nomeados" do Qdrant para armazenar um vetor denso (dense) e um vetor esparso (text-sparse) para cada documento.
- Métrica de similaridade: A similaridade de cosseno foi usada para todas as buscas de vetores densos.
Consultas de teste: Processo de seleção
Criamos um conjunto de testes de alta qualidade com 100 perguntas por meio de um processo de três etapas, baseado em código, para evitar avaliações anedóticas ou tendenciosas:
- Pré-processamento: Limpamos programaticamente os dados brutos do Amazon Q&A. 2 Filtramos perguntas sem sentido ou de baixa qualidade. Estabelecemos uma resposta "verdadeira" para cada pergunta, selecionando a resposta com o maior número de votos de "útil" dos usuários.
- Classificação de dificuldade: Aplicamos um script baseado em regras para pontuar e classificar todas as perguntas por nível de dificuldade. Perguntas que continham linguagem comparativa (“diferença entre”, “versus”, “melhor que”) ou que solicitavam opiniões (“experiência com”) foram consideradas mais difíceis do que perguntas factuais simples (“quais são as dimensões”).
- Seleção final: Selecionamos manualmente o conjunto final de 100 questões de referência da categoria "difícil". Isso garante que estamos testando os limites de cada sistema de recuperação, onde as diferenças de desempenho são mais evidentes.
Métricas de avaliação
- Recall@5 (Taxa de acerto): Essa métrica aborda uma questão básica: "O sistema encontrou a informação correta?" Ela mede a porcentagem de consultas para as quais a resposta correta apareceu entre os 5 primeiros resultados da busca. Uma alta pontuação de Recall@5 indica um sistema eficaz que consegue apresentar informações relevantes.
- MRR (Classificação Recíproca Média): Esta é uma métrica sensível à classificação que responde à pergunta: "Com que rapidez o usuário encontrou a informação correta?". Ela recompensa fortemente a classificação da resposta correta em primeiro lugar (uma pontuação de 1,0), com pontuações decrescentes para classificações inferiores (0,5 para o 2º lugar, 0,33 para o 3º lugar, etc.). Um MRR alto é crucial para a experiência do usuário, pois significa que o resultado mais preciso é exibido no topo.
Medição de latência
Para fornecer uma análise de desempenho completa, medimos a latência de consulta de ponta a ponta tanto para o sistema exclusivamente denso quanto para o sistema híbrido. Essa medição é crucial para entender o custo real dos ganhos de precisão proporcionados pela abordagem híbrida.
O processo foi implementado em nossos scripts de avaliação em Python usando a função de alta precisão time.perf_counter(). Para cada uma das 100 consultas de teste, medimos o tempo total decorrido desde o momento em que uma consulta foi submetida à função de recuperação até o retorno da lista final de documentos classificados.
Para o sistema híbrido, realizamos uma análise mais detalhada, cronometrando suas três etapas distintas de forma independente:
- Geração de vetores : O tempo total necessário para gerar tanto o vetor denso (por meio de uma chamada de API para OpenAI) quanto o vetor esparso (por meio de inferência de modelo SPLADE local).
- Operações de busca : O tempo necessário para executar duas consultas de busca separadas no banco de dados de vetores Qdrant, uma para o vetor denso e outra para o vetor esparso.
- Fusão (RRF) : O tempo computacional necessário para o algoritmo de Fusão de Classificação Recíproca mesclar os dois conjuntos de resultados e produzir a lista final reclassificada.
Os valores finais de latência apresentados em nossos resultados representam a média aritmética dos tempos registrados em todas as 100 consultas de teste, convertidos para milissegundos (ms) para maior clareza. Essa abordagem garante que nossas métricas de latência sejam robustas e representativas da experiência média do usuário.
Limitações e âmbito de aplicação
Nossa análise comparativa se concentra especificamente no domínio da saúde e cuidados pessoais, utilizando dados de avaliações da Amazon. Os padrões de desempenho podem variar em outros domínios com características linguísticas distintas ou requisitos de terminologia técnica específicos.
A avaliação utilizou granularidade ao nível do documento, tratando cada avaliação como um vetor único. Os resultados podem variar dependendo da estratégia de segmentação ou da abordagem de recuperação detalhada utilizada.
Leitura complementar
Explore outros benchmarks RAG, como:
Conclusão
Este teste comparativo confirma que um sistema de recuperação híbrido bem ajustado oferece uma vantagem de desempenho significativa em relação a uma abordagem exclusivamente densa para consultas complexas do mundo real. Ao combinar de forma inteligente a busca semântica e lexical, o modelo híbrido melhora a precisão da classificação, gerando resultados mais precisos e com melhor classificação.
Os principais pontos a destacar da nossa análise comparativa incluem:
- O sistema híbrido supera o sistema exclusivamente denso: o sistema híbrido otimizado alcançou um aumento de 7,2% no Recall@5 e um aumento substancial de 18,5% no MRR, comprovando sua capacidade superior de encontrar e classificar corretamente a melhor resposta.
- O ajuste fino é imprescindível: simplesmente combinar buscas densas e esparsas não é suficiente. Nosso sistema híbrido inicial, sem ajustes, apresentou desempenho inferior ao sistema de referência que utilizava apenas buscas densas. A otimização estratégica dos parâmetros de fusão foi essencial para os ganhos de desempenho.
- A precisão tem um custo: a maior precisão do sistema híbrido introduziu um aumento de latência de aproximadamente 201 ms (24,5%) por consulta. Essa compensação é uma consideração crítica para os projetistas de sistemas, que precisam equilibrar a necessidade de precisão com os requisitos de desempenho em tempo real.
Perguntas frequentes
O RAG permite que um modelo generativo, como um Modelo de Linguagem Amplo (LLM), gere respostas com base em dados externos, em vez de depender exclusivamente de seus dados de treinamento internos. Isso melhora a precisão factual, fundamentando as respostas em informações recuperadas.
No entanto, nem todos os dados são iguais. Algumas consultas exigem compreensão semântica, enquanto outras dependem de correspondência precisa de palavras-chave, especialmente ao lidar com consultas estruturadas ou entidades extraídas de informações complexas. É por isso que a geração aumentada de recuperação híbrida (Hybrid RAG) é essencial. Ela combina busca semântica densa com busca lexical esparsa, fornecendo relevância contextual e precisão de palavras-chave. Essa natureza híbrida garante que o sistema recupere contexto tanto de dados textuais estruturados quanto não estruturados, fornecendo respostas mais precisas.
A implementação atual concentra-se em dados textuais não estruturados, como avaliações de produtos, que frequentemente contêm opiniões matizadas, detalhes técnicos e padrões linguísticos variados. O sistema utiliza múltiplas técnicas de recuperação para garantir a captura tanto do significado quanto dos termos exatos.
Olhando para o futuro, o Hybrid RAG poderia ser expandido para incluir informações estruturadas e dados em grafo, permitindo responder a consultas mais complexas ao integrar fatos de grafos de conhecimento com o sentimento ou contexto das avaliações. Isso resultaria em um contexto unificado que conecta dados brutos, documentos estruturados e conteúdo narrativo, possibilitando um contexto mais rico durante a geração de respostas.
Quando um usuário submete uma consulta, o sistema ativa dois componentes de recuperação paralelos: um recuperador denso (semântico) e um recuperador esparso (lexical). O modelo denso captura significados e relações amplas, enquanto o modelo esparso baseado em SPLADE se concentra em termos-chave.
Esses dois conjuntos de resultados são fundidos usando a Fusão de Classificação Recíproca (RRF), que resolve a incompatibilidade de pontuação entre diferentes métodos de recuperação. Essa abordagem híbrida permite que o sistema recupere múltiplos documentos que satisfazem diferentes partes de uma consulta, melhorando sua capacidade de gerar respostas coerentes com base no contexto mais relevante e abrangente disponível.
Sim, a abordagem híbrida exige mais recursos. Ela requer mais recursos computacionais devido à geração de vetores duplos, operações de busca duplas e lógica de fusão. Isso significa tempos de processamento de consultas mais longos e a necessidade de infraestrutura adicional para lidar com grandes volumes de dados.
Apesar disso, os ganhos de desempenho, especialmente em Classificação Recíproca Média (MRR) e Recall@5, tornam essa uma troca vantajosa para aplicações onde a precisão factual e a completude são importantes. Quando comparado em um benchmark rigoroso, o método híbrido recuperou consistentemente informações mais contextualmente apropriadas e precisas do que os sistemas exclusivamente densos.
Ao contrário das técnicas RAG tradicionais que dependem exclusivamente de embeddings densos, o RAG Híbrido utiliza múltiplos métodos de recuperação para maximizar a qualidade das respostas. Ele suporta um espectro mais amplo de tipos de consulta, desde vagas até altamente específicas, graças ao seu design de recuperação dupla.
Sua natureza híbrida o torna especialmente poderoso em casos de uso onde múltiplas restrições precisam ser atendidas, como combinar informações estruturadas (por exemplo, "sem parabenos") com intenções mais amplas (por exemplo, "desodorante natural"). Esta análise comparativa demonstra que o RAG Híbrido oferece uma resposta mais equilibrada e adaptativa, baseada tanto em sinais densos quanto esparsos.
Sim, as direções futuras do Hybrid RAG incluem a incorporação de grafos de conhecimento e dados estruturados juntamente com texto. Ao fazer isso, ele pode responder a consultas estruturadas e fornecer respostas que sintetizam relacionamentos baseados em grafos (como categorias de produtos ou interações de ingredientes) com avaliações de usuários em formato livre.
Isso permitiria que o sistema gerasse respostas fundamentadas tanto em estruturas factuais precisas quanto em narrativas humanas repletas de nuances, melhorando tanto a precisão factual quanto a satisfação do usuário.
Como o Hybrid RAG realiza dois tipos de recuperação e, em seguida, funde os resultados, ele naturalmente utiliza mais recursos computacionais. A geração de vetores, especialmente ao gerar embeddings densos e esparsos, representa mais de 90% da latência total. Comparado a uma abordagem somente densa, isso aumenta a latência (aproximadamente 201 ms por consulta em nosso benchmark).
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.