Benchmarks RAG: Modelos de Incorporação, Bancos de Dados Vetoriais, RAG Agente
O RAG aprimora a confiabilidade do LLM com fontes de dados externas. Avaliamos todo o pipeline do RAG: principais modelos de incorporação, bancos de dados vetoriais de ponta e as estruturas de agentes mais recentes, todos analisados com base em seu desempenho no mundo real.
Explore Benchmarks RAG: Modelos de Incorporação, Bancos de Dados Vetoriais, RAG Agente
Análise comparativa das ferramentas de observabilidade RAG
Comparamos quatro plataformas de observabilidade RAG em um pipeline LangGraph de 7 nós em três dimensões práticas: sobrecarga de latência, esforço de integração e compensações entre plataformas. Métricas de sobrecarga de latência Explicação das métricas: A média é a latência média em 150 chamadas graph.invoke() medidas. As avaliações do LLM-judge são executadas após a parada do temporizador. A mediana é o 50º percentil da latência.
Frameworks RAG: LangChain vs LangGraph vs LlamaIndex
Avaliamos o desempenho de 5 frameworks RAG: LangChain, LangGraph, LlamaIndex, Haystack e DSPy, construindo o mesmo fluxo de trabalho RAG agentivo com componentes padronizados: modelos idênticos (GPT-4.1-mini), embeddings (BGE-small), retriever (Qdrant) e ferramentas (busca na web Tavily). Isso isola a sobrecarga real e a eficiência de tokens de cada framework. Resultados da avaliação comparativa dos frameworks RAG.
Modelos de Incorporação Multimodal: Apple vs Meta vs OpenAI
Os modelos de incorporação multimodal são excelentes na identificação de objetos, mas têm dificuldades com relacionamentos. Os modelos atuais têm dificuldade em distinguir "telefone em um mapa" de "mapa em um telefone". Comparamos 7 dos principais modelos do MS-COCO e do Winoground para medir essa limitação específica. Para garantir uma comparação justa, avaliamos cada modelo sob condições idênticas usando hardware A40 e precisão bfloat16.
Análise comparativa do Reranker: Comparação dos 8 melhores modelos
Avaliamos 8 modelos de reclassificação em aproximadamente 145 mil avaliações em inglês da Amazon para medir o quanto uma etapa de reclassificação melhora a recuperação densa. Recuperamos os 100 melhores candidatos com o multilingual-e5-base, reclassificamos esses candidatos com cada modelo e avaliamos os 10 melhores resultados em relação a 300 consultas, cada uma referenciando detalhes concretos da avaliação original.
RAG Híbrido: Aumentando a Precisão RAG
Dense vector search is excellent at capturing semantic intent, but it often struggles with queries that demand high keyword accuracy. To quantify this gap, we benchmarked a standard dense-only retriever against a hybrid RAG system that incorporates SPLADE sparse vectors.
Modelos de incorporação: OpenAI vs Gemini vs Cohere
A eficácia de qualquer sistema de Geração Aumentada por Recuperação (RAG) depende da precisão de seu recuperador. Avaliamos 11 modelos líderes de incorporação de texto, incluindo os de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, usando aproximadamente 500.000 avaliações da Amazon. Avaliamos a capacidade de cada modelo de recuperar e classificar a resposta correta em primeiro lugar.
Benchmark de modelos de incorporação de código aberto para RAG
Comparamos 14 modelos de incorporação de código aberto, hospedados em um único H100, em mais de 500 consultas de recuperação de informações selecionadas manualmente, abrangendo contratos legais, notas técnicas de suporte ao cliente e resumos médicos. O modelo NVIDIA Llama-Embed-Nemotron-8B apresentou o melhor desempenho em precisão. Em termos de custo, o modelo Google EmbeddingGemma-300m é aproximadamente 4 vezes mais barato que o Nemotron, com uma pequena perda de precisão.
Os 10 principais modelos de incorporação multilíngue para RAG
Avaliamos o desempenho de 10 modelos de incorporação multilíngues em aproximadamente 606 mil avaliações da Amazon em 6 idiomas (alemão, inglês, espanhol, francês, japonês e chinês). Geramos 1.800 consultas (300 por idioma), cada uma referenciando detalhes concretos da avaliação original.
Comparação entre Graph RAG e Vector RAG
O Vector RAG recupera documentos por similaridade semântica. O Graph RAG adiciona um grafo de conhecimento sobre essa camada, extrai entidades e relacionamentos dos seus documentos, armazena-os em um banco de dados de grafos e utiliza a busca vetorial em conjunto com a busca vetorial no momento da consulta. Testamos se essa camada extra melhora a recuperação e a precisão das respostas em 3.
Ferramentas de avaliação RAG: Weights & Biases vs Ragas vs DeepEval
Quando um pipeline RAG recupera o contexto errado, o LLM gera, com segurança, a resposta errada. Os avaliadores de relevância contextual são a principal defesa. Avaliamos cinco ferramentas em 1.460 questões e mais de 14.600 contextos avaliados sob condições idênticas: mesmo modelo de avaliação (GPT-4o), configurações padrão e sem prompts personalizados.