Contate-nos
Nenhum resultado encontrado.

Modelos de incorporação: OpenAI vs Gemini vs Cohere

Ekrem Sarı
Ekrem Sarı
atualizado em Abr 25, 2026
Veja o nosso normas éticas

A eficácia de qualquer sistema de Geração Aumentada por Recuperação (RAG) depende da precisão de seu recuperador.

Avaliamos 11 modelos líderes de incorporação de texto, incluindo os de OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral e Voyage AI, usando aproximadamente 500.000 avaliações da Amazon. Avaliamos a capacidade de cada modelo em recuperar e classificar a resposta correta em primeiro lugar.

Comparação de modelos de incorporação: Precisão vs. preço

Loading Chart

A medida mais crítica do sucesso de um modelo de incorporação é sua precisão em encontrar e classificar o único documento correto em primeiro lugar. Quantificamos isso usando nossa "pontuação de precisão" e a comparamos com o preço de cada modelo. Para entender nossa abordagem de avaliação em detalhes, consulte nossa metodologia de benchmark de modelos de incorporação .

O gráfico de dispersão ilustra que modelos mais caros não necessariamente alcançam maior precisão. Os modelos com melhor desempenho oferecem o melhor equilíbrio entre precisão e custo.

  • Melhor precisão geral: o mistral-embed alcançou a maior precisão (77,8%), tornando-o ideal para cenários que priorizam a precisão da recuperação, mesmo a um custo moderado.
  • Desempenho intermediário: O Voyage-4 oferece precisão (68,6%) a um custo competitivo (US$ 0,06), proporcionando um bom equilíbrio entre desempenho e preço.
  • Opções de custo moderado : Snowflake (Funções de IA do Cortex) snowflake-arctic-embed-l-v2.0 (66,6%) oferece bom desempenho de precisão a um custo moderado.
  • Alternativa de preço mais elevado: a solução gemini-embedding-001 do modelo Google (API Vertex AI) alcançou uma precisão maior (71,5%), porém com o preço mais alto, o que limita sua atratividade em projetos com restrições orçamentárias.
  • Modelos caros com desempenho inferior: Marcas líderes do setor, como os modelos OpenAI e Cohere embed-v4.0, apresentaram menor precisão em comparação com alternativas similares ou de preço inferior.

Para entender como calculamos a pontuação, consulte nossa metodologia de precisão .

Um modelo precisa compreender o significado geral e a relevância de uma consulta. A "Pontuação de Relevância" (similaridade média da consulta) mede o quão semanticamente alinhados os 5 principais documentos recuperados estão com a consulta do usuário.

Para entender como calculamos a pontuação, consulte nossa metodologia de relevância .

  • Líderes consistentes: Os melhores desempenhos em precisão, como mistral-embed e Google (API da Vertex AI), também lideram em relevância, indicando uma compreensão semântica robusta e abrangente.
  • A “armadilha da relevância”: Uma descoberta interessante é que alguns modelos são bons em encontrar documentos semanticamente relacionados, mas não necessariamente os corretos. Por exemplo, o modelo OpenAI obteve uma pontuação de relevância respeitável (48,6%), mas teve uma das pontuações de precisão mais baixas (39,2%). Isso indica que ele identifica a área de informação geral, mas tem dificuldade em apontar respostas específicas.

Uma alta pontuação de relevância é uma condição necessária, mas não suficiente, para um recuperador de alto nível. Os melhores modelos se destacam tanto na compreensão ampla do tópico quanto na identificação da resposta correta com alta precisão.

calculadora de preços de modelos de incorporação

Para ajudar você a traduzir nossas descobertas em um orçamento prático para o seu projeto, use a calculadora interativa abaixo para estimar os custos de incorporação com base no número de tokens em seu conjunto de dados.

Observação : O preço do Snowflake varia conforme a edição e a região. Nossa análise comparativa foi realizada utilizando a Edição Padrão do Snowflake (US$ 0,10 por milhão de tokens). Preços para as demais edições: Enterprise (US$ 0,15), Business Critical (US$ 0,20).

Compreender as principais características do modelo de incorporação

É crucial compreender os principais atributos técnicos que definem as capacidades e os requisitos de recursos de um modelo de incorporação.

  • Dimensões de incorporação: Tamanho do vetor produzido pelo modelo. As dimensões listadas em nossa tabela representam o tamanho padrão ou ideal recomendado pelo provedor para uso geral. Dimensões maiores (por exemplo, 3072 para OpenAI e 3072 para text-embedding-3-large) capturam mais nuances semânticas, mas exigem significativamente mais recursos de armazenamento e computação. Dimensões menores (por exemplo, 768 para Google) são mais eficientes. Nossos resultados demonstram que dimensões maiores não melhoram automaticamente a precisão da recuperação.
  • Tokens máximos: Comprimento máximo da sequência de texto processável em uma única passagem. Uma janela de contexto maior é vantajosa para incorporar documentos longos sem fragmentação. Embora nossa abordagem em nível de documento se encaixe nos limites de todos os modelos, esse atributo torna-se crucial ao implementar estratégias de fragmentação refinadas com grandes segmentos de texto.

Possíveis razões para as diferenças de desempenho do modelo de incorporação

1. Abordagem arquitetônica central

As escolhas fundamentais de design afetam o raciocínio inerente e as capacidades semânticas do modelo, seja ele um decodificador baseado em LLM ou um codificador tradicional como o BERT.

  • Foi confirmado que o Mistral (mistral-embed) deriva da arquitetura LLM, e não de um codificador BERT padrão.
    • Compreensão semântica profunda: Ao contrário de modelos mais antigos que mapeiam palavras-chave, a arquitetura LLM entende inerentemente o "seguimento de instruções". Isso permite analisar a lógica complexa da consulta (restrições) e lidar com a sintaxe informal/ruidosa das avaliações da Amazon.
  • Snowflake (Arctic-embed) é baseado em fundamentos de codificadores de código aberto padrão, ajustados em pares de recuperação massivos.
    • Base sólida: Uma arquitetura tradicional otimizada para buscas. Ela não possui o raciocínio profundo de um LLM, mas oferece desempenho consistente e previsível para buscas padrão.

2. Dados de treinamento e estratégia de ajuste fino

Os métodos especializados utilizados durante o treinamento (por exemplo, Mineração de Negativos Difíceis ou Aprendizado Contrastivo) impactam diretamente a capacidade do modelo de lidar com nuances e distinguir entre conceitos semelhantes.

  • Voyage AI (voyage-4/3.5/3) foi construído por pesquisadores de Stanford especializados em RAG; os dados de treinamento incluem explicitamente negativos "complicados" (A vs não-A).
    • Consciência de restrições: O modelo é matematicamente ajustado para afastar itens "semelhantes, mas incorretos" (como Natural vs. Sem Alumínio) no espaço vetorial, evitando a "Armadilha da Relevância".
  • Cohere (embed-v4.0) é especializado em maximizar a distância entre pares distintos; frequentemente projetado para funcionar em conjunto com um Reranker.
    • Desvio/foco: Os modelos contrastivos geralmente exigem uma segunda etapa de "Reclassificação" para lidar com o ruído. Por si só (em uma única passagem), ele tem dificuldades para mapear a sintaxe "ruidosa" das avaliações para a sintaxe formal das consultas, em comparação com os embeddings mais recentes baseados em LLM.

3. Estratégia de representação vetorial

A abordagem de OpenAI para a criação de representações vetoriais flexíveis introduz um equilíbrio entre a flexibilidade do comprimento do vetor e a retenção de detalhes semânticos.

  • OpenAI (text-embedding-3) , também conhecido como aprendizado de representação Matryoshka, permite o truncamento de vetores e carrega informações gerais na frente.
    • A compensação da compressão: o aprendizado Matryoshka força o modelo a comprimir as "nuances" para garantir que o vetor seja flexível. Ele captura o tópico geral (relevância) de forma eficaz, mas perde os detalhes específicos (precisão) necessários para restrições rígidas, resultando em uma classificação com desempenho inferior.

Metodologia de referência para modelos de incorporação

Nosso benchmark fornece uma avaliação justa, transparente e reproduzível do desempenho do modelo de incorporação para RAG .

Configuração de teste e conjunto de dados

  • Corpus de conhecimento: Utilizamos um conjunto de dados com 494.094 avaliações reais de usuários, provenientes do conjunto de dados de avaliações da Amazon, como base de conhecimento. 1
  • Banco de dados de vetores : Utilizamos o Qdrant para hospedar todas as coleções de vetores, que foram explicitamente configuradas para busca de similaridade de cosseno.
  • Perguntas de teste: Selecionamos manualmente um conjunto de 100 perguntas desafiadoras e do mundo real a partir de um conjunto de dados externo de perguntas e respostas da Amazon. 2 Essas perguntas foram selecionadas para testar o raciocínio sofisticado, e cada uma tinha uma “melhor resposta” votada pelo usuário para servir como nossa verdade fundamental. Para ilustrar a natureza dessas perguntas, o conjunto de testes incluiu questões complexas com múltiplas restrições, como:
    • Existe algum antitranspirante natural da A&H que contenha uma alternativa segura ao alumínio e aos parabenos?
    • Esse tipo de consulta é particularmente desafiador, pois exige que o modelo entenda várias restrições simultaneamente (Marca: A&H; Atributo: natural; Restrição negativa : sem alumínio/parabeno) e o conceito abstrato de encontrar uma “alternativa”.

Princípios básicos de avaliação

  • Coleções isoladas e dimensões nativas: Para cada modelo, incorporamos todo o corpus em uma coleção isolada e dedicada. Em conformidade com benchmarks padrão como o MTEB, avaliamos cada modelo usando suas dimensões de incorporação nativas e otimizadas. 3
  • Granularidade de recuperação: Realizamos este teste comparativo na granularidade do documento. Tratamos cada avaliação do usuário como um documento individual e a convertemos em um único vetor. Não foi aplicada nenhuma segmentação mais detalhada.
  • Avaliação sem exemplos (zero-shot): O teste foi conduzido em um ambiente "sem exemplos" (zero-shot). Isso significa que os modelos foram avaliados em um conjunto de dados específico que não haviam sido vistos durante o treinamento original. Não ajustamos nem treinamos nenhum modelo em nosso conjunto de dados ou consultas específicas.

Métricas de avaliação: uma abordagem de dois níveis

Utilizamos uma avaliação em dois níveis para distinguir entre relevância semântica ampla e precisão de recuperação. No cerne de ambas as métricas está a similaridade de cosseno, um método padrão para medir a similaridade entre dois vetores no espaço de incorporação.

Métrica 1: A relevância (pontuação de “similaridade média da consulta”)

Essa métrica responde à pergunta: "O modelo entende o tópico geral da consulta?" Ela mede a relevância semântica ampla dos 5 principais documentos recuperados para a consulta do usuário.

Cálculo: Para cada consulta, foram realizados os seguintes passos:

  1. O texto da consulta foi convertido em um vetor usando o modelo que estava sendo testado.
  2. Foi realizada uma busca para recuperar os 5 documentos principais.
  3. Calculamos a similaridade de cosseno entre esses dois vetores resultantes.
  4. A pontuação final da consulta é a média desses cinco valores de similaridade.

Métrica 2: A precisão (pontuação de “similaridade com a verdade fundamental”)

Essa é a nossa principal e mais importante métrica. Ela responde à pergunta: "O modelo consegue encontrar a melhor resposta possível e apresentá-la ao usuário em primeiro lugar?"

Cálculo: Para cada consulta, fizemos uma comparação precisa:

  1. O documento de classificação mais alta retornado pelo mecanismo de recuperação foi identificado.
  2. O texto de resposta "verdade fundamental" predefinido também foi identificado.
  3. Fundamentalmente, tanto o texto do documento de Rank 1 quanto o texto da resposta correta foram convertidos em vetores usando o mesmo modelo que estava sendo avaliado.
  4. Em seguida, calculou-se a similaridade de cosseno entre esses dois vetores resultantes. A similaridade dos documentos classificados de 2 a 5 foi explicitamente ignorada.

Uma pontuação alta nessa métrica mede diretamente a precisão de um modelo e sua capacidade de distinguir as informações mais úteis em um conjunto de documentos semanticamente semelhantes.

Estrutura de medição: Similaridade de cosseno

Nossa avaliação utiliza a similaridade de cosseno, uma métrica robusta para medir a similaridade entre dois vetores.

Em vez de medir a distância física entre vetores, essa métrica calcula o cosseno do ângulo entre eles. Essencialmente, ela mede se os vetores apontam na mesma direção, fornecendo uma medida pura de orientação, não de magnitude. A pontuação resultante varia de 1 a -1.

  • 1: Os vetores são idênticos em orientação (máxima similaridade semântica).
  • 0: Os vetores são ortogonais, indicando que não há relação semântica.
  • -1: Os vetores apontam em direções opostas (significado oposto).

Para nosso benchmark de incorporação, isso nos permite quantificar de forma confiável o quão semanticamente semelhante um documento recuperado é à consulta de um usuário ou a uma resposta verdadeira. Usamos esse cálculo fundamental para construir nossas duas métricas principais.

Limitações dos modelos de incorporação de referência

Embora este parâmetro tenha sido concebido para ser objetivo, é importante reconhecer seu escopo e limitações específicos. Os seguintes fatores devem ser considerados na interpretação dos resultados:

  • Especificidade do domínio: Os resultados são altamente específicos para o conjunto de dados de avaliações da Amazon utilizado. A hierarquia de desempenho desses modelos pode mudar quando aplicada a outros domínios com características linguísticas diferentes, como textos jurídicos, artigos acadêmicos ou código de software. Um modelo que se destaca na compreensão de textos de avaliações informais e baseados em opinião pode não ser a escolha ideal para um corpus que exige compreensão profunda de linguagem técnica ou formal.
  • Granularidade ao nível do documento: Nossa metodologia avaliou os modelos em uma granularidade de "nível de documento", tratando cada revisão completa como um único vetor. Essa abordagem testa a capacidade de um modelo de compreender o contexto geral de um documento. No entanto, ela não mede o desempenho em tarefas de recuperação "detalhistas" que exigiriam a divisão de documentos em partes menores (por exemplo, parágrafos ou frases). O desempenho de um modelo pode variar com uma estratégia de fragmentação diferente.

Leitura complementar

Explore outros benchmarks RAG, como:

Conclusão

Com base em nossa avaliação, o mistral-embed alcançou a maior precisão (77,8%), tornando-se a melhor opção para cenários em que a precisão da recuperação é fundamental, mesmo a um custo moderado.

Para implementações com foco em custos, o Voyage 3.5 Lite surge como a escolha ideal para sistemas RAG de produção, oferecendo um excelente equilíbrio entre precisão e custo, com desempenho sólido (66,1%) a um dos preços mais baixos.

A API gemini-embedding-001 da Vertex AI (Google) oferece outra opção de alta precisão (71,5%), adequada para aplicações em que a precisão é crucial e o preço premium é aceitável.

Para organizações dentro do ecossistema Snowflake, Snowflake (Cortex AI Functions) snowflake-arctic-embed-l-v2.0 oferece precisão competitiva (66,6%) a um custo moderado.

Principais conclusões sobre a seleção do modelo de incorporação:

  • Dimensões maiores não garantem melhor desempenho.
  • Preços premium não estão diretamente relacionados à precisão superior.
  • A avaliação comparativa específica do domínio é essencial para a seleção do modelo de incorporação.

Perguntas frequentes

Os modelos de incorporação (embeddings) oferecem uma maneira de traduzir texto para um formato que as máquinas possam entender. Eles pegam um texto não estruturado e usam uma rede neural para gerar representações vetoriais (embeddings). A saída é um vetor de números que serve como uma representação numérica do significado do texto original. Esse vetor posiciona o texto como um ponto dentro de um conceito matemático de alta dimensionalidade chamado espaço de incorporação, onde textos com significados semelhantes são localizados próximos uns dos outros.

Essa é uma distinção fundamental no processamento de linguagem natural (PLN). Os embeddings de palavras tradicionais criam um único vetor para uma palavra, sem capturar o contexto. Os embeddings de sentenças modernos, usados pelos modelos neste teste, são mais avançados. Eles criam vetores contextualizados para sentenças inteiras, entendendo que o significado de uma palavra muda com base no texto ao redor. Isso permite capturar relações semânticas muito mais sutis.

Modelos pré-treinados são um tipo de modelo de aprendizado de máquina que foi treinado com grandes quantidades de dados textuais gerais. Todos os modelos de incorporação de alta qualidade em nosso benchmark são pré-treinados. Esse treinamento inicial lhes proporciona uma compreensão fundamental da linguagem e das relações semânticas. Nosso teste, então, mede a eficácia com que esse conhecimento pré-treinado lida com os dados complexos do nosso domínio específico, sem a necessidade de dados de treinamento adicionais e personalizados.

Embora nosso benchmark tenha se concentrado no processamento de linguagem natural, os mesmos princípios se aplicam a outros tipos de dados. Modelos especializados de aprendizado de máquina são projetados para lidar com diferentes formas de dados complexos. Por exemplo, modelos de incorporação de imagens são criados usando redes neurais convolucionais para capturar características visuais, enquanto modelos de incorporação de grafos são usados para criar representações numéricas de nós e suas conexões em dados de rede. Essa flexibilidade é o que torna a tecnologia de incorporação tão poderosa para uma ampla gama de sistemas de IA.

A qualidade dos embeddings afeta significativamente a precisão do benchmark. Vários fatores contribuem para a geração de embeddings de alta qualidade: Arquitetura do Modelo: O uso de um modelo de aprendizado de máquina robusto, como um Transformer, é crucial.
Qualidade dos dados: O desempenho do modelo depende muito da qualidade dos dados de treinamento originais e da limpeza dos dados de entrada que ele processa.
Metodologia: Nossa utilização de uma estrutura "zero-shot" em dados complexos garante que estamos testando a verdadeira capacidade do modelo de criar representações robustas e generalizáveis.

O espaço de incorporação é o espaço conceitual multidimensional onde residem todas as representações numéricas (vetores) geradas por um modelo. Nesse espaço, a distância e a direção entre os vetores correspondem às suas relações semânticas. Quando você realiza uma busca, a consulta é convertida em um vetor e inserida nesse mesmo espaço de incorporação. A função do mecanismo de recuperação é encontrar os vetores vizinhos mais próximos, que representam os documentos semanticamente mais semelhantes, tornando-se um pilar fundamental de como os sistemas modernos de IA processam a linguagem natural.

Ekrem Sarı
Ekrem Sarı
Pesquisador de IA
Ekrem é pesquisador de IA na AIMultiple, com foco em automação inteligente, GPUs, agentes de IA e frameworks RAG.
Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450