Avaliamos 10 modelos de incorporação multilíngue em aproximadamente 606 mil avaliações da Amazon em 6 idiomas (alemão, inglês, espanhol, francês, japonês e chinês). Geramos 1.800 consultas (300 por idioma), cada uma referenciando detalhes concretos da avaliação original.
Modelos treinados para busca (separação entre consulta e documento) superam modelos maiores treinados para similaridade geral de texto: o e5_base (110 milhões de parâmetros) supera modelos com 5 a 70 vezes mais parâmetros, enquanto o LaBSE (471 milhões de parâmetros), um modelo multilíngue amplamente citado, fica em penúltimo lugar.
Precisão de recuperação multilíngue
O indicador Top-1 mede se a avaliação correta é o primeiro resultado retornado; o indicador Top-10 mede se ela aparece entre os dez primeiros resultados.
Precisão Top-1
Precisão entre os 3 melhores
Precisão entre os 5 melhores
Precisão entre os 10 melhores
Explicação das métricas
- Precisão Top-K: Indica se o documento correto (por correspondência exata do product_id) aparece nos primeiros K resultados. "O modelo consegue encontrar a avaliação correta em alemão ao responder a uma pergunta em alemão entre aproximadamente 130 mil avaliações em alemão?"
- Top-1/3/5/10: Valores K testados. Top-1 é o mais rigoroso (o documento correto deve ser o primeiro resultado), Top-10 é o mais flexível.
Para entender detalhadamente nossa avaliação e métricas, consulte nossa configuração de avaliação e metodologia de benchmark para modelos de incorporação multilíngue.
Corpus : ~606 mil avaliações (comprimento mínimo da avaliação ≥ 100 caracteres; ZH: ~17,7 mil, DE/EN/ES/FR/JA: ~120–145 mil cada), sem fallback para similaridade de cosseno, apenas correspondência exata de product_id. Avaliado em NVIDIA H100 PCIe 80GB.
Latência e taxa de transferência
A latência determina se um modelo é viável para produção. Modelos com latência inferior a 15 ms podem suportar buscas em tempo real; acima de 25 ms, o processamento em lote ou o armazenamento em cache são necessários.
Principais conclusões
1. e5_base lidera em todos os idiomas
O modelo e5_base alcança uma média de 16,5% de acertos no Top-1 em 6 idiomas, superando o segundo colocado (e5_small) em 3,8 pontos percentuais. Seu treinamento assimétrico de prefixos de consulta/passagem produz embeddings precisos que discriminam bem entre avaliações semanticamente semelhantes no mesmo idioma.
2. Os modelos baseados em LLM são competitivos apesar de seu tamanho.
Os modelos qwen3_emb_06b (600 milhões de parâmetros) e llama_embed_nemotron_8b (8 bilhões de parâmetros) alcançam precisão monolíngue superior a 10%. Seu extenso pré-treinamento multilíngue parece construir representações que o ajuste fino de recuperação não consegue apagar completamente, mantendo-se competitivos com modelos que possuem uma fração de seus parâmetros. O modelo nemotron atinge 25,8% no Top-10, o terceiro melhor resultado geral.
3. O nomic_embed_v1_5 falha em idiomas CJK.
O modelo Nomic atinge 0% de precisão em chinês e apenas 4% em japonês, sendo o único modelo a falhar completamente em idiomas inteiros. Seu treinamento centrado no inglês, combinado com a assimetria de prefixos entre consulta e documento de busca, cria lacunas significativas de cobertura para idiomas não europeus, apesar de funcionar bem para inglês (17% de acerto no Top-1) e alemão (9%).
4. O LaBSE falha na recuperação de dados, apesar de sua reputação.
O LaBSE foi explicitamente projetado para similaridade semântica multilíngue e é amplamente citado na literatura. Neste teste comparativo, ele ocupa a penúltima posição (4,8% entre os primeiros colocados). Seu treinamento com pares de traduções e inferência de linguagem natural não gerou a precisão discriminativa necessária para a recuperação: distinguir a resenha original exata de centenas de produtos semanticamente semelhantes no mesmo idioma.
5. O escalonamento Top-10 beneficia todos os modelos, mas especialmente os mais robustos.
A transição do Top-1 para o Top-10 dobra a taxa de recall em todos os aspectos. O nemotron apresenta a melhor média monolíngue no Top-10 (25,8%), apesar de estar em 3º lugar no Top-1 (12,0%), sugerindo que seu espaço de 4096 dimensões possui uma boa estrutura de vizinhos mais próximos em valores maiores de K.
6. Espanhol e francês apresentam desempenho consistentemente inferior.
Em todos os modelos, o espanhol (ES) e o francês (FR) apresentam classificações consistentemente inferiores às do alemão (DE), inglês (EN), japonês (JA) e zimbabuano (ZH). Esse padrão se mantém mesmo para modelos com treinamento multilíngue explícito, sugerindo menor representatividade nos corpora de pré-treinamento ou incompatibilidade de domínio para avaliações de produtos.
Como funcionam os embeddings multilíngues
Um modelo de incorporação converte o texto em um vetor de alta dimensão (por exemplo, 384 ou 768 números) que captura o significado do texto em vez de palavras específicas. Dois textos semanticamente semelhantes devem ter vetores próximos nesse espaço, independentemente do idioma.
Um modelo de incorporação multilíngue lida com vários idiomas no mesmo espaço vetorial. Quando usado para recuperação de informações, o modelo deve encontrar o documento correto entre dezenas de milhares de avaliações no mesmo idioma, que frequentemente discutem produtos e tópicos semelhantes. O desafio reside na precisão discriminativa: distinguir a avaliação original exata de centenas de outras semanticamente similares na mesma categoria.
Configuração de avaliação multilíngue
Aproximadamente 606 mil avaliações de produtos estão indexadas no Qdrant (apenas avaliações com corpo de texto de ≥100 caracteres; ZH: ~17,7 mil, outros idiomas: ~120–145 mil cada). 1.800 consultas (300 por idioma) são geradas nativamente pelo LLM a partir de avaliações que atendem ao mesmo limite de comprimento. Cada consulta deve referenciar detalhes concretos da avaliação original (medidas, quantidades, marcas, cronogramas); perguntas genéricas são filtradas por meio de uma pontuação de especificidade. Dada uma consulta no idioma X, a tarefa é encontrar a avaliação original entre as avaliações no mesmo idioma. O Qdrant filtra os resultados por idioma. A precisão é medida pela correspondência exata do product_id nos resultados Top-1/3/5/10, sem fallback para similaridade de cosseno.
Exemplos de consultas do benchmark:
Alemão (eletrônica, OPINIÃO):
Francês (farmácia, USO):
Espanhol (suprimentos_industriais, FATO):
O modelo deve associar cada consulta à sua respectiva avaliação original por meio do `product_id`. Uma consulta sobre perda de sinal Wi-Fi devido a um cabo de antena pode corresponder semanticamente a milhares de avaliações de eletrônicos que discutem problemas de conectividade; apenas uma descreve a queda do sinal de 60% para 20% após a instalação desse cabo específico.
Análise técnica e recomendações
Modelos simétricos versus assimétricos
O objetivo do treinamento prevê, em grande parte, o desempenho da recuperação da informação:
Por que os modelos assimétricos têm melhor desempenho: O prefixo de consulta/passagem treina o modelo para incorporar consultas e documentos em regiões sistematicamente diferentes do espaço, criando uma geometria específica para recuperação. Isso produz incorporações mais discriminativas que separam documentos semanticamente semelhantes, mas distintos. O e5_base atinge esse resultado com 110 milhões de parâmetros porque o objetivo do treinamento, e não a capacidade do modelo, determina a precisão da recuperação.
Por que os modelos baseados em LLM são competitivos: O pré-treinamento multilíngue massivo constrói uma rica estrutura semântica nos pesos do modelo. O ajuste fino de recuperação adiciona alinhamento específico da tarefa a essa compreensão profunda da linguagem, resultando em desempenho competitivo. A desvantagem é a latência: os vetores de 4096 dimensões do nemotron custam 25 ms por consulta, contra 11 ms do e5_base.
Por que o LaBSE falha apesar de sua reputação: o LaBSE foi treinado com pares de traduções para aproximar o significado em nível de sentença entre idiomas, uma tarefa de similaridade. A recuperação de conteúdo é fundamentalmente diferente: ela exige distinguir a resenha original exata de centenas de produtos semanticamente semelhantes no mesmo idioma. O treinamento de similaridade otimiza a proximidade semântica em um nível mais amplo; a recuperação de conteúdo exige uma discriminação precisa entre textos quase idênticos.
Qual modelo você deve usar?
Melhor precisão: e5_base (16,5% Top-1, latência de 11 ms). Use com um filtro de idioma.
Melhor relação latência/precisão: e5_small (12,7% Top-1, 9,7ms), quase tão rápido quanto minilm com melhor precisão.
Melhor resultado entre os 10 primeiros: nemotron (25,8% entre os 10 primeiros) se você puder arcar com a latência de 25ms e a memória da GPU para vetores de 4096 dimensões.
Para sistemas de produção sensíveis à latência: e5_small ou minilm em ~10ms. O e5_small é fortemente preferido (12,7% vs 3,8%).
Use sempre um filtro de idioma quando souber que os idiomas da consulta e do documento correspondem. Todos os modelos apresentam ganhos significativos de precisão com a pesquisa filtrada por idioma.
Metodologia de modelos de incorporação multilíngue
- GPU: NVIDIA H100 PCIe 80GB via Runpod
- Banco de dados de vetores: Qdrant 1.12.0 (binário local)
- Biblioteca de incorporação: sentence-transformers 5.2.2
- Geração de consulta: Claude Sonnet 4.6 via OpenRouter. Cada pergunta deve fazer referência a detalhes específicos da revisão de origem; perguntas genéricas (pontuação de especificidade < 4/5) são filtradas.
- Conjunto de dados: Avaliações da Amazon (Kaggle) 1 , train.csv. ~606 mil avaliações indexadas (mínimo de 100 caracteres; ZH: ~17,7 mil, outras: ~120-145 mil cada). 6 idiomas: DE, EN, ES, FR, JA, ZH.
- Consultas: 1.800 no total (300 por idioma, 5 tipos de perguntas, geradas nativamente em cada idioma).
- Formato do documento:
"Review Title: {title}\nReview: {body}" - Verdade fundamental: correspondência exata do product_id apenas. Sem recurso de similaridade de cosseno.
- Busca: Busca vetorial Qdrant com distância cosseno. Top-K = 10. Filtro de idioma aplicado para avaliação monolíngue.
- Incorporação: Normalização L2. Prefixos assimétricos quando aplicável:
"query: "/"passage: "(e5),"search_query: "/"search_document: "(nomic). - Sem ajustes finos: Todos os modelos foram avaliados com zero-shot e pesos padrão.
- Latência: Inferência de incorporação apenas (consulta única). Não inclui o tempo de busca do vetor.
Modelos Avaliados
Por que as pontuações são inferiores às do BEIR/MTEB?
Os valores de precisão absoluta neste benchmark não devem ser comparados diretamente com as pontuações relatadas no BEIR ou no MTEB. Os dois benchmarks diferem em vários aspectos estruturais:
A métrica de correspondência exata é a maior diferença estrutural. Cada consulta faz referência a detalhes concretos da avaliação original (por exemplo, "Quantas horas a impressora 3D levou para imprimir o arquivo do gato a partir do cartão SD?"), portanto, cada consulta tem um alvo único e claro, mas a métrica ainda atribui zero para uma avaliação semanticamente relevante de um produto diferente. Métricas de crédito parcial, como nDCG, produziriam números mais altos nos mesmos resultados de recuperação. O que importa neste benchmark é a classificação relativa entre os modelos , não os números absolutos.
Limitações
- Os tipos de perguntas podem não representar as consultas reais dos usuários. As perguntas geradas pelo LLM tendem a ser bem formuladas e específicas. Usuários reais frequentemente escrevem consultas fragmentadas ou ambíguas.
- Apenas a recuperação densa foi testada. Métodos esparsos (BM25), recuperação híbrida e pipelines de reclassificação não foram avaliados. Estes podem alterar significativamente a classificação entre os modelos.
- 300 consultas por idioma representam uma amostra moderada. Os resultados por idioma apresentam intervalos de confiança razoavelmente estreitos, mas as classificações próximas ao meio da tabela ainda devem ser interpretadas com cautela.
- Não há avaliação da qualidade do embedding além da recuperação. A qualidade do agrupamento, a precisão da similaridade semântica e outras tarefas subsequentes não são medidas.
Conclusão
Modelos treinados para busca (com embeddings separados para consulta e documento) consistentemente superam modelos treinados para similaridade textual geral, independentemente do tamanho. O e5_base (110 milhões de parâmetros) supera modelos de 5 a 70 vezes maiores. O LaBSE (471 milhões de parâmetros), amplamente citado para tarefas multilíngues, fica em penúltimo lugar porque seu treinamento de similaridade não constrói a discriminação refinada que a recuperação exige.
Os modelos baseados em LLM (qwen3 com 600 milhões de parâmetros, nemotron com 8 bilhões de parâmetros) alcançam precisão competitiva graças ao pré-treinamento multilíngue profundo, mas pagam esse preço em latência: o nemotron custa 25 ms por consulta contra 11 ms do e5_base, com uma recuperação Top-10 apenas marginalmente melhor. Para a maioria dos sistemas de produção, os modelos menores, treinados especificamente para busca, oferecem uma melhor relação custo-benefício.
Para profissionais que desenvolvem sistemas RAG multilíngues, o e5_base com filtro de idioma é a escolha óbvia (16,5% de classificação Top-1, latência de 11 ms e uma diferença de 3,8 pontos percentuais em relação ao segundo colocado).
Leitura complementar
Explore outros benchmarks RAG, como:
- Modelos de incorporação: OpenAI vs Gemini vs Cohere
- Os 16 principais modelos de incorporação de código aberto para RAG
- Principais bases de dados vetoriais para RAG: Qdrant vs Weaviate vs Pinecone
- Benchmark RAG agenic: roteamento em múltiplos bancos de dados e geração de consultas
- Modelos de Incorporação Multimodal: Apple vs Meta vs OpenAI
- RAG Híbrido: Aumentando a Precisão do RAG
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.