Comparativa de Reranker: Los 8 mejores modelos comparados

actualizado el Feb 26, 2026

Comparamos 8 modelos de reordenamiento con aproximadamente 145 000 reseñas en inglés de Amazon para medir cuánto mejora la recuperación densa una etapa de reordenamiento. Recuperamos los 100 candidatos principales con multilingual-e5-base, los reordenamos con cada modelo y evaluamos los 10 mejores resultados frente a 300 consultas, cada una haciendo referencia a detalles concretos de su reseña original. El mejor reordenador aumentó Hit@1 del 62,67 % al 83,00 % (+20,33 pp).

Resultados de referencia de Reranker

Loading Chart

Explicación de las métricas :

ΔHit@1 / ΔHit@10 muestra la mejora con respecto al valor de referencia (sin reclasificador) en puntos porcentuales (pp). Por ejemplo, +20,33pp significa que el reclasificador mejoró Hit@1 en 20,33 puntos porcentuales en comparación con el 62,67% del valor de referencia.

Hit@K mide si alguna reseña con el product_id correcto aparece entre los K primeros resultados. La verdad fundamental es el product_id de la reseña que generó la consulta. Si una reseña diferente del mismo producto aparece entre los K primeros, se considera un acierto. Hit@1 es la prueba más estricta: ¿el primer resultado corresponde al producto correcto? Hit@10 es más permisiva: ¿el producto correcto se encuentra entre los 10 primeros resultados?

MRR@10 (Rango Recíproco Medio) calcula el promedio de 1/rango del primer resultado correcto en todas las consultas. Si el primer product_id coincidente está en el rango 1, la puntuación es 1,0. En el rango 2, es 0,5. En el rango 10, es 0,1. Esto premia a los modelos que colocan el producto correcto lo más arriba posible.

nDCG@10 (Ganancia Acumulativa Descontada Normalizada) evalúa la posición de todas las reseñas coincidentes entre las 10 primeras, no solo la primera. Si un mismo producto tiene varias reseñas en el conjunto de candidatos y varias se ubican entre las 10 primeras, nDCG asigna un crédito a cada una según su posición. En la práctica, la mayoría de los productos solo tienen 1 o 2 reseñas entre los 100 candidatos principales, por lo que nDCG y MRR siguen una trayectoria similar.

Recall@10 mide la fracción de reseñas coincidentes (mismo product_id) en los 10 primeros puestos de todas las reseñas coincidentes en el conjunto completo de candidatos (100 primeros puestos). Si un producto tiene 3 reseñas en los 100 primeros puestos y el reordenador coloca 2 de ellas en los 10 primeros, Recall@10 es 2/3 para esa consulta. Dado que la mayoría de los productos tienen pocas reseñas duplicadas en el conjunto de candidatos, Recall@10 y Hit@10 son prácticamente idénticos en esta prueba comparativa.

Fallo de latencia

La latencia de reordenamiento mide el tiempo que tarda cada codificador cruzado en evaluar 100 documentos candidatos frente a la consulta. El tiempo de búsqueda vectorial (~20 ms) se excluye, ya que permanece constante en todas las ejecuciones y es independiente del reordenador.

Explicación de las métricas de latencia :

El reordenamiento es el tiempo que tarda el codificador cruzado en evaluar los 100 documentos candidatos en función de la consulta. Aquí es donde difieren los modelos: una sola pasada hacia adelante es rápida, mientras que la decodificación autorregresiva es lenta.

P95 representa la latencia total del percentil 95. Algunas consultas contienen textos de revisión más largos, lo que aumenta el tiempo de tokenización y puntuación. P95 muestra el peor escenario posible para el 95 % de las consultas.

Principales conclusiones

Un modelo 149M coincide con un modelo 1.2B.

gte-reranker-modernbert-base tiene 149 millones de parámetros, nemotron-rerank-1b tiene 1,2 mil millones. Ambos alcanzaron un 83,00 % de aciertos en inglés. La arquitectura ModernBERT es 8 veces más pequeña y ofrece una precisión máxima idéntica.

Esto no significa que el tamaño del modelo sea irrelevante. Nemotron supera ligeramente a Nemotron en MRR@10 (0,8514 frente a 0,8483) y Hit@10 (88,33 % frente a 88,00 %), lo que significa que clasifica los documentos relevantes un poco mejor en los 10 primeros resultados. Pero para la mayoría de las aplicaciones donde lo que cuenta es obtener el primer resultado correcto, el modelo de 149M es suficiente.

El modelo más grande no es el mejor.

qwen3_reranker_4b tiene 4 mil millones de parámetros y tarda más de un segundo por consulta. Alcanza un 77,67 % de aciertos en 1 consulta, situándose en cuarto lugar por detrás de nemotron (1,2 mil millones), gte_modernbert (149 millones) y jina (560 millones). Su latencia es 4,5 veces mayor que la de nemotron, con una precisión 5,3 puntos porcentuales menor.

La arquitectura de qwen3 utiliza modelado de lenguaje causal con un enfoque logit de sí/no. El modelo lee el par consulta-documento y genera la probabilidad de que sea relevante. Si bien conceptualmente es claro, la inferencia es costosa debido a la sobrecarga de la decodificación autorregresiva. Los modelos SequenceClassification (gte_modernbert, bge) y el enfoque prompt-template de nemotron procesan el par en una sola pasada hacia adelante, lo que resulta fundamentalmente más rápido.

Jina ofrece el mejor equilibrio entre velocidad y precisión.

jina_reranker_v3 alcanza el 81,33 % de Hit@1 a los 188 ms. nemotron alcanza el 83,00 % a los 243 ms. Si necesita una latencia total inferior a 200 ms por consulta, Jina es el único modelo de la gama alta que lo ofrece. La diferencia de 1,67 puntos porcentuales puede no justificar los 55 ms adicionales en un sistema de producción que gestiona miles de solicitudes por segundo.

Un reordenador empeora los resultados.

mxbai_rerank_xsmall (70 millones de parámetros) obtiene un 64,67 % de aciertos en la primera consulta. La versión de referencia, sin ningún reordenador, obtiene un 62,67 %. La mejora es de tan solo 2 puntos porcentuales, lo que se encuentra dentro del margen de error para 300 consultas. Con 70 millones de parámetros, el modelo carece de la capacidad para evaluar de forma fiable la relevancia entre consulta y documento en textos más largos o con mayor complejidad.

Un sistema de reordenamiento no siempre resulta beneficioso. Pruébalo con tus datos reales antes de implementarlo.

El perro cobrador fija el techo

Todos los algoritmos de reclasificación de alto rendimiento convergen en torno al 87-88% de aciertos a las 10 consultas. Este límite superior proviene del recuperador. Si multilingual-e5-base no coloca el documento correcto entre los 100 primeros candidatos, ningún algoritmo de reclasificación puede recuperarlo. El 12% restante de las consultas en las que fallan todos los algoritmos de reclasificación representan casos en los que el recuperador denso simplemente omitió por completo el documento relevante.

Para superar este límite se requiere un mejor algoritmo de recuperación, un mayor número de candidatos o ambas cosas. Probamos los 250 mejores candidatos y no encontramos prácticamente ninguna mejora con respecto a los 100 mejores, lo que significa que e5_base agota sus candidatos útiles mucho antes de llegar al puesto 250.

Cómo funcionan los sistemas de reclasificación

Un recuperador denso (bi-encoder) codifica las consultas y los documentos de forma independiente en vectores. La recuperación se realiza mediante una búsqueda del vecino más cercano sobre estos vectores. Esto es rápido porque solo se codifica la consulta en el momento de la búsqueda, pero el modelo nunca ve la consulta y el documento juntos, por lo que puede pasar por alto señales de relevancia sutiles.

Un reordenador (codificador cruzado) toma un par consulta-documento como entrada única. El modelo analiza ambos textos conjuntamente, detectando relaciones que la codificación independiente no logra identificar. El inconveniente es que debe ejecutarse una vez por cada candidato, por lo que solo puede evaluar un conjunto reducido de datos.

Arquitecturas en este benchmark

Probamos cuatro arquitecturas de codificador cruzado diferentes:

Los modelos de clasificación de secuencias (bge_base, bge_v2_m3, mxbai_xsmall, gte_modernbert) toman como entrada un par [consulta, documento] y generan una única puntuación logit. Este es el enfoque más sencillo y común.

Nemotron utiliza un formato de plantilla de solicitud: “pregunta:{q} pasaje:{p}”. La entrada se presenta como texto plano en lugar de un par estructurado, pero el modelo aún genera una puntuación de relevancia única mediante SequenceClassification. El preentrenamiento LLM (basado en Llama) le proporciona una sólida comprensión del lenguaje.

Los algoritmos de reclasificación Qwen3 utilizan modelado de lenguaje causal. El modelo lee el par y genera un juicio de sí/no. La puntuación es log P(sí) / (P(sí) + P(no)). Esto requiere el mecanismo autorregresivo completo, lo que explica la mayor latencia.

Jina v3 utiliza una API personalizada (model.rerank()) que gestiona internamente la tokenización y la puntuación. La arquitectura subyacente utiliza atención cruzada, pero la interfaz abstrae los detalles.

Metodología de referencia de Reranker

GPU: NVIDIA H100 PCIe 80GB vía Runpod
Base de datos vectorial: Qdrant 1.12.0 (binario local), distancia coseno
Recuperador: multilingual-e5-base (768-dim). Prefijo de consulta: "query: " , prefijo de documento: "passage: "
Software: transformers 5.2.0, PyTorch 2.8.0, CUDA 12.8.1
Conjunto de datos: Subconjunto en inglés de Amazon Reviews Multi (Kaggle). ¹ ~145.000 reseñas después de filtrar por un mínimo de 100 caracteres. Cada reseña tiene un ID de producto, texto de la reseña y calificación con estrellas.
Generación de consultas: Claude Sonnet 4.6 vía OpenRouter. 300 consultas en inglés (5 tipos: factuales, de opinión, de uso, de resolución de problemas, de comparación de características). Cada consulta debe hacer referencia a detalles específicos de su revisión de fuente; las preguntas genéricas (puntuación de especificidad < 4/5) se filtran.
Formato del documento: "Review Title: {title}\nReview: {body}"
Pipeline: Recuperar los 100 mejores candidatos con multilingual-e5-base, reordenarlos con cross-encoder y devolver los 10 mejores. Baseline omite el reordenamiento y devuelve directamente los 10 mejores del recuperador.
Verificación de datos: solo coincidencia exacta de product_id. No se utiliza la similitud del coseno como método alternativo. No se otorga crédito parcial por productos semánticamente similares.
Variable controlada: Solo cambia el modelo de reordenamiento entre experimentos. El recuperador, el número de candidatos, el conjunto de consultas y los criterios de evaluación son idénticos en todas las ejecuciones.
Sin ajustes finos: Todos los modelos se evaluaron sin ajustes previos con los pesos predeterminados de HuggingFace.
Latencia: Reclasificación (puntuación entre codificadores de 100 candidatos). Medida por consulta en la GPU.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Modelos probados

Limitaciones

Esta prueba comparativa utiliza un único recuperador (multilingual-e5-base). Un recuperador diferente produciría conjuntos de candidatos distintos y podría modificar la clasificación de los reordenadores. Los resultados reflejan la eficacia de cada reordenador con este recuperador específico, no la calidad del reordenador de forma aislada.

Realizamos las pruebas con reseñas de productos en inglés de Amazon. El rendimiento en otros ámbitos (artículos científicos, documentos legales, código) o en otros idiomas puede variar.

El número de candidatos está fijado en 100. Algunos algoritmos de reordenamiento podrían clasificar de forma diferente con 20 o 200 candidatos. Probamos con 250 candidatos y observamos una mejora insignificante, lo que sugiere que 100 son suficientes para e5_base, pero otros algoritmos de recuperación podrían comportarse de manera diferente.

Un tamaño de muestra de 300 consultas es moderado. Los tres mejores modelos (nemotron, gte_modernbert y jina) se diferencian por menos de 2 puntos porcentuales. Con un conjunto de consultas mayor, estas clasificaciones podrían variar. La diferencia entre el primer y el último nivel (más de 20 puntos porcentuales) es considerable.

Conclusión

Los algoritmos de reordenamiento funcionan. El mejor modelo en esta prueba comparativa aumenta la tasa de aciertos en la primera consulta del 62,67 % al 83,00 % (+20,33 pp), lo que significa que 20 de cada 100 consultas que antes devolvían el documento incorrecto ahora devuelven el correcto. Esto representa una mejora significativa para un componente que añade menos de 250 ms de latencia.

El hallazgo más útil es que el tamaño del modelo no determina la calidad del reclasificador. El modelo gte-reranker-modernbert-base, con 149 millones de parámetros, iguala a nemotron-rerank-1b, con 1200 millones de parámetros, en Hit@1. El modelo Qwen3, con 4000 millones de parámetros, queda en cuarto lugar. Si va a elegir un reclasificador para un sistema de producción, empiece con los modelos más pequeños. Es posible que nunca necesite los más grandes.

Para aplicaciones sensibles a la latencia, jina-reranker-v3 es la mejor opción por debajo de 200 ms. Para obtener la máxima precisión sin restricciones de latencia, nemotron-rerank-1b y gte-reranker-modernbert-base comparten el primer puesto. Para equipos con presupuesto limitado para GPU, gte-modernbert es la clara ganadora: la misma precisión que el modelo 1.2B con un consumo de memoria mucho menor.

Un patrón se mantuvo en todos los experimentos: el recuperador establece el límite superior. Ningún reordenador logró que Hit@10 superara el 88%, ya que el 12% restante de los documentos correctos nunca apareció entre los 100 primeros candidatos. Invertir en un mejor recuperador probablemente genere mayores beneficios que cambiar entre los tres mejores reordenadores.

Lecturas adicionales

Explore otros puntos de referencia RAG, como:

Enlaces de referencia

✏️ Amazon Reviews Multi | Kaggle

Ekrem Sarı

Investigador de IA

Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y los marcos de trabajo RAG.

Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

Siguiente para leer

Extracción de datos webMay 8