Benchmarks de LLM

Un único Índice de Inteligencia transparente que combina benchmarks públicos con las propias evaluaciones agénticas, de RAG y de razonamiento empresarial de AIMultiple.

Última actualización Jun 2026

MEJOR MODELO

Claude Fable 5

Índice 92

Mejor relación calidad-precio

MiniMax M3

$0.42 / 1M

Más rápido

GPT OSS 120B

0.19s TTFT

Cobertura

64 modelos

8 benchmarks · 336 evaluaciones

Índice de Inteligencia de AIMultiple

Clasificación

Los modelos con mayor puntuación en todos los benchmarks.

#	Modelo	Índice	LegalBench	FinanceReasoning	Text-to-SQL	Agentic RAG	ARC-AGI-2	Agentic LLM Benchmark	FrontierMath	Swe-Bench
1	Claude Fable 5 Anthropic	92	89	90	90	98	-	69	-	-
2	Kimi K3 Moonshot AI	88	86	88	77	93	-	73	-	-
3	GPT-5.6 Sol OpenAI	87	87	90	74	87	93	62	-	-
4	Grok 4.5 X	86	86	88	79	83	-	73	-	-
5	GPT-5.5 OpenAI	83	87	-	-	-	85	59	-	-
6	GPT-5.6 Terra OpenAI	80	85	87	71	91	84	61	-	-
7	GPT-5.6 Sol Pro OpenAI	80	-	91	79	96	-	54	-	-
8	Claude Opus 4.6 Anthropic	78	-	88	68	80	69	72	-	-
9	Gemini 3 Pro Preview Google	77	87	86	60	89	31	-	-	-
10	Gemini 3.1 Pro Preview Google	77	87	87	65	89	77	46	27	-
Página 1 de 7

Costo$20.00

Latencia3.98s

Contexto1M

TTFT3.98s

LegalBench

89

FinanceReasoning

90

Text-to-SQL

90

Agentic RAG

98

Agentic LLM Benchmark

69

Costo$6.00

Latencia252.11s

Contexto1M

TTFT252.11s

LegalBench

86

FinanceReasoning

88

Text-to-SQL

77

Agentic RAG

93

Agentic LLM Benchmark

73

Costo$11.25

Latencia2.47s

Contexto1M

TTFT2.47s

LegalBench

87

FinanceReasoning

90

Text-to-SQL

74

Agentic RAG

87

ARC-AGI-2

93

Agentic LLM Benchmark

62

Costo$3.00

Latencia10.26s

Contexto500k

TTFT10.26s

LegalBench

86

FinanceReasoning

88

Text-to-SQL

79

Agentic RAG

83

Agentic LLM Benchmark

73

Costo$11.25

Latencia1.03s

Contexto272k

TTFT1.03s

LegalBench

87

ARC-AGI-2

85

Agentic LLM Benchmark

59

Costo$5.63

Latencia1.92s

Contexto1M

TTFT1.92s

LegalBench

85

FinanceReasoning

87

Text-to-SQL

71

Agentic RAG

91

ARC-AGI-2

84

Agentic LLM Benchmark

61

Costo$11.25

Latencia11.46s

Contexto1M

TTFT11.46s

FinanceReasoning

91

Text-to-SQL

79

Agentic RAG

96

Agentic LLM Benchmark

54

Costo$10.00

Latencia1.75s

Contexto1M

TTFT1.75s

FinanceReasoning

88

Text-to-SQL

68

Agentic RAG

80

ARC-AGI-2

69

Agentic LLM Benchmark

72

Costo$4.50

Latencia-

Contexto1M

TTFT

LegalBench

87

FinanceReasoning

86

Text-to-SQL

60

Agentic RAG

89

ARC-AGI-2

31

Costo$4.50

Latencia33.83s

Contexto1M

TTFT33.83s

LegalBench

87

FinanceReasoning

87

Text-to-SQL

65

Agentic RAG

89

ARC-AGI-2

77

Agentic LLM Benchmark

46

FrontierMath

27

Página 1 de 7

Gráficos

Modelos siguiendo "Mejor rendimiento"

Evolución en el tiempo

Índice de Inteligencia por fecha de lanzamiento del modelo

Coste frente a rendimiento

Coste combinado frente al Índice de Inteligencia

Modelo × Benchmark

Mejores modelos en los benchmarks seleccionados

Metodología

Cómo se construye el índice

El Índice de Inteligencia normaliza cada benchmark a una escala de 0 a 100 y promedia la posición relativa de un modelo en los benchmarks en los que se evaluó. Cada benchmark a continuación alimenta esa puntuación.

FinanceReasoningWe evaluated LLMs on 238 hard questions from the FinanceReasoning benchmark (Hendrycks et al.). This subset targets the most challenging financial reasoning tasks, assessing complex multi-step quantitative reasoning with financial concepts and formulas. Our evaluation employed a custom prompt design and scoring criteria of accuracy and token consumption.

Text-to-SQLWe used our text-to-SQL benchmark methodology on 24 large language models (LLMs) to assess their performance in SQL command generation:

Agentic RAGWe conducted a benchmark to assess its performance on routing between multiple databases and generating queries.

AI MemoryWe benchmarked 11 leading text embedding models, including those from OpenAI, Gemini, Cohere, Snowflake, AWS, Mistral, and Voyage AI, using ~500,000 Amazon reviews. We evaluated each model’s ability to retrieve and rank the correct answer first:

AI HallucinationWe benchmarked 29 different LLMs with 60 questions to measure their hallucination rates

Humanity's Last ExamAGI

LegalBenchLegal

FrontierMathIntelligence

Swe-BenchCoding

LiveCodeBenchCoding

Agentic LLM BenchmarkAgentic LLM Benchmark

Actualizaciones recientes

Actualizaciones recientes

Últimos cambios en el Índice de Inteligencia, la cobertura de modelos y la metodología de benchmarks de AIMultiple.

16 de jul. de 2026

Moonshot AI

Kimi K3

Nuevo modelo añadido al Índice de Inteligencia de AIMultiple.

9 de jul. de 2026

OpenAI

GPT-5.6 Sol

Nuevo modelo añadido al Índice de Inteligencia de AIMultiple.

9 de jul. de 2026

OpenAI

GPT-5.6 Terra

Nuevo modelo añadido al Índice de Inteligencia de AIMultiple.

9 de jul. de 2026

OpenAI

GPT-5.6 Sol Pro

Nuevo modelo añadido al Índice de Inteligencia de AIMultiple.

Explorar Casos de uso, análisis y comparativas del programa LLM

LLM Leyes de Escalado: Análisis de Investigadores de IA

Modelos de lenguaje grandes predicen el siguiente token basándose en patrones aprendidos de los datos de texto. El término LLM leyes de escalado se refiere a regularidades empíricas que vinculan el rendimiento del modelo con la cantidad de cómputo, datos de entrenamiento y parámetros del modelo utilizados durante el entrenamiento. Para entender cómo estas relaciones…

LLM Precios: Los 15+ mejores proveedores comparados

API Los precios de las API cambian con cada generación de modelos. El gráfico a continuación sitúa cada modelo en su fecha de lanzamiento, muestra su precio de lista por millón de tokens, utiliza una relación combinada de 3:1 entre entrada y salida, y agrupa los modelos en ocho clases de tamaño. Los precios son…

Text-to-SQL: Comparación de la precisión de LLM

He confiado en SQL para el análisis de datos durante 18 años, comenzando en mis días como consultor. Traducir preguntas en lenguaje natural a SQL hace que los datos sean más accesibles, permitiendo a cualquiera, incluso a aquellos sin habilidades técnicas, trabajar directamente con bases de datos. Utilizamos nuestra metodología de referencia text-to-SQL en más…

LLM Guía de Fine-Tuning para Empresas

Siga los enlaces para encontrar soluciones específicas a los desafíos de salida de su LLM. Si su LLM: La adopción generalizada de modelos de lenguaje grandes (LLMs) ha mejorado nuestra capacidad para procesar el lenguaje humano. Sin embargo, su entrenamiento genérico a menudo resulta en un rendimiento subóptimo para tareas específicas. Para superar esta limitación,…

LLM Herramientas de Observabilidad: Weights & Biases, Langsmith

Las aplicaciones de LLM se han expandido de chats de un solo turno a agentes de múltiples pasos que utilizan herramientas, consultan bases de datos y se coordinan con otros modelos, lo que dificulta la interpretación de su comportamiento. La observabilidad de LLM proporciona visibilidad continua en estos flujos de trabajo complejos, ayudando a las…

LLM Calculadora de VRAM para Autohospedaje

Autohospedar un LLM significa ejecutar la inferencia en hardware controlado por el operador en lugar de a través de una API de terceros, lo que cambia el costo, el control de datos y el perfil de privacidad. El que un modelo pueda ejecutarse depende de la memoria. La calculadora estima la VRAM o la memoria…

Comparativa de 40+ LLMs en Finanzas: Claude Fable 5 & GPT-5.6 Sol

Evaluamos 40+ LLMs en finanzas en 238 preguntas difíciles del benchmark FinanceReasoning para identificar qué modelos destacan en tareas complejas de razonamiento financiero como análisis de estados financieros, pronósticos y cálculos de ratios. Evaluamos LLMs en 238 preguntas difíciles del benchmark FinanceReasoning (Tang et al.).1 Este subconjunto aborda las tareas de razonamiento financiero más desafiantes,…

LLM Automatización: Las 7 mejores herramientas y 8 casos de estudio

LLM automation se refiere al cambio hacia herramientas de automatización inteligente que aprovechan los LLMs, incluyendo agentes de IA, LLMs ajustados y modelos RAG para automatizar y coordinar tareas. Explora qué es la automatización con LLM, sus principales aplicaciones en la vida real y las principales herramientas: Los modelos de lenguaje grandes en automación es…

LLM Evaluación comparativa de latencia por casos de uso

Realizamos un benchmark de 11 de los principales grandes modelos de lenguaje con un total de 1,320 solicitudes, separando modelos de razonamiento y de no razonamiento , y medimos la latencia del primer token, la latencia por token y el tiempo total de respuesta. Aquí puede consultar los detalles sobre cómo medimos la latencia. Presentamos…

HALC-Bench: LLM Alucinación en el Benchmark de Recuperación de Contexto Largo

HALC-Bench (LLM Alucinación en el Benchmark de Recuperación de Contexto Largo) mide la resistencia de un LLM a fabricar evidencia para una métrica que no existe en el documento objetivo mediante el uso de 3 pajares colocados al principio, en el medio y al final de la ventana de contexto del modelo, con 204 preguntas.…

Densidad de inteligencia de 71 LLMs: Modelos más inteligentes y densos

Rastreamos 71 LLMs lanzados entre febrero de 2023 y mayo de 2026 y recopilamos 10 benchmarks públicos para medir la densidad de inteligencia. Dividimos la puntuación de capacidad por el recurso que consume el modelo (parámetros activos, cómputo de entrenamiento y precio de inferencia). Para calcular la densidad de inteligencia, ejecutamos los siguientes pasos: Consulte…

1 2 3