Contáctanos
No se encontraron resultados.

Comparativa de 38 másteres en finanzas: Claude Opus 4.6, Gemini 3.1 Pro y más.

Ekrem Sarı
Ekrem Sarı
actualizado el Feb 20, 2026
Vea nuestra normas éticas

Evaluamos 38 másteres en finanzas (LLM) con 238 preguntas difíciles del benchmark FinanceReasoning para identificar qué modelos destacan en tareas complejas de razonamiento financiero, como el análisis de estados financieros, la previsión y el cálculo de ratios.

Descripción general del índice de referencia de finanzas del LLM

Loading Chart

Evaluamos los modelos LLM en 238 preguntas difíciles del conjunto de datos de referencia FinanceReasoning (Tang et al.). 1 Este subconjunto se centra en las tareas de razonamiento financiero más exigentes, evaluando razonamientos cuantitativos complejos de varios pasos que involucran conceptos y fórmulas financieras. Nuestra evaluación empleó un diseño de enunciado personalizado y criterios de puntuación basados en la precisión y el consumo de fichas.

Para obtener una explicación detallada de cómo se calcularon estas métricas y el marco utilizado para esta evaluación, consulte nuestra metodología de referencia financiera .

Resultados: ¿Qué máster en Derecho (LLM) es el mejor para finanzas?

Los mejores en su categoría (>83% de precisión):

gpt-5-2025-08-07 alcanza la máxima precisión, un 88,23 %, con 829.720 tokens. Esto representa el rendimiento más avanzado actualmente en tareas de razonamiento financiero.

claude-opus-4.6 obtiene una precisión del 87,82 % con 164.369 tokens, ofreciendo un rendimiento casi superior al tiempo que consume significativamente menos tokens que el líder.

gpt-5-mini-2025-08-07 alcanza una precisión del 87,39% con 595.505 tokens, ofreciendo una sólida alternativa dentro de la familia GPT-5.

gemini-3.1-pro-preview obtiene una precisión del 86,55% con 475.148 tokens, superando a su predecesor gemini-3-pro-preview (86,13%) y consumiendo un 35% menos de tokens (730.759 tokens).

Tanto gemini-3-pro-preview como gpt-5.2 tienen una precisión del 86,13 %. Sin embargo, gpt-5.2 logra esto con 247.660 tokens, en comparación con los 730.759 tokens de gemini-3-pro-preview, lo que lo hace tres veces más eficiente.

Alto rendimiento (80-83% de precisión):

claude-opus-4.5 ofrece una precisión del 84,03 % con 144.505 tokens, manteniendo el sólido equilibrio entre rendimiento y eficiencia de Claude.

Los modelos claude-sonnet-4.6 y gemini-3-flash-preview tienen una precisión del 83,61 %. El modelo Claude Sonnet 4.6 utiliza 161.035 tokens, mientras que Gemini 3 Flash Preview lo logra con 118.530 tokens, lo que lo convierte en la opción más eficiente en cuanto a tokens entre todos los modelos de alto rendimiento.

kimi-k2.5 logra una precisión del 82,77%, pero requiere 877.868 tokens, el mayor consumo entre los modelos de este nivel de rendimiento.

Nivel intermedio (70-80% de precisión):

o3-pro-2025-06-10 (78,15 % de precisión, 473.659 tokens) y kimi-k2 (78,15 % de precisión, 100.323 tokens) están empatados. Kimi-k2 es el modelo más eficiente de este grupo.

o3-mini-2025-01-31 (77,31 % de precisión, 376.929 tokens), gpt-5-nano-2025-08-07 (76,89 % de precisión, 1.028.909 tokens) y claude-sonnet-4-20250514 (76,05 % de precisión, 135.462 tokens) le siguen de cerca.

Rendimiento bajo (<70% de precisión):

claude-3-5-sonnet-20241022 (67,65 % de precisión, 90.103 tokens) y gpt-oss-20b (67,65 % de precisión, 515.041 tokens) lideran este nivel.

A continuación se muestran gemini-2.5-flash (65,55 % de precisión, 286.603 tokens), glm-4.5 (64,29 % de precisión, 692.662 tokens) y gpt-4.1-nano-2025-04-14 (63,45 % de precisión, 171.096 tokens).

El modelo con la clasificación más baja es deepseek-v3-0324 , que tuvo una precisión del 10,92% con 100.861 tokens.

Información sobre el rendimiento:

La prueba comparativa no muestra una correlación clara entre el consumo de tokens y la precisión. deepseek-r1-0528 consumió la mayor cantidad de tokens (1.251.064) y, sin embargo, logró una precisión del 62,18 %, mientras que claude-opus-4-20250514 obtuvo un 80,25 % con 132.274 tokens.

La eficiencia de los tokens varía drásticamente incluso entre modelos de alto rendimiento. gemini-3-flash-preview utiliza 118.530 tokens para lograr una precisión del 83,61 %, mientras que kimi-k2.5 consume 877.868 tokens para una precisión del 82,77 % (7,4 veces más tokens para un rendimiento ligeramente inferior).

La tabla anterior presenta otros puntos de referencia de modelos de IA, incluidos los utilizados para esta evaluación comparativa.

Metodología de referencia para el razonamiento financiero

Nuestro sistema de evaluación comparativa proporciona una valoración justa, transparente y reproducible del rendimiento de los modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) en tareas complejas de razonamiento financiero.

Configuración de la prueba y corpus de datos

  • Conjunto de pruebas de referencia: Utilizamos los datos, el código y los scripts de evaluación del conjunto de pruebas de referencia FinanceReasoning. Lo seleccionamos por su enfoque especializado en problemas financieros cuantitativos e inferenciales.
  • Corpus de conocimiento y consultas de prueba: Centramos nuestro análisis en el subconjunto difícil, que comprende 238 preguntas desafiantes. Según lo definido por el conjunto de datos de referencia, cada punto de datos incluye:
    1. Una pregunta que requiere deducción lógica y numérica en varios pasos.
    2. Un contexto que a menudo contiene información densa presentada en formatos estructurados como tablas Markdown (por ejemplo, balances, datos de rendimiento de acciones).
    3. Una respuesta definitiva y fidedigna para una evaluación objetiva.
  • Tipos de consultas ilustrativas: La dificultad de la prueba de referencia radica en que exige que los modelos manejen tareas de razonamiento financiero diversas y complejas. Para ilustrar esta amplitud, destacamos dos ejemplos representativos del conjunto de prueba:

Ejemplo: Razonamiento algorítmico y de series temporales (análisis técnico)

Contexto: Un inversor está analizando… los precios de las acciones durante los últimos 25 días… para calcular el canal de Keltner utilizando un período EMA de 10 días y un período ATR de 10 días, con un multiplicador de 1,5…

Pregunta: ¿Cuál es el valor de la última banda superior en el canal de Keltner…? Responda con dos decimales.

Esta consulta pone a prueba la capacidad de un modelo para actuar como analista cuantitativo mediante:

  1. Descomponiendo un indicador compuesto: Reconociendo que el “Canal de Keltner” se deriva de otros dos indicadores complejos:
    • la media móvil exponencial (EMA)
    • el rango verdadero promedio (ATR) .
  2. Implementación de la lógica algorítmica: Implementar correctamente los algoritmos iterativos para EMA y ATR desde cero sobre una serie temporal de 25 puntos de datos.
  3. Síntesis de resultados: Combinación de los valores calculados según la fórmula final del canal de Keltner (Banda superior = EMA + (Multiplicador × ATR)).

Principios básicos de evaluación

  • Llamadas a la API aisladas y estandarizadas: Para cada modelo, realizamos la evaluación mediante programación a través de sus respectivos puntos finales de API (por ejemplo, OpenRouter, OpenAI). Esto garantizó que cada modelo recibiera exactamente la misma entrada en condiciones idénticas, eliminando la variabilidad derivada de las interacciones con la interfaz de usuario.
  • Generación de respuestas de forma libre: No limitamos los modelos a un formato de opción múltiple. En cambio, se les pidió que generaran una respuesta completa y de forma libre, lo que permitió una evaluación más auténtica de sus capacidades de razonamiento.
  • Estrategia de Cadena de Pensamiento (CoT): Para obtener y evaluar el proceso de razonamiento de los modelos, empleamos una estrategia de cadena de pensamiento (CoT). El sistema indicaba explícitamente a cada modelo que debía "analizarse el problema paso a paso" antes de llegar a una respuesta final. Este enfoque permite un análisis más profundo de cómo un modelo llega a su conclusión, más allá del resultado final.

Métricas y marco de evaluación

Utilizamos el marco de evaluación totalmente automatizado del propio benchmark FinanceReasoning para calificar los resultados del modelo. Este marco está diseñado para medir tanto la corrección conceptual como el coste computacional.

1. Métrica principal: Precisión

Esta métrica responde a la pregunta crucial: "¿Puede el modelo resolver correctamente el problema financiero?" El proceso de puntuación implica un sofisticado proceso de dos pasos:

  • Paso 1: Extracción de la respuesta basada en LLM: La salida sin procesar de un modelo es un texto no estructurado que contiene tanto su razonamiento como la respuesta final. Para analizar de forma fiable el valor numérico o booleano definitivo, utilizamos un potente modelo supervisor (openai/gpt-4o) como analizador inteligente. Este método identifica de forma consistente la respuesta final prevista, incluso con ligeras variaciones de formato entre diferentes modelos.
  • Paso 2: Comparación basada en tolerancias: Una simple coincidencia exacta no es suficiente para problemas numéricos. Por lo tanto, la respuesta extraída se comparó programáticamente con la verdad fundamental. El script aplica un umbral de tolerancia numérica (una diferencia relativa del 0,2 %) para gestionar de forma justa las pequeñas variaciones de punto flotante o redondeo, asegurando que las soluciones conceptualmente sólidas se marquen como correctas.

2. Métrica secundaria: Consumo de tokens

Esta métrica responde a la pregunta: "¿Qué tan costoso computacionalmente es para el modelo resolver estos problemas?". Mide el costo total asociado con la generación de las 238 respuestas.

  • Cálculo: Para cada llamada a la API, recopilamos los datos de uso devueltos por el proveedor del modelo, que incluyen los tokens de solicitud y los tokens de finalización. La puntuación final de un modelo es la suma de los tokens de finalización (tokens de salida generados por el modelo) en las 238 preguntas. Esto proporciona una medida clara de la verbosidad del modelo y el costo computacional general para la tarea.

Este enfoque de dos métricas, proporcionado por el propio benchmark FinanceReasoning, permite una evaluación integral que equilibra la capacidad bruta de resolución de problemas de un modelo (precisión) con su eficiencia operativa (consumo de tokens).

Razonamiento financiero con generación aumentada por recuperación (RAG)

Para superar a los modelos independientes, diseñamos e implementamos un marco RAG personalizado, distinto de la implementación original del benchmark. Nuestro enfoque se basa en una moderna pila de bases de datos vectoriales (Qdrant) para proporcionar a los modelos LLM conocimiento relevante y específico del dominio en el momento de la inferencia, lo que les ayuda a resolver problemas que van más allá de sus datos de entrenamiento. Probamos esto en gpt-4o-mini para medir su impacto.

Resultados y análisis: La compensación RAG

La introducción de RAG tuvo un impacto significativo y medible en el rendimiento de gpt-4o-mini.

Conclusiones clave de la evaluación RAG:

  • Mejora significativa de la precisión: RAG mejoró notablemente la capacidad de resolución de problemas del modelo, aumentando la precisión en más de 10 puntos porcentuales . Esto confirma que proporcionar un contexto externo relevante es muy eficaz para tareas de razonamiento complejas y específicas de un dominio.
  • El costo de la precisión: Esta mejora en el rendimiento tuvo un alto costo. El consumo total de tokens aumentó casi 18 veces y el tiempo total de ejecución se multiplicó por 20. Esto se debe a las llamadas adicionales a la API para la incrustación y, sobre todo, a las indicaciones mucho más extensas y complejas que el LLM debe procesar.
  • Implicaciones para modelos más grandes: Los resultados de gpt-4o-mini sugieren que, si bien RAG puede mejorar el rendimiento, aplicar este método a modelos más grandes y costosos, como GPT-4o o Claude Opus, resultará considerablemente más costoso y requerirá más tiempo. Esto pone de manifiesto la importante disyuntiva entre precisión, coste y latencia en el diseño de sistemas de IA financiera de nivel de producción.

Metodología RAG para el razonamiento financiero

Nuestro sistema RAG se basa en una arquitectura moderna que utiliza Qdrant como base de datos vectorial y el modelo OpenAI de text-embedding-3-small para generar representaciones vectoriales semánticas. El proceso consta de dos fases principales: una fase de indexación fuera de línea y una fase de recuperación y generación en línea.

1. Indexación de corpus de conocimiento

  • Creación del corpus: Recopilamos una base de conocimientos especializados a partir de dos fuentes proporcionadas por el benchmark:
    1. Documentos financieros: Una colección de artículos (financial_documents.json) que explican diversos conceptos y términos financieros.
    2. Funciones financieras: Una biblioteca de funciones de Python listas para usar (functions-article-all.json) diseñadas para resolver cálculos financieros específicos.
  • Intelfragmentación e incrustación eficientes: Para preparar este corpus para una recuperación eficiente, cada documento y función fue procesado e indexado:
    1. Segmentación: Los documentos se segmentaron en fragmentos más pequeños y semánticamente coherentes según sus secciones. Cada función de Python se trató como un fragmento atómico independiente. Esto garantiza que el contexto recuperado sea preciso y relevante.
    2. Incrustación: Cada fragmento se convirtió luego en un vector de 1536 dimensiones utilizando el modelo text-embedding-3-small.
    3. Indexación: Estos vectores se indexaron en dos colecciones separadas dentro de nuestra instancia local de Qdrant (financial_documents_openai_small y financial_functions_openai_small), optimizadas para la búsqueda de similitud del coseno.

2. Inferencia basada en RAG

Para cada una de las 238 preguntas, el proceso de razonamiento del modelo se complementó con los siguientes pasos automatizados:

  1. Generación de incrustaciones (llamadas a la API 1 y 2): La consulta del usuario (pregunta + contexto) se convirtió en un vector de incrustaciones. Esto requirió dos llamadas a la API de incrustaciones de OpenAI para preparar las búsquedas en ambas colecciones.
  2. Recuperación de múltiples fuentes: El vector de consulta se utilizó para realizar una búsqueda semántica en ambas colecciones de Qdrant simultáneamente para recuperar la información más relevante:
    • Los 3 fragmentos de documentos más relevantes de la colección financial_documents.
    • Las dos funciones de Python más relevantes de la colección financial_functions.
  3. Ampliación de la solicitud: Los documentos y funciones recuperados se inyectaron dinámicamente en la solicitud, creando un "paquete de información" rico y sensible al contexto. Esto aumentó significativamente el tamaño de la solicitud de entrada (de ~300-500 tokens a ~3000-5000+ tokens ).
  4. Generación de la respuesta final (llamada a la API 3): Esta solicitud aumentada se envió al modelo gpt-4o-mini para generar la respuesta final y razonada.

Limitaciones de referencia de los másteres en derecho financiero

Nuestro sistema de evaluación comparativa, si bien es exhaustivo, está sujeto a varias limitaciones clave:

  • Riesgo de contaminación de datos : Es posible que estos modelos se hayan entrenado con el conjunto de datos de referencia, ya que este es público. Esto podría inflar las puntuaciones, dificultando la evaluación de su verdadera capacidad de razonamiento.
  • Análisis RAG de un solo modelo : La evaluación RAG se realizó en un solo modelo (gpt-4o-mini), por lo que las compensaciones observadas entre rendimiento y coste pueden no aplicarse a todos los demás modelos.

Conclusión

Nuestro análisis comparativo de 38 modelos en tareas complejas de razonamiento financiero revela hallazgos clave:

  • gpt-5-2025-08-07 lidera el sector : con una precisión del 88,23 %, este modelo establece el estándar actual para las tareas de razonamiento financiero.
  • Existen varias alternativas sólidas : claude-opus-4.6 (87,82%) y gpt-5-mini-2025-08-07 (87,39%) ofrecen un rendimiento casi superior, y Claude Opus 4.6 lo logra con un consumo de tokens significativamente menor (164.369 tokens).
  • Las mejoras generacionales importan : gemini-3.1-pro-preview (86,55 %) supera a gemini-3-pro-preview (86,13 %) utilizando un 35 % menos de tokens, lo que demuestra que las actualizaciones iterativas del modelo pueden mejorar tanto la precisión como la eficiencia.
  • La eficiencia es tan importante como la precisión : gemini-3-flash-preview alcanza una precisión del 83,61 % con 118.530 tokens, lo que demuestra que un alto rendimiento y un bajo coste pueden coexistir. Del mismo modo, gpt-5.2 demuestra una gran eficiencia con 247.660 tokens, logrando una precisión del 86,13 %.
  • Impacto de RAG : La generación aumentada por recuperación (RAG) aumenta significativamente la precisión de un modelo (+10 puntos porcentuales para gpt-4o-mini), pero a un costo sustancial en términos de consumo de tokens (aumento de 18 veces) y latencia (20 veces más lento).

Registro de cambios

20 de febrero de 2026

Se han añadido 2 nuevos modelos al conjunto de datos de referencia:

  • Google: Vista previa de Gemini 3.1 Pro (google/gemini-3.1-pro-preview)
  • Anthropic: Claude Sonnet 4.6 (antrópico/claude-sonnet-4.6)

6 de febrero de 2026

Se han añadido 7 nuevos modelos al conjunto de datos de referencia:

  • Claude Opus 4.6 (antrópico/claude-opus-4.6)
  • Vista previa del Gemini 3 Pro (google/gemini-3-pro-preview)
  • GPT 5.2 (openai/gpt-5.2)
  • Claude Opus 4.5 (antrópico/claude-opus-4.5)
  • Vista previa de Gemini 3 Flash (google/gemini-3-flash-preview)
  • Kimi K2.5 (moonshotai/kimi-k2.5)
  • Claude Sonnet 4.5 (antrópico/claude-sonnet-4.5)

Lecturas adicionales

El análisis financiero puede abarcar diversas capacidades, como el análisis bursátil, la interpretación de la legislación financiera y el razonamiento financiero. En nuestro estudio comparativo, nos centramos específicamente en el razonamiento financiero, mientras que otras tareas se tratan en artículos aparte.

  • Modelos LLM para análisis bursátil: Estos modelos ayudan a procesar datos de mercado, informes de empresas y noticias para identificar oportunidades de inversión. (Consulte el análisis completo aquí: Operaciones bursátiles basadas en IA )
  • IA en derecho financiero: Algunos másteres en Derecho (LLM) pueden interpretar normativas financieras, contratos y requisitos de cumplimiento para facilitar las tareas jurídico-financieras. (Consulta nuestra lista de herramientas de IA legal aquí: Herramientas de IA legal ).

Preguntas frecuentes

Un modelo de lenguaje a gran escala (LLM, por sus siglas en inglés) en finanzas es un modelo de IA que utiliza técnicas de procesamiento del lenguaje natural para realizar análisis financieros complejos, gestionar el cumplimiento normativo y comprender documentos. Estos modelos ayudan a las instituciones financieras a desenvolverse en el ámbito de la legislación financiera, los requisitos regulatorios y las exigencias dinámicas del sector.

Intelchatbots inteligentes:
Los asistentes virtuales basados en LLM permiten a las empresas financieras brindar soporte al cliente automatizado las 24 horas del día, los 7 días de la semana, gestionando consultas rutinarias y tareas de incorporación sin intervención humana. Esto reduce los tiempos de espera y mejora la satisfacción del cliente, al tiempo que libera a los agentes humanos para que se enfoquen en asuntos más complejos.

Asesoramiento y análisis:
Los bancos de inversión utilizan modelos de lógica descriptiva (LLM) para analizar las tendencias del mercado, las noticias financieras y los datos de los clientes. Estos modelos procesan grandes volúmenes de información no estructurada, lo que permite a los asesores ofrecer asesoramiento de inversión personalizado y gestión de carteras con información en tiempo real.

Análisis de documentos regulatorios:
Los bufetes de abogados y las instituciones financieras emplean modelos LLM para procesar documentos regulatorios complejos, como las presentaciones ante la SEC. Estos modelos extraen información clave y resumen informes, lo que reduce el tiempo de revisión manual y ayuda a las empresas a cumplir con las regulaciones en constante evolución.

Detección de fraude:
Los modelos de aprendizaje automático analizan vastos conjuntos de datos financieros en tiempo real para detectar patrones de transacciones sospechosas y nuevas tácticas de fraude. Su capacidad de aprendizaje continuo permite una identificación del fraude más rápida y precisa que los métodos tradicionales.

Automatización legal y de cumplimiento normativo:
Los bufetes de abogados y los equipos de cumplimiento normativo utilizan herramientas de gestión de contratos legales (LLM) para revisar contratos, interpretar leyes bancarias y verificar el cumplimiento de la normativa. La automatización de estas tareas reduce el tiempo de revisión y los costes legales, al tiempo que garantiza el cumplimiento de las complejas regulaciones financieras.

Preguntas y respuestas sobre documentos y reconocimiento de entidades nombradas (NER):
Las instituciones financieras utilizan sistemas de gestión de relaciones con clientes (LLM) para responder a las preguntas de los inversores extrayendo datos de informes financieros y teleconferencias sobre resultados. El reconocimiento de entidades nombradas (NER) permite el etiquetado automático de nombres de empresas, símbolos bursátiles y entidades reguladoras, lo que agiliza la recuperación de datos.

Eficiencia y automatización: Los sistemas LLM automatizan los análisis rutinarios (por ejemplo, la elaboración de resúmenes de informes de ganancias, el procesamiento de préstamos o la presentación de documentos), lo que ahorra horas a los analistas y reduce los errores.

Servicio al cliente 24/7: Los asistentes virtuales con IA y los chatbots impulsados por LLM pueden gestionar las consultas de los clientes las 24 horas del día con respuestas conversacionales, mejorando la experiencia y la satisfacción del cliente.

Asesoramiento financiero personalizado: Analizando el historial y el perfil de riesgo del cliente, los gestores de patrimonio (LLM) ofrecen asesoramiento financiero o de inversión a medida.

Detección de fraude y gestión de riesgos: Los analistas de lógica procesal (LLM) examinan grandes conjuntos de datos de transacciones para detectar anomalías o patrones de fraude, adaptándose a nuevas tácticas de estafa y ayudando a elaborar perfiles de riesgo.

Cumplimiento y presentación de informes: Los programas LLM elaboran automáticamente informes regulatorios, extraen información relevante para las políticas y ayudan a analizar la compleja legislación y las normativas financieras para garantizar el cumplimiento.

Sí, existen varios modelos más amplios y específicos para el sector financiero. Por ejemplo, BloombergGPT está diseñado para ayudar con la regulación financiera, los mercados de capitales y la gestión del cumplimiento normativo mediante el procesamiento de grandes conjuntos de datos financieros, incluidos documentos de la bolsa de valores nacional y presentaciones regulatorias.

Otros modelos, como FinBERT y FinGPT, se centran en el derecho financiero, el derecho bancario internacional y el asesoramiento financiero personalizado, adaptando grandes modelos lingüísticos al vocabulario especializado de las finanzas, como los símbolos de negociación de clases y los textos regulatorios.

Financiero El razonamiento es la capacidad de analizar datos financieros para tomar decisiones empresariales o de inversión informadas.

Las tareas principales incluyen:
– Análisis de estados financieros (beneficio, flujo de caja, balance)
– Presupuesto y previsión
– Evaluación de inversiones (VAN, TIR, ROI)
– Gestión del flujo de caja y la liquidez
– Evaluación de riesgos financieros e indicadores de desempeño

Ekrem Sarı
Ekrem Sarı
Investigador de IA
Ekrem es investigador de IA en AIMultiple, donde se centra en la automatización inteligente, las GPU, los agentes de IA y los marcos de trabajo RAG.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450