AI Modelos de IA Másteres en Derecho (LLM)

Modelos multimodales grandes (LMM) frente a modelos multimodales grandes (LLM)

actualizado el May 22, 2026

Evaluamos el desempeño de los Modelos Multimodales Grandes (LMM) en tareas de razonamiento financiero utilizando un conjunto de datos cuidadosamente seleccionado. Mediante el análisis de un subconjunto de muestras financieras de alta calidad, evaluamos las capacidades de los modelos para procesar y razonar con datos multimodales en el ámbito financiero.

Loading Chart

La sección de metodología proporciona información detallada sobre el conjunto de datos y el marco de evaluación empleados.

Explora grandes modelos multimodales y compáralos con grandes modelos de lenguaje .

¿Por qué los modelos tuvieron un rendimiento diferente?

La variación en las tasas de éxito refleja las diferencias en la forma en que cada modelo procesa las tareas financieras multimodales. Dado que la evaluación comparativa utiliza muestras del conjunto de datos FinMME, que requieren la integración de texto y elementos visuales financieros como gráficos y documentos estructurados, el rendimiento depende en gran medida de la arquitectura del modelo, la calidad del entrenamiento y la alineación multimodal.

Arquitectura del modelo y diseño de parámetros

Los modelos difieren en la forma en que combinan los codificadores de texto e imagen, el número de parámetros activos y la complejidad de su enrutamiento experto.

Llama 4 Maverick, por ejemplo, utiliza un diseño más amplio basado en expertos, lo que permite un razonamiento más sólido.
Los modelos más pequeños o centrados en la eficiencia tienen menos parámetros alineados con el razonamiento multimodal, lo que limita su rendimiento.

Estas distinciones arquitectónicas afectan la capacidad de cada modelo para interpretar relaciones numéricas, estructuras de gráficos y elementos visuales específicos del dominio.

Cobertura de datos de entrenamiento

Algunos modelos se entrenan con conjuntos de datos multimodales extensos, mientras que otros se basan principalmente en datos de propósito general.

Los modelos de las familias Claude 4 y Qwen 2.5 incorporan datos visuales y de texto a gran escala, lo que mejora su capacidad para alinear señales numéricas y visuales.
Los modelos entrenados con corpus multimodales más limitados tienen dificultades con los gráficos financieros y los diagramas estructurados.

Los datos de entrenamiento influyen directamente en la fiabilidad con la que un modelo maneja conceptos financieros multimodales.

El estándar requiere coordinación entre la interpretación de imágenes y el razonamiento basado en texto.

Los modelos Claude 4 se describen como eficaces en tareas que implican gráficos y diagramas.
Los modelos que no cuentan con un ajuste fino multimodal específico pueden detectar correctamente las características visuales, pero resultan insuficientes a la hora de conectarlas con el lenguaje o la lógica financiera.

La estrategia de ajuste fino de un modelo afecta a su capacidad para combinar señales textuales y visuales durante el análisis.

Capacidad de manejo del contexto

Los informes financieros suelen contener varios elementos que deben leerse conjuntamente, como gráficos con varias partes o descripciones extensas.

Los modelos con ventanas de contexto más amplias pueden mantener relaciones a lo largo de entradas extensas.
Los modelos más restrictivos pueden pasar por alto dependencias, lo que reduce la precisión en tareas que requieren el seguimiento de múltiples componentes visuales y textuales.

El tamaño de la ventana de contexto influye en la eficacia con la que un modelo mantiene la coherencia entre los detalles cuantitativos y visuales.

Prioridades en cuanto al tamaño y la eficiencia del modelo

Algunos modelos están diseñados deliberadamente para una implementación sencilla en lugar de para un razonamiento de alta complejidad.

Los modelos multimodales Phi-4 y similares priorizan la eficiencia, limitando la profundidad del procesamiento multimodal.
Los modelos más grandes mantienen una mayor capacidad para tareas de razonamiento que implican una comprensión detallada de gráficos.

Esta compensación da como resultado puntuaciones más bajas para los modelos más pequeños.

Diferencias en la comprensión visual

La evaluación incluye tareas que requieren una lectura precisa de gráficos, la identificación de objetos dentro de documentos financieros y la extracción de detalles visuales.

Los modelos con sistemas de procesamiento visual avanzados, como las variantes Qwen 2.5-VL, gestionan estas tareas de forma más eficaz.
Otros pueden manejar bien las imágenes genéricas, pero su rendimiento es inconsistente con las imágenes financieras estructuradas.

La capacidad de razonamiento visual influye notablemente en los resultados de las muestras tipo FinMME.

Características del conjunto de datos de evaluación

El conjunto de datos se centra en el razonamiento financiero multimodal en lugar de en tareas de propósito general.

Los modelos entrenados o ajustados para tareas financieras, numéricas o basadas en gráficos ofrecen mejores resultados.
Los modelos generalistas sin experiencia en un dominio específico presentan una menor precisión en conjuntos de datos financieros.

La especialización de los conjuntos de datos hace que el rendimiento sea más sensible a la calidad del razonamiento multimodal.

¿Qué son los modelos multimodales de gran tamaño de código abierto?

Modelos lineales mixtos de código abierto con su número de estrellas en GitHub:

El gráfico muestra que la popularidad en GitHub de varios modelos lineales mixtos (LMM) de código abierto ha ido en aumento, y algunos modelos han experimentado una rápida adopción poco después de su lanzamiento.

Janus-Series, de DeepSeek, obtuvo miles de estrellas en GitHub a los pocos días del lanzamiento de Janus-Pro el 27 de enero de 2025, superando a sus competidores, que tardaron meses en alcanzar cifras similares. Este rápido ascenso no solo se debió al éxito de Janus-Pro, sino también al impulso generado por DeepSeek-R1 .

Gemma 3 (Google): Gemma 3 es una familia de modelos abiertos ligeros y de última generación, derivados de la tecnología Gemini 2.0. Estos modelos ofrecen capacidades avanzadas de razonamiento visual y textual, una ventana de contexto de 128 000 tokens, compatibilidad con llamadas a funciones y versiones cuantificadas para un rendimiento optimizado. Incluye ShieldGemma 2 para la seguridad de las imágenes y admite diversas herramientas y opciones de implementación. ¹
Janus-Pro de DeepSeek : Janus-Pro es una versión avanzada del modelo Janus, diseñada para comprender y generar texto e imágenes. Cuenta con una estrategia de entrenamiento optimizada, datos de entrenamiento ampliados y un tamaño de modelo mayor, lo que mejora sus capacidades multimodales. ²
Qwen2.5-VL de Alibaba: Qwen2.5-VL de Alibaba es una extensión multimodal del modelo de lenguaje Qwen2.5, diseñado para la comprensión de texto e imágenes. Cuenta con un preentrenamiento a gran escala (hasta 18 T tokens), una ventana de contexto extendida (hasta 128 K tokens), seguimiento de instrucciones mejorado y un sólido soporte multilingüe, lo que lo hace adecuado para tareas como la generación de subtítulos para imágenes y la respuesta a preguntas visuales. ³
- Partiendo de la serie Qwen2.5-VL, Alibaba optimizó y publicó como código abierto Qwen2.5-VL-32B-Instruct, un modelo VL de 32 bits que incorpora una comprensión y un razonamiento de imágenes más precisos. Esto se traduce en un mejor rendimiento y un análisis más detallado en tareas como el análisis de imágenes, el reconocimiento de contenido y la deducción de lógica visual. ⁴
CLIP (Contrastive Language–Image Pretraining) de OpenAI: CLIP está diseñado para comprender imágenes en el contexto del lenguaje natural. Puede realizar tareas como la clasificación de imágenes sin entrenamiento previo, donde puede clasificar con precisión imágenes incluso en categorías para las que no ha sido entrenado explícitamente, mediante la comprensión de descripciones de texto. ⁵
Flamingo de DeepMind: Flamingo está diseñado para aprovechar las fortalezas tanto del lenguaje como de la comprensión visual, lo que le permite realizar tareas que requieren interpretar e integrar información tanto de texto como de imágenes. ⁶

Figura 1: Un ejemplo tomado de Chip Huyen. ⁷

¿Cuáles son los principales modelos lineales mixtos (LMM)?

Funcionalidades de la interfaz de usuario y la API de los LLM de propósito general

Los proveedores se seleccionan entre los modelos de aprendizaje multimodal más populares en función de la comparabilidad, la disponibilidad de datos y la puntualidad.

LMM con su precio por token:

Para seleccionar el modelo más adecuado, tenga en cuenta factores como su presupuesto, las capacidades y el nivel de rendimiento requeridos, y el volumen previsto de tokens de entrada/salida necesarios para su caso de uso específico.

Puedes leer más sobre los precios de los másteres en Derecho (LLM).

¿Cuáles son los últimos avances en modelos multimodales?

Los recientes avances en modelos multimodales han introducido nuevas capacidades y eficiencias en el desarrollo de la IA.

Modelos fundacionales multimodales con prioridad al vídeo

Los modelos multimodales basados en vídeo están yendo más allá de la generación de subtítulos o resúmenes de alto nivel y, en cambio, están aprendiendo a localizar explícitamente la evidencia dentro de los vídeos.

En lugar de describir lo que sucede, pueden identificar cuándo sucede (marcas de tiempo) y dónde sucede (recuadros delimitadores alrededor de objetos o regiones).

Este cambio hacia una fundamentación espaciotemporal hace que la comprensión del vídeo sea más precisa y verificable. También permite realizar tareas como encontrar momentos exactos, rastrear objetos a lo largo del tiempo, editar vídeos mediante lenguaje natural y dar soporte a sistemas robóticos y de seguridad crítica.

Por ejemplo, Vidi ⁸ es un proyecto de código abierto de ByteDance centrado en grandes modelos multimodales para la comprensión y edición de vídeo.

El repositorio alberga el código y los recursos para una familia de modelos (por ejemplo, Vidi-7B, Vidi1.5-9B, Vidi2 y Vidi2.5) que toman imágenes, audio y texto como entradas para realizar tareas como:

Recuperación temporal (encontrar los segmentos de tiempo en un vídeo que coincidan con una consulta de texto).
Anclaje espacio-temporal (localización de objetos a lo largo del tiempo mediante cuadros delimitadores).
Respuestas a preguntas en vídeo

Lanzamiento de la frontera multimodal Mistral 3

Mistral AI ha desarrollado una nueva familia de modelos de IA de código abierto llamada Mistral 3. El conjunto de herramientas Mistral 3 comprende tanto modelos multimodales/multilingües de vanguardia como modelos más pequeños y eficientes diseñados para ejecutarse en una variedad de dispositivos, desde la nube hasta el borde, e incluso en GPU individuales.

Publicados bajo una licencia de código abierto permisiva (Apache 2.0), estos modelos tienen como objetivo democratizar el acceso a la IA avanzada, permitir la personalización y la flexibilidad de implementación, y fortalecer la posición de Europa en el desarrollo de la IA, donde existe preocupación por quedarse rezagada con respecto a Estados Unidos y China en tecnologías de vanguardia. ⁹

Modelos de lenguaje visual de código abierto del Ministerio de Educación

Kimi-VL (de Moonshot AI) es un modelo multimodal de visión y lenguaje de código abierto construido con una arquitectura de mezcla de expertos (MoE), que realiza tareas que combinan texto, imágenes y vídeo manteniendo la eficiencia computacional.

Cuenta con una estructura principal de 16 mil millones de parámetros, pero normalmente solo activa unos 2,8 mil millones de parámetros durante la inferencia, lo que ayuda a equilibrar la capacidad con el coste.

Kimi-VL está diseñado para el razonamiento multimodal avanzado, la comprensión de contextos extensos (hasta ~128 000 tokens) y las interacciones al estilo de los agentes, y compite bien con modelos más grandes en pruebas comparativas como la comprensión de vídeo, el reconocimiento óptico de caracteres (OCR) , el razonamiento matemático y las tareas con múltiples imágenes.

Las variantes como Kimi-VL-A3B-Thinking se perfeccionan aún más para tareas de razonamiento y secuencias de pensamiento, mientras que el codificador visual MoonViT admite la comprensión de entradas de alta resolución.

Figura 2: Diseño arquitectónico de Kimi-VL. ¹⁰

Serie 4 de Claude (Anthropic)

La serie Claude 4 de Anthropic integra una comprensión visual avanzada con su motor de razonamiento basado en texto, incorporando la visión directamente en los flujos de trabajo de resolución de problemas.

Los modelos Claude 4 demuestran un excelente rendimiento en pruebas de razonamiento multimodal como MMMU, especialmente en la interpretación de gráficos, diagramas y datos visuales complejos. Una característica distintiva de Claude Opus 4.1 es su capacidad para evaluar cualidades estéticas en imágenes, yendo más allá del simple reconocimiento para realizar evaluaciones más matizadas.

Estas capacidades, combinadas con las funciones de agente de Claude, hacen que la serie sea eficaz para tareas como sintetizar investigaciones a partir de informes con texto e imágenes combinados o ayudar en el diseño de interfaces mediante el análisis de maquetas visuales.

GPT-5 por OpenAI

GPT-5 introduce una multimodalidad nativa mejorada que abarca texto, voz, imagen y vídeo. A diferencia de los sistemas anteriores, que dependían en gran medida de los complementos, GPT-5 integra estas modalidades en una arquitectura unificada, lo que resulta en una interacción más fluida. El modelo se adapta de forma flexible a diversos tipos de entrada y puede alternar entre ellos.

Una característica destacable es su modo de voz en tiempo real, que ajusta el tono, el ritmo y el estilo según las instrucciones del usuario. Esto crea una experiencia conversacional más natural y adaptable. El procesamiento visual también ha mejorado, reduciendo las distorsiones al interpretar o generar imágenes, diagramas y gráficos. Otro avance reside en sus capacidades de memoria, que permiten al sistema recordar entradas anteriores y mantener el contexto durante interacciones prolongadas.

Estas mejoras hacen que GPT-5 sea particularmente valioso para interfaces multimodales accesibles, especialmente para personas con discapacidades sensoriales.

Google Modelos multimodales de DeepMind centrados en la robótica

DeepMind ha desarrollado Gemini Robotics y Gemini Robotics-ER, modelos diseñados para integrar visión, lenguaje y acción en sistemas robóticos. Estos modelos permiten a los robots realizar tareas en entornos no estructurados, como doblar papel o desenroscar tapas de botellas.

Una característica clave de estos modelos es su mecanismo de seguridad. Antes de ejecutar acciones, el sistema realiza comprobaciones integradas para minimizar riesgos y garantizar el correcto manejo de las tareas. Este enfoque aborda uno de los desafíos más importantes de la robótica: conectar el razonamiento avanzado de la IA con una ejecución segura y fiable en el mundo real.

Llama 4 Scout y Llama 4 Maverick por Meta IA

Llama 4 Scout es un modelo multimodal con 17 mil millones de parámetros activos y 16 expertos. Este modelo supera a los modelos Llama de la generación anterior y está diseñado para operar en una sola GPU H100. Cuenta con una ventana de contexto de 10 millones de tokens para procesar grandes cantidades de información. Los resultados de las pruebas de rendimiento indican que Llama 4 Scout obtiene mejores resultados que Gemma 3, Gemini 2.0 Flash-Lite y Mistral 3.1 en una variedad de pruebas de rendimiento ampliamente difundidas.

Llama 4 Maverick es un modelo multimodal con 17 mil millones de parámetros activos y 128 expertos. Este modelo se presenta como uno de los mejores de su clase, superando a GPT-4o y Gemini 2.0 Flash en diversas pruebas comparativas. Alcanza un rendimiento comparable al de DeepSeek v3 en razonamiento y codificación, utilizando menos parámetros activos. Una versión experimental de Llama 4 Maverick para chat obtuvo una puntuación ELO de 1417 en la plataforma LMArena.

4o Generación de imagen por OpenAI

El modelo de generación de imágenes más reciente de OpenAI, integrado en GPT-4o , combina texto y creación visual en un sistema unificado. Esta capacidad multimodal permite a GPT-4 generar imágenes a partir de su conocimiento basado en texto y el contexto del chat, creando una interacción entre el lenguaje y las imágenes.

Mediante la generación de imágenes en múltiples turnos, los usuarios pueden refinarlas de forma conversacional, como se muestra en las figuras a continuación. El modelo se basa en entradas de texto previas e imágenes cargadas para mantener la coherencia. Al analizar las imágenes proporcionadas por el usuario y aprender en contexto, GPT-4o se adapta a detalles específicos, mejorando su capacidad para producir imágenes que tengan en cuenta el contexto.

Figura 3: Cómo sugerir la creación de un dibujo utilizando referencias e instruir sobre las características del texto para la imagen.

Figura 4: Cómo se crea una fotografía a partir del dibujo y se la ubica en una escena. ¹¹

Qwen2.5-VL-32B-Instrucciones de Alibaba

El modelo Qwen2.5-VL-32B-Instruct de Alibaba se basa en el modelo de lenguaje Qwen2.5 e incorpora funciones de procesamiento visual. Este modelo de 32 mil millones de parámetros se centra en la comprensión y el razonamiento de imágenes. Fue preentrenado con 18 billones de tokens y una ventana de contexto de 128 000 tokens, e incluye soporte multilingüe. El modelo mejora el análisis de imágenes, el reconocimiento de contenido y el razonamiento visual, lo que lo hace útil para aplicaciones que combinan el análisis de imágenes y texto.

Gemma 3 por Google

Gemma 3 de Google se basa en la tecnología de sus modelos Gemini 2.0. Viene en cuatro tamaños (1B, 4B, 12B y 27B) para diferentes requisitos de hardware y ofrece una ventana de contexto de 128k tokens. Gemma 3 funciona bien en configuraciones de un solo acelerador e incluye razonamiento textual y visual, llamada a funciones y soporte para más de 35 idiomas, con preentrenamiento para más de 140. Las versiones cuantificadas reducen el tamaño del modelo y las necesidades de computación. El sistema ShieldGemma 2 proporciona clasificación de seguridad de contenido.

Phi-4-multimodal por Microsoft

El modelo Phi-4-multimodal de Microsoft, con 5.600 millones de parámetros, procesa voz, visión y texto en una arquitectura unificada. Utiliza aprendizaje multimodal para interacciones contextuales entre diferentes tipos de entrada. El modelo admite múltiples formatos de entrada sin necesidad de sistemas de procesamiento independientes y está diseñado para su implementación en dispositivos y computación perimetral. Entre sus aplicaciones se incluyen la IA para smartphones, sistemas automotrices y servicios multilingües.

¿Qué es un modelo multimodal grande (LMM)?

Un modelo multimodal de gran tamaño es un tipo avanzado de modelo de inteligencia artificial capaz de procesar y comprender múltiples modalidades de datos. Estos datos multimodales pueden incluir texto, imágenes, audio, vídeo y, potencialmente, otros. La característica clave de un modelo multimodal es su capacidad para integrar e interpretar información de estas diferentes fuentes de datos, a menudo de forma simultánea.

Estos modelos pueden entenderse como versiones más avanzadas de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) que pueden trabajar con texto y con diversos tipos de datos. Además, las salidas de los modelos de lenguaje multimodales están diseñadas para ser no solo textuales, sino también visuales, auditivas, etc.

Los modelos de lenguaje multimodales se consideran el siguiente paso hacia el logro de la inteligencia artificial general .

¿Qué es un agente de IA multimodal?

Los agentes de IA multimodales son sistemas diseñados para interactuar con el mundo mediante diversos tipos de datos, como imágenes, vídeos y texto, lo que les permite operar tanto en entornos digitales como físicos. Los modelos multimodales son el componente central de estos agentes, ya que les permiten percibir y comprender información de diversas fuentes.

Por ejemplo, modelos como Magma utilizan la comprensión del lenguaje visual y la inteligencia espacial, logradas mediante técnicas como Set-of-Mark y Trace-of-Mark durante el preentrenamiento en conjuntos de datos multimodales.

Esto permite al agente realizar tareas que van desde comprender contenido de vídeo y responder preguntas hasta navegar por interfaces de usuario y controlar robots, demostrando las capacidades versátiles que los modelos multimodales aportan a los agentes de IA al aprovechar diferentes modalidades de datos. La siguiente ilustración muestra a Magma planificando trayectorias de robots para completar tareas, lo que evidencia su inteligencia espacial en acción. ¹²

¿Cuál es la diferencia entre LMM y LLM?

1. Modalidades de datos

Los LMM están diseñados para comprender y procesar múltiples tipos de datos, o modalidades. Esto incluye texto, imágenes, audio, video y, en ocasiones, otros tipos de datos, como datos sensoriales. La principal capacidad de los LMM radica en su habilidad para integrar y dar sentido a estos diferentes formatos de datos, a menudo de forma simultánea.
Modelos de lenguaje natural (MLN) : Estos modelos se especializan en el procesamiento y la generación de datos textuales. Se entrenan principalmente con grandes corpus de texto y son capaces de comprender y generar lenguaje humano en diversos contextos. No procesan inherentemente datos no textuales como imágenes o audio.

2. Aplicaciones y tareas

Modelos lineales mixtos (MLM) : Debido a su naturaleza multimodal, estos modelos pueden aplicarse a tareas que requieren comprender e integrar información de diferentes tipos de datos. Por ejemplo, un MLM podría analizar un artículo de noticias (texto), sus fotografías (imágenes) y videoclips relacionados para obtener una comprensión integral.
Másteres en Derecho (LLM) : Sus aplicaciones se centran en tareas que implican texto, como escribir artículos, traducir idiomas, responder preguntas, resumir documentos y crear contenido basado en texto.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

¿Cuáles son las modalidades de datos de los grandes modelos multimodales?

Texto

Esto incluye cualquier tipo de contenido escrito, como libros, artículos, páginas web y publicaciones en redes sociales. El modelo puede comprender, interpretar y generar contenido textual, incluyendo tareas de procesamiento del lenguaje natural como traducción, resumen y respuesta a preguntas.

Imágenes

Estos modelos pueden analizar y generar datos visuales. Esto incluye comprender el contenido y el contexto de fotografías, ilustraciones y otras representaciones gráficas. Tareas como la clasificación de imágenes , la detección de objetos y la generación de imágenes a partir de descripciones textuales se incluyen en esta categoría.

Audio

Esto abarca grabaciones de sonido, música y lenguaje hablado. Los modelos pueden entrenarse para reconocer el habla , la música, los sonidos ambientales y otras señales auditivas. Pueden transcribir el habla, comprender comandos verbales e incluso generar habla o música sintéticas.

Video

El procesamiento de vídeo, que combina elementos visuales y auditivos, implica comprender las imágenes en movimiento y los sonidos que las acompañan. Esto puede incluir el análisis del contenido de vídeo, el reconocimiento de acciones o eventos en los vídeos y la generación de videoclips.

Si bien la mayoría de los modelos de lenguaje multimodales actuales solo pueden procesar texto e imágenes, las investigaciones futuras pretenden incluir entradas de datos de audio y vídeo.

¿Cómo se entrenan los modelos multimodales de gran tamaño?

El entrenamiento de grandes modelos multimodales (LMM) difiere significativamente del entrenamiento de grandes modelos de lenguaje (LLM) en varios aspectos clave:

1. Recopilación y preparación de datos

LLM : Centrarse en datos textuales de libros, sitios web y fuentes escritas, con énfasis en la diversidad lingüística para las fuentes de datos de formación de LLM .
Modelos lineales mixtos (MLM) : Requieren datos de texto, imágenes, audio y video. La recopilación es más compleja debido a la variedad de formatos. La anotación de datos y la alineación entre las distintas modalidades son esenciales.

2. Diseño de arquitectura modelo

LLM : Utilizan arquitecturas de transformadores optimizadas para el procesamiento secuencial de texto.
Modelos lineales mixtos (LMM) : Emplean arquitecturas más complejas que integran múltiples tipos de redes neuronales (CNN para imágenes, transformadores para texto) con mecanismos para conectar estas modalidades.

3. Entrenamiento previo

Modelos de lenguaje natural (LLM) : Preentrenar en corpus de texto utilizando técnicas como el modelado de lenguaje enmascarado.
Modelos lineales mixtos (LMM) : Preentrenados con múltiples tipos de datos, aprenden a correlacionar texto con imágenes o a comprender secuencias de vídeo.

4. Ajuste fino

Modelos de lenguaje natural (LLM) : Ajuste fino en conjuntos de datos de texto especializados para tareas específicas.
Modelos lineales mixtos (LMM) : Requieren un ajuste fino tanto en conjuntos de datos específicos de cada modalidad como en conjuntos de datos intermodales para establecer relaciones entre diferentes tipos de datos.

5. Evaluación e iteración

Las métricas de evaluación de LLM se centran en las tareas de comprensión y generación del lenguaje, incluyendo la fluidez, la coherencia y la relevancia.
Modelos lineales mixtos (LMM) : Evaluados según métricas más amplias que abarcan el reconocimiento de imágenes, el procesamiento de audio y las capacidades de integración multimodal.

¿Cómo funcionan los másteres en Derecho (LLM)?

Los modelos multimodales de gran tamaño comparten similitudes con los modelos de lenguaje de gran tamaño en su proceso de entrenamiento, diseño y funcionamiento. Utilizan la misma arquitectura de transformador y estrategias de entrenamiento. Los modelos multimodales de gran tamaño se entrenan con:

Datos de texto
Millones o miles de millones de imágenes con descripciones de texto.
Videoclips
fragmentos de audio
Otros datos de entrada, como el código

Este entrenamiento implica el aprendizaje simultáneo de múltiples modalidades de datos, lo que permite al modelo:

Reconoce una foto de un gato
Identifica una palabra en un clip de audio.
Comprender conceptos y detalles sensoriales más allá del texto.

De esta forma, los usuarios pueden subir:

Una imagen para:
- Obtén una descripción de lo que está sucediendo.
- Utilice la imagen como parte de una indicación para generar texto o imágenes.
- Haga preguntas de seguimiento sobre elementos específicos de la imagen.
- Traduzca el texto de la imagen a otro idioma (por ejemplo, Menú).

Figura 5: Subir una imagen de un gato a ChatGPT para describirlo.

Gráficos y diagramas para:
- Haz preguntas de seguimiento complicadas sobre lo que muestran.
Maqueta de diseño para:
- Obtén el código HTML y CSS necesario para crearlo.

Figura 6: Solicitud de imagen al estilo de las películas de Wes Anderson. ChatGPT introduce la solicitud en un modelo de generación de imágenes (como DALL·E), que interpreta la petición y produce la imagen con el estilo deseado.

Tras el proceso de entrenamiento, los modelos podrían incorporar estereotipos poco saludables e ideas tóxicas. Para refinarlos, se utilizan técnicas como:

Aprendizaje por refuerzo con retroalimentación humana (RLHF)
Modelos de IA de supervisión
Se puede utilizar el "red teaming" (prueba de la robustez del modelo).

Además, las herramientas de gobernanza de IA y las herramientas de IA responsable, que funcionan como soluciones de cumplimiento de IA, también pueden permitir la optimización del inventario de IA, lo que ayuda a prevenir el sesgo de la IA y otros dilemas éticos. He aquí un ejemplo de cómo estas herramientas abordan las preocupaciones generales sobre los derechos de autor en la IA :

Figura 7: ChatGPT rechaza mi solicitud debido a las directrices de política de contenido para proteger los derechos de autor.

El objetivo es desarrollar un sistema multimodal funcional capaz de gestionar:

Síntesis de texto a imagen
Subtítulos de imágenes
Recuperación de imágenes basada en texto
Respuesta visual a preguntas.

De esta forma, la IA multimodal puede integrar diversas modalidades, proporcionando capacidades avanzadas para tareas que involucran tanto el lenguaje como la visión.

¿Cuáles son las limitaciones de los modelos de lenguaje a gran escala?

Requisitos de datos y sesgos : Estos modelos requieren conjuntos de datos masivos y diversos para su entrenamiento. Sin embargo, la disponibilidad y la calidad de dichos conjuntos de datos pueden ser un desafío. Además, si los datos de entrenamiento contienen sesgos, es probable que el modelo los herede e incluso los amplifique, lo que puede generar resultados injustos o poco éticos.
Recursos computacionales : El entrenamiento y la ejecución de grandes modelos multimodales requieren importantes recursos computacionales, lo que los hace costosos y menos accesibles para organizaciones más pequeñas o investigadores independientes.
Interpretabilidad y explicabilidad : Al igual que con los modelos de IA complejos, comprender cómo toman decisiones puede resultar difícil. Esta falta de transparencia puede ser un problema crítico, especialmente en aplicaciones delicadas como la atención médica o la aplicación de la ley.
Integración de modalidades : Integrar eficazmente diferentes tipos de datos (como texto, imágenes y audio) de manera que se comprendan los matices de cada modalidad resulta sumamente complejo. Es posible que el modelo no siempre capte con precisión el contexto ni las sutilezas de la comunicación humana que surgen al combinar estas modalidades.
Generalización y sobreajuste : Si bien estos modelos se entrenan con conjuntos de datos extensos, pueden tener dificultades para generalizar a datos nuevos y desconocidos o a escenarios que difieren significativamente de sus datos de entrenamiento. Por el contrario, pueden sobreajustarse a los datos de entrenamiento, interpretando el ruido y las anomalías como patrones.

Para obtener más información, explore los desafíos y riesgos asociados con los modelos generativos y de lenguaje .

Metodología de referencia para modelos lineales mixtos

Evaluamos el rendimiento de los modelos multimodales grandes (LMM) utilizando un subconjunto del conjunto de datos FinMME. ¹³ , un conjunto de datos de referencia integral diseñado para evaluar las capacidades de razonamiento multimodal financiero, comprende más de 11 000 muestras financieras de alta calidad en 18 dominios financieros y 6 clases de activos, lo que proporciona un marco sólido para evaluar los modelos lineales mixtos en el ámbito financiero.

Para esta evaluación comparativa, utilizamos una selección curada de 100 muestras del conjunto de datos FinMME para analizar la capacidad de los modelos para procesar y razonar con datos financieros multimodales.

Descargo de responsabilidad

Esta evaluación utilizó un subconjunto seleccionado de 100 muestras de un conjunto de datos más amplio para comparar el rendimiento de los modelos lineales mixtos (LMM). Para una evaluación exhaustiva del rendimiento del modelo, deben considerarse todas las muestras del conjunto de datos de referencia completo.

Conclusión

Los modelos multimodales grandes (LMM) integran diversos tipos de datos, como texto, imágenes, audio y vídeo, superando así las capacidades de procesamiento de texto de los modelos de lenguaje grandes (LLM). Gracias a avances como Llama 4 de AI, 1178o de Alibaba y VL de Alibaba, los LMM permiten aplicaciones más sofisticadas, desde el razonamiento visual hasta la generación de imágenes con información contextual.

Sin embargo, su complejidad, las elevadas exigencias computacionales y los desafíos relacionados con la integración de datos y la mitigación de sesgos siguen siendo obstáculos. A medida que los modelos lineales mixtos (MLM) evolucionan, allanan el camino para agentes de IA más versátiles, acercándonos a la inteligencia artificial general. Para las organizaciones e investigadores, seleccionar el modelo adecuado implica encontrar un equilibrio entre el rendimiento, el coste y las necesidades específicas del caso de uso.

Enlaces de referencia

Gemma 3: Google’s new open model based on Gemini 2.0

Google

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models · GitHub

GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. · GitHub

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

CLIP: Connecting text and images | OpenAI

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

[2204.14198] Flamingo: a Visual Language Model for Few-Shot Learning

Multimodality and Large Multimodal Models (LMMs)

GitHub - bytedance/vidi: The official repo for "Vidi: Large Multimodal Models for Video Understanding and Editing" · GitHub

GitHub - MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities · GitHub

12.

Gemini 3: Introducing the latest Gemini AI model from Google

Google

13.

Introducing 4o Image Generation | OpenAI

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo