Modelos Multimodais de Grande Porte (LMMs) vs. Modelos Multimodais de Grande Porte (LLMs)

atualizado em Fev 11, 2026

Avaliamos o desempenho de Modelos Multimodais de Grande Porte (LMMs) em tarefas de raciocínio financeiro usando um conjunto de dados cuidadosamente selecionado. Ao analisar um subconjunto de amostras financeiras de alta qualidade, avaliamos as capacidades dos modelos no processamento e raciocínio com dados multimodais no domínio financeiro.

Loading Chart

A seção de metodologia fornece informações detalhadas sobre o conjunto de dados e a estrutura de avaliação utilizados.

Explore modelos multimodais de grande escala e compare-os com modelos de linguagem de grande escala .

Por que os modelos tiveram desempenhos diferentes?

A variação nas taxas de sucesso reflete as diferenças na forma como cada modelo processa tarefas financeiras multimodais. Como o benchmark utiliza amostras do conjunto de dados FinMME, que exigem a integração de texto e elementos visuais financeiros, como gráficos e documentos estruturados, o desempenho depende fortemente da arquitetura do modelo, da qualidade do treinamento e do alinhamento multimodal.

Arquitetura do modelo e projeto de parâmetros

Os modelos diferem na forma como combinam codificadores de texto e imagem, no número de parâmetros ativos e na complexidade do seu roteamento especializado.

O Llama 4 Maverick, por exemplo, utiliza um design mais amplo baseado em especialistas, permitindo um raciocínio mais robusto.
Modelos menores ou focados em eficiência possuem menos parâmetros alinhados ao raciocínio multimodal, o que limita o desempenho.

Essas distinções arquitetônicas afetam a capacidade de cada modelo de interpretar relações numéricas, estruturas de gráficos e recursos visuais específicos do domínio.

Cobertura de dados de treinamento

Alguns modelos são treinados em extensos conjuntos de dados multimodais, enquanto outros dependem principalmente de dados de uso geral.

Os modelos das famílias Claude 4 e Qwen 2.5 incorporam dados visuais e textuais em larga escala, melhorando sua capacidade de alinhar pistas numéricas e visuais.
Modelos treinados em corpora multimodais mais limitados têm dificuldades com gráficos financeiros e diagramas estruturados.

Os dados de treinamento influenciam diretamente a confiabilidade com que um modelo lida com conceitos financeiros multimodais.

O teste de referência exige coordenação entre a interpretação de imagens e o raciocínio baseado em texto.

Os modelos Claude 4 são descritos como fortes em tarefas que envolvem gráficos e diagramas.
Modelos sem ajuste fino multimodal dedicado podem detectar características visuais corretamente, mas falham ao conectá-las à linguagem ou lógica financeira.

A estratégia de ajuste fino de um modelo afeta sua capacidade de combinar sinais textuais e visuais durante a análise.

Capacidade de lidar com o contexto

Os exemplos financeiros geralmente contêm vários elementos que devem ser lidos em conjunto, como gráficos com várias partes ou descrições extensas.

Modelos com janelas de contexto mais amplas conseguem manter relações ao longo de entradas extensas.
Modelos mais restritivos podem não detectar dependências, reduzindo a precisão em tarefas que exigem o rastreamento de múltiplos componentes visuais e textuais.

O tamanho da janela de contexto influencia a capacidade de um modelo manter o alinhamento entre os detalhes quantitativos e visuais.

Prioridades de tamanho e eficiência do modelo

Alguns modelos são projetados deliberadamente para implantação simples em vez de raciocínio de alta complexidade.

O modelo multimodal Phi-4 e modelos similares priorizam a eficiência, limitando a profundidade do processamento multimodal.
Modelos maiores mantêm uma capacidade maior para tarefas de raciocínio que envolvem a compreensão detalhada de gráficos.

Essa compensação resulta em pontuações mais baixas para modelos menores.

Diferenças na compreensão visual

A avaliação inclui tarefas que exigem leitura precisa de gráficos, identificação de objetos em documentos financeiros e extração de detalhes visuais.

Modelos com pipelines visuais avançados, como as variantes Qwen 2.5-VL, gerenciam essas tarefas com mais eficiência.
Outros podem lidar bem com imagens genéricas, mas apresentar desempenho inconsistente com recursos visuais financeiros estruturados.

A capacidade de raciocínio visual influencia fortemente os resultados em amostras do tipo FinMME.

Características do conjunto de dados de avaliação

O conjunto de dados foca-se no raciocínio financeiro multimodal em vez de tarefas de propósito geral.

Modelos treinados ou ajustados para tarefas financeiras, numéricas ou baseadas em gráficos apresentam melhor desempenho.
Modelos generalistas sem conhecimento específico do domínio apresentam menor precisão em conjuntos de dados financeiros.

A especialização do conjunto de dados torna o desempenho mais sensível à qualidade do raciocínio intermodal.

O que são modelos multimodais de grande porte de código aberto?

Modelos de Markov de código aberto com o número de estrelas no GitHub:

O gráfico mostra que a popularidade de vários modelos lineares mistos (LMMs) de código aberto no GitHub tem aumentado, com alguns modelos experimentando rápida adoção logo após o seu lançamento.

A série Janus, criada por DeepSeek, ganhou milhares de estrelas no GitHub poucos dias após o lançamento do Janus-Pro em 27 de janeiro de 2025, superando seus concorrentes, que levaram meses para atingir números semelhantes. Essa ascensão meteórica não se deveu apenas ao sucesso do Janus-Pro, mas também foi influenciada pelo impulso gerado pelo DeepSeek-R1 .

Gemma 3 por Google: Gemma 3 é uma família de modelos abertos, leves e de última geração, derivados da tecnologia Gemini 2.0. Esses modelos oferecem recursos avançados de raciocínio textual e visual, uma janela de contexto de 128 mil tokens, suporte a chamadas de função e versões quantizadas para desempenho otimizado. Inclui o ShieldGemma 2 para segurança de imagens e suporta diversas ferramentas e opções de implantação. ¹
Janus-Pro por DeepSeek : Janus-Pro é uma versão avançada do modelo Janus, projetada para compreender e gerar texto e imagens. Apresenta uma estratégia de treinamento otimizada, dados de treinamento expandidos e um tamanho de modelo maior, aprimorando suas capacidades multimodais. ²
Qwen2.5-VL da Alibaba: Qwen2.5-VL da Alibaba é uma extensão multimodal do modelo de linguagem Qwen2.5, projetada para compreensão de texto e imagem. Possui pré-treinamento em larga escala (até 18 trilhões de tokens), uma janela de contexto estendida (até 128 mil tokens), seguimento de instruções aprimorado e suporte multilíngue robusto, tornando-a adequada para tarefas como legendagem de imagens e perguntas e respostas visuais. ³
- Com base na série Qwen2.5-VL, a Alibaba otimizou e disponibilizou como código aberto o Qwen2.5-VL-32B-Instruct, um modelo VL de 32 bits que incorpora compreensão e raciocínio de imagem aprimorados e detalhados. Isso resulta em melhor desempenho e análise mais precisa em tarefas como análise de imagens, reconhecimento de conteúdo e dedução de lógica visual. ⁴
CLIP (Contrastive Language–Image Pretraining) por OpenAI: O CLIP foi projetado para entender imagens no contexto da linguagem natural. Ele pode realizar tarefas como classificação de imagens zero-shot, onde consegue classificar imagens com precisão mesmo em categorias para as quais não foi explicitamente treinado, através da compreensão de descrições textuais. ⁵
Flamingo, da DeepMind: O Flamingo foi projetado para aproveitar os pontos fortes da compreensão da linguagem e da visão, tornando-o capaz de executar tarefas que exigem a interpretação e integração de informações de texto e imagens. ⁶

Figura 1: Um exemplo retirado de Chip Huyen ⁷

Quais são os principais LMMs?

Recursos gerais de interface do usuário e API do LLM

Os fornecedores são selecionados entre os LLMs multimodais mais populares com base na comparabilidade, disponibilidade de dados e pontualidade.

LMMs com seus respectivos preços por token:

Para selecionar o modelo mais adequado, considere fatores como seu orçamento, os recursos e o nível de desempenho necessários, bem como o volume esperado de tokens de entrada/saída para o seu caso de uso específico.

Você pode ler mais sobre os preços dos LLMs.

Quais são os avanços mais recentes em modelos multimodais?

Os avanços recentes em modelos multimodais introduziram novas capacidades e eficiências no desenvolvimento de IA.

modelos de fundação multimodal com foco em vídeo

Os modelos de base multimodal com foco em vídeo estão indo além da geração de legendas ou resumos de alto nível e, em vez disso, estão aprendendo a localizar explicitamente as evidências dentro dos vídeos.

Em vez de descrever o que acontece, eles podem identificar quando acontece (registros de data e hora) e onde acontece (caixas delimitadoras em torno de objetos ou regiões).

Essa mudança em direção a uma fundamentação espaço-temporal torna a compreensão de vídeos mais precisa e verificável. Ela também possibilita tarefas como encontrar momentos exatos, rastrear objetos ao longo do tempo, editar vídeos usando linguagem natural e dar suporte a sistemas de robótica e de segurança crítica.

Por exemplo, Vidi ⁸ é um projeto de código aberto de ByteDance focado em grandes modelos multimodais para compreensão e edição de vídeo.

O repositório hospeda o código e os recursos para uma família de modelos (por exemplo, Vidi-7B, Vidi1.5-9B, Vidi2 e Vidi2.5) que utilizam visão, áudio e texto como entradas para realizar tarefas como:

Recuperação temporal (encontrar os segmentos de tempo em um vídeo que correspondem a uma consulta de texto)
Ancoragem espaço-temporal (identificação de objetos ao longo do tempo com caixas delimitadoras)
Vídeo com perguntas e respostas

Lançamento multimodal de fronteira do Mistral 3

A Mistral AI desenvolveu uma nova família de modelos de IA de código aberto chamada Mistral 3. O conjunto Mistral 3 compreende tanto modelos multimodais/multilíngues de ponta quanto modelos menores e eficientes, projetados para serem executados em uma variedade de dispositivos, da nuvem à borda, e até mesmo em GPUs individuais.

Lançados sob uma licença permissiva de código aberto (Apache 2.0), esses modelos visam democratizar o acesso à IA avançada, permitir flexibilidade de personalização e implantação e fortalecer a posição da Europa no desenvolvimento de IA, onde há preocupações sobre o atraso em relação aos EUA e à China em tecnologias de ponta. ⁹

Modelos de linguagem visual MoE de código aberto

Kimi-VL (de Moonshot AI) é um modelo multimodal de visão e linguagem de código aberto, construído com uma arquitetura de Mistura de Especialistas (MoE), que executa tarefas que combinam texto, imagens e vídeo, mantendo a eficiência computacional.

Possui uma estrutura básica com 16 bilhões de parâmetros no total, mas normalmente ativa apenas cerca de 2,8 bilhões de parâmetros durante a inferência, o que ajuda a equilibrar a capacidade com o custo.

O Kimi-VL foi projetado para raciocínio multimodal avançado, compreensão de contextos longos (até ~128 mil tokens) e interações no estilo de agentes, e apresenta bom desempenho em comparação com modelos maiores em benchmarks como compreensão de vídeo, reconhecimento óptico de caracteres (OCR) , raciocínio matemático e tarefas com múltiplas imagens.

Variantes como o Kimi-VL-A3B-Thinking são ainda mais otimizadas para tarefas de raciocínio e cadeia de pensamento, enquanto o codificador visual MoonViT oferece suporte à compreensão de entradas de alta resolução.

Figura 2: Projeto da arquitetura Kimi-VL. ¹⁰

Série Claude 4 de Anthropic

A série Claude 4 da Anthropic integra a compreensão visual avançada com seu mecanismo de raciocínio baseado em texto, incorporando a visão diretamente nos fluxos de trabalho de resolução de problemas.

Os modelos Claude 4 demonstram um desempenho sólido em benchmarks de raciocínio multimodal, como o MMMU, particularmente na interpretação de gráficos, diagramas e dados visuais complexos. Uma característica distintiva do Claude Opus 4.1 é sua capacidade de avaliar qualidades estéticas em imagens, indo além do reconhecimento e realizando avaliações mais sutis.

Essas capacidades, combinadas com as funções de agente de Claude, tornam a série eficaz para tarefas como sintetizar pesquisas a partir de relatórios com texto e elementos visuais mistos ou auxiliar no design de interfaces por meio da análise de protótipos visuais.

GPT-5 por OpenAI

O GPT-5 introduz multimodalidade nativa aprimorada em texto, voz, imagem e vídeo. Ao contrário dos sistemas anteriores que dependiam muito de plugins, o GPT-5 integra essas modalidades em uma arquitetura unificada, resultando em uma interação mais fluida. O modelo se adapta de forma flexível a vários tipos de entrada e pode fazer a transição entre eles.

Uma característica notável é o seu Modo de Voz em Tempo Real, que ajusta o tom, o ritmo e o estilo de acordo com as instruções do usuário. Isso cria uma experiência de conversação mais natural e adaptativa. O processamento visual também foi aprimorado, reduzindo alucinações na interpretação ou geração de imagens, diagramas e gráficos. Outro avanço reside na capacidade de memória, que permite ao sistema recuperar entradas anteriores e manter o contexto ao longo de interações prolongadas.

Essas melhorias tornam o GPT-5 particularmente valioso para interfaces multimodais acessíveis, especialmente para indivíduos com deficiências sensoriais.

Google Modelos multimodais da DeepMind focados em robótica

A DeepMind desenvolveu o Gemini Robotics e o Gemini Robotics-ER, modelos projetados para integrar visão, linguagem e ação em sistemas robóticos. Esses modelos permitem que robôs executem tarefas em ambientes não estruturados, como dobrar papel ou desenroscar tampas de garrafa.

Uma característica fundamental desses modelos é seu mecanismo de segurança. Antes de executar ações, o sistema realiza verificações internas para minimizar riscos e garantir o manuseio adequado das tarefas. Essa abordagem aborda um dos desafios significativos da robótica: conciliar o raciocínio avançado da IA com a execução segura e confiável no mundo real.

Llama 4 Scout e Llama 4 Maverick por Meta IA

O Llama 4 Scout é um modelo multimodal com 17 bilhões de parâmetros ativos e 16 especialistas. Este modelo supera os modelos Llama de gerações anteriores e foi projetado para operar em uma única GPU H100. Ele apresenta uma janela de contexto de 10 milhões de tokens para processar grandes quantidades de informações. Resultados de benchmarks indicam que o Llama 4 Scout alcança melhores resultados do que o Gemma 3, o Gemini 2.0 Flash-Lite e o Mistral 3.1 em uma variedade de benchmarks amplamente divulgados.

O Llama 4 Maverick é um modelo multimodal com 17 bilhões de parâmetros ativos e 128 especialistas. Este modelo se destaca em sua categoria, superando o GPT-4o e o Gemini 2.0 Flash em diversos benchmarks. Ele alcança desempenho comparável ao DeepSeek v3 em raciocínio e codificação, utilizando menos parâmetros ativos. Uma versão experimental do Llama 4 Maverick para bate-papo alcançou uma pontuação ELO de 1417 na plataforma LMArena.

4ª Geração de Imagem por OpenAI

O modelo de geração de imagens mais recente do OpenAI, incorporado ao GPT-4o , integra a criação de texto e visual em um sistema unificado. Essa capacidade multimodal permite que o GPT-4 gere imagens utilizando seu conhecimento baseado em texto e o contexto do chat, criando uma interação entre linguagem e elementos visuais.

Por meio da geração de múltiplas interações, os usuários podem refinar imagens de forma conversacional, como mostrado nas figuras abaixo. O modelo se baseia em entradas de texto anteriores e imagens carregadas para manter a consistência. Ao analisar os recursos visuais fornecidos pelo usuário e aprender no contexto, o GPT-4o se adapta a detalhes específicos, aprimorando sua capacidade de produzir imagens contextuais.

Figura 3: Incentivando a criação de um desenho usando referências e instruindo sobre características textuais para a imagem.

Figura 4: Incentivando a criação de uma foto a partir do desenho e inserindo-a em uma cena. ¹¹

Qwen2.5-VL-32B-Instruções da Alibaba

O modelo Qwen2.5-VL-32B-Instruct da Alibaba baseia-se no modelo de linguagem Qwen2.5 com recursos de processamento visual. O modelo de 32 bilhões de parâmetros concentra-se na compreensão e no raciocínio de imagens. Ele foi pré-treinado com 18 trilhões de tokens e uma janela de contexto de 128 mil tokens, além de incluir suporte multilíngue. O modelo aprimora a análise sintática de imagens, o reconhecimento de conteúdo e o raciocínio visual, tornando-o útil para aplicações que combinam análise de imagem e texto.

Gemma 3 por Google

O Gemma 3 da Google baseia-se na tecnologia dos seus modelos Gemini 2.0. Está disponível em quatro tamanhos (1B, 4B, 12B e 27B) para diferentes requisitos de hardware e oferece uma janela de contexto de 128 mil tokens. O Gemma 3 apresenta bom desempenho em configurações com um único acelerador e inclui raciocínio textual e visual, chamada de funções e suporte para mais de 35 idiomas, com pré-treinamento para mais de 140. Versões quantizadas reduzem o tamanho do modelo e as necessidades computacionais. O sistema ShieldGemma 2 oferece classificação de segurança de conteúdo.

Phi-4-multimodal por Microsoft

O modelo Phi-4-multimodal de Microsoft possui 5,6 bilhões de parâmetros e processa fala, visão e texto em uma arquitetura unificada. Ele utiliza aprendizado multimodal para interações contextuais entre diferentes tipos de entrada. O modelo lida com múltiplos formatos de entrada sem a necessidade de sistemas de processamento separados e foi projetado para implantação em dispositivos e computação de borda. As aplicações incluem IA para smartphones, sistemas automotivos e serviços multilíngues.

O que é um modelo multimodal de grande escala (LMM)?

Um modelo multimodal de grande porte é um tipo avançado de modelo de inteligência artificial capaz de processar e compreender múltiplos tipos de modalidades de dados. Esses dados multimodais podem incluir texto, imagens, áudio, vídeo e potencialmente outros. A principal característica de um modelo multimodal é sua capacidade de integrar e interpretar informações dessas diferentes fontes de dados, frequentemente de forma simultânea.

Esses modelos podem ser entendidos como versões mais avançadas de grandes modelos de linguagem (LLMs, na sigla em inglês) que podem trabalhar com texto e também com diversos tipos de dados. Além disso, as saídas dos modelos de linguagem multimodais são projetadas para serem não apenas textuais, mas também visuais, auditivas e assim por diante.

Os modelos de linguagem multimodal são considerados o próximo passo para alcançar a inteligência artificial geral .

O que é um agente de IA multimodal?

Agentes de IA multimodais são sistemas projetados para interagir com o mundo usando vários tipos de dados, incluindo imagens, vídeos e texto, permitindo que operem tanto em ambientes digitais quanto físicos. Os modelos multimodais são o componente central desses agentes, possibilitando que percebam e compreendam informações de diversas fontes.

Por exemplo, modelos como o Magma utilizam compreensão visual e linguística, além de inteligência espacial, alcançadas por meio de técnicas como Set-of-Mark e Trace-of-Mark durante o pré-treinamento em conjuntos de dados multimodais.

Isso permite que o agente execute tarefas que vão desde a compreensão de conteúdo de vídeo e resposta a perguntas até a navegação em interfaces de usuário e o controle de robôs, demonstrando as capacidades versáteis que os modelos multimodais trazem para os agentes de IA, aproveitando diferentes modalidades de dados. A ilustração abaixo mostra o Magma planejando trajetórias de robôs para realizar tarefas, demonstrando sua inteligência espacial em ação. ¹²

Qual a diferença entre LMMs e LLMs?

1. Modalidades de dados

LMMs : São projetados para entender e processar múltiplos tipos de entradas de dados, ou modalidades. Isso inclui texto, imagens, áudio, vídeo e, às vezes, outros tipos de dados, como dados sensoriais. A principal capacidade dos LMMs é a habilidade de integrar e interpretar esses diferentes formatos de dados, frequentemente de forma simultânea.
Modelos de Linguagem de Aprendizagem (LLMs) : Esses modelos são especializados no processamento e geração de dados textuais. Eles são treinados principalmente em grandes conjuntos de textos e são hábeis em compreender e gerar linguagem humana em diversos contextos. Eles não processam inerentemente dados não textuais, como imagens ou áudio.

2. Aplicações e tarefas

Modelos de Mistura Linguística (LMMs) : Devido à sua natureza multimodal, esses modelos podem ser aplicados a tarefas que exigem a compreensão e integração de informações de diferentes tipos de dados. Por exemplo, um LMM poderia analisar um artigo de notícias (texto), as fotografias que o acompanham (imagens) e videoclipes relacionados para obter uma compreensão abrangente.
Mestrados em Direito (LLMs) : Suas aplicações se concentram em tarefas que envolvem texto, como escrever artigos, traduzir idiomas, responder a perguntas, resumir documentos e criar conteúdo baseado em texto.

Quais são as modalidades de dados de grandes modelos multimodais?

Texto

Isso inclui qualquer forma de conteúdo escrito, como livros, artigos, páginas da web e postagens em mídias sociais. O modelo consegue entender, interpretar e gerar conteúdo textual, incluindo tarefas de processamento de linguagem natural, como tradução, sumarização e resposta a perguntas.

Imagens

Esses modelos podem analisar e gerar dados visuais. Isso inclui a compreensão do conteúdo e do contexto de fotografias, ilustrações e outras representações gráficas. Tarefas como classificação de imagens , detecção de objetos e geração de imagens a partir de descrições textuais se enquadram nessa categoria.

Áudio

Isso engloba gravações de som, música e linguagem falada. Os modelos podem ser treinados para reconhecer fala , música, sons ambientes e outras entradas auditivas. Eles podem transcrever a fala, entender comandos falados e até mesmo gerar fala ou música sintéticas.

Vídeo

Combinando elementos visuais e auditivos, o processamento de vídeo envolve a compreensão de imagens em movimento e seus sons correspondentes. Isso pode incluir a análise do conteúdo do vídeo, o reconhecimento de ações ou eventos em vídeos e a geração de videoclipes.

Embora a maioria dos grandes modelos de linguagem multimodal atuais só consiga processar texto e imagens, pesquisas futuras visam incluir entradas de dados de áudio e vídeo.

Como são treinados os grandes modelos multimodais?

O treinamento de grandes modelos multimodais (LMMs) difere significativamente do treinamento de grandes modelos de linguagem (LLMs) em vários aspectos-chave:

1. Coleta e preparação de dados

LLMs : Foco em dados textuais de livros, sites e fontes escritas, com ênfase na diversidade linguística para fontes de dados de treinamento em LLM .
LMMs : Requerem dados de texto, imagens, áudio e vídeo. A coleta é mais complexa devido aos formatos variados. A anotação de dados e o alinhamento entre as modalidades são essenciais.

2. Projeto de arquitetura de modelo

LLMs : Utilizam arquiteturas de transformadores otimizadas para processamento sequencial de texto.
Modelos de mistura latente (LMMs ): Empregam arquiteturas mais complexas que integram múltiplos tipos de redes neurais (CNNs para imagens, transformers para texto) com mecanismos para conectar essas modalidades.

3. Pré-treinamento

LLMs : Pré-treinamento em corpora de texto usando técnicas como modelagem de linguagem mascarada.
Modelos Lineares de Mistura (LMMs) : Pré-treinamento em múltiplos tipos de dados, aprendendo a correlacionar texto com imagens ou a compreender sequências de vídeo.

4. Ajuste fino

LLMs : Ajuste fino em conjuntos de dados de texto especializados para tarefas específicas.
Modelos Lineares Mistos (LMMs ): Requerem ajustes finos tanto em conjuntos de dados específicos da modalidade quanto em conjuntos de dados multimodais para estabelecer relações entre diferentes tipos de dados.

5. Avaliação e iteração

LLMs : As métricas de avaliação focam em tarefas de compreensão e geração de linguagem, incluindo fluência, coerência e relevância.
LMMs : Avaliados com base em métricas mais abrangentes que englobam reconhecimento de imagem, processamento de áudio e capacidades de integração multimodal.

Como funcionam os LLMs?

Os grandes modelos multimodais compartilham semelhanças com os grandes modelos de linguagem em seu processo de treinamento, design e operação. Eles utilizam a mesma arquitetura de transformadores e estratégias de treinamento. Os grandes modelos multimodais são treinados em:

Dados de texto
Milhões ou bilhões de imagens com descrições textuais.
Videoclipes
Trechos de áudio
Outros dados de entrada, como código

Este treinamento envolve o aprendizado simultâneo de múltiplas modalidades de dados, permitindo que o modelo:

Reconhecer a foto de um gato
Identifique uma palavra em um clipe de áudio.
Compreender conceitos e detalhes sensoriais além do texto.

Dessa forma, os usuários podem fazer o upload de:

Uma imagem para:
- Obtenha uma descrição do que está acontecendo.
- Use a imagem como parte de um estímulo para gerar texto ou imagens.
- Faça perguntas adicionais sobre elementos específicos da imagem.
- Traduza o texto da imagem para outro idioma (ex.: Menu).

Figura 5: Carregando uma imagem de um gato no ChatGPT para descrevê-lo.

Gráficos e tabelas para:
- Faça perguntas de acompanhamento complexas sobre o que eles mostram.
Criar um protótipo para:
- Obtenha o código HTML e CSS necessário para criá-lo.

Figura 6: Exibição da imagem no estilo de um filme de Wes Anderson. O ChatGPT envia a solicitação para um modelo de geração de imagens (como o DALL·E), que interpreta a solicitação e produz a imagem estilizada.

Após o processo de treinamento, os modelos podem incorporar estereótipos prejudiciais e ideias tóxicas. Para refiná-los, técnicas como:

Aprendizagem por reforço com feedback humano (RLHF)
Modelos de IA de supervisão
É possível utilizar o "red teaming" (teste de robustez do modelo).

Além disso, ferramentas de governança de IA e ferramentas de IA responsável, que funcionam como soluções de conformidade para IA, também podem viabilizar a otimização do inventário de IA, ajudando a prevenir vieses da IA e outros dilemas éticos. Aqui está um exemplo de como essas ferramentas abordam as preocupações com direitos autorais em IA de geração de IA :

Figura 7: O ChatGPT rejeita minha solicitação devido às diretrizes da política de conteúdo para proteger os direitos autorais.

O objetivo é desenvolver um sistema multimodal funcional capaz de lidar com:

síntese de texto para imagem
Legendas de imagens
Recuperação de imagens baseada em texto
Respostas visuais a perguntas.

Dessa forma, a IA multimodal pode integrar diversas modalidades, proporcionando capacidades avançadas para tarefas que envolvem tanto linguagem quanto visão.

Quais são as limitações dos grandes modelos de linguagem?

Requisitos de dados e viés : Esses modelos exigem conjuntos de dados massivos e diversificados para treinamento. No entanto, a disponibilidade e a qualidade desses conjuntos de dados podem representar um desafio. Além disso, se os dados de treinamento contiverem vieses, é provável que o modelo os herde e possivelmente os amplifique, levando a resultados injustos ou antiéticos.
Recursos computacionais : O treinamento e a execução de grandes modelos multimodais exigem recursos computacionais significativos, o que os torna caros e menos acessíveis para organizações menores ou pesquisadores independentes.
Interpretabilidade e explicabilidade : Assim como ocorre com modelos complexos de IA, entender como eles tomam decisões pode ser difícil. Essa falta de transparência pode ser um problema crítico, especialmente em aplicações sensíveis como saúde ou segurança pública.
Integração de modalidades : Integrar diferentes tipos de dados (como texto, imagens e áudio) de forma eficaz, compreendendo verdadeiramente as nuances de cada modalidade, é extremamente desafiador. O modelo pode nem sempre captar com precisão o contexto ou as sutilezas da comunicação humana que surgem da combinação dessas modalidades.
Generalização e sobreajuste : Embora esses modelos sejam treinados em vastos conjuntos de dados, eles podem ter dificuldades para generalizar para novos dados não vistos ou cenários que diferem significativamente dos dados de treinamento. Por outro lado, podem sofrer sobreajuste aos dados de treinamento, capturando ruídos e anomalias como padrões.

Para saber mais, explore os desafios e riscos associados aos modelos generativos e de linguagem .

Metodologia de referência para LMMs

Avaliamos o desempenho de Modelos Multimodais de Grande Porte (LMMs) usando um subconjunto do conjunto de dados FinMME. O ¹³ (Modelo de Raciocínio Multimodal) é um benchmark abrangente projetado para avaliar as capacidades de raciocínio multimodal financeiro. Ele compreende mais de 11.000 amostras financeiras de alta qualidade em 18 domínios financeiros e 6 classes de ativos, fornecendo uma estrutura robusta para avaliar Modelos de Raciocínio Multimodal (LMMs) no domínio financeiro.

Para esta avaliação comparativa, utilizamos uma seleção criteriosa de 100 amostras do conjunto de dados FinMME para analisar a capacidade dos modelos de processar e raciocinar com dados financeiros multimodais.

Isenção de responsabilidade

Esta avaliação utilizou um subconjunto selecionado de 100 amostras de um conjunto de dados maior para comparar o desempenho de modelos lineares mistos (LMMs). Para uma avaliação completa do desempenho do modelo, todas as amostras do conjunto de dados de referência completo devem ser consideradas.

Conclusão

Os grandes modelos multimodais (LMMs) estão integrando diversos tipos de dados, como texto, imagens, áudio e vídeo, superando assim as capacidades exclusivamente textuais dos grandes modelos de linguagem (LLMs). Com avanços como o Llama 4 da Meta AI, o OpenAIo da GPT-4o e o Qwen2.5-VL da Alibaba, os LMMs possibilitam aplicações mais ricas, desde raciocínio visual até geração de imagens sensíveis ao contexto.

No entanto, sua complexidade, altas demandas computacionais e desafios relacionados à integração de dados e mitigação de vieses ainda representam obstáculos. À medida que os Modelos de Markov Linguísticos (LMMs) evoluem, eles abrem caminho para agentes de IA mais versáteis, aproximando-nos da inteligência artificial geral. Para organizações e pesquisadores, selecionar o modelo certo envolve encontrar um equilíbrio entre desempenho, custo e as necessidades específicas do caso de uso.

Links de referência

Gemma 3: Google’s new open model based on Gemini 2.0

Google

GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models · GitHub

GitHub - QwenLM/Qwen3-VL: Qwen3-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud. · GitHub

Qwen2.5-VL-32B: Smarter and Lighter | Qwen

CLIP: Connecting text and images | OpenAI

[2204.14198] Flamingo: a Visual Language Model for Few-Shot Learning

Multimodality and Large Multimodal Models (LMMs)

GitHub - bytedance/vidi: The official repo for "Vidi: Large Multimodal Models for Video Understanding and Editing" · GitHub

Client Challenge

Financial Times

10.

GitHub - MoonshotAI/Kimi-VL: Kimi-VL: Mixture-of-Experts Vision-Language Model for Multimodal Reasoning, Long-Context Understanding, and Strong Agent Capabilities · GitHub

11.

Introducing 4o Image Generation | OpenAI

12.

Magma: A Foundation Model for Multimodal AI Agents

13.

luojunyu/FinMME · Datasets at Hugging Face

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Seja o primeiro a comentar

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

A seguir, leia

TRAPOAbr 15

MCP

Codificação de IA

Hardware de IA

Agentes de IA

Mestrados em Direito

Fundamentos de IA

TRAPO

Estruturas de IA Agencial

Segurança de dados

Firewall

Ferramentas de segurança

Gestão de Identidade e Acesso

Segurança de rede

SIEM

Proxies da Web

Extração de dados da web

Coleta de dados

Ciência de Dados

Dados sintéticos

Bancos de dados

Automação de Carga de Trabalho

Transferência de Arquivos Gerenciada

RMM

Observabilidade

Comércio eletrônico

CRM

Software Industrial