A eficácia dos grandes modelos de linguagem (LLMs, na sigla em inglês) é determinada não apenas por sua precisão e capacidades, mas também pela velocidade com que interagem com os usuários.
Avaliamos o desempenho dos principais modelos de linguagem em diversos casos de uso, medindo seus tempos de resposta à entrada do usuário. Nos concentramos em duas métricas principais: Latência do Primeiro Token , o tempo que o modelo leva para começar a gerar o primeiro token de uma resposta, e Latência por Token , o tempo necessário para gerar cada token ao longo da resposta.
benchmark de latência LLM
Você pode encontrar detalhes sobre como medimos a latência aqui.
Resultados do teste de latência do primeiro token
O Tempo até o Primeiro Token (TTFT, na sigla em inglês) mede o tempo que um modelo leva para gerar seu primeiro token após receber um comando, refletindo a rapidez com que ele começa a responder.
Quando os resultados são generalizados para todos os casos de uso avaliados, Mistral Large 2512 e GPT-5.2 consistentemente atingem latências do primeiro token inferiores a um segundo, indicando um comportamento de resposta inicial muito rápido.
Claude 4.5 Sonnet apresenta uma latência do primeiro token notavelmente maior, porém ainda estável, posicionando-se em um nível intermediário. Em contraste, Grok 4.1 Fast Reasoning e DeepSeek V3.2 exibem atrasos significativamente maiores antes de produzir o primeiro token, com esse padrão permanecendo consistente entre as tarefas.
Resultados de teste de latência por token
A latência por token mede o tempo médio necessário para gerar cada token subsequente após o primeiro, refletindo a velocidade de geração sustentada do modelo.
Mistral Large 2512 e GPT-5.2 atingem consistentemente latências do primeiro token inferiores a um segundo, indicando um comportamento de resposta inicial muito rápido.
Claude 4.5 Sonnet apresenta uma latência do primeiro token notavelmente maior, porém ainda estável, posicionando-se em um nível intermediário. Em contraste, Grok 4.1 Fast Reasoning e DeepSeek V3.2 exibem atrasos significativamente maiores antes de produzir o primeiro token, com esse padrão permanecendo consistente entre as tarefas.
Comparação de velocidade do LLM por caso de uso
Observamos que as variações de latência dependem do tipo de tarefa, indicando que esses modelos apresentam perfis de desempenho diferentes em diversos casos de uso.
Perguntas e Respostas
Em cenários de perguntas e respostas, como suporte ao cliente, assistentes virtuais e ferramentas de conhecimento corporativo, a velocidade e os tempos de resposta impactam diretamente a experiência do usuário.
- O código Mistral Large 2512 oferece a resposta inicial mais rápida, com uma latência do primeiro token de 0,30 segundos, tornando-o ideal para sistemas de suporte ao vivo que exigem respostas imediatas. Sua latência por token de 0,025 segundos oferece excelente eficiência para gerar respostas de qualquer tamanho.
- GPT-5.2 segue de perto, com uma latência inicial de 0,60 segundos e uma latência por token de 0,020 segundos. Embora seja um pouco mais lento no início, sua menor latência por token o torna altamente eficiente para respostas mais longas e detalhadas.
- O Sonnet Claude 4.5 , com uma latência de 2 segundos para o primeiro token e uma latência de 0,030 segundos por token, apresenta uma capacidade de resposta inicial moderada. O atraso antes do primeiro token pode afetar as interações em tempo real, embora sua velocidade de geração constante mantenha um desempenho geral razoável.
- O Grok 4.1 Fast Reasoning apresenta uma latência de 3 segundos para o primeiro token e uma excelente latência por token de 0,010 segundos. Apesar da inicialização mais lenta, uma vez iniciada a geração, ele produz tokens extremamente rápido, tornando-o adequado para aplicações onde o tempo total de geração é mais importante do que a resposta imediata.
- O modelo DeepSeek V3.2 , com uma latência de 7 segundos para o primeiro token e uma latência de 0,032 segundos por token, é o mais lento no geral. A espera significativa antes do primeiro token o torna menos adequado para sistemas de perguntas e respostas onde a velocidade é um fator crítico.
Geração de resumo
O caso de uso de geração de resumos desempenha um papel crucial em aplicações onde os usuários precisam compreender rapidamente textos longos. Por exemplo, em cenários onde as equipes de atendimento ao cliente precisam resumir a gravação de uma chamada em segundos e tomar as devidas providências, a latência do primeiro token impacta diretamente a experiência do usuário.
- Mistral Large 2512 apresenta uma latência de primeiro token de 0,45 segundos e uma latência por token de 0,025 segundos, tornando-se uma opção eficaz para cenários que exigem sumarização rápida de documentos.
- GPT-5.2 apresenta uma latência do primeiro token de 0,60 segundos e a latência por token mais rápida, de 0,020 segundos, permitindo manter a velocidade mesmo com conteúdo mais longo.
- O Sonnet Claude 4.5 apresenta uma resposta inicial mais lenta, com uma latência de 2 segundos para o primeiro token. No entanto, sua latência por token de 0,030 segundos ainda oferece um desempenho geral razoável para tarefas de sumarização.
- O Grok 4.1 Fast Reasoning apresenta uma latência de 4 segundos para o primeiro token, mas compensa com uma excelente latência por token de 0,010 segundos, tornando-o eficiente assim que a geração começa.
- O modelo DeepSeek V3.2 destaca-se como o mais lento, com uma latência do primeiro token de 7,5 segundos e uma latência por token de 0,025 segundos.
Tradução de idiomas
Com base em nossa análise comparativa, as tarefas de tradução revelam interessantes relações de compromisso entre o tempo de resposta inicial e a velocidade de geração sustentada.
- Mistral Large 2512 oferece a resposta inicial mais rápida, com uma latência do primeiro token de 0,40 segundos e uma latência por token de 0,020 segundos, tornando-o ideal para cenários de tradução em tempo real.
- GPT-5.2 começa em 0,55 segundos com a menor latência por token em 0,010 segundos, proporcionando eficiência excepcional para traduções mais longas assim que a geração começa.
- Claude 4.5 Sonnet , com uma latência de 2 segundos para o primeiro token e uma latência de 0,015 segundos por token, equilibra uma capacidade de resposta inicial moderada com uma forte velocidade de geração sustentada.
- O Grok 4.1 Fast Reasoning tem uma latência de primeiro token de 6 segundos. Mesmo assim, mantém uma excelente latência por token de 0,005 segundos, a mais rápida desta categoria, tornando-o altamente eficiente para tarefas de tradução em lote.
- DeepSeek V3.2 apresenta a maior latência do primeiro token, de 7,5 segundos, com uma latência por token de 0,025 segundos, o que limita sua aplicabilidade em fluxos de trabalho de tradução com restrições de tempo.
Análise de Negócios
Com base nos resultados observados no caso de uso de Análise de Negócios, os modelos apresentam perfis de desempenho variados, adequados a diferentes cenários analíticos.
- O protocolo Mistral Large 2512 oferece uma resposta inicial robusta, com uma latência do primeiro token de 0,40 segundos, embora sua latência por token de 0,040 segundos seja maior do que em outros casos de uso. Ele continua sendo adequado para tarefas rotineiras de análise de negócios.
- GPT-5.2 inicia em 0,50 segundos com uma latência por token de 0,020 segundos, tornando-o adequado para tarefas de análise de negócios que exigem inicializações rápidas e resultados mais longos e eficientes, como relatórios diários ou painéis de controle.
- O Claude 4.5 Sonnet responde com uma latência de 2 segundos no primeiro token e uma latência de 0,035 segundos por token. Embora o atraso inicial possa causar lentidão em fluxos de trabalho em tempo real, ele proporciona uma velocidade de saída consistente para revisões de dados em lote ou geração de relatórios agendados.
- O Grok 4.1 Fast Reasoning apresenta uma latência de 4 segundos para o primeiro token, mas mantém uma excelente eficiência por token de 0,010 segundos, tornando-o eficaz para relatórios analíticos abrangentes, onde o tempo total de conclusão é mais importante do que a resposta imediata.
- O modelo DeepSeek V3.2 foi o mais lento, com uma latência inicial de 8 segundos e uma latência por token de 0,030 segundos, o que o torna menos adequado para cenários de análise de negócios sensíveis ao tempo.
Codificação
As tarefas de codificação revelam características de desempenho distintas, com modelos otimizados para diferentes aspectos da geração de código.
- O modelo Mistral Large 2512 apresentou a menor latência do primeiro token, com 0,30 segundos, e uma latência por token de 0,025 segundos, tornando-se o modelo mais rápido para iniciar a geração de código e manter uma taxa de transferência sólida durante todo o processo.
- O GPT-5.2 apresentou uma latência inicial de token de 0,50 segundos e a melhor latência por token de 0,015 segundos. Essa combinação permite que o GPT-5.2 recupere rapidamente o atraso após um início ligeiramente mais lento, tornando-o altamente eficiente no processamento de tarefas de codificação mais longas ou complexas, onde a velocidade de geração de tokens constante é importante.
- O Sonnet Claude 4.5 , com uma latência de 2 segundos para o primeiro token e uma latência de 0,028 segundos por token, demonstrou uma capacidade de resposta moderada. Embora não seja o mais rápido para iniciar, mantém uma velocidade de geração razoável para fluxos de trabalho de codificação típicos.
- O Grok 4.1 Fast Reasoning apresentou uma latência inicial de 11 segundos para o primeiro token, mas a latência mais rápida por token foi de 0,005 segundos. Apesar do atraso inicial significativo, uma vez iniciada a geração, o código é produzido extremamente rápido, o que o torna potencialmente adequado para tarefas de geração de código em lote.
- DeepSeek V3.2 apresentou a maior latência do primeiro token, com 19 segundos, e uma latência por token de 0,030 segundos, tornando-se o mais lento do grupo para tarefas de codificação e limitando sua aplicabilidade em ambientes de desenvolvimento interativos, onde o feedback imediato é essencial.
Raciocínio LLM e seu efeito na velocidade
Os modelos de raciocínio demoram mais para iniciar porque envolvem um processamento em cadeia de pensamento, "analisando" o problema passo a passo internamente antes de produzir uma resposta. Esse raciocínio interno adicional causa o atraso inicial.
A razão para essa inicialização mais lenta é que esses modelos não apenas geram texto; eles realizam primeiro uma análise mais profunda e uma inferência lógica, o que requer tempo de computação adicional. Esse "raciocínio" interno leva a resultados mais precisos e ponderados.
Por exemplo, em nosso teste de benchmark, o Grok 4.1 Fast Reasoning apresentou um Tempo Até o Primeiro Token (TTFT) maior em comparação com modelos generativos mais simples, porque gasta mais tempo raciocinando internamente. Apesar do início mais lento, a qualidade e a precisão de suas respostas foram significativamente melhores.
O que é a latência LLM e por que ela é importante?
A latência de um modelo de linguagem de grande porte refere-se ao tempo que um modelo de linguagem leva para gerar uma resposta após receber a entrada do usuário. Na prática, a latência não é um único número, mas sim um conjunto de medidas de latência que descrevem a rapidez com que um sistema reage e conclui a geração da saída.
Uma das distinções mais importantes é a latência de ponta a ponta (latência E2E) . A latência E2E mede o tempo total desde o momento em que o servidor recebe uma solicitação até o momento em que conclui o envio da resposta, incluindo o token final. Esse valor reflete o tempo total de espera experimentado pelo usuário e está intimamente relacionado à percepção do usuário sobre a capacidade de resposta.
A latência é geralmente dividida em métricas-chave, tais como:
- Tempo até o primeiro token (TTFT) ou latência do primeiro token , que captura quanto tempo leva para o modelo começar a gerar resultados.
- Latência entre tokens (ITL) , que mede o atraso entre os tokens gerados durante a resposta.
- Tempo total de geração , que abrange desde o envio imediato até a conclusão da resposta.
Baixa latência é crucial em aplicações interativas como chatbots , assistentes de programação e ferramentas de suporte ao cliente. Alta latência pode interromper o fluxo natural da interação, reduzir o engajamento e afetar negativamente a satisfação do usuário. Com o tempo, a latência consistentemente alta também pode limitar a adoção de soluções baseadas em IA, especialmente em casos de uso em tempo real ou voltados para o cliente.
Por que a latência do LLM (Loading Liability Management) é importante para a experiência do usuário, seja ela alta ou baixa?
O impacto da latência na experiência do usuário vai além do mero inconveniente. Os usuários percebem os tempos de resposta de forma diferente dependendo do contexto, da complexidade da solicitação e das expectativas criadas pelo aplicativo. Um pequeno atraso pode ser aceitável para tarefas de raciocínio complexas, enquanto mesmo atrasos mínimos podem ser perturbadores em interfaces conversacionais.
- Respostas atrasadas podem interromper o fluxo da conversa em sistemas interativos de IA.
- Tempos de resposta consistentes geralmente levam a uma maior satisfação do usuário do que tempos de resposta altamente variáveis.
- Uma velocidade de resposta ligeiramente mais lenta, porém mais previsível, costuma ser preferível a respostas rápidas ocasionais intercaladas com longos atrasos.
Esse aspecto psicológico da espera explica por que a percepção de capacidade de resposta é tão importante quanto os tempos de resposta brutos. Em muitos casos, manter um desempenho consistente é mais importante do que alcançar a menor latência possível para uma única solicitação.
Fatores que afetam a latência do LLM
A latência do LLM varia de acordo com diversos fatores técnicos e operacionais. Compreender esses fatores-chave ajuda as equipes a identificar gargalos de desempenho e aplicar estratégias de otimização de latência direcionadas.
Tamanho e configuração do modelo
O tamanho do modelo afeta diretamente a velocidade de processamento. Modelos maiores geralmente exigem mais recursos computacionais e mais tempo para processar os mesmos tokens de entrada. Embora modelos maiores possam oferecer melhor qualidade de saída, eles frequentemente aumentam a latência do primeiro token e a latência geral do token.
Considerações importantes incluem:
- Dimensões do modelo e arquitetura interna
- Configurações do modelo, como o comprimento da janela de contexto.
- Conciliação entre qualidade de resposta e baixa latência
Selecionar um modelo que esteja alinhado com os requisitos de desempenho da aplicação é uma parte fundamental da otimização do modelo.
Arquitetura de hardware e sistema
O hardware desempenha um papel crucial na determinação dos tempos de resposta. GPUs potentes ou aceleradores de IA podem reduzir significativamente o tempo de computação, diminuindo a latência tanto no TTFT (Tempo até a Primeira Fase) quanto na latência entre tokens. Os principais fatores que contribuem para isso incluem:
- Utilização e disponibilidade da GPU
- Largura de banda da memória e eficiência de transferência de dados
- Arquitetura geral do sistema e recursos computacionais
A taxa de transferência do sistema, normalmente medida em tokens por segundo (TPS), indica a quantidade de dados que um sistema pode gerar sob carga simultânea. Métricas de alta taxa de transferência são essenciais para lidar com múltiplas solicitações sem comprometer o tempo de resposta.
Concorrência, processamento em lote e carga do sistema
A latência se comporta de maneira diferente em cenários de requisição única e requisição simultânea. Embora o processamento em lote possa melhorar a taxa de transferência, ele também pode introduzir atrasos de enfileiramento que aumentam o tempo de resposta inicial.
Os fatores que influenciam a latência incluem:
- Número de solicitações simultâneas
- Políticas de agrupamento e agendamento
- Padrões atuais de carga e uso do sistema
Sistemas otimizados apenas para taxa de transferência podem apresentar alta latência durante períodos de pico de uso, mesmo que o desempenho médio pareça aceitável.
Efeitos de rede e implantação
A latência da rede pode adicionar atrasos significativos, especialmente em sistemas distribuídos ou baseados em nuvem. A comunicação entre serviços, regiões e usuários contribui para a latência total de ponta a ponta.
Inicializações a frio são outro fator crítico. Quando os modelos são reduzidos a zero durante períodos de inatividade, a primeira solicitação precisa esperar que o modelo seja carregado, o que pode aumentar significativamente a latência. Os efeitos da inicialização a frio podem distorcer as medições precisas de latência se não forem considerados separadamente do desempenho em estado estacionário.
Estratégias para reduzir a latência do LLM
Reduzir a latência exige mudanças coordenadas em modelos, infraestrutura e design de aplicativos. A otimização eficaz da latência concentra-se tanto na capacidade de resposta real quanto na percebida.
abordagens de otimização de modelos
As técnicas de otimização de modelos visam melhorar a velocidade de processamento, mantendo uma qualidade de resposta aceitável. Os métodos comuns incluem:
- Quantização e poda para reduzir o tamanho do modelo
- Ajustar modelos menores para tarefas específicas
- Ajustar as configurações do modelo para priorizar a baixa latência.
A otimização dos processos do modelo pode reduzir significativamente a latência e os custos operacionais.
Design ágil e eficiência de tokens
A engenharia de prompts afeta diretamente a latência. Prompts mais longos aumentam o número de tokens de entrada que o modelo precisa processar, o que torna mais lento tanto o TTFT (Tempo até a Primeira Fase) quanto a geração de saída.
As melhores práticas incluem:
- Utilizando apenas o contexto relevante
- Reduzir a complexidade das instruções e as instruções desnecessárias.
- Limitar a geração de tokens quando uma resposta completa não for necessária.
Streaming, armazenamento em cache e tratamento de respostas
As técnicas de resposta em fluxo contínuo permitem que o modelo comece a gerar resultados assim que o primeiro token estiver pronto, em vez de esperar pelo token final. Isso melhora a percepção de capacidade de resposta, mesmo quando o tempo total de geração permanece inalterado.
Outras técnicas incluem:
- Armazenar em cache as respostas para consultas de entrada repetidas ou iguais.
- Cache semântico para prompts semelhantes com intenções sobrepostas
- Otimização de infraestrutura e capacidade de processamento
O ajuste da infraestrutura é essencial para manter o desempenho em grande escala. Isso inclui:
- Equilibrando métricas de taxa de transferência e medidas de latência.
- Garantir recursos computacionais suficientes para atender à demanda máxima.
- Reduzir os atrasos de enfileiramento durante solicitações simultâneas
Medição e monitoramento da latência do LLM em produção.
Medições precisas de latência são essenciais para diagnosticar problemas e validar melhorias. Diferentes métodos de teste servem a diferentes propósitos:
- Os testes síncronos processam uma solicitação por vez, fornecendo dados de latência limpos e isolados.
- Os testes assíncronos simulam cenários do mundo real com múltiplas solicitações simultâneas, embora possam dificultar o isolamento de latências individuais.
O monitoramento de métricas-chave de desempenho ajuda as equipes a identificar gargalos, acompanhar tendências e manter o desempenho ao longo do tempo. O monitoramento contínuo é fundamental, pois os padrões de uso estão em constante evolução.
As ferramentas comuns utilizadas na produção incluem:
- NVIDIA GenAI-Perf e LLMPerf para captura de métricas de latência
- Prometheus e Grafana para monitoramento e visualização de distribuições de latência.
Essas ferramentas oferecem suporte à otimização contínua e ajudam a garantir um desempenho consistente sob cargas de trabalho variáveis.
Por que a consistência importa mais do que a velocidade por si só
Embora a baixa latência seja essencial, a consistência costuma ser mais importante para a satisfação do usuário. Sistemas com tempos de resposta muito variáveis tendem a parecer pouco confiáveis, mesmo que algumas respostas sejam rápidas. Em contrapartida, tempos de resposta consistentes criam interações previsíveis e melhoram a percepção de capacidade de resposta.
Em aplicações interativas de IA, a velocidade de resposta influencia a confiança, a usabilidade e a adoção a longo prazo. Portanto, otimizar a latência do LLM não se resume a minimizar milissegundos, mas sim a oferecer um desempenho estável e previsível que esteja alinhado às expectativas do usuário.
Ao combinar medições precisas, um projeto de sistema bem elaborado e monitoramento contínuo, as equipes podem reduzir significativamente a latência, mantendo o desempenho, a qualidade da resposta e a relação custo-benefício.
Metodologia de referência de latência LLM
Configuração de benchmark
Medimos o desempenho de latência de vários LLMs em cinco casos de uso. O teste de desempenho foi executado em um servidor remoto para garantir condições de rede consistentes. Todos os modelos foram testados usando suas respectivas APIs oficiais. Definimos a temperatura para 0,1.
Coleta de dados
Foi realizada uma única execução com um total de 500 perguntas (100 perguntas por caso de uso). Cada pergunta foi enviada para o endpoint da API de streaming do modelo, e as medições de tempo foram registradas em três pontos críticos:
- Solicitação enviada : Registro de data e hora em que a solicitação à API foi iniciada.
- Primeiro token recebido : Registro de data e hora em que o primeiro token de resposta chegou.
- Token final recebido : Timestamp do momento em que a resposta de streaming foi concluída.
Métricas
Tempo até o primeiro token (TTFT)
Mede a latência da resposta inicial – quanto tempo leva para o modelo começar a gerar uma resposta.
Latência por Token (PTL)
Mede o tempo médio (em milissegundos) necessário para gerar cada token após a resposta inicial.
Perguntas e Respostas
Avaliamos os modelos em um conjunto de 10 perguntas que abrangiam uma variedade de tópicos factuais e conceituais comuns em domínios técnicos, de negócios e de conhecimento geral. Essas perguntas tinham, em média, cerca de 13 itens por questão, o que as tornava relativamente curtas.
Este caso de uso avalia a capacidade dos modelos de gerar respostas claras, precisas e informativas, adequadas para contextos educacionais, de documentação e de suporte ao cliente. As respostas exigidas geralmente envolvem explicações de extensão moderada que equilibram detalhes e clareza.
Codificação
Avaliamos os modelos em um conjunto de 10 tarefas de programação distintas, que variam de funções simples ao desenvolvimento de APIs mais avançadas. Essas tarefas envolviam a geração de trechos de código Python, como scripts básicos, aplicações web usando Flask ou FastAPI e scripts de processamento de dados.
Este caso de uso avalia a capacidade dos modelos de produzir código estruturado, funcional e coerente, o que geralmente requer saídas mais longas e complexas do que a geração de texto típica. Os prompts de entrada tinham em média cerca de 20 tokens cada , refletindo solicitações de programação concisas, porém descritivas.
Tradução de idiomas
Avaliamos os modelos usando um conjunto de 10 instruções de tradução diversas, abrangendo vários idiomas (espanhol, chinês, russo) e tipos de texto, incluindo longos trechos acadêmicos, frases curtas do cotidiano, resumos científicos, e-mails comerciais e excertos literários. Essas entradas variaram significativamente em extensão e complexidade, desde frases curtas com cerca de 10 palavras até textos detalhados com vários parágrafos e mais de uma centena de palavras.
Este estudo de caso avalia a capacidade dos modelos de compreender com precisão e reproduzir fielmente o significado em diferentes idiomas e domínios, preservando nuances, estilo e conteúdo técnico. Utilizando diversos tipos e extensões de texto, testamos tanto a qualidade geral da tradução quanto o desempenho dos modelos em linguagem especializada ou formal.
Análise de negócios
Avaliamos os modelos usando 10 perguntas distintas de análise de negócios, cada uma simulando cenários reais de tomada de decisão em domínios como desempenho de vendas, retenção de clientes, gargalos na cadeia de suprimentos, ROI de marketing, produtividade dos funcionários e estratégia competitiva. As perguntas incluíam dados tabulares estruturados e questões analíticas abertas, exigindo que os modelos interpretassem múltiplas métricas de negócios e gerassem insights concisos e acionáveis. As entradas variaram em complexidade, com um comprimento médio de entrada de aproximadamente 105 tokens.
Este caso de uso testa a capacidade de um modelo de sintetizar dados quantitativos, aplicar raciocínio lógico e comunicar recomendações de forma clara em um contexto empresarial.
Geração de resumo
Solicitamos aos modelos que produzissem resumos em estilo acadêmico (aproximadamente 500 palavras) de artigos técnicos sobre diversos tópicos, incluindo IA na área da saúde, mudanças climáticas, energia renovável, blockchain, trabalho remoto, veículos elétricos, segurança cibernética, mídias sociais, urbanização e computação quântica. Cada resumo foi estruturado em argumentos principais, ideias de apoio e conclusões, com os termos-chave destacados e brevemente explicados.
Este caso de uso testa a capacidade de um modelo de compreender artigos técnicos detalhados e gerar resumos claros, estruturados e com estilo acadêmico, incluindo explicações dos termos-chave.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.