Os novos LLMs, como a família OpenAI GPT-5, vêm em diferentes versões (por exemplo, GPT-5, GPT-5-mini e GPT-5-nano) e com várias configurações de parâmetros, incluindo alta, média, baixa e mínima.
A seguir, exploramos as diferenças entre essas versões do modelo, reunindo seus desempenhos em benchmarks e os custos para executar esses benchmarks.
Preço versus sucesso: principais conclusões
Utilizamos a família GPT-5 em nossa análise. Usamos seis parâmetros de referência em diversas áreas, incluindo raciocínio, codificação, seguimento de instruções e matemática.
Nossa análise revelou:
- Em média, considerando todos os benchmarks, GPT-5 (alta) e GPT-5 (média) apresentam taxas de sucesso quase idênticas (65% vs. 64%), porém GPT-5 (alta) custa quase o dobro (US$ 511 vs. US$ 280). Em seguida, vêm GPT-5-mini (alta) , GPT-5 (baixa) e GPT-5-mini (média), com taxas de sucesso de 62%, 61% e 60%, respectivamente, a preços muito mais baixos de US$ 105, US$ 90 e US$ 28. Isso demonstra que, ao aceitar uma queda de apenas cerca de 5% na taxa de sucesso, as tarefas podem ser concluídas a um custo até 18 vezes menor ao mudar de GPT-5 (alto) para GPT-5-mini (médio).
- A versão GPT-5-mini (alta) supera a versão GPT-5 (baixa) em praticamente todos os benchmarks, e o faz com o mesmo custo ou até menor. No IFBench, as taxas de sucesso são de 75% contra 67%; no AIME 2025, 97% contra 83%; no Humanity's Last Exam, 20% contra 18%; e no GPQA Diamond, 83% contra 81%. Elas empatam no SciCode com 39%, mas a versão GPT-5-mini (alta) ainda apresenta um custo menor.
- O modelo mais caro, GPT-5 (alto), supera o segundo colocado em apenas três testes de desempenho, e mesmo assim, a diferença não ultrapassa 3%. Em todos os outros testes, ele é superado por alternativas mais baratas.
Configurações de parâmetros: alto-médio-baixo-mínimo
Embora os parâmetros do LLM sejam frequentemente descritos em termos de ajustes numéricos, eles também podem ser expressos como intervalos qualitativos, como alto, médio e baixo. Esses intervalos não são padrões fixos; em vez disso, são categorias conceituais que descrevem a influência que um parâmetro exerce sobre o resultado do modelo.
Utilizar esses três níveis ajuda a selecionar rapidamente as configurações para diferentes tarefas, dependendo do nível desejado de criatividade, determinismo ou duração. Esses níveis são úteis ao ajustar os parâmetros de pontuação máxima (top-P), número máximo de fichas e penalidades.
O parâmetro médio refere-se à versão regular (não parametrizada) de um modelo.
Configuração mínima :
- Top-p / Top-k: Muito baixo (top-p ≈ 0,1–0,2, top-k = 1–5)
- Tokens máximos: Limite curto
- Penalidades: Muito baixas ou inexistentes
- Efeitos:
- Altamente determinístico, com resultados quase idênticos a cada execução.
- Muito conciso, factual e rigoroso.
- Ideal para código, matemática, consultas a bancos de dados ou respostas que exigem conformidade rigorosa.
- Muito restrito, com baixa aleatoriedade, favorecendo a previsibilidade e a precisão.
Configuração baixa:
- Top-p / Top-k: Baixo (top-p ≈ 0,3–0,5, top-k = 5–10)
- Tokens máximos: Curto a médio
- Penalidades: Baixas a moderadas
- Efeitos:
- Em grande parte determinístico, mas permite pequenas variações.
- Reduz a repetição robótica em comparação com o mínimo.
- Ideal para resumos, explicações estruturadas ou textos profissionais com estilo consistente.
Configuração média :
- Top-p / Top-k: Moderado (top-p ≈ 0,7–0,9, top-k = 20–50)
- Tokens máximos: Comprimento médio
- Penalidades: Moderadas, para evitar repetição, mas permitir alguma criatividade.
- Efeitos:
- Equilíbrio entre precisão e criatividade.
- Produz respostas naturais que variam ligeiramente entre as execuções.
- Indicado para perguntas e respostas em geral, elaboração de rascunhos e brainstorming.
Configuração alta :
- Top-p / Top-k: Alto (top-p ≈ 0,95–1,0, top-k = 50–100)
- Tokens máximos: Limite elevado para saídas mais longas.
- Penalidades: Médias a altas, incentivando a variedade e a novidade.
- Efeitos:
- Resultados altamente criativos e diversificados.
- Menos previsível, com maior risco de alucinações .
- Ideal para contar histórias, gerar ideias, fazer dramatizações e escrever textos criativos.
Para decidir qual nível usar, considere:
- Tipo/finalidade da tarefa : Se você precisa de precisão ( jurídica , médica , de código , factual ), escolha mínima ou média. Se você precisa de criatividade, estilo próprio e originalidade, alta precisão pode ser a melhor opção.
- Tolerância a erros : Quão problemáticos são erros ou falhas ocasionais? Se for baixa, evite alta aleatoriedade.
- Restrições computacionais : Comprimentos de saída elevados e alta aleatoriedade geralmente exigem mais poder computacional e memória.
- Tamanho do modelo : Modelos maiores tendem a lidar melhor com alta aleatoriedade, enquanto modelos menores podem apresentar degradação significativa em configurações elevadas.
- Comprimento de saída desejado : Textos gerados mais longos podem apresentar variações, portanto, alta aleatoriedade combinada com um comprimento longo representa um risco maior.
GPT-5
GPT-5 equilibra uma capacidade de raciocínio superior com uma velocidade média, tornando-o adequado para tarefas complexas e com várias etapas, onde a precisão e a adaptabilidade são cruciais.
- Janela de contexto : 400.000
- Número máximo de tokens de saída : 128.000
- Data limite para o exame de conhecimento : 30 de setembro de 2024
- Raciocínio : Nível superior, com suporte para tokens de raciocínio.
Preço (por 1 milhão de tokens)
- Entrada: $ 1,25
- Entrada em cache: $0,125
- Saída: $10,00
Modalidades
- Texto: entrada e saída
- Imagem: somente entrada
- Áudio: não suportado
GPT-5 mini
O GPT-5 mini é uma versão menor, mais rápida e mais acessível do GPT-5. Ele mantém uma forte capacidade de raciocínio, sendo mais adequado para tarefas bem definidas.
- Janela de contexto : 400.000
- Número máximo de tokens de saída : 128.000
- Data limite para o conhecimento : 31 de maio de 2024
- Funcionalidades : Suporta pesquisa na web, pesquisa de arquivos e interpretador de código.
Preço por 1 milhão de tokens :
- Entrada: $0,25
- Entrada em cache: $0,025
- Saída: $2,00
GPT-5 nano
O GPT-5 nano é a opção mais rápida e barata, projetada para tarefas leves, como classificação e sumarização.
- Janela de contexto : 400.000
- Número máximo de tokens de saída : 128.000
- Data limite para o conhecimento : 31 de maio de 2024
- Funcionalidades : Suporta busca de arquivos, geração de imagens e interpretador de código (mas não busca na web).
Preço por 1 milhão de tokens :
- Entrada: $0,05
- Entrada em cache: $0,005
- Saída: $0,40
Características da série GPT-5
A série GPT-5 introduz diversas funcionalidades que melhoram o controle, a formatação e a eficiência. Essas funcionalidades aplicam-se aos modelos GPT-5, GPT-5 Mini e GPT-5 Nano.
parâmetro de verbosidade
O parâmetro de verbosidade permite que os desenvolvedores influenciem o nível de detalhe nas saídas do modelo sem modificar o prompt.
Aceita três valores:
- Baixo: resultados curtos e concisos
- Médio: resultados equilibrados (padrão)
- Alto nível: resultados detalhados adequados para explicação, documentação ou revisão.
Maior nível de detalhamento leva a respostas mais longas e maior uso de tokens de saída.
Chamada de função de formato livre
A série GPT-5 suporta chamadas de ferramentas personalizadas que aceitam saída de texto bruto em vez de JSON estruturado. Isso possibilita gerar código, consultas SQL ou texto de configuração que são passados diretamente para ambientes de execução externos, como:
- Ambientes de teste de código
- mecanismos SQL
- Ambientes Shell
- Sistemas de configuração
O tipo de ferramenta personalizada não suporta chamadas de ferramentas paralelas. Ela é destinada a situações em que o texto natural é preferível a um esquema JSON rígido.
Suporte para gramáticas livres de contexto (CFG)
Os modelos podem gerar texto com restrições gramaticais definidas com a sintaxe Lark ou regex. Isso garante que o texto gerado siga regras estruturais rigorosas. Casos de uso comuns incluem:
- Impor dialetos SQL específicos
- Restringir carimbos de data/hora ou identificadores
- Validação de formatos de configuração
Ao usar CFGs (Gramáticas de Classes Adaptativas), os desenvolvedores definem terminais e regras que descrevem o conjunto de strings aceitáveis. O modelo produz apenas saídas que correspondem a essas regras.
Modo de raciocínio mínimo
O modo de raciocínio mínimo reduz ou remove os tokens de raciocínio. Isso reduz a latência e melhora o tempo até o primeiro token.
É adequado para tarefas como:
- Classificação
- Reescritas curtas
- Extração estruturada
- operações básicas de formatação
Quando nenhuma configuração de raciocínio é fornecida, o nível de esforço padrão é médio.
Principais diferenças
Os três modelos diferem principalmente na profundidade do raciocínio, na velocidade e no custo. Os novos recursos podem ser usados em todos os modelos, mas seu impacto varia de acordo com o modelo.
Raciocínio
- GPT-5 oferece a capacidade de raciocínio mais robusta. É adequada para problemas complexos e de múltiplas etapas em codificação, análise científica ou apoio à decisão.
- O mini-exemplo GPT-5 oferece uma argumentação sólida para instruções estruturadas com limites de tarefas previsíveis.
- O GPT-5 nano tem um desempenho de raciocínio moderado e funciona melhor em tarefas que não exigem análise profunda.
- O modo de raciocínio mínimo pode ser usado com todos os modelos e oferece o benefício mais significativo para o GPT-5 nano e o GPT-5 mini, dada a sua vantagem de velocidade.
Velocidade
- O GPT-5 nano é a opção mais rápida e eficaz para cargas de trabalho em tempo real ou de grande escala.
- O minicomputador GPT-5 equilibra velocidade e raciocínio, tornando-o adequado para cargas de trabalho de produção regulares.
- GPT-5 é mais lento porque realiza mais raciocínio interno, mas isso resulta em uma saída mais precisa.
- O modo de raciocínio mínimo pode reduzir ainda mais a latência, especialmente para nano.
Custo
- O nano (GPT-5) tem o menor custo por token. É a opção preferida para tarefas de alto volume, como classificação ou sumarização em lote.
- O modelo GPT-5 mini situa-se na gama média, oferecendo um equilíbrio entre capacidade e custo.
- O modelo GPT-5 é o mais caro e geralmente é usado quando a precisão e a consistência são prioridades.
- As configurações de verbosidade influenciam o custo, pois uma verbosidade maior produz mais tokens de saída.
O que são parâmetros LLM?
Os parâmetros LLM são configurações que influenciam a forma como os grandes modelos de linguagem (LLMs) geram texto durante a inferência. Esses controles de parâmetros não modificam os pesos aprendidos de um modelo pré-treinado. Em vez disso, eles moldam a forma como o modelo de linguagem amostra de uma distribuição de probabilidade sobre tokens prováveis ao gerar respostas.
Grandes modelos de linguagem são sistemas de redes neurais, geralmente construídos com base na arquitetura do modelo Transformer. Durante o treinamento, o modelo aprende valores numéricos chamados pesos e vieses. Os pesos representam a importância atribuída a diferentes entradas, permitindo que o modelo capture relações entre palavras, conceitos e contexto. Os vieses são valores constantes adicionados dentro das camadas que ajudam a ativar os neurônios sob certas condições. Juntos, esses valores definem a capacidade do modelo de reconhecer padrões complexos na linguagem.
Em contraste, os parâmetros de inferência operam após o treinamento. Eles moldam a forma como o conhecimento aprendido pelo modelo é utilizado, sem alterar os pesos subjacentes. O ajuste dos parâmetros do LLM permite que os usuários influenciem a diversidade, a previsibilidade, a repetição e o comprimento da saída, o que é essencial para otimizar o desempenho do modelo em tarefas específicas, como escrita criativa, geração estruturada ou explicações técnicas.
Os parâmetros principais incluem amostragem de núcleos top-p, número máximo de tokens, penalidade de frequência, penalidade de presença e sequências de parada. Juntos, esses parâmetros de amostragem controlam a saída gerada, equilibrando a qualidade da saída, o custo computacional e a eficiência da inferência.
Tamanho do modelo, parâmetros e fundamentos de treinamento
O número de parâmetros em grandes modelos de linguagem pode chegar aos bilhões. Modelos maiores geralmente têm uma capacidade superior de lidar com linguagem sutil, dependências de longo alcance e raciocínio complexo. Esse desempenho aprimorado do modelo tem como contrapartida maiores requisitos de poder computacional durante o treinamento e a inferência.
Modelos menores exigem menos recursos computacionais e oferecem melhor eficiência computacional, mas podem ter dificuldades com padrões mais complexos ou janelas de contexto mais longas. A escolha entre modelos maiores e menores depende da tarefa, da latência aceitável e da infraestrutura disponível. Consulte as leis de escala do LLM para saber como os pesquisadores de IA avaliam o efeito do tamanho do modelo, da qualidade dos dados e da estratégia de treinamento.
Diversos parâmetros de treinamento influenciam a forma como um modelo aprende antes da inferência:
- O tamanho do lote refere-se ao número de amostras de treinamento processadas antes que o modelo atualize seus pesos. Tamanhos de lote maiores melhoram a eficiência do treinamento, mas aumentam o uso de memória.
- A taxa de aprendizado controla a rapidez com que o modelo ajusta seus pesos e vieses. Valores mais altos aceleram o aprendizado, mas aumentam o risco de instabilidade, enquanto valores mais baixos promovem uma convergência estável.
- Os hiperparâmetros definem configurações externas, como tamanho do modelo, tamanho do lote e taxa de aprendizado, moldando o processo geral de treinamento.
Após o pré-treinamento, o ajuste fino e o alinhamento são essenciais. O ajuste fino adapta um modelo pré-treinado a dados ou tarefas específicas do domínio, enquanto o alinhamento garante que o texto gerado reflita a intenção humana.
O ajuste fino com eficiência de parâmetros (PEFT, na sigla em inglês) melhora a eficiência computacional ao congelar a maioria dos parâmetros e atualizar apenas um pequeno subconjunto de parâmetros relevantes para a tarefa.
Amostragem Top-p
A amostragem top-p, também conhecida como amostragem de núcleo, limita a seleção de tokens ao menor grupo cuja probabilidade cumulativa excede um determinado limiar p. Em vez de selecionar de um número fixo de tokens, o modelo escolhe dinamicamente entre tokens prováveis que, juntos, representam a massa de probabilidade especificada.
- Valores mais baixos (por exemplo, p = 0,5) restringem a amostragem a um conjunto limitado de tokens com a maior probabilidade, resultando em um texto coerente, porém menos variado.
- Valores mais altos (por exemplo, p = 0,9) permitem a amostragem de um conjunto mais amplo, aumentando a diversidade dos resultados, mas também o risco de se desviar do assunto.
Amostragem Top k
A amostragem top k restringe a escolha do modelo aos k tokens de maior probabilidade para a próxima etapa na geração de texto. Ao reduzir o conjunto de candidatos, esse parâmetro afeta diretamente a previsibilidade e a variedade.
- Valores top-k mais baixos limitam a seleção a um pequeno conjunto de tokens altamente prováveis, produzindo resultados mais previsíveis e focados.
- Valores mais altos ampliam o leque de candidatos, aumentando a variabilidade e apoiando uma linguagem mais diversificada.
Enquanto a amostragem top-p se adapta dinamicamente com base na massa de probabilidade, a amostragem top-k usa um limite fixo. As duas são frequentemente comparadas durante a avaliação de modelos para determinar as configurações ideais para tarefas específicas.
Número máximo de fichas (Número de fichas)
O parâmetro max_tokens define o número máximo de tokens que o modelo pode gerar em uma única resposta. Ele determina diretamente o comprimento da saída e influencia o custo computacional.
- Valores máximos mais baixos exigem respostas concisas, mas podem omitir detalhes importantes.
- Valores mais altos permitem explicações mais detalhadas, mas exigem mais recursos computacionais e aumentam o tempo de inferência.
O número máximo de tokens é limitado pela janela de contexto, que inclui tanto os dados de entrada quanto a saída gerada. Se o número combinado de tokens exceder o limite de tokens do modelo, a geração será interrompida independentemente da configuração de tokens máximos.
parâmetro de penalização de frequência
A penalidade de frequência ajusta a probabilidade de ocorrência de determinados elementos com base na frequência com que já apareceram no texto gerado.
- Valores positivos reduzem a repetição, melhorando a qualidade da resposta em trabalhos mais longos.
- Valores negativos incentivam a reutilização, o que pode ser útil para documentos que exigem terminologia consistente.
Penalidades excessivamente altas podem prejudicar a coerência, já que a repetição natural é frequentemente necessária para textos com sonoridade humana. Este parâmetro é mais eficaz na otimização do desempenho do modelo para geração de textos longos.
penalidade de presença
A penalidade de presença reduz a probabilidade de ocorrência de tokens que já apareceram pelo menos uma vez, independentemente da frequência. Isso incentiva o modelo a introduzir novas ideias.
- Valores positivos promovem a novidade e a exploração, o que é útil no brainstorming e na escrita criativa.
- Valores negativos reforçam os termos existentes, o que pode ser útil em resultados estruturados ou restritos.
A penalização por presença é um controle valioso para orientar a diversidade de ideias, mas deve ser aplicada com cautela para evitar a omissão não natural de termos-chave.
Sequências de parada
Sequências de parada definem tokens ou strings específicos que sinalizam ao modelo para interromper a geração. Elas são comumente usadas em aplicações estruturadas.
- Útil para impor modelos em sistemas de diálogo ou geração de código.
- Ajuda a controlar o tamanho da saída e a evitar continuações irrelevantes.
As sequências de parada melhoram a previsibilidade nos textos gerados sem depender exclusivamente de limites de tokens.
Semente e determinismo
Alguns sistemas permitem que os usuários especifiquem uma semente aleatória, garantindo que os mesmos dados de entrada e configurações de parâmetros produzam a mesma saída gerada.
- Útil para avaliação e teste de modelos.
- Ajuda a comparar diferentes configurações de parâmetros sem que variações aleatórias afetem os resultados.
A geração determinística favorece a reprodutibilidade, embora os resultados exatos ainda possam variar entre diferentes modelos de IA ou ambientes de implementação.
Diferenças entre parâmetros-chave
Compreender como os parâmetros principais diferem ajuda no ajuste dos parâmetros do LLM para obter resultados ótimos.
- Penalidade por frequência versus penalidade por presença : a penalidade por frequência aumenta com a frequência com que um token aparece, enquanto a penalidade por presença é aplicada uma única vez, após o token aparecer pela primeira vez.
- Amostragem Top k vs Top p : A amostragem Top k limita a seleção a um número fixo de tokens, enquanto a amostragem Top p seleciona tokens dinamicamente com base na probabilidade cumulativa.
- Tokens máximos vs. janela de contexto : O número máximo de tokens limita o comprimento da saída, enquanto a janela de contexto é um limite superior fixo que abrange tanto os tokens de entrada quanto os de saída.
O ajuste cuidadoso desses parâmetros permite que os profissionais equilibrem a qualidade da saída, a eficiência computacional e o desempenho do LLM em aplicações como geração aumentada por recuperação, tarefas analíticas e geração de texto aberto.
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.