Les nouveaux LLM, tels que la famille GPT-5 de OpenAI, se déclinent en différentes versions (par exemple, GPT-5, GPT-5-mini et GPT-5-nano) et avec divers réglages de paramètres, notamment élevé, moyen, faible et minimal.
Nous explorons ci-dessous les différences entre ces versions de modèles en rassemblant leurs performances de référence et les coûts d'exécution des tests.
Prix et succès : principaux enseignements
Nous avons utilisé la famille GPT-5 dans notre analyse. Nous avons utilisé six benchmarks dans différents domaines, notamment le raisonnement, la programmation, le suivi d'instructions et les mathématiques.
Notre analyse a révélé :
- En moyenne, tous tests confondus, les codes GPT-5 (haut de gamme) et GPT-5 (moyen de gamme) affichent des taux de réussite quasi identiques (65 % contre 64 %), mais le code GPT-5 (haut de gamme) coûte presque deux fois plus cher (511 $ contre 280 $). Viennent ensuite les codes GPT-5-mini (haut de gamme) , GPT-5 (bas de gamme) et GPT-5-mini (moyen de gamme), avec des taux de réussite respectifs de 62 %, 61 % et 60 %, à des prix bien plus abordables de 105 $, 90 $ et 28 $. Cela montre qu'en acceptant seulement une baisse d'environ 5 % du taux de réussite, les tâches peuvent être accomplies à un coût jusqu'à 18 fois inférieur en passant de GPT-5 (élevé) à GPT-5-mini (moyen).
- GPT-5-mini (élevé) surpasse GPT-5 (faible) dans presque tous les tests de performance, et ce à un coût égal ou inférieur. Sur IFBench, les taux de réussite sont de 75 % contre 67 % ; sur AIME 2025, de 97 % contre 83 % ; sur Humanity's Last Exam, de 20 % contre 18 % ; et sur GPQA Diamond, de 83 % contre 81 %. Ils obtiennent le même résultat sur SciCode (39 %), mais GPT-5-mini (élevé) reste moins cher.
- Le modèle le plus cher, GPT-5 (haut de gamme), surpasse le deuxième meilleur modèle sur seulement trois tests de performance, et même dans ce cas, l'écart ne dépasse pas 3 %. Sur tous les autres tests, il est moins performant que des alternatives moins chères.
paramètres haut-moyen-bas-minimal
Bien que les paramètres des modèles linéaires latents (LLM) soient souvent décrits en termes d'ajustements numériques, ils peuvent également être exprimés sous forme d'intervalles qualitatifs tels que « élevé », « moyen » et « faible ». Ces intervalles ne constituent pas des normes fixes ; il s'agit plutôt de catégories conceptuelles qui décrivent l'influence d'un paramètre sur la sortie du modèle.
L'utilisation de ces trois niveaux permet de sélectionner rapidement les paramètres pour différentes tâches, selon le niveau de créativité, de déterminisme ou de durée souhaité. Ces niveaux sont utiles pour ajuster les paramètres top-P, nombre maximal de jetons et pénalité.
Le paramètre moyen fait référence à la version standard (non paramétrée) d'un modèle.
Réglage minimal :
- Top-p / Top-k : Très faible (top-p ≈ 0,1–0,2, top-k = 1–5)
- Jetons maximum : Limite courte
- Pénalités : très faibles ou inexistantes
- Effets :
- Des résultats hautement déterministes, quasiment identiques à chaque fois.
- Très concis, factuel et rigide.
- Idéal pour le code, les mathématiques, les requêtes de bases de données ou les réponses exigeant une conformité stricte.
- Très contraint, avec une faible part d'aléatoire, favorisant la prévisibilité et la précision.
Réglage faible :
- Top-p / Top-k : Faible (top-p ≈ 0,3–0,5, top-k = 5–10)
- Jetons maximum : Court à moyen
- Pénalités : Faibles à modérées
- Effets :
- Principalement déterministe, mais admet de légères variations.
- Réduit la répétition robotique par rapport à un minimum.
- Convient aux résumés, aux explications structurées ou à la rédaction professionnelle avec un style cohérent.
Réglage moyen :
- Top-p / Top-k : Modéré (top-p ≈ 0,7–0,9, top-k = 20–50)
- Nombre maximal de jetons : Longueur moyenne
- Pénalités : Modérées, pour éviter la répétition tout en laissant place à la créativité
- Effets :
- Un équilibre entre précision et créativité.
- Produit des réponses naturelles qui varient légèrement d'une exécution à l'autre.
- Convient aux séances de questions-réponses générales, à la rédaction de documents et aux séances de brainstorming.
Réglage élevé :
- Top-p / Top-k : Élevé (top-p ≈ 0,95–1,0, top-k = 50–100)
- Nombre maximal de jetons : limite élevée pour les textes longs
- Pénalités : Moyennes à élevées, encourageant la variété et la nouveauté
- Effets :
- Des productions très créatives et diversifiées.
- Moins prévisible, avec un risque accru d’ hallucinations .
- Idéal pour raconter des histoires, générer des idées, jouer des rôles et écrire de manière créative.
Pour déterminer le niveau à utiliser, tenez compte des éléments suivants :
- Type/objectif de la tâche : Si la précision est essentielle ( juridique , médicale , technique , factuelle ), choisissez un niveau minimal ou moyen. Si vous recherchez la créativité, un style personnel ou l’originalité, un niveau élevé sera peut-être plus approprié.
- Tolérance aux erreurs : Quelle est la gravité des anomalies ou erreurs occasionnelles ? Si elle est faible, évitez une trop grande part d’aléatoire.
- Contraintes de calcul : Des longueurs de sortie élevées et un degré d'aléatoire élevé nécessitent souvent plus de puissance de calcul et de mémoire.
- Taille du modèle : Les modèles plus grands ont tendance à mieux gérer un niveau d’aléatoire élevé, tandis que les modèles plus petits peuvent se dégrader considérablement dans des conditions de paramètres élevés.
- Longueur de sortie souhaitée : Un texte généré plus long peut dériver, donc un niveau d’aléatoire élevé associé à une grande longueur est plus risqué.
GPT-5
GPT-5 équilibre une capacité de raisonnement plus élevée avec une vitesse moyenne, ce qui la rend adaptée aux tâches complexes à plusieurs étapes où la précision et l'adaptabilité sont cruciales.
- Fenêtre contextuelle : 400 000
- Nombre maximal de jetons de sortie : 128 000
- Date limite de connaissances : 30 septembre 2024
- Raisonnement : Niveau supérieur, avec prise en charge des jetons de raisonnement
Tarification (par million de jetons)
- Entrée : 1,25 $
- Entrée en cache : 0,125 $
- Résultat : 10,00 $
Modalités
- Texte : entrée et sortie
- Image : entrée uniquement
- Audio : non pris en charge
GPT-5 mini
Le GPT-5 mini est une version plus petite, plus rapide et plus abordable du GPT-5. Il conserve d'excellentes capacités de raisonnement tout en étant mieux adapté aux tâches bien définies.
- Fenêtre contextuelle : 400 000
- Nombre maximal de jetons de sortie : 128 000
- Date limite de connaissances : 31 mai 2024
- Fonctionnalités : Prend en charge la recherche Web, la recherche de fichiers et l'interpréteur de code.
Prix par million de jetons :
- Entrée : 0,25 $
- Entrée en cache : 0,025 $
- Résultat : 2,00 $
GPT-5 nano
GPT-5 nano est l'option la plus rapide et la moins chère, conçue pour des tâches légères telles que la classification et la synthèse.
- Fenêtre contextuelle : 400 000
- Nombre maximal de jetons de sortie : 128 000
- Date limite de connaissances : 31 mai 2024
- Fonctionnalités : Prend en charge la recherche de fichiers, la génération d'images et l'interpréteur de code (mais pas la recherche Web).
Prix par million de jetons :
- Entrée : 0,05 $
- Entrée en cache : 0,005 $
- Résultat : 0,40 $
Caractéristiques de la série GPT-5
La série GPT-5 introduit plusieurs fonctionnalités qui améliorent le contrôle, le formatage et l'efficacité. Ces fonctionnalités s'appliquent aux modèles GPT-5, GPT-5 Mini et GPT-5 Nano.
Paramètre de verbosité
Le paramètre de verbosité permet aux développeurs d'influencer le niveau de détail des résultats du modèle sans modifier l'invite.
Il accepte trois valeurs :
- Faible : résultats courts et concis
- Moyen : résultats équilibrés (par défaut)
- Niveau élevé : résultats détaillés adaptés à l’explication, à la documentation ou à la révision
Une plus grande verbosité entraîne des réponses plus longues et une utilisation accrue des jetons de sortie.
Appel de fonction libre
La série GPT-5 prend en charge les appels d'outils personnalisés qui acceptent une sortie de texte brut au lieu de JSON structuré. Cela permet de générer du code, des requêtes SQL ou du texte de configuration qui sont directement transmis à des environnements d'exécution externes tels que :
- bacs à sable de code
- Moteurs SQL
- Environnements Shell
- Systèmes de configuration
L'outil personnalisé ne prend pas en charge les appels d'outils parallèles. Il est conçu pour les situations où le texte naturel est préférable à un schéma JSON strict.
Prise en charge des grammaires hors contexte (CFG)
Les modèles peuvent produire du texte contraint par une grammaire définie avec Lark ou la syntaxe des expressions régulières. Ceci garantit que le texte généré respecte des règles structurelles strictes. Exemples d'utilisation :
- Imposition de dialectes SQL spécifiques
- Restreindre les horodatages ou les identifiants
- Validation des formats de configuration
Lorsqu'ils utilisent des grammaires hors contexte (CFG), les développeurs définissent des terminaux et des règles qui décrivent l'ensemble des chaînes de caractères acceptables. Le modèle ne produit que des sorties conformes à ces règles.
Mode de raisonnement minimal
Le mode de raisonnement minimal réduit ou supprime les jetons de raisonnement. Cela diminue la latence et améliore le temps d'obtention du premier jeton.
Il convient à des tâches telles que :
- Classification
- Réécritures courtes
- Extraction structurée
- Opérations de mise en forme de base
Lorsqu'aucun paramètre de justification n'est fourni, le niveau d'effort par défaut est moyen.
Principales différences
Les trois modèles diffèrent principalement par la profondeur du raisonnement, la vitesse et le coût. Les nouvelles fonctionnalités sont utilisables dans tous les modèles, mais leur impact varie selon celui-ci.
Raisonnement
- GPT-5 offre les meilleures capacités de raisonnement. Il convient aux problèmes complexes et à plusieurs étapes en matière de codage, d'analyse scientifique ou d'aide à la décision.
- GPT-5 mini propose une justification solide pour des invites structurées avec des limites de tâches prévisibles.
- GPT-5 nano a des performances de raisonnement modérées et fonctionne mieux sur les tâches qui ne nécessitent pas d'analyse approfondie.
- Le mode de raisonnement minimal peut être utilisé avec tous les modèles et offre le plus grand avantage pour GPT-5 nano et GPT-5 mini, compte tenu de leur avantage en termes de vitesse.
Vitesse
- GPT-5 nano est l'option la plus rapide et est efficace pour les charges de travail en temps réel ou à grande échelle.
- GPT-5 mini équilibre la vitesse avec le raisonnement, ce qui le rend adapté aux charges de travail de production régulières.
- GPT-5 est plus lent car il effectue plus de raisonnements internes, mais cela donne un résultat plus précis.
- Le mode de raisonnement minimal peut encore réduire la latence, notamment pour les nano-appareils.
Coût
- GPT-5 nano présente le coût par jeton le plus bas. Il est privilégié pour les tâches à volume élevé telles que la classification par lots ou la synthèse.
- GPT-5 mini se situe dans le milieu de gamme, offrant un équilibre entre capacité et coût.
- Le modèle GPT-5 est le plus cher et est généralement utilisé lorsque la précision et la constance sont prioritaires.
- Les paramètres de verbosité influencent le coût car une verbosité plus élevée produit davantage de jetons de sortie.
Que sont les paramètres LLM ?
Les paramètres LLM sont des réglages qui influencent la manière dont les grands modèles de langage (LLM) génèrent du texte lors de l'inférence. Ces paramètres ne modifient pas les poids appris d'un modèle pré-entraîné. Ils déterminent plutôt comment le modèle de langage échantillonne une distribution de probabilité sur les jetons probables lors de la génération des réponses.
Les grands modèles de langage sont des systèmes de réseaux neuronaux, généralement construits sur l'architecture du modèle Transformer. Lors de l'entraînement, le modèle apprend des valeurs numériques appelées poids et biais. Les poids représentent l'importance accordée aux différentes entrées, permettant au modèle de saisir les relations entre les mots, les concepts et le contexte. Les biais sont des valeurs constantes ajoutées au sein des couches, qui contribuent à activer les neurones dans certaines conditions. Ensemble, ces valeurs définissent la capacité du modèle à reconnaître des structures linguistiques complexes.
Les paramètres d'inférence, en revanche, interviennent après l'entraînement. Ils déterminent la manière dont les connaissances acquises par le modèle sont utilisées, sans modifier les pondérations sous-jacentes. L'ajustement des paramètres LLM permet d'influencer la diversité, la prévisibilité, la répétition et la longueur des résultats, ce qui est essentiel pour optimiser les performances du modèle dans des tâches spécifiques telles que la rédaction créative, la génération structurée ou les explications techniques.
Les paramètres clés comprennent l'échantillonnage des p noyaux les plus pertinents, le nombre maximal de jetons, la pénalité de fréquence, la pénalité de présence et les séquences d'arrêt. Ensemble, ces paramètres d'échantillonnage contrôlent la sortie générée tout en équilibrant la qualité de la sortie, le coût de calcul et l'efficacité de l'inférence.
Taille du modèle, paramètres et principes fondamentaux de l'entraînement
Le nombre de paramètres des grands modèles de langage peut atteindre des milliards. Ces modèles sont généralement plus performants pour traiter les nuances du langage, les dépendances à longue portée et les raisonnements complexes. Cette amélioration des performances s'accompagne toutefois d'une augmentation des besoins en puissance de calcul, tant pour l'entraînement que pour l'inférence.
Les modèles plus petits nécessitent moins de ressources de calcul et offrent une meilleure efficacité, mais peuvent avoir des difficultés avec des motifs plus complexes ou des fenêtres de contexte plus longues. Le choix entre grands et petits modèles dépend de la tâche, de la latence acceptable et de l'infrastructure disponible. Consultez les lois de mise à l'échelle LLM pour comprendre comment les chercheurs en IA évaluent l'impact de la taille du modèle, de la qualité des données et de la stratégie d'entraînement.
Plusieurs paramètres d'entraînement déterminent la façon dont un modèle apprend avant l'inférence :
- La taille du lot correspond au nombre d'échantillons d'entraînement traités avant que le modèle ne mette à jour ses poids. Des lots plus importants améliorent l'efficacité de l'entraînement, mais augmentent la consommation de mémoire.
- Le taux d'apprentissage détermine la vitesse à laquelle le modèle ajuste ses poids et ses biais. Des valeurs élevées accélèrent l'apprentissage mais risquent de provoquer une instabilité, tandis que des valeurs faibles favorisent une convergence stable.
- Les hyperparamètres définissent des paramètres externes tels que la taille du modèle, la taille du lot et le taux d'apprentissage, façonnant ainsi le processus d'entraînement global.
Après le pré-entraînement, le réglage fin et l'alignement sont essentiels. Le réglage fin adapte un modèle pré-entraîné à des données ou des tâches spécifiques à un domaine, tandis que l'alignement garantit que le texte généré reflète l'intention humaine.
Le réglage fin efficace des paramètres (PEFT) améliore l'efficacité de calcul en gelant la plupart des paramètres et en mettant à jour seulement un petit sous-ensemble de paramètres pertinents pour la tâche.
Échantillonnage Top-p
L'échantillonnage Top-p, également appelé échantillonnage du noyau, limite la sélection des jetons au plus petit groupe dont la probabilité cumulée dépasse un seuil donné p. Au lieu de sélectionner parmi un nombre fixe de jetons, le modèle choisit dynamiquement parmi les jetons probables qui, ensemble, représentent la masse de probabilité spécifiée.
- Des valeurs plus faibles (par exemple, p = 0,5) limitent l'échantillonnage à un ensemble restreint de jetons à probabilité plus élevée, ce qui donne un texte cohérent mais moins varié.
- Des valeurs plus élevées (par exemple, p = 0,9) permettent d'échantillonner un plus grand nombre de données, ce qui augmente la diversité des résultats mais aussi le risque de s'écarter du sujet.
Échantillonnage des k premiers
L'échantillonnage des k meilleurs éléments restreint le choix du modèle aux k jetons ayant la plus forte probabilité pour l'étape suivante de génération de texte. En réduisant l'ensemble des candidats, ce paramètre influe directement sur la prévisibilité et la variété.
- Des valeurs de top-k plus faibles limitent la sélection à un petit ensemble de jetons hautement probables, produisant des résultats plus prévisibles et ciblés.
- Des valeurs plus élevées élargissent le vivier de candidats, augmentant ainsi la variabilité et favorisant une plus grande diversité linguistique.
Alors que l'échantillonnage top-p s'adapte dynamiquement en fonction de la masse de probabilité, l'échantillonnage top-k utilise un seuil fixe. Ces deux méthodes sont souvent comparées lors de l'évaluation des modèles afin de déterminer les paramètres optimaux pour des tâches spécifiques.
Nombre maximal de jetons (Nombre de jetons)
Le paramètre max_tokens définit le nombre maximal de jetons que le modèle peut générer dans une seule réponse. Il détermine directement la longueur de la sortie et influe sur le coût de calcul.
- Des valeurs maximales plus basses imposent des réponses concises, mais peuvent omettre des détails importants.
- Des valeurs plus élevées permettent des explications plus détaillées, mais nécessitent davantage de ressources de calcul et augmentent le temps d'inférence.
Le nombre maximal de jetons est limité par la fenêtre de contexte, qui inclut à la fois les données d'entrée et la sortie générée. Si le nombre total de jetons dépasse la limite du modèle, la génération s'arrête, quelle que soit la valeur du nombre maximal de jetons.
Paramètre de pénalité de fréquence
La pénalité de fréquence ajuste la probabilité des jetons en fonction de leur fréquence d'apparition dans le texte généré.
- Les valeurs positives réduisent les répétitions, améliorant ainsi la qualité des réponses plus longues.
- Les valeurs négatives encouragent la réutilisation, ce qui peut être utile pour les documents qui exigent une terminologie cohérente.
Des pénalités trop élevées peuvent nuire à la cohérence, car la répétition naturelle est souvent nécessaire pour un texte fluide et naturel. Ce paramètre est particulièrement efficace pour optimiser les performances du modèle lors de la génération de textes longs.
Pénalité de présence
La pénalité de présence réduit la probabilité des jetons déjà apparus au moins une fois, quelle que soit leur fréquence. Cela encourage le modèle à proposer de nouvelles idées.
- Les valeurs positives favorisent la nouveauté et l'exploration, ce qui est utile pour le brainstorming et l'écriture créative.
- Les valeurs négatives renforcent les termes existants, ce qui peut s'avérer utile pour obtenir des résultats structurés ou contraints.
La pénalité de présence est un outil précieux pour guider la diversité des idées, mais elle doit être appliquée avec précaution pour éviter un évitement artificiel des termes clés.
Séquences d'arrêt
Les séquences d'arrêt définissent des jetons ou des chaînes de caractères spécifiques qui signalent au modèle d'interrompre la génération. Elles sont couramment utilisées dans les applications structurées.
- Utile pour imposer des modèles dans les systèmes de dialogue ou la génération de code.
- Contribuez à contrôler la longueur du résultat et à éviter les continuations non pertinentes.
Les séquences d'arrêt améliorent la prévisibilité des textes générés sans dépendre uniquement des limites de jetons.
Semence et déterminisme
Certains systèmes permettent aux utilisateurs de spécifier une graine aléatoire, garantissant ainsi que les mêmes données d'entrée et les mêmes paramètres produisent la même sortie générée.
- Utile pour l'évaluation et le test des modèles.
- Permet de comparer différentes configurations de paramètres sans que des variations aléatoires n'affectent les résultats.
La génération déterministe favorise la reproductibilité, même si les résultats exacts peuvent varier selon les différents modèles d'IA ou environnements de déploiement.
Différences entre les paramètres clés
Comprendre les différences entre les paramètres clés est utile pour ajuster les paramètres LLM et obtenir des résultats optimaux.
- Pénalité de fréquence vs pénalité de présence : La pénalité de fréquence est proportionnelle à la fréquence d'apparition d'un jeton, tandis que la pénalité de présence s'applique une seule fois après la première apparition du jeton.
- Échantillonnage Top k vs Top p : Top k limite la sélection à un nombre fixe de jetons, tandis que Top p sélectionne dynamiquement les jetons en fonction de la probabilité cumulative.
- Nombre maximal de jetons vs fenêtre de contexte : Le nombre maximal de jetons limite la longueur de la sortie, tandis que la fenêtre de contexte est une limite supérieure fixe couvrant à la fois les jetons d'entrée et de sortie.
Un réglage précis de ces paramètres permet aux praticiens d'équilibrer la qualité de la sortie, l'efficacité de calcul et les performances du LLM dans des applications telles que la génération augmentée pour la recherche, les tâches analytiques et la génération de texte ouvert.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.