L'écosystème des infrastructures d'IA connaît une croissance rapide, les fournisseurs proposant diverses approches pour la création, l'hébergement et l'accélération des modèles. Bien que tous visent à alimenter des applications d'IA, chacun se concentre sur une couche différente de la pile technologique.
Nous avons comparé les performances des fournisseurs les plus utilisés sur le serveur GPT-OSS-120B : AI, Groq, et les fournisseurs suivants : GPT-OSS-120B (référence 991259_1751, 991259_1693, 991259_1703, 991259_1708 et 991259_1769). Chaque fournisseur a été évalué à l’aide du même ensemble de données de 108 questions, comprenant 35 questions de connaissances réelles et 73 problèmes de raisonnement mathématique.
Référence de précision des fournisseurs d'IA
Nous envoyons 108 questions (35 questions de connaissances basées sur des articles et 73 problèmes de mathématiques) à chaque fournisseur toutes les 5 minutes, tout au long de la journée, et calculons les moyennes de précision quotidiennes. Parallèlement, nous envoyons systématiquement une question de référence spécifique afin de mesurer les métriques de latence FTL et E2E.
Pour des raisons inconnues, l'IA Fireworks n'a pas pu fournir de réponses finales à la plupart des questions le 26 octobre, malgré l'absence de limite maximale de jetons. Bien qu'une brève interruption de service d'une minute ait eu lieu ce jour-là, le problème a semblé affecter les réponses tout au long de la journée. Nous avons constaté que certains fournisseurs rencontrent parfois des difficultés à générer des réponses finales pour des raisons qui restent obscures, comme cela a déjà été documenté. Cette situation semble similaire à des incidents antérieurs.
Nous avons testé GPT-OSS-120B sur une instance GPU RunPod H200 et obtenu une précision de 98 % sur l'ensemble de données utilisé pour notre test de performance. Consultez notre méthodologie de test.
référence de latence des fournisseurs d'IA
Les jours où la latence augmentait pour Fireworks, il y avait une interruption de service d'une minute, mais tout au long de la journée, il répondait à la plupart des questions en environ 10 minutes chacune pour des raisons inconnues.
Comparaison de la latence et des coûts
Nous avons identifié les modèles les plus utilisés qui sont également les plus couramment proposés par les fournisseurs d'IA , puis nous avons collecté les prix moyens des fournisseurs par million de jetons d'entrée/sortie et leurs indicateurs de latence du premier jeton.
Fournisseurs d'IA : Comparaison détaillée
Intégration des pipelines de données et d'apprentissage automatique
Poids et biais
Weights & Biases (W&B) combine le suivi des expériences, l'évaluation des modèles et l'observabilité des applications avec une infrastructure de formation et d'inférence gérée. Initialement positionné comme un système d'enregistrement pour les flux de travail d'apprentissage automatique, W&B a étendu son offre à un modèle plus intégré verticalement suite à l'acquisition de CoreWeave.
Capacités
- Permet de suivre les expériences, les hyperparamètres, les métriques, les ensembles de données et les artefacts afin de favoriser la reproductibilité et la comparaison entre les modèles et les infrastructures.
- Fournit un registre de modèles avec gestion des versions, promotion, restauration et traçabilité reliant les modèles aux données et aux séquences d'entraînement.
- Offre des services de formation et de réglage fin gérés, y compris le calcul GPU sans serveur pour l'apprentissage par renforcement et les charges de travail d'IA générative.
- Prend en charge l'inférence hébergée pour les modèles open source et personnalisés.
- Permet une observabilité au niveau des requêtes pour les applications LLM via Weave, en capturant les invites, les réponses, la latence et les scores d'évaluation.
- Prend en charge l'évaluation et l'analyse comparative automatisées et avec intervention humaine pour différents modèles, invites et fournisseurs.
- Il s'intègre aux fournisseurs d'IA tiers, aux GPU auto-hébergés et aux API externes, en plus de sa propre infrastructure.
Limites
W&B propose une infrastructure d'IA native limitée via ses offres basées sur CoreWeave. L'inférence hébergée et l'entraînement GPU sans serveur sont pris en charge, mais l'entraînement de modèles à grande échelle ou personnalisés nécessite souvent une infrastructure externe.
Cas d'utilisation : Idéal pour les équipes d'IA qui ont besoin d'une visibilité de bout en bout sur l'expérimentation, l'entraînement, l'évaluation et le déploiement, notamment pour comparer plusieurs modèles ou fournisseurs et maintenir une observabilité de niveau production sans dépendance totale envers un fournisseur.
Databricks
Databricks fournit une plateforme unifiée combinant l'analyse de données, l'apprentissage automatique et la gestion de modèles.
Capacités
- Construit sur l'infrastructure Spark, permettant une intégration de bout en bout de la préparation des données, de l'entraînement du modèle et de l'inférence.
- Utilise MLflow pour le suivi des modèles, y compris les paramètres, les métriques et l'historique des expériences.
- Unity Catalog garantit la traçabilité et la gouvernance des données pourdes pratiques d'IA responsables .
- Solide expertise en traitement par lots et en comparaison de modèles.
Limites
- Non optimisé pour l'inférence en temps réel. La surveillance et les métriques sont conçues pour les traitements par lots, et non pour la latence par requête.
- Plus adapté à la gestion de processus complexes à travers les données et les modèles, plutôt qu'aux charges de travail d'IA critiques en termes de latence.
Cas d'utilisation : Efficace pour les entreprises qui ont besoin d'intégrer l'IA dans leurs pipelines de science des données, notamment pour la modélisation prédictive et les applications d'entreprise où la gouvernance et la traçabilité sont requises.
Plateformes d'hébergement de modèles
Baseten
Baseten se positionne comme une plateforme d'hébergement de modèles pour le déploiement et l'exécution de modèles d'IA, en mettant l'accent sur la fiabilité de la production et l'observabilité détaillée.
Capacités
- Elle décompose la durée des appels API en chargement du modèle, inférence et sérialisation de la réponse, permettant ainsi aux développeurs d'identifier les sources de latence.
- Les démarrages à froid sont suivis au niveau de la réplique afin de mesurer leur impact sur les performances.
- Les utilisateurs configurent les paramètres de mise à l'échelle automatique, tels que le nombre de réplicas et les seuils de concurrence. Cela offre une grande flexibilité, mais comporte un risque de mauvaise configuration, pouvant entraîner des coûts inutiles ou une latence accrue.
- Ce système assure un suivi des coûts par requête lié au type et à l'utilisation du GPU, permettant des comparaisons de performances et de coûts lors du passage d'un matériel à un autre, comme les GPU A100 et H100.
- La diffusion des journaux en temps réel est disponible, bien que le filtrage et la recherche soient limités.
Limites
- La surveillance est détaillée au niveau des requêtes, mais la recherche et le filtrage des journaux sont basiques, ce qui rend le débogage des charges de travail importantes plus difficile.
- Une configuration incorrecte de la mise à l'échelle automatique peut avoir un impact direct sur les coûts et la latence.
Cas d'utilisation : Baseten est idéal pour les développeurs d'IA recherchant une observabilité transparente pour les modèles d'IA génératifs dans les environnements de production.
Parasail
Parasail propose un réseau d'inférence IA conçu pour une utilisation flexible du GPU et une optimisation des coûts.
Capacités
- Le système prend en charge la commutation entre les différents types de GPU, avec une allocation automatique des ressources en fonction des besoins de la charge de travail.
- Le tableau de bord met en évidence les indicateurs d'utilisation agrégés, notamment la disponibilité et l'allocation du GPU.
- Elle offre une flexibilité tarifaire grâce à différentes classes de GPU, permettant des compromis entre coût et performance.
Limites
- Ne propose pas de suivi au niveau des requêtes. Les développeurs ne peuvent pas analyser le coût ni les performances des requêtes individuelles.
- L'observabilité reste à un niveau agrégé, ce qui limite la profondeur du débogage.
Cas d'utilisation : Parasail est conçu pour les organisations qui privilégient les solutions d'IA flexibles et peu coûteuses, mais il fournit moins d'informations aux équipes qui ont besoin d'une observabilité détaillée.
DeepInfra
DeepInfra fournit un hébergementGPU sans serveur sur plusieurs régions, permettant un déploiement évolutif de modèles d'IA sous forme d'API.
Capacités
- La prise en charge multirégionale permet une inférence plus proche des utilisateurs finaux, réduisant ainsi la latence.
- Fournit des indicateurs de latence et de débit au niveau du tableau de bord.
- Propose une tarification à la carte avec un rapport de coûts agrégés.
- Permet le déploiement de modèles d'IA génératifs open source grâce à des API simples.
Limites
- Ne fournit pas de traçabilité au niveau des requêtes, ce qui rend l'analyse des causes profondes difficile.
- Le détail des coûts est présenté uniquement sous forme agrégée, sans indication par requête ou par région.
- Les mécanismes de gestion des versions et de restauration des modèles ne sont pas automatisés et nécessitent une intervention manuelle.
Cas d'utilisation : Idéal pour les organisations déployant des charges de travail d'IA dans différentes régions, où la flexibilité des coûts et la couverture géographique importent plus que le débogage approfondi.
L'IA de l'ensemble
Together AI fonctionne comme un cloud d'accélération de l'IA offrant à la fois des capacités d'hébergement et d'entraînement de modèles.
Capacités
- Fournit des indicateurs aux niveaux agrégé et par requête, notamment des histogrammes de latence et des analyses d'appels par version.
- Le versionnage et la restauration intégrés des modèles permettent de revenir rapidement aux versions précédentes.
- Le fractionnement du trafic permet de réaliser des tests A/B entre les différentes versions du modèle.
- Support SDK robuste avec des bibliothèques clientes multilingues.
- Les intégrations CI/CD rendent les pipelines de déploiement plus matures que les autres plateformes d'hébergement.
Limites
- Cette solution offre une plus grande maturité opérationnelle, mais au prix d'une complexité système plus élevée par rapport aux plateformes d'hébergement plus légères.
Cas d'utilisation : Together AI convient aux entreprises d'IA et aux sociétés de services professionnels qui ont besoin d'un contrôle de version fiable, d'une surveillance avancée et d'une intégration d'outils d'IA générative dans des flux de travail structurés.
Infrastructure optimisée pour le matériel / spécialisée
Cerebras
Cerebras se concentre sur une infrastructure d'IA optimisée pour le matériel, construite autour de son moteur à l'échelle de la plaquette (WSE).
Capacités
- Le WSE intègre des millions d'unités de traitement sur une seule puce , offrant un débit extrêmement élevé pour les charges de travail d'IA.
- Les tableaux de bord affichent des indicateurs standard tels que le nombre de jetons par seconde et le débit global.
- Adapté à l'entraînement et à l'inférence sur des modèles d'IA avancés à grande échelle.
Limites
- Le déploiement n'est pas instantané ; il nécessite une préparation de l'infrastructure.
- Les détails techniques internes du matériel, tels que la planification et l'utilisation de la mémoire, sont masqués aux utilisateurs.
- Prise en charge limitée de l'importation de modèles personnalisés arbitraires.
Cas d'utilisation : Efficace pour les tâches d'apprentissage automatique à grande échelle et à haut débit dans les laboratoires d'IA, l'industrie de la défense ou les agences gouvernementales où le débit prime sur la flexibilité.
SambaNova
SambaNova conçoit des solutions matérielles et logicielles d'IA basées sur son architecture de flux de données, optimisée au niveau du graphe de calcul.
Capacités
- Fournit des plateformes telles que SambaCloud (service cloud), SambaStack (sur site) et SambaManaged (service géré).
- Optimisé pour l'inférence et l'entraînement de modèles d'IA génératifs.
- Métriques standard du tableau de bord pour la latence et le débit au niveau du jeton.
Limites
- Le déploiement nécessite la compatibilité du modèle avec son architecture, ce qui requiert une optimisation supplémentaire.
- Les indicateurs de performance internes, tels que la bande passante mémoire, ne sont pas exposés aux utilisateurs.
- Le déploiement n'est pas immédiat ; des phases de mise en œuvre sont nécessaires.
Cas d'utilisation : Convient aux entreprises ayant besoin de solutions basées sur l'IA combinant matériel et logiciel, notamment dans les secteurs nécessitant une infrastructure informatique contrôlée.
Groq
Groq propose une plateforme d'inférence IA alimentée par ses unités de traitement du langage (LPU).
Capacités
- Optimisé pour la génération séquentielle de jetons avec des réponses en flux continu à faible latence.
- Les tableaux de bord affichent le nombre de jetons, la latence et les taux d'erreur.
- Le coût est suivi au niveau du jeton.
Limites
- Ne prend pas en charge le déploiement de modèles personnalisés. Seuls les modèles fournis par Groq sont disponibles.
- Des outils de débogage minimaux sont disponibles ; en cas de problèmes de performance, il est nécessaire de soumettre un ticket d'assistance.
- Le fonctionnement interne des LPU reste opaque.
Cas d'utilisation : Idéal pour les applications où des réponses à très faible latence pour les grands modèles de langage sont essentielles, comme l'IA conversationnelle ou les algorithmes de prise de décision.
Hébergement basé sur les API
Fireworks IA
Fireworks AI fournit un service d'hébergement léger basé sur une API pour les modèles d'IA.
Capacités
- Déploiement rapide du modèle grâce à des points de terminaison API immédiats.
- Permet d'affiner les modèles d'IA générative.
- Les tableaux de bord fournissent des indicateurs tels que la latence des appels, l'utilisation des jetons, le taux d'erreur et le nombre de requêtes.
Limites
- L'absence de traçage au niveau des requêtes limite le débogage détaillé.
- Les données de coûts sont uniquement agrégées, sans visibilité par requête.
- La restauration est manuelle ; le retour aux versions antérieures nécessite un redéploiement.
Cas d'utilisation : Convient aux développeurs d'IA qui ont besoin d'un accès rapide aux capacités d'IA générative sans observabilité approfondie ni gestion complexe du déploiement.
Qu'est-ce qu'un fournisseur d'IA ?
Un fournisseur d'IA est une entreprise d'intelligence artificielle qui fournit l' infrastructure , les modèles et les services nécessaires aux autres pour développer et exécuter des solutions basées sur l'IA.
Les fournisseurs d'IA sont essentiels car ils :
- Réduire les obstacles à l'adoption de l'IA, notamment pour les entreprises ne disposant pas d'une expertise interne approfondie.
- Assurer l'évolutivité en gérant des processus complexes tels que la mise à l'échelle automatique et la formation distribuée.
- Proposez une solution économique grâce à une infrastructure à la demande plutôt qu'à des investissements initiaux dans du matériel d'IA.
- Garantir des pratiques d'IA responsables grâce à des fonctionnalités de gouvernance, de traçabilité et de conformité.
Types de fournisseurs d'IA
Les fournisseurs d'IA peuvent être regroupés en trois grandes catégories :
- Les fournisseurs d'infrastructures d'IA se concentrent sur du matériel d'IA spécialisé, notamment des processeurs personnalisés et des puces hautes performances, pour l'entraînement et l'inférence.
- Les plateformes d'hébergement de modèles permettent d'accéder aux modèles d'IA générative via des API, facilitant ainsi l'intégration de l'IA dans les applications. Elles offrent souvent des fonctionnalités telles que la mise à l'échelle automatique, la surveillance de la latence et le réglage fin.
- Les plateformes de données et d'apprentissage automatique mettent l'accent sur l'intégration de bout en bout de l'analyse des données, de la formation des modèles et de la gouvernance, en privilégiant une IA responsable.
Caractéristiques clés des fournisseurs d'IA
Dans toutes les catégories, la plupart des fournisseurs d'IA partagent plusieurs caractéristiques fondamentales qui déterminent la manière dont ils apportent de la valeur et permettent aux organisations d'adopter efficacement les capacités de l'IA :
Accès à de grands modèles de langage et à d'autres modèles d'IA générative
Les fournisseurs d'IA proposent un accès direct à de grands modèles de langage (LLM) et à une gamme de modèles d'IA génératifs pour des tâches telles que la génération de texte , le traitement de la parole et la reconnaissance d'images . Ces modèles sont généralement proposés via des API, ce qui facilite l'intégration de solutions basées sur l'IA dans les applications des entreprises sans nécessiter d'expertise approfondie en matière d'entraînement des modèles.
Infrastructure d'IA pour gérer les charges de travail d'IA exigeantes
Les fournisseurs proposent des environnements de calcul adaptés aux modèles d'IA avancés et aux charges de travail d'IA à grande échelle. Ces environnements comprennent la puissance de traitement nécessaire à l'entraînement , au réglage fin et à l'inférence, souvent conçue pour prendre en charge à la fois les opérations par lots à haut débit et les tâches sensibles à la latence. Une telle infrastructure permet aux entreprises d'exécuter des processus complexes de manière efficace et fiable.
Tableaux de bord de déploiement et de surveillance avec indicateurs de latence, de débit et de coût
Les tableaux de bord sont une fonctionnalité standard qui permet de visualiser les performances et l'efficacité des systèmes d'IA. Parmi les indicateurs clés figurent la latence par requête, le débit global, les taux de traitement des jetons et le nombre d'erreurs. La visibilité des coûts est également assurée, avec des rapports détaillés par requête et des synthèses agrégées. Ces outils contribuent à une gestion et une optimisation efficaces des ressources.
Options pour le réglage fin et la gestion des modèles
De nombreuses plateformes permettent d'affiner les modèles d'IA générative pour des cas d'usage spécifiques. Les entreprises peuvent ainsi adapter ces modèles aux besoins propres à leur secteur, comme la modélisation prédictive dans la chaîne d'approvisionnement ou l'IA conversationnelle dans le support client. Les fonctionnalités de gestion des modèles incluent souvent le contrôle de version, la restauration et la répartition du trafic pour les expérimentations, ce qui contribue à garantir la fiabilité lors des déploiements itératifs.
Flexibilité des prix, souvent basée sur le paiement à l'utilisation ou la consommation de jetons
Au lieu d'investir massivement dans du matériel d'IA, les fournisseurs privilégient généralement une tarification à l'usage. Celle-ci peut être structurée par requête, par jeton ou par temps de calcul. Cette flexibilité tarifaire facilite l'adoption de l'IA pour les organisations qui souhaitent se lancer, tout en permettant aux entreprises d'adapter leurs dépenses à leurs besoins et d'optimiser ainsi leurs coûts et leurs performances.
Que sont les passerelles d'IA ?
Une passerelle d'IA est une plateforme intermédiaire qui gère l'intégration, le routage et la gouvernance des modèles et services d'IA au sein des environnements d'entreprise. Au lieu de fournir les modèles eux-mêmes, les passerelles d'IA servent de point d'entrée unique entre les applications et de multiples outils d'IA, notamment les grands modèles de langage , les systèmes de reconnaissance d'images et d'autres services d'IA générative.
Elles gèrent des fonctions telles que la normalisation des API, l'orchestration des modèles, la surveillance, l'application des mesures de sécurité et le suivi des coûts, permettant aux organisations de contrôler la manière dont les charges de travail d'IA sont consultées et utilisées par différents fournisseurs.
Principales différences entre les passerelles d'IA et les fournisseurs d'IA
Fonction
- Les fournisseurs d'IA fournissent l'infrastructure d'IA, les modèles d'IA et la puissance de calcul nécessaire à leur exécution.
- Les passerelles d'IA gèrent et orchestrent les interactions avec ces modèles, assurant cohérence et gouvernance.
Position dans la pile
- Les fournisseurs d'IA opèrent au niveau de l'infrastructure et des modèles, fournissant les capacités d'IA proprement dites.
- Les passerelles d'IA se situent au-dessus des fournisseurs, connectant les applications à un ou plusieurs modèles via une couche de contrôle unique.
Étendue des responsabilités
- Les fournisseurs d'IA se concentrent sur la formation, le réglage fin, l'hébergement et la mise en service des modèles.
- Les passerelles d'IA se concentrent sur l'unification des API, le routage des charges de travail, l'observabilité et l'application des politiques à travers les modèles.
Gouvernance et sécurité
- Les fournisseurs d'IA mettent en œuvre des mécanismes de gouvernance pour leurs propres modèles, tels que le contrôle des versions et le suivi des coûts.
- Les passerelles d'IA offrent une gouvernance centralisée, permettant la conformité, le contrôle d'accès et la protection des données pour de multiples modèles et fournisseurs.
Approche de déploiement
- Les fournisseurs d'IA proposent différentes options d'infrastructure, notamment des API cloud, des clusters dédiés et du matériel sur site.
- Les passerelles d'IA fournissent des modèles de déploiement (global, multicloud, sidecar ou micro-passerelle) qui optimisent le routage du trafic entre les applications et les modèles.
Méthodologie de référence
Dans ce test de performance, le modèle GPT-OSS-120B, le modèle open source le plus utilisé sur la plateforme OpenRouter, a été sélectionné. Avant de procéder au test, les performances de référence du modèle GPT-OSS-120B ont été établies. Le modèle a été testé dans un environnement auto-hébergé sur une instance GPU RunPod H200 et a atteint une précision de 98 % sur l'ensemble de données de 108 questions utilisé pour le test (35 questions basées sur des articles et 73 problèmes mathématiques).
Avant de lancer l'analyse comparative, les données de parts de marché sur OpenRouter ont été analysées afin d'identifier les six principaux fournisseurs d'IA détenant les parts de marché les plus importantes. Seuls ces fournisseurs ont été utilisés pour le test. Toutes les requêtes API ont été envoyées via le même point de terminaison API OpenRouter afin de garantir la cohérence des conditions de test.
Ensemble de données et processus de test
L'ensemble de données de référence comprend 108 questions. Parmi celles-ci, 35 sont des questions de connaissances générales issues d'articles de CNN et appariées à des données de référence vérifiées. Cette section vise à évaluer la capacité du modèle à restituer avec précision des informations numériques telles que des pourcentages, des dates et des quantités, ainsi que sa tendance à l'erreur. Les 73 questions restantes sont des problèmes de raisonnement mathématique qui permettent de tester la cohérence numérique, le raisonnement logique et la précision des calculs du modèle.
Les 108 questions utilisées lors du test sont des questions auxquelles le modèle répond systématiquement et correctement. Ce test vise à observer la dégradation des performances et de la qualité du modèle à des moments précis de la journée ou lors de variations de la charge du système.
Le processus de test se déroule comme suit :
- Les 108 questions sont envoyées individuellement à intervalles de 5 minutes, et ce processus se poursuit sans interruption.
- Les réponses vrai/faux obtenues à chaque question sont utilisées dans les calculs de précision.
- Parallèlement, pour chaque soumission, une question de référence fixe est également envoyée à tous les fournisseurs. Les indicateurs mesurés à partir de cette question de référence sont les suivants :
- Latence du premier jeton (FTL) : Le temps écoulé entre l'envoi de la requête et la production du premier jeton par le modèle.
- Latence de bout en bout (latence E2E) : Le temps nécessaire au modèle pour générer complètement la réponse.
Les requêtes sont envoyées simultanément à tous les fournisseurs pour un même modèle et via le même point de terminaison API. Le système de test fonctionne de manière cyclique ; à la fin de chaque journée, les valeurs de précision obtenues à partir des 108 questions et les moyennes journalières des valeurs de latence FTL/E2E mesurées à partir de la question de référence fixe sont affichées dans des graphiques.
Détails du test de référence auto-hébergé
Le test de performance de référence a été réalisé en exécutant le modèle openai/gpt-oss-120b dans un environnement auto-hébergé sur une instance GPU RunPod H200. Cet environnement de test a été construit à partir du modèle PyTorch RunPod, avec le moteur d'inférence vLLM (version 0.10.2) installé comme bibliothèque principale. Le SDK openai-harmony, composant essentiel de la pile logicielle, est indispensable pour l'encodage correct des invites et le décodage des réponses pour la série de modèles GPT-OSS. Le moteur vLLM a été configuré avec gpu_memory_utilization=0.85 et max_model_len=4096 afin de prendre en charge la quantification MXFP4 et les exigences de contexte du modèle. Pour optimiser les performances, la bibliothèque flashinfer a également été installée, offrant un gain de vitesse significatif pour l'inférence sur le matériel H200.
Le test de performance a été réalisé à l'aide du script `test_baseline_harmony_correct.py`, qui traite un ensemble de données consolidé de 108 questions (35 questions basées sur des articles et 73 problèmes de mathématiques). Pour chaque question, une invite a été construite par programmation à l'aide du SDK openai-harmony. Cela impliquait la création d'un objet `Conversation` avec des messages distincts pour `Role.SYSTEM`, `Role.DEVELOPER` et `Role.USER` ; le `DeveloperContent` incluait spécifiquement l'instruction « Reasoning: high » afin d'obtenir des réponses détaillées. Cet objet a été converti en identifiants de jetons (`token ID`) à l'aide de l'encodage `HarmonyEncodingName.HARMONY_GPT_OSS`. L'inférence a été effectuée avec des paramètres d'échantillonnage déterministes (temperature=0.0) et `max_tokens=2048` afin de capturer l'intégralité du raisonnement. Les `stop_token_ids` ont été fournis directement par la méthode `stop_tokens_for_assistant_actions()` de l'encodage Harmony. Enfin, les jetons de sortie du modèle ont été analysés par le SDK Harmony pour extraire la réponse structurée, qui a ensuite été normalisée et validée par rapport à la vérité terrain pour calculer la précision.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.