Contattaci
Nessun risultato trovato.

Confronto tra i 9 migliori fornitori di intelligenza artificiale

Sıla Ermut
Sıla Ermut
aggiornato il Gen 23, 2026
Guarda il nostro norme etiche

L'ecosistema delle infrastrutture per l'IA sta crescendo rapidamente, con fornitori che offrono diversi approcci per la creazione, l'hosting e l'accelerazione dei modelli. Sebbene tutti mirino a potenziare le applicazioni di IA, ciascuno si concentra su un diverso livello dello stack.

Abbiamo effettuato un benchmark dei provider più utilizzati su OpenRouter: Cerebras, DeepInfra, Fireworks AI, Groq, Nebius e SambaNova, utilizzando il modello GPT-OSS-120B. Abbiamo valutato ciascun provider utilizzando lo stesso dataset di 108 domande, composto da 35 domande di conoscenza del mondo reale e 73 problemi di ragionamento matematico.

benchmark di accuratezza dei fornitori di IA

Loading Chart

Inviamo 108 domande (35 domande di conoscenza basate su articoli + 73 problemi di matematica) a ciascun fornitore ogni 5 minuti durante la giornata e calcoliamo le medie giornaliere di accuratezza. Insieme a queste domande, inviamo ogni volta una domanda di riferimento specifica per misurare le metriche di latenza FTL e E2E.

Per ragioni sconosciute, l'IA Fireworks non è riuscita a produrre risposte definitive per la maggior parte delle domande il 26 ottobre, nonostante non avesse un limite massimo di token. Sebbene si sia verificato un breve periodo di inattività di 1 minuto quel giorno, il problema sembra aver influenzato le risposte per tutta la giornata. Abbiamo appreso che alcuni provider occasionalmente non riescono a generare risposte definitive per motivi che rimangono non chiari, come già documentato in precedenza. Questa situazione sembra simile a incidenti passati.

Abbiamo testato GPT-OSS-120B su un'istanza GPU RunPod H200, ottenendo un'accuratezza del 98% sul dataset utilizzato nel nostro benchmark. Leggi la nostra metodologia di benchmark.

benchmark di latenza dei fornitori di IA

Nei giorni in cui la latenza aumentava per Fireworks, si verificava un'interruzione di 1 minuto, ma durante il resto della giornata, per ragioni sconosciute, il sistema rispondeva alla maggior parte delle domande in circa 10 minuti ciascuna.

Confronto tra latenza e costi

Abbiamo identificato i modelli più diffusi, che sono anche i più comunemente offerti dai fornitori di IA , e abbiamo quindi raccolto i prezzi medi per 1 milione di token di input/output e le metriche relative alla latenza del primo token di tali fornitori.

Fornitori di intelligenza artificiale: confronto dettagliato

Integrazione di pipeline di dati e machine learning

Pesi e distorsioni

Weights & Biases (W&B) combina il tracciamento degli esperimenti, la valutazione dei modelli e l'osservabilità delle applicazioni con un'infrastruttura gestita per l'addestramento e l'inferenza. Inizialmente concepito come sistema di riferimento per i flussi di lavoro di machine learning, W&B si è ampliato in un'offerta più verticalmente integrata in seguito all'acquisizione di CoreWeave.

Capacità

  • Tiene traccia di esperimenti, iperparametri, metriche, set di dati e artefatti per supportare la riproducibilità e il confronto tra modelli e infrastrutture.
  • Fornisce un registro di modelli con funzionalità di versioning, promozione, rollback e collegamento della provenienza dei modelli ai dati e alle esecuzioni di training.
  • Offre servizi di training e ottimizzazione gestiti, tra cui elaborazione GPU serverless per carichi di lavoro di apprendimento per rinforzo e intelligenza artificiale generativa.
  • Supporta l'inferenza ospitata per modelli open-source e personalizzati.
  • Consente l'osservabilità a livello di richiesta per le applicazioni LLM tramite Weave, acquisendo prompt, risposte, latenza e punteggi di valutazione.
  • Supporta la valutazione e il benchmarking automatizzati e con intervento umano tra modelli, prompt e fornitori.
  • Si integra con fornitori di IA di terze parti, GPU self-hosted e API esterne, oltre alla propria infrastruttura.

Limitazioni

W&B offre un'infrastruttura AI nativa limitata tramite le sue soluzioni basate su CoreWeave. Sono supportati l'inferenza ospitata e l'addestramento GPU serverless, ma l'addestramento di modelli su larga scala o personalizzati spesso richiede un'infrastruttura esterna.

Caso d'uso: Ideale per team di IA che necessitano di visibilità end-to-end su sperimentazione, addestramento, valutazione e implementazione, in particolare quando si confrontano più modelli o fornitori e si desidera mantenere un'osservabilità di livello produttivo senza vincoli di un singolo fornitore.

Databricks

Databricks fornisce una piattaforma unificata che combina analisi dei dati, apprendimento automatico e gestione dei modelli.

Capacità

  • Basato sull'infrastruttura Spark, consente l'integrazione end-to-end della preparazione dei dati, dell'addestramento del modello e dell'inferenza.
  • Utilizza MLflow per il tracciamento del modello, inclusi parametri, metriche e cronologia degli esperimenti.
  • Unity Catalog garantisce la tracciabilità e la governance dei dati perpratiche di intelligenza artificiale responsabili .
  • Ottima capacità di elaborazione batch e confronto tra modelli.

Limitazioni

  • Non ottimizzato per l'inferenza in tempo reale. Il monitoraggio e le metriche sono progettati per processi batch, non per la latenza per singola richiesta.
  • Più adatto alla gestione di processi complessi che coinvolgono dati e modelli, piuttosto che a carichi di lavoro di intelligenza artificiale in cui la latenza è un fattore critico.

Caso d'uso: Efficace per le aziende che necessitano di integrare l'IA nei processi di data science, in particolare per la modellazione predittiva e le applicazioni aziendali in cui sono richiesti governance e tracciabilità.

Piattaforme di hosting per modelli

Baseten

Baseten si posiziona come piattaforma di hosting di modelli per la distribuzione e l'esecuzione di modelli di intelligenza artificiale, concentrandosi sull'affidabilità in produzione e sull'osservabilità dettagliata.

Capacità

  • Suddivide la durata della chiamata API in caricamento del modello, inferenza e serializzazione della risposta, consentendo agli sviluppatori di individuare le fonti di latenza.
  • Gli avvii a freddo vengono monitorati a livello di replica per misurare l'impatto sulle prestazioni.
  • Gli utenti configurano i parametri di scalabilità automatica, come il numero di repliche e le soglie di concorrenza. Ciò offre flessibilità, ma introduce il rischio di una configurazione errata, che può comportare costi inutili o una maggiore latenza.
  • Questo sistema fornisce un monitoraggio dei costi per ogni richiesta, collegato al tipo di GPU e al suo utilizzo, consentendo confronti di prestazioni e costi quando si passa da un hardware all'altro, ad esempio tra GPU A100 e H100.
  • È disponibile lo streaming dei log in tempo reale, sebbene le opzioni di filtraggio e ricerca siano limitate.

Limitazioni

  • Il monitoraggio è dettagliato a livello di richiesta, ma la ricerca e il filtraggio dei log sono basilari, il che rende più difficile il debug di carichi di lavoro di grandi dimensioni.
  • Una configurazione errata dell'autoscaling può avere un impatto diretto sui costi e sulla latenza.

Caso d'uso: Baseten è ideale per gli sviluppatori di IA che cercano un'osservabilità trasparente per i modelli di IA generativa negli ambienti di produzione.

Parasail

Parasail offre una rete di inferenza AI progettata per un utilizzo flessibile della GPU e un'ottimizzazione dei costi.

Capacità

  • Il sistema supporta il passaggio tra diversi tipi di GPU, con allocazione automatica delle risorse in base alle esigenze del carico di lavoro.
  • La dashboard evidenzia metriche di utilizzo aggregate, tra cui il tempo di attività e l'allocazione delle GPU.
  • Offre flessibilità di prezzo grazie alle diverse classi di GPU, consentendo di trovare il giusto compromesso tra costo e prestazioni.

Limitazioni

  • Non offre la tracciabilità a livello di singola richiesta. Gli sviluppatori non possono analizzare i costi o le prestazioni delle singole richieste.
  • L'osservabilità rimane a un livello aggregato, limitando la profondità del debug.

Caso d'uso: Parasail è progettato per le organizzazioni che danno priorità a soluzioni di IA flessibili ed economiche, ma offre meno informazioni per i team che necessitano di un'osservabilità dettagliata.

DeepInfra

DeepInfra offre hostingGPU serverless su più regioni, consentendo la distribuzione scalabile di modelli di intelligenza artificiale come API.

Capacità

  • Il supporto multi-regione consente di effettuare inferenze più vicino agli utenti finali, riducendo la latenza.
  • Fornisce metriche di latenza e throughput a livello di dashboard.
  • Offre una tariffazione a consumo con reportistica aggregata dei costi.
  • Supporta l'implementazione di modelli di intelligenza artificiale generativa open-source con API semplici.

Limitazioni

  • Non fornisce la tracciabilità a livello di richiesta, rendendo difficile l'analisi delle cause principali.
  • La ripartizione dei costi è aggregata, senza dettagli per singola richiesta o per regione.
  • I meccanismi di versioning e di rollback dei modelli non sono automatizzati e richiedono un intervento manuale.

Caso d'uso: Ideale per organizzazioni che implementano carichi di lavoro di intelligenza artificiale in diverse regioni, dove la flessibilità dei costi e la copertura geografica sono più importanti del debug approfondito.

Insieme, l'IA

Together AI opera come piattaforma cloud per l'accelerazione dell'intelligenza artificiale, offrendo sia funzionalità di hosting che di addestramento dei modelli.

Capacità

  • Fornisce metriche sia a livello aggregato che a livello di singola richiesta, inclusi istogrammi di latenza e analisi delle chiamate per versione.
  • Le funzionalità integrate di versioning e rollback del modello consentono di ripristinare rapidamente le versioni precedenti.
  • La suddivisione del traffico consente di effettuare test A/B tra diverse versioni del modello.
  • Solido supporto SDK con librerie client multilingue.
  • Le integrazioni CI/CD rendono le pipeline di distribuzione più mature rispetto ad altre piattaforme di hosting.

Limitazioni

  • Questa soluzione offre una maggiore maturità operativa, ma a scapito di una maggiore complessità di sistema rispetto alle piattaforme di hosting più leggere.

Caso d'uso: Together AI è adatto ad aziende di intelligenza artificiale e società di servizi professionali che necessitano di un controllo di versione affidabile, di un monitoraggio avanzato e dell'integrazione di strumenti di intelligenza artificiale generativa in flussi di lavoro strutturati.

Infrastruttura specializzata e ottimizzata per l'hardware

Cerebras

Cerebras si concentra su un'infrastruttura di intelligenza artificiale ottimizzata per l'hardware, costruita attorno al suo motore su scala wafer (WSE).

Capacità

  • Il WSE integra milioni di unità di elaborazione su un singolo chip , offrendo una velocità di elaborazione estremamente elevata per i carichi di lavoro di intelligenza artificiale.
  • Le dashboard mostrano metriche standard come i token al secondo e la velocità di elaborazione complessiva.
  • Adatto per l'addestramento e l'inferenza su modelli di intelligenza artificiale avanzati su larga scala.

Limitazioni

  • L'implementazione non è immediata; richiede la preparazione dell'infrastruttura.
  • I dettagli hardware interni, come la pianificazione e l'utilizzo della memoria, sono astratti per gli utenti.
  • Supporto limitato per l'importazione di modelli personalizzati arbitrari.

Caso d'uso: Efficace per attività di apprendimento automatico su larga scala e ad alta produttività in laboratori di intelligenza artificiale, nell'industria della difesa o in agenzie governative, dove la produttività è più importante della flessibilità.

SambaNova

SambaNova sviluppa soluzioni hardware e software basate sull'intelligenza artificiale , fondate su un'architettura di flusso di dati ottimizzata a livello di grafo computazionale.

Capacità

  • Offre piattaforme come SambaCloud (servizio cloud), SambaStack (installazione locale) e SambaManaged (servizio gestito).
  • Ottimizzato per l'inferenza e l'addestramento di modelli di intelligenza artificiale generativa.
  • Metriche standard del dashboard per la latenza e la velocità di trasmissione a livello di token.

Limitazioni

  • L'implementazione richiede la compatibilità del modello con la sua architettura, il che richiede un'ulteriore ottimizzazione.
  • Le metriche interne relative alle prestazioni, come la larghezza di banda della memoria, non sono visibili agli utenti.
  • Le implementazioni non sono immediate; sono necessarie fasi di attuazione.

Caso d'uso: Adatto alle aziende che necessitano di soluzioni basate sull'intelligenza artificiale che combinino hardware e software, soprattutto in settori che richiedono un'infrastruttura IT controllata.

Groq

Groq offre una piattaforma di inferenza basata sull'intelligenza artificiale, alimentata dalle sue unità di elaborazione del linguaggio (LPU).

Capacità

  • Ottimizzato per la generazione sequenziale di token con risposte in streaming a bassa latenza.
  • Le dashboard mostrano il numero di token, la latenza e i tassi di errore.
  • Il costo viene tracciato a livello di token.

Limitazioni

  • Non supporta la distribuzione di modelli personalizzati. Sono disponibili solo i modelli forniti da Groq.
  • Sono disponibili strumenti di debug minimi; in caso di problemi di prestazioni, è necessario inviare una richiesta di assistenza.
  • Le operazioni interne delle LPU rimangono opache.

Caso d'uso: Ideale per applicazioni in cui sono fondamentali tempi di risposta estremamente bassi per modelli linguistici complessi, come ad esempio nell'intelligenza artificiale conversazionale o negli algoritmi decisionali.

Hosting basato su API

Fireworks AI

Fireworks AI fornisce un servizio di hosting leggero basato su API per modelli di intelligenza artificiale.

Capacità

  • Implementazione rapida del modello con endpoint API immediati.
  • Supporta la messa a punto di modelli di intelligenza artificiale generativa.
  • Le dashboard forniscono metriche quali latenza delle chiamate, utilizzo dei token, tasso di errore e numero di richieste.

Limitazioni

  • L'assenza di tracciamento a livello di richiesta limita le possibilità di debug dettagliato.
  • I dati sui costi sono aggregati e non consentono di visualizzare i dettagli per singola richiesta.
  • Il rollback è manuale; il ripristino a versioni precedenti richiede una nuova distribuzione.

Caso d'uso: Adatto agli sviluppatori di IA che necessitano di un accesso rapido alle funzionalità di IA generativa senza necessità di osservabilità approfondita o di una gestione complessa dell'implementazione.

Che cos'è un fornitore di intelligenza artificiale?

Un fornitore di IA è un'azienda di intelligenza artificiale che fornisce l' infrastruttura , i modelli e i servizi necessari ad altri per sviluppare e gestire soluzioni basate sull'IA.

I fornitori di IA sono fondamentali perché:

  • Abbassare le barriere all'adozione dell'IA, soprattutto per le aziende prive di una profonda competenza interna.
  • Garantisce la scalabilità gestendo processi complessi come l'autoscaling e l'addestramento distribuito.
  • Offri efficienza in termini di costi grazie a un'infrastruttura on-demand, anziché investimenti iniziali in hardware per l'intelligenza artificiale.
  • Garantire pratiche di intelligenza artificiale responsabili attraverso funzionalità di governance, tracciabilità e conformità.

Tipologie di fornitori di IA

I fornitori di intelligenza artificiale possono essere raggruppati in tre categorie principali:

  • I fornitori di infrastrutture per l'IA si concentrano su hardware specializzato, tra cui processori personalizzati e chip ad alte prestazioni, per l'addestramento e l'inferenza.
  • Le piattaforme di hosting di modelli forniscono accesso a modelli di intelligenza artificiale generativa tramite API, facilitando l'integrazione dell'IA nelle applicazioni. Spesso offrono funzionalità come scalabilità automatica, monitoraggio della latenza e ottimizzazione.
  • Le piattaforme di dati e apprendimento automatico enfatizzano l'integrazione end-to-end di analisi dei dati, addestramento dei modelli e governance, con particolare attenzione all'intelligenza artificiale responsabile.

Caratteristiche principali dei fornitori di IA

Indipendentemente dal settore, la maggior parte dei fornitori di IA condivide diverse caratteristiche fondamentali che ne definiscono il modo in cui offrono valore e consentono alle organizzazioni di adottare efficacemente le funzionalità di IA:

Accesso a modelli linguistici di grandi dimensioni e ad altri modelli di intelligenza artificiale generativa.

I fornitori di IA offrono accesso diretto a modelli linguistici di grandi dimensioni (LLM) e a una gamma di modelli di IA generativa per attività quali la generazione di testo , l'elaborazione del parlato e il riconoscimento delle immagini . Questi modelli sono in genere offerti tramite API, il che semplifica l'integrazione di soluzioni basate sull'IA nelle applicazioni da parte delle organizzazioni, senza richiedere una vasta esperienza nell'addestramento dei modelli.

Infrastruttura di intelligenza artificiale in grado di gestire carichi di lavoro di IA impegnativi.

I fornitori offrono ambienti di calcolo personalizzati per modelli di intelligenza artificiale avanzati e carichi di lavoro di IA su larga scala. Ciò include la potenza di elaborazione necessaria per l'addestramento , la messa a punto e l'inferenza, spesso progettata per supportare sia operazioni batch ad alta velocità che attività sensibili alla latenza. Tale infrastruttura consente alle aziende di eseguire processi complessi in modo efficiente e affidabile.

Dashboard di implementazione e monitoraggio con metriche di latenza, throughput e costi.

Le dashboard sono una funzionalità standard che offre visibilità sulle prestazioni e sull'efficienza dei sistemi di intelligenza artificiale. Le metriche tipiche includono la latenza per richiesta, il throughput complessivo, i tassi di elaborazione dei token e il numero di errori. Viene inoltre fornita visibilità sui costi, dai report per singola richiesta ai riepiloghi aggregati. Questi strumenti supportano una gestione e un'ottimizzazione efficaci delle risorse.

Opzioni per la messa a punto e la gestione del modello

Molte piattaforme includono la possibilità di ottimizzare i modelli di IA generativa per casi d'uso specifici. Ciò consente alle organizzazioni di adattare i modelli alle esigenze specifiche del settore, come la modellazione predittiva nella catena di approvvigionamento o l'IA conversazionale nell'assistenza clienti. Le funzionalità di gestione dei modelli spesso includono il controllo delle versioni, il rollback e la suddivisione del traffico per gli esperimenti, che contribuiscono a mantenere l'affidabilità durante le iterazioni su nuove implementazioni.

Flessibilità dei prezzi, spesso basata sul pagamento a consumo o sul consumo di token.

Anziché affidarsi a ingenti investimenti iniziali in hardware per l'IA, i fornitori utilizzano comunemente modelli di prezzo basati sul consumo. Questi possono essere strutturati per richiesta, per token o per tempo di elaborazione. La flessibilità dei prezzi riduce la barriera d'ingresso per le organizzazioni che sperimentano l'adozione dell'IA, consentendo al contempo alle imprese di allineare la spesa alle esigenze di carico di lavoro e di ottimizzare sia i costi che le prestazioni.

Che cosa sono i gateway di intelligenza artificiale?

Un gateway AI è una piattaforma middleware che gestisce l'integrazione, l'instradamento e la governance di modelli e servizi di intelligenza artificiale all'interno di ambienti aziendali. Anziché fornire direttamente i modelli, i gateway AI fungono da punto di accesso unificato tra le applicazioni e molteplici strumenti di intelligenza artificiale, inclusi modelli linguistici complessi , sistemi di riconoscimento delle immagini e altri servizi di intelligenza artificiale generativa.

Gestiscono funzioni quali la standardizzazione delle API, l'orchestrazione dei modelli, il monitoraggio, l'applicazione delle norme di sicurezza e il tracciamento dei costi, consentendo alle organizzazioni di controllare le modalità di accesso e utilizzo dei carichi di lavoro di intelligenza artificiale presso diversi fornitori.

Principali differenze tra gateway di intelligenza artificiale e fornitori di intelligenza artificiale

Funzione

  • I fornitori di IA offrono infrastrutture, modelli e la potenza di calcolo necessari per il loro funzionamento.
  • I gateway di intelligenza artificiale gestiscono e orchestrano le interazioni con questi modelli, offrendo coerenza e governance.

Posizione nella pila

  • I fornitori di IA operano a livello di infrastruttura e modelli, fornendo le effettive funzionalità di intelligenza artificiale.
  • I gateway di intelligenza artificiale si collocano al di sopra dei provider, collegando le applicazioni a uno o più modelli attraverso un unico livello di controllo.

Ambito di responsabilità

  • I fornitori di intelligenza artificiale si concentrano sull'addestramento, la messa a punto, l'hosting e la distribuzione dei modelli.
  • I gateway di intelligenza artificiale si concentrano sull'unificazione delle API, sull'instradamento dei carichi di lavoro, sull'osservabilità e sull'applicazione delle policy tra i diversi modelli.

Governance e sicurezza

  • I fornitori di intelligenza artificiale implementano meccanismi di governance per i propri modelli, come il controllo delle versioni e il monitoraggio dei costi.
  • I gateway basati sull'intelligenza artificiale offrono una governance centralizzata, consentendo la conformità, il controllo degli accessi e la protezione dei dati su più modelli e fornitori.

Approccio di implementazione

  • I fornitori di intelligenza artificiale offrono diverse opzioni infrastrutturali, tra cui API cloud, cluster dedicati e hardware on-premise.
  • I gateway AI offrono modelli di implementazione (globale, multicloud, sidecar o micro-gateway) che ottimizzano l'instradamento del traffico tra applicazioni e modelli.

Metodologia di benchmarking

In questo benchmark, è stato analizzato GPT-OSS-120B, il modello open-source più utilizzato sulla piattaforma OpenRouter. Prima di procedere con il benchmark, sono state stabilite le prestazioni di base del modello GPT-OSS-120B. Il modello è stato testato in un ambiente self-hosted su un'istanza GPU RunPod H200 e ha raggiunto un'accuratezza del 98% sul dataset di 108 domande utilizzato nel benchmark (35 domande basate su articoli + 73 problemi di matematica).

Prima di avviare il benchmark, sono stati analizzati i dati sulla quota di mercato di OpenRouter per identificare i sei principali fornitori di IA con la quota maggiore, e solo questi fornitori sono stati utilizzati nel test. Tutte le richieste API sono state inviate tramite lo stesso endpoint API OpenRouter per garantire la coerenza delle condizioni di test.

Set di dati e processo di test

Il dataset di riferimento è composto da un totale di 108 domande. Di queste, 35 riguardano conoscenze reali, derivate da articoli di CNN News e confrontate con dati di riferimento verificati. Lo scopo di questa sezione è misurare se il modello ricorda accuratamente informazioni numeriche come percentuali, date e quantità, e valutarne la tendenza all'allucinazione. Le restanti 73 domande consistono in problemi di ragionamento matematico e mettono alla prova la coerenza numerica, l'inferenza logica e l'accuratezza computazionale del modello.

Le 108 domande utilizzate nel processo di test sono domande a cui il modello risponde sempre correttamente. Lo scopo di questo test è osservare il degrado delle prestazioni e della qualità del modello in momenti specifici della giornata o durante variazioni del carico di sistema.

Il processo di test si svolge come segue:

  • Le 108 domande vengono inviate singolarmente a intervalli di 5 minuti e questo processo continua ininterrottamente.
  • Le risposte vero/falso ottenute da ciascuna domanda vengono utilizzate nei calcoli di accuratezza.
  • Contemporaneamente a ogni invio, viene inviata a tutti i fornitori anche una domanda di riferimento predefinita. I parametri misurati tramite questa domanda di riferimento sono:
    • Latenza del primo token (FTL) : il tempo che intercorre tra l'invio della richiesta e la produzione del primo token da parte del modello.
    • Latenza end-to-end (latenza E2E) : il tempo necessario al modello per generare completamente la risposta.

Le richieste vengono inviate simultaneamente a tutti i fornitori per lo stesso modello e tramite lo stesso endpoint API. Il sistema di benchmark opera ciclicamente; alla fine di ogni giornata, i valori di accuratezza ottenuti dalle 108 domande e le medie giornaliere dei valori di latenza FTL/E2E misurati dalla domanda di riferimento fissa vengono riportati nei grafici.

Dettagli del test di base self-hosted

Il test di base delle prestazioni è stato condotto eseguendo il modello openai/gpt-oss-120b in un ambiente self-hosted su un'istanza GPU RunPod H200. L'ambiente di test è stato creato utilizzando il template RunPod PyTorch, con il motore di inferenza vLLM (versione 0.10.2) installato come libreria principale. Un componente critico dello stack software era l'SDK openai-harmony, indispensabile per la corretta codifica dei prompt e la decodifica delle risposte per la serie di modelli GPT-OSS. Il motore vLLM è stato configurato con gpu_memory_utilization=0.85 e max_model_len=4096 per soddisfare i requisiti di quantizzazione MXFP4 e di contesto del modello. Per ottimizzare le prestazioni, è stata installata anche la libreria flashinfer, che fornisce un significativo incremento di velocità per l'inferenza sull'hardware H200.

Il benchmark è stato eseguito utilizzando lo script test_baseline_harmony_correct.py, che elabora un dataset consolidato di 108 domande (35 domande basate su articoli e 73 problemi di matematica). Per ogni domanda, è stato creato programmaticamente un prompt utilizzando l'SDK openai-harmony. Ciò ha comportato la creazione di un oggetto Conversation con messaggi distinti per i ruoli Role.SYSTEM, Role.DEVELOPER e Role.USER; il DeveloperContent includeva specificamente l'istruzione "Reasoning: high" per elicitare risposte dettagliate. Questo oggetto è stato convertito in ID di token utilizzando la codifica HarmonyEncodingName.HARMONY_GPT_OSS. L'inferenza è stata condotta con parametri di campionamento deterministici (temperatura=0.0) e max_tokens=2048 per catturare il ragionamento completo. Gli stop_token_ids sono stati forniti direttamente dal metodo stop_tokens_for_assistant_actions() della codifica harmony. Infine, i token di output del modello sono stati analizzati dall'SDK di Harmony per estrarre la risposta strutturata, che è stata poi normalizzata e convalidata rispetto alla verità di base per calcolare l'accuratezza.

Sıla Ermut
Sıla Ermut
Analista di settore
Sıla Ermut è un'analista di settore presso AIMultiple, specializzata in email marketing e video di vendita. In precedenza, ha lavorato come reclutatrice in società di project management e consulenza. Sıla ha conseguito un Master in Psicologia Sociale e una laurea in Relazioni Internazionali.
Visualizza il profilo completo
Ricercato da
Nazlı Şipi
Nazlı Şipi
Ricercatore di intelligenza artificiale
Nazlı è un'analista di dati presso AIMultiple. Ha maturato esperienza nell'analisi dei dati in diversi settori, dove si è occupata di trasformare set di dati complessi in informazioni utili.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450