Confronto tra modelli di linguaggio visivo e riconoscimento delle immagini.

con

aggiornato il Feb 27, 2026

I modelli di linguaggio visivo avanzati (VLM) possono sostituire i modelli tradizionali di riconoscimento delle immagini? Per scoprirlo, abbiamo confrontato le prestazioni di 16 modelli leader in tre paradigmi: reti neurali convoluzionali (CNN) tradizionali (ResNet, EfficientNet), VLM (come GPT-4.1, Gemini 2.5) e API cloud (AWS, Google, Azure).

La precisione media (mAP) è stata utilizzata come principale parametro di accuratezza, integrata da analisi di latenza, costi e prestazioni specifiche per classe.

Qui puoi consultare la metodologia di benchmarking.

Benchmark di accuratezza e latenza

Nel nostro benchmark, abbiamo valutato i modelli in base a quattro dimensioni: latenza, precisione media (mAP), prezzo e tasso di successo. La latenza misura il tempo impiegato da un modello per elaborare una singola immagine, mentre la mAP riflette l'accuratezza complessiva della classificazione. Il tasso di successo indica se un modello ha restituito un output JSON valido, aspetto particolarmente rilevante per i modelli di linguaggio visivo, che interpretano le immagini in linguaggio naturale anziché in dati strutturati.

Loading Chart

I modelli tradizionali di riconoscimento delle immagini , come EfficientNet, ResNet18, ResNet50, ResNet101 e DenseNet121, mostrano costantemente sia una bassa latenza (0,03–0,2 secondi) che un'accuratezza competitiva (mAP 0,75–0,81). Tra questi, DenseNet121 e ResNet18 raggiungono i punteggi mAP più elevati (rispettivamente 0,81 e 0,80), mentre EfficientNet li segue da vicino (0,78). ResNet50 e ResNet101 mostrano prestazioni moderate all'interno di questo gruppo (0,75 e 0,77), ma tutti i modelli tradizionali superano significativamente gli strumenti di riconoscimento delle immagini basati su cloud come AWS Rekognition, Cloud Vision e Vision, che raggiungono un'accuratezza moderata (mAP 0,61–0,64) con latenze comprese tra 2 e 3,5 secondi. Ciò dimostra che i modelli tradizionali sono superiori sia in termini di velocità che di precisione.

Per i modelli di linguaggio visivo, inclusi OpenAI GPT-4.1, Claude Opus 4.1, X-AI Grok 2 Vision, Meta-Llama/LLama-3.2-11B Vision Instruct e Google Gemini 2.5 Flash, le latenze sono significativamente più elevate, comprese tra 1 e 12 secondi, con valori mAP tra 0,60 e 0,75. Google Gemini 2.5 Flash raggiunge 0,75 mAP, risultando il VLM più accurato nel nostro test. Tra gli altri VLM, GPT-4.1 si distingue per un mAP di 0,73, seguito da Claude Opus 4.1 (0,71) e X-AI Grok 2 Vision (0,70). GPT-4o-mini mostra prestazioni moderate (0,66 mAP), mentre Meta-Llama Vision Instruct è nettamente inferiore (0,60 mAP).

La maggior parte dei modelli di linguaggio di visione restituisce output JSON in modo affidabile con una percentuale di successo vicina al 100%, ad eccezione di Meta-Llama Vision Instruct , che ha avuto successo solo nel 36% dei casi, e Gemini 2.5 Pro , che ha fallito sistematicamente (0% di successo), limitandone gravemente l'applicabilità pratica nei flussi di lavoro automatizzati.

Sebbene i modelli di linguaggio visivo siano generalmente più lenti dei modelli tradizionali di riconoscimento delle immagini, i VLM più performanti, come Google Gemini 2.5 Flash (0,75 mAP) e GPT-4.1 (0,73 mAP), raggiungono un'accuratezza di classificazione che si avvicina alle prestazioni delle CNN tradizionali e supera significativamente le API cloud come AWS Rekognition e Azure Vision. In termini di latenza, la maggior parte dei modelli di linguaggio visivo si attesta intorno ai 3-4 secondi, ad eccezione di Meta-Llama, che è notevolmente più lento con 12 secondi, evidenziando l'impatto dell'architettura e dell'ottimizzazione del modello.

Nel complesso, i modelli tradizionali di riconoscimento delle immagini eccellono ancora in termini di velocità e precisione. I modelli VLM, tuttavia, si dimostrano promettenti per il ragionamento multimodale e gli output strutturati, con una latenza costantemente più elevata, ma i modelli migliori raggiungono una precisione che si avvicina alle reti neurali convoluzionali (CNN) tradizionali e supera i servizi di riconoscimento delle immagini basati su cloud.

Prestazioni specifiche per classe: dove i modelli eccellono e dove incontrano difficoltà

La nostra valutazione ha utilizzato sette classi sovrapposte che testano diversi aspetti del rilevamento degli oggetti:

viso : Rappresenta solo la regione del viso. Il modello deve rilevare il volto di una persona, il che può essere difficile a causa delle sue piccole dimensioni e dei dettagli minuti.
Testa : copre l'intera testa, escluso il viso. Si concentra sul rilevamento della forma e della struttura della testa.
testa_con_casco : Rappresenta la testa che indossa un casco. Il modello deve rilevare sia la testa che il casco insieme, testando la sua capacità di riconoscere la loro relazione.
casco : rappresenta solo il casco, indipendentemente dalla presenza di una persona o di una testa. Importante per il rilevamento dell'equipaggiamento.
persona : rileva la presenza di una persona, con o senza casco. Funge da classe generica di rilevamento umano.
person_no_helmet : Rappresenta una persona che non indossa il casco. Il modello deve identificare sia la presenza umana che l'assenza del casco.
persona_con_casco : Rappresenta una persona che indossa un casco. Richiede di distinguere sia la presenza umana che l'uso del casco, strettamente correlato a persona_senza_casco.

Queste classi sovrapposte e strettamente correlate possono rappresentare una sfida per i modelli di linguaggio visivo, poiché interpretano le informazioni visive attraverso il linguaggio naturale anziché catturare direttamente le differenze a livello di pixel.

Prestazioni tradizionali delle CNN

Classe di viso
- Prestazioni migliori: EfficientNet e DenseNet121 (100%)
- Il più basso: ResNet101 (95%) Il rilevamento dei volti è estremamente accurato su tutte le CNN, superando la maggior parte dei VLM.
Classe principale
- Migliori: ResNet18 e DenseNet121 (69%)
- Il più basso: ResNet50 (50%) Prestazioni moderate; le CNN hanno più difficoltà con il rilevamento della testa rispetto alle classi di volti e caschi.
Testa e testa con casco
- Migliori prestazioni: EfficientNet e ResNet18 (Testa con casco 98%, Testa 65–69%)
- Il valore più basso: ResNet50 (Testa 50%, Testa con casco 96%). Le CNN si comportano molto bene sulle teste con casco, raggiungendo un'accuratezza del 96-98% su tutti i modelli. Il rilevamento delle teste senza casco è più difficile, con un'accuratezza inferiore (50-69%), il che indica che le CNN distinguono meglio gli oggetti prominenti come i caschi rispetto alle regioni meno distinte come le teste senza casco.
Classe di persone
- Tutti i modelli: precisione dello 0%.
Persona senza casco
- Migliore: DenseNet121 (72%)
- Il più basso: ResNet50 (53%) Le CNN gestiscono questa classe impegnativa meglio delle VLM, evidenziando la loro capacità di catturare dettagli fini.
Persona con casco
- Migliore: EfficientNet (98%)
- Il più basso: DenseNet121 (96%) Elevata precisione su tutti i modelli; le persone con il casco vengono riconosciute in modo coerente.

prestazioni del modello linguistico della visione

Classificazione dei volti (rilevamento dei volti)
- Miglior risultato: Claude Opus 4.1 (83%)
- I più deboli: Meta-Llama Vision Instruct (4%) e GPT-4o-mini (12%). I VLM in genere hanno prestazioni peggiori su oggetti piccoli e dettagliati come i volti; Meta-Llama e GPT-4o-mini faticano con i dettagli fini.
Testa e testa con casco
- Testa: Claude Opus 4.1 (96%) più alto, Meta-Llama (30%) più basso
- Testa_con_casco: GPT-4.1 (99%) e Gemini 2.5 Flash (98%) più alto, Meta-Llama (50%) più basso. I modelli si comportano bene nel rilevamento della testa con o senza casco; la maggior parte raggiunge una precisione superiore al 90% tranne Meta-Llama.
Classe di casco
- Massimo: Grok 2 Visione (100%), GPT-4.1 (99%), Gemini Flash 2.5 (98%)
- Il più basso: Meta-Llama (52%) Distinguere gli oggetti con elmetto da quelli senza elmetto è generalmente più facile, ma Meta-Llama ha prestazioni inferiori.
Classe di persone
- Tutti i modelli raggiungono il 100%, probabilmente grazie agli oggetti grandi e nitidi.
Persona senza casco
- Migliore: GPT-4.1 e Gemini 2.5 Flash (58%)
- I più bassi: Meta-Llama (18%) e GPT-4o-mini (29%). Rilevare dettagli fini come l'assenza del casco è difficile; alcuni modelli eccellono sugli oggetti prominenti ma sono carenti sulle classi sfumate.
Persona con casco
- Massimo: GPT-4.1 (98%) e Gemini 2.5 Flash (98%)
- Il più basso: Meta-Llama (55%) La maggior parte dei modelli si comporta molto bene qui.

Prestazioni delle API cloud

Classe di viso
- Migliore: AWS Recognition (22%)
- Minimo: Google Cloud Vision (0%) Il rilevamento dei volti è generalmente scadente nelle API Cloud; distinguere dettagli precisi come i volti è difficile.
Testa e testa con casco
- Intestazione: AWS Rekognition (24%) migliore, Azure Vision peggiore (0%)
- Testa con casco: AWS Rekognition (10%) migliore, Azure Vision (1%) peggiore Il rilevamento delle teste, in particolare con o senza casco, è limitato; le API cloud si concentrano su oggetti più ampi piuttosto che sui dettagli più fini.
Classe di casco
- Migliore: AWS Recognition (94%)
- Il più basso: Azure Visione (37%) Il rilevamento del casco ha un discreto successo per alcune API (AWS), ma è incoerente tra i vari fornitori.
Classe di persone
- Tutti i modelli: 100% Gli oggetti grandi e nitidi, come le persone intere, vengono rilevati in modo affidabile da tutte le API Cloud.
Persona senza casco
- Migliore: Azure Visione (78%)
- Il più basso: Google Cloud Vision (26%) Le prestazioni variano ampiamente; alcune API possono gestire classi complesse in modo moderatamente buono.
Persona con casco
- Migliore: AWS Recognition (94%)
- Minimo: Azure Visione (37%) Le persone con il casco vengono rilevate in modo affidabile da AWS ma in modo incoerente da altri fornitori.

Per i volti , le CNN raggiungono la massima precisione, seguite dai VLM, mentre le API Cloud hanno prestazioni scarse. Nelle classi head e head_with_helmet , le CNN rimangono efficaci, i VLM si comportano bene sulle teste con casco ma in modo meno coerente sulle teste senza casco, e le API Cloud faticano in entrambi i casi. Per i caschi , le CNN e i VLM generalmente offrono prestazioni molto buone, mentre le API Cloud mostrano risultati variabili. Nella classe person , tutti i paradigmi rilevano le persone per intero in modo affidabile. Per person_no_helmet , le CNN superano sia i VLM che le API Cloud, dimostrando una gestione superiore dei dettagli più fini. Infine, per person_with_helmet , le CNN e i VLM mantengono un'elevata precisione, mentre le API Cloud mostrano prestazioni incoerenti a seconda del fornitore.

Precisione, richiamo e punteggio F1

La precisione misura quante delle previsioni positive di un modello sono effettivamente corrette. In altre parole, risponde alla domanda: "Delle previsioni che il modello ha etichettato come positive, quante sono realmente corrette?"

Il recall misura quanti dei casi effettivamente positivi il modello identifica con successo. Risponde alla domanda: "Di tutti i casi veri positivi, quanti ne ha rilevati il modello?"

Il punteggio F1 è una sintesi equilibrata di precisione e richiamo. Fornisce un'unica metrica che riflette sia l'accuratezza che la copertura, particolarmente utile quando si desidera bilanciare precisione e richiamo.

I modelli basati su CNN (ResNet50, ResNet101, DenseNet121) mostrano prestazioni elevate sia in termini di precisione (0,93–0,95) che di richiamo (0,91–0,94), con conseguenti punteggi F1 elevati (0,92–0,93). Ciò indica che sono altamente accurati nelle loro previsioni e in grado di individuare la maggior parte dei veri positivi. Anche EfficientNet mostra un punteggio F1 elevato (0,92), offrendo prestazioni costanti e affidabili.

Le API cloud (AWS Rekognition, Cloud Vision, Vision) presentano una precisione e un richiamo inferiori, con punteggi F1 compresi tra 0,32 e 0,58. Ciò suggerisce che, sebbene i servizi cloud siano ottimizzati per attività generiche, la loro accuratezza nelle distinzioni di classe più precise è limitata.

I modelli di linguaggio visivo mostrano prestazioni più variabili. GPT-4.1, X-AI Grok 2 Vision e Claude Opus 4.1 raggiungono esattamente 0,76 F1-score, mentre Google Gemini 2.5 Flash si comporta leggermente meglio con un F1-score di 0,80. Sebbene questi modelli dimostrino prestazioni elevate in alcune classi, generalmente sono indietro rispetto alle CNN in termini di accuratezza complessiva. Meta-Llama Vision Instruct ha un F1-score di 0,47, con bassa precisione e richiamo, il che significa che il modello ha difficoltà sia a fare previsioni corrette che a catturare i veri positivi.

Possibili ragioni alla base delle differenze di rendimento

Vantaggio dell'architettura CNN

Le reti neurali convoluzionali (CNN) tradizionali sono specializzate nell'estrazione di caratteristiche a livello di pixel, consentendo un rilevamento rapido e preciso di oggetti di piccole dimensioni. I loro strati convoluzionali ottimizzati e le mappe di caratteristiche gerarchiche permettono una bassa latenza e un elevato mAP nelle attività standard di riconoscimento delle immagini.

Spese generali multimodali nei VLM

I modelli di linguaggio visivo elaborano sia immagini che testo, aggiungendo l'attenzione incrociata e fasi di allineamento. Ciò consente il ragionamento e la generazione di output contestuali, ma aumenta il tempo di inferenza, con conseguente latenza maggiore rispetto alle reti neurali convoluzionali (CNN).

Rilevamento di classi a grana fine

Le classi sovrapposte o sottili (ad esempio, persona_senza_casco rispetto a persona_con_casco) evidenziano le differenze tra i modelli. Le reti neurali convoluzionali (CNN) catturano costantemente questi dettagli, i modelli lineari visivi (VLM) funzionano bene sugli oggetti più evidenti ma faticano con le distinzioni più sottili, e le API cloud si concentrano su classi ampie, limitandone la precisione.

Affidabilità dell'output strutturato

La generazione incoerente di JSON influisce sulle prestazioni di VLM. I modelli con bassi tassi di successo risultano meno efficaci nelle pipeline, mentre le reti neurali convoluzionali (CNN) e le API cloud producono output prevedibili e deterministici.

Quindi quale dovresti scegliere?

Le reti neurali convoluzionali ( CNN) tradizionali sono ideali per applicazioni critiche in termini di velocità, dove i tempi di risposta nell'ordine dei millisecondi sono fondamentali, come l'elaborazione video in tempo reale, i veicoli autonomi o i sistemi di sicurezza industriale. Grazie alla loro elevata precisione (mAP 0,75–0,81) e all'inferenza fulminea (0,03–0,2 s), questi modelli di intelligenza artificiale tradizionali eccellono quando è necessaria una performance affidabile e costante, senza il sovraccarico dell'elaborazione del linguaggio naturale o la complessità del modello. Le CNN si concentrano su dati visivi e attività di classificazione delle immagini, come il rilevamento di oggetti, offrendo precisione ed efficienza visiva senza la necessità di ottimizzazione su modelli multimodali.

I modelli di linguaggio visivo (VLM) eccellono quando è necessaria una comprensione contestuale e output flessibili. Questi modelli funzionano sia con la modalità visiva che con quella testuale, consentendo a modelli linguistici di grandi dimensioni di elaborare input di immagini insieme a descrizioni testuali. Perfetti per applicazioni che richiedono spiegazioni in linguaggio naturale, didascalie per immagini, attività di ragionamento visivo o persino risposte a domande visive, sfruttano codificatori visivi e livelli di attenzione incrociata per allineare coppie immagine-testo nello stesso spazio dimensionale. Pur accettando una latenza maggiore (3-12 secondi), le capacità di ragionamento che apportano alla comprensione delle immagini, degli elementi visivi e delle istruzioni visive li rendono ideali per attività successive più specifiche come la moderazione intelligente dei contenuti, la generazione di immagini, il ragionamento matematico visivo o gli assistenti visivi interattivi. Utilizzando un fine-tuning efficiente dei parametri con dati di addestramento di alta qualità, i modelli di linguaggio visivo (VLM) diventano potenti modelli di machine learning che unificano le informazioni visive e testuali in uno spazio di embedding condiviso.

Le API cloud forniscono risposte dettagliate e complete con metadati ricchi e punteggi di affidabilità, risultando ideali quando sono necessarie informazioni estese che vanno oltre la semplice classificazione. Queste API si basano spesso su componenti di codifica visiva pre-addestrati e su codificatori visivi addestrati su dataset pubblici di grandi dimensioni contenenti didascalie concettuali e foto pertinenti. Particolarmente indicate per applicazioni che richiedono output JSON strutturati, bounding box, localizzazione di oggetti o comprensione di video lunghi, rappresentano soluzioni pronte all'uso che non necessitano di un addestramento complesso del modello o di una gestione dell'infrastruttura. Sebbene la loro precisione sia moderata (mAP 0,61–0,66), riducono i dettagli tecnici e i costi dell'infrastruttura, consentendo attività come la generazione automatizzata di report, l'estrazione del significato semantico e l'integrazione di framework unificati con modelli generativi esistenti.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

Calcolatore dei prezzi

Modelli di linguaggio visivo (VLM) – Caratteristiche principali e vantaggi

Ragionamento multimodale

I modelli di linguaggio visivo (VLM, Vision Language Models) sono potenti modelli multimodali in grado di elaborare simultaneamente modalità visive e testuali, consentendo loro di interpretare le informazioni visive e testuali in modo più ricco e contestualizzato. Allineando l'input di immagini con input in linguaggio naturale, permettono di svolgere attività avanzate come la generazione automatica di didascalie per le immagini, il rilevamento di caschi nei filmati di sicurezza, compiti di ragionamento visivo, la risposta a domande visive e persino la spiegazione di contenuti visivi in linguaggio naturale. A differenza dei modelli di intelligenza artificiale tradizionali che si concentrano solo sui dati visivi, i VLM combinano le capacità visive con un ampio modello di ragionamento linguistico, rendendoli ideali per attività complesse a valle.

Output strutturato e generazione JSON

Molti modelli di linguaggio visivo possono generare output strutturati come JSON, il che è prezioso per pipeline automatizzate e applicazioni che richiedono descrizioni testuali insieme alle caratteristiche delle immagini. Nel nostro benchmark, ChatGPT-5 e Gemini 2.5 Pro hanno fallito sistematicamente, mentre Meta-Llama Vision Instruct ha avuto successo solo nel 36% circa dei casi. Gli output strutturati sono particolarmente utili per gli assistenti visivi, consentendo attività come il rilevamento di oggetti, la localizzazione di oggetti e la produzione di dati affidabili per i modelli di apprendimento automatico senza un'eccessiva messa a punto.

Capacità di messa a punto fine

I modelli di ragionamento visivo (VLM) supportano una messa a punto efficiente dei parametri con dati di addestramento relativamente ridotti, consentendo un rapido adattamento a compiti di ragionamento visivo specifici del dominio. Ad esempio, possono essere ottimizzati per distinguere individui con casco da individui senza casco o dispositivi di sicurezza specializzati in scenari di input di immagini. Sfruttando architetture di codificatori visivi pre-addestrati e robuste tecniche di addestramento del modello, possono generalizzare meglio con un minor numero di didascalie concettuali o coppie immagine-testo.

Limitazioni dei modelli di linguaggio visivo

Latenza e velocità

Rispetto alle CNN tradizionali o ai modelli di visione più semplici, i modelli di linguaggio visivo presentano in genere una latenza maggiore, che può limitare le applicazioni in tempo reale come la comprensione di video lunghi. Alcuni modelli multimodali, come X-AI Vision e 2.5 Flash, sono più vicini alle API cloud in termini di velocità, ma Llama è notevolmente più lento. Il compromesso deriva dalla progettazione end-to-end del modello e dai livelli di attenzione incrociata, che migliorano le capacità di ragionamento ma aumentano il tempo di inferenza.

sfide per classe

I modelli di linguaggio visivo a volte faticano con le classi sovrapposte e il riconoscimento di oggetti fini, come ad esempio distinguere tra una "testa" e una "testa con casco" o tra una "persona senza casco" e una "persona con casco". Mentre alcuni modelli ottengono buoni risultati con le classi che includono il casco, le loro prestazioni risultano inferiori in altri compiti di ragionamento visivo, come il rilevamento di volti o elementi visivi sottili. Ciò evidenzia l'importanza di dati di addestramento di alta qualità e di un'attenta messa a punto quando si puntano a compiti più specifici.

Affidabilità dell'output strutturato

La coerenza degli output strutturati, come ad esempio il formato JSON, varia notevolmente. Mentre alcuni modelli di linguaggio visivo (VLM) generano output validi in modo affidabile, altri falliscono in casi d'uso specifici, limitandone l'utilità in pipeline completamente automatizzate. Persino con backbone di codificatori visivi pre-addestrati e approcci basati su spazi di embedding condivisi, alcuni modelli non riescono ancora a mantenere il significato semantico negli output strutturati. Questa incoerenza sottolinea la necessità di un addestramento robusto dei modelli, di foto pertinenti nel dataset e di continui miglioramenti nei modelli generativi per le modalità visiva e linguistica.

Metodologia di benchmarking

Abbiamo condotto la nostra valutazione completa utilizzando il dataset SHEL5K per il rilevamento dei caschi di sicurezza, in particolare le prime 500 immagini per garantire un confronto coerente tra tutte le architetture del modello. Il dataset contiene sette classi sovrapposte progettate per testare le capacità di rilevamento di oggetti a grana fine: viso, testa, testa con casco, casco, persona, persona senza casco e persona con casco.

Preelaborazione dei dati

Le annotazioni originali del dataset SHEL5K erano fornite in formato XML. Abbiamo sviluppato una pipeline di pre-elaborazione per convertire queste annotazioni in un formato CSV multi-etichetta adatto a una valutazione sistematica:

Ciascuna immagine è stata mappata alle sue corrispondenti etichette di riferimento, creando un framework di valutazione standardizzato. Per le CNN tradizionali, le immagini sono state preelaborate a una risoluzione di 224×224 con normalizzazione standard. I modelli di linguaggio visivo e le API cloud hanno ricevuto le immagini nel loro formato originale per preservare le informazioni contestuali.

Protocollo di valutazione CNN tradizionale

Le reti neurali convoluzionali tradizionali (EfficientNet, varianti di ResNet, DenseNet121) sono state sottoposte a un fine-tuning supervisionato utilizzando le migliori pratiche consolidate:

Configurazione dell'addestramento:

Architettura: modelli pre-addestrati con teste di classificazione modificate
Funzione di perdita: BCEWithLogitsLoss per la classificazione multi-etichetta
Ottimizzatore: Adam con tasso di apprendimento 1e-4
Epoche di addestramento: 5
Suddivisione dei dati: 80% addestramento, 20% validazione
Dimensione del lotto: 16

Framework di test del modello linguistico Vision

I modelli VLM sono stati valutati tramite domande attentamente strutturate, progettate per ottenere risposte coerenti e leggibili automaticamente. Il nostro approccio di progettazione delle domande richiedeva punteggi di confidenza in formato JSON per ciascuna classe.

Configurazione API:

Temperatura: 0,1 (bassa temperatura per uniformità)
Numero massimo di token: 800
Modelli testati tramite integrazione API OpenRouter
Analisi JSON con gestione degli errori e convalida del formato

Monitoraggio del tasso di successo: abbiamo monitorato la percentuale di risposte JSON valide, poiché i VLM a volte generano spiegazioni in linguaggio naturale anziché output strutturato. Questa metrica si è rivelata cruciale per valutare la fattibilità pratica dell'implementazione.

Integrazione API cloud e mappatura delle etichette

Le API cloud hanno presentato sfide uniche a causa della loro natura generica e delle diverse tassonomie. Abbiamo sviluppato strategie di mappatura complete per ciascun servizio:

Strategia di mappatura delle etichette:

Le API cloud presentano una sfida fondamentale: non sono state progettate per la nostra specifica tassonomia a sette classi. Questi servizi restituiscono etichette generiche come "persona", "casco", "operaio edile" o "dispositivo di sicurezza" anziché le combinazioni precise di cui abbiamo bisogno per la valutazione (come "persona_con_casco" o "testa_con_casco").

Per ovviare a questa limitazione, abbiamo sviluppato dizionari di mappatura completi per ciascun servizio cloud in base ai loro output. La mappatura di Computer Vision includeva oltre 50 varianti di etichette che coprivano i diversi modi in cui l'API poteva descrivere persone (persona, uomo, donna, lavoratore, individuo), caschi (casco, elmetto, casco di sicurezza, berretto) e caratteristiche del viso (volto, volto umano, ritratto). Mappature estese simili sono state create per AWS Rekognition e Cloud Vision, ciascuna adattata al vocabolario e ai modelli di etichettatura specifici di quel servizio.

Logica di inferenza di classe combinata:

L'aspetto più sofisticato della nostra valutazione delle API cloud ha riguardato l'inferenza di classi combinate che le API non riconoscono esplicitamente. Abbiamo implementato una logica basata su regole per rilevare quando più elementi di base compaiono insieme:

Quando sia "persona" che "casco" vengono rilevati nella stessa immagine con sufficiente affidabilità, il sistema deduce "persona_con_casco" utilizzando il punteggio di affidabilità minimo tra i due rilevamenti (approccio conservativo). Analogamente, il rilevamento simultaneo di "testa" e "casco" attiva la classificazione "testa_con_casco".

Per le classificazioni negative, quando viene rilevata una persona ma non viene trovato alcun casco, il sistema deduce "persona_senza_casco" con un livello di confidenza leggermente ridotto (90% della confidenza originale per la persona) per tenere conto dell'incertezza intrinseca all'inferenza negativa.

Questo approccio riconosce che le API cloud eccellono nel rilevare singoli oggetti, ma faticano nel ragionamento relazionale sulle combinazioni di oggetti: una limitazione fondamentale quando si valutano attività di classificazione dettagliate e dipendenti dal contesto.

Metriche di valutazione e analisi statistica

Indicatori principali:

Precisione media (mAP): principale misura di accuratezza che utilizza la media macro su tutte le classi
Precisione, richiamo, punteggio F1: media micro per la valutazione complessiva delle prestazioni
Precisione per classe: Prestazioni individuali per classe per un'analisi dettagliata
Latenza: tempo di elaborazione totale per immagine.
Tasso di successo: percentuale di output validi (particolarmente rilevante per i VLM)

Selezione della soglia: una soglia di classificazione di 0,5 è stata applicata in modo coerente a tutti i modelli, con i VLM che utilizzano punteggi di confidenza e i modelli tradizionali che utilizzano logit attivati sigmoide.

Robustezza statistica: ciascun modello è stato valutato su set di immagini identici con preelaborazione coerente per garantire un confronto equo. Le misurazioni della latenza sono state mediate su più esecuzioni per tenere conto della variabilità del sistema.

Controlli sperimentali e limitazioni

Controlli implementati:

Set di test identico composto da 500 immagini per tutti i modelli
Metriche e soglie di valutazione coerenti
Procedure standardizzate per la gestione degli errori e dei timeout.
Rotazione multipla delle chiavi API per gestire i limiti di frequenza

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da

Nazlı Şipi

Ricercatore di intelligenza artificiale

Nazlı è un'analista di dati presso AIMultiple. Ha maturato esperienza nell'analisi dei dati in diversi settori, dove si è occupata di trasformare set di dati complessi in informazioni utili.

Visualizza il profilo completo