Stato della tecnologia OCR: è morta o un problema risolto?

aggiornato il 17 giu. 2026

Il riconoscimento ottico dei caratteri (OCR) è una delle prime aree di ricerca sull'intelligenza artificiale. Oggi, la tecnologia OCR è relativamente matura e non viene più chiamata IA, il che è un buon esempio della citazione del vincitore del Premio Pulitzer Douglas Hofstadter: l'IA è tutto ciò che non è ancora stato fatto.¹

Nel nostro OCR benchmark, DeltOCR, un modello linguistico di grandi dimensioni, legge correttamente più del 95% dei caratteri nei testi stampati.

Gli strumenti OCR sono ancora inferiori agli esseri umani su input difficili: scansioni di bassa qualità, scritture arabe corsive come il Nastaliq e la scrittura a mano.

Cos'è l'OCR?

L'OCR è una tecnologia che identifica i caratteri da libri stampati, documenti scritti a mano o immagini. Con questa tecnologia, le aziende possono trasferire rapidamente i documenti nei loro sistemi digitali e gli strumenti di analisi dei dati possono elaborare i dati rilevanti.

Quali avanzamenti tecnologici forniscono l'OCR di oggi?

Visione artificiale

Nella visione artificiale, l'OCR rileva innanzitutto i caratteri uno per uno. Successivamente, utilizza la classificazione delle immagini per identificare ciascun carattere. Se questi due passaggi funzionano correttamente, l'OCR produce risultati accurati. Tuttavia, a volte i caratteri possono essere troppo vicini tra loro e potrebbero non essere riconosciuti. Pertanto, l'OCR richiede più delle tecnologie di visione artificiale.

Elaborazione del linguaggio naturale (NLP)

Anche se l'OCR identifica i caratteri, questi caratteri formano parole, frasi e paragrafi. La ricerca nell'NLP ha portato a numerosi algoritmi per correggere gli errori di riconoscimento dei caratteri utilizzando metodi probabilistici. Ad esempio, i caratteri mancanti possono essere stimati utilizzando il contesto.

Apprendimento profondo supervisionato

L'OCR utilizza algoritmi di apprendimento profondo per migliorare le sue prestazioni. I modelli OCR apprendono da campioni di addestramento etichettati. Con un numero sufficiente di esempi, possono:

Riconoscere caratteri con font diversi. Ogni carattere può essere scritto in un'ampia gamma di forme e un ampio set di dati etichettati aiuta il software OCR a identificare i caratteri nonostante le variazioni di font
Rilevare gli errori e correggerli. Gli strumenti OCR possono saltare i caratteri che non possono essere identificati. Riconoscendo i modelli nei campioni di addestramento, l'OCR può rilevare quegli errori e correggere i propri sbagli.

Modelli visione-linguaggio (VLM)

L'OCR sta passando da pipeline a più fasi ai modelli visione-linguaggio (VLM). I sistemi OCR tradizionali utilizzano spesso strumenti separati per il rilevamento del testo, il riconoscimento del testo, l'analisi del layout e l'estrazione delle tabelle. I VLM combinano queste attività in un unico modello.

Questo cambiamento ha migliorato le prestazioni sui documenti con:

Tabelle
Moduli
Formule matematiche
Layout complessi
Testo e immagini misti

Diversi VLM open source sono apparsi nel 2025 e 2026, tra cui dots.ocr, GOT-OCR 2.0, DeepSeek-OCR, PaddleOCR-VL, olmOCR e GLM-OCR. Molti possono essere eseguiti su una singola GPU ottenendo risultati solidi sui benchmark di comprensione dei documenti.

Opzioni commerciali come Mistral OCR, Gemini e i modelli GPT sono utilizzate anche per l'analisi dei documenti e l'estrazione di informazioni.

Una tendenza degna di nota è l'ascesa di modelli più piccoli focalizzati sull'OCR. Modelli come GLM-OCR e PaddleOCR-VL ottengono risultati competitivi nei benchmark richiedendo un numero significativamente inferiore di parametri rispetto a molti modelli visione-linguaggio generici.

Quali sono i limiti degli strumenti OCR?

L'OCR da solo non produce dati strutturati

L'OCR restituisce testo semplice, non campi organizzati. Per trasformare un documento in dati strutturati, come le voci di una fattura, l'OCR deve essere abbinato ad altri strumenti.

Gli OCR non riescono ancora a eguagliare la precisione umana nella maggior parte delle applicazioni.

Gli errori includono la lettura errata delle lettere, il salto di lettere illeggibili o la combinazione di testo da colonne adiacenti o didascalie delle immagini. Sebbene molti fattori influenzino le prestazioni degli strumenti OCR, il numero di errori dipende dalla qualità e dalla forma del testo, incluso il carattere utilizzato.

Tuttavia, anche con documenti di alta qualità, gli strumenti OCR possono commettere errori perché esiste una varietà di formati di documento, font e stili per ogni carattere. I limiti che impediscono agli strumenti OCR di raggiungere la precisione del 100% possono essere elencati come segue:

Limitazioni basate sul documento

Sfondi colorati: I motivi di sfondo colorati possono essere problematici perché possono ridurre il riconoscimento del testo
Testi sfocati o con riflessi: Le immagini sfocate o con riflessi sono difficili da leggere sia per gli esseri umani che per i computer.
Documenti inclinati o non orientati: Per le situazioni in cui l'immagine potrebbe essere inclinata, l'OCR avrà più difficoltà a identificare i caratteri perché il testo non è allineato.

Limitazioni basate sul testo

Varietà di lettere: Le forme delle lettere in alcuni alfabeti sono più difficili da riconoscere. Ad esempio, poiché anche i caratteri arabi stampati sono in forma corsiva, il riconoscimento dei caratteri diventa una sfida.
Varietà di tipi e dimensioni dei font: Sebbene sia difficile riconoscere tutti i diversi tipi di font, anche i caratteri troppo piccoli o troppo grandi sono difficili da identificare.
Caratteri simili: Alcuni caratteri sono così simili che gli strumenti OCR potrebbero non distinguerli. Ad esempio, è difficile distinguere tra il numero "0" e la lettera "O".
Testo scritto a mano: Poiché ognuno ha il proprio modo di scrivere i caratteri, gli strumenti OCR potrebbero non riconoscere tutti i caratteri con stili diversi.

Scopri altri nostri benchmark e approfondimenti basati sui dati nella Ricerca Google.

Aggiungi come fonte preferita

Come misurare la precisione dell'OCR?

La precisione viene solitamente misurata dal tasso di errore dei caratteri o dal tasso di errore delle parole, che conta quanti caratteri o parole lo strumento sbaglia. Alcuni benchmark utilizzano anche la distanza di modifica, che misura il numero di modifiche necessarie per corrispondere al testo corretto.²

La precisione dell'OCR può essere misurata dalla porzione di caratteri in un testo che lo strumento OCR può estrarre senza errori. Ad esempio, una precisione del 99% significa che 990 su 1000 caratteri vengono riconosciuti correttamente.

C'è qualche ricerca attiva per superare questi limiti?

Da quando è stato introdotto per la prima volta, l'OCR si è evoluto e oggi viene utilizzato in quasi tutti i principali settori industriali. Poiché ci sono ancora aree da migliorare, la ricerca sull'OCR è proseguita. I progressi nella visione artificiale e negli algoritmi di apprendimento profondo contribuiscono all'aumento della precisione di questa tecnologia.

Al momento, gli strumenti OCR possono raggiungere una precisione superiore al 99% nei testi dattiloscritti. Tuttavia, sono desiderati livelli di precisione più elevati poiché le aziende fanno ancora ricorso all'intervento umano per verificare potenziali errori.

L'attuale focus della ricerca sulla tecnologia OCR è principalmente sul riconoscimento della scrittura a mano e sul riconoscimento del testo corsivo.

All'inizio del 2026, sono stati introdotti nuovi modelli OCR open source:

PaddleOCR-VL-1.5, introdotto a gennaio 2026, ha dichiarato di superare i migliori modelli raggiungendo una precisione del 95% sul benchmark autorevole di analisi dei documenti.³

RapidOCR v3.6.0, include modelli OCR (incluso PaddleOCR) per essere eseguiti su runtime comuni come ONNX Runtime e OpenVINO, con un focus su una distribuzione locale semplice e veloce.⁴

Riconoscimento della scrittura a mano

La ricerca sul riconoscimento della scrittura a mano sfrutta anche il movimento dinamico creato durante il processo di scrittura per identificare i caratteri. Sebbene il problema principale del riconoscimento della scrittura a mano sia la varietà di stili dei caratteri, la precisione dell'OCR in quest'area è in costante ma lento miglioramento.

Puoi leggere il nostro benchmark di riconoscimento della scrittura a mano se sei interessato.

Riconoscimento del testo corsivo

Le lettere unite sono chiaramente più difficili da riconoscere rispetto ai testi stampati. Questa situazione comporta più errori negli strumenti OCR e le forme delle lettere non forniscono informazioni sufficienti per consentire al software di percepirle correttamente.

Allucinazione

I vecchi OCR potevano leggere male o saltare i caratteri. L'OCR basato su VLM può fare qualcosa di diverso: inventare testo che non è mai stato sulla pagina. Ciò accade più spesso in documenti lunghi o densi e in figure complesse. Poiché il testo inventato si legge fluentemente, gli errori possono essere più difficili da individuare rispetto a una lettura errata classica.

Ulteriori letture

Cita questa ricerca

Scegli il formato adatto a dove pubblicherai. Incollare la versione con link nel tuo CMS preserva il backlink.

Cem Dilmegani (2026) - "Stato della tecnologia OCR: è morta o un problema risolto?". Pubblicato online su AIMultiple.com. Consultato il 17 Giugno 2026, da: https://aimultiple.com/ocr-technology [Risorsa online]

Dilmegani, C. (2026, 17 Giugno). Stato della tecnologia OCR: è morta o un problema risolto?. AIMultiple. https://aimultiple.com/ocr-technology

@misc{dilmegani2026,
  author = {Dilmegani, Cem},
  title  = {{Stato della tecnologia OCR: è morta o un problema risolto?}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/ocr-technology}},
  note   = {AIMultiple. Consultato il 17 Giugno 2026}
}

Collegamenti di riferimento

AI effect - Wikipedia

Contributors to Wikimedia projects

Understanding Character Error Rate Formula and Calculation

Home - PaddleOCR Documentation

GitHub - RapidAI/RapidOCR: 📄 Awesome OCR multiple programing languages toolkits based on ONNX Runtime, OpenVINO, MNN, PaddlePaddle, TensorRT and PyTorch. · GitHub

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo