Optical Character Recognition (OCR) is a field of machine learning that specializes in distinguishing characters within images like scanned documents, printed books, or photos. Although it is a mature technology, there are still no OCR products that can recognize all kinds of text with 100% accuracy. Among the products that we benchmarked, only a few products could output successful results from our test set.OCR tools are used by companies to identify texts and their positions in images, classify business documents according to subjects, or conduct key-value pairing within documents. Based on OCR results, other technology companies build applications like document automation. For all these business cases, accurate text recognition is critical for an OCR product.

Benchmark OCR: accuratezza di estrazione/acquisizione del testo

Cem Dilmegani

con

Şevval Alper

aggiornato il Gen 22, 2026

Guarda il nostro norme etiche

La precisione dell'OCR è fondamentale per molte attività di elaborazione dei documenti e i sistemi LLM multimodali all'avanguardia offrono ora un'alternativa all'OCR . Abbiamo confrontato i principali servizi OCR in DeltOCR Bench per identificarne i livelli di precisione in diverse tipologie di documenti:

Scrittura a mano : GPT-5 (%95) si distingue come il più performante, seguito a ruota da olmOCR-2-7B (%94) e Gemini 2.5 Pro (%93).
Supporto stampato : Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 guidano questa categoria con il punteggio più alto (85%)
Testo stampato : Microsoft Il documento Azure Intelligence API è leader con un punteggio del %96.

Benchmark OCR: DeltOCR Bench

Loading Chart

Di seguito sono elencati i nomi completi dei prodotti sopra menzionati e le relative versioni in uso a novembre 2025. Il nostro studio prende in esame sia i servizi API facilmente accessibili sia le soluzioni che richiedono un'infrastruttura on-premise, confrontando i principali modelli presenti sul mercato in un ambiente di test approfondito.

Scrittura a mano :
- Intervallo di precisione: un ampio intervallo che va dal 46% al 95%.
- Punti salienti: GPT-5 (%95), olmOCR-2-7B (%94) e Gemini 2.5 Pro (%93) mostrano le prestazioni più elevate. Questi punteggi elevati dimostrano lo straordinario potenziale di accuratezza dei modelli lineari di apprendimento multimodali, come GPT-5 e Gemini 2.5 Pro, in questo ambito.
- Raccomandazione: Per il riconoscimento di grafie molto complesse, si consigliano le migliori soluzioni LLM come GPT-5 o Gemini 2.5 Pro, grazie alla loro accessibilità tramite API e alla facilità di integrazione.
Media stampati :
- Intervallo di precisione: un intervallo compreso tra il 54% e l'85%.
- Punti salienti: Soluzioni come Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 condividono il punteggio più alto (85%). Questa categoria è altamente competitiva tra i LLM e i servizi OCR tradizionali basati su cloud (Azure, Dots OCR, Amazon Textract). GPT-5 è in ritardo rispetto ad altri LLM leader in questa categoria (77%).
- Raccomandazione: Per documenti con layout visivi complessi (caratteri multipli, bassa risoluzione, ecc.), si consigliano LLM come Gemini 2.5 Pro o servizi basati su cloud come Google Vision o Microsoft Azure Document Intelligence API.
Testo stampato :
- Intervallo di accuratezza: un intervallo elevato, dal 55% al 96%, sebbene la maggior parte delle soluzioni leader abbia raggiunto punteggi pari o superiori al 94%.
- Punti salienti: Microsoft Azure Document Intelligence API (%96) è in testa, seguito da vicino da soluzioni come GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision e Amazon Textract, tutte con un punteggio del %95. Questa categoria è un'area in cui tutte le soluzioni SOTA raggiungono livelli di precisione estremamente elevati.
- Raccomandazione: per testi stampati semplici che richiedono un'elevata precisione, è possibile utilizzare con sicurezza soluzioni cloud consolidate come Azure Document Microsoft Azure Document Intelligence API o Google Vision, oppure LLM con punteggio elevato (Gemini/GPT-5).

Soluzioni API

I seguenti modelli sono stati inclusi nella nostra lista di benchmarking per la loro facilità d'uso e le loro prestazioni.

Claude Sonnet 4.5
OpenAI GPT-5
Gemini 2.5 Pro
Anteprima di Gemini 3 Pro
API Amazon Textraw
Google API Cloud Vision
Microsoft Documento Azure IntelAPI di licenza
Moondream OCR
Mistral OCR 3
Mistral OCR 2

Microsoft Documento Azure IntelL'API di licenza fa parte della famiglia di Servizi cognitivi di Azure.

Modelli distribuiti localmente (in locale)

Testare questi modelli è più complesso rispetto alle soluzioni API a causa dell'installazione, della gestione delle dipendenze e dei requisiti hardware. Tutti i test locali sono stati condotti in un ambiente server dedicato.

olmOCR-2-7B
PaddleOCR-VL
Nanonets-OCR2-3B
Ricerca profonda-OCR
Dots-OCR

Abbiamo calcolato l'accuratezza dei risultati come punteggio di similarità del coseno per testo stampato, supporti stampati e scrittura a mano. Ogni punteggio visibile nel grafico rappresenta la prestazione del modello corrispondente all'interno di quella categoria.

Durante i nostri test, abbiamo osservato che il modello Nanonets-OCR2-3B ha fornito le prestazioni più deboli nel benchmark, ottenendo i punteggi più bassi. In generale, abbiamo riscontrato che alcuni modelli hanno avuto difficoltà soprattutto con la scrittura corsiva e con layout di testo disorganizzati (ordine delle righe misto, maiuscole/minuscole incoerenti). Problemi di prestazioni simili sono emersi anche nella categoria dei supporti stampati, in particolare con immagini a bassa risoluzione e quelle contenenti più stili di carattere.

Set di dati

In questo benchmark abbiamo utilizzato un totale di 300 documenti, con 100 documenti per categoria, suddivisi in 3 categorie:

Il testo stampato comprende lettere, screenshot di siti web, e-mail, rapporti, ecc.

I media stampati includono poster, copertine di libri, pubblicità, ecc. Il nostro obiettivo era quello di verificare l'efficacia degli strumenti OCR con diversi caratteri e posizionamenti del testo.

I file appartenenti a queste due categorie sono stati reperiti presso la Industry Documents Library (IDL). ¹

Scrittura a mano: Nella categoria della scrittura a mano, poiché alcuni documenti IDL non erano facilmente leggibili, il nostro team ha generato documenti simili ai documenti IDL. Abbiamo preparato manualmente campioni di scrittura a mano leggibile dall'uomo. Tutti i campioni erano in stile corsivo.

Figura 1: Esempi tratti dal nostro set di dati.

Metodologia del banco DeltOCR

Questo benchmark si concentra sull'accuratezza dell'estrazione del testo da parte dei prodotti.

La preelaborazione viene eseguita solo per la categoria della scrittura a mano. Abbiamo fotografato i documenti scritti a mano con i nostri smartphone e utilizzato un'app di scansione mobile:

Le immagini sono state convertite in bianco e nero.
Il contrasto è stato aumentato e lo sfondo è stato rimosso.

OCR: Abbiamo eseguito tutti i prodotti sullo stesso dataset e generato output di testo come file di testo grezzo (.txt). Successivamente, abbiamo preparato manualmente la verità di base, includendo il testo corretto in tutti questi file. La verità di base è stata verificata due volte da esseri umani.

Confronto: Abbiamo misurato l'accuratezza delle soluzioni OCR confrontando i loro output con i testi originali. A tale scopo, abbiamo utilizzato il framework Sentence-BERT (SBERT) per calcolare i punteggi di similarità del coseno. Nel benchmark, abbiamo utilizzato il modello di parafrasi multilingue ad alte prestazioni, MiniLM-L12-v2, per calcolare il punteggio di similarità tra l'output di ciascun prodotto e i testi di riferimento. Questo punteggio rappresenta il livello di accuratezza del testo.

La funzione di similarità utilizza una metrica di distanza coseno per calcolare la somiglianza tra due testi. Non abbiamo utilizzato la distanza di Levenshtein per questo benchmark perché prodotti diversi producono testi in ordini diversi. ²

Sebbene la distanza di Levenshtein tenga conto di queste differenze, noi cerchiamo solo la precisione con cui il testo viene rilevato, non la sua posizione. La distanza del coseno presenta penalità trascurabili in questi casi, quindi abbiamo deciso di utilizzarla in questo benchmark.

Selezione dei prodotti

Sul mercato sono presenti numerosi prodotti OCR. Dobbiamo concentrarci su quelli in grado di produrre risultati in formato testo grezzo. I prodotti per questo benchmark sono stati selezionati in base ai seguenti criteri:

Capacità di estrarre testo. In questo confronto non abbiamo incluso soluzioni che estraggono solo dati strutturati leggibili dalla macchina (ovvero dati in formato leggibile dalla macchina).
La loro popolarità sul mercato

Questa non è un'analisi di mercato esaustiva e potremmo aver escluso alcuni prodotti con funzionalità significative. In tal caso, vi preghiamo di lasciare un commento e saremo lieti di ampliare il benchmark.

Limitazioni

In questo benchmark non sono state valutate funzionalità avanzate come il rilevamento della posizione del testo, l'associazione chiave-valore e la classificazione dei documenti.

Nella prossima iterazione, la dimensione del campione verrà aumentata. Se stai cercando un sistema OCR per la scrittura a mano, consulta il nostro benchmark OCR per la scrittura a mano con 50 campioni.

Se siete interessati, potete anche consultare i nostri benchmark OCR per fatture e ricevute .

Risultati precedenti del benchmark OCR

Risultati complessivi dell'accuratezza del testo OCR con intervalli di confidenza al 90%

Google Cloud Vision e AWS Textract sono le tecnologie leader del mercato per tutti i casi
Abbyy offre prestazioni elevate anche per i documenti non scritti a mano.
Tutti gli OCR testati, incluso il software open source Tesseract, hanno ottenuto buoni risultati con le schermate digitali.

Lo strumento Vision OCR di Cloud Platform raggiunge la massima precisione del testo, pari al 98,0%, quando viene testato l'intero set di dati. Sebbene tutti i prodotti superino il 99,2% nella Categoria 1, che include testi digitati, le immagini scritte a mano nelle Categorie 2 e 3 fanno la vera differenza tra i prodotti.

I risultati complessivi mostrano che GCP Vision e AWS Textract sono i prodotti OCR dominanti, con la massima precisione nel riconoscimento del testo fornito.

Note tratte dai risultati complessivi:

In un singolo caso, AWS Textract non è riuscito a riconoscere il testo scritto a mano. Questa situazione ha ridotto significativamente le prestazioni di AWS Textract nella sua categoria e nel complesso. Ha inoltre aumentato la deviazione all'interno della categoria e nel complesso, poiché AWS Textract ha ottenuto ottimi risultati in tutti gli altri casi.
Azure è il prodotto leader nella Categoria 1 con una precisione del 99,8%. Tuttavia, il prodotto spesso non riesce a riconoscere il testo scritto a mano, come dimostrano i risultati per la seconda categoria. Questo è il motivo per cui Azure è in svantaggio nella terza categoria e complessivamente.
Tesseract OCR è un prodotto open-source utilizzabile gratuitamente. Rispetto ad Azure e ABBYY, offre prestazioni migliori nel riconoscimento della scrittura a mano e può essere considerato una valida alternativa per chi non può accedere ai prodotti AWS o GCP. Tuttavia, le sue prestazioni potrebbero risultare inferiori con le immagini scansionate.
A differenza di altri prodotti, ABBYY genera un file .txt più strutturato. Inoltre, ABBYY tiene conto della posizione del testo all'interno dell'immagine durante la generazione del file di output. Sebbene il prodotto offra ulteriori utili funzionalità, in questo benchmark ci concentriamo esclusivamente sull'accuratezza del testo. Nel riconoscimento della scrittura a mano, invece, ha ottenuto risultati deludenti.

Rimozione dell'immagine di "piantagrane".

Come accennato nei risultati complessivi, è stata rilevata una singola immagine "anomala" in cui AWS Textract non è riuscito a riconoscere alcun testo. Sebbene il prodotto mostri un'accuratezza del testo superiore al 95% in tutte le altre immagini, questo caso ha ridotto le prestazioni di AWS e ampliato il suo intervallo di confidenza.

Poiché questo caso potrebbe rappresentare un'eccezione, abbiamo voluto confrontare i prodotti anche senza di essa. Abbiamo chiamato questa immagine "l'elemento problematico" e abbiamo rieseguito i risultati per verificare se ci fossero differenze.
Ecco i nuovi risultati dopo aver escluso il "piantagrane" dal set di dati.

Risultati di accuratezza del riconoscimento ottico dei caratteri (OCR) quando il "problematico" viene escluso. Viene mostrato l'intervallo di confidenza del 90%.

Escludendo l'elemento problematico, AWS Textract si conferma il migliore con un livello di accuratezza del testo quasi perfetto (99,3%) e un intervallo di confidenza ristretto. Sebbene i punteggi non cambino di molto, GCP Vision e AWS Textract rimangono i due prodotti migliori, con un'accuratezza del testo superiore rispetto agli altri.

Risultati senza riconoscimento della scrittura a mano

Il fattore principale che riduce l'accuratezza del testo di alcuni prodotti è la presenza di scrittura a mano nelle immagini. Pertanto, abbiamo escluso tutte le immagini (tutte quelle della categoria 2 e 6 immagini della categoria 3) e rivalutato le prestazioni di accuratezza del testo.

Accuratezza del testo OCR senza casi di riconoscimento della scrittura a mano

I risultati sono più ravvicinati quando si escludono le immagini scritte a mano. AWS Textract e GCP Vision rimangono i due prodotti migliori nel benchmark, ma anche ABBYY FineReader ottiene ottimi risultati (99,3%). Sebbene tutti i prodotti raggiungano una precisione superiore al 95% escludendo la scrittura a mano, Azure Computer Vision e Tesseract OCR faticano ancora con i documenti scansionati, risultando quindi inferiori in questo confronto.

Prodotti di riferimento

Abbiamo testato cinque prodotti OCR per misurarne l'accuratezza del testo. Abbiamo utilizzato le versioni disponibili a maggio 2021. I prodotti utilizzati sono:

ABBYY FineReader 15
Amazon Text
Google API Cloud Platform Vision
Microsoft API di visione artificiale di Azure
Motore OCR Tesseract

Set di dati

Sebbene esistano molti dataset di immagini per l'OCR, questi sono

principalmente a livello di personaggio e non si conformano a casi d'uso aziendali reali
oppure concentrarsi sulla posizione del testo piuttosto che sul testo stesso.

Abbiamo quindi deciso di creare il nostro set di dati suddiviso in tre categorie principali:

Categoria 1 – Screenshot di pagine web contenenti testo: questa categoria include screenshot di pagine casuali di Wikipedia e risultati di ricerca con query casuali.
Categoria 2 – Scrittura a mano: questa categoria include foto casuali che mostrano diversi stili di scrittura a mano.
Categoria 3 – Ricevute, fatture e contratti scansionati: questa categoria comprende una raccolta casuale di ricevute, fatture scritte a mano e contratti assicurativi scansionati, reperiti su internet.

Tutti i file di input sono in formato .jpg o .png.

Limitazioni

Set di dati limitato: Inizialmente, avevamo una quarta categoria composta da foto di giornali per valutare le prestazioni dei prodotti nei documenti stampati. Tuttavia, queste foto contengono troppo testo, il che rende difficile generare dati di riferimento affidabili. Pertanto, abbiamo deciso di non utilizzarle.
Incoerenze nei formati di output: molte immagini includono testi separati a sinistra e a destra. I programmi estraggono questi testi in ordini diversi, causando la creazione di file di output differenti, nonostante il rilevamento accurato dei testi. Questa situazione ci ha impedito di utilizzare altre misure di distanza (come la distanza di Levenshtein) e ha limitato le nostre opzioni per il calcolo dell'accuratezza del testo.
Possibile problema con la distanza del coseno: la distanza del coseno utilizza gli embedding durante il calcolo della similarità. Ad esempio, il confronto tra le frasi "Mi piace il tè" e "Mi piace il caffè" darebbe un punteggio di similarità più alto di quanto dovrebbe. Tuttavia, casi come quello di confondere la parola "tè" con "caffè" sarebbero rari, quindi non abbiamo considerato questa possibilità in questo esercizio.

Utilizziamo altri dati di mercato (ad esempio, recensioni di software, casi di studio dei clienti) per classificare i fornitori di software. Tuttavia, poiché la maggior parte delle aziende utilizza il termine "OCR" quando cerca soluzioni di estrazione dati (incluse quelle che generano dati leggibili dalle macchine), il nostro elenco ha una portata più ampia e comprende più aziende rispetto a quelle presentate in questo benchmarking.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Segui

FAQ

Il riconoscimento ottico dei caratteri (OCR) è un campo dell'apprendimento automatico specializzato nel distinguere i caratteri all'interno di immagini come documenti scansionati, libri stampati o fotografie. Sebbene sia una tecnologia matura, non esistono ancora prodotti OCR in grado di riconoscere tutti i tipi di testo con una precisione del 100%. Tra i prodotti che abbiamo analizzato, solo pochi hanno ottenuto risultati soddisfacenti nel nostro set di test.
Gli strumenti OCR vengono utilizzati dalle aziende per identificare testi e la loro posizione nelle immagini, classificare documenti aziendali in base all'argomento o effettuare associazioni chiave-valore all'interno dei documenti. Sulla base dei risultati OCR, altre aziende tecnologiche sviluppano applicazioni come l'automazione dei documenti . Per tutti questi casi d'uso, un riconoscimento accurato del testo è fondamentale per un prodotto OCR.

Collegamenti di riferimento

pixparse/idl-wds · Datasets at Hugging Face

Pixel Parsing

Levenshtein distance - Wikipedia

Contributors to Wikimedia projects

Cem Dilmegani

Analista principale

Segui

Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.

Visualizza il profilo completo

Ricercato da

Şevval Alper

Ricercatore di intelligenza artificiale

Segui

Şevval è un analista di settore di AIMultiple specializzato in strumenti di programmazione per l'IA, agenti di IA e tecnologie quantistiche.

Visualizza il profilo completo

Commenti 8

Condividi i tuoi pensieri

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

Serhat Cinar

Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani

Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ

Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani

Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster

Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi

Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby

Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani

Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun

Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani

Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott

Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani

Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob

Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani

Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin

Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani

Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.

Prossimo da leggere

Tipi di proxyMag 11

Ekrem Sarı

LLMApr 20

Benchmark OCR: accuratezza di estrazione/acquisizione del testo