La precisione dell'OCR è fondamentale per molte attività di elaborazione dei documenti e i sistemi LLM multimodali all'avanguardia offrono ora un'alternativa all'OCR . Abbiamo confrontato i principali servizi OCR in DeltOCR Bench per identificarne i livelli di precisione in diverse tipologie di documenti:
- Scrittura a mano : GPT-5 (%95) si distingue come il più performante, seguito a ruota da olmOCR-2-7B (%94) e Gemini 2.5 Pro (%93).
- Supporto stampato : Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 guidano questa categoria con il punteggio più alto (85%)
- Testo stampato : Microsoft Il documento Azure Intelligence API è leader con un punteggio del %96.
Benchmark OCR: DeltOCR Bench
Di seguito sono elencati i nomi completi dei prodotti sopra menzionati e le relative versioni in uso a novembre 2025. Il nostro studio prende in esame sia i servizi API facilmente accessibili sia le soluzioni che richiedono un'infrastruttura on-premise, confrontando i principali modelli presenti sul mercato in un ambiente di test approfondito.
- Scrittura a mano :
- Intervallo di precisione: un ampio intervallo che va dal 46% al 95%.
- Punti salienti: GPT-5 (%95), olmOCR-2-7B (%94) e Gemini 2.5 Pro (%93) mostrano le prestazioni più elevate. Questi punteggi elevati dimostrano lo straordinario potenziale di accuratezza dei modelli lineari di apprendimento multimodali, come GPT-5 e Gemini 2.5 Pro, in questo ambito.
- Raccomandazione: Per il riconoscimento di grafie molto complesse, si consigliano le migliori soluzioni LLM come GPT-5 o Gemini 2.5 Pro, grazie alla loro accessibilità tramite API e alla facilità di integrazione.
- Media stampati :
- Intervallo di precisione: un intervallo compreso tra il 54% e l'85%.
- Punti salienti: Soluzioni come Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 condividono il punteggio più alto (85%). Questa categoria è altamente competitiva tra i LLM e i servizi OCR tradizionali basati su cloud (Azure, Dots OCR, Amazon Textract). GPT-5 è in ritardo rispetto ad altri LLM leader in questa categoria (77%).
- Raccomandazione: Per documenti con layout visivi complessi (caratteri multipli, bassa risoluzione, ecc.), si consigliano LLM come Gemini 2.5 Pro o servizi basati su cloud come Google Vision o Microsoft Azure Document Intelligence API.
- Testo stampato :
- Intervallo di accuratezza: un intervallo elevato, dal 55% al 96%, sebbene la maggior parte delle soluzioni leader abbia raggiunto punteggi pari o superiori al 94%.
- Punti salienti: Microsoft Azure Document Intelligence API (%96) è in testa, seguito da vicino da soluzioni come GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision e Amazon Textract, tutte con un punteggio del %95. Questa categoria è un'area in cui tutte le soluzioni SOTA raggiungono livelli di precisione estremamente elevati.
- Raccomandazione: per testi stampati semplici che richiedono un'elevata precisione, è possibile utilizzare con sicurezza soluzioni cloud consolidate come Azure Document Microsoft Azure Document Intelligence API o Google Vision, oppure LLM con punteggio elevato (Gemini/GPT-5).
Soluzioni API
I seguenti modelli sono stati inclusi nella nostra lista di benchmarking per la loro facilità d'uso e le loro prestazioni.
- Claude Sonnet 4.5
- OpenAI GPT-5
- Gemini 2.5 Pro
- Anteprima di Gemini 3 Pro
- API Amazon Textraw
- Google API Cloud Vision
- Microsoft Documento Azure IntelAPI di licenza
- Moondream OCR
- Mistral OCR 3
- Mistral OCR 2
Microsoft Documento Azure IntelL'API di licenza fa parte della famiglia di Servizi cognitivi di Azure.
Modelli distribuiti localmente (in locale)
Testare questi modelli è più complesso rispetto alle soluzioni API a causa dell'installazione, della gestione delle dipendenze e dei requisiti hardware. Tutti i test locali sono stati condotti in un ambiente server dedicato.
- olmOCR-2-7B
- PaddleOCR-VL
- Nanonets-OCR2-3B
- Ricerca profonda-OCR
- Dots-OCR
Abbiamo calcolato l'accuratezza dei risultati come punteggio di similarità del coseno per testo stampato, supporti stampati e scrittura a mano. Ogni punteggio visibile nel grafico rappresenta la prestazione del modello corrispondente all'interno di quella categoria.
Durante i nostri test, abbiamo osservato che il modello Nanonets-OCR2-3B ha fornito le prestazioni più deboli nel benchmark, ottenendo i punteggi più bassi. In generale, abbiamo riscontrato che alcuni modelli hanno avuto difficoltà soprattutto con la scrittura corsiva e con layout di testo disorganizzati (ordine delle righe misto, maiuscole/minuscole incoerenti). Problemi di prestazioni simili sono emersi anche nella categoria dei supporti stampati, in particolare con immagini a bassa risoluzione e quelle contenenti più stili di carattere.
Set di dati
In questo benchmark abbiamo utilizzato un totale di 300 documenti, con 100 documenti per categoria, suddivisi in 3 categorie:
Il testo stampato comprende lettere, screenshot di siti web, e-mail, rapporti, ecc.
I media stampati includono poster, copertine di libri, pubblicità, ecc. Il nostro obiettivo era quello di verificare l'efficacia degli strumenti OCR con diversi caratteri e posizionamenti del testo.
I file appartenenti a queste due categorie sono stati reperiti presso la Industry Documents Library (IDL). 1
Scrittura a mano: Nella categoria della scrittura a mano, poiché alcuni documenti IDL non erano facilmente leggibili, il nostro team ha generato documenti simili ai documenti IDL. Abbiamo preparato manualmente campioni di scrittura a mano leggibile dall'uomo. Tutti i campioni erano in stile corsivo.
Metodologia del banco DeltOCR
Questo benchmark si concentra sull'accuratezza dell'estrazione del testo da parte dei prodotti.
La preelaborazione viene eseguita solo per la categoria della scrittura a mano. Abbiamo fotografato i documenti scritti a mano con i nostri smartphone e utilizzato un'app di scansione mobile:
- Le immagini sono state convertite in bianco e nero.
- Il contrasto è stato aumentato e lo sfondo è stato rimosso.
OCR: Abbiamo eseguito tutti i prodotti sullo stesso dataset e generato output di testo come file di testo grezzo (.txt). Successivamente, abbiamo preparato manualmente la verità di base, includendo il testo corretto in tutti questi file. La verità di base è stata verificata due volte da esseri umani.
Confronto: Abbiamo misurato l'accuratezza delle soluzioni OCR confrontando i loro output con i testi originali. A tale scopo, abbiamo utilizzato il framework Sentence-BERT (SBERT) per calcolare i punteggi di similarità del coseno. Nel benchmark, abbiamo utilizzato il modello di parafrasi multilingue ad alte prestazioni, MiniLM-L12-v2, per calcolare il punteggio di similarità tra l'output di ciascun prodotto e i testi di riferimento. Questo punteggio rappresenta il livello di accuratezza del testo.
La funzione di similarità utilizza una metrica di distanza coseno per calcolare la somiglianza tra due testi. Non abbiamo utilizzato la distanza di Levenshtein per questo benchmark perché prodotti diversi producono testi in ordini diversi. 2
Sebbene la distanza di Levenshtein tenga conto di queste differenze, noi cerchiamo solo la precisione con cui il testo viene rilevato, non la sua posizione. La distanza del coseno presenta penalità trascurabili in questi casi, quindi abbiamo deciso di utilizzarla in questo benchmark.
Selezione dei prodotti
Sul mercato sono presenti numerosi prodotti OCR. Dobbiamo concentrarci su quelli in grado di produrre risultati in formato testo grezzo. I prodotti per questo benchmark sono stati selezionati in base ai seguenti criteri:
- Capacità di estrarre testo. In questo confronto non abbiamo incluso soluzioni che estraggono solo dati strutturati leggibili dalla macchina (ovvero dati in formato leggibile dalla macchina).
- La loro popolarità sul mercato
Questa non è un'analisi di mercato esaustiva e potremmo aver escluso alcuni prodotti con funzionalità significative. In tal caso, vi preghiamo di lasciare un commento e saremo lieti di ampliare il benchmark.
Limitazioni
In questo benchmark non sono state valutate funzionalità avanzate come il rilevamento della posizione del testo, l'associazione chiave-valore e la classificazione dei documenti.
Nella prossima iterazione, la dimensione del campione verrà aumentata. Se stai cercando un sistema OCR per la scrittura a mano, consulta il nostro benchmark OCR per la scrittura a mano con 50 campioni.
Se siete interessati, potete anche consultare i nostri benchmark OCR per fatture e ricevute .
Risultati precedenti del benchmark OCR
- Google Cloud Vision e AWS Textract sono le tecnologie leader del mercato per tutti i casi
- Abbyy offre prestazioni elevate anche per i documenti non scritti a mano.
- Tutti gli OCR testati, incluso il software open source Tesseract, hanno ottenuto buoni risultati con le schermate digitali.
Lo strumento Vision OCR di Cloud Platform raggiunge la massima precisione del testo, pari al 98,0%, quando viene testato l'intero set di dati. Sebbene tutti i prodotti superino il 99,2% nella Categoria 1, che include testi digitati, le immagini scritte a mano nelle Categorie 2 e 3 fanno la vera differenza tra i prodotti.
I risultati complessivi mostrano che GCP Vision e AWS Textract sono i prodotti OCR dominanti, con la massima precisione nel riconoscimento del testo fornito.
Note tratte dai risultati complessivi:
- In un singolo caso, AWS Textract non è riuscito a riconoscere il testo scritto a mano. Questa situazione ha ridotto significativamente le prestazioni di AWS Textract nella sua categoria e nel complesso. Ha inoltre aumentato la deviazione all'interno della categoria e nel complesso, poiché AWS Textract ha ottenuto ottimi risultati in tutti gli altri casi.
- Azure è il prodotto leader nella Categoria 1 con una precisione del 99,8%. Tuttavia, il prodotto spesso non riesce a riconoscere il testo scritto a mano, come dimostrano i risultati per la seconda categoria. Questo è il motivo per cui Azure è in svantaggio nella terza categoria e complessivamente.
- Tesseract OCR è un prodotto open-source utilizzabile gratuitamente. Rispetto ad Azure e ABBYY, offre prestazioni migliori nel riconoscimento della scrittura a mano e può essere considerato una valida alternativa per chi non può accedere ai prodotti AWS o GCP. Tuttavia, le sue prestazioni potrebbero risultare inferiori con le immagini scansionate.
- A differenza di altri prodotti, ABBYY genera un file .txt più strutturato. Inoltre, ABBYY tiene conto della posizione del testo all'interno dell'immagine durante la generazione del file di output. Sebbene il prodotto offra ulteriori utili funzionalità, in questo benchmark ci concentriamo esclusivamente sull'accuratezza del testo. Nel riconoscimento della scrittura a mano, invece, ha ottenuto risultati deludenti.
Rimozione dell'immagine di "piantagrane".
Come accennato nei risultati complessivi, è stata rilevata una singola immagine "anomala" in cui AWS Textract non è riuscito a riconoscere alcun testo. Sebbene il prodotto mostri un'accuratezza del testo superiore al 95% in tutte le altre immagini, questo caso ha ridotto le prestazioni di AWS e ampliato il suo intervallo di confidenza.
Poiché questo caso potrebbe rappresentare un'eccezione, abbiamo voluto confrontare i prodotti anche senza di essa. Abbiamo chiamato questa immagine "l'elemento problematico" e abbiamo rieseguito i risultati per verificare se ci fossero differenze.
Ecco i nuovi risultati dopo aver escluso il "piantagrane" dal set di dati.
Escludendo l'elemento problematico, AWS Textract si conferma il migliore con un livello di accuratezza del testo quasi perfetto (99,3%) e un intervallo di confidenza ristretto. Sebbene i punteggi non cambino di molto, GCP Vision e AWS Textract rimangono i due prodotti migliori, con un'accuratezza del testo superiore rispetto agli altri.
Risultati senza riconoscimento della scrittura a mano
Il fattore principale che riduce l'accuratezza del testo di alcuni prodotti è la presenza di scrittura a mano nelle immagini. Pertanto, abbiamo escluso tutte le immagini (tutte quelle della categoria 2 e 6 immagini della categoria 3) e rivalutato le prestazioni di accuratezza del testo.
I risultati sono più ravvicinati quando si escludono le immagini scritte a mano. AWS Textract e GCP Vision rimangono i due prodotti migliori nel benchmark, ma anche ABBYY FineReader ottiene ottimi risultati (99,3%). Sebbene tutti i prodotti raggiungano una precisione superiore al 95% escludendo la scrittura a mano, Azure Computer Vision e Tesseract OCR faticano ancora con i documenti scansionati, risultando quindi inferiori in questo confronto.
Prodotti di riferimento
Abbiamo testato cinque prodotti OCR per misurarne l'accuratezza del testo. Abbiamo utilizzato le versioni disponibili a maggio 2021. I prodotti utilizzati sono:
- ABBYY FineReader 15
- Amazon Text
- Google API Cloud Platform Vision
- Microsoft API di visione artificiale di Azure
- Motore OCR Tesseract
Set di dati
Sebbene esistano molti dataset di immagini per l'OCR, questi sono
- principalmente a livello di personaggio e non si conformano a casi d'uso aziendali reali
- oppure concentrarsi sulla posizione del testo piuttosto che sul testo stesso.
Abbiamo quindi deciso di creare il nostro set di dati suddiviso in tre categorie principali:
- Categoria 1 – Screenshot di pagine web contenenti testo: questa categoria include screenshot di pagine casuali di Wikipedia e risultati di ricerca con query casuali.
- Categoria 2 – Scrittura a mano: questa categoria include foto casuali che mostrano diversi stili di scrittura a mano.
- Categoria 3 – Ricevute, fatture e contratti scansionati: questa categoria comprende una raccolta casuale di ricevute, fatture scritte a mano e contratti assicurativi scansionati, reperiti su internet.
Tutti i file di input sono in formato .jpg o .png.
Limitazioni
- Set di dati limitato: Inizialmente, avevamo una quarta categoria composta da foto di giornali per valutare le prestazioni dei prodotti nei documenti stampati. Tuttavia, queste foto contengono troppo testo, il che rende difficile generare dati di riferimento affidabili. Pertanto, abbiamo deciso di non utilizzarle.
- Incoerenze nei formati di output: molte immagini includono testi separati a sinistra e a destra. I programmi estraggono questi testi in ordini diversi, causando la creazione di file di output differenti, nonostante il rilevamento accurato dei testi. Questa situazione ci ha impedito di utilizzare altre misure di distanza (come la distanza di Levenshtein) e ha limitato le nostre opzioni per il calcolo dell'accuratezza del testo.
- Possibile problema con la distanza del coseno: la distanza del coseno utilizza gli embedding durante il calcolo della similarità. Ad esempio, il confronto tra le frasi "Mi piace il tè" e "Mi piace il caffè" darebbe un punteggio di similarità più alto di quanto dovrebbe. Tuttavia, casi come quello di confondere la parola "tè" con "caffè" sarebbero rari, quindi non abbiamo considerato questa possibilità in questo esercizio.
Utilizziamo altri dati di mercato (ad esempio, recensioni di software, casi di studio dei clienti) per classificare i fornitori di software. Tuttavia, poiché la maggior parte delle aziende utilizza il termine "OCR" quando cerca soluzioni di estrazione dati (incluse quelle che generano dati leggibili dalle macchine), il nostro elenco ha una portata più ampia e comprende più aziende rispetto a quelle presentate in questo benchmarking.
FAQ
Il riconoscimento ottico dei caratteri (OCR) è un campo dell'apprendimento automatico specializzato nel distinguere i caratteri all'interno di immagini come documenti scansionati, libri stampati o fotografie. Sebbene sia una tecnologia matura, non esistono ancora prodotti OCR in grado di riconoscere tutti i tipi di testo con una precisione del 100%. Tra i prodotti che abbiamo analizzato, solo pochi hanno ottenuto risultati soddisfacenti nel nostro set di test.
Gli strumenti OCR vengono utilizzati dalle aziende per identificare testi e la loro posizione nelle immagini, classificare documenti aziendali in base all'argomento o effettuare associazioni chiave-valore all'interno dei documenti. Sulla base dei risultati OCR, altre aziende tecnologiche sviluppano applicazioni come l'automazione dei documenti . Per tutti questi casi d'uso, un riconoscimento accurato del testo è fondamentale per un prodotto OCR.
Commenti 8
Condividi i tuoi pensieri
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.
Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?
Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.
Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.
Hi there, thank you for the detailed comment, we are updating the article to include these details.
Hello, great work! Just curious, did you use a trained Tesseract when making these testing?
Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.
The graph images are not working for me at the moment. Otherwise great
Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.
Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html
Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.
What version of Tesseract did you test with? They recently released v5.
Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.
This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.
Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.
interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!
Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.