Optical Character Recognition (OCR) is a field of machine learning that specializes in distinguishing characters within images like scanned documents, printed books, or photos. Although it is a mature technology, there are still no OCR products that can recognize all kinds of text with 100% accuracy. Among the products that we benchmarked, only a few products could output successful results from our test set.OCR tools are used by companies to identify texts and their positions in images, classify business documents according to subjects, or conduct key-value pairing within documents. Based on OCR results, other technology companies build applications like document automation. For all these business cases, accurate text recognition is critical for an OCR product.

OCR-Benchmark: Genauigkeit der Textextraktion / -erfassung

Cem Dilmegani

mit

Şevval Alper

aktualisiert am Jan 22, 2026

Siehe unsere ethischen Normen

Die Genauigkeit der Texterkennung (OCR) ist für viele Dokumentenverarbeitungsaufgaben entscheidend, und moderne multimodale Sprachverarbeitungssysteme (LLMs) bieten nun eine Alternative zur herkömmlichen OCR . Wir haben führende OCR-Dienste in DeltOCR Bench verglichen, um ihre Genauigkeit bei verschiedenen Dokumenttypen zu ermitteln.

Handwriting : GPT-5 (%95) sticht als leistungsstärkstes Ergebnis hervor, dicht gefolgt von olmOCR-2-7B (%94) und Gemini 2.5 Pro (%93).
Gedruckte Medien : Gemini 2.5 Pro, Google Vision und Claude Sonnet 4.5 führen diese Kategorie mit der höchsten Punktzahl (85 %) an.
Gedruckter Text : Microsoft Azure Document Intelligence API führt mit einer Punktzahl von %96.

OCR-Benchmark: DeltOCR Bench

Loading Chart

Die vollständigen Namen der oben genannten Produkte und ihre im November 2025 verwendeten Versionen sind unten aufgeführt. Unsere Studie umfasst sowohl leicht zugängliche API-Dienste als auch Lösungen, die eine lokale Infrastruktur erfordern, und vergleicht die wichtigsten Modelle auf dem Markt in einer umfassenden Testumgebung.

Handschrift :
- Genauigkeitsbereich: Ein breiter Bereich von 46 % bis 95 %.
- Highlights: GPT-5 (95 %), olmOCR-2-7B (94 %) und Gemini 2.5 Pro (93 %) erzielen die besten Ergebnisse. Diese hohen Werte belegen das außergewöhnliche Genauigkeitspotenzial multimodaler LLMs wie GPT-5 und Gemini 2.5 Pro in diesem Bereich.
- Empfehlung: Für die Erkennung hochkomplexer Handschriften werden die führenden LLM-Lösungen wie GPT-5 oder Gemini 2.5 Pro aufgrund ihrer API-Zugänglichkeit und einfachen Integration empfohlen.
Gedruckte Medien :
- Genauigkeitsbereich: Ein Bereich von 54 % bis 85 %.
- Highlights: Lösungen wie Gemini 2.5 Pro, Google Vision und Claude Sonnet 4.5 erzielen die höchste Punktzahl (85 %). Diese Kategorie ist hart umkämpft zwischen LLMs und traditionellen Cloud-basierten OCR-Diensten (Azure, Dots OCR, Amazon Textract). GPT-5 liegt mit 77 % hinter anderen führenden LLMs in dieser Kategorie zurück.
- Empfehlung: Für Dokumente mit komplexen visuellen Layouts (mehrere Schriftarten, niedrige Auflösung usw.) werden LLMs wie Gemini 2.5 Pro oder Cloud-basierte Dienste wie Vision oder die Azure Document API empfohlen.
Gedruckter Text :
- Genauigkeitsbereich: Ein hoher Bereich von 55 % bis 96 %, wobei die meisten führenden Lösungen Werte von 94 % und darüber erreichten.
- Highlights: Die Azure Document ligence API (96 %) führt die Liste an, dicht gefolgt von Lösungen wie Gemini 2.5 Pro, Gemini 3 Pro Preview, Vision und Amazon Textract, die alle 95 % erreichen. In dieser Kategorie erzielen alle State-of-the-Art-Lösungen eine extrem hohe Genauigkeit.
- Empfehlung: Für einfache gedruckte Texte, die eine hohe Genauigkeit erfordern, können etablierte Cloud-Lösungen wie Azure Document ligence API oder Vision oder leistungsstarke LLMs (Gemini/) bedenkenlos verwendet werden.

API-Lösungen

Die folgenden Modelle wurden aufgrund ihrer einfachen Zugänglichkeit und ihrer Leistungsfähigkeit in unsere Benchmark-Liste aufgenommen.

Claude Sonnet 4.5
OpenAI GPT-5
Gemini 2.5 Pro
Gemini 3 Pro Vorschau
Amazon Textract API
Google Cloud Vision API
Microsoft Azure-Dokument Intelligence-API
Moondream OCR
Mistral OCR 3
Mistral OCR 2

Microsoft Azure Document Intelligence API ist Teil der Azure Cognitive Services-Familie.

Lokal (vor Ort) bereitgestellte Modelle

Das Testen dieser Modelle ist aufgrund von Installation, Abhängigkeitsverwaltung und Hardwareanforderungen anspruchsvoller als bei API-Lösungen. Alle lokalen Tests wurden in einer dedizierten Serverumgebung durchgeführt.

olmOCR-2-7B
PaddleOCR-VL
Nanonets-OCR2-3B
Deepseek-OCR
Dots-OCR

Wir berechneten die Genauigkeit der Ergebnisse als Kosinusähnlichkeitswert für gedruckten Text, gedruckte Medien und Handschrift. Jeder im Diagramm dargestellte Wert repräsentiert die Leistung des jeweiligen Modells innerhalb dieser Kategorie.

Während unserer Tests stellten wir fest, dass das Nanonets-OCR2-3B-Modell im Benchmark die schwächste Leistung erbrachte und die niedrigsten Punktzahlen erzielte. Generell zeigte sich, dass einige Modelle insbesondere bei kursiver Handschrift und unstrukturierten Textlayouts (unterschiedliche Zeilenreihenfolge, uneinheitliche Groß- und Kleinschreibung) Schwierigkeiten hatten. Ähnliche Leistungsprobleme traten auch in der Kategorie der gedruckten Medien auf, insbesondere bei niedrig aufgelösten Bildern und solchen mit mehreren Schriftarten.

Datensatz

Für diesen Benchmark verwendeten wir insgesamt 300 Dokumente, verteilt auf 3 Kategorien mit jeweils 100 Dokumenten pro Kategorie:

Gedruckte Texte umfassen Briefe, Screenshots von Webseiten, E-Mails, Berichte usw.

Zu den Printmedien gehören Poster, Buchumschläge, Anzeigen usw. Wir wollten die Leistungsfähigkeit der OCR-Tools bei verschiedenen Schriftarten und Textplatzierungen untersuchen.

Die Dateien in diesen beiden Kategorien stammen aus der Industry Documents Library (IDL). ¹

Handschrift: Da einige IDL-Dokumente schwer lesbar waren, erstellte unser Team handschriftliche Dokumente, die den IDL-Dokumenten ähnelten. Wir fertigten manuell lesbare Handschriftproben an. Alle Proben waren in Schreibschrift verfasst.

Abbildung 1: Beispiele aus unserem Datensatz.

Methodik von DeltOCR Bench

Dieser Benchmark konzentriert sich auf die Genauigkeit der Textextraktion der Produkte.

Die Vorverarbeitung erfolgt nur für die Kategorie Handschrift. Wir haben handgeschriebene Dokumente mit unseren Smartphones fotografiert und eine mobile Scanner-App verwendet:

Die Bilder wurden in Schwarzweiß umgewandelt.
Der Kontrast wurde erhöht und der Hintergrund entfernt.

OCR: Wir haben alle Produkte auf demselben Datensatz ausgeführt und die Textausgabe als unformatierte Textdateien (.txt) generiert. Anschließend haben wir manuell die Referenzdaten erstellt, die den korrekten Text in allen Dateien enthielten. Die Referenzdaten wurden zweimal manuell überprüft.

Vergleich: Wir haben die Genauigkeit der OCR-Lösungen gemessen, indem wir ihre Ausgaben mit den Originaltexten verglichen haben. Dazu verwendeten wir das Sentence-BERT (SBERT)-Framework zur Berechnung von Kosinusähnlichkeitswerten. Im Benchmark nutzten wir das leistungsstarke mehrsprachige Paraphrasierungsmodell MiniLM-L12-v2, um den Ähnlichkeitswert zwischen der Ausgabe jedes Produkts und den Referenztexten zu berechnen. Dieser Wert repräsentiert die Textgenauigkeit.

Die Ähnlichkeitsfunktion verwendet die Kosinusdistanz, um die Ähnlichkeit zwischen zwei Texten zu berechnen. Wir haben für diesen Benchmark nicht die Levenshtein-Distanz verwendet, da verschiedene Produkte die Texte in unterschiedlicher Reihenfolge ausgeben. ²

Die Levenshtein-Distanz berücksichtigt zwar diese Unterschiede, wir untersuchen jedoch lediglich die Genauigkeit der Texterkennung, nicht aber deren Position. Die Kosinusdistanz ist in solchen Fällen unproblematisch, daher haben wir uns entschieden, sie in diesem Benchmark zu verwenden.

Produktauswahl

Es gibt viele OCR-Produkte auf dem Markt. Wir müssen uns auf diejenigen konzentrieren, die Rohdaten ausgeben können. Die Produkte für diesen Vergleich wurden anhand folgender Kriterien ausgewählt:

Fähigkeit zur Textextraktion. Lösungen, die ausschließlich maschinenlesbare (d. h. strukturierte) Daten extrahieren, wurden in diesem Vergleich nicht berücksichtigt.
Ihre Beliebtheit auf dem Markt

Dies ist keine umfassende Marktübersicht, und wir haben möglicherweise einige Produkte mit wichtigen Funktionen nicht berücksichtigt. Sollte dies der Fall sein, hinterlassen Sie bitte einen Kommentar, und wir erweitern die Vergleichsliste gerne.

Einschränkungen

Erweiterte Funktionen wie Textpositionserkennung, Schlüssel-Wert-Paarung und Dokumentenklassifizierung wurden in diesem Benchmark nicht bewertet.

Die Stichprobengröße wird in der nächsten Iteration erhöht. Wenn Sie nach einer OCR-Lösung für Handschrift suchen, sehen Sie sich unseren Benchmark für Handschrift-OCR mit 50 Beispielen an.

Bei Interesse können Sie sich auch unsere Benchmarks für die OCR-Erkennung von Rechnungen und Quittungen ansehen.

Vorherige OCR-Benchmark-Ergebnisse

Gesamtergebnisse der OCR-Textgenauigkeit mit 90%-Konfidenzintervallen

Google Cloud Vision und AWS Textract sind die führenden Technologien auf dem Markt für alle Anwendungsfälle
Abbyy bietet auch eine hohe Leistungsfähigkeit für nicht handgeschriebene Dokumente.
Alle getesteten OCR-Programme, einschließlich des Open-Source-Programms Tesseract, schnitten bei digitalen Screenshots gut ab.

Google Das Vision OCR-Tool der Cloud Platform erzielt bei Tests mit dem gesamten Datensatz eine Textgenauigkeit von 98,0 %. Während alle Produkte in Kategorie 1 (mit getippten Texten) über 99,2 % erreichen, liegt der entscheidende Unterschied zwischen den Produkten in den handgeschriebenen Bildern der Kategorien 2 und 3.

Die Gesamtergebnisse zeigen, dass GCP Vision und AWS Textract die führenden OCR-Produkte sind und die höchste Genauigkeit bei der Erkennung des vorgegebenen Textes aufweisen.

Anmerkungen zu den Gesamtergebnissen:

In einem einzigen Fall konnte AWS Textract den handgeschriebenen Text nicht erkennen. Dies führte zu einer deutlichen Verschlechterung der Kategorie- und Gesamtleistung von AWS Textract. Zudem erhöhte es die Abweichung innerhalb der Kategorie und insgesamt, da AWS Textract in allen anderen Fällen sehr gut funktionierte.
Azure ist mit einer Genauigkeit von 99,8 % das führende Produkt in Kategorie 1. Allerdings erkennt das Produkt handgeschriebenen Text häufig nicht, wie die Ergebnisse der zweiten Kategorie zeigen. Aus diesem Grund schneidet Azure in der dritten Kategorie und insgesamt schlechter ab.
Tesseract OCR ist ein kostenloses Open-Source-Produkt. Im Vergleich zu Azure und ABBYY erzielt es bessere Ergebnisse bei handgeschriebenen Texten und kann als Alternative zur Handschrifterkennung in Betracht gezogen werden, wenn AWS- oder GCP-Produkte nicht verfügbar sind. Bei gescannten Bildern kann die Leistung jedoch beeinträchtigt sein.
Im Gegensatz zu anderen Produkten erzeugt ABBYY eine strukturiertere .txt-Datei. ABBYY berücksichtigt bei der Erstellung der Ausgabedatei auch die Position des Textes innerhalb des Bildes. Obwohl das Produkt über weitere nützliche Funktionen verfügt, konzentrieren wir uns in diesem Benchmark ausschließlich auf die Textgenauigkeit. Bei der Handschrifterkennung schnitt es schlecht ab.

Das Bild des „Unruhestifters“ entfernen

Wie bereits in den Gesamtergebnissen erwähnt, gab es ein einzelnes Ausreißerbild, bei dem AWS Textract keinen Text erkennen konnte. Obwohl das Produkt bei allen anderen Bildern eine Textgenauigkeit von über 95 % aufweist, beeinträchtigte dieser Fall die Leistung von AWS und vergrößerte das Konfidenzintervall.

Da es sich hierbei möglicherweise um eine Ausnahme handelte, wollten wir auch die Produkte ohne dieses Bild vergleichen. Wir nannten dieses Bild den „Problemverursacher“ und wiederholten unsere Ergebnisse, um zu sehen, ob sich etwas änderte.
Hier sind die neuen Ergebnisse nach dem Ausschluss des „Störenfrieds“ aus dem Datensatz.

Ergebnisse der OCR-Textgenauigkeit nach Ausschluss des „Störenfrieds“. Das 90%-Konfidenzintervall wird angezeigt.

Wird der „Störenfried“ ausgeschlossen, erzielt AWS Textract mit einer nahezu perfekten Textgenauigkeit von 99,3 % und einem engen Konfidenzintervall die beste Leistung. Die Ergebnisse ändern sich zwar nicht wesentlich, aber GCP Vision und AWS Textract bleiben die beiden führenden Produkte mit der höchsten Textgenauigkeit.

Ergebnisse ohne Handschrifterkennung

Der Hauptgrund für die verminderte Textgenauigkeit bestimmter Produkte ist die Handschrift in den Bildern. Daher haben wir alle Bilder (alle Bilder der Kategorie 2 und 6 Bilder der Kategorie 3) ausgeschlossen und die Textgenauigkeit erneut überprüft.

OCR-Textgenauigkeit ohne Handschrifterkennungsfälle

Die Ergebnisse liegen enger beieinander, wenn handgeschriebene Bilder ausgeschlossen werden. AWS Textract und GCP Vision bleiben die beiden führenden Produkte im Benchmark, aber auch ABBYY FineReader schneidet diesmal sehr gut ab (99,3 %). Obwohl alle Produkte ohne Handschrift eine Genauigkeit von über 95 % erreichen, haben Azure Computer Vision und Tesseract OCR weiterhin Schwierigkeiten mit gescannten Dokumenten und schneiden in diesem Vergleich daher schlechter ab.

Vergleichsprodukte

Wir haben fünf OCR-Produkte getestet, um ihre Textgenauigkeit zu messen. Wir verwendeten Versionen mit Stand Mai 2021. Folgende Produkte wurden verwendet:

ABBYY FineReader 15
Amazon Textract
Google Cloud Platform Vision API
Microsoft Azure Computer Vision API
Tesseract OCR-Engine

Datensatz

Obwohl es viele Bilddatensätze für OCR gibt, sind diese

meist auf der Ebene einzelner Zeichen und entsprechen nicht den realen Anwendungsfällen im Geschäftsleben
oder sich auf die Textposition anstatt auf den Text selbst konzentrieren.

Daher haben wir uns entschieden, unseren eigenen Datensatz in drei Hauptkategorien zu erstellen:

Kategorie 1 – Screenshots von Webseiten mit Text: Diese Kategorie umfasst Screenshots von zufällig ausgewählten Wikipedia-Seiten und Google Suchergebnissen mit zufälligen Suchanfragen.
Kategorie 2 – Handschrift: Diese Kategorie enthält zufällig ausgewählte Fotos mit unterschiedlichen Handschriftstilen.
Kategorie 3 – Quittungen, Rechnungen und eingescannte Verträge: Diese Kategorie umfasst eine zufällige Sammlung von Quittungen, handschriftlichen Rechnungen und eingescannten Versicherungsverträgen aus dem Internet.

Alle Eingabedateien liegen im .jpg- oder .png-Format vor.

Einschränkungen

Begrenzter Datensatz: Ursprünglich hatten wir eine vierte Kategorie mit Fotos von Zeitungen, um die Leistung von Produkten in gedruckten Dokumenten zu bewerten. Diese Fotos enthalten jedoch zu viel Text, was die Generierung von Referenzdaten erschwert. Daher haben wir uns entschieden, sie nicht zu verwenden.
Inkonsistenzen in den Ausgabeformaten: Viele Bilder enthalten jeweils separaten Text auf der linken und rechten Seite. Die Produkte extrahieren diese Texte in unterschiedlicher Reihenfolge, was zu unterschiedlichen Ausgabedateien führt, obwohl die Texte korrekt erkannt werden. Dies verhinderte die Verwendung anderer Distanzmaße (wie der Levenshtein-Distanz) und schränkte unsere Möglichkeiten zur Berechnung der Textgenauigkeit ein.
Mögliches Problem mit der Kosinusdistanz: Die Kosinusdistanz verwendet Einbettungen zur Berechnung der Ähnlichkeit. Beispielsweise würde der Vergleich der Sätze „Ich mag Tee“ und „Ich mag Kaffee“ einen höheren Ähnlichkeitswert ergeben, als er sollte. Fälle, in denen „Tee“ und „Kaffee“ verwechselt werden, sind jedoch selten, daher haben wir diese Möglichkeit in dieser Übung nicht berücksichtigt.

Wir nutzen weitere Marktdaten (z. B. Softwarebewertungen, Kundenreferenzen), um Softwareanbieter zu vergleichen. Da die meisten Unternehmen jedoch bei der Suche nach Datenextraktionslösungen den Begriff „OCR“ verwenden (d. h. auch solche, die maschinenlesbare Daten generieren), ist unsere Liste umfassender und enthält mehr Unternehmen als die in dieser Vergleichsstudie dargestellten.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Folgen auf

FAQs

Die optische Zeichenerkennung (OCR) ist ein Teilgebiet des maschinellen Lernens, das sich auf die Unterscheidung von Zeichen in Bildern wie gescannten Dokumenten, gedruckten Büchern oder Fotos spezialisiert hat. Obwohl es sich um eine ausgereifte Technologie handelt, gibt es noch keine OCR-Produkte, die alle Textarten mit hundertprozentiger Genauigkeit erkennen können. Von den von uns getesteten Produkten erzielten nur wenige zufriedenstellende Ergebnisse in unserem Testdatensatz.
Unternehmen nutzen OCR-Tools, um Texte und deren Positionen in Bildern zu identifizieren, Geschäftsdokumente thematisch zu klassifizieren oder Schlüssel-Wert-Paare innerhalb von Dokumenten zu ermitteln. Auf Basis der OCR-Ergebnisse entwickeln andere Technologieunternehmen Anwendungen wie die Dokumentenautomatisierung . Für all diese Anwendungsfälle ist eine präzise Texterkennung für ein OCR-Produkt unerlässlich.

Referenzlinks

pixparse/idl-wds · Datasets at Hugging Face

Pixel Parsing

Levenshtein distance - Wikipedia

Contributors to Wikimedia projects

Cem Dilmegani

Leitender Analyst

Folgen auf

Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.

Vollständiges Profil anzeigen

Recherchiert von

Şevval Alper

KI-Forscher

Folgen auf

Şevval ist Branchenanalystin bei AIMultiple und spezialisiert auf KI-Codierungswerkzeuge, KI-Agenten und Quantentechnologien.

Vollständiges Profil anzeigen

Kommentare 8

Teilen Sie Ihre Gedanken

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

Serhat Cinar

Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani

Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ

Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani

Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster

Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi

Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby

Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani

Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun

Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani

Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott

Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani

Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob

Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani

Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin

Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani

Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.