Die Genauigkeit der Texterkennung (OCR) ist für viele Dokumentenverarbeitungsaufgaben entscheidend, und moderne multimodale Sprachverarbeitungssysteme (LLMs) bieten nun eine Alternative zur herkömmlichen OCR . Wir haben führende OCR-Dienste in DeltOCR Bench verglichen, um ihre Genauigkeit bei verschiedenen Dokumenttypen zu ermitteln.
- Handwriting : GPT-5 (%95) sticht als leistungsstärkstes Ergebnis hervor, dicht gefolgt von olmOCR-2-7B (%94) und Gemini 2.5 Pro (%93).
- Gedruckte Medien : Gemini 2.5 Pro, Google Vision und Claude Sonnet 4.5 führen diese Kategorie mit der höchsten Punktzahl (85 %) an.
- Gedruckter Text : Microsoft Azure Document Intelligence API führt mit einer Punktzahl von %96.
OCR-Benchmark: DeltOCR Bench
Die vollständigen Namen der oben genannten Produkte und ihre im November 2025 verwendeten Versionen sind unten aufgeführt. Unsere Studie umfasst sowohl leicht zugängliche API-Dienste als auch Lösungen, die eine lokale Infrastruktur erfordern, und vergleicht die wichtigsten Modelle auf dem Markt in einer umfassenden Testumgebung.
- Handschrift :
- Genauigkeitsbereich: Ein breiter Bereich von 46 % bis 95 %.
- Highlights: GPT-5 (95 %), olmOCR-2-7B (94 %) und Gemini 2.5 Pro (93 %) erzielen die besten Ergebnisse. Diese hohen Werte belegen das außergewöhnliche Genauigkeitspotenzial multimodaler LLMs wie GPT-5 und Gemini 2.5 Pro in diesem Bereich.
- Empfehlung: Für die Erkennung hochkomplexer Handschriften werden die führenden LLM-Lösungen wie GPT-5 oder Gemini 2.5 Pro aufgrund ihrer API-Zugänglichkeit und einfachen Integration empfohlen.
- Gedruckte Medien :
- Genauigkeitsbereich: Ein Bereich von 54 % bis 85 %.
- Highlights: Lösungen wie Gemini 2.5 Pro, Google Vision und Claude Sonnet 4.5 erzielen die höchste Punktzahl (85 %). Diese Kategorie ist hart umkämpft zwischen LLMs und traditionellen Cloud-basierten OCR-Diensten (Azure, Dots OCR, Amazon Textract). GPT-5 liegt mit 77 % hinter anderen führenden LLMs in dieser Kategorie zurück.
- Empfehlung: Für Dokumente mit komplexen visuellen Layouts (mehrere Schriftarten, niedrige Auflösung usw.) werden LLMs wie Gemini 2.5 Pro oder Cloud-basierte Dienste wie Vision oder die Azure Document API empfohlen.
- Gedruckter Text :
- Genauigkeitsbereich: Ein hoher Bereich von 55 % bis 96 %, wobei die meisten führenden Lösungen Werte von 94 % und darüber erreichten.
- Highlights: Die Azure Document ligence API (96 %) führt die Liste an, dicht gefolgt von Lösungen wie Gemini 2.5 Pro, Gemini 3 Pro Preview, Vision und Amazon Textract, die alle 95 % erreichen. In dieser Kategorie erzielen alle State-of-the-Art-Lösungen eine extrem hohe Genauigkeit.
- Empfehlung: Für einfache gedruckte Texte, die eine hohe Genauigkeit erfordern, können etablierte Cloud-Lösungen wie Azure Document ligence API oder Vision oder leistungsstarke LLMs (Gemini/) bedenkenlos verwendet werden.
API-Lösungen
Die folgenden Modelle wurden aufgrund ihrer einfachen Zugänglichkeit und ihrer Leistungsfähigkeit in unsere Benchmark-Liste aufgenommen.
- Claude Sonnet 4.5
- OpenAI GPT-5
- Gemini 2.5 Pro
- Gemini 3 Pro Vorschau
- Amazon Textract API
- Google Cloud Vision API
- Microsoft Azure-Dokument Intelligence-API
- Moondream OCR
- Mistral OCR 3
- Mistral OCR 2
Microsoft Azure Document Intelligence API ist Teil der Azure Cognitive Services-Familie.
Lokal (vor Ort) bereitgestellte Modelle
Das Testen dieser Modelle ist aufgrund von Installation, Abhängigkeitsverwaltung und Hardwareanforderungen anspruchsvoller als bei API-Lösungen. Alle lokalen Tests wurden in einer dedizierten Serverumgebung durchgeführt.
- olmOCR-2-7B
- PaddleOCR-VL
- Nanonets-OCR2-3B
- Deepseek-OCR
- Dots-OCR
Wir berechneten die Genauigkeit der Ergebnisse als Kosinusähnlichkeitswert für gedruckten Text, gedruckte Medien und Handschrift. Jeder im Diagramm dargestellte Wert repräsentiert die Leistung des jeweiligen Modells innerhalb dieser Kategorie.
Während unserer Tests stellten wir fest, dass das Nanonets-OCR2-3B-Modell im Benchmark die schwächste Leistung erbrachte und die niedrigsten Punktzahlen erzielte. Generell zeigte sich, dass einige Modelle insbesondere bei kursiver Handschrift und unstrukturierten Textlayouts (unterschiedliche Zeilenreihenfolge, uneinheitliche Groß- und Kleinschreibung) Schwierigkeiten hatten. Ähnliche Leistungsprobleme traten auch in der Kategorie der gedruckten Medien auf, insbesondere bei niedrig aufgelösten Bildern und solchen mit mehreren Schriftarten.
Datensatz
Für diesen Benchmark verwendeten wir insgesamt 300 Dokumente, verteilt auf 3 Kategorien mit jeweils 100 Dokumenten pro Kategorie:
Gedruckte Texte umfassen Briefe, Screenshots von Webseiten, E-Mails, Berichte usw.
Zu den Printmedien gehören Poster, Buchumschläge, Anzeigen usw. Wir wollten die Leistungsfähigkeit der OCR-Tools bei verschiedenen Schriftarten und Textplatzierungen untersuchen.
Die Dateien in diesen beiden Kategorien stammen aus der Industry Documents Library (IDL). 1
Handschrift: Da einige IDL-Dokumente schwer lesbar waren, erstellte unser Team handschriftliche Dokumente, die den IDL-Dokumenten ähnelten. Wir fertigten manuell lesbare Handschriftproben an. Alle Proben waren in Schreibschrift verfasst.
Methodik von DeltOCR Bench
Dieser Benchmark konzentriert sich auf die Genauigkeit der Textextraktion der Produkte.
Die Vorverarbeitung erfolgt nur für die Kategorie Handschrift. Wir haben handgeschriebene Dokumente mit unseren Smartphones fotografiert und eine mobile Scanner-App verwendet:
- Die Bilder wurden in Schwarzweiß umgewandelt.
- Der Kontrast wurde erhöht und der Hintergrund entfernt.
OCR: Wir haben alle Produkte auf demselben Datensatz ausgeführt und die Textausgabe als unformatierte Textdateien (.txt) generiert. Anschließend haben wir manuell die Referenzdaten erstellt, die den korrekten Text in allen Dateien enthielten. Die Referenzdaten wurden zweimal manuell überprüft.
Vergleich: Wir haben die Genauigkeit der OCR-Lösungen gemessen, indem wir ihre Ausgaben mit den Originaltexten verglichen haben. Dazu verwendeten wir das Sentence-BERT (SBERT)-Framework zur Berechnung von Kosinusähnlichkeitswerten. Im Benchmark nutzten wir das leistungsstarke mehrsprachige Paraphrasierungsmodell MiniLM-L12-v2, um den Ähnlichkeitswert zwischen der Ausgabe jedes Produkts und den Referenztexten zu berechnen. Dieser Wert repräsentiert die Textgenauigkeit.
Die Ähnlichkeitsfunktion verwendet die Kosinusdistanz, um die Ähnlichkeit zwischen zwei Texten zu berechnen. Wir haben für diesen Benchmark nicht die Levenshtein-Distanz verwendet, da verschiedene Produkte die Texte in unterschiedlicher Reihenfolge ausgeben. 2
Die Levenshtein-Distanz berücksichtigt zwar diese Unterschiede, wir untersuchen jedoch lediglich die Genauigkeit der Texterkennung, nicht aber deren Position. Die Kosinusdistanz ist in solchen Fällen unproblematisch, daher haben wir uns entschieden, sie in diesem Benchmark zu verwenden.
Produktauswahl
Es gibt viele OCR-Produkte auf dem Markt. Wir müssen uns auf diejenigen konzentrieren, die Rohdaten ausgeben können. Die Produkte für diesen Vergleich wurden anhand folgender Kriterien ausgewählt:
- Fähigkeit zur Textextraktion. Lösungen, die ausschließlich maschinenlesbare (d. h. strukturierte) Daten extrahieren, wurden in diesem Vergleich nicht berücksichtigt.
- Ihre Beliebtheit auf dem Markt
Dies ist keine umfassende Marktübersicht, und wir haben möglicherweise einige Produkte mit wichtigen Funktionen nicht berücksichtigt. Sollte dies der Fall sein, hinterlassen Sie bitte einen Kommentar, und wir erweitern die Vergleichsliste gerne.
Einschränkungen
Erweiterte Funktionen wie Textpositionserkennung, Schlüssel-Wert-Paarung und Dokumentenklassifizierung wurden in diesem Benchmark nicht bewertet.
Die Stichprobengröße wird in der nächsten Iteration erhöht. Wenn Sie nach einer OCR-Lösung für Handschrift suchen, sehen Sie sich unseren Benchmark für Handschrift-OCR mit 50 Beispielen an.
Bei Interesse können Sie sich auch unsere Benchmarks für die OCR-Erkennung von Rechnungen und Quittungen ansehen.
Vorherige OCR-Benchmark-Ergebnisse
- Google Cloud Vision und AWS Textract sind die führenden Technologien auf dem Markt für alle Anwendungsfälle
- Abbyy bietet auch eine hohe Leistungsfähigkeit für nicht handgeschriebene Dokumente.
- Alle getesteten OCR-Programme, einschließlich des Open-Source-Programms Tesseract, schnitten bei digitalen Screenshots gut ab.
Google Das Vision OCR-Tool der Cloud Platform erzielt bei Tests mit dem gesamten Datensatz eine Textgenauigkeit von 98,0 %. Während alle Produkte in Kategorie 1 (mit getippten Texten) über 99,2 % erreichen, liegt der entscheidende Unterschied zwischen den Produkten in den handgeschriebenen Bildern der Kategorien 2 und 3.
Die Gesamtergebnisse zeigen, dass GCP Vision und AWS Textract die führenden OCR-Produkte sind und die höchste Genauigkeit bei der Erkennung des vorgegebenen Textes aufweisen.
Anmerkungen zu den Gesamtergebnissen:
- In einem einzigen Fall konnte AWS Textract den handgeschriebenen Text nicht erkennen. Dies führte zu einer deutlichen Verschlechterung der Kategorie- und Gesamtleistung von AWS Textract. Zudem erhöhte es die Abweichung innerhalb der Kategorie und insgesamt, da AWS Textract in allen anderen Fällen sehr gut funktionierte.
- Azure ist mit einer Genauigkeit von 99,8 % das führende Produkt in Kategorie 1. Allerdings erkennt das Produkt handgeschriebenen Text häufig nicht, wie die Ergebnisse der zweiten Kategorie zeigen. Aus diesem Grund schneidet Azure in der dritten Kategorie und insgesamt schlechter ab.
- Tesseract OCR ist ein kostenloses Open-Source-Produkt. Im Vergleich zu Azure und ABBYY erzielt es bessere Ergebnisse bei handgeschriebenen Texten und kann als Alternative zur Handschrifterkennung in Betracht gezogen werden, wenn AWS- oder GCP-Produkte nicht verfügbar sind. Bei gescannten Bildern kann die Leistung jedoch beeinträchtigt sein.
- Im Gegensatz zu anderen Produkten erzeugt ABBYY eine strukturiertere .txt-Datei. ABBYY berücksichtigt bei der Erstellung der Ausgabedatei auch die Position des Textes innerhalb des Bildes. Obwohl das Produkt über weitere nützliche Funktionen verfügt, konzentrieren wir uns in diesem Benchmark ausschließlich auf die Textgenauigkeit. Bei der Handschrifterkennung schnitt es schlecht ab.
Das Bild des „Unruhestifters“ entfernen
Wie bereits in den Gesamtergebnissen erwähnt, gab es ein einzelnes Ausreißerbild, bei dem AWS Textract keinen Text erkennen konnte. Obwohl das Produkt bei allen anderen Bildern eine Textgenauigkeit von über 95 % aufweist, beeinträchtigte dieser Fall die Leistung von AWS und vergrößerte das Konfidenzintervall.
Da es sich hierbei möglicherweise um eine Ausnahme handelte, wollten wir auch die Produkte ohne dieses Bild vergleichen. Wir nannten dieses Bild den „Problemverursacher“ und wiederholten unsere Ergebnisse, um zu sehen, ob sich etwas änderte.
Hier sind die neuen Ergebnisse nach dem Ausschluss des „Störenfrieds“ aus dem Datensatz.
Wird der „Störenfried“ ausgeschlossen, erzielt AWS Textract mit einer nahezu perfekten Textgenauigkeit von 99,3 % und einem engen Konfidenzintervall die beste Leistung. Die Ergebnisse ändern sich zwar nicht wesentlich, aber GCP Vision und AWS Textract bleiben die beiden führenden Produkte mit der höchsten Textgenauigkeit.
Ergebnisse ohne Handschrifterkennung
Der Hauptgrund für die verminderte Textgenauigkeit bestimmter Produkte ist die Handschrift in den Bildern. Daher haben wir alle Bilder (alle Bilder der Kategorie 2 und 6 Bilder der Kategorie 3) ausgeschlossen und die Textgenauigkeit erneut überprüft.
Die Ergebnisse liegen enger beieinander, wenn handgeschriebene Bilder ausgeschlossen werden. AWS Textract und GCP Vision bleiben die beiden führenden Produkte im Benchmark, aber auch ABBYY FineReader schneidet diesmal sehr gut ab (99,3 %). Obwohl alle Produkte ohne Handschrift eine Genauigkeit von über 95 % erreichen, haben Azure Computer Vision und Tesseract OCR weiterhin Schwierigkeiten mit gescannten Dokumenten und schneiden in diesem Vergleich daher schlechter ab.
Vergleichsprodukte
Wir haben fünf OCR-Produkte getestet, um ihre Textgenauigkeit zu messen. Wir verwendeten Versionen mit Stand Mai 2021. Folgende Produkte wurden verwendet:
- ABBYY FineReader 15
- Amazon Textract
- Google Cloud Platform Vision API
- Microsoft Azure Computer Vision API
- Tesseract OCR-Engine
Datensatz
Obwohl es viele Bilddatensätze für OCR gibt, sind diese
- meist auf der Ebene einzelner Zeichen und entsprechen nicht den realen Anwendungsfällen im Geschäftsleben
- oder sich auf die Textposition anstatt auf den Text selbst konzentrieren.
Daher haben wir uns entschieden, unseren eigenen Datensatz in drei Hauptkategorien zu erstellen:
- Kategorie 1 – Screenshots von Webseiten mit Text: Diese Kategorie umfasst Screenshots von zufällig ausgewählten Wikipedia-Seiten und Google Suchergebnissen mit zufälligen Suchanfragen.
- Kategorie 2 – Handschrift: Diese Kategorie enthält zufällig ausgewählte Fotos mit unterschiedlichen Handschriftstilen.
- Kategorie 3 – Quittungen, Rechnungen und eingescannte Verträge: Diese Kategorie umfasst eine zufällige Sammlung von Quittungen, handschriftlichen Rechnungen und eingescannten Versicherungsverträgen aus dem Internet.
Alle Eingabedateien liegen im .jpg- oder .png-Format vor.
Einschränkungen
- Begrenzter Datensatz: Ursprünglich hatten wir eine vierte Kategorie mit Fotos von Zeitungen, um die Leistung von Produkten in gedruckten Dokumenten zu bewerten. Diese Fotos enthalten jedoch zu viel Text, was die Generierung von Referenzdaten erschwert. Daher haben wir uns entschieden, sie nicht zu verwenden.
- Inkonsistenzen in den Ausgabeformaten: Viele Bilder enthalten jeweils separaten Text auf der linken und rechten Seite. Die Produkte extrahieren diese Texte in unterschiedlicher Reihenfolge, was zu unterschiedlichen Ausgabedateien führt, obwohl die Texte korrekt erkannt werden. Dies verhinderte die Verwendung anderer Distanzmaße (wie der Levenshtein-Distanz) und schränkte unsere Möglichkeiten zur Berechnung der Textgenauigkeit ein.
- Mögliches Problem mit der Kosinusdistanz: Die Kosinusdistanz verwendet Einbettungen zur Berechnung der Ähnlichkeit. Beispielsweise würde der Vergleich der Sätze „Ich mag Tee“ und „Ich mag Kaffee“ einen höheren Ähnlichkeitswert ergeben, als er sollte. Fälle, in denen „Tee“ und „Kaffee“ verwechselt werden, sind jedoch selten, daher haben wir diese Möglichkeit in dieser Übung nicht berücksichtigt.
Wir nutzen weitere Marktdaten (z. B. Softwarebewertungen, Kundenreferenzen), um Softwareanbieter zu vergleichen. Da die meisten Unternehmen jedoch bei der Suche nach Datenextraktionslösungen den Begriff „OCR“ verwenden (d. h. auch solche, die maschinenlesbare Daten generieren), ist unsere Liste umfassender und enthält mehr Unternehmen als die in dieser Vergleichsstudie dargestellten.
FAQs
Die optische Zeichenerkennung (OCR) ist ein Teilgebiet des maschinellen Lernens, das sich auf die Unterscheidung von Zeichen in Bildern wie gescannten Dokumenten, gedruckten Büchern oder Fotos spezialisiert hat. Obwohl es sich um eine ausgereifte Technologie handelt, gibt es noch keine OCR-Produkte, die alle Textarten mit hundertprozentiger Genauigkeit erkennen können. Von den von uns getesteten Produkten erzielten nur wenige zufriedenstellende Ergebnisse in unserem Testdatensatz.
Unternehmen nutzen OCR-Tools, um Texte und deren Positionen in Bildern zu identifizieren, Geschäftsdokumente thematisch zu klassifizieren oder Schlüssel-Wert-Paare innerhalb von Dokumenten zu ermitteln. Auf Basis der OCR-Ergebnisse entwickeln andere Technologieunternehmen Anwendungen wie die Dokumentenautomatisierung . Für all diese Anwendungsfälle ist eine präzise Texterkennung für ein OCR-Produkt unerlässlich.
Kommentare 8
Teilen Sie Ihre Gedanken
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.
Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?
Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.
Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.
Hi there, thank you for the detailed comment, we are updating the article to include these details.
Hello, great work! Just curious, did you use a trained Tesseract when making these testing?
Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.
The graph images are not working for me at the moment. Otherwise great
Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.
Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html
Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.
What version of Tesseract did you test with? They recently released v5.
Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.
This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.
Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.
interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!
Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.