Dienstleistungen
Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Benchmark für Beleg-OCR mit LLMs

Cem Dilmegani
Cem Dilmegani
aktualisiert am Jan 23, 2026
Siehe unsere ethischen Normen

Die Datenextraktion aus Belegen ist für Unternehmen unerlässlich, da Millionen von Angestellten ihre berufsbedingten Ausgaben per Beleg einreichen. Dank der jüngsten Entwicklungen im Bereich der generativen KI und großer Sprachmodelle hat die Genauigkeit der Datenextraktion ein Niveau erreicht, das mit dem des Menschen vergleichbar ist.

Wir evaluierten die Genauigkeit der Datenextraktion von LLMs anhand von Belegbildern niedriger und hoher Qualität mithilfe von Claude 3.5 Sonnet, um deren Fähigkeiten zur Datenextraktion auf Belegen zu bewerten. Die Ergebnisse zeigen eine hohe Genauigkeit im OCR-Test für Belege mit einer durchschnittlichen Erfolgsquote von 97 %.

Benchmark-Ergebnisse für die Beleg-OCR

Abbildung 1: Ergebnisse der Genauigkeit der Datenextraktion.

Datensatz

Wir haben unseren Datensatz in zwei Teile aufgeteilt:

  • Hohe Qualität: Eingescannte, hochauflösende Belege. Die Bilder sind gut ausgerichtet und weisen einen hohen Kontrast auf. 1

  • Geringe Qualität: Fotografiert, geringe Qualität

    Belege. Diese Bilder sind nicht richtig ausgerichtet, es wurde keine Vorverarbeitung durchgeführt, um sie zu korrigieren.

    höherer Kontrast. 2

Abbildung 2: Beispiele aus einem qualitativ hochwertigen Datensatz und einem Datensatz mit niedriger Qualität.

Unser Ziel ist es, möglichst viele Fälle aus dem realen Leben abzudecken.

Wir haben um eine JSON-Ausgabe gebeten, um die Auswertung zu vereinfachen. Unsere Aufforderung lautet: Bitte geben Sie den Text der PDFs in einem korrekten JSON-Format aus.

Lesen Sie bei Interesse auch den Benchmark für Rechnungs-OCR .

Methodik

Die Ergebnisse wurden auf Ebene der Schlüssel-Wert-Paare ausgewertet:

  • Wenn ein Feld die korrekte Bezeichnung und den korrekten Wert enthält, wird es als korrekt markiert.

  • Wenn es Abweichungen zwischen den Zeichen in der Bezeichnung oder im Wert und den tatsächlichen Werten gibt, wird die entsprechende Zeile als falsch markiert.

Extraktionsgenauigkeit: Anzahl der korrekt extrahierten Schlüssel-Wert-Paare geteilt durch die Gesamtzahl der Schlüssel-Wert-Paare.

Was ist Beleg-OCR?

Die Beleg-OCR (Optical Character Recognition) ist eine Technologie, die mithilfe von künstlicher Intelligenz und Algorithmen des maschinellen Lernens Daten aus gescannten und digitalen Belegen extrahiert. Die Beleg-OCR analysiert die Daten, wandelt sie in ein strukturiertes Format um und erfasst Details des Belegs wie Datum, Artikel und Preise.

Bewährte Methoden zur Datenextraktion aus Belegen

Um die Genauigkeit der OCR zu erhöhen, sollten die Bilder wie folgt beschaffen sein:

  • In höherer Auflösung

  • Gut ausgerichtet

  • frei von Druckfehlern

Sie sollten Folgendes beachten:

Die meisten OCR-Tools für Kassenbons scheitern daran, den richtigen Artikel dem richtigen Preis zuzuordnen, wenn in der nächsten Zeile eine Notiz zu diesem Artikel ohne Preisangabe steht. In diesem Fall lesen die Tools häufig den Preis des nächsten Artikels als den Preis der Notiz. Zur Verdeutlichung betrachten wir folgendes Beispiel:

Abbildung 3: Ein häufiger Fehler von OCR-Tools für Kassenbons.

In solchen Fällen kann die OCR-Ausgabe fälschlicherweise „SpcyDlx +PJ“ mit dem Preis 0,40 anzeigen. Dies ist insbesondere dann möglich, wenn die Bildauflösung und -qualität gering ist und das Bild nicht gerade ausgerichtet ist.

Wir haben festgestellt, dass bei niedriger Auflösung oder Druckfehlern (z. B. unvollständiger Tintenauftrag) die Erkennung ähnlicher Buchstaben und Zahlen, wie etwa „8“ und „9“ oder „5“ und „6“, Schwierigkeiten bereitet. Auch die Unterscheidung von „/“ und „1“ ist ein häufiges Problem, insbesondere bei Datumsangaben.

Datenarten, die aus Belegen extrahiert werden können

  • Belegnummer

  • Datum

  • Name des Anbieters

  • Zwischensumme

  • Steuerbetrag

  • Gesamtbetrag

  • Gekaufte Artikel

Eine Schritt-für-Schritt-Anleitung zur Datenextraktion von Kassenbons:

  • Belegscanning: Der Beleg wird in hoher Auflösung eingescannt. Die OCR- Belegscanning-Technologie liefert qualitativ hochwertigere Bilder als das Fotografieren der Belege.

  • Belegverarbeitung: Um den Kontrast und die Lesbarkeit des Eingangsbildes zu verbessern, kann eine Verarbeitung der Belege erforderlich sein.

  • Beleganalyse: Die Analyse des Belegbildes ist für die Datenanalyse und -erfassung unerlässlich; sie zerlegt die Daten in besser organisierte Abschnitte.

  • Strukturierte Daten: Strukturierte Daten können zur Automatisierung der Dateneingabe in bestehenden Systemen wie Buchhaltungssoftware verwendet werden. Relevante Daten lassen sich in vielen Fällen nutzen, beispielsweise zur Nachverfolgung von Transaktionsdaten in Finanzunterlagen und im Spesenmanagement. Durch die automatische Datenextraktion aus Belegen mithilfe von LLMs oder OCR-APIs für Belege können Fehler und manuelle Eingaben reduziert und die Gesamteffizienz bei gleichzeitig hoher Genauigkeit gesteigert werden.

Sie können sich auch unseren Handschrift-OCR-Benchmark ansehen.

FAQs

OCR-Technologie unterstützt die Kostenverfolgung und die Identifizierung von Ausgabenmustern. Die Positionen in der JSON-Antwort liefern wichtige Informationen und sparen Zeit, indem sie den Rohtext automatisch aus Dokumenten und Rechnungen extrahieren. Unternehmen können die OCR-Engine an ihre Projektanforderungen anpassen. So lassen sich beispielsweise Geschäftsnummern aus verschiedenen Ländern, wie die australische Geschäftsnummer und die Umsatzsteuer-Identifikationsnummer, aus Belegen extrahieren.

Cem Dilmegani
Cem Dilmegani
Leitender Analyst
Cem ist seit 2017 leitender Analyst bei AIMultiple. AIMultiple informiert monatlich Hunderttausende von Unternehmen (laut similarWeb), darunter 55 % der Fortune 500. Cems Arbeit wurde von führenden globalen Publikationen wie Business Insider, Forbes und der Washington Post, von globalen Unternehmen wie Deloitte und HPE sowie von NGOs wie dem Weltwirtschaftsforum und supranationalen Organisationen wie der Europäischen Kommission zitiert. Weitere namhafte Unternehmen und Ressourcen, die AIMultiple referenziert haben, finden Sie hier. Im Laufe seiner Karriere war Cem als Technologieberater, Technologieeinkäufer und Technologieunternehmer tätig. Über ein Jahrzehnt lang beriet er Unternehmen bei McKinsey & Company und Altman Solon in ihren Technologieentscheidungen. Er veröffentlichte außerdem einen McKinsey-Bericht zur Digitalisierung. Bei einem Telekommunikationsunternehmen leitete er die Technologiestrategie und -beschaffung und berichtete direkt an den CEO. Darüber hinaus verantwortete er das kommerzielle Wachstum des Deep-Tech-Unternehmens Hypatos, das innerhalb von zwei Jahren von null auf einen siebenstelligen jährlichen wiederkehrenden Umsatz und eine neunstellige Unternehmensbewertung kam. Cems Arbeit bei Hypatos wurde von führenden Technologiepublikationen wie TechCrunch und Business Insider gewürdigt. Er ist ein gefragter Redner auf internationalen Technologiekonferenzen. Cem absolvierte sein Studium der Informatik an der Bogazici-Universität und besitzt einen MBA der Columbia Business School.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450