Die Datenextraktion aus Belegen ist für Unternehmen unerlässlich, da Millionen von Angestellten ihre berufsbedingten Ausgaben per Beleg einreichen. Dank der jüngsten Entwicklungen im Bereich der generativen KI und großer Sprachmodelle hat die Genauigkeit der Datenextraktion ein Niveau erreicht, das mit dem des Menschen vergleichbar ist.
Wir evaluierten die Genauigkeit der Datenextraktion von LLMs anhand von Belegbildern niedriger und hoher Qualität mithilfe von Claude 3.5 Sonnet, um deren Fähigkeiten zur Datenextraktion auf Belegen zu bewerten. Die Ergebnisse zeigen eine hohe Genauigkeit im OCR-Test für Belege mit einer durchschnittlichen Erfolgsquote von 97 %.
Benchmark-Ergebnisse für die Beleg-OCR
Datensatz
Wir haben unseren Datensatz in zwei Teile aufgeteilt:
Hohe Qualität: Eingescannte, hochauflösende Belege. Die Bilder sind gut ausgerichtet und weisen einen hohen Kontrast auf. 1
Geringe Qualität: Fotografiert, geringe Qualität
Belege. Diese Bilder sind nicht richtig ausgerichtet, es wurde keine Vorverarbeitung durchgeführt, um sie zu korrigieren.höherer Kontrast. 2
Unser Ziel ist es, möglichst viele Fälle aus dem realen Leben abzudecken.
Wir haben um eine JSON-Ausgabe gebeten, um die Auswertung zu vereinfachen. Unsere Aufforderung lautet: Bitte geben Sie den Text der PDFs in einem korrekten JSON-Format aus.
Lesen Sie bei Interesse auch den Benchmark für Rechnungs-OCR .
Methodik
Die Ergebnisse wurden auf Ebene der Schlüssel-Wert-Paare ausgewertet:
Wenn ein Feld die korrekte Bezeichnung und den korrekten Wert enthält, wird es als korrekt markiert.
Wenn es Abweichungen zwischen den Zeichen in der Bezeichnung oder im Wert und den tatsächlichen Werten gibt, wird die entsprechende Zeile als falsch markiert.
Extraktionsgenauigkeit: Anzahl der korrekt extrahierten Schlüssel-Wert-Paare geteilt durch die Gesamtzahl der Schlüssel-Wert-Paare.
Was ist Beleg-OCR?
Die Beleg-OCR (Optical Character Recognition) ist eine Technologie, die mithilfe von künstlicher Intelligenz und Algorithmen des maschinellen Lernens Daten aus gescannten und digitalen Belegen extrahiert. Die Beleg-OCR analysiert die Daten, wandelt sie in ein strukturiertes Format um und erfasst Details des Belegs wie Datum, Artikel und Preise.
Bewährte Methoden zur Datenextraktion aus Belegen
Um die Genauigkeit der OCR zu erhöhen, sollten die Bilder wie folgt beschaffen sein:
In höherer Auflösung
Gut ausgerichtet
frei von Druckfehlern
Sie sollten Folgendes beachten:
Die meisten OCR-Tools für Kassenbons scheitern daran, den richtigen Artikel dem richtigen Preis zuzuordnen, wenn in der nächsten Zeile eine Notiz zu diesem Artikel ohne Preisangabe steht. In diesem Fall lesen die Tools häufig den Preis des nächsten Artikels als den Preis der Notiz. Zur Verdeutlichung betrachten wir folgendes Beispiel:
In solchen Fällen kann die OCR-Ausgabe fälschlicherweise „SpcyDlx +PJ“ mit dem Preis 0,40 anzeigen. Dies ist insbesondere dann möglich, wenn die Bildauflösung und -qualität gering ist und das Bild nicht gerade ausgerichtet ist.
Wir haben festgestellt, dass bei niedriger Auflösung oder Druckfehlern (z. B. unvollständiger Tintenauftrag) die Erkennung ähnlicher Buchstaben und Zahlen, wie etwa „8“ und „9“ oder „5“ und „6“, Schwierigkeiten bereitet. Auch die Unterscheidung von „/“ und „1“ ist ein häufiges Problem, insbesondere bei Datumsangaben.
Datenarten, die aus Belegen extrahiert werden können
Belegnummer
Datum
Name des Anbieters
Zwischensumme
Steuerbetrag
Gesamtbetrag
Gekaufte Artikel
Eine Schritt-für-Schritt-Anleitung zur Datenextraktion von Kassenbons:
Belegscanning: Der Beleg wird in hoher Auflösung eingescannt. Die OCR- Belegscanning-Technologie liefert qualitativ hochwertigere Bilder als das Fotografieren der Belege.
Belegverarbeitung: Um den Kontrast und die Lesbarkeit des Eingangsbildes zu verbessern, kann eine Verarbeitung der Belege erforderlich sein.
Beleganalyse: Die Analyse des Belegbildes ist für die Datenanalyse und -erfassung unerlässlich; sie zerlegt die Daten in besser organisierte Abschnitte.
Strukturierte Daten: Strukturierte Daten können zur Automatisierung der Dateneingabe in bestehenden Systemen wie Buchhaltungssoftware verwendet werden. Relevante Daten lassen sich in vielen Fällen nutzen, beispielsweise zur Nachverfolgung von Transaktionsdaten in Finanzunterlagen und im Spesenmanagement. Durch die automatische Datenextraktion aus Belegen mithilfe von LLMs oder OCR-APIs für Belege können Fehler und manuelle Eingaben reduziert und die Gesamteffizienz bei gleichzeitig hoher Genauigkeit gesteigert werden.
Sie können sich auch unseren Handschrift-OCR-Benchmark ansehen.
FAQs
OCR-Technologie unterstützt die Kostenverfolgung und die Identifizierung von Ausgabenmustern. Die Positionen in der JSON-Antwort liefern wichtige Informationen und sparen Zeit, indem sie den Rohtext automatisch aus Dokumenten und Rechnungen extrahieren. Unternehmen können die OCR-Engine an ihre Projektanforderungen anpassen. So lassen sich beispielsweise Geschäftsnummern aus verschiedenen Ländern, wie die australische Geschäftsnummer und die Umsatzsteuer-Identifikationsnummer, aus Belegen extrahieren.
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.