Agentic Document Extraction (ADE) ist eine spezielle Form der optischen Zeichenerkennung (OCR), die Daten aus verschiedenen Dateitypen extrahiert. Sie kombiniert Dokumentenverarbeitung, Datenabruf, strukturierte Ausgabegenerierung und Automatisierung, um Wissensarbeit zu optimieren.
ADE unterscheidet sich von herkömmlicher OCR durch seine Fähigkeit, komplexe Dokumentstrukturen wie Tabellen, Flussdiagramme und Bilder zu erkennen. Dadurch ist es fortschrittlicher als herkömmliche Methoden der Dokumentenverarbeitung (IDP) und der abrufgestützten Generierung (RAG).
Wir testen die Top 5 der agentenbasierten Dokumentenextraktionswerkzeuge anhand von 60 Bildern und messen ihre Leistung mit einem Gesamtscore, der 3 Metriken umfasst.
Benchmark-Ergebnisse der agentenbasierten Dokumentenextraktion
Unser Benchmark ergab, dass LandingAI das leistungsfähigste Tool für die agentenbasierte Dokumentenextraktion ist und 69 von 100 Punkten erreicht.
Die standardmäßige agentenbasierte Dokumentenextraktion von Docsumo bietet kein Werkzeug zur Flussdiagrammextraktion. Das Produkt kann zwar für verschiedene Dokumentenextraktionsprozesse trainiert werden; unser Benchmark basiert jedoch auf Standardmodellen. Daher erzielte Docsumo bei der Flussdiagrammextraktion keine Punktgewinne.
Wir haben die Tools anhand von drei Metriken für die Flussdiagrammbewertung und vier Metriken für die Tabellenbewertung evaluiert. Details dazu finden Sie in unserer Benchmark-Methodik zur agentenbasierten Dokumentenextraktion .
Die 5 beliebtesten Tools zur Extraktion agentenbasierter Dokumente
LandingAI
LandingAI hat traditionelle Ansätze hinter sich gelassen und OCR in verschiedenen Bereichen eingesetzt. Ihre Dokumentenverarbeitung beschränkt sich nicht auf eine einzige Art der Datenextraktion. Laut eigenen Angaben kann ihr agentenbasiertes Dokumentenextraktionstool komplexe Bilder extrahieren und bei Bedarf fehlende Informationen ergänzen. Das Tool kann in der LandingAI-Spielwiese oder über API-Aufrufe genutzt werden.
Besonderes Merkmal: Es kann komplizierte und gemischte Daten (Text und Tabelle auf derselben Seite) ohne jegliche Aufforderung extrahieren.
Mistral OCR
Mistral AI hat Mistral OCR eingeführt, um das Verständnis von Dokumenten zu verbessern. Dieses Tool verarbeitet präzise eine Vielzahl von Dokumentelementen, darunter Text, Tabellen und Bilder, und erhält dabei deren Struktur und Hierarchie. Es unterstützt mehrere Formate und liefert die Ergebnisse im Markdown-Format für einfaches Parsen und Darstellen.
Besonderes Merkmal: Es ist explizit für multimodale Retrieval-Augmented Generation (RAG)-Integrationen optimiert und erhält die Dokumentstruktur mit einer Markdown-formatierten Ausgabe, die ideal für nachgelagerte KI-Workflows ist.
Anthropic Claude Sonnet 3.7
Sonnet (Anthropic) ist ein hochmodernes KI-Modell mit hybriden Analysefähigkeiten, das zwischen schnellen Reaktionen und detaillierten, schrittweisen Analysen wechselt. Das Modell kann PDFs mit bis zu 100 Seiten verarbeiten und dabei sowohl Text als auch visuelle Elemente wie Bilder, Diagramme und Grafiken analysieren. Sein erweiterter Denkmodus eignet sich ideal für komplexe Dokumentenanalysen, einschließlich Codierung und mathematischem Denken.
Besonderes Merkmal: Es unterstützt tiefgreifendes hybrides Schließen, das schnelle Analyse mit sorgfältiger schrittweiser Logik kombiniert, was für ein umfassendes Verständnis und die Extraktion von Informationen aus umfangreichen Dokumenten von Vorteil ist.
OpenAI o3-mini
OpenAI ist ein kostengünstiges Reasoning-Modell, das für seine Fähigkeit bekannt ist, Aufgaben zu bewältigen, die schrittweises Problemlösen erfordern, wie z. B. Codierung und mathematisches Denken. Es ermöglicht das Hochladen von Dateien und Bildern, was seine Dokumentenanalysefunktionen erweitert. Benutzer berichten von erfolgreicher optischer Zeichenerkennung (OCR) von PDFs mit o3-mini, was seine Fähigkeit unterstreicht, relevante Abschnitte anhand von Benutzereingaben zu extrahieren.
Besonderes Merkmal: Speziell als kosteneffektives Modell konzipiert, das iteratives, schrittweises Denken betont, ist es besonders effektiv bei strukturierten Datenextraktionsaufgaben, die logische oder rechnerische Arbeitsabläufe beinhalten.
Docsumo
Docsumo bietet eine intelligente Dokumentenverarbeitungsplattform mit über 30 vortrainierten KI-Modellen zur Datenextraktion aus verschiedenen Dokumenten wie Kontoauszügen und Rechnungen. Die Plattform bietet Funktionen wie automatische Klassifizierung, Dokumentenanalyse, Metadatenextraktion und Exportoptionen in den Formaten JSON, CSV und Excel. Darüber hinaus lässt sich Docsumo in Tools wie [Name der Software/Software] und QuickBooks integrieren, was Arbeitsabläufe optimiert und die Effizienz steigert.
Besonderes Merkmal: Es bietet ein spezialisiertes, benutzergesteuertes Training, das die Erstellung von kundenspezifischen KI-Extraktionsmodellen ermöglicht, die speziell auf einzelne Datensätze zugeschnitten sind.
Preisgestaltung
Sie können die Preise der von uns untersuchten Tools einsehen. LLMs arbeiten mit API-basierter Preisgestaltung, bei der verschiedene Faktoren zu berücksichtigen sind, beispielsweise die separate Preisgestaltung für Input und Output . OCR-Tools hingegen verwenden in der Regel ein Pay-as-you-go-Modell pro Seite. Für unsere Preisberechnungen sind wir davon ausgegangen, dass jede Seite etwa 600 Tokens enthält. Diese Umrechnung dient der Sicherstellung einer einheitlichen Preisgestaltung für Sie.
*Docsumo bietet Jahresabonnements an, die monatlich für eine konstante Anzahl von Seiten pro Jahr abgerechnet werden.
ADE-Benchmark-Methodik
Wir haben unseren Datensatz aus Huggingface-Datensätzen mit niedrigen Downloadzahlen zusammengestellt, um sicherzustellen, dass die verwendeten Bilder nicht bereits im Trainingsdatensatz von LLMs enthalten sind. Wir haben 60 Bilder verwendet, von denen 30 Flussdiagramme unterschiedlicher Komplexität darstellen.
Abbildung 1. Ein Beispiel für Flussdiagramme in unserem Datensatz
Die Flussdiagramme wurden als PNG-Bilder in die Tools hochgeladen, die Ausgaben werden als JSON-Dateien erfasst. Zur Leistungsmessung haben wir drei Metriken verwendet:
- Knotengenauigkeit : Misst den Anteil der im extrahierten Text erwähnten Ground-Truth-Knoten (Labels/Aliase). Wenn beispielsweise die Ground Truth 10 Knoten auflistet und das Modell 8 davon erfolgreich referenziert, beträgt die Knotengenauigkeit 0,80 (80 %).
- Kantengenauigkeit: Überprüft, ob der extrahierte Text die Beziehungen zwischen Knoten korrekt identifiziert (z. B. „Knoten A → Knoten B“). Wenn beispielsweise 5 tatsächliche Kanten vorhanden sind und der Text des Modells nur 3 korrekt identifiziert, beträgt die Kantengenauigkeit 3/5 = 0,60 (60 %).
- Entscheidungsgenauigkeit: Dies ist ein ähnliches Konzept wie die Kantengenauigkeit, jedoch für Entscheidungspunkte (z. B. Ja/Nein-Verzweigungen). Wenn es vier Entscheidungspunkte gibt und das Modell alle vier erkennt, beträgt die Entscheidungsgenauigkeit 100 %.
Der Gesamtscore ist der einfache Durchschnitt der Genauigkeiten von Knoten, Kanten und Entscheidungen und liefert ein Gesamtmaß dafür, wie gut der extrahierte Text mit allen Elementen des Flussdiagramms übereinstimmt.
Der zweite Datensatz enthält 30 PNG-Bilder mit Tabellen, die aus verschiedenen Branchendokumenten stammen; die Verarbeitung des Datensatzes ist die gleiche wie bei den Flussdiagrammen.
Abbildung 2. Ein Beispiel für Tabellen in unserem Datensatz
Bei der Bewertung der Leistungsfähigkeit der Tabellenextraktion verwendeten wir vier Schlüsselmetriken, um die Übereinstimmung der extrahierten Daten mit den tatsächlichen Daten zu beurteilen. Diese Metriken bieten detaillierte Einblicke in verschiedene Strukturkomponenten einer Tabelle, von den Tabellentiteln bis hin zu einzelnen Zellen.
- Titelgenauigkeit : Bewertet, ob der extrahierte Titel nach der Normalisierung (z. B. Entfernen von Leerzeichen, Normalisierung der Groß-/Kleinschreibung) mit dem tatsächlichen Titel übereinstimmt. Dies gewährleistet die korrekte Zuordnung der Kontextbezeichnung der Tabelle.
Bewertung: Es handelt sich um eine binäre Metrik ; bei einer exakten Übereinstimmung wird eine Punktzahl von 1 vergeben, andernfalls 0. - Genauigkeit der Spaltenüberschriften : Spaltenüberschriften repräsentieren üblicherweise die Spaltennamen einer Tabelle. Diese Metrik vergleicht die extrahierte Überschriftenliste mit den tatsächlichen Spaltennamen. Sie quantifiziert, wie genau die Spaltenbezeichnungen erfasst wurden, einschließlich ihrer Reihenfolge und Vollständigkeit.
Bewertung: Die Genauigkeit der Überschriften wird berechnet, indem jedes Element in beiden Listen verglichen und das Verhältnis der übereinstimmenden Elemente zur maximalen Anzahl der Elemente in einer der beiden Listen ermittelt wird. - Zeilengenauigkeit : Misst, wie viele der tatsächlichen Zeilen unabhängig von der Reihenfolge in der extrahierten Tabelle enthalten sind. Dies spiegelt die Vollständigkeit der Datenextraktion auf Zeilenebene wider.
Bewertung: Für jede Zeile der Referenzdaten prüft der Evaluator, ob eine exakte Übereinstimmung in den extrahierten Zeilen vorliegt. Die Bewertung entspricht dem Anteil der übereinstimmenden Zeilen in den Referenzdaten . - Zellengenauigkeit : Diese Metrik ermöglicht einen detaillierten Vergleich des Tabelleninhalts durch die Auswertung einzelner Zellenübereinstimmungen. Die Zellengenauigkeit erfasst die Präzision der Datenextraktion auf der detailliertesten Ebene.
Bewertung: Dabei wird die Anzahl übereinstimmender Zellen zwischen den extrahierten und den Referenzzellen gezählt. Zusätzliche oder fehlende Zellen werden als Abweichungen gewertet. Die endgültige Punktzahl ergibt sich aus dem Verhältnis der übereinstimmenden Zellen zur Gesamtzahl der bewerteten Zellen .
Um eine zusammenfassende Kennzahl zu erhalten, berechnen wir den durchschnittlichen Tabellenwert als einfaches arithmetisches Mittel der vier Kennzahlen: Genauigkeit des Titels, Genauigkeit der Überschriften, Genauigkeit der Zeilen und Genauigkeit der Zellen. Dieser Durchschnittswert bietet einen umfassenden Überblick über die Qualität der Tabellenextraktion.
Was ist agentenbasierte Dokumentenextraktion?
Die agentenbasierte Dokumentenextraktion nutzt KI-Agenten, um Dokumente selbstständig und mit minimalem menschlichen Eingriff zu identifizieren, zu interpretieren und spezifische Informationen zu extrahieren. Im Gegensatz zu herkömmlichen Methoden, die oft auf starren Vorlagen oder manueller Verschlagwortung basieren, verwendet die agentenbasierte Extraktion intelligente Systeme, die dynamisch schlussfolgern und sich anpassen können. Dieser Ansatz verbessert die Geschwindigkeit, Genauigkeit und Effizienz der Verarbeitung großer Mengen komplexer Dokumente erheblich.
Einschränkungen der traditionellen OCR
Die traditionelle OCR-Technologie eignet sich gut zum Extrahieren von Text aus strukturierten Dokumenten . Bei der Verarbeitung komplexer, unstrukturierter oder semistrukturierter Dokumente stößt sie jedoch an ihre Grenzen. Häufige Einschränkungen sind Ungenauigkeiten aufgrund unterschiedlicher Schriftarten, Handschrift, schlechter Bildqualität und inkonsistenter Formatierung. Zudemfehlt der traditionellen OCR das Kontextverständnis , was zu Fehlinterpretationen der Daten führen kann. Daher ist oft eine manuelle Überprüfung oder umfangreiche Nachbearbeitung erforderlich, um Fehler zu korrigieren, was den Arbeitsablauf ineffizient macht.
Anwendungsfälle der agentenbasierten Dokumentenextraktion
Die agentenbasierte Dokumentenextraktion (ADE) ist ein relativ neues Konzept, weshalb es bisher nur wenige Anwendungsbeispiele aus der Praxis gibt. Sie birgt jedoch das Potenzial, in verschiedenen Bereichen eingesetzt zu werden. Wir haben vier Beispiele identifiziert, in denen ADE direkt implementiert werden kann, um Prozesse im Vergleich zu herkömmlichen Dokumentenextraktionsmethoden zu optimieren.
1. Finanzdienstleistungen: Automatisierte Rechnungsverarbeitung
Im Finanzsektor verarbeiten Unternehmen täglich eine Vielzahl von Rechnungen. Die Dokumentenextraktion von Agentic automatisiert die Erfassung und Validierung von Rechnungsdaten und gewährleistet so Genauigkeit und die Einhaltung von Compliance-Standards. Diese Automatisierung beschleunigt Zahlungszyklen, verbessert das Cashflow-Management und stärkt die Lieferantenbeziehungen.
2. Gesundheitswesen: Optimierung der Patientenaufnahmeformulare
Gesundheitsdienstleister verwalten zahlreiche Patientenaufnahmeformulare, deren manuelle Bearbeitung zeitaufwändig sein kann. Die agentenbasierte Dokumentenextraktion erfasst Daten aus diesen Formularen, ermöglicht eine effiziente Patientenaufnahme und reduziert den Verwaltungsaufwand. Dies verbessert die Patientenerfahrung und ermöglicht es dem medizinischen Personal, sich stärker auf die Patientenversorgung zu konzentrieren .
3. Kundenservice: Unterstützung durch Dokumentenanalyse
Kundendienstabteilungen bearbeiten häufig Anfragen , die detaillierte Dokumente wie Verträge oder Servicevereinbarungen beinhalten. Die agentenbasierte Dokumentenextraktion ermöglicht die Analyse und Extraktion relevanter Abschnitte aus diesen Dokumenten, sodass Supportmitarbeiter präzise und zeitnah antworten können. Diese Technologie verbessert die Qualität der Antworten und reduziert den Zeitaufwand der Mitarbeiter für die Informationssuche.
4. Versicherung: Bearbeitung handschriftlicher Versicherungsanträge
Versicherungsunternehmen erhalten häufig handschriftliche Schadensmeldungen, deren Bearbeitung einen hohen manuellen Aufwand erfordert. Mithilfe fortschrittlicher Dokumentenextraktionstechnologien lassen sich handschriftliche Texte präzise interpretieren , relevante Daten extrahieren und in digitale Systeme integrieren. Dadurch werden Bearbeitungszeit und Fehlerquote deutlich reduziert. Appian bietet beispielsweise Lösungen zur automatisierten Datenextraktion aus handschriftlichen Versicherungsanträgen, die Arbeitsabläufe optimieren und die Gesamteffizienz steigern.
Neueste Fortschritte bei der agentenbasierten Dokumentenextraktion
LandingAI DPT (Dokumenten-vortrainierter Transformer)
Der neue Document Pre-trained Transformer (DPT-2) von LandingAI stellt eine deutliche Verbesserung der Dokumentenverarbeitungsfähigkeiten dar: 1
- DPT-2 wurde speziell für die präzise Extraktion von Daten aus komplexen Dokumenten entwickelt, wobei der Schwerpunkt auf komplizierten Tabellen liegt, was für Anwendungen im Finanz- und Medizinbereich unerlässlich ist.
- Komplizierte Tabellen ohne Gitternetzlinien, zusammengeführte Zellen und komplexere Layouts gehören zu den problematischen Dokumentelementen, die das aktualisierte System bewältigen kann.
- Laut LandingAI hat ihre ADE-Technologie die Informationssuchzeiten um bis zu 90 % reduziert und Milliarden von Seiten verarbeitet.
- Mit ihrem SDK sind für die Integration lediglich drei Codezeilen erforderlich, was die Implementierung erheblich vereinfacht.
- Zu den neuen Funktionen gehören agentenbasierte Tabellenbeschriftung, verbesserte Bildbeschriftung, intelligentere Layouterkennung und eine erweiterte Chunk-Ontologie, die nun Elemente wie Attestierungen, Ausweise, Logos, Barcodes und QR-Codes identifizieren kann.
Extend's Composer KI-Agent
Composer, ein speziell für die Dokumentenverarbeitung entwickelter KI-Agent, wurde von Extend auf den Markt gebracht. 2 Um ihre Dokumentenverarbeitungsplattform zu verbessern, hat Extend kürzlich 17 Millionen US-Dollar an Finanzmitteln eingeworben. Ihre Lösung kombiniert LLMs mit fortschrittlichen APIs für Entwickler und benutzerfreundlichen Tools für Anwender ohne technische Vorkenntnisse. Sie heben die Funktionen von Composer hervor, darunter:
- Composer optimiert automatisch Dokumentenverarbeitungsschemata, um schnell eine hohe Genauigkeit zu erreichen.
- Während der frühen Beta-Testphase erledigten einige Teams komplexe Dokumentenaufgaben mit einer Genauigkeit von 99 % in weniger als 10 Minuten.
- Composer identifiziert Schwächen im Schema, empfiehlt Korrekturen, führt parallele Tests durch und zeigt Unterschiede und Genauigkeitsverbesserungen anstelle einer manuellen Anpassung der Eingabeaufforderung an.
Bewährte Verfahren für die Implementierung der agentenbasierten Dokumentenextraktion
Bei der Implementierung der Agentic-Dokumentenextraktion ist die effektive Nutzung der API zur Extraktion strukturierter Informationen aus visuell komplexen Dokumenten unerlässlich. Nutzen Sie die integrierten Funktionen Ihrer bevorzugten Tools zur effizienten Fehlerbehandlung, einschließlich automatischer Wiederholungsversuche bei Problemen mit der Ratenbegrenzung und sporadischen HTTP-Fehlern.
Konfigurations- und Sicherheitspraktiken
Die korrekte Konfiguration und der sichere Umgang mit Zugangsdaten sind für eine zuverlässige und sichere API-Nutzung unerlässlich:
- Legen Sie Ihren API-Schlüssel sicher als Umgebungsvariable fest oder speichern Sie ihn in einer .env-Datei.
- Nutzen Sie das Settings-Objekt der Bibliothek für eine optimierte Konfigurationsverwaltung.
- Passen Sie die Konfigurationsoptionen einfach über Umgebungsvariablen oder .env-Dateien an, um Flexibilität und Sicherheit zu erhöhen.
Diese Praktiken schützen sensible Daten und tragen zur Aufrechterhaltung eines reibungslosen Betriebs bei.
Fehlerbehandlung und Optimierung in ADE
Die Agentic-Dokumentenextraktionswerkzeuge bieten leistungsstarke Fehlerbehandlungsfunktionen zur Optimierung von Zuverlässigkeit und Leistung:
- Sie verwalten Ratenbegrenzungen und sporadische HTTP-Fehler automatisch durch integrierte Wiederholungsversuche.
- Sie vermeiden Fehler im Zusammenhang mit Ratenbegrenzungen, indem sie die Richtlinien zur API-Nutzung einhalten.
- Durch die Aufteilung großer PDF-Dokumente in überschaubare Stapel wird die Verarbeitungsgeschwindigkeit und -stabilität effizient verbessert.
Diese Strategien minimieren Ausfallzeiten und gewährleisten optimale Leistung auch unter anspruchsvollen Bedingungen.
FAQs
Die agentenbasierte Dokumentenextraktion ist ein fortschrittlicher Ansatz zur Extraktion strukturierter Daten aus Dokumenten. Sie konzentriert sich nicht nur auf den Textinhalt, sondern auch auf das Verständnis visueller Elemente wie Diagramme, Tabellen, Bilder und Layouts. Im Gegensatz zur herkömmlichen Textextraktion, die Text linear erfasst, berücksichtigt die agentenbasierte Dokumentenextraktion den visuellen Kontext und die visuelle Einbettung, um präzisere Extraktionen zu ermöglichen. Sie interpretiert sowohl den Inhalt als auch das Layout des Originaldokuments, einschließlich Eingabefeldern, Formularfeldern, Begrenzungsrahmen und anderen visuellen Markierungen. Dieser Ansatz eignet sich besonders für die Verarbeitung komplexer Dokumente wie Richtlinien, Finanzberichte und medizinische Formulare, die häufig eine Mischung aus Text und Bildmaterial enthalten. Das agentenbasierte Framework ermöglicht die Extraktion von Schlüsselklauseln, Tabellen, Bildern und Diagrammen und unterstützt Unternehmen so bei der effektiveren Automatisierung ihrer Workflows zur Dokumentenanalyse.
Um die agentenbasierte Dokumentenextraktion in Ihre bestehenden Systeme zu integrieren, können Sie die agentenbasierte Dokumentenextraktions-API nutzen. Diese API ermöglicht die einfache Automatisierung der Datenextraktion aus verschiedenen Dokumenttypen, darunter PDF-Dateien, medizinische Formulare und Finanzberichte. Mit einem API-Schlüssel können Sie die API aufrufen, um Dokumente zu verarbeiten und wertvolle Informationen wie längere Dokumente, Laborergebnisse und Richtliniendokumente zu extrahieren. Die API gibt die extrahierten Daten in einem strukturierten Format, z. B. Markdown, zurück, inklusive Chunk-ID, Formularfeldern und weiteren relevanten Kontextinformationen. Sie unterstützt die gleichzeitige Verarbeitung mehrerer Dokumente und hilft Unternehmen so, ihre Arbeitsabläufe zu optimieren. Ob Kontodaten, Tabellen oder Bilder – die API ist für die Verarbeitung komplexer Dokumentlayouts ausgelegt und passt sich Ihren Bedürfnissen an. Die Integration unterstützt außerdem die Protokollverwaltung, sodass Sie die Leistung und Genauigkeit der Extraktionsprozesse überwachen können.
Die agentenbasierte Dokumentenextraktion bietet zahlreiche Vorteile für längere Dokumente wie Finanzberichte oder Richtlinien. Durch die Nutzung visueller Elemente und das Verständnis des Layouts kann die agentenbasierte Extraktion komplexe, mehrseitige Dokumente präzise analysieren und in strukturierte Daten zerlegen. Dies ist besonders nützlich für extrahierte Daten mit wichtigen Finanzkennzahlen, Tabellen und Diagrammen. Herkömmliche Textextraktionsverfahren stoßen bei diesen Formaten oft an ihre Grenzen, die agentenbasierte Dokumentenextraktion hingegen bewältigt die Feinheiten des visuellen Kontexts und ermöglicht so die gleichzeitige Datenextraktion aus mehreren Dokumenten. Bei der Verarbeitung von Finanzberichten beispielsweise identifiziert das System relevante Schlüsselklauseln und Eingabefelder und gewährleistet so eine präzise Datenextraktion selbst aus Dokumenten mit komplexer Formatierung. Diese hohe Präzision trägt zu einer höheren Genauigkeit bei, reduziert den manuellen Aufwand und beschleunigt Entscheidungsfindung und Workflow-Automatisierung.
Weiterführende Literatur
- Die Preisgestaltung für LLM-Studiengänge verstehen, um den richtigen LLM-Studiengang für Ihr Budget und Ihre Bedürfnisse auszuwählen
- Weitere beliebte LLM-Programme mit Bewertungen, die auf die Bedürfnisse Ihres Unternehmens zugeschnitten sind
- Trainingsdaten für OCR
Seien Sie der Erste, der kommentiert
Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.