Kontaktieren Sie uns
Keine Ergebnisse gefunden.

Die 3 besten Generatoren für synthetische Dokumente im Vergleich

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
aktualisiert am Mär 18, 2026
Siehe unsere ethischen Normen

Synthetische Dokumentengeneratoren erzeugen annotierte, realistische Dokumentenbilder, die beim Trainieren und Evaluieren von Modellen des maschinellen Lernens helfen, ohne auf große, manuell annotierte Datensätze angewiesen zu sein.

Wir haben drei Generatoren für synthetische Dokumente, Genalog, DocCreator und Tonic Textual, anhand der Erstellung von mehr als 2.500 synthetischen Dokumenten verglichen und ihre Effektivität in Bezug auf realistische Layouts, genaue numerische Daten und Trainingsdatensätze für Aufgaben der Dokumentenanalyse verglichen.

Ergebnisse des Benchmarks zur Dokumentengenerierung

Loading Chart

Die Ergebnisse zeigen, dass

  • Genalog und DocCreator bieten eine starke Leistung in Bezug auf Nützlichkeit und Genauigkeit, wobei Genalog bei der numerischen Genauigkeit etwas besser abschneidet.
  • Tonic Textual zeichnet sich durch seine realistische visuelle Gestaltung aus, hinkt aber in anderen Bereichen hinterher und eignet sich daher eher für Aufgaben, die realistische Dokumente erfordern.

Weitere Informationen zu den Kennzahlen finden Sie in der Beschreibung der Benchmark-Methodik.

  • Der Nutzen misst, wie gut Modelle, die mit synthetischen Daten trainiert wurden, bei der Anwendung auf reale Dokumente abschneiden.
  • Die Layouttreue misst, wie gut die räumliche Anordnung von Elementen in synthetischen Dokumenten mit der realen Anordnung übereinstimmt.
  • Numerische Genauigkeitsprüfungen überprüfen, ob numerische Werte in synthetischen Dokumenten den realen Daten ähneln.

Kommentar zu den Ergebnissen: Um die Leistungsunterschiede besser zu verstehen, wurde der Benchmark auch mit dem Trainingsdatensatz anstelle des separaten Testdatensatzes durchgeführt. Diese zusätzliche Evaluierung zielte darauf ab, festzustellen, ob die Bereitstellung von Trainingsmaterial die Fähigkeit der Modelle verbessert, strukturierte und numerisch genaue Ergebnisse zu liefern.

Die Ergebnisse zeigen, dass die Modelle selbst bei der Auswertung anhand der Trainingsdaten etwas höhere Werte erzielten. Dies deutet darauf hin, dass die Ergebnisse die Leistungsfähigkeit der Werkzeuge bei der eigentlichen Aufgabe widerspiegeln. Die moderaten Ergebnisse sind wahrscheinlich eher auf Einschränkungen der OCR- Qualität und der Kapazität des trainierten Modells als auf das Benchmarking-Verfahren selbst zurückzuführen.

Stammbaum

Genalog erzielte insgesamt die besten Ergebnisse. Die synthetischen Dokumente eigneten sich hervorragend für das Modelltraining und boten ein ausgewogenes Verhältnis zwischen realistischem Layout und numerischer Genauigkeit. Die generierten Dokumente spiegelten Struktur und Abstände realer Formulare und Belege präzise wider und eigneten sich daher für vielfältige Dokumentenanalyseaufgaben.

DocCreator

DocCreator lieferte ebenfalls qualitativ hochwertige Ergebnisse. Die von diesem Dokumentengenerator erzeugten Dokumente waren für Schulungszwecke nahezu genauso gut geeignet wie die von Genalog. Die Layouts wirkten realistisch, und die synthetischen Dokumente bewahrten die statistischen Eigenschaften der Zahlen. Die Stärke von DocCreator liegt in der Kombination verschiedener Layoutgenerierungsmethoden mit seinen Degradationsmodellen, wodurch die Ergebnisse visuell gescannten realen Dokumenten sehr ähnlich sehen.

Tonic Textual

Tonic Textual lieferte gemischte Ergebnisse. Obwohl dieser Generator synthetischer Dokumente sehr saubere und konsistente Layouts erzeugte, eigneten sich die Dokumente weniger gut zum Trainieren von Modellen. Zudem waren die synthetischen Daten nicht immer statistisch vergleichbar mit realen Daten. Dies deutet darauf hin, dass Tonic Textual am besten für Aufgaben geeignet ist, die sich auf das Erscheinungsbild von Dokumenten oder den datenschutzkonformen Ersatz personenbezogener Daten konzentrieren, anstatt für umfassendes Training von Layoutstrukturen und Informationsextraktion.

Im März 2026 stellte Tonic Textual seine Komponente zur Entitätsverknüpfung von einem LLM-basierten Modell auf ein BERT-basiertes Modell um, um den Durchsatz zu verbessern. 1 Mit derselben Version (v391) wurden auch verbesserte Filter- und Sortierfunktionen auf der Seite „Datensätze“ hinzugefügt. 2

Gesamteinblick

Genalog ist das am besten ausbalancierte Tool, das sowohl realistische Layouts als auch genaue Zahlen liefert.

DocCreator eignet sich hervorragend für komplexe und vielfältige Layouts sowie für Dokumente mit Qualitätsverlust, wobei kleinere numerische Ungenauigkeiten auftreten können.

Tonic Textual eignet sich ideal für layoutorientierte Aufgaben, jedoch nicht für Aufgaben, die präzise numerische Daten erfordern.

Methodenübersicht

Bewertungskriterien

Jeder generierte Datensatz wurde anhand der Originaldaten mithilfe der folgenden Metriken bewertet:

Nutzenwert

(KIE F1-Score): Ein Wert zwischen 0 und 1, wobei ein höherer Wert besser ist . Er wird durch den F1-Score des mit synthetischen Daten trainierten LayoutLMv3-Modells bei der Evaluierung mit realen Testdaten definiert. Ein hoher Wert zeigt an, dass die synthetischen Daten ein sehr effektiver Ersatz für reale Daten sind.

Treuewerte

Diese Kennzahlen messen, wie stark die synthetischen Dokumente den echten ähneln.

  • Layouttreue (EMD-Wert): Die Earth Mover's Distance (dEMD) misst den Unterschied zwischen der Verteilung der Mittelpunkte von Begrenzungsrahmen in realen und synthetischen Dokumenten. Der Wert liegt zwischen 0 und 1, wobei niedrigere Werte eine bessere Qualität bedeuten . Ein niedriger Wert signalisiert, dass die räumlichen Layoutelemente gut erhalten sind.
  • Numerische Genauigkeit (KS-Distanz): Die Kolmogorov-Smirnov-Distanz (DKS) misst die maximale Differenz zwischen den kumulativen Verteilungsfunktionen (CDFs) numerischer Werte (z. B. Preise, Mengen) in realen und synthetischen Daten. Sie liegt zwischen 0 und 1, wobei niedrigere Werte eine bessere Genauigkeit bedeuten . Ein niedriger Wert bedeutet, dass der Generator die statistischen Eigenschaften der Zahlen präzise wiedergibt.

Alle Kennzahlen wurden während der Berechnung normalisiert.

Datensätze

FUNSD : Eine Sammlung von 199 gescannten Formularen mit unleserlichem Text, komplexen und vielfältigen Layouts sowie handschriftlichen Anmerkungen. Sie wurde im letzten Monat über 1.500 Mal heruntergeladen. Dies testet die Fähigkeit eines Generators, unstrukturierte und fehlerhafte Daten zu verarbeiten. 3

  • Wir teilen die Stichprobe in zwei Teile: 80 % der Daten werden zum Trainieren des Modells verwendet, während die restlichen 20 % für das Testen nach dem Training reserviert sind.
  • Jedes Tool erzeugte zwischen drei und sechs synthetische Dokumente pro Original, was insgesamt mehr als 2.500 synthetische Dokumente ergab.

Aufgabenbewertung

Zur Messung des Nutzens wurde ein beliebtes LayoutLMv3-Modell mit 22.000 GitHub-Sternen und über 750.000 Downloads anhand der von jedem synthetischen Dokumentengenerator erzeugten synthetischen Daten trainiert. 4

Die Leistungsfähigkeit dieses Modells wurde anschließend anhand eines separaten Testdatensatzes mit realen Dokumenten aus den ursprünglichen Datensätzen evaluiert. Dies misst direkt, wie nützlich die synthetischen Daten für eine reale Aufgabe sind.

Synthetische Generierungswerkzeuge

Stammbaum

Eine Open-Source-Python-Bibliothek von Microsoft zur Generierung synthetischer Dokumentenbilder mit synthetischem Rauschen. Sie funktioniert, indem sie Text- und Layoutvorlagen (geschrieben in HTML und CSS) entgegennimmt, diese mit WeasyPrint rendert und anschließend Effekte zur Bildverschlechterung (Weichzeichnen, Durchscheinen, Salz-und-Pfeffer-Rauschen, morphologische Operationen) anwendet. 5

DocCreator

Ein plattformübergreifendes Open-Source-Tool zur Generierung synthetischer Dokumentenbilder mit zugehörigen Referenzdaten. Es findet breite Anwendung in der Forschung zur Dokumentenbildanalyse und -erkennung (DIAR). 6 , 7

Tonic Textual

Eine Lösung zur Schwärzung und Synthese in gängigen Dokumentformaten (PDF, Word). Sie soll unstrukturierte Dokumente scannen, benannte Entitäten (z. B. personenbezogene Daten) identifizieren, diese schwärzen oder durch synthetische Werte ersetzen und anonymisierte Dokumente in ähnlichen Formaten ausgeben.

8 Methoden zur Degradierung synthetischer Dokumente

Die Generierung synthetischer Dokumente beinhaltet häufig das Hinzufügen realistischer Fehler, um künstliche Daten realen Dokumenten anzugleichen. Diese Fehler, auch Degradationsmodelle genannt, helfen dabei, Modelle zu trainieren, die bei verrauschten, gealterten oder gescannten Dokumenten besser funktionieren. Diese Werkzeuge wenden verschiedene physikalische und visuelle Transformationen an, um gängige Dokumentfehler zu simulieren. 8

1. Tintenabbau

Dieses Modell simuliert Verblassen, Flecken oder Streifen, die durch Alterung oder minderwertigen Druck verursacht werden. Es fügt kleine Tintenflecken hinzu oder entfernt Teile von Buchstaben, um den tatsächlichen Tintenverschleiß nachzuahmen.

2. Phantomcharaktere

Alte Druckwerkzeuge hinterließen oft schwache Umrisse oder „Geisterlinien“ um die Buchstaben herum. Das Phantomzeichenmodell bildet diese nach, indem es aus realen Scans extrahierte Defekte zwischen die gedruckten Zeichen einfügt.

3. Papierlöcher

Auf Dokumente werden nach dem Zufallsprinzip Löcher unterschiedlicher Formen und Größen aufgebracht, um Risse oder Lochspuren auf abgenutztem Papier nachzubilden.

4. Durchbluten

Dieser Effekt ahmt das Durchsickern von Tinte von der Rückseite des Papiers nach. Dabei werden Vorder- und Rückseitenbilder eines Dokuments verwendet, um den teilweisen Durchtritt der Tinte durch das Papier zu simulieren.

5. Adaptive Unschärfe

Das Scannen oder Fotografieren von Dokumenten führt oft zu einer leichten Unschärfe. Dieses Modell vergleicht reale, unscharfe Beispiele und wendet mithilfe von Gaußschen Filtern eine ähnliche Unschärfe an, wodurch das Ergebnis subtil und realistisch wirkt.

6. 3D-Papierverformung

Dokumente können sich beim Scannen oder Fotografieren verbiegen, falten oder krümmen. Mithilfe von 3D-Modellen realer Papiere bildet dieses Modell diese Formen und Lichteffekte nach und hilft so beim Training von Modellen für die kamerabasierte Dokumentenanalyse.

7. Nichtlineare Beleuchtung

Ungleichmäßige Beleuchtung beim Scannen kann dazu führen, dass eine Seite eines Dokuments dunkler erscheint. Dieses Modell passt die Helligkeit anhand simulierter Lichtwinkel und der Papierkrümmung an und bildet so den Effekt schlechter Beleuchtung nach.

8. Salz-und-Pfeffer-Geräusch

Fügt zufällige schwarze und weiße Pixel hinzu, um Staub, Papierstruktur oder Scanrauschen zu simulieren. Dieser „Salz-und-Pfeffer“-Effekt trägt dazu bei, das körnige Aussehen gealterter oder qualitativ minderwertiger digitaler Scans zu erzeugen.

Synthetische Dokumentengenerierung als Lösung für Herausforderungen der Layoutanalyse

Die Herausforderung der Layoutanalyse

Die Struktur von Dokumenten zu verstehen ist schwieriger als den Text zu lesen. OCR- Tools können zwar Wörter extrahieren, erklären aber nicht die Funktion der einzelnen Abschnitte, wie z. B. Überschriften, Tabellen oder Abbildungen.

Um dieser Herausforderung zu begegnen, wurden Methoden entwickelt:

Frühe Methoden der Layoutanalyse waren regelbasiert. Sie nutzten geometrische Regeln und Texturanalysen, um Seiten in Blöcke zu unterteilen. Obwohl diese Ansätze nützlich waren, erforderten sie einen hohen manuellen Aufwand und ließen sich nicht gut verallgemeinern.

Maschinelle Lernverfahren wie Support Vector Machines (SVMs) und Gaussian Mixture Models (GMMs) haben dies durch das Lernen aus Daten verbessert. 9 Allerdings waren sie weiterhin auf handgefertigte Funktionen angewiesen und hatten mit der Vielfalt realer Dokumente zu kämpfen.

Deep Learning hat das Gebiet revolutioniert. Convolutional Neural Networks (CNNs) ermöglichten es, Layouterkennung wie Objekterkennung zu behandeln und Tabellen, Abbildungen oder Formeln auf die gleiche Weise zu identifizieren, wie Modelle Objekte in natürlichen Bildern erkennen. 10 Einige Modelle kombinieren auch Text- und Bildfunktionen, um genauere Ergebnisse zu erzielen.

Die Herausforderung des Deep Learning : Man benötigt große, gelabelte Datensätze zum Trainieren.

Synthetische Daten als Lösung: Der Prozess der Generierung synthetischer Dokumente bietet eine skalierbare Möglichkeit, annotierte Trainingsdaten ohne die Kosten einer manuellen Kennzeichnung zu erstellen.

Generative Modelle eröffnen nun fortschrittlichere Möglichkeiten. Variationelle Autoencoder (VAEs), aufmerksamkeitsbasierte Modelle und GANs können Strukturmuster von Dokumenten lernen und realistische neue Layouts erzeugen. 11

Wesentliche Unterschiede zwischen Generatoren für synthetische Dokumente

Die drei getesteten Generatoren für synthetische Dokumente unterscheiden sich hinsichtlich ihres Fokus, der Ausgabequalität und der Benutzerfreundlichkeit:

  • Genalog: Optimale Balance zwischen realistischem Layout und numerischer Genauigkeit. Der Python-basierte Workflow mit HTML/CSS-Vorlagen und Degradationsmodellen macht es ideal für das Training von Machine-Learning-Modellen für vielfältige Dokumentenanalyseaufgaben.
  • DocCreator: Stark in der Erstellung visuell komplexer und fehlerhafter Dokumente unter Beibehaltung der Layoutvielfalt. Numerisch etwas weniger genau als Genalog, aber effektiv für Aufgaben, die eine realistische Simulation gescannter Dokumente erfordern.
  • Tonic Textual: Eignet sich durch übersichtliche, visuell konsistente Layouts und datenschutzkonforme Datensynthese aus. Weniger geeignet für numerische Genauigkeit oder vollständige Trainingsdatensätze, daher besser geeignet für layoutorientierte Aufgaben oder den Ersatz personenbezogener Daten.

Diese Unterschiede spiegeln ihre jeweiligen Schwerpunkte wider: Genalog legt Wert auf ein ausgewogenes Verhältnis zwischen Realismus und Datentreue, DocCreator betont Layoutvielfalt und die Vermeidung von Dokumentenbeeinträchtigungen, und Tonic Textual priorisiert Erscheinungsbild und Datenschutz. Dies hilft Nutzern, das passende Tool auszuwählen, je nachdem, ob die Priorität auf Trainingseffektivität, realistischem Layout oder der Anonymisierung von Daten liegt.

Andere häufig verwendete Generatoren für synthetische Dokumente

YData SDK : Bietet einen Generator für synthetische Dokumente, der in der Lage ist, qualitativ hochwertige synthetische Dokumente in den Formaten PDF, DOCX oder HTML zu erzeugen, die häufig verwendet werden, um Hürden der Einhaltung von Datenschutzbestimmungen zu umgehen. 12

DoGe : Ein Open-Source-Tool, das speziell für die Synthese realistischer Dokumentenscans mit aussagekräftigem Text, Überschriften und Tabellen für das Training von Document AI entwickelt wurde. 13

DocXPand : Spezialisiert auf die Erstellung von Ausweisdokumenten (Pässe, Personalausweise) auf Basis von ISO-Standards, das Ausfüllen von Vorlagen mit gefälschten Informationen und KI-generierten Gesichtern. 14

Weiterführende Literatur

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Branchenanalyst
Ezgi besitzt einen Doktortitel in Betriebswirtschaftslehre mit Schwerpunkt Finanzen und arbeitet als Branchenanalystin bei AIMultiple. Sie treibt Forschung und Erkenntnisse an der Schnittstelle von Technologie und Wirtschaft voran und verfügt über Expertise in den Bereichen Nachhaltigkeit, Umfrage- und Stimmungsanalyse, KI-Agentenanwendungen im Finanzwesen, Optimierung von Antwortsystemen, Firewall-Management und Beschaffungstechnologien.
Vollständiges Profil anzeigen

Seien Sie der Erste, der kommentiert

Ihre E-Mail-Adresse wird nicht veröffentlicht. Alle Felder sind erforderlich.

0/450