Contattaci
Nessun risultato trovato.

I 3 migliori generatori di documenti sintetici a confronto

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
aggiornato il Mar 18, 2026
Guarda il nostro norme etiche

I generatori di documenti sintetici creano immagini di documenti realistiche e annotate che aiutano ad addestrare e valutare i modelli di apprendimento automatico senza dover ricorrere a grandi set di dati etichettati manualmente.

Abbiamo messo a confronto tre generatori di documenti sintetici, Genalog, DocCreator e Tonic Textual, creando oltre 2.500 documenti sintetici e valutandone l'efficacia in termini di layout realistici, dati numerici accurati e set di dati di addestramento per attività di analisi documentale.

Risultati del benchmark per la generazione di documenti

Loading Chart

I risultati mostrano che

  • Genalog e DocCreator offrono prestazioni eccellenti in termini di utilità e fedeltà, con Genalog leggermente superiore per quanto riguarda la precisione numerica.
  • Tonic Textual eccelle nel realismo dell'impaginazione visiva, ma è carente in altri ambiti, risultando quindi più adatto a compiti che richiedono documenti realistici.

Per maggiori informazioni sulle metriche, consultare la metodologia di benchmarking.

  • Misura l'utilità in base alle prestazioni dei modelli addestrati su dati sintetici nell'applicazione a documenti reali.
  • La fedeltà del layout misura quanto bene la disposizione spaziale degli elementi nei documenti sintetici corrisponda a quella reale.
  • La fedeltà numerica verifica se i valori numerici nei documenti sintetici corrispondono ai dati reali.

Commento sui risultati: Per comprendere meglio le differenze di prestazioni, il benchmark è stato condotto anche utilizzando il set di addestramento anziché il set di test separato. Questa valutazione secondaria mirava a determinare se fornire ai modelli materiale di addestramento avrebbe migliorato la loro capacità di riprodurre output strutturati e numericamente accurati.

I risultati mostrano che, anche se valutati sui dati di addestramento , i modelli hanno ottenuto punteggi leggermente superiori. Ciò indica che i risultati riflettono l'efficacia con cui gli strumenti gestiscono il compito in sé. I risultati moderati sono probabilmente influenzati dai limiti della qualità dell'OCR e dalle capacità del modello addestrato, piuttosto che dalla procedura di benchmarking stessa.

Genalog

Genalog ha ottenuto i risultati migliori in assoluto. I suoi documenti sintetici si sono rivelati molto efficaci per l'addestramento del modello e hanno mantenuto un buon equilibrio tra elementi di layout realistici e accuratezza numerica. I documenti generati rispecchiavano fedelmente la struttura e la spaziatura di moduli e ricevute reali, risultando adatti a diverse attività di analisi documentale.

DocCreator

DocCreator ha prodotto anche output di alta qualità. I ​​documenti generati da questo strumento si sono rivelati quasi altrettanto utili per la formazione quanto quelli di Genalog. I layout erano realistici e i documenti sintetici preservavano le proprietà statistiche dei numeri. Il punto di forza di DocCreator risiede nella combinazione di una generazione di layout diversificata con i suoi modelli di degradazione, rendendo gli output visivamente simili a documenti reali scansionati.

Testo tonico

Tonic Textual ha prodotto risultati contrastanti. Sebbene questo generatore di documenti sintetici abbia creato layout molto puliti e coerenti, i documenti si sono rivelati meno efficaci per l'addestramento dei modelli. Inoltre, i dati sintetici non sempre corrispondevano statisticamente ai dati reali. Ciò suggerisce che Tonic Textual è più adatto ad attività incentrate sull'aspetto del documento o sulla sostituzione di dati personali nel rispetto della privacy, piuttosto che all'addestramento completo di modelli per la struttura del layout e l'estrazione di informazioni.

Nel marzo 2026, Tonic Textual ha modificato il suo componente di collegamento delle entità, passando da un modello basato su LLM a un modello basato su BERT, al fine di migliorare la velocità di elaborazione. 1 La stessa versione (v391) ha inoltre introdotto funzionalità di filtraggio e ordinamento migliorate nella pagina dei set di dati. 2

Panoramica generale

Genalog è lo strumento più equilibrato, in grado di fornire sia schemi realistici che numeri precisi.

DocCreator è efficace nella gestione di layout complessi e diversificati e nella correzione del degrado dei documenti, con lievi imprecisioni numeriche.

Tonic Textual è ideale per attività incentrate sul layout, ma non per attività che richiedono dati numerici precisi.

Panoramica della metodologia

metriche di valutazione

Ciascun set di dati generato è stato valutato rispetto ai dati originali utilizzando le seguenti metriche:

punteggio di utilità

(Punteggio KIE F1): Un punteggio compreso tra 0 e 1, dove un valore più alto indica una prestazione migliore . È definito dal punteggio F1 del modello LayoutLMv3 addestrato sui dati sintetici quando valutato sul set di test reale. Un punteggio elevato indica che i dati sintetici sono un sostituto altamente efficace dei dati reali.

punteggi di fedeltà

Questi parametri misurano quanto i documenti sintetici assomiglino a quelli reali.

  • Fedeltà del layout (punteggio EMD): la distanza di Earth Mover (dEMD) misura la differenza tra la distribuzione dei punti centrali dei riquadri di delimitazione nei documenti reali e in quelli sintetici. Il valore è compreso tra 0 e 1, dove un valore inferiore indica una migliore qualità . Un punteggio basso indica che gli elementi del layout spaziale sono ben conservati.
  • Fedeltà numerica (distanza KS): la distanza di Kolmogorov-Smirnov (DKS) misura la massima differenza tra le funzioni di distribuzione cumulativa (CDF) dei valori numerici (ad esempio, prezzi, quantità) nei dati reali e sintetici. Il suo valore varia da 0 a 1, dove un valore inferiore è migliore . Un punteggio basso significa che il generatore riproduce accuratamente le proprietà statistiche dei numeri.

Tutti i parametri sono stati normalizzati durante il calcolo.

insiemi di dati

FUNSD : Una raccolta di 199 moduli scansionati caratterizzati da testo rumoroso, layout complessi e diversificati e annotazioni manoscritte. È stata scaricata più di 1.500 volte il mese scorso. Questo test verifica la capacità di un generatore di gestire dati non strutturati e imperfetti. 3

  • Dividiamo il campione in due: l'80% dei dati viene utilizzato per addestrare il modello, mentre il restante 20% è riservato al test successivo all'addestramento.
  • Ciascuno strumento ha prodotto da tre a sei documenti sintetici per ogni originale, per un totale di oltre 2.500 documenti sintetici.

Valutazione del compito

Per misurare l'utilità, un popolare modello LayoutLMv3 con 22.000 stelle su GitHub e oltre 750.000 download è stato addestrato sui dati sintetici generati da ciascuno strumento di generazione di documenti sintetici. 4

Le prestazioni di questo modello sono state quindi valutate su un set di test separato, costituito da documenti reali tratti dai dataset originali. Questo permette di misurare direttamente l'utilità dei dati sintetici per un'attività reale.

Strumenti di generazione di siringhe

Genalog

Una libreria Python open-source di Microsoft per generare immagini di documenti sintetiche con rumore sintetico. Funziona prendendo modelli di testo e layout (scritti in HTML e CSS) e renderizzandoli tramite WeasyPrint, quindi applicando effetti di degradazione (sfocatura, trasparenza, rumore sale e pepe, operazioni morfologiche). 5

DocCreator

Uno strumento open-source multipiattaforma per la generazione di immagini sintetiche di documenti con relative informazioni di riferimento (ground truth). È stato ampiamente utilizzato nella ricerca sull'analisi e il riconoscimento di immagini di documenti (DIAR). 6 , 7

Testo tonico

Una soluzione per l'oscuramento e la sintesi di dati in formati di documento reali (PDF, Word). Afferma di essere in grado di scansionare documenti non strutturati, identificare entità nominate (ad esempio, dati personali), oscurarle o sostituirle con valori sintetici e generare documenti anonimizzati in formati simili.

8 Metodi di degradazione sintetica dei documenti

La generazione di documenti sintetici spesso include l'aggiunta di difetti realistici per far sì che i dati artificiali assomiglino a documenti reali. Questi difetti, o modelli di degrado, aiutano ad addestrare modelli che offrono prestazioni migliori su documenti rumorosi, invecchiati o scansionati. Questi strumenti applicano diverse trasformazioni fisiche e visive per simulare le imperfezioni comuni dei documenti. 8

1. Degradazione dell'inchiostro

Questo modello simula sbiadimenti, macchie o striature causati dall'invecchiamento o da una stampa di bassa qualità. Aggiunge piccole macchie d'inchiostro o rimuove parti di lettere per imitare il reale deterioramento dell'inchiostro.

2. Personaggi fantasma

Le vecchie macchine da stampa spesso lasciavano deboli contorni o segni "fantasma" intorno alle lettere. Il modello di carattere fantasma ricrea questi effetti inserendo difetti estratti da scansioni reali tra i caratteri stampati.

3. Buchi di carta

Sui documenti vengono aggiunti fori di diverse forme e dimensioni in modo casuale, replicando strappi o segni di perforazione tipici della carta usurata.

4. Trasudamento

Questo effetto simula la fuoriuscita dell'inchiostro dal lato opposto della pagina. Utilizza immagini sia del fronte che del retro di un documento per ricreare il modo in cui l'inchiostro si trasferisce parzialmente attraverso la carta.

5. Sfocatura adattiva

La scansione o la fotografia di documenti spesso genera una leggera sfocatura. Questo modello confronta esempi reali di immagini sfocate e applica una sfocatura simile utilizzando filtri gaussiani, mantenendo il risultato delicato e realistico.

6. Deformazione della carta in 3D

I documenti possono piegarsi, incurvarsi o deformarsi quando vengono scansionati o fotografati. Utilizzando mesh 3D ricavate da documenti reali, questo modello ricrea tali forme ed effetti di illuminazione, contribuendo ad addestrare modelli per l'analisi di documenti basata su immagini acquisite da fotocamere.

7. Illuminazione non lineare

Un'illuminazione non uniforme durante la scansione può far apparire un lato di un documento più scuro. Questo modello regola la luminosità in base agli angoli di illuminazione simulati e alla curvatura della pagina, riproducendo l'effetto di una scarsa illuminazione.

8. Rumore sale e pepe

Aggiunge pixel bianchi e neri casuali per simulare polvere, texture della carta o rumore del sensore di scansione. Questo effetto "sale e pepe" contribuisce a creare l'aspetto granuloso delle scansioni digitali invecchiate o di bassa qualità.

La generazione di documenti sintetici come soluzione alle sfide dell'analisi del layout.

La sfida dell'analisi del layout

Comprendere la struttura di un documento è più difficile che leggerne il testo. Gli strumenti OCR possono estrarre le parole, ma non spiegano la funzione di ciascun blocco, come titoli, tabelle o figure.

Per affrontare questa sfida, sono stati sviluppati dei metodi:

I primi metodi di analisi del layout erano basati su regole. Si avvalevano di regole geometriche e dell'analisi delle texture per suddividere le pagine in blocchi. Sebbene utili, questi approcci richiedevano un'intensa messa a punto manuale e non erano facilmente generalizzabili.

Gli approcci di apprendimento automatico come le Support Vector Machines (SVM) e i Gaussian Mixture Models (GMM) hanno migliorato questo aspetto imparando dai dati. 9 Tuttavia, dipendevano ancora da elementi creati manualmente e faticavano a gestire la diversità dei documenti del mondo reale.

Il deep learning ha trasformato il settore. Le reti neurali convoluzionali (CNN) hanno reso possibile trattare il riconoscimento del layout come il rilevamento di oggetti, identificando tabelle, figure o formule nello stesso modo in cui i modelli rilevano oggetti nelle immagini naturali. 10 Alcuni modelli combinano anche elementi testuali e immagini per ottenere risultati più accurati.

La sfida del deep learning : richiede grandi insiemi di dati etichettati per l'addestramento.

Dati sintetici come soluzione: il processo di generazione di documenti sintetici offre un metodo scalabile per creare dati di addestramento annotati senza i costi dell'etichettatura manuale.

I modelli generativi offrono ora possibilità più avanzate. Gli autoencoder variazionali (VAE), i modelli basati sull'attenzione e le GAN possono apprendere schemi strutturali di documenti e produrre layout nuovi e realistici. 11

Principali differenze tra i generatori di documenti sintetici

I tre generatori di documenti sintetici analizzati differiscono per obiettivo, qualità dell'output e usabilità:

  • Genalog: Il miglior equilibrio tra layout realistici e precisione numerica. Il suo flusso di lavoro basato su Python con modelli HTML/CSS e modelli di degradazione lo rende ideale per addestrare modelli di machine learning in diverse attività di analisi dei documenti.
  • DocCreator: Ottimo nella generazione di documenti visivamente complessi e degradati, preservando la diversità del layout. Leggermente meno preciso di Genalog dal punto di vista numerico, ma efficace per attività che richiedono una simulazione realistica di documenti scansionati.
  • Tonic Textual: Eccelle nella creazione di layout puliti e visivamente coerenti e nella sintesi di dati che preservano la privacy. Meno adatto per l'accuratezza numerica o per set di dati di addestramento completi, risulta più indicato per attività incentrate sul layout o per la sostituzione di dati personali.

Queste differenze riflettono i loro approcci principali: Genalog bilancia realismo e fedeltà dei dati, DocCreator privilegia la varietà del layout e la degradazione del documento, mentre Tonic Textual dà priorità all'aspetto e alla privacy. Ciò aiuta gli utenti a scegliere lo strumento più adatto in base alla priorità data all'efficacia della formazione, al realismo del layout o all'anonimizzazione dei dati.

Altri generatori di documenti sintetici comunemente utilizzati

YData SDK : offre un generatore di documenti sintetici in grado di produrre documenti sintetici di alta qualità nei formati PDF, DOCX o HTML, spesso utilizzati per aggirare gli ostacoli alla conformità in materia di privacy. 12

DoGe : uno strumento open-source specificamente progettato per sintetizzare scansioni di documenti realistiche, complete di testo significativo, titoli e tabelle, per l'addestramento di modelli di intelligenza artificiale per documenti. 13

DocXPand : Specializzato nella generazione di documenti d'identità (passaporti, carte d'identità) basati su standard ISO, compilazione di modelli con informazioni false e volti generati dall'intelligenza artificiale. 14

Ulteriori letture

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Analista di settore
Ezgi ha conseguito un dottorato di ricerca in amministrazione aziendale con specializzazione in finanza e lavora come analista di settore presso AIMultiple. Si occupa di ricerca e analisi all'intersezione tra tecnologia e business, con competenze che spaziano dalla sostenibilità all'analisi di sondaggi e sentiment, dalle applicazioni di agenti di intelligenza artificiale in ambito finanziario all'ottimizzazione dei motori di risposta, dalla gestione dei firewall alle tecnologie di approvvigionamento.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450