Contactez-nous
Aucun résultat trouvé.

Comparaison des 3 meilleurs générateurs de documents synthétiques

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
mis à jour le Mar 18, 2026
Consultez notre normes éthiques

Les générateurs de documents synthétiques créent des images de documents annotées et réalistes qui aident à entraîner et à évaluer les modèles d'apprentissage automatique sans avoir recours à de grands ensembles de données étiquetés manuellement.

Nous évaluons 3 générateurs de documents synthétiques, Genalog, DocCreator et Tonic Textual, en créant plus de 2 500 documents synthétiques, en comparant leur efficacité en termes de mises en page réalistes, de données numériques précises et d'ensembles de données d'entraînement pour les tâches d'analyse de documents.

résultats de référence en matière de génération de documents

Loading Chart

Les résultats montrent que

  • Genalog et DocCreator offrent d'excellentes performances en termes d'utilité et de fidélité, Genalog étant légèrement supérieur pour la précision numérique.
  • Tonic Textual excelle dans le réalisme de la mise en page visuelle, mais accuse un retard dans d'autres domaines, ce qui le rend plus adapté aux tâches nécessitant des documents réalistes.

Pour plus d'informations sur les indicateurs, consultez la méthodologie d'analyse comparative.

  • L'utilité mesure la performance des modèles entraînés sur des données synthétiques sur des documents réels.
  • La fidélité de la mise en page mesure dans quelle mesure la disposition spatiale des éléments dans les documents synthétiques correspond à celle des documents réels.
  • La vérification de la fidélité numérique permet de déterminer si les valeurs numériques des documents synthétiques ressemblent aux données réelles.

Commentaire sur les résultats : Afin de mieux comprendre les différences de performance, l’évaluation comparative a également été réalisée avec l’ensemble d’entraînement au lieu de l’ensemble de test distinct. Cette évaluation secondaire visait à déterminer si la fourniture de matériel d’entraînement aux modèles améliorerait leur capacité à reproduire des résultats structurés et numériquement précis.

Les résultats montrent que, même évalués sur les données d'entraînement , les modèles ont obtenu des scores légèrement supérieurs. Cela indique que les résultats reflètent la capacité des outils à gérer la tâche. Les résultats mitigés sont probablement dus aux limitations de la qualité de la reconnaissance optique de caractères (OCR) et à la capacité du modèle entraîné, plutôt qu'à la procédure d'évaluation elle-même.

Généalogue

Genalog a globalement obtenu les meilleurs résultats. Ses documents synthétiques se sont avérés très efficaces pour l'entraînement du modèle et ont maintenu un bon équilibre entre réalisme des éléments de mise en page et précision numérique. Les documents générés reflétaient fidèlement la structure et l'espacement des formulaires et reçus réels, les rendant ainsi adaptés à diverses tâches d'analyse documentaire.

Créateur de documents

DocCreator a également produit des documents de haute qualité. Ces documents étaient presque aussi utiles pour la formation que ceux de Genalog. Les mises en page étaient réalistes et les documents synthétiques préservaient les propriétés statistiques des nombres. La force de DocCreator réside dans la combinaison d'une génération de mises en page variées et de modèles de dégradation, ce qui rend les documents obtenus visuellement similaires à des documents réels numérisés.

Texte tonique

Tonic Textual a donné des résultats mitigés. Bien que ce générateur de documents synthétiques ait produit des mises en page très claires et cohérentes, les documents se sont avérés moins efficaces pour l'entraînement des modèles. De plus, les données synthétiques n'étaient pas toujours statistiquement similaires aux données réelles. Cela suggère que Tonic Textual est plus adapté aux tâches axées sur l'apparence des documents ou le remplacement des données personnelles tout en préservant la confidentialité, plutôt qu'à l'entraînement complet pour les tâches de structure de mise en page et d'extraction d'informations.

En mars 2026, Tonic Textual a remplacé son composant de liaison d'entités, basé sur un modèle LLM, par un modèle basé sur BERT afin d'améliorer le débit. 1 La même version (v391) a également ajouté des fonctions de filtrage et de tri améliorées sur la page des ensembles de données. 2

Aperçu général

Genalog est l'outil le plus équilibré, offrant à la fois des schémas réalistes et des chiffres précis.

DocCreator est performant pour les mises en page complexes et variées et la dégradation des documents, avec de légères inexactitudes numériques.

Tonic Textual est idéal pour les tâches axées sur la mise en page, mais pas pour les tâches nécessitant des données numériques précises.

Aperçu de la méthodologie

Métriques d'évaluation

Chaque ensemble de données généré a été comparé aux données originales à l'aide des métriques suivantes :

score d'utilité

Score F1 de KIE : Ce score, compris entre 0 et 1 (plus il est élevé, mieux c’est ), correspond au score F1 du modèle LayoutLMv3 entraîné sur les données synthétiques et évalué sur l’ensemble de test réel. Un score élevé indique que les données synthétiques constituent un substitut très efficace aux données réelles.

scores de fidélité

Ces indicateurs mesurent à quel point les documents synthétiques ressemblent aux documents réels.

  • Fidélité de la mise en page (score EMD) : La distance de déplacement de terre (dEMD) mesure la différence entre la distribution des centres des boîtes englobantes dans les documents réels et synthétiques. Sa valeur, comprise entre 0 et 1 (plus elle est basse, mieux c’est ), indique une bonne préservation des éléments de la mise en page spatiale.
  • Fidélité numérique (distance KS) : La distance de Kolmogorov-Smirnov (DKS) mesure la différence maximale entre les fonctions de répartition (CDF) des valeurs numériques (par exemple, les prix, les quantités) dans les données réelles et synthétiques. Elle varie de 0 à 1, les valeurs les plus basses étant les meilleures . Un score faible signifie que le générateur reproduit fidèlement les propriétés statistiques des nombres.

Toutes les mesures ont été normalisées lors du calcul.

Ensembles de données

FUNSD : Collection de 199 formulaires numérisés caractérisés par un texte bruité, des mises en page complexes et variées, et des annotations manuscrites. Elle a été téléchargée plus de 1 500 fois le mois dernier. Ce test évalue la capacité d'un générateur à traiter des données non structurées et imparfaites. 3

  • Nous divisons l'échantillon en deux : 80 % des données sont utilisées pour l'entraînement du modèle, tandis que les 20 % restants sont réservés aux tests après l'entraînement.
  • Chaque outil a produit entre trois et six documents synthétiques pour chaque original, ce qui donne un total de plus de 2 500 documents synthétiques.

Évaluation des tâches

Pour mesurer l'utilité, un modèle populaire LayoutLMv3 avec 22 000 étoiles sur GitHub et plus de 750 000 téléchargements a été entraîné sur les données synthétiques générées par chaque outil de génération de documents synthétiques. 4

Les performances de ce modèle ont ensuite été évaluées sur un ensemble de test distinct de documents réels issus des jeux de données originaux. Cela permet de mesurer directement l'utilité des données synthétiques pour une tâche concrète.

Outils de génération synthétique

Généalogue

Bibliothèque Python open source (par Microsoft) permettant de générer des images de documents synthétiques avec du bruit synthétique. Elle fonctionne en prenant des modèles de texte et de mise en page (écrits en HTML et CSS), en les rendant via WeasyPrint, puis en appliquant des effets de dégradation (flou, transparence, bruit impulsionnel, opérations morphologiques). 5

Créateur de documents

Outil multiplateforme et open source permettant de générer des images de documents synthétiques avec leurs données de référence associées. Il est largement utilisé dans la recherche en analyse et reconnaissance d'images de documents (DIAR). 6 , 7

Texte tonique

Cette solution permet la rédaction et la synthèse de données dans les formats de documents courants (PDF, Word). Elle prétend analyser les documents non structurés, identifier les entités nommées (par exemple, les données personnelles), les masquer ou les remplacer par des valeurs synthétiques, et produire des documents anonymisés dans des formats similaires.

8 méthodes de dégradation synthétique de documents

La génération de documents synthétiques consiste souvent à ajouter des défauts réalistes pour que les données artificielles ressemblent davantage à des documents réels. Ces défauts, ou modèles de dégradation, permettent d'entraîner des modèles plus performants sur des documents bruités, anciens ou numérisés. Ces outils appliquent diverses transformations physiques et visuelles pour simuler les imperfections courantes des documents. 8

1. Dégradation de l'encre

Ce modèle simule la décoloration, les taches ou les stries dues au vieillissement ou à une impression de mauvaise qualité. Il ajoute de petites taches d'encre ou supprime des parties des lettres pour imiter la dégradation réelle de l'encre.

2. Personnages fantômes

Les anciens outils d'impression laissaient souvent de légers contours ou des marques « fantômes » autour des lettres. Le modèle de caractères fantômes recrée ces marques en insérant des défauts extraits de numérisations réelles entre les caractères imprimés.

3. Trous dans le papier

Des trous de formes et de tailles différentes sont ajoutés aléatoirement aux documents, imitant les déchirures ou les marques de perforation que l'on trouve sur les papiers usés.

4. Saignement

Cet effet imite l'encre qui transparaît au verso de la page. Il utilise les images du recto et du verso du document pour recréer le transfert partiel de l'encre à travers le papier.

5. Flou adaptatif

La numérisation ou la photographie de documents entraîne souvent un léger flou. Ce modèle compare des exemples flous réels et applique un flou similaire à l'aide de filtres gaussiens, pour un résultat subtil et réaliste.

6. Déformation du papier en 3D

Lors de la numérisation ou de la photographie de documents, ces derniers peuvent se plier, se courber ou se déformer. Ce modèle, basé sur des maillages 3D de documents papier réels, recrée ces formes et effets de lumière, contribuant ainsi à l'entraînement de modèles d'analyse de documents par caméra.

7. Éclairage non linéaire

Un éclairage inégal lors de la numérisation peut rendre une face d'un document plus sombre. Ce modèle ajuste la luminosité en fonction des angles d'éclairage simulés et de la courbure de la page, reproduisant ainsi l'effet d'un éclairage insuffisant.

8. Bruit poivre et sel

Ajoute des pixels noirs et blancs aléatoires pour simuler la poussière, la texture du papier ou le bruit du capteur de numérisation. Cet effet « poivre et sel » contribue à créer l’aspect granuleux des numérisations numériques anciennes ou de mauvaise qualité.

La génération de documents synthétiques comme solution aux défis de l'analyse de la mise en page

Le défi de l'analyse de la mise en page

Comprendre la structure des documents est plus complexe que de lire le texte. Les outils de reconnaissance optique de caractères (OCR) peuvent extraire les mots, mais ils n'expliquent pas le rôle de chaque bloc, comme les titres, les tableaux ou les figures.

Pour relever ce défi, des méthodes ont été mises au point :

Les premières méthodes d'analyse de mise en page étaient basées sur des règles. Elles s'appuyaient sur des règles géométriques et l'analyse de texture pour diviser les pages en blocs. Bien qu'utiles, ces approches nécessitaient un réglage manuel important et se généralisaient mal.

Les approches d'apprentissage automatique comme les machines à vecteurs de support (SVM) et les modèles de mélange gaussien (GMM) ont amélioré cela en apprenant à partir des données. 9 Cependant, ils dépendaient encore de fonctionnalités artisanales et avaient du mal à gérer la diversité des documents du monde réel.

L'apprentissage profond a transformé le domaine. Les réseaux neuronaux convolutifs (CNN) ont permis de traiter la reconnaissance de mise en page comme la détection d'objets, en identifiant les tableaux, les figures ou les formules de la même manière que les modèles détectent les objets dans les images naturelles. 10 Certains modèles combinent également des caractéristiques textuelles et visuelles pour des résultats plus précis.

Le défi de l'apprentissage profond : il faut de grands ensembles de données étiquetées pour l'entraînement.

Les données synthétiques comme solution : le processus de génération de documents synthétiques offre une méthode évolutive pour créer des données d’entraînement annotées sans les coûts d’un étiquetage manuel.

Les modèles génératifs offrent désormais des possibilités plus avancées. Les auto-encodeurs variationnels (VAE), les modèles basés sur l'attention et les GAN peuvent apprendre les structures des documents et produire de nouvelles mises en page réalistes. 11

Principales différences entre les générateurs de documents synthétiques

Les trois générateurs de documents synthétiques comparés diffèrent par leur objectif, la qualité de leur rendu et leur facilité d'utilisation :

  • Genalog offre un équilibre optimal entre réalisme et précision numérique. Son flux de travail basé sur Python, avec des modèles HTML/CSS et des modèles de dégradation, le rend idéal pour l'entraînement de modèles d'apprentissage automatique appliqués à diverses tâches d'analyse de documents.
  • DocCreator : Performant pour générer des documents visuellement complexes et dégradés, tout en préservant la diversité de la mise en page. Légèrement moins précis numériquement que Genalog, mais efficace pour les tâches nécessitant une simulation réaliste de documents numérisés.
  • Tonic Textual excelle dans la création de mises en page claires et visuellement cohérentes, ainsi que dans la synthèse de données respectueuse de la vie privée. Moins adapté à la précision numérique ou aux ensembles de données d'entraînement complets, il est plus approprié aux tâches axées sur la mise en page ou au remplacement des données personnelles.

Ces différences reflètent leurs approches principales : Genalog privilégie le réalisme et la fidélité des données, DocCreator met l’accent sur la variété des mises en page et la dégradation des documents, et Tonic Textual privilégie l’apparence et la confidentialité. Cela aide les utilisateurs à choisir l’outil le plus adapté à leurs besoins : efficacité de la formation, réalisme des mises en page ou anonymisation des données.

Autres générateurs de documents synthétiques couramment utilisés

YData SDK : Offre un générateur de documents synthétiques capable de produire des documents synthétiques de haute qualité aux formats PDF, DOCX ou HTML, souvent utilisés pour contourner les obstacles liés à la conformité en matière de confidentialité. 12

DoGe : Un outil open-source spécialement conçu pour synthétiser des numérisations de documents réalistes comportant du texte, des titres et des tableaux significatifs pour l'entraînement de l'IA documentaire. 13

DocXPand : Spécialisé dans la génération de documents d'identité (passeports, cartes d'identité) basés sur les normes ISO, le remplissage de modèles avec de fausses informations et les visages générés par IA. 14

Lectures complémentaires

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Analyste du secteur
Ezgi est titulaire d'un doctorat en administration des affaires, spécialisée en finance, et travaille comme analyste sectorielle chez AIMultiple. Elle mène des recherches et produit des analyses à l'intersection de la technologie et du commerce, et son expertise couvre le développement durable, les enquêtes et l'analyse des sentiments, les applications d'agents d'IA en finance, l'optimisation des moteurs de réponse, la gestion des pare-feu et les technologies d'approvisionnement.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450