Contáctanos
No se encontraron resultados.

Comparativa de los 3 mejores generadores de documentos sintéticos

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
actualizado el Mar 18, 2026
Vea nuestra normas éticas

Los generadores de documentos sintéticos crean imágenes de documentos realistas y anotadas que ayudan a entrenar y evaluar modelos de aprendizaje automático sin depender de grandes conjuntos de datos etiquetados manualmente.

Realizamos una evaluación comparativa de tres generadores de documentos sintéticos: Genalog, DocCreator y Tonic Textual, creando más de 2500 documentos sintéticos y comparando su eficacia en cuanto a diseños realistas, datos numéricos precisos y conjuntos de datos de entrenamiento para tareas de análisis de documentos.

Resultados de referencia en la generación de documentos

Loading Chart

Los resultados muestran que

  • Genalog y DocCreator ofrecen un rendimiento sólido en cuanto a utilidad y fidelidad, aunque Genalog es ligeramente superior en precisión numérica.
  • Tonic Textual destaca por el realismo de su diseño visual, pero se queda atrás en otros aspectos, por lo que resulta más adecuado para tareas que requieren documentos realistas.

Para obtener más información sobre las métricas, consulte la metodología de evaluación comparativa.

  • La utilidad mide el rendimiento de los modelos entrenados con datos sintéticos en documentos reales.
  • La fidelidad del diseño mide qué tan bien coincide la disposición espacial de los elementos en los documentos sintéticos con la de los documentos reales.
  • La verificación de la fidelidad numérica comprueba si los valores numéricos en los documentos sintéticos se asemejan a los datos reales.

Comentario sobre los resultados: Para comprender mejor las diferencias de rendimiento, la evaluación comparativa también se realizó utilizando el conjunto de entrenamiento en lugar del conjunto de prueba independiente. Esta evaluación secundaria tuvo como objetivo determinar si proporcionar a los modelos material de entrenamiento mejoraría su capacidad para reproducir resultados estructurados y numéricamente precisos.

Los resultados muestran que, incluso al evaluarlos con los datos de entrenamiento , los modelos obtuvieron puntuaciones ligeramente superiores. Esto indica que los resultados reflejan la eficacia con la que las herramientas realizan la tarea. Es probable que los resultados moderados se deban a limitaciones en la calidad del OCR y la capacidad del modelo entrenado, más que al procedimiento de evaluación comparativa en sí.

Genealogía

Genalog obtuvo el mejor rendimiento general. Sus documentos sintéticos fueron muy eficaces para el entrenamiento del modelo y mantuvieron un buen equilibrio entre elementos de diseño realistas y precisión numérica. Los documentos generados reflejaban fielmente la estructura y el espaciado de formularios y recibos reales, lo que los hace adecuados para diversas tareas de análisis documental.

Creador de documentos

DocCreator también generó documentos de alta calidad. Los documentos de este generador resultaron casi tan útiles para la capacitación como los de Genalog. Los diseños eran realistas y los documentos sintéticos conservaban las propiedades estadísticas de los números. La fortaleza de DocCreator reside en la combinación de la generación de diseños diversos con sus modelos de degradación, lo que hace que los resultados sean visualmente similares a los documentos reales escaneados.

Tónico textual

Tonic Textual arrojó resultados mixtos. Si bien este generador de documentos sintéticos produjo diseños muy limpios y consistentes, los documentos resultaron menos efectivos para el entrenamiento de modelos. Además, los datos sintéticos no siempre fueron estadísticamente similares a los datos reales. Esto sugiere que Tonic Textual es más adecuado para tareas centradas en la apariencia del documento o en la sustitución de información personal identificable (PII) que preserva la privacidad, en lugar de para el entrenamiento a gran escala de la estructura del diseño y la extracción de información.

En marzo de 2026, Tonic Textual cambió su componente de vinculación de entidades de un modelo basado en LLM a un modelo basado en BERT para mejorar el rendimiento. 1 La misma versión (v391) también añadió mejoras en el filtrado y la clasificación en la página de conjuntos de datos. 2

Visión general

Genalog es la herramienta más equilibrada, ya que proporciona diseños realistas y cifras precisas.

DocCreator es eficaz para diseños complejos y diversos, así como para la degradación de documentos, con pequeñas imprecisiones numéricas.

Tonic Textual es ideal para tareas centradas en el diseño, pero no para tareas que requieran datos numéricos precisos.

Descripción general de la metodología

Métricas de evaluación

Cada conjunto de datos generado se comparó con los datos originales utilizando las siguientes métricas:

Puntuación de utilidad

(Puntuación F1 de KIE): Una puntuación entre 0 y 1, donde un valor más alto indica un mejor rendimiento . Se define por la puntuación F1 del modelo LayoutLMv3 entrenado con datos sintéticos, evaluada en el conjunto de prueba real. Una puntuación alta indica que los datos sintéticos son un sustituto muy eficaz de los datos reales.

Puntuaciones de fidelidad

Estas métricas miden hasta qué punto los documentos sintéticos se parecen a los reales.

  • Fidelidad del diseño (puntuación EMD): La distancia de movimiento de tierra (dEMD) mide la diferencia entre la distribución de los puntos centrales de los cuadros delimitadores en los documentos reales y sintéticos. Es un valor entre 0 y 1, donde un valor menor indica una mejor conservación . Una puntuación baja significa que los elementos del diseño espacial se conservan correctamente.
  • Fidelidad numérica (distancia KS): La distancia de Kolmogorov-Smirnov (DKS) mide la diferencia máxima entre las funciones de distribución acumulativa (FDA) de valores numéricos (p. ej., precios, cantidades) en datos reales y sintéticos. Varía de 0 a 1, donde un valor menor indica una mejor precisión . Un valor bajo significa que el generador reproduce con exactitud las propiedades estadísticas de los números.

Todas las métricas fueron normalizadas durante el cálculo.

conjuntos de datos

FUNSD : Una colección de 199 formularios escaneados caracterizados por texto con ruido, diseños complejos y diversos, y anotaciones manuscritas. Se descargó más de 1500 veces el mes pasado. Esta prueba evalúa la capacidad de un generador para manejar datos no estructurados e imperfectos. 3

  • Dividimos la muestra en dos: el 80% de los datos se utiliza para entrenar el modelo, mientras que el 20% restante se reserva para realizar pruebas después del entrenamiento.
  • Cada herramienta generó entre tres y seis documentos sintéticos por cada original, lo que dio como resultado un total de más de 2.500 documentos sintéticos.

Evaluación de tareas

Para medir la utilidad, se entrenó un modelo popular de LayoutLMv3 con 22.000 estrellas en GitHub y más de 750.000 descargas con los datos sintéticos generados por cada herramienta de generación de documentos sintéticos. 4

Posteriormente, se evaluó el rendimiento de este modelo en un conjunto de prueba independiente compuesto por documentos reales de los conjuntos de datos originales. Esto permite medir directamente la utilidad de los datos sintéticos para una tarea del mundo real.

Herramientas de generación sintética

Genealogía

Una biblioteca de Python de código abierto creada por Microsoft para generar imágenes de documentos sintéticos con ruido sintético. Funciona tomando plantillas de texto y diseño (escritas en HTML y CSS) y renderizándolas mediante WeasyPrint, para luego aplicar efectos de degradación (desenfoque, transparencia, ruido de sal y pimienta, operaciones morfológicas). 5

Creador de documentos

Herramienta multiplataforma de código abierto para generar imágenes sintéticas de documentos con datos de referencia asociados. Se ha utilizado ampliamente en la investigación de análisis y reconocimiento de imágenes de documentos (DIAR). 6 , 7

Tónico textual

Una solución para la edición y síntesis de documentos en formatos reales (PDF, Word). Afirma escanear documentos no estructurados, identificar entidades nombradas (por ejemplo, información de identificación personal), editarlas o reemplazarlas con valores sintéticos y generar documentos anonimizados en formatos similares.

8 métodos sintéticos de degradación de documentos

La generación de documentos sintéticos suele incluir la adición de defectos realistas para que los datos artificiales se asemejen a documentos reales. Estos defectos, o modelos de degradación, ayudan a entrenar modelos que funcionan mejor con documentos ruidosos, antiguos o escaneados. Estas herramientas aplican diversas transformaciones físicas y visuales para simular imperfecciones comunes en los documentos. 8

1. Degradación de la tinta

Este modelo simula el desvanecimiento, las manchas o las rayas causadas por el envejecimiento o la impresión de baja calidad. Añade pequeñas manchas de tinta o elimina partes de las letras para imitar el deterioro real de la tinta.

2. Personajes fantasma

Las antiguas herramientas de impresión solían dejar contornos tenues o marcas fantasma alrededor de las letras. El modelo de caracteres fantasma recrea estos defectos insertando imperfecciones extraídas de escaneos reales entre los caracteres impresos.

3. Agujeros en el papel

Se añaden aleatoriamente agujeros de diferentes formas y tamaños a los documentos, imitando desgarros o marcas de perforación que se ven en papeles desgastados.

4. Traspaso de tinta

Este efecto imita la tinta que se filtra desde el otro lado de la página. Utiliza imágenes del anverso y el reverso del documento para recrear cómo la tinta se transfiere parcialmente a través del papel.

5. Desenfoque adaptativo

Escanear o fotografiar documentos suele generar una ligera borrosidad. Este modelo compara ejemplos reales de documentos borrosos y aplica una borrosidad similar mediante filtros gaussianos, logrando un resultado sutil y realista.

6. Deformación del papel en 3D

Los documentos pueden doblarse, plegarse o curvarse al escanearse o fotografiarse. Mediante mallas 3D de documentos reales, este modelo recrea estas formas y efectos de iluminación, lo que ayuda a entrenar modelos para el análisis de documentos mediante cámaras.

7. Iluminación no lineal

La iluminación irregular durante el escaneo puede hacer que un lado del documento aparezca más oscuro. Este modelo ajusta el brillo en función de los ángulos de luz simulados y la curvatura de la página, reproduciendo el efecto de una iluminación deficiente.

8. Ruido de sal y pimienta

Agrega píxeles aleatorios en blanco y negro para simular polvo, textura de papel o ruido del sensor de escaneo. Este efecto de "sal y pimienta" ayuda a crear la apariencia granulada de escaneos digitales antiguos o de baja calidad.

Generación de documentos sintéticos como solución a los desafíos del análisis de maquetación.

El desafío del análisis de diseño

Comprender la estructura de los documentos es más difícil que leer el texto. Las herramientas de OCR pueden extraer palabras, pero no explican la función de cada bloque, como títulos, tablas o figuras.

Para afrontar este desafío, se han desarrollado los siguientes métodos:

Los primeros métodos de análisis de maquetación se basaban en reglas. Recurrían a reglas geométricas y al análisis de texturas para dividir las páginas en bloques. Si bien eran útiles, estos enfoques requerían un ajuste manual exhaustivo y no se generalizaban bien.

Los enfoques de aprendizaje automático, como las máquinas de vectores de soporte (SVM) y los modelos de mezcla gaussiana (GMM), mejoraron esto aprendiendo de los datos. 9 Sin embargo, seguían dependiendo de características elaboradas manualmente y tenían dificultades con la diversidad de los documentos del mundo real.

El aprendizaje profundo transformó el campo. Las redes neuronales convolucionales (CNN) hicieron posible tratar el reconocimiento de diseños como si fuera detección de objetos, identificando tablas, figuras o fórmulas del mismo modo que los modelos detectan objetos en imágenes naturales. 10 Algunos modelos también combinan características de texto e imagen para obtener resultados más precisos.

El reto del aprendizaje profundo : requiere grandes conjuntos de datos etiquetados para el entrenamiento.

Datos sintéticos como solución: El proceso de generación de documentos sintéticos ofrece una forma escalable de crear datos de entrenamiento anotados sin el coste del etiquetado manual.

Los modelos generativos ofrecen ahora posibilidades más avanzadas. Los autoencoders variacionales (VAE), los modelos basados ​​en atención y las GAN pueden aprender patrones estructurales de documentos y producir diseños nuevos y realistas. 11

Principales diferencias entre los generadores de documentos sintéticos

Los tres generadores de documentos sintéticos analizados difieren en su enfoque, calidad de salida y facilidad de uso:

  • Genalog: Ofrece el mejor equilibrio entre diseños realistas y precisión numérica. Su flujo de trabajo basado en Python, con plantillas HTML/CSS y modelos de degradación, lo hace ideal para entrenar modelos de aprendizaje automático en diversas tareas de análisis de documentos.
  • DocCreator: Genera documentos visualmente complejos y con efectos de degradación, conservando la diversidad de la maquetación. Su precisión numérica es ligeramente inferior a la de Genalog, pero resulta eficaz para tareas que requieren una simulación realista de documentos escaneados.
  • Tonic Textual: Destaca por sus diseños limpios y visualmente coherentes, así como por la síntesis de datos que preserva la privacidad. Es menos adecuado para la precisión numérica o conjuntos de datos de entrenamiento completos, por lo que resulta más apropiado para tareas centradas en el diseño o la sustitución de información de identificación personal (PII).

Estas diferencias reflejan sus enfoques principales: Genalog equilibra el realismo y la fidelidad de los datos, DocCreator enfatiza la variedad de formatos y la degradación del documento, y Tonic Textual prioriza la apariencia y la privacidad. Esto ayuda a los usuarios a seleccionar la herramienta adecuada según si la prioridad es la eficacia de la capacitación, el realismo del formato o la anonimización de los datos.

Otros generadores de documentos sintéticos de uso común

YData SDK : Ofrece un generador de documentos sintéticos capaz de producir documentos sintéticos de alta calidad en formato PDF, DOCX o HTML, que se utilizan a menudo para sortear los obstáculos relacionados con el cumplimiento de la normativa de privacidad. 12

DoGe : Una herramienta de código abierto diseñada específicamente para sintetizar escaneos de documentos realistas que incluyen texto significativo, encabezados y tablas para el entrenamiento de la IA de documentos. 13

DocXPand : Especializado en la generación de documentos de identidad (pasaportes, tarjetas de identificación) basados ​​en las normas ISO, rellenando plantillas con información falsa y rostros generados por IA. 14

Lecturas adicionales

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Analista de la industria
Ezgi es doctora en Administración de Empresas con especialización en finanzas y trabaja como analista de la industria en AIMultiple. Impulsa la investigación y el análisis en la intersección de la tecnología y los negocios, con experiencia en sostenibilidad, análisis de encuestas y sentimientos, aplicaciones de agentes de IA en finanzas, optimización de motores de búsqueda, gestión de cortafuegos y tecnologías de adquisiciones.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450