Os geradores de documentos sintéticos criam imagens de documentos anotadas e realistas que ajudam a treinar e avaliar modelos de aprendizado de máquina sem depender de grandes conjuntos de dados rotulados manualmente.
Avaliamos três geradores de documentos sintéticos: Genalog, DocCreator e Tonic Textual, criando mais de 2.500 documentos sintéticos e comparando sua eficácia em layouts realistas, dados numéricos precisos e conjuntos de dados de treinamento para tarefas de análise de documentos.
Resultados de referência para geração de documentos
Os resultados mostram que
- Genalog e DocCreator apresentam um desempenho sólido em termos de utilidade e fidelidade, com Genalog sendo ligeiramente melhor em precisão numérica.
- A fonte Tonic Textual se destaca no realismo do layout visual, mas fica atrás em outras áreas, sendo mais adequada para tarefas que exigem documentos realistas.
Para obter mais informações sobre as métricas, leia a metodologia de avaliação comparativa.
- A ferramenta de utilidade mede o desempenho de modelos treinados com dados sintéticos em documentos reais.
- A fidelidade do layout mede o quão bem a disposição espacial dos elementos em documentos sintéticos corresponde à dos documentos reais.
- A fidelidade numérica verifica se os valores numéricos em documentos sintéticos se assemelham aos dados reais.
Comentário sobre os resultados: Para melhor compreender as diferenças de desempenho, o teste comparativo também foi realizado utilizando o conjunto de treinamento em vez do conjunto de teste separado. Esta avaliação secundária teve como objetivo determinar se o fornecimento de material de treinamento aos modelos melhoraria sua capacidade de reproduzir resultados estruturados e numericamente precisos.
Os resultados mostram que, mesmo quando avaliados com os dados de treinamento , os modelos obtiveram pontuações ligeiramente superiores. Isso indica que os resultados refletem o desempenho das ferramentas na tarefa em si. Os resultados moderados provavelmente são influenciados por limitações na qualidade do OCR e na capacidade do modelo treinado, e não pelo procedimento de avaliação comparativa em si.
Genalog
A Genalog apresentou o melhor desempenho geral. Seus documentos sintéticos foram muito eficazes para o treinamento do modelo e mantiveram um bom equilíbrio entre elementos de layout realistas e precisão numérica. Os documentos gerados refletiram com precisão a estrutura e o espaçamento de formulários e recibos reais, tornando-os adequados para uma variedade de tarefas de análise documental.
Criador de Documentos
O DocCreator também produziu resultados de alta qualidade. Os documentos gerados por este gerador foram quase tão úteis para treinamento quanto os do Genalog. Os layouts eram realistas e os documentos sintéticos preservavam as propriedades estatísticas dos números. O ponto forte do DocCreator reside na combinação da geração de layouts diversificados com seus modelos de degradação, tornando os resultados visualmente semelhantes a documentos reais digitalizados.
Tônico Textual
O Tonic Textual apresentou resultados mistos. Embora este gerador de documentos sintéticos tenha produzido layouts muito limpos e consistentes, os documentos foram menos eficazes para o treinamento de modelos. Além disso, os números sintéticos nem sempre foram estatisticamente semelhantes aos dados reais. Isso sugere que o Tonic Textual é mais adequado para tarefas que se concentram na aparência do documento ou na substituição de informações pessoais identificáveis (PII) preservando a privacidade, em vez de treinamento em larga escala para tarefas de estrutura de layout e extração de informações.
Em março de 2026, a Tonic Textual mudou seu componente de vinculação de entidades de um modelo baseado em LLM para um modelo baseado em BERT para melhorar o desempenho. 1 A mesma versão (v391) também adicionou melhorias na filtragem e classificação na página Conjuntos de dados. 2
Visão geral
Genalog é a ferramenta mais equilibrada, oferecendo tanto layouts realistas quanto números precisos.
O DocCreator é robusto para layouts complexos e diversos, além de suportar a degradação de documentos, com pequenas imprecisões numéricas.
A fonte Tonic Textual é ideal para tarefas focadas em layout, mas não para tarefas que exigem dados numéricos precisos.
Visão geral da metodologia
Métricas de avaliação
Cada conjunto de dados gerado foi comparado aos dados originais usando as seguintes métricas:
Pontuação de utilidade
(Pontuação F1 do KIE): Uma pontuação entre 0 e 1, onde quanto maior, melhor . É definida pela pontuação F1 do modelo LayoutLMv3 treinado com os dados sintéticos quando avaliado no conjunto de teste real. Uma pontuação alta indica que os dados sintéticos são um substituto altamente eficaz para os dados reais.
Pontuações de fidelidade
Essas métricas medem o quão semelhantes os documentos sintéticos são aos reais.
- Fidelidade do Layout (Pontuação EMD): A Distância de Movimento da Terra (dEMD) mede a diferença entre a distribuição dos pontos centrais das caixas delimitadoras nos documentos reais e sintéticos. É um valor de 0 a 1, onde quanto menor, melhor . Uma pontuação baixa significa que os elementos do layout espacial estão bem preservados.
- Fidelidade Numérica (Distância KS): A Distância de Kolmogorov-Smirnov (DKS) mede a diferença máxima entre as funções de distribuição cumulativa (FDCs) de valores numéricos (por exemplo, preços, quantidades) em dados reais e sintéticos. Varia de 0 a 1, sendo que um valor menor é melhor . Uma pontuação baixa significa que o gerador reproduz com precisão as propriedades estatísticas dos números.
Todas as métricas foram normalizadas durante o cálculo.
Conjuntos de dados
FUNSD : Uma coleção de 199 formulários digitalizados, caracterizados por texto ruidoso, layouts complexos e diversos e anotações manuscritas. Foi baixado mais de 1.500 vezes no mês passado. Isso testa a capacidade de um gerador de lidar com dados não estruturados e imperfeitos. 3
- Dividimos a amostra em duas partes: 80% dos dados são usados para treinar o modelo, enquanto os 20% restantes são reservados para testes após o treinamento.
- Cada ferramenta produziu entre três e seis documentos sintéticos para cada original, resultando em um total de mais de 2.500 documentos sintéticos.
Avaliação da tarefa
Para medir a utilidade, um modelo popular do LayoutLMv3, com 22 mil estrelas no GitHub e mais de 750 mil downloads, foi treinado com os dados sintéticos gerados por cada ferramenta geradora de documentos sintéticos. 4
O desempenho desse modelo foi então avaliado em um conjunto de teste reservado, composto por documentos reais dos conjuntos de dados originais. Isso mede diretamente a utilidade dos dados sintéticos para uma tarefa do mundo real.
Ferramentas de geração sintética
Genalog
Uma biblioteca Python de código aberto, criada por Microsoft, para gerar imagens sintéticas de documentos com ruído sintético. Ela funciona utilizando modelos de texto e layout (escritos em HTML e CSS) e renderizando-os com o WeasyPrint. Em seguida, aplica efeitos de degradação (desfoque, transparência, ruído sal e pimenta, operações morfológicas). 5
Criador de Documentos
Uma ferramenta multiplataforma e de código aberto para gerar imagens sintéticas de documentos com dados de referência associados. Tem sido amplamente utilizada em pesquisas de Análise e Reconhecimento de Imagens de Documentos (DIAR). 6 , 7
Tônico Textual
Uma solução para redação e síntese em formatos de documentos reais (PDF, Word). Ela promete analisar documentos não estruturados, identificar entidades nomeadas (como informações pessoais identificáveis), redigir ou substituir essas entidades por valores sintéticos e gerar documentos anonimizados em formatos semelhantes.
8 Métodos sintéticos de degradação de documentos
A geração de documentos sintéticos frequentemente inclui a adição de defeitos realistas para que os dados artificiais se assemelhem a documentos do mundo real. Esses defeitos, ou modelos de degradação, ajudam a treinar modelos que apresentam melhor desempenho em documentos ruidosos, antigos ou digitalizados. Essas ferramentas aplicam diversas transformações físicas e visuais para simular imperfeições comuns em documentos. 8
1. Degradação da tinta
Este modelo simula o desbotamento, manchas ou riscos causados pelo envelhecimento ou pela baixa qualidade de impressão. Ele adiciona pequenas manchas de tinta ou remove partes das letras para imitar a deterioração real da tinta.
2. Personagens fantasmas
As ferramentas de impressão antigas frequentemente deixavam contornos tênues ou marcas "fantasmas" ao redor das letras. O modelo de caractere fantasma recria esses efeitos inserindo defeitos extraídos de digitalizações reais entre os caracteres impressos.
3. Buracos de papel
Orifícios de diferentes formatos e tamanhos são adicionados aleatoriamente aos documentos, replicando rasgos ou marcas de perfuração encontradas em papéis desgastados.
4. Transparência
Este efeito simula a tinta a infiltrar-se do outro lado da página. Utiliza imagens da frente e do verso de um documento para recriar a forma como a tinta se transfere parcialmente através do papel.
5. Adadesfoque proativo
A digitalização ou fotografia de documentos geralmente cria um leve desfoque. Este modelo compara exemplos reais de desfoque e aplica um desfoque semelhante usando filtros gaussianos, mantendo o resultado sutil e realista.
6. Deformação do papel em 3D
Documentos podem dobrar, amassar ou curvar-se quando digitalizados ou fotografados. Usando malhas 3D de papéis reais, este modelo recria essas formas e efeitos de iluminação, ajudando a treinar modelos para análise de documentos baseada em câmeras.
7. Iluminação não linear
A iluminação irregular durante a digitalização pode fazer com que um lado do documento pareça mais escuro. Este modelo ajusta o brilho com base em ângulos de luz simulados e na curvatura da página, reproduzindo o efeito de baixa luminosidade.
8. Ruído de sal e pimenta
Adiciona pixels aleatórios em preto e branco para simular poeira, textura de papel ou ruído do sensor de digitalização. Esse efeito "sal e pimenta" ajuda a criar a aparência granulada de digitalizações antigas ou de baixa qualidade.
Geração sintética de documentos como solução para desafios de análise de layout
O desafio da análise de layout
Entender a estrutura de documentos é mais difícil do que ler o texto. As ferramentas de OCR podem extrair palavras, mas não explicam a função de cada bloco, como títulos, tabelas ou figuras.
Para lidar com esse desafio, foram desenvolvidos os seguintes métodos:
Os primeiros métodos de análise de layout eram baseados em regras. Eles se apoiavam em regras geométricas e análise de textura para dividir as páginas em blocos. Embora úteis, essas abordagens exigiam ajustes manuais complexos e não eram facilmente generalizáveis.
Abordagens de aprendizado de máquina, como Máquinas de Vetores de Suporte (SVMs) e Modelos de Mistura Gaussiana (GMMs), melhoraram isso aprendendo com os dados. 9 No entanto, eles ainda dependiam de recursos criados manualmente e tinham dificuldades com a diversidade de documentos do mundo real.
A aprendizagem profunda transformou a área. As redes neurais convolucionais (CNNs) possibilitaram tratar o reconhecimento de layouts como detecção de objetos, identificando tabelas, figuras ou fórmulas da mesma forma que os modelos detectam objetos em imagens naturais. 10 Alguns modelos também combinam recursos de texto e imagem para resultados mais precisos.
O desafio do aprendizado profundo : requer grandes conjuntos de dados rotulados para treinamento.
Dados sintéticos como solução: O processo de geração de documentos sintéticos oferece uma maneira escalável de criar dados de treinamento anotados sem o custo da rotulagem manual.
Os modelos generativos agora oferecem possibilidades mais avançadas. Autoencoders variacionais (VAEs), modelos baseados em atenção e GANs podem aprender padrões estruturais de documentos e produzir novos layouts realistas. 11
Principais diferenças entre geradores de documentos sintéticos
Os três geradores de documentos sintéticos avaliados diferem em foco, qualidade de saída e usabilidade:
- Genalog: O melhor equilíbrio entre layouts realistas e precisão numérica. Seu fluxo de trabalho baseado em Python, com modelos HTML/CSS e modelos de degradação, o torna ideal para treinar modelos de aprendizado de máquina em diversas tarefas de análise de documentos.
- DocCreator: Excelente na geração de documentos visualmente complexos e com aparência degradada, preservando a diversidade de layout. Apresenta uma precisão numérica ligeiramente inferior à do Genalog, mas é eficaz para tarefas que exigem simulação realista de documentos digitalizados.
- Tonic Textual: Destaca-se em layouts limpos e visualmente consistentes, além de síntese de dados que preserva a privacidade. Menos adequado para precisão numérica ou conjuntos de dados de treinamento completos, sendo mais indicado para tarefas focadas em layout ou substituição de informações pessoais identificáveis (PII).
Essas diferenças refletem suas principais abordagens: o Genalog equilibra realismo e fidelidade aos dados, o DocCreator enfatiza a variedade de layouts e a degradação de documentos, e o Tonic Textual prioriza a aparência e a privacidade. Isso ajuda os usuários a selecionar a ferramenta certa com base na prioridade: eficácia do treinamento, realismo do layout ou desidentificação de dados.
Outros geradores de documentos sintéticos comumente usados
SDK YData : Oferece um gerador de documentos sintéticos capaz de produzir documentos sintéticos de alta qualidade nos formatos PDF, DOCX ou HTML, frequentemente usados para contornar obstáculos de conformidade com a privacidade. 12
DoGe : Uma ferramenta de código aberto projetada especificamente para sintetizar digitalizações de documentos realistas, apresentando texto, títulos e tabelas relevantes para o treinamento de IA de documentos. 13
DocXPand : Especializado na geração de documentos de identidade (passaportes, carteiras de identidade) com base em padrões ISO, preenchimento de modelos com informações falsas e rostos gerados por IA. 14
Leituras adicionais
- Análise comparativa e melhores práticas para geração de dados sintéticos
- Os 25 principais casos de uso de dados sintéticos
- Usuários Sintéticos Explicados: As 7 Principais Ferramentas de Pesquisa de Usuários com IA
Seja o primeiro a comentar
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.