Bize Ulaşın
Sonuç bulunamadı.

En İyi 3 Sentetik Belge Oluşturucu Karşılaştırmalı Test Edildi

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
güncellendi Mar 18, 2026
Bakınız etik normlar

Sentetik belge oluşturucular, büyük ve elle etiketlenmiş veri kümelerine ihtiyaç duymadan makine öğrenimi modellerini eğitmek ve değerlendirmek için açıklama eklenmiş, gerçekçi belge görüntüleri oluşturur.

Genalog, DocCreator ve Tonic Textual olmak üzere 3 sentetik belge oluşturucuyu, gerçekçi düzenler, doğru sayısal veriler ve belge analizi görevleri için eğitim veri kümelerindeki etkinliklerini karşılaştırarak 2.500'den fazla sentetik belge oluşturarak değerlendiriyoruz.

Belge oluşturma kıyaslama sonuçları

Loading Chart

Sonuçlar şunu gösteriyor ki

  • Genalog ve DocCreator , kullanışlılık ve doğruluk açısından güçlü performans sergiliyor; Genalog ise sayısal doğruluk konusunda biraz daha iyi.
  • Tonic Textual, görsel düzen gerçekçiliğinde üstün olsa da diğer alanlarda geride kalıyor; bu da onu gerçekçi belgeler gerektiren görevler için daha uygun hale getiriyor.

Ölçüm yöntemleri hakkında daha fazla bilgi için kıyaslama metodolojisini okuyun.

  • Fayda (utility) ölçüsü, sentetik veriler üzerinde eğitilmiş modellerin gerçek belgeler üzerinde ne kadar iyi performans gösterdiğini ölçer.
  • Yerleşim doğruluğu, sentetik belgelerdeki öğelerin mekansal düzeninin gerçek belgelerdekiyle ne kadar iyi eşleştiğini ölçer.
  • Sayısal doğruluk, sentetik belgelerdeki sayısal değerlerin gerçek verilere benzeyip benzemediğini kontrol eder.

Sonuçlara ilişkin yorum: Performans farklılıklarını daha iyi anlamak için, karşılaştırma testi ayrı bir test seti yerine eğitim seti kullanılarak da gerçekleştirildi. Bu ikincil değerlendirme, modellere eğitim materyali sağlamanın, yapılandırılmış ve sayısal olarak doğru çıktılar üretme yeteneklerini geliştirip geliştirmeyeceğini belirlemeyi amaçladı .

Sonuçlar, eğitim verileri üzerinde değerlendirildiğinde bile modellerin biraz daha yüksek puanlar elde ettiğini göstermektedir. Bu, sonuçların araçların görevi ne kadar iyi yerine getirdiğini yansıttığını göstermektedir. Orta düzeydeki sonuçlar, kıyaslama prosedürünün kendisinden ziyade, OCR kalitesindeki ve eğitilmiş modelin kapasitesindeki sınırlamalardan etkilenmiş olabilir.

Genalog

Genalog genel olarak en güçlü performansı sergiledi. Oluşturduğu sentetik belgeler, model eğitimi için oldukça etkiliydi ve gerçekçi düzen unsurları ile sayısal doğruluk arasında iyi bir denge sağladı. Oluşturulan belgeler, gerçek formların ve makbuzların yapısını ve aralıklarını yakından yansıtarak, çeşitli belge analizi görevleri için uygun hale geldi.

Belge Oluşturucu

DocCreator ayrıca yüksek kaliteli çıktılar üretti. Bu belge oluşturucunun belgeleri, Genalog'un belgeleri kadar eğitim amaçlı kullanışlıydı. Düzenler gerçekçiydi ve sentetik belgeler sayıların istatistiksel özelliklerini koruyordu. DocCreator'ın gücü, çeşitli düzen oluşturma yöntemlerini bozulma modelleriyle birleştirmesinde yatmaktadır; bu da çıktıları taranmış gerçek dünya belgelerine görsel olarak benzer hale getirir.

Tonik Metinsel

Tonic Textual'ın sonuçları karışık oldu. Bu sentetik belge oluşturucu çok temiz ve tutarlı düzenler üretse de, belgeler modellerin eğitimi için daha az etkiliydi. Ayrıca, sentetik sayılar her zaman gerçek verilerle istatistiksel olarak benzer değildi. Bu, Tonic Textual'ın düzen yapısı ve bilgi çıkarma görevleri için tam ölçekli eğitimden ziyade, belge görünümüne veya gizliliği koruyan kişisel verilerin değiştirilmesine odaklanan görevler için daha uygun olduğunu göstermektedir.

Mart 2026'da Tonic Textual, işlem hızını artırmak için varlık bağlantı bileşenini LLM tabanlı modelden BERT tabanlı modele geçirdi. 1 Aynı sürüm (v391), Veri Kümeleri sayfasında geliştirilmiş filtreleme ve sıralama özelliklerini de ekledi. 2

Genel Bakış

Genalog , hem gerçekçi yerleşim planları hem de doğru rakamlar sunan en dengeli araçtır.

DocCreator , karmaşık ve çeşitli düzenler ile belge bozulmalarına karşı güçlüdür ve küçük sayısal hatalar içerebilir.

Tonic Textual, sayfa düzenine odaklı görevler için idealdir, ancak hassas sayısal verilere ihtiyaç duyulan görevler için uygun değildir.

Metodolojiye Genel Bakış

Değerlendirme ölçütleri

Oluşturulan her veri seti, aşağıdaki ölçütler kullanılarak orijinal verilerle karşılaştırıldı:

Fayda puanı

(KIE F1 Skoru): 0 ile 1 arasında bir puan olup, daha yüksek puan daha iyidir . Gerçek test kümesinde değerlendirildiğinde sentetik veriler üzerinde eğitilmiş LayoutLMv3 modelinin F1 skoru ile tanımlanır. Yüksek bir skor, sentetik verilerin gerçek verilerin yerine oldukça etkili bir alternatif olduğunu gösterir.

Sadakat puanları

Bu ölçütler, sentetik belgelerin gerçek belgelere ne kadar benzediğini ölçer.

  • Yerleşim Doğruluğu (EMD Puanı): Yer Taşıyıcı Mesafesi (dEMD), gerçek ve sentetik belgelerdeki sınırlayıcı kutu merkez noktalarının dağılımı arasındaki farkı ölçer. 0 ile 1 arasında bir değerdir; daha düşük değer daha iyidir . Düşük bir puan, mekansal yerleşim öğelerinin iyi korunduğunu gösterir.
  • Sayısal Doğruluk (KS Mesafesi): Kolmogorov-Smirnov Mesafesi (KS), gerçek ve sentetik verilerdeki sayısal değerlerin (örneğin, fiyatlar, miktarlar) kümülatif dağılım fonksiyonları (KDF'ler) arasındaki maksimum farkı ölçer. 0 ile 1 arasında değişir; daha düşük değer daha iyidir . Düşük bir puan, üreticinin sayıların istatistiksel özelliklerini doğru bir şekilde yeniden ürettiği anlamına gelir.

Hesaplama sırasında tüm ölçümler normalize edildi.

Veri kümeleri

FUNSD : Gürültülü metin, karmaşık ve çeşitli düzenler ve el yazısı notlarla karakterize edilen 199 taranmış formdan oluşan bir koleksiyon. Geçen ay 1.500'den fazla kez indirildi. Bu, bir jeneratörün yapılandırılmamış ve kusurlu verileri işleme yeteneğini test eder. 3

  • Örnek veriyi ikiye ayırıyoruz: Verinin %80'i modelin eğitilmesi için kullanılırken, kalan %20'si eğitimden sonra test için ayrılıyor.
  • Her bir araç, her orijinal belge için üç ila altı arasında sentetik belge üretti ve bu da toplamda 2.500'den fazla sentetik belgeyle sonuçlandı.

Görev değerlendirmesi

Kullanışlılığı ölçmek için, 22.000 GitHub yıldızına ve 750.000'den fazla indirmeye sahip popüler bir LayoutLMv3 modeli, her bir sentetik belge oluşturma aracı tarafından üretilen sentetik veriler üzerinde eğitildi. 4

Bu modelin performansı daha sonra orijinal veri kümelerinden alınan gerçek belgelerden oluşan ayrı bir test kümesi üzerinde değerlendirildi. Bu, sentetik verilerin gerçek dünya görevleri için ne kadar kullanışlı olduğunu doğrudan ölçer.

Sentetik üretim araçları

Genalog

Microsoft tarafından geliştirilen, sentetik gürültü içeren sentetik belge görüntüleri oluşturmak için kullanılan açık kaynaklı bir Python kütüphanesidir. HTML ve CSS ile yazılmış metin ve düzen şablonlarını alıp WeasyPrint aracılığıyla işleyerek, ardından bozulma efektleri (bulanıklık, mürekkep sızması, tuz-biber gürültüsü, morfolojik işlemler) uygulayarak çalışır. 5

Belge Oluşturucu

Gerçek verilerle ilişkilendirilmiş sentetik belge görüntüleri oluşturmak için kullanılan, çok platformlu, açık kaynaklı bir araçtır. Belge Görüntü Analizi ve Tanıma (DIAR) araştırmalarında yaygın olarak kullanılmaktadır. 6 , 7

Tonik Metinsel

Gerçek dünya belge formatlarında (PDF, Word) sansürleme ve sentezleme için bir çözüm. Yapılandırılmamış belgeleri tarayabildiğini, adlandırılmış varlıkları (örneğin, kişisel tanımlayıcı bilgiler) tanımlayabildiğini, bunları sansürleyebildiğini veya sentetik değerlerle değiştirebildiğini ve benzer formatlarda kimliksizleştirilmiş belgeler üretebildiğini iddia ediyor.

8 Sentetik belge bozma yöntemi

Sentetik belge oluşturma genellikle, yapay verilerin gerçek dünyadaki belgelere benzemesini sağlamak için gerçekçi kusurlar eklemeyi içerir. Bu kusurlar veya bozulma modelleri, gürültülü, eski veya taranmış belgelerde daha iyi performans gösteren modellerin eğitilmesine yardımcı olur. Bu araçlar, yaygın belge kusurlarını simüle etmek için çeşitli fiziksel ve görsel dönüşümler uygular. 8

1. Mürekkep bozulması

Bu model, eskime veya düşük kaliteli baskıdan kaynaklanan solma, lekeler veya çizgileri simüle eder. Gerçek mürekkep bozulmasını taklit etmek için küçük mürekkep lekeleri ekler veya harflerin bazı kısımlarını siler.

2. Hayalet karakterler

Eski baskı araçları genellikle harflerin etrafında silik hatlar veya "hayalet" izler bırakırdı. Hayalet karakter modeli, gerçek taramalardan çıkarılan kusurları basılı karakterler arasına yerleştirerek bunları yeniden oluşturur.

3. Kağıt delikleri

Belgelere rastgele farklı şekil ve boyutlarda delikler eklenerek, yıpranmış kağıtlarda görülen yırtıklar veya delik izleri taklit ediliyor.

4. Mürekkep sızması

Bu efekt, mürekkebin sayfanın diğer tarafından sızmasını taklit eder. Mürekkebin kağıdın diğer tarafına nasıl kısmen geçtiğini yeniden oluşturmak için belgenin ön ve arka yüzündeki görüntüleri kullanır.

5. Uyarlanabilir bulanıklık

Belgelerin taranması veya fotoğraflanması genellikle hafif bir bulanıklığa neden olur. Bu model, gerçek bulanık örneklerle karşılaştırma yapar ve Gauss filtreleri kullanarak benzer bir bulanıklık uygular; böylece sonuç incelikli ve gerçekçi kalır.

6. 3 boyutlu kağıt deformasyonu

Belgeler taranırken veya fotoğraflanırken bükülebilir, katlanabilir veya kıvrılabilir. Gerçek kağıtlardan elde edilen 3 boyutlu ağlar kullanılarak, bu model bu şekilleri ve aydınlatma efektlerini yeniden oluşturur ve kamera tabanlı belge analizi için modellerin eğitilmesine yardımcı olur.

7. Doğrusal olmayan aydınlatma

Tarama sırasında düzensiz aydınlatma, belgenin bir tarafının daha karanlık görünmesine neden olabilir. Bu model, simüle edilmiş ışık açılarına ve sayfa eğriliğine bağlı olarak parlaklığı ayarlayarak, yetersiz aydınlatmanın etkisini yeniden üretir.

8. Tuz ve biber sesi

Toz, kağıt dokusu veya tarama sensörü gürültüsünü simüle etmek için rastgele siyah beyaz pikseller ekler. Bu "tuz ve biber" efekti, eski veya düşük kaliteli dijital taramaların grenli görünümünü oluşturmaya yardımcı olur.

Yerleşim analizi zorluklarına çözüm olarak sentetik belge oluşturma

Yerleşim analizinin zorluğu

Belgelerin yapısını anlamak, metni okumaktan daha zordur. OCR araçları kelimeleri çıkarabilir, ancak başlıklar, tablolar veya şekiller gibi her bir bloğun rolünü açıklamazlar.

Bu zorluğun üstesinden gelmek için çeşitli yöntemler geliştirilmiştir:

Sayfa düzeni analizine yönelik ilk yöntemler kural tabanlıydı. Sayfaları bloklara ayırmak için geometrik kurallara ve doku analizine dayanıyorlardı. Faydalı olsalar da, bu yaklaşımlar yoğun manuel ayarlama gerektiriyordu ve genelleme açısından pek başarılı değildi.

Destek Vektör Makineleri (SVM) ve Gauss Karışım Modelleri (GMM) gibi makine öğrenimi yaklaşımları, verilerden öğrenerek bunu geliştirdi. 9 Ancak, hâlâ el yapımı özelliklere bağımlıydılar ve gerçek dünyadaki belgelerin çeşitliliğiyle başa çıkmakta zorlanıyorlardı.

Derin öğrenme bu alanı dönüştürdü. Evrişimsel sinir ağları (CNN'ler), düzen tanımayı nesne tespiti gibi ele almayı, tabloları, şekilleri veya formülleri modellerin doğal görüntülerdeki nesneleri tespit ettiği şekilde tanımlamayı mümkün kıldı. 10 Bazı modeller daha doğru sonuçlar için hem metin hem de görüntü özelliklerini bir araya getirir.

Derin öğrenmenin zorluğu : eğitim için büyük, etiketlenmiş veri kümelerine ihtiyaç duymasıdır.

Sentetik veri bir çözüm olarak: Sentetik belge oluşturma süreci, manuel etiketleme maliyetine katlanmadan, ölçeklenebilir bir şekilde etiketlenmiş eğitim verileri oluşturmanın yolunu sunar.

Üretken modeller artık daha gelişmiş olanaklar sunuyor. Varyasyonel otoenkoderler (VAE'ler), dikkat tabanlı modeller ve GAN'lar, belgelerin yapısal kalıplarını öğrenip gerçekçi yeni düzenler üretebiliyor. 11

Sentetik Belge Üreticileri Arasındaki Temel Farklar

Karşılaştırmalı olarak incelenen üç sentetik belge oluşturucu, odak noktaları, çıktı kalitesi ve kullanılabilirlik açısından farklılık göstermektedir:

  • Genalog: Hem gerçekçi düzenler hem de sayısal doğruluk açısından en iyi dengeyi sunar. HTML/CSS şablonları ve bozulma modelleriyle Python tabanlı iş akışı, çeşitli belge analizi görevlerinde makine öğrenimi modellerini eğitmek için idealdir.
  • DocCreator: Görsel olarak karmaşık ve bozulmuş belgeler oluşturmada ve düzen çeşitliliğini korumada güçlüdür. Sayısal olarak Genalog'dan biraz daha az doğrudur, ancak gerçekçi taranmış belge simülasyonu gerektiren görevler için etkilidir.
  • Tonic Textual: Temiz, görsel olarak tutarlı düzenlerde ve gizliliği koruyan veri sentezinde mükemmeldir. Sayısal doğruluk veya tam eğitim veri kümeleri için daha az uygundur; bu nedenle düzen odaklı görevler veya kişisel tanımlayıcı bilgilerin (PII) yerine geçmesi için daha iyidir.

Bu farklılıklar, temel yaklaşımlarını yansıtmaktadır: Genalog gerçekçilik ve veri doğruluğunu dengelerken, DocCreator düzen çeşitliliğine ve belge bozulmasına, Tonic Textual ise görünüm ve gizliliğe öncelik verir. Bu, kullanıcıların eğitim etkinliği, düzen gerçekçiliği veya veri anonimleştirme önceliğine göre doğru aracı seçmelerine yardımcı olur.

Diğer yaygın olarak kullanılan sentetik belge oluşturucular

YData SDK : Genellikle gizlilik uyumluluğu engellerini aşmak için kullanılan, PDF, DOCX veya HTML formatlarında yüksek kaliteli sentetik belgeler üretebilen bir sentetik belge oluşturucu sunar. 12

DoGe : Belge yapay zekası eğitimi için anlamlı metin, başlık ve tablolar içeren gerçekçi belge taramaları sentezlemek üzere özel olarak tasarlanmış açık kaynaklı bir araçtır. 13

DocXPand : ISO standartlarına göre kimlik belgeleri (pasaport, kimlik kartı) oluşturma, şablonları sahte bilgilerle doldurma ve yapay zeka tarafından oluşturulan yüzler ekleme konusunda uzmanlaşmıştır. 14

Daha fazla okuma

Ezgi Arslan, PhD.
Ezgi Arslan, PhD.
Sektör Analisti
Ezgi, işletme yönetimi alanında finans uzmanlığıyla doktora derecesine sahip olup AIMultiple'da Endüstri Analisti olarak görev yapmaktadır. Sürdürülebilirlik, anket ve duygu analizi, finansta yapay zeka ajan uygulamaları, yanıt motoru optimizasyonu, güvenlik duvarı yönetimi ve tedarik teknolojileri alanlarındaki uzmanlığıyla teknoloji ve iş dünyasının kesiştiği noktada araştırmalar ve içgörüler geliştirmektedir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450