Fatura işleme, geleneksel olarak muhasebe sistemlerine manuel veri çıkarma ve girme gerektiren, kritik ancak emek yoğun bir işletme işlemidir. Bu manuel yaklaşım zaman alıcıdır ve insan hatasına açıktır. Otomatik alternatifleri değerlendirmek için, önde gelen belge işleme çözümleri ve LLM'lerin karşılaştırmalı bir analizini gerçekleştirdik:
- Amazon Textract API
- Claude Sonnet 3.5
- Docsumo
- Google Belge Yapay Zekası
- Microsoft Azure Belgesi Intelligence
- Rossum
Çalışmamız, bu araçların çeşitli fatura formatlarından ve kalitelerinden verileri doğru bir şekilde çıkarma yeteneklerini değerlendirerek, manuel işleme alternatifleri olarak etkinliklerini nicelleştirmeyi amaçlamıştır.
Karşılaştırma sonuçları
Farklı kalite ve kontrast seviyelerindeki faturalar üzerinde fatura işleme performansını değerlendirdik. Tüm araçlar yüksek kaliteli görüntülerde güçlü performans gösterirken, düşük kaliteli belgeleri işlerken doğrulukları önemli ölçüde azaldı. Test edilen araçlar arasında, Claude Sonnet 3.5, belge kalitelerinin tüm yelpazesinde en yüksek genel doğruluk ve dayanıklılığı sergiledi.
Metodoloji
Ölçüm: Değerlendirme metodolojimiz, anahtar-değer çifti çıkarımının doğruluğuna odaklandı. Çıkarılan her alan, ikili bir sınıflandırma kullanılarak değerlendirildi: doğru çıkarım veya yanlış/eksik çıkarım. Doğruluk ölçütü aşağıdaki formül kullanılarak hesaplandı:
Doğruluk = (Doğru Şekilde Çıkarılan Anahtar-Değer Çiftlerinin Sayısı) / (Toplam Anahtar-Değer Çifti Sayısı)
Bu metodoloji, farklı araçlar ve belge türleri arasında veri çıkarma performansının objektif olarak karşılaştırılmasını sağladı.
Örneklem büyüklüğü: Fatura verilerini bulmak zordur çünkü e-posta adresleri ve isimler gibi kişisel bilgiler içerir. 20 adet kamuya açık fatura örneğinden 400'den fazla anahtar-değer çifti kullandık.
Örnekler: Tüm çözümler yüksek kaliteli görüntüleri doğru şekilde işlerken, aşağıdaki gibi görüntülerde çıkarma kalitesi düştü:
İnce ayar : Denediğimiz ürünler toplam tutarları bulmada başarılı olsa da, fiyat detaylarını çıkarmada sorun yaşadılar. Bazı ürünlerde ince ayar yaparak daha iyi sonuçlar elde etmek mümkün. Bazı ürünlerde kullanıcılar, model çıktısını düzeltmek için resimdeki bir değere tıklayabilirler.
Tüm sağlayıcılara adil olmak adına, herhangi bir ince ayar yapmadık. İnce ayar yapıldığında, tüm sağlayıcılar bu belgeleri ikinci kez işlediklerinde daha yüksek başarı oranlarına ulaşabilmelidir. Bununla birlikte, bu kıyaslamada odak noktamız, modellerin daha önce görmedikleri belgelerden doğru ve güvenilir sonuçlar üretmesini gerektiren otonom işlemlerdir.
Zaman çizelgesi: Tüm testler Aralık 2024'te tamamlandı.
Sonraki adımlar
Katılımcı sayısını artırma: Bu çalışma, Büyük Dil Modelleri (LLM'ler), OCR teknolojileri ve özel fatura işleme araçları genelinde mevcut fatura işleme yeteneklerine ilişkin bilgiler sağladığından, otomatik fatura işleme çözümlerinin daha kapsamlı bir karşılaştırmasını sağlamak için analizimizi en yeni LLM'leri de dahil ederek genişletmeyi planlıyoruz.
Örneklem büyüklüğünü ve çeşitliliğini artırmak .
Fatura OCR'ı nedir?
Fatura ayrıştırma işlemi, PDF ve resim gibi çeşitli formatlardaki faturalardan veri çıkarmak için NLP , NLU , OCR ve diğer veri çıkarma teknolojileri gibi otomatik araçlar kullanır.
Fatura ayrıştırıcı, fatura bilgilerini ayıklayan bir yazılım programıdır.
Satıcı adı
Fatura numarası
Ödenecek tutar
ve bu veriyi makine tarafından okunabilir bir formatta girer. Bu veri , hesap ödemelerinin otomatikleştirilmesi , ay sonu muhasebe işlemlerinin tamamlanması ve faturaların yönetimi gibi çeşitli işlevler için kullanılabilir.
Ayrıştırma yazılımı genellikle, faturanın alınmasından ödemesine kadar tüm süreci otomatikleştiren bir fatura işleme sistemine entegre edilir.
Fatura OCR araçları nasıl çalışır?
Belirli bir işaretleme dilinde yazılmış belgeler, ayrıştırıcılar tarafından okunur ve işlenir. Ayrıştırıcılar belgeyi belirteç adı verilen daha küçük parçalara ayırır ve her bir belirtecin ne anlama geldiğini ve belgenin yapısı içinde nereye uyduğunu belirlemek için inceler.
Bunu yapabilmek için ayrıştırıcıların söz konusu işaretleme dilinin grameri hakkında çok şey bilmesi gerekir. Bu, her bir belirteci tanımalarını ve aralarındaki kesin bağlantıları belirlemelerini sağlar.
Bu süreç 5 adımdan oluşmaktadır:
1. Giriş
Faturalar, kağıt, e-posta veya PDF veya XML gibi elektronik formatlar da dahil olmak üzere çeşitli biçimlerde alınabilir. Fatura ayrıştırma yazılımı genellikle bu faturaları girdi olarak kabul eder.
2. Optik Karakter Tanıma (OCR)
Fatura taranmış kağıt veya resim formatındaysa, ayrıştırıcı resimden metni çıkarmak için OCR teknolojisini kullanır. Bu, ayrıştırıcının faturada bulunan verilere erişmesini sağlar.
Bazı fatura ayrıştırma çözümleri, yeni kurallara veya şablonlara ihtiyaç duymadan PDF'lerden, fotoğraflardan ve taranmış belgelerden otomatik olarak bilgi çıkaran yapay zeka destekli OCR araçları veya LLM'ler kullanır. Bunun nedeni, yapay zekanın yarı yapılandırılmış ve alışılmadık belgeleri işleyebilmesi ve zamanla kendini geliştirebilmesidir. Çıkarılan bilgiler, yalnızca belirli tabloları veya veri girişlerini içerecek şekilde özelleştirilebilir.
3. Veri çıkarma
Ardından ayrıştırıcı, satıcı adı, fatura numarası, tarih ve ürün detayları gibi faturadan belirli bilgileri çıkaracaktır. Bu genellikle kalıp tanıma ve makine öğrenimi algoritmalarının bir kombinasyonu kullanılarak gerçekleştirilir.
Bazı fatura ayrıştırma yazılımları, önceden tanımlanmış filtreler kullanarak fatura tarihi, numarası, vergi kimlik numaraları ve çeşitli toplamlar gibi temel bilgileri ayıklama özelliğine sahiptir:
Bazı ayrıştırma araçları, her bir tedarikçi veya iş ortağı düzeni için ayrı bir belge ayrıştırıcısı oluşturarak, faturalardaki kalem bilgilerini tutarlı bir formatta ayıklama olanağı sunar:
4. Veri doğrulama
Veriler çıkarıldıktan sonra, ayrıştırıcı bilgilerin doğru ve eksiksiz olduğundan emin olmak için doğrulama işlemini gerçekleştirir. Bu, tarihin doğru biçimde olup olmadığını, satıcı adının önceden tanımlanmış bir satıcı listesiyle eşleşip eşleşmediğini veya ürün ayrıntılarının beklenen biçimle eşleşip eşleşmediğini kontrol etmeyi içerebilir.
5. Veri çıktısı
Çıkarılan ve doğrulanan veriler daha sonra kullanıcının muhasebe veya ERP sistemine kolayca aktarılabilecek bir formatta çıktı olarak verilir. Bu, CSV dosyası, veritabanı kaydı veya doğrudan muhasebe yazılımı şeklinde olabilir.
Fatura verilerinin manuel olarak çıkarılmasıyla ilgili zorluklar
Faturalardan verileri manuel olarak çıkarmak ve bir sisteme girmek, çeşitli karmaşıklıklar nedeniyle şirketler için zorlayıcı olabilir:
İnsan hatası
Faturalar büyük miktarda veri içerebilir ve manuel giriş, yazım hataları, rakamların yer değiştirmesi ve yanlış veri girişi gibi hatalar riskini artırır. Veri girişindeki yanlışlıkların yıllık yaklaşık 600 milyar dolarlık kayba neden olduğu tahmin edilmektedir. 1 Borç ödemeleri gibi süreçler, finansal belgelerden doğru veri dışa aktarımına ihtiyaç duyar.
Zaman tükeniyor
Ortalama olarak, tek bir faturanın manuel olarak işlenmesi 17 gün veya yaklaşık bir ayın %75'i kadar sürer. 2
Faturalarda birçok önemli bilgi bulunur ve bunların tümü, her bir öğenin hem anahtar hem de değer görevi gördüğü anahtar-değer tarzında sunulur. Bu çiftleri manuel olarak ayıklama işlemi zaman alıcıdır ve doğruluğu sağlamak için birden fazla inceleme gerektirir. Hatta bazı OCR algoritmaları bile bağlam olmadan çıkarılan değerleri tespit etmekte zorlanır. Otomatik fatura işleme, çalışanların daha karmaşık görevlere odaklanmasına yardımcı olabilir.
Standardizasyon eksikliği
Farklı tedarikçilerden gelen faturalar farklı formatlarda olabilir. Her fatura, işlenmesi ve yorumlanmasında zorluklara yol açabilen benzersiz bir formatla oluşturulur. E-posta, kağıt ve PDF gibi belgeler, ödeme için onaylanmadan önce birçok dijital ve kağıt kayıttan geçebilir; bu da verilerin manuel olarak çıkarılmasını zorlu ve hataya açık hale getirir.
Süreç verimsizliği
Faturaların elle işlenmesi, fatura başına ortalama yaklaşık 23 dolarlık bir maliyete yol açmaktadır. 3 hem zaman alıcı hem de pahalı olabilir ve verimsiz ve tekrarlayan bir sürece yol açabilir.
Veri kaybı potansiyeli
Faturaların kaybolması, hasar görmesi veya verilerin sisteme doğru girilmemesi durumunda veri kaybı riski vardır.
OCR yazılımları, faturalardan kalem kalem bilgi çıkarma konusunda da sıklıkla zorluklarla karşılaşır. Bunun nedeni, işlem tablolarında yatay veya dikey çizgilerin bulunmaması ve bu durumun OCR fatura işlemesinin çıkarılan kalemler için bağlam oluşturmasını zorlaştırmasıdır. Bu süreçte, toplanan dijital faturalar veya fatura görüntüleri kullanılabilir.
Fatura işleme hizmeti sağlayıcınızı nasıl seçersiniz?
1. Şirketinizin veri gizliliği politikalarına uygun bir çözüm sunar.
Şirketinizin veri gizliliği politikası, Amazon AWS Textract gibi harici API'lerin kullanımını engelleyebilir. Çoğu sağlayıcı şirket içi çözümler sunduğundan, veri gizliliği politikaları şirketinizin fatura yakalama çözümü kullanmasını mutlaka engellemez. Ödeme süreçleri, sıklıkla gizli ticari ve finansal bilgiler içerdiğinden, dikkatle ele alınmalıdır.
2. Belgelerdeki metinden bağımsız olarak tutarlı bir veri yapısı sağlayın.
Derin öğrenme tabanlı fatura yakalama şirketlerinin çalışma şekli ikiye ayrılıyor. Textract gibi şirketler anahtar-değer çiftleri döndürüyor. Örneğin, bir faturada toplam tutar "Brüt tutar", diğerinde "Toplam tutar" ve bir başka Almanca faturada "Summe" olarak geçiyorsa, Textract bu 3 belge için verileri 3 farklı yapıda sunuyor.
Birinde "Brüt tutar" anahtarıyla bir anahtar-değer çifti varken, diğerinde "Toplam tutar" ve Alman versiyonunda ise "Summe" elde edersiniz. Diğer sağlayıcılar, tüm faturalar için çalışan tutarlı veri yapıları tasarlamıştır. Her üç senaryoda da, çıktı dosyalarında kullandıkları anahtar olan "Toplam tutar"ı elde edersiniz. Bu, birçok farklı yapılandırılmış veri formatıyla uğraşmanıza gerek kalmadığı için analiz ve işlemeyi kolaylaştırır.
3. Yanlış pozitif ve manuel veri çıkarma oranlarını isteyin.
Ardından, şirketinizin aldığı faturalardaki gerçek oranları görmek için bir Kavram Kanıtı (PoC) projesi yürütün.
Yanlış pozitifler, otomatik olarak işlenen ancak veri çıkarma işleminde hatalar bulunan faturalardır. Bunların tespit edilmesi zordur ve operasyonları aksatabilir. Örneğin, ödeme tutarlarının yanlış çıkarılması sorun teşkil eder. Bunun en aza indirilmesi mutlak odak noktası olmalıdır.
Otomatik veri çıkarma sisteminin sonucuna olan güveninin sınırlı olduğu durumlarda manuel veri çıkarma işlemi gereklidir. Bu durum, farklı bir fatura formatı, düşük görüntü kalitesi veya tedarikçi tarafından yapılan bir baskı hatası nedeniyle olabilir. Yanlış pozitifleri en aza indirmek de önemlidir, ancak yanlış pozitifler ile manuel veri çıkarma arasında bir denge söz konusudur. Yanlış pozitiflere kıyasla daha fazla manuel veri çıkarma işlemi tercih edilebilir.
Bu alanda gördüğümüz ilk nicel kıyaslama çalışması bu ve kendi kıyaslama çalışmamızı hazırlarken benzer bir metodolojiyi izleyeceğiz.
4. Potansiyel otomasyon oranını ölçmek için bir PoC'den (Kavram Kanıtı) yararlanın.
Bu, belgelerden yakalamayı beklediğiniz alan sayısına bağlıdır. Satın alma siparişi kimliği, tedarikçi adı vb. öğeleri içeren tipik bir ~10 alan seti, ERP'ye veri girişi ve ödemeleri mümkün kılabilir.
En iyi uygulamaları benimseyen tedarikçiler, bu yaklaşık 10 alanın tamamını neredeyse hatasız bir şekilde (%80 oranında) çıkararak yaklaşık %80 STP (Straight To Pass) başarısı elde ederler. Zaman zaman hatalar olsa da, en büyük ödemeleri manuel olarak kontrol etmek, önemli miktarda yanlış ödeme fişinin gözden kaçmamasını sağlayabilir.
5. Tedarikçiden gelişmiş işleme seçenekleri hakkında bilgi isteyin.
Veri toplamanın ilk adımı veri çıkarma işlemidir; çoğu durumda bunu veri işleme takip etmelidir. Örneğin, faturaların KDV uyumluluğu açısından kontrol edilmesi gerekir (örneğin, KDV'siz yurt içi faturalarda KDV'nin neden hariç tutulduğu açıklanmalıdır) ve bunu yapmamak, ülkeye bağlı olarak şirket için önemli para cezalarına yol açabilir.
6. Çözümün yeni faturalar hakkında nasıl bilgi edindiğini sorun.
En iyi çözümler, ekibinizin çözümü yönlendirmesine olanak tanıyan bir arayüze sahiptir. Şirketinizin çalışanı anahtar-değer çiftlerini seçerken, fatura yakalama çözümü bunu not alır, böylece bir sonraki sefer benzer bir fatura konusunda daha emin olabilir.
7. Manuel veri girişi çözümlerinin kullanım kolaylığını değerlendirin.
Bu yazılım, şirketinizin arka ofis personeli tarafından, otomatik olarak güvenle işlenemeyen faturaları manuel olarak işlerken kullanılacaktır.
Bunun ötesinde, en iyi uygulama tedarikine ilişkin sorular da anlam kazanıyor. Örneğin:
- Çözümleri ne kadar yaygın olarak kullanılıyor? Fortune 500 şirketlerinden müşterileri var mı?
- Müşterileri çözümlerinden ve desteklerinden memnun mu? Çözümlerini zaten kullanan bir şirketten bir tanıdığınıza sormak iyi olabilir. Fatura otomasyonu bir şirketin pazarlama veya satışlarını iyileştirecek bir çözüm olmadığı için, rakipler bile fatura otomasyon çözümleri hakkındaki görüşlerini birbirleriyle paylaşabilirler.
- Çözümü şirketinizin sistemlerine (örneğin, ERP) entegre etmek için hangi seçenekler mevcut? BT departmanı entegrasyon yaklaşımını destekliyor mu?
- Toplam Sahip Olma Maliyetleri (TCO) nedir? Farklı çözümler farklı fiyatlandırma birimleri kullanır (örneğin, sayfa başına fiyat veya belge başına fiyat), bu da karşılaştırmayı zorlaştırır. Bununla birlikte, arşivlerinizden bir örnek kullanarak maliyetin bir tahminini yapabilirsiniz.
Yorum yapan ilk kişi olun
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.