Bize Ulaşın
Sonuç bulunamadı.

LLM'ler ile Fiş OCR Kıyaslaması

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 23, 2026
Bakınız etik normlar

Milyonlarca çalışanın işleriyle ilgili masraflarını fişler aracılığıyla bildirmesi nedeniyle, fişlerden veri çıkarmak işletmeler için hayati önem taşımaktadır. Üretken yapay zeka ve büyük dil modellerindeki son gelişmelerle birlikte, veri çıkarma doğruluğu insanlarla karşılaştırılabilir bir seviyeye ulaşmıştır.

Düşük ve yüksek kaliteli fiş görüntülerinde LLM'lerin veri çıkarma doğruluğunu, fişlerdeki veri çıkarma yeteneklerini değerlendirmek için Claude 3.5 Sonnet kullanarak değerlendirdik. Sonuçlar, fiş OCR testinde %97'lik ortalama başarı oranıyla yüksek doğruluk göstermektedir.

Fiş OCR kıyaslama sonuçları

Şekil 1: Veri çıkarma doğruluğunun sonuçları.

Veri kümesi

Veri setimizi iki bölüme ayırdık:

  • Yüksek kalite: Taranmış, yüksek çözünürlüklü fişler. Bu görüntüler iyi hizalanmış ve yüksek kontrastlıdır. 1

  • Düşük kalite: Fotoğraflanmış, düşük kaliteli

    Makbuzlar. Bu görüntüler düzgün hizalanmamış ve ön işlemden geçirilmemiş.

    kontrast daha yüksek. 2

Şekil 2: Yüksek kaliteli veri kümesinden ve düşük kaliteli veri kümesinden örnekler.

Amacımız, gerçek hayattan örnekleri olabildiğince çok ele almaktır.

Değerlendirmeyi kolaylaştırmak için JSON çıktısı istedik. Talebimiz şu: Lütfen PDF'lerdeki metni uygun bir JSON formatında çıktı olarak verin.

İlginizi çekiyorsa, fatura OCR karşılaştırma testini de okuyabilirsiniz.

Metodoloji

Sonuçlar anahtar-değer çifti düzeyinde değerlendirildi:

  • Bir alan doğru etiket ve değeri içeriyorsa, doğru olarak işaretlenir.

  • Etikette veya değerde gerçek değere kıyasla herhangi bir karakter farklılığı varsa, o satır yanlış olarak işaretlenir.

Çıkarma doğruluğu: Doğru şekilde çıkarılan anahtar-değer çiftlerinin sayısı, toplam anahtar-değer çiftlerinin sayısına bölünmesiyle elde edilir.

Makbuz OCR'ı nedir?

Fiş OCR (Optik Karakter Tanıma), yapay zeka ve makine öğrenimi algoritmalarını kullanarak taranmış ve dijital fişlerden veri çıkaran bir teknolojidir. Fiş OCR, verileri ayrıştırır, yapılandırılmış bir biçime dönüştürür ve fişteki tarih, ürünler ve fiyatlar gibi ayrıntıları yakalar.

Makbuzlardan veri çıkarma konusunda en iyi uygulamalar

OCR'nin doğruluğunu artırmak için görüntüler şu özelliklere sahip olmalıdır:

  • Daha yüksek çözünürlükte

  • İyi hizalanmış

  • Baskı hatalarından arındırılmış

Şunların farkında olmalısınız:

Fiş OCR araçlarının çoğu, bir sonraki satırda fiyatı belirtilmemiş bir not olduğunda doğru ürünü doğru fiyatla eşleştirmekte başarısız olur. Bu durumda, araçların bir sonraki ürünün fiyatını notun fiyatı olarak okuması yaygındır. Bunu daha net görmek için örneğe bakalım:

Şekil 3: Fiş OCR araçlarının sık yaptığı bir hata.

Bu gibi durumlarda, OCR çıktısı "SpcyDlx +PJ" ve 0,40 fiyatıyla eşleşebilir ki bu doğru değildir. Bu durum özellikle görüntü çözünürlüğü ve kalitesinin düşük olduğu ve görüntünün düzgün hizalanmadığı durumlarda mümkündür.

Düşük çözünürlük veya baskı hataları (mürekkebin harfi tamamen kaplamaması vb.) durumunda, araçların benzer harf ve rakamları tam olarak tanımlamakta zorlandığını fark ettik. Örneğin "8" ve "9" veya "5" ve "6" gibi. Ayrıca, özellikle tarihlerde "/" ve "1"i tanımlamakta zorluk çekmek de yaygın bir durum.

Fişlerden çıkarılabilecek veri türleri

  • Fiş numarası

  • Tarih

  • Satıcı adı

  • Ara toplam tutarı

  • Vergi tutarı

  • Toplam tutar

  • Satın alınan ürünler

Fiş verisi çıkarma işlemine ilişkin adım adım kılavuz:

  • Fiş tarama: Fişin yüksek çözünürlükte taranması. OCR fiş tarama, fişlerin fotoğraflarını çekmekten daha yüksek kaliteli görüntüler elde etmeye yardımcı olur.

  • Fiş işleme: Giriş görüntüsünün kontrastını ve okunabilirliğini artırmak için fişlerin işlenmesi gerekebilir.

  • Fiş ayrıştırma: Fiş görüntüsünü ayrıştırmak, verileri analiz etmek ve yakalamak için çok önemlidir; verileri daha düzenli parçalara ayırır.

  • Yapılandırılmış verilerin kullanımı: Yapılandırılmış veriler, muhasebe yazılımı gibi mevcut sistemlerde veri girişini otomatikleştirmek için kullanılabilir. İlgili veriler, finansal kayıtlarda işlem tarihini takip etmek ve gider yönetimi gibi birçok durumda kullanılabilir. LLM'ler veya fiş OCR API'leri kullanılarak fişlerden otomatik olarak veri çıkarılması, hataları ve manuel girişi azaltabilir ve yüksek doğrulukla genel verimliliği artırabilir.

El yazısı OCR kıyaslama ölçütümüzü de inceleyebilirsiniz.

SSS'ler

OCR teknolojisi, gider takibine ve harcama kalıplarının belirlenmesine yardımcı olur. JSON yanıtındaki satır öğeleri, önemli bilgiler sağlayabilir ve belgelerden ve faturalardan ham metni otomatik olarak çıkararak zamandan tasarruf etmeye yardımcı olabilir. İşletmeler, proje ihtiyaçlarına göre bir OCR motorunu ince ayar yapabilir. Avustralya işletme numarası ve KDV numarası gibi farklı ülkelerden işletme numaraları makbuzlardan çıkarılabilir.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle

Yorum yapan ilk kişi olun

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450