OCR doğruluğu birçok belge işleme görevi için kritik öneme sahiptir ve en gelişmiş çok modlu LLM'ler artık OCR'ye bir alternatif sunmaktadır. Farklı belge türlerindeki doğruluk seviyelerini belirlemek için DeltOCR Bench'te önde gelen OCR hizmetlerini karşılaştırdık:
- El yazısı : GPT-5 (%95) en güçlü performansı sergilerken, onu yakından olmOCR-2-7B (%94) ve Gemini 2.5 Pro (%93) takip ediyor.
- Basılı medya : Gemini 2.5 Pro, Google Vision ve Claude Sonnet 4.5, bu kategoride en yüksek puanı (%85) alarak liderliği ele geçirdi.
- Basılı metin : Microsoft Azure Belge Intelligence API'si %96'lık bir puanla öne çıkıyor.
OCR Kıyaslama Testi: DeltOCR Kıyaslama Testi
Yukarıda belirtilen ürünlerin tam adları ve Kasım 2025 itibarıyla kullanımda olan sürümleri aşağıda listelenmiştir. Çalışmamız, hem kolay erişilebilir API hizmetlerini hem de yerinde altyapı gerektiren çözümleri kapsamakta olup, piyasadaki temel modelleri kapsamlı bir test ortamında karşılaştırmaktadır.
- El yazısı :
- Doğruluk Aralığı: %46 ile %95 arasında geniş bir aralık.
- Öne çıkanlar: GPT-5 (%95), olmOCR-2-7B (%94) ve Gemini 2.5 Pro (%93) en yüksek performansı sergiliyor. Bu yüksek puanlar, GPT-5 ve Gemini 2.5 Pro gibi çok modlu LLM'lerin bu alanda olağanüstü doğruluk potansiyelini göstermektedir.
- Öneri: Son derece karmaşık el yazısını tanımak için, API erişilebilirliği ve entegrasyon kolaylığı nedeniyle GPT-5 veya Gemini 2.5 Pro gibi en iyi LLM çözümleri önerilir.
- Basılı medya :
- Doğruluk Aralığı: %54 ile %85 arasında bir aralık.
- Öne çıkanlar: Gemini 2.5 Pro, Google Vision ve Claude Sonnet 4.5 gibi çözümler en yüksek puanı (%85) paylaşıyor. Bu kategori, LLM'ler ve geleneksel bulut tabanlı OCR hizmetleri (Azure, Dots OCR, Amazon Textract) arasında oldukça rekabetçi. GPT-5 bu kategoride diğer önde gelen LLM'lerin gerisinde kalıyor (%77).
- Öneri: Karmaşık görsel düzenlere sahip belgeler için (çoklu yazı tipleri, düşük çözünürlük vb.), Gemini 2.5 Pro gibi LLM'ler veya Google Vision veya Microsoft Azure Document Intelligence API gibi bulut tabanlı hizmetler önerilir.
- Basılı metin :
- Doğruluk Aralığı: %55 ile %96 arasında geniş bir aralık, ancak önde gelen çözümlerin çoğu %94 ve üzeri puanlar elde etti.
- Öne çıkanlar: Microsoft Azure Document Intelligence API (%96) liderliği ele geçirirken, onu yakından takip eden çözümler arasında GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision ve Amazon Textract yer alıyor ve hepsi %95 puan alıyor. Bu kategori, tüm SOTA çözümlerinin son derece yüksek doğruluk seviyelerine ulaştığı bir alandır.
- Öneri: Yüksek doğruluk gerektiren basit basılı metinler için, Azure Document Ligence API veya Vision gibi yerleşik bulut çözümleri veya yüksek puanlı LLM'ler (Gemini/1211) güvenle kullanılabilir.
API Çözümleri
Erişim kolaylığı ve performansları nedeniyle aşağıdaki modeller karşılaştırma listemize dahil edilmiştir.
- Claude Sonnet 4.5
- OpenAI GPT-5
- Gemini 2.5 Pro
- Gemini 3 Pro Önizlemesi
- Amazon Textract API
- Google Cloud Vision API
- Microsoft Azure Belgesi Intelligence API
- Moondream OCR
- Mistral OCR 3
- Mistral OCR 2
Azure Document Microsoftligence API, Azure Bilişsel Hizmetler ailesinin bir parçasıdır.
Yerel (Yerinde) Dağıtılmış Modeller
Bu modellerin test edilmesi, kurulum, bağımlılık yönetimi ve donanım gereksinimleri nedeniyle API çözümlerine göre daha zordur. Tüm yerel testler özel bir sunucu ortamında gerçekleştirilmiştir.
- olmOCR-2-7B
- PaddleOCR-VL
- Nanonets-OCR2-3B
- Deepseek-OCR
- Nokta-OCR
Sonuçların doğruluğunu, basılı metin, basılı medya ve el yazısı için kosinüs benzerlik puanı olarak hesapladık. Grafikte görünen her puan, ilgili modelin o kategori içindeki performansını temsil eder.
Testlerimiz sırasında, Nanonets-OCR2-3B modelinin kıyaslama testinde en zayıf performansı gösterdiğini ve en düşük puanları aldığını gözlemledik. Genel olarak, bazı modellerin özellikle el yazısı ve düzensiz metin düzenleriyle (karışık satır sıralaması, tutarsız büyük/küçük harf kullanımı) zorlandığını tespit ettik. Benzer performans sorunları, özellikle düşük çözünürlüklü görüntüler ve birden fazla yazı tipi stili içeren görüntülerde, basılı medya kategorisinde de ortaya çıktı.
Veri kümesi
Bu karşılaştırma çalışmasında toplamda 3 kategoriye yayılmış, her kategoride 100 belge olmak üzere toplam 300 belge kullandık:
Basılı metin; mektupları, web sitesi ekran görüntülerini, e-postaları, raporları vb. içerir.
Basılı medya , posterler, kitap kapakları, reklamlar vb. içerir. OCR araçlarının farklı metin yazı tiplerinde ve yerleşimlerinde ne kadar başarılı olduğunu görmeyi amaçladık.
Bu iki kategorideki dosyalar Endüstri Belgeleri Kütüphanesi'nden (IDL) temin edilmiştir. 1
El yazısı: El yazısı kategorisinde, bazı IDL belgelerinin okunması zor olduğundan, ekibimiz IDL belgelerine benzer belgeler oluşturdu. İnsan tarafından okunabilir el yazısı örnekleri elle hazırladık. Tüm örnekler bitişik el yazısı stilindeydi.
DeltOCR Bench'in Metodolojisi
Bu kıyaslama, ürünlerin metin çıkarma doğruluğuna odaklanmaktadır.
Ön işleme yalnızca el yazısı kategorisi için gerçekleştirilir. El yazısı belgelerin fotoğraflarını akıllı telefonlarımızla çektik ve bir mobil tarayıcı uygulaması kullandık:
- Resimler siyah beyaz hale dönüştürüldü.
- Kontrast artırıldı ve arka plan kaldırıldı.
OCR: Tüm ürünleri aynı veri kümesi üzerinde çalıştırdık ve ham metin (.txt) dosyaları olarak metin çıktıları oluşturduk. Ardından, bu dosyaların tümüne doğru metni içeren gerçek verileri manuel olarak hazırladık. Gerçek veriler insanlar tarafından iki kez doğrulandı.
Karşılaştırma: OCR çözümlerinin doğruluğunu, çıktılarını orijinal metinlerle karşılaştırarak ölçtük. Bu amaçla, kosinüs benzerlik puanlarını hesaplamak için Sentence-BERT (SBERT) çerçevesini kullandık. Karşılaştırma testinde, her ürünün çıktısı ile gerçek metinler arasındaki benzerlik puanını hesaplamak için yüksek performanslı çok dilli eş anlamlılık modeli MiniLM-L12-v2'yi kullandık. Bu puan, metin doğruluk seviyesini temsil eder.
Benzerlik fonksiyonu, iki metin arasındaki benzerliği hesaplamak için kosinüs mesafe ölçütünü kullanır. Farklı ürünler metinleri farklı sıralarda çıkardığı için bu karşılaştırmada Levenshtein mesafesini kullanmadık. 2
Levenshtein mesafesi bu farklılıkları hesaba katarken, biz sadece metnin ne kadar doğru tespit edildiğini inceliyoruz, nerede bulunduğunu değil. Kosinüs mesafesinin bu tür durumlar için ihmal edilebilir cezaları vardır, bu nedenle bu karşılaştırmada onu kullanmaya karar verdik.
Ürün seçimi
Piyasada birçok OCR ürünü bulunmaktadır. Bizim odaklanmamız gerekenler, ham metin sonuçları üretebilen ürünlerdir. Bu kıyaslama için ürünler şu kriterlere göre seçilmiştir:
- Metin çıkarma yeteneği. Bu karşılaştırmada yalnızca makine tarafından okunabilir (yani yapılandırılmış) veri çıkaran çözümleri dahil etmedik.
- Piyasadaki popülerlikleri
Bu kapsamlı bir pazar incelemesi değildir ve önemli özelliklere sahip bazı ürünleri dışarıda bırakmış olabiliriz. Eğer durum böyleyse, lütfen yorum bırakın, karşılaştırmayı genişletmekten memnuniyet duyarız.
Sınırlamalar
Bu kıyaslamada metin konum tespiti, anahtar-değer eşleştirme ve belge sınıflandırma gibi gelişmiş özellikler değerlendirilmemiştir.
Bir sonraki yinelemede örneklem boyutu artırılacaktır. El yazısı için OCR arıyorsanız, 50 örneklem içeren el yazısı OCR karşılaştırma testimize bakın.
İlginizi çekiyorsa, fatura OCR kıyaslama testlerimizi ve makbuz OCR kıyaslama testlerimizi de inceleyebilirsiniz.
Önceki OCR kıyaslama sonuçları
- Google Cloud Vision ve AWS Textract, her türlü durum için piyasadaki lider teknolojilerdir.
- Abbyy, el yazısı olmayan belgeler için de yüksek performans sunmaktadır.
- Açık kaynaklı Tesseract dahil olmak üzere, karşılaştırmalı testlere tabi tutulan tüm optik karakter tanıma (OCR) algoritmaları, dijital ekran görüntülerinde iyi performans gösterdi.
Cloud Platform'un Vision OCR aracı, tüm veri seti test edildiğinde %98,0'lık en yüksek metin doğruluğuna ulaşmaktadır. Yazılı metinlerin de dahil olduğu Kategori 1'de tüm ürünler %99,2'nin üzerinde performans gösterirken, Kategori 2 ve 3'teki el yazısı görüntüler ürünler arasındaki gerçek farkı yaratmaktadır.
Genel sonuçlar, GCP Vision ve AWS Textract'ın verilen metni tanımada en yüksek doğruluğa sahip baskın OCR ürünleri olduğunu göstermektedir.
Genel sonuçlardan notlar:
- AWS Textract'ın el yazısı metni tanımada başarısız olduğu tek bir durum yaşandı. Bu durum, AWS Textract'ın kategori ve genel performansını önemli ölçüde düşürüyor. Ayrıca, AWS Textract diğer tüm durumlarda çok iyi performans gösterdiği için, kategori içindeki ve genel performanstaki sapmayı da artırıyor.
- Azure, %99,8 doğruluk oranıyla 1. Kategoride lider üründür. Ancak, ikinci kategori sonuçlarında da görüldüğü gibi, ürün el yazısı metni tanımada sıklıkla başarısız olmaktadır. Bu nedenle Azure, üçüncü kategoride ve genel olarak geride kalmaktadır.
- Tesseract OCR, ücretsiz olarak kullanılabilen açık kaynaklı bir üründür. Azure ve ABBYY ile karşılaştırıldığında, el yazısı örneklerinde daha iyi performans gösterir ve kullanıcı AWS veya GCP ürünlerini edinemiyorsa el yazısı tanıma için düşünülebilir. Bununla birlikte, taranmış görüntülerde performansı düşük olabilir.
- Diğer ürünlerden farklı olarak, ABBYY daha yapılandırılmış bir .txt dosyası üretir. ABBYY ayrıca çıktı dosyasını oluştururken metnin görüntü içindeki konumunu da dikkate alır. Ürün ek kullanışlı özelliklere sahip olsa da, bu karşılaştırmada yalnızca metin doğruluğuna odaklanıyoruz. Ve el yazısı tanımada kötü performans gösterdi.
“Sorun Çıkaran” görüntüsünü kaldırmak
Genel sonuçlarda da belirtildiği gibi, AWS Textract'in hiçbir metni tanıyamadığı tek bir "aykırı" görüntü vardı. Ürün diğer tüm görüntülerde %95'in üzerinde metin doğruluğu gösterirken, bu durum AWS'nin performansını düşürdü ve güven aralığını genişletti.
Bu durum bir istisna olabileceği için, bu görsel olmadan da ürünleri karşılaştırmak istedik. Bu görsele "sorun çıkaran" adını verdik ve bir fark yaratıp yaratmadığını görmek için sonuçlarımızı yeniden inceledik.
"Sorun çıkaran" kişiyi veri kümesinden çıkardıktan sonra elde edilen yeni sonuçlar şunlardır.
“Sorun çıkaran” unsur dışarıda bırakıldığında, AWS Textract neredeyse mükemmel (%99,3) bir metin doğruluk seviyesi ve dar bir güven aralığıyla en iyi performansı sergiliyor. Puanlar çok fazla değişmese de, GCP Vision ve AWS Textract, diğerlerinden daha iyi metin doğruluğuyla ilk 2 ürün olmaya devam ediyor.
El yazısı tanıma özelliği olmadan elde edilen sonuçlar
Bazı ürünlerin metin doğruluğunu azaltan temel faktör, görsellerde el yazısının bulunmasıdır. Bu nedenle, tüm görselleri (kategori 2'deki tüm görselleri ve kategori 3'teki 6 görseli) hariç tuttuk ve metin doğruluğu performansını yeniden değerlendirdik.
El yazısı görüntüler hariç tutulduğunda sonuçlar daha da yakınlaşıyor. AWS Tesseract ve GCP Vision, kıyaslamada en iyi 2 ürün olmaya devam ediyor, ancak ABBYY FineReader da bu sefer çok iyi bir performans sergiliyor (%99,3). El yazısı hariç tutulduğunda tüm ürünler %95'in üzerinde doğruluk elde etse de, Azure Computer Vision ve Tesseract OCR taranmış belgelerle hala zorlanıyor ve bu karşılaştırmada geride kalıyor.
Kıyaslama yapılmış ürünler
Metin doğruluğu performanslarını ölçmek için beş OCR ürününü test ettik. Mayıs 2021 itibarıyla piyasada bulunan sürümleri kullandık. Kullanılan ürünler şunlardır:
- ABBYY FineReader 15
- Amazon Textract
- Google Bulut Platformu Vizyon API'si
- Microsoft Azure Bilgisayar Görseli API'si
- Tesseract OCR Motoru
Veri kümesi
OCR için birçok görüntü veri seti bulunmasına rağmen, bunlar şunlardır:
- Çoğunlukla karakter düzeyindedir ve gerçek iş kullanım senaryolarına uymamaktadır.
- Ya da metnin kendisinden ziyade metnin konumuna odaklanın.
Bu nedenle, üç ana kategori altında kendi veri setimizi oluşturmaya karar verdik:
- Kategori 1 – Metin içeren web sayfası ekran görüntüleri: Bu kategori, rastgele Wikipedia sayfalarından ve rastgele sorgular içeren Google arama sonuçlarından alınan ekran görüntülerini içerir.
- Kategori 2 – El Yazısı: Bu kategori, farklı el yazısı stillerini içeren rastgele fotoğrafları içerir.
- Kategori 3 – Makbuzlar, faturalar ve taranmış sözleşmeler: Bu kategori, internetten toplanan rastgele seçilmiş makbuzları, el yazısı faturaları ve taranmış sigorta sözleşmelerini içerir.
Tüm giriş dosyaları .jpg veya .png formatındadır.
Sınırlamalar
- Sınırlı Veri Kümesi: Başlangıçta, basılı belgelerdeki ürün performansını değerlendirmek için gazete fotoğraflarından oluşan dördüncü bir kategorimiz vardı. Ancak bu fotoğraflar çok fazla metin içerdiğinden, gerçek verileri oluşturmak zordu. Bu nedenle, bunları kullanmamaya karar verdik.
- Çıktı formatlarında tutarsızlıklar: Birçok görüntü, sol ve sağ taraflarda ayrı metin örnekleri içermektedir. Ürünler bu metinleri farklı sıralarda çıkarır ve bu da metinler doğru bir şekilde algılansa da çıktı dosyalarının farklı olmasına neden olur. Bu durum, diğer mesafe ölçümlerini (Levenshtein mesafesi gibi) kullanmamızı engelledi ve metin doğruluğunu hesaplama seçeneklerimizi sınırladı.
- Kosinüs Mesafesiyle İlgili Olası Sorun: Kosinüs mesafesi, benzerliği hesaplarken gömülü vektörleri kullanır. Örneğin, "Çay severim" ve "Kahve severim" cümlelerini karşılaştırmak, olması gerekenden daha yüksek bir benzerlik puanı verecektir. Bununla birlikte, "çay" kelimesini "kahve" ile karıştırmak gibi durumlar nadir olacağından, bu alıştırmada bu olasılığı dikkate almadık.
Yazılım sağlayıcılarını sıralamak için diğer pazar verilerini (örneğin yazılım incelemeleri, müşteri vaka çalışmaları) kullanıyoruz. Bununla birlikte, çoğu şirket veri çıkarma çözümleri ararken (yani makine tarafından okunabilir veri üretenler de dahil olmak üzere) "OCR" terimini kullandığından, listemiz bu kıyaslama çalışmasında sunulanlardan daha geniş kapsamlı ve daha fazla şirketi içermektedir.
SSS'ler
Optik Karakter Tanıma (OCR), taranmış belgeler, basılı kitaplar veya fotoğraflar gibi görüntüler içindeki karakterleri ayırt etmede uzmanlaşmış bir makine öğrenmesi alanıdır. Olgun bir teknoloji olmasına rağmen, her türlü metni %100 doğrulukla tanıyabilen OCR ürünleri henüz mevcut değildir. Karşılaştırma yaptığımız ürünler arasında, test setimizden başarılı sonuçlar verebilen yalnızca birkaç ürün vardı.
OCR araçları, şirketler tarafından metinleri ve bunların görüntülerdeki konumlarını belirlemek, iş belgelerini konulara göre sınıflandırmak veya belgeler içinde anahtar-değer eşleştirmesi yapmak için kullanılır. OCR sonuçlarına dayanarak, diğer teknoloji şirketleri belge otomasyonu gibi uygulamalar geliştirir. Tüm bu iş durumları için, doğru metin tanıma, bir OCR ürünü için kritik öneme sahiptir.
Yorumlar 8
Düşüncelerinizi Paylaşın
E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.
Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?
Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.
Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.
Hi there, thank you for the detailed comment, we are updating the article to include these details.
Hello, great work! Just curious, did you use a trained Tesseract when making these testing?
Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.
The graph images are not working for me at the moment. Otherwise great
Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.
Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html
Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.
What version of Tesseract did you test with? They recently released v5.
Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.
This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.
Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.
interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!
Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.