Optical Character Recognition (OCR) is a field of machine learning that specializes in distinguishing characters within images like scanned documents, printed books, or photos. Although it is a mature technology, there are still no OCR products that can recognize all kinds of text with 100% accuracy. Among the products that we benchmarked, only a few products could output successful results from our test set.OCR tools are used by companies to identify texts and their positions in images, classify business documents according to subjects, or conduct key-value pairing within documents. Based on OCR results, other technology companies build applications like document automation. For all these business cases, accurate text recognition is critical for an OCR product.

OCR Benchmark: Metin Çıkarma / Yakalama Doğruluğu

Cem Dilmegani

ile

Şevval Alper

Güncellenme tarihi: 29 Haz 2026

Bakınız etik normlar

Bu Benchmarkı Kaynak Göster

OCR doğruluğu, birçok belge işleme görevi için kritik öneme sahiptir ve SOTA çok modlu LLM'ler artık OCR için bir alternatif sunuyor. Farklı belge türlerindeki doğruluk seviyelerini belirlemek için DeltOCR Bench'te önde gelen OCR hizmetlerini test ettik:

El Yazısı: GPT-5 (%95) en güçlü performans gösteren olarak öne çıkarken, onu olmOCR-2-7B (%94) ve Gemini 2.5 Pro (%93) takip ediyor.
Basılı Medya: Gemini 2.5 Pro, Google Vision ve Claude Sonnet 4.5 en yüksek puanla (%85) bu kategoride liderlik ediyor.
Basılı Metin: Microsoft Azure Document Intelligence API %96 puanla liderlik ediyor.

OCR Benchmark: DeltOCR Bench

Loading Chart

Yukarıdaki ürünlerin tam adları ve Kasım 2025 itibarıyla kullanılan sürümleri aşağıda listelenmiştir. Çalışmamız, hem kolay erişilebilir API hizmetlerini hem de yerel altyapı gerektiren çözümleri kapsamakta ve piyasadaki önde gelen modelleri derinlemesine bir test ortamında karşılaştırmaktadır.

El Yazısı:
- Doğruluk Aralığı: %46'dan %95'e kadar geniş bir yelpaze.
- Öne Çıkanlar: GPT-5 (%95), olmOCR-2-7B (%94) ve Gemini 2.5 Pro (%93) en yüksek performansı sergiliyor. Bu yüksek puanlar, GPT-5 ve Gemini 2.5 Pro gibi çok modlu LLM'lerin bu alandaki olağanüstü doğruluk potansiyelini göstermektedir.
- Öneri: Son derece karmaşık el yazılarını tanımak için, API erişilebilirliği ve entegrasyon kolaylığı nedeniyle GPT-5 veya Gemini 2.5 Pro gibi önde gelen LLM çözümleri önerilmektedir.
Basılı Medya:
- Doğruluk Aralığı: %54'ten %85'e bir aralık.
- Öne Çıkanlar: Gemini 2.5 Pro, Google Vision ve Claude Sonnet 4.5 gibi çözümler en yüksek puanı (%85) paylaşıyor. Bu kategori, LLM'ler ve geleneksel bulut tabanlı OCR hizmetleri (Azure, Dots OCR, Amazon Textract) arasında son derece rekabetçidir. GPT-5, bu kategorideki diğer önde gelen LLM'lerin gerisinde kalmaktadır (%77).
- Öneri: Karmaşık görsel düzenlere sahip belgeler (birden fazla yazı tipi, düşük çözünürlük vb.) için Gemini 2.5 Pro gibi LLM'ler veya Google Vision gibi bulut tabanlı hizmetler veya Microsoft Azure Document Intelligence API önerilmektedir.
Basılı Metin:
- Doğruluk Aralığı: %55'ten %96'ya kadar yüksek bir aralık, ancak çoğu önde gelen çözüm %94 ve üzeri puanlar elde etti.
- Öne Çıkanlar: Microsoft Azure Document Intelligence API (%96) liderlik ediyor; onu GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision ve Amazon Textract gibi %95 puan alan çözümler takip ediyor. Bu kategori, tüm SOTA çözümlerin son derece yüksek doğruluk seviyelerine ulaştığı bir alandır.
- Öneri: Yüksek doğruluk gerektiren basit basılı metinler için Microsoft Azure Document Intelligence API veya Google Vision gibi yerleşik bulut çözümleri veya yüksek puan alan LLM'ler (Gemini/GPT-5) güvenle kullanılabilir.

API Çözümleri

Aşağıdaki modeller, hem erişim kolaylığı hem de performansları nedeniyle test listemize dahil edildi.

Claude Sonnet 4.5
OpenAI GPT-5
Gemini 2.5 Pro
Gemini 3 Pro Preview
Amazon Textract API
Google Cloud Vision API
Microsoft Azure Document Intelligence API
Moondream OCR
Mistral OCR 3
Mistral OCR 2

Microsoft Azure Document Intelligence API, Azure Bilişsel Hizmetler ailesinin bir parçasıdır.

Yerel (On-Premise) Dağıtılan Modeller

Bu modellerin test edilmesi, kurulum, bağımlılık yönetimi ve donanım gereksinimleri nedeniyle API çözümlerinden daha zordur. Tüm yerel testler özel bir sunucu ortamında gerçekleştirilmiştir.

olmOCR-2-7B
PaddleOCR-VL
Nanonets-OCR2-3B
Deepseek-OCR
Dots-OCR

Sonuçların doğruluğunu, basılı metin, basılı medya ve el yazısı için kosinüs benzerlik skoru olarak hesapladık. Grafikte görünen her skor, ilgili kategorideki karşılık gelen modelin performansını temsil eder.

Testlerimiz sırasında Nanonets-OCR2-3B modelinin benchmark'ta en zayıf performansı sergilediğini ve en düşük puanları aldığını gözlemledik. Genel olarak, bazı modellerin özellikle el yazısı ve düzensiz metin düzenleri (karışık satır sıralaması, tutarsız büyük/küçük harf kullanımı) ile mücadele ettiğini tespit ettik. Benzer performans sorunları, özellikle düşük çözünürlüklü görsellerde ve birden fazla yazı stili içerenlerde basılı medya kategorisinde de ortaya çıktı.

Veri Seti

Bu benchmark'ta toplam 300 belge kullandık; 3 kategori üzerinden her kategori için 100 belge:

Basılı metin harfler, web sitesi ekran görüntüleri, e-postalar, raporlar vb. içerir.

Basılı medya posterler, kitap kapakları, reklamlar vb. içerir. OCR araçlarının farklı metin fontlarında ve yerleşimlerinde başarısını görmek istedik.

Bu 2 kategorideki Dosyalar, Endüstri Belgeleri Kütüphanesi'nden (IDL) temin edildi.¹

El Yazısı: El yazısı kategorisinde, bazı IDL belgeleri okunması zor olduğu için ekibimiz IDL belgelerine benzer belgeler oluşturdu. İnsan tarafından okunabilir el yazısı örneklerini manuel olarak hazırladık. Tüm örnekler el yazısı stildeydi.

Şekil 1: Veri setimizden örnekler.

DeltOCR Bench Metodolojisi

Bu benchmark, ürünlerin metin çıkarma doğruluğuna odaklanmaktadır.

Ön işleme sadece el yazısı kategorisi için gerçekleştirilir. El yazısı belgelerin fotoğraflarını akıllı telefonlarımızla çektik ve bir mobil tarayıcı uygulaması kullandık:

Fotoğraflar siyah-beyaza dönüştürüldü
Kontrast artırıldı ve arka plan kaldırıldı.

OCR: Tüm ürünleri aynı veri seti üzerinde çalıştırdık ve metin çıktılarını ham metin (.txt) dosyaları olarak oluşturduk. Ardından, bu dosyalardaki tüm doğru metinleri içeren doğruluk verisini (ground truth) manuel olarak hazırladık. Doğruluk verisi iki kez insan tarafından doğrulandı.

Karşılaştırma: OCR çözümlerinin doğruluğunu, çıktılarını orijinal metinlerle karşılaştırarak ölçtük. Bu amaçla, kosinüs benzerlik skorlarını hesaplamak için Sentence-BERT (SBERT) çerçevesini kullandık. Benchmark'ta, her ürünün çıktısı ile doğruluk verisi metinleri arasındaki benzerlik skorunu hesaplamak için yüksek performanslı çok dilli eş anlamlı model MiniLM-L12-v2'yi kullandık. Bu skor, metin doğruluk seviyesini temsil eder.

Benzerlik fonksiyonu, iki metin arasındaki benzerliği hesaplamak için bir kosinüs mesafe metriği kullanır. Farklı ürünlerin metinleri farklı sıralarda çıkarması nedeniyle bu benchmark için Levenshtein mesafesini kullanmadık.²

Levenshtein mesafesi bu farklılıkları dikkate alırken, biz sadece metnin ne kadar doğru algılandığına bakıyoruz, nerede olduğuna değil. Kosinüs mesafesi, bu tür durumlar için ihmal edilebilir cezalar içerir, bu yüzden bu benchmark'ta kullanmaya karar verdik.

Ürün Seçimi

Piyasada birçok OCR ürünü bulunmaktadır. Ham metin sonuçları üretebilenlere odaklanmamız gerekiyor. Bu benchmark için ürünler şu kriterlere göre seçilmiştir:

Metin çıkarma yeteneği. Bu karşılaştırmada sadece makine tarafından okunabilir (yani yapılandırılmış veri) çıkaran çözümleri dahil etmedik
Piyasadaki popülerlikleri

Bu kapsamlı bir piyasa incelemesi değildir ve önemli yeteneklere sahip bazı ürünleri dışlamış olabiliriz. Eğer öyleyse, lütfen bir yorum bırakın, benchmark'ı genişletmekten memnuniyet duyarız.

Sınırlamalar

İleri düzey yetenekler gibi metin konum tespiti, anahtar-değer eşleştirme ve belge sınıflandırma bu benchmark'ta değerlendirilmedi.

Örneklem büyüklüğü bir sonraki döngüde artırılacaktır. El yazısı için OCR arıyorsanız, 50 örnekle el yazısı OCR benchmark'ımıza bakın.

Ayrıca ilgileniyorsanız fatura OCR benchmark'ımıza ve fiş OCR benchmark'ımıza da bakabilirsiniz.

Önceki OCR benchmark sonuçları

En iyi OCR şirketlerinin OCR doğruluk benchmark'ı

%90 güven aralıkları ile OCR Metin Doğruluğunun Genel Sonuçları

Google Cloud Vision ve AWS Textract, tüm durumlar için piyasadaki önde gelen teknolojilerdir
Abbyy, el yazısı olmayan belgeler için de yüksek performansa sahiptir
Açık kaynaklı Tesseract dahil tüm test edilen OCR'ler, dijital ekran görüntülerinde iyi performans gösterdi.

Google Cloud Platform'un Vision OCR aracı, tüm veri seti test edildiğinde %98.0'lık en yüksek metin doğruluğunu elde eder. Tüm ürünler, yazılı metinlerin dahil olduğu 1. Kategori ile %99.2'nin üzerinde performans gösterirken, 2. ve 3. Kategorilerdeki el yazısı görselleri ürünler arasındaki gerçek farkı yaratır.

Genel sonuçlar, GCP Vision ve AWS Textract'ın verilen metni tanıma konusunda en yüksek doğruluğa sahip baskın OCR ürünleri olduğunu göstermektedir.

Genel sonuçlardan notlar:

AWS Textract'ın el yazısını tanıyamadığı tek bir zaman vardır. Bu durum, AWS Textract'ın kategori ve toplam performansını önemli ölçüde düşürür. Ayrıca AWS Textract'ın tüm diğer durumlarda çok iyi performans göstermesi nedeniyle kategori ve genel içindeki sapmayı artırır.
Azure, %99.8 doğrulukla 1. Kategoride önde gelen üründür. Ancak, ürün ikinci kategori sonuçlarında gösterildiği gibi el yazısını tanıyamamakta sıkça başarısız olur. Bu, Azure'un üçüncü kategoride ve genel olarak geride kalmasının nedenidir.
Tesseract OCR, ücretsiz olarak kullanılabilen açık kaynaklı bir üründür. Azure ve ABBYY'ye kıyasla el yazısı örneklerinde daha iyi performans gösterir ve kullanıcı AWS veya GCP ürünlerini temin edemiyorsa el yazısı tanıma için dikkate alınabilir. Ancak, taranmış görsellerde zayıf performans gösterebilir.
Diğer ürünlerin aksine, ABBYY daha yapılandırılmış bir .txt dosyası çıkarır. ABBYY ayrıca çıktı dosyasını oluştururken metnin görsel içindeki konumunu da dikkate alır. Ürünün ek faydalı yetenekleri olsa da, bu benchmark'ta sadece metin doğruluğuna odaklanıyoruz. Ve el yazısı tanıma konusunda zayıf performans gösterdi.

“Sorun Çıkarıcı” Görselin Kaldırılması

Genel sonuçlarda belirtildiği gibi, AWS Textract'ın hiçbir metni tanıyamadığı tek bir “aykırı değer” görseli vardı. Ürün diğer tüm görsellerde %95'in üzerinde metin doğruluğu gösterirken, bu durum AWS'nin performansını düşürdü ve güven aralığını genişletti.

Bu durum bir istisna olabileceğinden, ürünleri bunun olmadan da karşılaştırmak istedik. Bu görseli “sorun çıkarıcı” olarak adlandırdık ve sonuçların fark yaratıp yaratmadığını görmek için sonuçlarımızı yeniden çalıştırdık.
Veri setinden “sorun çıkarıcı” hariç tutulduktan sonraki yeni sonuçlar şunlardır.

Bir aykırı değer görseli kaldırıldıktan sonraki en iyi OCR şirketlerinin OCR doğruluk benchmark'ı

“Sorun çıkarıcı” hariç tutulduğunda OCR Metin Doğruluğu Sonuçları. %90 güven aralığı gösterilmektedir

“Sorun çıkarıcı” hariç tutulduğunda, AWS Textract, dar bir güven aralığı ile neredeyse mükemmel (%99.3) bir metin doğruluk seviyesiyle en iyi performans gösteren haline gelir. Puanlar çok fazla değişmese de, GCP Vision ve AWS Textract, diğerlerinden daha iyi metin doğruluğuna sahip en iyi 2 ürün olarak kalmaktadır.

El Yazısı Tanıma Olmadan Sonuçlar

Bazı ürünlerin metin doğruluğunu azaltan ana faktör, görsellerde el yazısının bulunmasıdır. Bu nedenle, tüm görselleri (3. kategoriden tüm 2. kategori ve 6 görselleri) hariç tuttuk ve metin doğruluğu performansını tekrar değerlendirdik.

El yazısı metni kaldırıldıktan sonraki en iyi OCR şirketlerinin OCR doğruluk benchmark'ı

El yazısı tanıma durumları olmadan OCR Metin Doğruluğu

El yazısı görselleri hariç tutulduğunda sonuçlar daha çekişmeli hale gelir. AWS Textract ve GCP Vision benchmark'ta en iyi 2 ürün olarak kalmaktadır, ancak ABBYY FineReader da bu sefer çok iyi performans gösteriyor (%99.3). El yazısı hariç tutulduğunda tüm ürünler %95'in üzerinde doğruluk elde etse de, Azure Computer Vision ve Tesseract OCR hala taranmış belgelerle mücadele ediyor ve bu karşılaştırmada geride kalıyor.

Test Edilen Ürünler

Metin doğruluğu performanslarını ölçmek için beş OCR ürünü test ettik. Mayıs/2021 itibarıyla mevcut olan sürümleri kullandık. Kullanılan ürünler şunlardır:

ABBYY FineReader 15
Amazon Textract
Google Cloud Platform Vision API
Microsoft Azure Computer Vision API
Tesseract OCR Engine

Veri Seti

OCR için birçok görsel veri seti olmasına rağmen, bunlar

çoğunlukla karakter seviyesindedir ve gerçek iş kullanım durumlarına uygun değildir
veya metnin kendisinden ziyade metin konumuna odaklanır.

Bu nedenle, üç ana kategori altında kendi veri setimizi oluşturmaya karar verdik:

1. Kategori – Metin içeren web sayfası ekran görüntüleri: Bu kategori, rastgele sorgularla rastgele Wikipedia sayfalarından ve Google arama sonuçlarından ekran görüntülerini içerir.
2. Kategori – El Yazısı: Bu kategori, farklı el yazısı stillerini içeren rastgele fotoğrafları içerir.
3. Kategori – Fişler, faturalar ve taranmış sözleşmeler: Bu kategori, internetten toplanan rastgele fişler, el yazısı faturalar ve taranmış sigorta sözleşmelerinden oluşan bir koleksiyonu içerir.

Tüm girdi dosyaları .jpg veya .png formatındadır.

Sınırlamalar

Sınırlı Veri Seti: İlk başta, basılı belgelerde ürünlerin performansını değerlendirmek için gazete fotoğraflarından oluşan dördüncü bir kategorimiz vardı. Ancak, bu fotoğraflar çok fazla metin içeriyor, bu da doğruluk verisi oluşturmayı zorlaştırıyor. Bu nedenle kullanmaya karar vermedik.
Çıktı formatlarında tutarsızlıklar: Birçok görsel, sol ve sağ taraflarda ayrı metin örnekleri içerir. Ürünler bu metinleri farklı sıralarda çıkarır, bu da metinler doğru algılansa bile çıktı dosyalarının farklı olmasına neden olur. Bu durum, diğer mesafe ölçümlerini (Levenshtein mesafesi gibi) kullanmamızı engelledi ve metin doğruluğunu hesaplama seçeneklerimizi kısıtladı.
Kosinüs Mesafesi ile Olası Sorun: Kosinüs mesafesi, benzerliği hesaplarken gömülmeleri (embeddings) kullanır. Örneğin, “Çay severim” ve “Kahve severim” cümlelerini karşılaştırmak, olması gerekenden daha yüksek bir benzerlik skoru verecektir. Ancak, “çay” kelimesini “kahve” ile karıştırmak gibi durumlar nadir olacaktır, bu yüzden bu çalışmada bu olasılığı dikkate almadık.

Yazılım sağlayıcılarını sıralamak için diğer pazar verilerini (örneğin yazılım incelemeleri, müşteri vaka çalışmaları) kullanıyoruz. Ancak, çoğu şirket veri çıkarma çözümleri (yani makine tarafından okunabilir veri üretenleri de içeren) ararken “OCR” terimini kullandığından, listemiz bu benchmark çalışmasında sunulanlardan daha geniş bir kapsama ve daha fazla şirkete sahiptir.

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

SSS'ler

Optik Karakter Tanıma (OCR), taranmış belgeler, basılı kitaplar veya fotoğraflar gibi görseller içindeki karakterleri ayırt etmeye uzmanlaşmış bir makine öğrenimi alanıdır. Olgun bir teknoloji olmasına rağmen, tüm türdeki metinleri %100 doğrulukla tanıyabilen OCR ürünleri henüz yoktur. Test ettiğimiz ürünler arasında, test setimizden başarılı sonuçlar üretebilen sadece birkaç ürün vardı.
OCR araçları, şirketler tarafından görsellerdeki metinleri ve konumlarını belirlemek, iş belgelerini konularına göre sınıflandırmak veya belgeler içinde anahtar-değer eşleştirme yapmak için kullanılır. OCR sonuçlarına dayanarak, diğer teknoloji şirketleri belge otomasyonu gibi uygulamalar geliştirir. Tüm bu iş durumları için, doğru metin tanıma, bir OCR ürünü için kritik öneme sahiptir.

Bu benchmarkı kaynak gösterin

Yayınlayacağınız yere uygun formatı seçin. Bağlantılı sürümü CMS'inize yapıştırmak, geri bağlantıyı korur.

Cem Dilmegani and Şevval Alper (2026) - "OCR Benchmark: Metin Çıkarma / Yakalama Doğruluğu". AIMultiple.com adresinde çevrimiçi yayımlanmıştır. Erişim tarihi: 29 Haziran 2026, kaynak: https://aimultiple.com/ocr-accuracy [Çevrimiçi Kaynak]

Dilmegani, C., & Alper, Ş. (2026, 29 Haziran). OCR Benchmark: Metin Çıkarma / Yakalama Doğruluğu. AIMultiple. https://aimultiple.com/ocr-accuracy

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Alper, Şevval},
  title  = {{OCR Benchmark: Metin Çıkarma / Yakalama Doğruluğu}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/ocr-accuracy}},
  note   = {AIMultiple. Erişim tarihi: 29 Haziran 2026}
}

Referans Linkleri

pixparse/idl-wds · Datasets at Hugging Face

Pixel Parsing

Levenshtein distance - Wikipedia

Contributors to Wikimedia projects

Cem Dilmegani

Baş Analist

Takip Et

Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.

Tam Profili Görüntüle

Araştıran

Şevval Alper

Yapay Zeka Araştırmacısı

Takip Et

Şevval, AIMultiple'da yapay zeka kodlama araçları, yapay zeka ajanları ve kuantum teknolojileri konusunda uzmanlaşmış bir sektör analistidir.

Tam Profili Görüntüle

Yorumlar 8

Düşüncelerinizi Paylaşın

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir. Yorumlar orijinal dilinde bırakılır.

Serhat Cinar

Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani

Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ

Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani

Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster

Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi

Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby

Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani

Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun

Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani

Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott

Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani

Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob

Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani

Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin

Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani

Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.

OCR Benchmark: DeltOCR Bench

Önceki OCR benchmark sonuçları

SSS'ler

Bu benchmarkı kaynak gösterin

Etik normlar ve sürecimiz doğrultusunda tarafsızlığı esas alıyoruz. Bu araştırma AIMultiple'ın müşterilerinden hiçbirini içermiyor.

Google Arama'da daha fazla kıyaslamamızı ve veri odaklı içgörülerimizi görün.

Tercih edilen kaynak olarak ekle

Sıradaki Okunma

Bulut Bilişim14 May

OCR Benchmark: Metin Çıkarma / Yakalama Doğruluğu

OCR Benchmark: DeltOCR Bench

API Çözümleri

Yerel (On-Premise) Dağıtılan Modeller

Veri Seti

DeltOCR Bench Metodolojisi

Ürün Seçimi

Sınırlamalar

Önceki OCR benchmark sonuçları

“Sorun Çıkarıcı” Görselin Kaldırılması

El Yazısı Tanıma Olmadan Sonuçlar

Test Edilen Ürünler

Veri Seti

Sınırlamalar

SSS'ler

Optik Karakter Tanıma (OCR) nedir?

Bu benchmarkı kaynak gösterin

Atıflı bağlantıHTML; blog yazıları, LinkedIn makaleleri ve bültenler için. Tavsiye edilir.

APA 7. baskıAPA 7. baskı stiline uyan akademik makaleler ve analist raporları için.

BibTeXLaTeX belgeleri ve akademik referans yöneticileri için.

Referans Linkleri

Yorumlar 8

Düşüncelerinizi Paylaşın

Sıradaki Okunma

VPS Karşılaştırması: Hetzner vs Digital Ocean

Yeniden Sıralayıcı Benchmark: En İyi 8 Model Karşılaştırıldı

Tablo Modeller Benchmarki: 19 Veri Setinde Performans

Ajan Arama: Ajanlar için 8 Arama API'sini Karşılaştırma

MySQL İzleme: SolarWinds vs New Relic vs Datadog

En İyi 3 Sentetik Belge Üreticisi Karşılaştırmalı Test Edildi