Bize Ulaşın
Sonuç bulunamadı.

OCR Performans Testi: Metin Çıkarma/Yakalama Doğruluğu

Cem Dilmegani
Cem Dilmegani
güncellendi Oca 22, 2026
Bakınız etik normlar

OCR doğruluğu birçok belge işleme görevi için kritik öneme sahiptir ve en gelişmiş çok modlu LLM'ler artık OCR'ye bir alternatif sunmaktadır. Farklı belge türlerindeki doğruluk seviyelerini belirlemek için DeltOCR Bench'te önde gelen OCR hizmetlerini karşılaştırdık:

  • El yazısı : GPT-5 (%95) en güçlü performansı sergilerken, onu yakından olmOCR-2-7B (%94) ve Gemini 2.5 Pro (%93) takip ediyor.
  • Basılı medya : Gemini 2.5 Pro, Google Vision ve Claude Sonnet 4.5, bu kategoride en yüksek puanı (%85) alarak liderliği ele geçirdi.
  • Basılı metin : Microsoft Azure Belge Intelligence API'si %96'lık bir puanla öne çıkıyor.

OCR Kıyaslama Testi: DeltOCR Kıyaslama Testi

Loading Chart

Yukarıda belirtilen ürünlerin tam adları ve Kasım 2025 itibarıyla kullanımda olan sürümleri aşağıda listelenmiştir. Çalışmamız, hem kolay erişilebilir API hizmetlerini hem de yerinde altyapı gerektiren çözümleri kapsamakta olup, piyasadaki temel modelleri kapsamlı bir test ortamında karşılaştırmaktadır.

  • El yazısı :
    • Doğruluk Aralığı: %46 ile %95 arasında geniş bir aralık.
    • Öne çıkanlar: GPT-5 (%95), olmOCR-2-7B (%94) ve Gemini 2.5 Pro (%93) en yüksek performansı sergiliyor. Bu yüksek puanlar, GPT-5 ve Gemini 2.5 Pro gibi çok modlu LLM'lerin bu alanda olağanüstü doğruluk potansiyelini göstermektedir.
    • Öneri: Son derece karmaşık el yazısını tanımak için, API erişilebilirliği ve entegrasyon kolaylığı nedeniyle GPT-5 veya Gemini 2.5 Pro gibi en iyi LLM çözümleri önerilir.
  • Basılı medya :
    • Doğruluk Aralığı: %54 ile %85 arasında bir aralık.
    • Öne çıkanlar: Gemini 2.5 Pro, Google Vision ve Claude Sonnet 4.5 gibi çözümler en yüksek puanı (%85) paylaşıyor. Bu kategori, LLM'ler ve geleneksel bulut tabanlı OCR hizmetleri (Azure, Dots OCR, Amazon Textract) arasında oldukça rekabetçi. GPT-5 bu kategoride diğer önde gelen LLM'lerin gerisinde kalıyor (%77).
    • Öneri: Karmaşık görsel düzenlere sahip belgeler için (çoklu yazı tipleri, düşük çözünürlük vb.), Gemini 2.5 Pro gibi LLM'ler veya Google Vision veya Microsoft Azure Document Intelligence API gibi bulut tabanlı hizmetler önerilir.
  • Basılı metin :
    • Doğruluk Aralığı: %55 ile %96 arasında geniş bir aralık, ancak önde gelen çözümlerin çoğu %94 ve üzeri puanlar elde etti.
    • Öne çıkanlar: Microsoft Azure Document Intelligence API (%96) liderliği ele geçirirken, onu yakından takip eden çözümler arasında GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision ve Amazon Textract yer alıyor ve hepsi %95 puan alıyor. Bu kategori, tüm SOTA çözümlerinin son derece yüksek doğruluk seviyelerine ulaştığı bir alandır.
    • Öneri: Yüksek doğruluk gerektiren basit basılı metinler için, Azure Document Ligence API veya Vision gibi yerleşik bulut çözümleri veya yüksek puanlı LLM'ler (Gemini/1211) güvenle kullanılabilir.

API Çözümleri

Erişim kolaylığı ve performansları nedeniyle aşağıdaki modeller karşılaştırma listemize dahil edilmiştir.

  • Claude Sonnet 4.5
  • OpenAI GPT-5
  • Gemini 2.5 Pro
  • Gemini 3 Pro Önizlemesi
  • Amazon Textract API
  • Google Cloud Vision API
  • Microsoft Azure Belgesi Intelligence API
  • Moondream OCR
  • Mistral OCR 3
  • Mistral OCR 2

Azure Document Microsoftligence API, Azure Bilişsel Hizmetler ailesinin bir parçasıdır.

Yerel (Yerinde) Dağıtılmış Modeller

Bu modellerin test edilmesi, kurulum, bağımlılık yönetimi ve donanım gereksinimleri nedeniyle API çözümlerine göre daha zordur. Tüm yerel testler özel bir sunucu ortamında gerçekleştirilmiştir.

  • olmOCR-2-7B
  • PaddleOCR-VL
  • Nanonets-OCR2-3B
  • Deepseek-OCR
  • Nokta-OCR

Sonuçların doğruluğunu, basılı metin, basılı medya ve el yazısı için kosinüs benzerlik puanı olarak hesapladık. Grafikte görünen her puan, ilgili modelin o kategori içindeki performansını temsil eder.

Testlerimiz sırasında, Nanonets-OCR2-3B modelinin kıyaslama testinde en zayıf performansı gösterdiğini ve en düşük puanları aldığını gözlemledik. Genel olarak, bazı modellerin özellikle el yazısı ve düzensiz metin düzenleriyle (karışık satır sıralaması, tutarsız büyük/küçük harf kullanımı) zorlandığını tespit ettik. Benzer performans sorunları, özellikle düşük çözünürlüklü görüntüler ve birden fazla yazı tipi stili içeren görüntülerde, basılı medya kategorisinde de ortaya çıktı.

Veri kümesi

Bu karşılaştırma çalışmasında toplamda 3 kategoriye yayılmış, her kategoride 100 belge olmak üzere toplam 300 belge kullandık:

Basılı metin; mektupları, web sitesi ekran görüntülerini, e-postaları, raporları vb. içerir.

Basılı medya , posterler, kitap kapakları, reklamlar vb. içerir. OCR araçlarının farklı metin yazı tiplerinde ve yerleşimlerinde ne kadar başarılı olduğunu görmeyi amaçladık.

Bu iki kategorideki dosyalar Endüstri Belgeleri Kütüphanesi'nden (IDL) temin edilmiştir. 1

El yazısı: El yazısı kategorisinde, bazı IDL belgelerinin okunması zor olduğundan, ekibimiz IDL belgelerine benzer belgeler oluşturdu. İnsan tarafından okunabilir el yazısı örnekleri elle hazırladık. Tüm örnekler bitişik el yazısı stilindeydi.

Şekil 1: Veri setimizden örnekler.

DeltOCR Bench'in Metodolojisi

Bu kıyaslama, ürünlerin metin çıkarma doğruluğuna odaklanmaktadır.

Ön işleme yalnızca el yazısı kategorisi için gerçekleştirilir. El yazısı belgelerin fotoğraflarını akıllı telefonlarımızla çektik ve bir mobil tarayıcı uygulaması kullandık:

  • Resimler siyah beyaz hale dönüştürüldü.
  • Kontrast artırıldı ve arka plan kaldırıldı.

OCR: Tüm ürünleri aynı veri kümesi üzerinde çalıştırdık ve ham metin (.txt) dosyaları olarak metin çıktıları oluşturduk. Ardından, bu dosyaların tümüne doğru metni içeren gerçek verileri manuel olarak hazırladık. Gerçek veriler insanlar tarafından iki kez doğrulandı.

Karşılaştırma: OCR çözümlerinin doğruluğunu, çıktılarını orijinal metinlerle karşılaştırarak ölçtük. Bu amaçla, kosinüs benzerlik puanlarını hesaplamak için Sentence-BERT (SBERT) çerçevesini kullandık. Karşılaştırma testinde, her ürünün çıktısı ile gerçek metinler arasındaki benzerlik puanını hesaplamak için yüksek performanslı çok dilli eş anlamlılık modeli MiniLM-L12-v2'yi kullandık. Bu puan, metin doğruluk seviyesini temsil eder.

Benzerlik fonksiyonu, iki metin arasındaki benzerliği hesaplamak için kosinüs mesafe ölçütünü kullanır. Farklı ürünler metinleri farklı sıralarda çıkardığı için bu karşılaştırmada Levenshtein mesafesini kullanmadık. 2

Levenshtein mesafesi bu farklılıkları hesaba katarken, biz sadece metnin ne kadar doğru tespit edildiğini inceliyoruz, nerede bulunduğunu değil. Kosinüs mesafesinin bu tür durumlar için ihmal edilebilir cezaları vardır, bu nedenle bu karşılaştırmada onu kullanmaya karar verdik.

Ürün seçimi

Piyasada birçok OCR ürünü bulunmaktadır. Bizim odaklanmamız gerekenler, ham metin sonuçları üretebilen ürünlerdir. Bu kıyaslama için ürünler şu kriterlere göre seçilmiştir:

  • Metin çıkarma yeteneği. Bu karşılaştırmada yalnızca makine tarafından okunabilir (yani yapılandırılmış) veri çıkaran çözümleri dahil etmedik.
  • Piyasadaki popülerlikleri

Bu kapsamlı bir pazar incelemesi değildir ve önemli özelliklere sahip bazı ürünleri dışarıda bırakmış olabiliriz. Eğer durum böyleyse, lütfen yorum bırakın, karşılaştırmayı genişletmekten memnuniyet duyarız.

Sınırlamalar

Bu kıyaslamada metin konum tespiti, anahtar-değer eşleştirme ve belge sınıflandırma gibi gelişmiş özellikler değerlendirilmemiştir.

Bir sonraki yinelemede örneklem boyutu artırılacaktır. El yazısı için OCR arıyorsanız, 50 örneklem içeren el yazısı OCR karşılaştırma testimize bakın.

İlginizi çekiyorsa, fatura OCR kıyaslama testlerimizi ve makbuz OCR kıyaslama testlerimizi de inceleyebilirsiniz.

Önceki OCR kıyaslama sonuçları

%90 güven aralığı ile OCR metin doğruluğunun genel sonuçları
  • Google Cloud Vision ve AWS Textract, her türlü durum için piyasadaki lider teknolojilerdir.
  • Abbyy, el yazısı olmayan belgeler için de yüksek performans sunmaktadır.
  • Açık kaynaklı Tesseract dahil olmak üzere, karşılaştırmalı testlere tabi tutulan tüm optik karakter tanıma (OCR) algoritmaları, dijital ekran görüntülerinde iyi performans gösterdi.

Cloud Platform'un Vision OCR aracı, tüm veri seti test edildiğinde %98,0'lık en yüksek metin doğruluğuna ulaşmaktadır. Yazılı metinlerin de dahil olduğu Kategori 1'de tüm ürünler %99,2'nin üzerinde performans gösterirken, Kategori 2 ve 3'teki el yazısı görüntüler ürünler arasındaki gerçek farkı yaratmaktadır.

Genel sonuçlar, GCP Vision ve AWS Textract'ın verilen metni tanımada en yüksek doğruluğa sahip baskın OCR ürünleri olduğunu göstermektedir.

Genel sonuçlardan notlar:

  • AWS Textract'ın el yazısı metni tanımada başarısız olduğu tek bir durum yaşandı. Bu durum, AWS Textract'ın kategori ve genel performansını önemli ölçüde düşürüyor. Ayrıca, AWS Textract diğer tüm durumlarda çok iyi performans gösterdiği için, kategori içindeki ve genel performanstaki sapmayı da artırıyor.
  • Azure, %99,8 doğruluk oranıyla 1. Kategoride lider üründür. Ancak, ikinci kategori sonuçlarında da görüldüğü gibi, ürün el yazısı metni tanımada sıklıkla başarısız olmaktadır. Bu nedenle Azure, üçüncü kategoride ve genel olarak geride kalmaktadır.
  • Tesseract OCR, ücretsiz olarak kullanılabilen açık kaynaklı bir üründür. Azure ve ABBYY ile karşılaştırıldığında, el yazısı örneklerinde daha iyi performans gösterir ve kullanıcı AWS veya GCP ürünlerini edinemiyorsa el yazısı tanıma için düşünülebilir. Bununla birlikte, taranmış görüntülerde performansı düşük olabilir.
  • Diğer ürünlerden farklı olarak, ABBYY daha yapılandırılmış bir .txt dosyası üretir. ABBYY ayrıca çıktı dosyasını oluştururken metnin görüntü içindeki konumunu da dikkate alır. Ürün ek kullanışlı özelliklere sahip olsa da, bu karşılaştırmada yalnızca metin doğruluğuna odaklanıyoruz. Ve el yazısı tanımada kötü performans gösterdi.

“Sorun Çıkaran” görüntüsünü kaldırmak

Genel sonuçlarda da belirtildiği gibi, AWS Textract'in hiçbir metni tanıyamadığı tek bir "aykırı" görüntü vardı. Ürün diğer tüm görüntülerde %95'in üzerinde metin doğruluğu gösterirken, bu durum AWS'nin performansını düşürdü ve güven aralığını genişletti.

Bu durum bir istisna olabileceği için, bu görsel olmadan da ürünleri karşılaştırmak istedik. Bu görsele "sorun çıkaran" adını verdik ve bir fark yaratıp yaratmadığını görmek için sonuçlarımızı yeniden inceledik.
"Sorun çıkaran" kişiyi veri kümesinden çıkardıktan sonra elde edilen yeni sonuçlar şunlardır.

“Sorun çıkaran” unsur dışarıda bırakıldığında OCR metin doğruluk sonuçları. %90 güven aralığı gösterilmiştir.

“Sorun çıkaran” unsur dışarıda bırakıldığında, AWS Textract neredeyse mükemmel (%99,3) bir metin doğruluk seviyesi ve dar bir güven aralığıyla en iyi performansı sergiliyor. Puanlar çok fazla değişmese de, GCP Vision ve AWS Textract, diğerlerinden daha iyi metin doğruluğuyla ilk 2 ürün olmaya devam ediyor.

El yazısı tanıma özelliği olmadan elde edilen sonuçlar

Bazı ürünlerin metin doğruluğunu azaltan temel faktör, görsellerde el yazısının bulunmasıdır. Bu nedenle, tüm görselleri (kategori 2'deki tüm görselleri ve kategori 3'teki 6 görseli) hariç tuttuk ve metin doğruluğu performansını yeniden değerlendirdik.

El yazısı tanıma özelliği olmayan OCR metin doğruluğu örnekleri

El yazısı görüntüler hariç tutulduğunda sonuçlar daha da yakınlaşıyor. AWS Tesseract ve GCP Vision, kıyaslamada en iyi 2 ürün olmaya devam ediyor, ancak ABBYY FineReader da bu sefer çok iyi bir performans sergiliyor (%99,3). El yazısı hariç tutulduğunda tüm ürünler %95'in üzerinde doğruluk elde etse de, Azure Computer Vision ve Tesseract OCR taranmış belgelerle hala zorlanıyor ve bu karşılaştırmada geride kalıyor.

Kıyaslama yapılmış ürünler

Metin doğruluğu performanslarını ölçmek için beş OCR ürününü test ettik. Mayıs 2021 itibarıyla piyasada bulunan sürümleri kullandık. Kullanılan ürünler şunlardır:

  • ABBYY FineReader 15
  • Amazon Textract
  • Google Bulut Platformu Vizyon API'si
  • Microsoft Azure Bilgisayar Görseli API'si
  • Tesseract OCR Motoru

Veri kümesi

OCR için birçok görüntü veri seti bulunmasına rağmen, bunlar şunlardır:

  • Çoğunlukla karakter düzeyindedir ve gerçek iş kullanım senaryolarına uymamaktadır.
  • Ya da metnin kendisinden ziyade metnin konumuna odaklanın.

Bu nedenle, üç ana kategori altında kendi veri setimizi oluşturmaya karar verdik:

  1. Kategori 1 – Metin içeren web sayfası ekran görüntüleri: Bu kategori, rastgele Wikipedia sayfalarından ve rastgele sorgular içeren Google arama sonuçlarından alınan ekran görüntülerini içerir.
  2. Kategori 2 – El Yazısı: Bu kategori, farklı el yazısı stillerini içeren rastgele fotoğrafları içerir.
  3. Kategori 3 – Makbuzlar, faturalar ve taranmış sözleşmeler: Bu kategori, internetten toplanan rastgele seçilmiş makbuzları, el yazısı faturaları ve taranmış sigorta sözleşmelerini içerir.

Tüm giriş dosyaları .jpg veya .png formatındadır.

Sınırlamalar

  • Sınırlı Veri Kümesi: Başlangıçta, basılı belgelerdeki ürün performansını değerlendirmek için gazete fotoğraflarından oluşan dördüncü bir kategorimiz vardı. Ancak bu fotoğraflar çok fazla metin içerdiğinden, gerçek verileri oluşturmak zordu. Bu nedenle, bunları kullanmamaya karar verdik.
  • Çıktı formatlarında tutarsızlıklar: Birçok görüntü, sol ve sağ taraflarda ayrı metin örnekleri içermektedir. Ürünler bu metinleri farklı sıralarda çıkarır ve bu da metinler doğru bir şekilde algılansa da çıktı dosyalarının farklı olmasına neden olur. Bu durum, diğer mesafe ölçümlerini (Levenshtein mesafesi gibi) kullanmamızı engelledi ve metin doğruluğunu hesaplama seçeneklerimizi sınırladı.
  • Kosinüs Mesafesiyle İlgili Olası Sorun: Kosinüs mesafesi, benzerliği hesaplarken gömülü vektörleri kullanır. Örneğin, "Çay severim" ve "Kahve severim" cümlelerini karşılaştırmak, olması gerekenden daha yüksek bir benzerlik puanı verecektir. Bununla birlikte, "çay" kelimesini "kahve" ile karıştırmak gibi durumlar nadir olacağından, bu alıştırmada bu olasılığı dikkate almadık.

Yazılım sağlayıcılarını sıralamak için diğer pazar verilerini (örneğin yazılım incelemeleri, müşteri vaka çalışmaları) kullanıyoruz. Bununla birlikte, çoğu şirket veri çıkarma çözümleri ararken (yani makine tarafından okunabilir veri üretenler de dahil olmak üzere) "OCR" terimini kullandığından, listemiz bu kıyaslama çalışmasında sunulanlardan daha geniş kapsamlı ve daha fazla şirketi içermektedir.

SSS'ler

Optik Karakter Tanıma (OCR), taranmış belgeler, basılı kitaplar veya fotoğraflar gibi görüntüler içindeki karakterleri ayırt etmede uzmanlaşmış bir makine öğrenmesi alanıdır. Olgun bir teknoloji olmasına rağmen, her türlü metni %100 doğrulukla tanıyabilen OCR ürünleri henüz mevcut değildir. Karşılaştırma yaptığımız ürünler arasında, test setimizden başarılı sonuçlar verebilen yalnızca birkaç ürün vardı.
OCR araçları, şirketler tarafından metinleri ve bunların görüntülerdeki konumlarını belirlemek, iş belgelerini konulara göre sınıflandırmak veya belgeler içinde anahtar-değer eşleştirmesi yapmak için kullanılır. OCR sonuçlarına dayanarak, diğer teknoloji şirketleri belge otomasyonu gibi uygulamalar geliştirir. Tüm bu iş durumları için, doğru metin tanıma, bir OCR ürünü için kritik öneme sahiptir.

Cem Dilmegani
Cem Dilmegani
Baş Analist
Cem, 2017'den beri AIMultiple'da baş analist olarak görev yapmaktadır. AIMultiple, her ay Fortune 500 şirketlerinin %55'i de dahil olmak üzere yüz binlerce işletmeye (benzer Web'e göre) bilgi sağlamaktadır. Cem'in çalışmaları, Business Insider, Forbes, Washington Post gibi önde gelen küresel yayınlar, Deloitte, HPE gibi küresel firmalar, Dünya Ekonomik Forumu gibi STK'lar ve Avrupa Komisyonu gibi uluslararası kuruluşlar tarafından alıntılanmıştır. AIMultiple'ı referans gösteren daha fazla saygın şirket ve kaynağı görebilirsiniz. Kariyeri boyunca Cem, teknoloji danışmanı, teknoloji alıcısı ve teknoloji girişimcisi olarak görev yapmıştır. On yıldan fazla bir süre McKinsey & Company ve Altman Solon'da işletmelere teknoloji kararları konusunda danışmanlık yapmıştır. Ayrıca dijitalleşme üzerine bir McKinsey raporu yayınlamıştır. Bir telekom şirketinin CEO'suna bağlı olarak teknoloji stratejisi ve tedarikini yönetmiştir. Ayrıca, 2 yıl içinde sıfırdan 7 haneli yıllık yinelenen gelire ve 9 haneli değerlemeye ulaşan derin teknoloji şirketi Hypatos'un ticari büyümesini yönetmiştir. Cem'in Hypatos'taki çalışmaları TechCrunch ve Business Insider gibi önde gelen teknoloji yayınlarında yer aldı. Cem düzenli olarak uluslararası teknoloji konferanslarında konuşmacı olarak yer almaktadır. Boğaziçi Üniversitesi'nden bilgisayar mühendisliği diplomasına ve Columbia Business School'dan MBA derecesine sahiptir.
Tam Profili Görüntüle
Araştıran
Şevval Alper
Şevval Alper
Yapay Zeka Araştırmacısı
Şevval, AIMultiple'da yapay zeka kodlama araçları, yapay zeka ajanları ve kuantum teknolojileri konusunda uzmanlaşmış bir sektör analistidir.
Tam Profili Görüntüle

Yorumlar 8

Düşüncelerinizi Paylaşın

E-posta adresiniz yayınlanmayacak. Tüm alanlar gereklidir.

0/450
Serhat Cinar
Serhat Cinar
Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani
Cem Dilmegani
Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ
DLJ
Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani
Cem Dilmegani
Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster
Webster
Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi
Bardia Eshghi
Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby
Bobby
Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani
Cem Dilmegani
Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun
samsun
Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani
Cem Dilmegani
Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott
Scott
Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani
Cem Dilmegani
Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob
Bob
Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani
Cem Dilmegani
Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin
kin
Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani
Cem Dilmegani
Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.