Optical Character Recognition (OCR) is a field of machine learning that specializes in distinguishing characters within images like scanned documents, printed books, or photos. Although it is a mature technology, there are still no OCR products that can recognize all kinds of text with 100% accuracy. Among the products that we benchmarked, only a few products could output successful results from our test set.OCR tools are used by companies to identify texts and their positions in images, classify business documents according to subjects, or conduct key-value pairing within documents. Based on OCR results, other technology companies build applications like document automation. For all these business cases, accurate text recognition is critical for an OCR product.

OCR Benchmark: Extração / Captura de Precisão de Texto

Cem Dilmegani

com

Şevval Alper

atualizado em 29 jun. 2026

Veja o nosso normas éticas

Citar Este Benchmark

OCR precisão é crítica para muitas tarefas de processamento de documentos, e LLMs multimodais de última geração (SOTA) agora estão oferecendo uma alternativa ao OCR. Avaliamos os principais serviços de OCR no DeltOCR Bench para identificar seus níveis de precisão em diferentes tipos de documentos:

Caligrafia: GPT-5 (95%) se destaca como o melhor desempenho, seguido de perto pelo olmOCR-2-7B (94%) e Gemini 2.5 Pro (93%).
Mídia impressa: Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 lideram esta categoria com a pontuação mais alta (85%)
Texto impresso: Microsoft Azure Document Intelligence API lidera com uma pontuação de 96%.

OCR Benchmark: DeltOCR Bench

Loading Chart

Os nomes completos dos produtos acima e suas versões em uso a partir de novembro de 2025 estão listados abaixo. Nosso estudo abrange tanto serviços de API facilmente acessíveis quanto soluções que exigem infraestrutura local, comparando modelos-chave no mercado em um ambiente de teste profundo.

Caligrafia:
- Intervalo de Precisão: Uma ampla faixa de 46% a 95%.
- Destaque: GPT-5 (95%), olmOCR-2-7B (94%) e Gemini 2.5 Pro (93%) exibem o desempenho mais alto. Essas altas pontuações demonstram o potencial de precisão extraordinário de LLMs multimodais, como GPT-5 e Gemini 2.5 Pro, neste domínio.
- Recomendação: Para reconhecer caligrafia altamente complexa, as principais soluções de LLM como GPT-5 ou Gemini 2.5 Pro são recomendadas devido à acessibilidade de sua API e facilidade de integração.
Mídia impressa:
- Intervalo de Precisão: Uma faixa de 54% a 85%.
- Destaque: Soluções como Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 compartilham a pontuação mais alta (85%). Esta categoria é altamente competitiva entre LLMs e serviços tradicionais de OCR baseados em nuvem (Azure, Dots OCR, Amazon Textract). GPT-5 fica atrás de outros principais LLMs nesta categoria (77%).
- Recomendação: Para documentos com layouts visuais complexos (múltiplas fontes, baixa resolução, etc.), LLMs como Gemini 2.5 Pro, ou serviços baseados em nuvem como Google Vision, ou Microsoft Azure Document Intelligence API são recomendados.
Texto impresso:
- Intervalo de Precisão: Uma faixa alta de 55% a 96%, embora a maioria das principais soluções tenha alcançado pontuações de 94% e acima.
- Destaque: Microsoft Azure Document Intelligence API (96%) assume a liderança, seguido de perto por soluções como GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision e Amazon Textract, todas pontuando 95%. Esta categoria é uma área onde todas as soluções SOTA alcançam níveis extremamente altos de precisão.
- Recomendação: Para textos impressos simples que exigem alta precisão, soluções de nuvem estabelecidas como Microsoft Azure Document Intelligence API ou Google Vision, ou LLMs de alta pontuação (Gemini/GPT-5), podem ser usadas com confiança.

API Solutions

Os seguintes modelos foram incluídos em nossa lista de benchmarking devido tanto à sua facilidade de acesso quanto ao desempenho.

Claude Sonnet 4.5
OpenAI GPT-5
Gemini 2.5 Pro
Gemini 3 Pro Preview
Amazon Textract API
Google Cloud Vision API
Microsoft Azure Document Intelligence API
Moondream OCR
Mistral OCR 3
Mistral OCR 2

Microsoft Azure Document Intelligence API faz parte da família de serviços cognitivos do Azure.

Modelos Implantados Localmente (On-Premise)

Testar esses modelos é mais desafiador do que soluções de API devido à instalação, gerenciamento de dependências e requisitos de hardware. Todos os testes locais foram conduzidos em um ambiente de servidor dedicado.

olmOCR-2-7B
PaddleOCR-VL
Nanonets-OCR2-3B
Deepseek-OCR
Dots-OCR

Calculamos a precisão dos resultados como a pontuação de similaridade de cosseno para texto impresso, mídia impressa e caligrafia. Cada pontuação visível no gráfico representa o desempenho do modelo correspondente dentro daquela categoria.

Durante nossos testes, observamos que o modelo Nanonets-OCR2-3B entregou o desempenho mais fraco no benchmark, alcançando as pontuações mais baixas. Geralmente, descobrimos que alguns modelos lutaram particularmente com caligrafia cursiva e layouts de texto desorganizados (ordenação de linhas mista, capitalização inconsistente). Problemas de desempenho semelhantes também surgiram na categoria de mídia impressa, especialmente com imagens de baixa resolução e aquelas contendo vários estilos de fonte.

Conjunto de Dados

Usamos um total de 300 documentos neste benchmark, com 100 documentos por categoria em 3 categorias:

Texto impresso inclui cartas, capturas de tela de sites, e-mails, relatórios, etc.

Mídia impressa inclui cartazes, capas de livros, anúncios, etc. Nosso objetivo foi ver o sucesso das ferramentas de OCR em diferentes fontes e posicionamentos de texto.

Arquivos nestas 2 categorias foram obtidos da Industry Documents Library (IDL).¹

Caligrafia: Na categoria manuscrita, como alguns documentos IDL não eram fáceis de ler, nossa equipe gerou documentos semelhantes aos documentos IDL. Preparamos manualmente amostras de caligrafia legível por humanos. Todas as amostras estavam em um estilo de caligrafia cursiva.

Figura 1: Amostras de nosso conjunto de dados.

Metodologia do DeltOCR Bench

Este benchmark foca na precisão de extração de texto dos produtos.

O pré-processamento é realizado apenas para a categoria de caligrafia. Tiramos fotos de documentos manuscritos com nossos smartphones e usamos um aplicativo de scanner móvel:

As imagens foram convertidas para preto e branco
O contraste foi aumentado e o fundo foi removido.

OCR: Rodamos todos os produtos no mesmo conjunto de dados e geramos saídas de texto como arquivos de texto bruto (.txt). Em seguida, preparamos manualmente a verdade fundamental incluindo o texto correto em todos esses arquivos. A verdade fundamental foi verificada duas vezes por humanos.

Comparação: Medimos a precisão das soluções de OCR comparando suas saídas com os textos originais. Para este propósito, usamos o framework Sentence-BERT (SBERT) para calcular pontuações de similaridade de cosseno. No benchmark, usamos o modelo de paráfrase multilíngue de alto desempenho, MiniLM-L12-v2, para calcular a pontuação de similaridade entre a saída de cada produto e os textos de verdade fundamental. Esta pontuação representa o nível de precisão do texto.

A função de similaridade usa uma métrica de distância de cosseno para calcular a similaridade entre dois textos. Não usamos a distância de Levenshtein para este benchmark porque diferentes produtos geram textos em ordens diferentes.²

Embora a distância de Levenshtein leve essas diferenças em consideração, estamos apenas procurando quão precisamente o texto é detectado, mas não onde ele está localizado. A distância de cosseno tem penalidades negligenciáveis para tais casos, então decidimos usá-la neste benchmark.

Seleção de Produto

Há muitos produtos de OCR no mercado. Precisamos focar naqueles que podem gerar resultados de texto bruto. Os produtos para este benchmark são escolhidos com base em:

Capacidade de extrair texto. Não incluímos soluções que apenas extraem dados legíveis por máquina (ou seja, dados estruturados) nesta comparação
Sua popularidade no mercado

Esta não é uma revisão abrangente do mercado e podemos ter excluído alguns produtos com capacidades significativas. Se for esse o caso, deixe um comentário e ficaremos felizes em expandir o benchmark.

Limitações

Capacidades avançadas como detecção de localização de texto, pareamento de chave-valor e classificação de documentos não foram avaliadas neste benchmark.

O tamanho da amostra será aumentado na próxima iteração. Se você está procurando OCR para caligrafia, veja nosso benchmark de OCR de caligrafia com 50 amostras.

Você também pode ver nosso benchmark de OCR de fatura e benchmark de OCR de recibo se estiver interessado.

Resultados anteriores do benchmark de OCR

Benchmark de precisão de OCR das principais empresas de OCR

Resultados Gerais de Precisão de Texto OCR com intervalos de confiança de 90%

Google Cloud Vision e AWS Textract são as tecnologias líderes no mercado para todos os casos
Abbyy também tem alto desempenho para documentos não manuscritos
Todos os OCRs avaliados, incluindo o Tesseract de código aberto, tiveram bom desempenho em capturas de tela digitais.

A plataforma Google Cloud Platform's Vision OCR tool alcança a maior precisão de texto de 98,0% quando todo o conjunto de dados é testado. Embora todos os produtos performem acima de 99,2% com a Categoria 1, onde textos digitados estão incluídos, as imagens manuscritas na Categoria 2 e 3 criam a verdadeira diferença entre os produtos.

Os resultados gerais mostram que GCP Vision e AWS Textract são os produtos OCR dominantes, com a maior precisão no reconhecimento do texto fornecido.

Notas dos resultados gerais:

Há um único momento em que o AWS Textract falhou em reconhecer o texto manuscrito. Esta situação reduz significativamente a categoria e o desempenho total do AWS Textract. Também aumenta o desvio dentro da categoria e no geral, porque o AWS Textract performa muito bem em todas as outras instâncias.
Azure é o produto líder na Categoria 1 com 99,8% de precisão. No entanto, o produto frequentemente falha em reconhecer texto manuscrito, conforme mostrado nos resultados da segunda categoria. Esta é a razão pela qual o Azure fica para trás na terceira categoria e no geral.
Tesseract OCR é um produto de código aberto que pode ser usado gratuitamente. Comparado ao Azure e ABBYY, ele performa melhor em instâncias manuscritas e pode ser considerado para reconhecimento de caligrafia se o usuário não puder obter produtos AWS ou GCP. No entanto, pode performar mal em imagens digitalizadas.
Diferentemente de outros produtos, o ABBYY gera um arquivo .txt mais estruturado. O ABBYY também considera a localização do texto dentro da imagem ao gerar o arquivo de saída. Embora o produto tenha capacidades adicionais úteis, estamos focando apenas na precisão do texto neste benchmark. E ele performou mal no reconhecimento de caligrafia.

Removendo a imagem "Problemática"

Como mencionado nos resultados gerais, houve uma única imagem "outlier" onde o AWS Textract não conseguiu reconhecer nenhum texto. Embora o produto mostre mais de 95% de precisão de texto em todas as outras imagens, esta instância reduziu o desempenho do AWS e ampliou seu intervalo de confiança.

Como esta instância pode ser uma exceção, também queríamos comparar os produtos sem ela. Chamamos esta imagem de "problemática" e re-executamos nossos resultados para ver se faziam diferença.
Aqui estão os novos resultados após excluir o "problemático" do conjunto de dados.

Benchmark de precisão de OCR das principais empresas de OCR após remover uma imagem outlier

Resultados de Precisão de Texto OCR quando o "problemático" é excluído. O intervalo de confiança de 90% é mostrado

Quando o "problemático" é excluído, o AWS Textract se torna o melhor desempenho com um nível de precisão de texto quase perfeito (99,3%) com um intervalo de confiança estreito. Embora as pontuações não mudem muito, GCP Vision e AWS Textract permanecem os 2 principais produtos, com melhor precisão de texto do que os outros.

Resultados sem Reconhecimento de Caligrafia

O principal fator que reduz a precisão de texto de certos produtos é a presença de caligrafia em imagens. Assim, excluímos todas as imagens (todas as imagens da categoria 2 e 6 imagens da categoria 3) e reavaliámos o desempenho de precisão de texto, novamente.

Benchmark de precisão de OCR das principais empresas de OCR após remover texto manuscrito

Precisão de Texto OCR sem casos de reconhecimento de caligrafia

Os resultados são mais cara a cara quando imagens manuscritas são excluídas. AWS Textract e GCP Vision permanecem os 2 principais produtos no benchmark, mas o ABBYY FineReader também performa muito bem (99,3%) desta vez. Embora todos os produtos alcancem mais de 95% de precisão quando a caligrafia é excluída, Azure Computer Vision e Tesseract OCR ainda lutam com documentos digitalizados, colocando-os para trás nesta comparação.

Produtos Avaliados

Testamos cinco produtos de OCR para medir seu desempenho de precisão de texto. Usamos versões disponíveis a partir de maio/2021. Produtos usados são:

ABBYY FineReader 15
Amazon Textract
Google Cloud Platform Vision API
Microsoft Azure Computer Vision API
Tesseract OCR Engine

Conjunto de Dados

Embora existam muitos conjuntos de dados de imagem para OCR, estes são

principalmente no nível de caractere e não se conformam a casos de uso reais de negócios
ou focam na localização do texto em vez do texto em si.

Assim, decidimos criar nosso próprio conjunto de dados sob três categorias principais:

Categoria 1 – Capturas de tela de páginas da web que incluem textos: Esta categoria inclui capturas de tela de páginas aleatórias da Wikipedia e resultados de pesquisa do Google com consultas aleatórias.
Categoria 2 – Caligrafia: Esta categoria inclui fotos aleatórias que incluem diferentes estilos de caligrafia.
Categoria 3 – Recibos, faturas e contratos digitalizados: Esta categoria inclui uma coleção aleatória de recibos, faturas manuscritas e contratos de seguro digitalizados coletados da internet.

Todos os arquivos de entrada estão no formato .jpg ou .png.

Limitações

Conjunto de Dados Limitado: Originalmente, tínhamos uma quarta categoria consistindo em fotos de jornais para avaliar o desempenho dos produtos em documentos impressos. No entanto, essas fotos contêm muito texto, tornando difícil gerar verdade fundamental. Assim, decidimos não usá-las.
Inconsistências nos formatos de saída: Muitas imagens incluem instâncias de texto separado nos lados esquerdo e direito. Os produtos extraem esses textos em ordens diferentes, fazendo com que os arquivos de saída sejam diferentes, embora os textos sejam detectados com precisão. Esta situação nos impediu de usar outras medidas de distância (como distância de Levenshtein) e limitou nossas opções para calcular a precisão do texto.
Possível Problema com Distância de Cosseno: A distância de cosseno usa embeddings ao calcular a similaridade. Por exemplo, comparar as frases "Eu gosto de chá" e "Eu gosto de café" daria uma pontuação de similaridade mais alta do que deveria. No entanto, casos como confundir a palavra "chá" com "café" seriam raros, então não consideramos essa possibilidade neste exercício.

Usamos outros dados de mercado (por exemplo, revisões de software, estudos de caso de clientes) para classificar provedores de software. No entanto, como a maioria das corporações usa o termo "OCR" ao procurar por soluções de extração de dados (ou seja, incluindo aquelas que geram dados legíveis por máquina), nossa lista tem um escopo maior e mais empresas do que aquelas apresentadas neste exercício de benchmarking.

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

Perguntas frequentes

Reconhecimento Óptico de Caracteres (OCR) é um campo de aprendizado de máquina que se especializa em distinguir caracteres dentro de imagens como documentos digitalizados, livros impressos ou fotos. Embora seja uma tecnologia madura, ainda não há produtos de OCR que possam reconhecer todos os tipos de texto com 100% de precisão. Entre os produtos que avaliamos, apenas alguns produtos puderam gerar resultados bem-sucedidos de nosso conjunto de testes.
OCR ferramentas são usadas por empresas para identificar textos e suas posições em imagens, classificar documentos de negócios de acordo com assuntos ou realizar pareamento de chave-valor dentro de documentos. Com base nos resultados de OCR, outras empresas de tecnologia constroem aplicações como automação de documentos. Para todos esses casos de negócios, o reconhecimento preciso de texto é crítico para um produto de OCR.

Cite este benchmark

Escolha o formato adequado ao local onde você vai publicar. Colar a versão com link no seu CMS preserva o backlink.

Cem Dilmegani and Şevval Alper (2026) - "OCR Benchmark: Extração / Captura de Precisão de Texto". Publicado on-line em AIMultiple.com. Acessado em 29 Junho 2026, em: https://aimultiple.com/ocr-accuracy [Recurso on-line]

Dilmegani, C., & Alper, Ş. (2026, 29 Junho). OCR Benchmark: Extração / Captura de Precisão de Texto. AIMultiple. https://aimultiple.com/ocr-accuracy

@misc{dilmegani2026,
  author = {Dilmegani, Cem and Alper, Şevval},
  title  = {{OCR Benchmark: Extração / Captura de Precisão de Texto}},
  year   = {2026},
  month  = jun,
  howpublished    = {\url{https://aimultiple.com/ocr-accuracy}},
  note   = {AIMultiple. Acessado em 29 Junho 2026}
}

Links de referência

pixparse/idl-wds · Datasets at Hugging Face

Pixel Parsing

Levenshtein distance - Wikipedia

Contributors to Wikimedia projects

Cem Dilmegani

Analista Principal

Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.

Ver perfil completo

Pesquisado por

Şevval Alper

Pesquisador de IA

Şevval é analista da AIMultiple, especializada em ferramentas de codificação de IA, agentes de IA e tecnologias quânticas.

Ver perfil completo

Comentários 8

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios. Os comentários são deixados em seu idioma original.

Serhat Cinar

Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani

Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ

Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani

Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster

Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi

Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby

Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani

Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun

Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani

Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott

Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani

Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob

Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani

Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin

Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani

Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.

OCR Benchmark: DeltOCR Bench

Resultados anteriores do benchmark de OCR

Perguntas frequentes

Cite este benchmark

Seguimos normas éticas & nosso processo para objetividade. Esta pesquisa não inclui nenhum cliente da AIMultiple.

Veja mais dos nossos benchmarks e insights baseados em dados na Pesquisa Google.

Adicionar como fonte preferencial

A seguir, leia

Transferência de Arquivos Gerenciada5 Jul

OCR Benchmark: Extração / Captura de Precisão de Texto

OCR Benchmark: DeltOCR Bench

API Solutions

Modelos Implantados Localmente (On-Premise)

Conjunto de Dados

Metodologia do DeltOCR Bench

Seleção de Produto

Limitações

Resultados anteriores do benchmark de OCR

Removendo a imagem "Problemática"

Resultados sem Reconhecimento de Caligrafia

Produtos Avaliados

Conjunto de Dados

Limitações

Perguntas frequentes

O que é OCR?

Cite este benchmark

Link com atribuiçãoHTML, para posts de blog, artigos do LinkedIn e newsletters. Recomendado.

APA 7ª ediçãoPara artigos acadêmicos e relatórios de analistas no estilo APA 7ª.

BibTeXPara documentos LaTeX e gerenciadores de referências acadêmicas.

Links de referência

Comentários 8

Compartilhe suas ideias

A seguir, leia

Benchmark MFT: Files.com, Thru, Cerberus FTP e Serv-U Testados

Benchmark de Reranker: Top 8 Modelos Comparados

LLM Quantização: BF16 vs FP8 vs INT4

Top 10 Geradores de Documentos Word com IA: Revisados & Testados

Monitoramento MySQL: SolarWinds vs New Relic vs Datadog

Top 9 Provedores de IA Comparados