Contate-nos
Nenhum resultado encontrado.

Análise comparativa de OCR: Precisão na extração/captura de texto

Cem Dilmegani
Cem Dilmegani
atualizado em Jan 22, 2026
Veja o nosso normas éticas

A precisão do OCR é crucial para muitas tarefas de processamento de documentos, e os melhores softwares de reconhecimento de linguagem (LLMs) multimodais estão oferecendo uma alternativa ao OCR . Realizamos um benchmark dos principais serviços de OCR no DeltOCR Bench para identificar seus níveis de precisão em diferentes tipos de documentos:

  • A análise de escrita à mão , GPT-5 (95%), destaca-se como a de melhor desempenho, seguida de perto por olmOCR-2-7B (94%) e Gemini 2.5 Pro (93%).
  • Mídia impressa : Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 lideram esta categoria com a pontuação mais alta (85%).
  • Texto impresso : Microsoft Documento do Azure Intel A API de liderança apresenta uma pontuação de 96%.

Benchmark de OCR: DeltOCR Bench

Loading Chart

Os nomes completos dos produtos acima e suas versões em uso em novembro de 2025 estão listados abaixo. Nosso estudo abrange tanto serviços de API de fácil acesso quanto soluções que exigem infraestrutura local, comparando os principais modelos do mercado em um ambiente de teste aprofundado.

  • Caligrafia :
    • Faixa de precisão: Uma ampla faixa de 46% a 95%.
    • Destaques: GPT-5 (95%), olmOCR-2-7B (94%) e Gemini 2.5 Pro (93%) apresentam o melhor desempenho. Essas altas pontuações demonstram o extraordinário potencial de precisão de softwares de análise de linguagem multimodal, como GPT-5 e Gemini 2.5 Pro, nesse domínio.
    • Recomendação: Para o reconhecimento de escrita manual altamente complexa, as melhores soluções LLM, como GPT-5 ou Gemini 2.5 Pro, são recomendadas devido à acessibilidade da API e à facilidade de integração.
  • Mídia impressa :
    • Faixa de precisão: Uma faixa de 54% a 85%.
    • Destaques: Soluções como Gemini 2.5 Pro, Vision e 957.5 compartilham a pontuação mais alta (85%). Esta categoria é altamente competitiva entre LLMs e serviços tradicionais de OCR baseados em nuvem (Azure, Dots OCR, Amazon Textract). 9912591211 fica atrás de outros LLMs líderes nesta categoria (77%).
    • Recomendação: Para documentos com layouts visuais complexos (múltiplas fontes, baixa resolução, etc.), recomenda-se o uso de LLMs como o Gemini 2.5 Pro ou serviços baseados em nuvem como o Azure Vision ou a API Azure Document Licensing.
  • Texto impresso :
    • Faixa de precisão: Uma ampla faixa, de 55% a 96%, embora a maioria das soluções líderes tenha alcançado pontuações de 94% ou mais.
    • Destaques: A API Azure Document Ligence (96%) lidera, seguida de perto por soluções como Gemini 2.5 Pro, Gemini 3 Pro Preview, Vision e Amazon Textract, todas com 95%. Esta categoria é uma área onde todas as soluções de última geração alcançam níveis extremamente altos de precisão.
    • Recomendação: Para textos impressos simples que exigem alta precisão, soluções de nuvem estabelecidas como a API Azure Document Ligence ou o Vision, ou LLMs de alta pontuação (Gemini/Ligence), podem ser usadas com confiança.

Soluções de API

Os seguintes modelos foram incluídos em nossa lista de avaliação comparativa devido à sua facilidade de acesso e desempenho.

  • Claude Sonnet 4.5
  • OpenAI GPT-5
  • Gemini 2.5 Pro
  • Prévia do Gemini 3 Pro
  • API Textract da Amazon
  • API Cloud Vision Google
  • Microsoft Documento do Azure Intel API de liderança
  • Moondream OCR
  • Mistral OCR 3
  • Mistral OCR 2

Microsoft Documento do Azure Intel A API de inteligência faz parte da família de Serviços Cognitivos do Azure.

Modelos implantados localmente (on-premise)

Testar esses modelos é mais desafiador do que soluções de API devido à instalação, gerenciamento de dependências e requisitos de hardware. Todos os testes locais foram conduzidos em um ambiente de servidor dedicado.

  • olmOCR-2-7B
  • PaddleOCR-VL
  • Nanonets-OCR2-3B
  • Deepseek-OCR
  • Pontos-OCR

Calculamos a precisão dos resultados como a pontuação de similaridade de cosseno para texto impresso, mídia impressa e escrita à mão. Cada pontuação visível no gráfico representa o desempenho do modelo correspondente dentro dessa categoria.

Durante nossos testes, observamos que o modelo Nanonets-OCR2-3B apresentou o pior desempenho no benchmark, obtendo as pontuações mais baixas. De modo geral, constatamos que alguns modelos tiveram dificuldades, principalmente com escrita cursiva e layouts de texto desorganizados (ordem de linhas irregular, uso inconsistente de maiúsculas e minúsculas). Problemas de desempenho semelhantes também surgiram na categoria de mídia impressa, especialmente com imagens de baixa resolução e aquelas que continham vários estilos de fonte.

Conjunto de dados

Neste estudo comparativo, utilizamos um total de 300 documentos, sendo 100 documentos por categoria, distribuídos em 3 categorias:

O texto impresso inclui cartas, capturas de tela de sites, e-mails, relatórios, etc.

A mídia impressa inclui pôsteres, capas de livros, anúncios, etc. Nosso objetivo era avaliar o desempenho das ferramentas de OCR em diferentes fontes e posicionamentos de texto.

Os arquivos dessas duas categorias foram obtidos da Biblioteca de Documentos da Indústria (IDL). 1

Caligrafia: Na categoria de manuscritos, como alguns documentos IDL não eram fáceis de ler, nossa equipe gerou documentos semelhantes aos documentos IDL. Preparamos manualmente amostras de caligrafia legível. Todas as amostras estavam em estilo cursivo.

Figura 1: Amostras do nosso conjunto de dados.

Metodologia do DeltOCR Bench

Este teste comparativo foca na precisão da extração de texto dos produtos.

O pré-processamento é realizado apenas para a categoria de escrita à mão. Fotografamos os documentos manuscritos com nossos smartphones e utilizamos um aplicativo de digitalização para celular:

  • As imagens foram convertidas para preto e branco.
  • O contraste foi aumentado e o fundo foi removido.

OCR: Executamos todos os produtos no mesmo conjunto de dados e geramos saídas de texto como arquivos de texto bruto (.txt). Em seguida, preparamos manualmente a verdade fundamental, incluindo o texto correto em todos esses arquivos. A verdade fundamental foi verificada duas vezes por humanos.

Comparação: Medimos a precisão das soluções de OCR comparando seus resultados com os textos originais. Para isso, utilizamos o framework Sentence-BERT (SBERT) para calcular os índices de similaridade de cosseno. No benchmark, utilizamos o modelo de paráfrase multilíngue de alto desempenho, MiniLM-L12-v2, para calcular o índice de similaridade entre o resultado de cada produto e os textos de referência. Esse índice representa o nível de precisão do texto.

A função de similaridade utiliza uma métrica de distância cosseno para calcular a similaridade entre dois textos. Não utilizamos a distância de Levenshtein para este teste comparativo porque diferentes produtos geram textos em ordens diferentes. 2

Embora a distância de Levenshtein leve em consideração essas diferenças, estamos analisando apenas a precisão da detecção do texto, e não sua localização. A distância cosseno apresenta penalidades insignificantes nesses casos, por isso optamos por utilizá-la neste teste comparativo.

Seleção de produtos

Existem muitos produtos de OCR no mercado. Precisamos nos concentrar naqueles que conseguem gerar resultados de texto bruto. Os produtos para este teste comparativo foram escolhidos com base em:

  • Capacidade de extrair texto. Não incluímos nesta comparação soluções que extraem apenas dados legíveis por máquina (ou seja, dados estruturados).
  • Sua popularidade no mercado

Esta não é uma análise de mercado abrangente e podemos ter excluído alguns produtos com funcionalidades importantes. Caso isso aconteça, deixe um comentário e teremos prazer em ampliar a análise comparativa.

Limitações

Funcionalidades avançadas como detecção de localização de texto, pareamento de chave-valor e classificação de documentos não foram avaliadas neste teste comparativo.

O tamanho da amostra será aumentado na próxima iteração. Se você procura por OCR para escrita à mão, consulte nosso benchmark de OCR para escrita à mão com 50 amostras.

Você também pode consultar nossos benchmarks de OCR para faturas e recibos, caso tenha interesse.

Resultados anteriores do benchmark de OCR

Resultados gerais da precisão do OCR em textos com intervalos de confiança de 90%.
  • Cloud Vision e AWS Textract são as tecnologias líderes de mercado para todos os casos.
  • Abbyy também apresenta alto desempenho para documentos não manuscritos.
  • Todos os softwares de OCR testados, incluindo o Tesseract de código aberto, apresentaram bom desempenho em capturas de tela digitais.

A ferramenta Vision OCR da Cloud Platform alcança a maior precisão de texto, de 98,0%, quando todo o conjunto de dados é testado. Embora todos os produtos apresentem desempenho acima de 99,2% na Categoria 1, que inclui textos digitados, as imagens manuscritas nas Categorias 2 e 3 representam o diferencial real entre os produtos.

Os resultados gerais mostram que o GCP Vision e o AWS Textract são os produtos de OCR dominantes, com a maior precisão no reconhecimento do texto fornecido.

Notas sobre os resultados gerais:

  • Houve uma única ocasião em que o AWS Textract falhou em reconhecer o texto manuscrito. Essa situação reduziu significativamente o desempenho geral e dentro da categoria do AWS Textract. Também aumentou o desvio dentro da categoria e no geral, visto que o AWS Textract apresenta um desempenho muito bom em todas as outras situações.
  • O Azure é o produto líder na Categoria 1, com 99,8% de precisão. No entanto, o produto frequentemente falha ao reconhecer textos manuscritos, como mostram os resultados da segunda categoria. Esse é o motivo pelo qual o Azure fica atrás na terceira categoria e no geral.
  • O Tesseract OCR é um produto de código aberto e gratuito. Comparado ao Azure e ao ABBYY, ele apresenta melhor desempenho em casos de escrita à mão e pode ser considerado para reconhecimento de escrita manual caso o usuário não tenha acesso aos produtos da AWS ou do GCP. No entanto, seu desempenho pode ser insatisfatório em imagens digitalizadas.
  • Ao contrário de outros produtos, o ABBYY gera um arquivo .txt mais estruturado. O ABBYY também considera a localização do texto dentro da imagem ao gerar o arquivo de saída. Embora o produto tenha recursos adicionais úteis, neste teste comparativo, estamos focando apenas na precisão do texto. E seu desempenho no reconhecimento de escrita à mão foi ruim.

Remover a imagem de "encrenqueiro"

Conforme mencionado nos resultados gerais, houve uma única imagem "atípica" em que o AWS Textract não conseguiu reconhecer nenhum texto. Embora o produto apresente mais de 95% de precisão de texto em todas as outras imagens, essa instância reduziu o desempenho da AWS e ampliou seu intervalo de confiança.

Como este caso pode ser uma exceção, também quisemos comparar os produtos sem ele. Chamamos essa imagem de "problemática" e refizemos nossos testes para ver se isso fazia alguma diferença.
Aqui estão os novos resultados após a exclusão do "encrenqueiro" do conjunto de dados.

Resultados de precisão do OCR quando o "criador de problemas" é excluído. O intervalo de confiança de 90% é apresentado.

Excluindo o usuário problemático, o AWS Textract se destaca com um nível de precisão de texto quase perfeito (99,3%) e uma margem de confiança estreita. Embora as pontuações não mudem muito, o GCP Vision e o AWS Textract permanecem como os dois melhores produtos, com precisão de texto superior aos demais.

Resultados sem reconhecimento de escrita manual

O principal fator que reduz a precisão do texto em determinados produtos é a presença de escrita à mão nas imagens. Portanto, excluímos todas as imagens (todas da categoria 2 e 6 imagens da categoria 3) e reavaliamos o desempenho da precisão do texto.

Precisão do OCR em casos de texto sem reconhecimento de escrita à mão

Os resultados são mais equilibrados quando imagens manuscritas são excluídas. O AWS Textract e o GCP Vision continuam sendo os dois melhores produtos no teste comparativo, mas o ABBYY FineReader também apresenta um desempenho muito bom (99,3%) desta vez. Embora todos os produtos alcancem mais de 95% de precisão quando a escrita à mão é excluída, o Azure Computer Vision e o Tesseract OCR ainda apresentam dificuldades com documentos digitalizados, ficando atrás nesta comparação.

Produtos de referência

Testamos cinco produtos de OCR para medir seu desempenho em precisão de texto. Utilizamos versões disponíveis até maio de 2021. Os produtos utilizados foram:

  • ABBYY FineReader 15
  • Amazon Textract
  • Google API de Visão da Plataforma em Nuvem
  • Microsoft API de Visão Computacional do Azure
  • Mecanismo OCR Tesseract

Conjunto de dados

Embora existam muitos conjuntos de dados de imagens para OCR, estes são

  • principalmente no nível do personagem, e não se conformam a casos de uso reais de negócios.
  • ou concentre-se na localização do texto em vez do próprio texto.

Assim, decidimos criar nosso próprio conjunto de dados em três categorias principais:

  1. Categoria 1 – Capturas de tela de páginas da web que incluem textos: Esta categoria inclui capturas de tela de páginas aleatórias da Wikipédia e resultados de pesquisa Google com consultas aleatórias.
  2. Categoria 2 – Caligrafia: Esta categoria inclui fotos aleatórias com diferentes estilos de caligrafia.
  3. Categoria 3 – Recibos, faturas e contratos digitalizados: Esta categoria inclui uma coleção aleatória de recibos, faturas manuscritas e contratos de seguro digitalizados coletados da internet.

Todos os arquivos de entrada estão no formato .jpg ou .png.

Limitações

  • Conjunto de dados limitado: Inicialmente, tínhamos uma quarta categoria composta por fotos de jornais para avaliar o desempenho de produtos em documentos impressos. No entanto, essas fotos contêm muito texto, dificultando a geração de dados de referência. Portanto, decidimos não utilizá-las.
  • Inconsistências nos formatos de saída: Muitas imagens incluem trechos de texto separados nos lados esquerdo e direito. Os programas extraem esses textos em ordens diferentes, resultando em arquivos de saída distintos, embora os textos sejam detectados com precisão. Essa situação nos impediu de usar outras medidas de distância (como a distância de Levenshtein) e limitou nossas opções para calcular a precisão do texto.
  • Possível problema com a distância cosseno: A distância cosseno utiliza representações vetoriais (embeddings) no cálculo da similaridade. Por exemplo, comparar as frases "Eu gosto de chá" e "Eu gosto de café" resultaria em uma pontuação de similaridade maior do que a esperada. No entanto, casos como confundir a palavra "chá" com "café" seriam raros, portanto, não consideramos essa possibilidade neste exercício.

Utilizamos outros dados de mercado (como avaliações de software e estudos de caso de clientes) para classificar os fornecedores de software. No entanto, como a maioria das empresas usa o termo "OCR" ao buscar soluções de extração de dados (ou seja, incluindo aquelas que geram dados legíveis por máquina), nossa lista tem um escopo maior e inclui mais empresas do que as apresentadas neste exercício de benchmarking.

Perguntas frequentes

O Reconhecimento Óptico de Caracteres (OCR) é uma área do aprendizado de máquina especializada em distinguir caracteres em imagens como documentos digitalizados, livros impressos ou fotos. Embora seja uma tecnologia consolidada, ainda não existem produtos de OCR capazes de reconhecer todos os tipos de texto com 100% de precisão. Dentre os produtos que avaliamos, apenas alguns apresentaram resultados satisfatórios em nosso conjunto de testes.
As ferramentas de OCR são utilizadas por empresas para identificar textos e suas posições em imagens, classificar documentos comerciais por assunto ou realizar o pareamento de chaves e valores dentro dos documentos. Com base nos resultados do OCR, outras empresas de tecnologia desenvolvem aplicações como a automação de documentos . Para todos esses casos de uso, o reconhecimento preciso de texto é fundamental para um produto de OCR.

Cem Dilmegani
Cem Dilmegani
Analista Principal
Cem é o analista principal da AIMultiple desde 2017. A AIMultiple fornece informações para centenas de milhares de empresas (segundo o SimilarWeb), incluindo 55% das empresas da Fortune 500, todos os meses. O trabalho de Cem foi citado por importantes publicações globais, como Business Insider, Forbes e Washington Post, além de empresas globais como Deloitte e HPE, ONGs como o Fórum Econômico Mundial e organizações supranacionais como a Comissão Europeia. Você pode ver mais empresas e recursos renomados que mencionaram a AIMultiple. Ao longo de sua carreira, Cem atuou como consultor de tecnologia, comprador de tecnologia e empreendedor na área. Ele assessorou empresas em suas decisões tecnológicas na McKinsey & Company e na Altman Solon por mais de uma década. Também publicou um relatório da McKinsey sobre digitalização. Liderou a estratégia de tecnologia e a área de compras de uma empresa de telecomunicações, reportando-se diretamente ao CEO. Além disso, liderou o crescimento comercial da empresa de tecnologia avançada Hypatos, que atingiu uma receita recorrente anual de sete dígitos e uma avaliação de nove dígitos, partindo de zero, em apenas dois anos. O trabalho de Cem no Hypatos foi noticiado por importantes publicações de tecnologia, como TechCrunch e Business Insider. Cem participa regularmente como palestrante em conferências internacionais de tecnologia. Ele se formou em engenharia da computação pela Universidade Bogazici e possui um MBA pela Columbia Business School.
Ver perfil completo
Pesquisado por
Şevval Alper
Şevval Alper
Pesquisador de IA
Şevval é analista da AIMultiple, especializada em ferramentas de codificação de IA, agentes de IA e tecnologias quânticas.
Ver perfil completo

Comentários 8

Compartilhe suas ideias

Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.

0/450
Serhat Cinar
Serhat Cinar
Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani
Cem Dilmegani
Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ
DLJ
Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani
Cem Dilmegani
Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster
Webster
Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi
Bardia Eshghi
Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby
Bobby
Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani
Cem Dilmegani
Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun
samsun
Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani
Cem Dilmegani
Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott
Scott
Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani
Cem Dilmegani
Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob
Bob
Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani
Cem Dilmegani
Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin
kin
Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani
Cem Dilmegani
Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.