A precisão do OCR é crucial para muitas tarefas de processamento de documentos, e os melhores softwares de reconhecimento de linguagem (LLMs) multimodais estão oferecendo uma alternativa ao OCR . Realizamos um benchmark dos principais serviços de OCR no DeltOCR Bench para identificar seus níveis de precisão em diferentes tipos de documentos:
- A análise de escrita à mão , GPT-5 (95%), destaca-se como a de melhor desempenho, seguida de perto por olmOCR-2-7B (94%) e Gemini 2.5 Pro (93%).
- Mídia impressa : Gemini 2.5 Pro, Google Vision e Claude Sonnet 4.5 lideram esta categoria com a pontuação mais alta (85%).
- Texto impresso : Microsoft Documento do Azure Intel A API de liderança apresenta uma pontuação de 96%.
Benchmark de OCR: DeltOCR Bench
Os nomes completos dos produtos acima e suas versões em uso em novembro de 2025 estão listados abaixo. Nosso estudo abrange tanto serviços de API de fácil acesso quanto soluções que exigem infraestrutura local, comparando os principais modelos do mercado em um ambiente de teste aprofundado.
- Caligrafia :
- Faixa de precisão: Uma ampla faixa de 46% a 95%.
- Destaques: GPT-5 (95%), olmOCR-2-7B (94%) e Gemini 2.5 Pro (93%) apresentam o melhor desempenho. Essas altas pontuações demonstram o extraordinário potencial de precisão de softwares de análise de linguagem multimodal, como GPT-5 e Gemini 2.5 Pro, nesse domínio.
- Recomendação: Para o reconhecimento de escrita manual altamente complexa, as melhores soluções LLM, como GPT-5 ou Gemini 2.5 Pro, são recomendadas devido à acessibilidade da API e à facilidade de integração.
- Mídia impressa :
- Faixa de precisão: Uma faixa de 54% a 85%.
- Destaques: Soluções como Gemini 2.5 Pro, Vision e 957.5 compartilham a pontuação mais alta (85%). Esta categoria é altamente competitiva entre LLMs e serviços tradicionais de OCR baseados em nuvem (Azure, Dots OCR, Amazon Textract). 9912591211 fica atrás de outros LLMs líderes nesta categoria (77%).
- Recomendação: Para documentos com layouts visuais complexos (múltiplas fontes, baixa resolução, etc.), recomenda-se o uso de LLMs como o Gemini 2.5 Pro ou serviços baseados em nuvem como o Azure Vision ou a API Azure Document Licensing.
- Texto impresso :
- Faixa de precisão: Uma ampla faixa, de 55% a 96%, embora a maioria das soluções líderes tenha alcançado pontuações de 94% ou mais.
- Destaques: A API Azure Document Ligence (96%) lidera, seguida de perto por soluções como Gemini 2.5 Pro, Gemini 3 Pro Preview, Vision e Amazon Textract, todas com 95%. Esta categoria é uma área onde todas as soluções de última geração alcançam níveis extremamente altos de precisão.
- Recomendação: Para textos impressos simples que exigem alta precisão, soluções de nuvem estabelecidas como a API Azure Document Ligence ou o Vision, ou LLMs de alta pontuação (Gemini/Ligence), podem ser usadas com confiança.
Soluções de API
Os seguintes modelos foram incluídos em nossa lista de avaliação comparativa devido à sua facilidade de acesso e desempenho.
- Claude Sonnet 4.5
- OpenAI GPT-5
- Gemini 2.5 Pro
- Prévia do Gemini 3 Pro
- API Textract da Amazon
- API Cloud Vision Google
- Microsoft Documento do Azure Intel API de liderança
- Moondream OCR
- Mistral OCR 3
- Mistral OCR 2
Microsoft Documento do Azure Intel A API de inteligência faz parte da família de Serviços Cognitivos do Azure.
Modelos implantados localmente (on-premise)
Testar esses modelos é mais desafiador do que soluções de API devido à instalação, gerenciamento de dependências e requisitos de hardware. Todos os testes locais foram conduzidos em um ambiente de servidor dedicado.
- olmOCR-2-7B
- PaddleOCR-VL
- Nanonets-OCR2-3B
- Deepseek-OCR
- Pontos-OCR
Calculamos a precisão dos resultados como a pontuação de similaridade de cosseno para texto impresso, mídia impressa e escrita à mão. Cada pontuação visível no gráfico representa o desempenho do modelo correspondente dentro dessa categoria.
Durante nossos testes, observamos que o modelo Nanonets-OCR2-3B apresentou o pior desempenho no benchmark, obtendo as pontuações mais baixas. De modo geral, constatamos que alguns modelos tiveram dificuldades, principalmente com escrita cursiva e layouts de texto desorganizados (ordem de linhas irregular, uso inconsistente de maiúsculas e minúsculas). Problemas de desempenho semelhantes também surgiram na categoria de mídia impressa, especialmente com imagens de baixa resolução e aquelas que continham vários estilos de fonte.
Conjunto de dados
Neste estudo comparativo, utilizamos um total de 300 documentos, sendo 100 documentos por categoria, distribuídos em 3 categorias:
O texto impresso inclui cartas, capturas de tela de sites, e-mails, relatórios, etc.
A mídia impressa inclui pôsteres, capas de livros, anúncios, etc. Nosso objetivo era avaliar o desempenho das ferramentas de OCR em diferentes fontes e posicionamentos de texto.
Os arquivos dessas duas categorias foram obtidos da Biblioteca de Documentos da Indústria (IDL). 1
Caligrafia: Na categoria de manuscritos, como alguns documentos IDL não eram fáceis de ler, nossa equipe gerou documentos semelhantes aos documentos IDL. Preparamos manualmente amostras de caligrafia legível. Todas as amostras estavam em estilo cursivo.
Metodologia do DeltOCR Bench
Este teste comparativo foca na precisão da extração de texto dos produtos.
O pré-processamento é realizado apenas para a categoria de escrita à mão. Fotografamos os documentos manuscritos com nossos smartphones e utilizamos um aplicativo de digitalização para celular:
- As imagens foram convertidas para preto e branco.
- O contraste foi aumentado e o fundo foi removido.
OCR: Executamos todos os produtos no mesmo conjunto de dados e geramos saídas de texto como arquivos de texto bruto (.txt). Em seguida, preparamos manualmente a verdade fundamental, incluindo o texto correto em todos esses arquivos. A verdade fundamental foi verificada duas vezes por humanos.
Comparação: Medimos a precisão das soluções de OCR comparando seus resultados com os textos originais. Para isso, utilizamos o framework Sentence-BERT (SBERT) para calcular os índices de similaridade de cosseno. No benchmark, utilizamos o modelo de paráfrase multilíngue de alto desempenho, MiniLM-L12-v2, para calcular o índice de similaridade entre o resultado de cada produto e os textos de referência. Esse índice representa o nível de precisão do texto.
A função de similaridade utiliza uma métrica de distância cosseno para calcular a similaridade entre dois textos. Não utilizamos a distância de Levenshtein para este teste comparativo porque diferentes produtos geram textos em ordens diferentes. 2
Embora a distância de Levenshtein leve em consideração essas diferenças, estamos analisando apenas a precisão da detecção do texto, e não sua localização. A distância cosseno apresenta penalidades insignificantes nesses casos, por isso optamos por utilizá-la neste teste comparativo.
Seleção de produtos
Existem muitos produtos de OCR no mercado. Precisamos nos concentrar naqueles que conseguem gerar resultados de texto bruto. Os produtos para este teste comparativo foram escolhidos com base em:
- Capacidade de extrair texto. Não incluímos nesta comparação soluções que extraem apenas dados legíveis por máquina (ou seja, dados estruturados).
- Sua popularidade no mercado
Esta não é uma análise de mercado abrangente e podemos ter excluído alguns produtos com funcionalidades importantes. Caso isso aconteça, deixe um comentário e teremos prazer em ampliar a análise comparativa.
Limitações
Funcionalidades avançadas como detecção de localização de texto, pareamento de chave-valor e classificação de documentos não foram avaliadas neste teste comparativo.
O tamanho da amostra será aumentado na próxima iteração. Se você procura por OCR para escrita à mão, consulte nosso benchmark de OCR para escrita à mão com 50 amostras.
Você também pode consultar nossos benchmarks de OCR para faturas e recibos, caso tenha interesse.
Resultados anteriores do benchmark de OCR
- Cloud Vision e AWS Textract são as tecnologias líderes de mercado para todos os casos.
- Abbyy também apresenta alto desempenho para documentos não manuscritos.
- Todos os softwares de OCR testados, incluindo o Tesseract de código aberto, apresentaram bom desempenho em capturas de tela digitais.
A ferramenta Vision OCR da Cloud Platform alcança a maior precisão de texto, de 98,0%, quando todo o conjunto de dados é testado. Embora todos os produtos apresentem desempenho acima de 99,2% na Categoria 1, que inclui textos digitados, as imagens manuscritas nas Categorias 2 e 3 representam o diferencial real entre os produtos.
Os resultados gerais mostram que o GCP Vision e o AWS Textract são os produtos de OCR dominantes, com a maior precisão no reconhecimento do texto fornecido.
Notas sobre os resultados gerais:
- Houve uma única ocasião em que o AWS Textract falhou em reconhecer o texto manuscrito. Essa situação reduziu significativamente o desempenho geral e dentro da categoria do AWS Textract. Também aumentou o desvio dentro da categoria e no geral, visto que o AWS Textract apresenta um desempenho muito bom em todas as outras situações.
- O Azure é o produto líder na Categoria 1, com 99,8% de precisão. No entanto, o produto frequentemente falha ao reconhecer textos manuscritos, como mostram os resultados da segunda categoria. Esse é o motivo pelo qual o Azure fica atrás na terceira categoria e no geral.
- O Tesseract OCR é um produto de código aberto e gratuito. Comparado ao Azure e ao ABBYY, ele apresenta melhor desempenho em casos de escrita à mão e pode ser considerado para reconhecimento de escrita manual caso o usuário não tenha acesso aos produtos da AWS ou do GCP. No entanto, seu desempenho pode ser insatisfatório em imagens digitalizadas.
- Ao contrário de outros produtos, o ABBYY gera um arquivo .txt mais estruturado. O ABBYY também considera a localização do texto dentro da imagem ao gerar o arquivo de saída. Embora o produto tenha recursos adicionais úteis, neste teste comparativo, estamos focando apenas na precisão do texto. E seu desempenho no reconhecimento de escrita à mão foi ruim.
Remover a imagem de "encrenqueiro"
Conforme mencionado nos resultados gerais, houve uma única imagem "atípica" em que o AWS Textract não conseguiu reconhecer nenhum texto. Embora o produto apresente mais de 95% de precisão de texto em todas as outras imagens, essa instância reduziu o desempenho da AWS e ampliou seu intervalo de confiança.
Como este caso pode ser uma exceção, também quisemos comparar os produtos sem ele. Chamamos essa imagem de "problemática" e refizemos nossos testes para ver se isso fazia alguma diferença.
Aqui estão os novos resultados após a exclusão do "encrenqueiro" do conjunto de dados.
Excluindo o usuário problemático, o AWS Textract se destaca com um nível de precisão de texto quase perfeito (99,3%) e uma margem de confiança estreita. Embora as pontuações não mudem muito, o GCP Vision e o AWS Textract permanecem como os dois melhores produtos, com precisão de texto superior aos demais.
Resultados sem reconhecimento de escrita manual
O principal fator que reduz a precisão do texto em determinados produtos é a presença de escrita à mão nas imagens. Portanto, excluímos todas as imagens (todas da categoria 2 e 6 imagens da categoria 3) e reavaliamos o desempenho da precisão do texto.
Os resultados são mais equilibrados quando imagens manuscritas são excluídas. O AWS Textract e o GCP Vision continuam sendo os dois melhores produtos no teste comparativo, mas o ABBYY FineReader também apresenta um desempenho muito bom (99,3%) desta vez. Embora todos os produtos alcancem mais de 95% de precisão quando a escrita à mão é excluída, o Azure Computer Vision e o Tesseract OCR ainda apresentam dificuldades com documentos digitalizados, ficando atrás nesta comparação.
Produtos de referência
Testamos cinco produtos de OCR para medir seu desempenho em precisão de texto. Utilizamos versões disponíveis até maio de 2021. Os produtos utilizados foram:
- ABBYY FineReader 15
- Amazon Textract
- Google API de Visão da Plataforma em Nuvem
- Microsoft API de Visão Computacional do Azure
- Mecanismo OCR Tesseract
Conjunto de dados
Embora existam muitos conjuntos de dados de imagens para OCR, estes são
- principalmente no nível do personagem, e não se conformam a casos de uso reais de negócios.
- ou concentre-se na localização do texto em vez do próprio texto.
Assim, decidimos criar nosso próprio conjunto de dados em três categorias principais:
- Categoria 1 – Capturas de tela de páginas da web que incluem textos: Esta categoria inclui capturas de tela de páginas aleatórias da Wikipédia e resultados de pesquisa Google com consultas aleatórias.
- Categoria 2 – Caligrafia: Esta categoria inclui fotos aleatórias com diferentes estilos de caligrafia.
- Categoria 3 – Recibos, faturas e contratos digitalizados: Esta categoria inclui uma coleção aleatória de recibos, faturas manuscritas e contratos de seguro digitalizados coletados da internet.
Todos os arquivos de entrada estão no formato .jpg ou .png.
Limitações
- Conjunto de dados limitado: Inicialmente, tínhamos uma quarta categoria composta por fotos de jornais para avaliar o desempenho de produtos em documentos impressos. No entanto, essas fotos contêm muito texto, dificultando a geração de dados de referência. Portanto, decidimos não utilizá-las.
- Inconsistências nos formatos de saída: Muitas imagens incluem trechos de texto separados nos lados esquerdo e direito. Os programas extraem esses textos em ordens diferentes, resultando em arquivos de saída distintos, embora os textos sejam detectados com precisão. Essa situação nos impediu de usar outras medidas de distância (como a distância de Levenshtein) e limitou nossas opções para calcular a precisão do texto.
- Possível problema com a distância cosseno: A distância cosseno utiliza representações vetoriais (embeddings) no cálculo da similaridade. Por exemplo, comparar as frases "Eu gosto de chá" e "Eu gosto de café" resultaria em uma pontuação de similaridade maior do que a esperada. No entanto, casos como confundir a palavra "chá" com "café" seriam raros, portanto, não consideramos essa possibilidade neste exercício.
Utilizamos outros dados de mercado (como avaliações de software e estudos de caso de clientes) para classificar os fornecedores de software. No entanto, como a maioria das empresas usa o termo "OCR" ao buscar soluções de extração de dados (ou seja, incluindo aquelas que geram dados legíveis por máquina), nossa lista tem um escopo maior e inclui mais empresas do que as apresentadas neste exercício de benchmarking.
Perguntas frequentes
O Reconhecimento Óptico de Caracteres (OCR) é uma área do aprendizado de máquina especializada em distinguir caracteres em imagens como documentos digitalizados, livros impressos ou fotos. Embora seja uma tecnologia consolidada, ainda não existem produtos de OCR capazes de reconhecer todos os tipos de texto com 100% de precisão. Dentre os produtos que avaliamos, apenas alguns apresentaram resultados satisfatórios em nosso conjunto de testes.
As ferramentas de OCR são utilizadas por empresas para identificar textos e suas posições em imagens, classificar documentos comerciais por assunto ou realizar o pareamento de chaves e valores dentro dos documentos. Com base nos resultados do OCR, outras empresas de tecnologia desenvolvem aplicações como a automação de documentos . Para todos esses casos de uso, o reconhecimento preciso de texto é fundamental para um produto de OCR.
Comentários 8
Compartilhe suas ideias
Seu endereço de e-mail não será publicado. Todos os campos são obrigatórios.
Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?
Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.
Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.
Hi there, thank you for the detailed comment, we are updating the article to include these details.
Hello, great work! Just curious, did you use a trained Tesseract when making these testing?
Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.
The graph images are not working for me at the moment. Otherwise great
Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.
Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html
Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.
What version of Tesseract did you test with? They recently released v5.
Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.
This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.
Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.
interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!
Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.