Optical Character Recognition (OCR) is a field of machine learning that specializes in distinguishing characters within images like scanned documents, printed books, or photos. Although it is a mature technology, there are still no OCR products that can recognize all kinds of text with 100% accuracy. Among the products that we benchmarked, only a few products could output successful results from our test set.OCR tools are used by companies to identify texts and their positions in images, classify business documents according to subjects, or conduct key-value pairing within documents. Based on OCR results, other technology companies build applications like document automation. For all these business cases, accurate text recognition is critical for an OCR product.

Prueba de rendimiento OCR: Precisión en la extracción/captura de texto

Cem Dilmegani

con

Şevval Alper

actualizado el Ene 22, 2026

Vea nuestra normas éticas

La precisión del OCR es fundamental para muchas tareas de procesamiento de documentos, y los sistemas LLM multimodales de última generación ofrecen ahora una alternativa al OCR . Hemos comparado los principales servicios de OCR en DeltOCR Bench para identificar sus niveles de precisión en diferentes tipos de documentos:

Escritura a mano : GPT-5 (95%) destaca como el de mejor rendimiento, seguido de cerca por olmOCR-2-7B (94%) y Gemini 2.5 Pro (93%).
Medios impresos : Gemini 2.5 Pro, Google Vision y Claude Sonnet 4.5 lideran esta categoría con la puntuación más alta (85%).
Texto impreso : Microsoft Documento de Azure Intelligence API lidera con una puntuación de %96.

Prueba de referencia OCR: Prueba de referencia DeltOCR

Loading Chart

A continuación se detallan los nombres completos de los productos mencionados y sus versiones vigentes a noviembre de 2025. Nuestro estudio abarca tanto servicios API de fácil acceso como soluciones que requieren infraestructura local, comparando los principales modelos del mercado en un entorno de pruebas exhaustivo.

Escritura a mano :
- Rango de precisión: Un amplio rango del 46 % al 95 %.
- Aspectos destacados: GPT-5 (95%), olmOCR-2-7B (94%) y Gemini 2.5 Pro (93%) presentan el mejor rendimiento. Estas altas puntuaciones demuestran el extraordinario potencial de precisión de los modelos LLM multimodales, como GPT-5 y Gemini 2.5 Pro, en este ámbito.
- Recomendación: Para el reconocimiento de escritura a mano muy compleja, se recomiendan las mejores soluciones LLM como GPT-5 o Gemini 2.5 Pro debido a su accesibilidad API y facilidad de integración.
Medios impresos :
- Rango de precisión: Un rango del 54 % al 85 %.
- Aspectos destacados: Soluciones como Gemini 2.5 Pro, Vision y 957.5 comparten la puntuación más alta (85%). Esta categoría es altamente competitiva entre los LLM y los servicios OCR tradicionales basados en la nube (Azure, Dots OCR, Amazon Textract). 1211 se queda atrás de otros LLM líderes en esta categoría (77%).
- Recomendación: Para documentos con diseños visuales complejos (varias fuentes, baja resolución, etc.), se recomiendan herramientas LLM como Gemini 2.5 Pro o servicios basados en la nube como Google Vision o Microsoft Azure Document Intelligence API.
Texto impreso :
- Rango de precisión: Un rango amplio, desde el 55 % hasta el 96 %, aunque la mayoría de las soluciones líderes obtuvieron puntuaciones del 94 % o superiores.
- Aspectos destacados: Microsoft Azure Document Intelligence API (96%) toma la delantera, seguida de cerca por soluciones como GPT-5, Gemini 2.5 Pro, Gemini 3 Pro Preview, Google Vision y Amazon Textract, todas con una puntuación del 95%. Esta categoría es un área donde todas las soluciones SOTA alcanzan niveles de precisión extremadamente altos.
- Recomendación: Para textos impresos sencillos que requieren alta precisión, se pueden utilizar con confianza soluciones en la nube establecidas como la API de Azure Document Microsoftligence o GoogleVision, o LLM de alto puntaje (Gemini/GPT-5).

Soluciones API

Los siguientes modelos se incluyeron en nuestra lista de referencia debido a su facilidad de acceso y rendimiento.

Claude Sonnet 4.5
OpenAI GPT-5
Gemini 2.5 Pro
Vista previa del Gemini 3 Pro
API de Amazon TextRect
Google API de Cloud Vision
Microsoft Documento de Azure Intel API de Ligence
Moondream OCR
Mistral OCR 3
Mistral OCR 2

Microsoft Documento de Azure Intelligence API es parte de la familia de Azure Cognitive Services.

Modelos implementados localmente (en las instalaciones del cliente)

Probar estos modelos resulta más complejo que probar soluciones API debido a la instalación, la gestión de dependencias y los requisitos de hardware. Todas las pruebas locales se realizaron en un entorno de servidor dedicado.

olmOCR-2-7B
PaddleOCR-VL
Nanoredes-OCR2-3B
Búsqueda profunda-OCR
Puntos-OCR

Calculamos la precisión de los resultados mediante el coeficiente de similitud del coseno para texto impreso, medios impresos y escritura a mano. Cada puntuación visible en el gráfico representa el rendimiento del modelo correspondiente dentro de esa categoría.

Durante nuestras pruebas, observamos que el modelo Nanonets-OCR2-3B presentó el peor desempeño en la evaluación comparativa, obteniendo las puntuaciones más bajas. En general, constatamos que algunos modelos tuvieron dificultades, especialmente con la escritura cursiva y los diseños de texto desorganizados (orden de líneas mixto, mayúsculas inconsistentes). Problemas de rendimiento similares surgieron también en la categoría de medios impresos, sobre todo con imágenes de baja resolución y aquellas que contenían varios estilos de fuente.

Conjunto de datos

En esta evaluación comparativa utilizamos un total de 300 documentos, con 100 documentos por categoría distribuidos en 3 categorías:

El texto impreso incluye cartas, capturas de pantalla de sitios web, correos electrónicos, informes, etc.

Los medios impresos incluyen carteles, portadas de libros, anuncios, etc. Nuestro objetivo era comprobar el éxito de las herramientas OCR en diferentes fuentes y ubicaciones de texto.

Los archivos de estas dos categorías se obtuvieron de la Biblioteca de Documentos de la Industria (IDL). ¹

Escritura a mano: En la categoría de escritura a mano, dado que algunos documentos del IDL no eran fáciles de leer, nuestro equipo generó documentos similares. Preparamos manualmente muestras de escritura legible. Todas las muestras estaban escritas en letra cursiva.

Figura 1: Muestras de nuestro conjunto de datos.

Metodología del banco de pruebas DeltOCR

Esta prueba de rendimiento se centra en la precisión de la extracción de texto de los productos.

El preprocesamiento se realiza únicamente para la categoría de escritura a mano. Tomamos fotografías de los documentos manuscritos con nuestros teléfonos inteligentes y utilizamos una aplicación de escáner móvil:

Las fotografías se convirtieron a blanco y negro.
Se aumentó el contraste y se eliminó el fondo.

OCR: Ejecutamos todos los productos en el mismo conjunto de datos y generamos los resultados de texto como archivos de texto sin formato (.txt). A continuación, preparamos manualmente la verdad fundamental, incluyendo el texto correcto en todos estos archivos. La verdad fundamental fue verificada dos veces por personas.

Comparación: Medimos la precisión de las soluciones OCR comparando sus resultados con los textos originales. Para ello, utilizamos el marco Sentence-BERT (SBERT) para calcular los índices de similitud del coseno. En la evaluación comparativa, empleamos el modelo de paráfrasis multilingüe de alto rendimiento, MiniLM-L12-v2, para calcular el índice de similitud entre el resultado de cada producto y los textos de referencia. Este índice representa el nivel de precisión del texto.

La función de similitud utiliza la distancia coseno para calcular la similitud entre dos textos. No utilizamos la distancia de Levenshtein para esta prueba comparativa porque los diferentes productos generan los textos en distintos órdenes. ²

Si bien la distancia de Levenshtein tiene en cuenta estas diferencias, solo nos interesa la precisión con la que se detecta el texto, no su ubicación. La distancia coseno presenta penalizaciones insignificantes en estos casos, por lo que decidimos utilizarla en esta prueba comparativa.

Selección de productos

Existen muchos productos OCR en el mercado. Debemos centrarnos en aquellos que pueden generar resultados de texto sin formato. Los productos para esta comparativa se seleccionaron en función de:

Capacidad para extraer texto. En esta comparación no incluimos soluciones que solo extraen datos legibles por máquina (es decir, datos estructurados).
Su popularidad en el mercado

Este no es un análisis exhaustivo del mercado, y es posible que hayamos omitido algunos productos con capacidades importantes. Si ese es el caso, por favor, deje un comentario y con gusto ampliaremos el análisis comparativo.

Limitaciones

En esta prueba comparativa no se evaluaron capacidades avanzadas como la detección de la ubicación del texto, el emparejamiento clave-valor y la clasificación de documentos.

El tamaño de la muestra aumentará en la próxima iteración. Si busca reconocimiento óptico de caracteres (OCR) para escritura a mano, consulte nuestra prueba comparativa de OCR para escritura a mano con 50 muestras.

También puede consultar nuestra comparativa de OCR para facturas y recibos si le interesa.

Resultados anteriores de la prueba de rendimiento de OCR

Resultados generales de la precisión del texto OCR con intervalos de confianza del 90 %.

Google Cloud Vision y AWS Textract son las tecnologías líderes en el mercado para todos los casos.
Abbyy también ofrece un alto rendimiento para documentos no manuscritos.
Todos los sistemas OCR evaluados, incluido el de código abierto Tesseract, tuvieron un buen rendimiento en capturas de pantalla digitales.

La herramienta Vision OCR de Cloud Platform (Google) alcanza una precisión de texto máxima del 98,0 % al analizar el conjunto de datos completo. Si bien todos los productos superan el 99,2 % en la Categoría 1, que incluye textos mecanografiados, las imágenes manuscritas de las Categorías 2 y 3 marcan la diferencia entre ellos.

Los resultados generales muestran que GCP Vision y AWS Textract son los productos OCR dominantes, con la mayor precisión en el reconocimiento del texto proporcionado.

Notas sobre los resultados generales:

En una ocasión, AWS Textract no reconoció el texto manuscrito. Esta situación reduce significativamente el rendimiento general y de la categoría de AWS Textract. Además, aumenta la desviación dentro de la categoría y en general, ya que AWS Textract funciona muy bien en todos los demás casos.
Azure es el producto líder en la Categoría 1 con una precisión del 99,8 %. Sin embargo, a menudo no reconoce el texto manuscrito, como se observa en los resultados de la segunda categoría. Por este motivo, Azure se queda atrás en la tercera categoría y en la clasificación general.
Tesseract OCR es un producto de código abierto que se puede usar de forma gratuita. En comparación con Azure y ABBYY, ofrece un mejor rendimiento en textos manuscritos y puede considerarse para el reconocimiento de escritura a mano si el usuario no puede acceder a los productos de AWS o GCP. Sin embargo, su rendimiento puede ser deficiente en imágenes escaneadas.
A diferencia de otros productos, ABBYY genera un archivo .txt más estructurado. Además, ABBYY tiene en cuenta la ubicación del texto dentro de la imagen al generar el archivo de salida. Si bien el producto cuenta con otras funciones útiles, en esta prueba comparativa nos centramos únicamente en la precisión del texto. Su rendimiento en el reconocimiento de escritura a mano fue deficiente.

Eliminando la imagen de “Problemático”

Como se mencionó en los resultados generales, hubo una imagen atípica en la que AWS Textract no pudo reconocer ningún texto. Si bien el producto muestra una precisión de texto superior al 95 % en todas las demás imágenes, este caso redujo el rendimiento de AWS y amplió su intervalo de confianza.

Como este caso podría ser una excepción, también quisimos comparar los productos sin ella. Llamamos a esta imagen la "problemática" y repetimos los análisis para ver si había alguna diferencia.
Aquí están los nuevos resultados después de excluir al "problemático" del conjunto de datos.

Resultados de precisión de texto OCR cuando se excluye al "problemático". Se muestra el intervalo de confianza del 90 %.

Al excluir al usuario problemático, AWS Textract se posiciona como el mejor, con un nivel de precisión de texto casi perfecto (99,3 %) y un intervalo de confianza estrecho. Si bien las puntuaciones no varían significativamente, GCP Vision y AWS Textract siguen siendo los dos mejores productos, con una precisión de texto superior a la de los demás.

Resultados sin reconocimiento de escritura a mano

El principal factor que reduce la precisión del texto en ciertos productos es la presencia de escritura a mano en las imágenes. Por lo tanto, excluimos todas las imágenes (todas las de la categoría 2 y 6 imágenes de la categoría 3) y volvimos a evaluar el rendimiento de la precisión del texto.

Precisión del texto OCR sin casos de reconocimiento de escritura a mano

Los resultados son más parejos cuando se excluyen las imágenes manuscritas. AWS Textract y GCP Vision siguen siendo los dos mejores productos en la comparativa, pero ABBYY FineReader también ofrece un rendimiento excelente (99,3 %). Si bien todos los productos alcanzan una precisión superior al 95 % al excluir la escritura a mano, Azure Computer Vision y Tesseract OCR aún presentan dificultades con los documentos escaneados, lo que los sitúa por detrás en esta comparación.

Productos de referencia

Probamos cinco productos OCR para medir su precisión de texto. Utilizamos versiones disponibles a partir de mayo de 2021. Los productos utilizados son:

ABBYY FineReader 15
Texto de Amazon
Google API de visión de la plataforma en la nube
Microsoft API de visión artificial de Azure
Motor OCR Tesseract

Conjunto de datos

Aunque existen muchos conjuntos de datos de imágenes para OCR, estos son:

principalmente a nivel de personajes y no se ajustan a casos de uso empresarial reales.
o centrarse en la ubicación del texto en lugar del texto en sí.

Por lo tanto, decidimos crear nuestro propio conjunto de datos bajo tres categorías principales:

Categoría 1: capturas de pantalla de páginas web que incluyen textos: esta categoría incluye capturas de pantalla de páginas aleatorias de Wikipedia y resultados de búsqueda Google con consultas aleatorias.
Categoría 2 – Escritura a mano: Esta categoría incluye fotos aleatorias que muestran diferentes estilos de escritura a mano.
Categoría 3: Recibos, facturas y contratos escaneados: Esta categoría incluye una colección aleatoria de recibos, facturas manuscritas y contratos de seguros escaneados recopilados de Internet.

Todos los archivos de entrada están en formato .jpg o .png.

Limitaciones

Conjunto de datos limitado: Originalmente, contábamos con una cuarta categoría compuesta por fotografías de periódicos para evaluar el rendimiento de los productos en documentos impresos. Sin embargo, estas fotografías contienen demasiado texto, lo que dificulta la obtención de datos de referencia. Por lo tanto, decidimos no utilizarlas.
Inconsistencias en los formatos de salida: Muchas imágenes incluyen textos separados a la izquierda y a la derecha. Los programas extraen estos textos en un orden diferente, lo que provoca que los archivos de salida sean distintos, aunque el texto se detecta correctamente. Esta situación nos impidió utilizar otras medidas de distancia (como la distancia de Levenshtein) y limitó nuestras opciones para calcular la precisión del texto.
Posible problema con la distancia coseno: La distancia coseno utiliza incrustaciones al calcular la similitud. Por ejemplo, comparar las oraciones "Me gusta el té" y "Me gusta el café" daría un índice de similitud mayor del que debería. Sin embargo, casos como confundir la palabra "té" con "café" son poco frecuentes, por lo que no consideramos esta posibilidad en este ejercicio.

Utilizamos otros datos de mercado (por ejemplo, reseñas de software, estudios de casos de clientes) para clasificar a los proveedores de software. Sin embargo, dado que la mayoría de las empresas utilizan el término "OCR" al buscar soluciones de extracción de datos (es decir, incluidas aquellas que generan datos legibles por máquina), nuestra lista tiene un alcance mayor y abarca más empresas que las presentadas en este análisis comparativo.

To get up to date on enterprise AI and software, follow us:

Cem Dilmegani

Principal Analyst

Preguntas frecuentes

El reconocimiento óptico de caracteres (OCR) es un campo del aprendizaje automático especializado en la distinción de caracteres en imágenes como documentos escaneados, libros impresos o fotografías. Si bien es una tecnología consolidada, aún no existen productos OCR capaces de reconocer todo tipo de texto con una precisión del 100 %. Entre los productos que analizamos, solo unos pocos lograron resultados satisfactorios en nuestro conjunto de pruebas.
Las empresas utilizan herramientas OCR para identificar textos y su posición en imágenes, clasificar documentos comerciales por temas o realizar emparejamientos clave-valor dentro de los documentos. A partir de los resultados del OCR, otras empresas tecnológicas desarrollan aplicaciones como la automatización de documentos . Para todos estos casos de negocio, el reconocimiento preciso de texto es fundamental para un producto OCR.

Enlaces de referencia

pixparse/idl-wds · Datasets at Hugging Face

Pixel Parsing

Levenshtein distance - Wikipedia

Contributors to Wikimedia projects

Cem Dilmegani

Analista principal

Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.

Ver perfil completo

Investigado por

Şevval Alper

Investigador de IA

Şevval es analista del sector en AIMultiple, especializado en herramientas de codificación de IA, agentes de IA y tecnologías cuánticas.

Ver perfil completo

Comentarios 8

Comparte tus ideas

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

Serhat Cinar

Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani

Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ

Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani

Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster

Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi

Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby

Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani

Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun

Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani

Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott

Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani

Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob

Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani

Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin

Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani

Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.

Siguiente para leer

Tipos de proxyMay 11

Ekrem Sarı

Másteres en Derecho (LLM)Abr 20

Prueba de rendimiento OCR: Precisión en la extracción/captura de texto