Contáctanos
No se encontraron resultados.

Evaluación comparativa de OCR de recibos con LLM

Cem Dilmegani
Cem Dilmegani
actualizado el Ene 23, 2026
Vea nuestra normas éticas

La extracción de datos de los recibos es fundamental para las empresas, ya que millones de empleados presentan sus gastos laborales mediante recibos. Gracias a los últimos avances en IA generativa y modelos de lenguaje avanzados , la precisión en la extracción de datos ha alcanzado un nivel comparable al de los humanos.

Evaluamos la precisión de extracción de datos de los LLM en imágenes de recibos de baja y alta calidad utilizando Claude 3.5 Sonnet para determinar su capacidad de extracción de datos en recibos. Los resultados demuestran una alta precisión en la prueba OCR de recibos, con una tasa de éxito promedio del 97 %.

Resultados de referencia del OCR de recibos

Figura 1: Resultados de la precisión de la extracción de datos.

Conjunto de datos

Dividimos nuestro conjunto de datos en dos partes:

  • Alta calidad: Recibos escaneados en alta resolución. Estas imágenes están bien alineadas y presentan un alto contraste. 1

  • Baja calidad: Fotografiado, baja calidad

    recibos. Estas imágenes no están alineadas correctamente, sin ningún preprocesamiento para hacerlas

    contraste más alto. 2

Figura 2: Muestras de un conjunto de datos de alta calidad y de un conjunto de datos de baja calidad.

Nuestro objetivo es cubrir casos reales en la medida de lo posible.

Solicitamos una salida en formato JSON para facilitar la evaluación. Nuestra instrucción es: Genere el texto de los PDF en formato JSON adecuado.

Si le interesa, lea también el informe comparativo de OCR para facturas .

Metodología

Los resultados se evaluaron a nivel de pares clave-valor:

  • Si un campo incluye la etiqueta y el valor correctos, se marca como correcto.

  • Si existen diferencias de caracteres con respecto a la verdad fundamental en la etiqueta o el valor, esa fila se marca como falsa.

Precisión de extracción: Número de pares clave-valor extraídos correctamente dividido por el número total de pares clave-valor.

¿Qué es el OCR de recibos?

El reconocimiento óptico de caracteres (OCR) para recibos es una tecnología que extrae datos de recibos escaneados y digitales mediante inteligencia artificial y algoritmos de aprendizaje automático. El OCR analiza los datos, los convierte a un formato estructurado y captura detalles como la fecha, los artículos y los precios.

Buenas prácticas para extraer datos de los recibos

Para aumentar la precisión del OCR , las imágenes deben ser:

  • En mayor resolución

  • Bien alineado

  • Libre de errores de impresión

Debes tener en cuenta lo siguiente:

La mayoría de las herramientas OCR para recibos fallan al asociar el artículo correcto con el precio correcto cuando hay una nota sobre el artículo en la siguiente línea sin precio indicado. En ese caso, es común que las herramientas interpreten el precio del siguiente artículo como el precio de la nota. Para verlo con mayor claridad, veamos el siguiente ejemplo:

Figura 3: Un error común de las herramientas OCR de recibos.

En estos casos, el resultado del OCR podría coincidir con “SpcyDlx +PJ” y el precio 0.40, lo cual es incorrecto. Esto puede ocurrir especialmente cuando la resolución y la calidad de la imagen son bajas y la imagen no está alineada correctamente.

Hemos observado que, en casos de baja resolución o errores de impresión (la tinta no cubre la letra por completo, etc.), las herramientas tienen dificultades para identificar correctamente letras y números similares, como el "8" y el "9", o el "5" y el "6". También es frecuente que tengan problemas para identificar la barra inclinada (/) y el número 1, sobre todo en fechas.

Tipos de datos que se pueden extraer de los recibos

  • Número de recibo

  • Fecha

  • Nombre del proveedor

  • Importe subtotal

  • Monto del impuesto

  • Cantidad total

  • Artículos comprados

Guía paso a paso para la extracción de datos de recibos:

  • Escaneo de recibos: Escanee el recibo con alta resolución. El escaneo de recibos mediante OCR permite obtener imágenes de mayor calidad que si se tomaran fotografías de los recibos.

  • Procesamiento de recibos: Para aumentar el contraste y la legibilidad de la imagen de entrada, puede ser necesario procesar los recibos.

  • Análisis de recibos: Analizar la imagen del recibo es esencial para analizar y capturar datos, ya que los divide en partes más organizadas.

  • Uso de datos estructurados: Los datos estructurados permiten automatizar la entrada de datos en sistemas existentes, como el software de contabilidad. Los datos relevantes son útiles en numerosos casos, como el seguimiento de la fecha de transacción en los registros financieros y la gestión de gastos. La extracción automática de datos de recibos mediante LLM o API de OCR de recibos reduce los errores y la entrada manual, e incrementa la eficiencia general con alta precisión.

También puede consultar nuestra prueba de referencia de reconocimiento óptico de caracteres (OCR) para escritura a mano.

Preguntas frecuentes

La tecnología OCR facilita el seguimiento de gastos y la identificación de patrones de consumo. Los detalles de las líneas en la respuesta JSON proporcionan información clave y ayudan a ahorrar tiempo al extraer automáticamente el texto sin formato de documentos y facturas. Las empresas pueden ajustar el motor OCR según las necesidades del proyecto. Se pueden extraer números de registro comercial de diferentes países, como el número de registro comercial australiano y el número de IVA, de los recibos.

Cem Dilmegani
Cem Dilmegani
Analista principal
Cem ha sido el analista principal de AIMultiple desde 2017. AIMultiple informa a cientos de miles de empresas (según similarWeb), incluyendo el 55% de las empresas Fortune 500 cada mes. El trabajo de Cem ha sido citado por importantes publicaciones globales como Business Insider, Forbes, Washington Post, firmas globales como Deloitte, HPE y ONG como el Foro Económico Mundial y organizaciones supranacionales como la Comisión Europea. Puede consultar más empresas y recursos de renombre que citan a AIMultiple. A lo largo de su carrera, Cem se desempeñó como consultor, comprador y emprendedor tecnológico. Asesoró a empresas en sus decisiones tecnológicas en McKinsey & Company y Altman Solon durante más de una década. También publicó un informe de McKinsey sobre digitalización. Lideró la estrategia y adquisición de tecnología de una empresa de telecomunicaciones, reportando directamente al CEO. Asimismo, lideró el crecimiento comercial de la empresa de tecnología avanzada Hypatos, que alcanzó ingresos recurrentes anuales de siete cifras y una valoración de nueve cifras partiendo de cero en tan solo dos años. El trabajo de Cem en Hypatos fue reseñado por importantes publicaciones tecnológicas como TechCrunch y Business Insider. Cem participa regularmente como ponente en conferencias internacionales de tecnología. Se graduó en ingeniería informática por la Universidad de Bogazici y posee un MBA de la Columbia Business School.
Ver perfil completo

Sé el primero en comentar

Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.

0/450