La extracción de documentos asistida por agentes (ADE) es una forma especializada de reconocimiento óptico de caracteres (OCR) que extrae datos de diversos tipos de archivos. Combina el procesamiento de documentos, la recuperación de datos, la generación de resultados estructurados y la automatización para optimizar el trabajo basado en el conocimiento.
ADE se distingue del OCR tradicional por su capacidad para reconocer estructuras de documentos complejas, como tablas, diagramas de flujo e imágenes. Esto lo hace más avanzado que los métodos convencionales de Procesamiento Inteligente de Documentos (IDP) y Generación Aumentada de Recuperación (RAG).
Ponemos a prueba las 5 mejores herramientas de extracción de documentos basadas en agentes utilizando 60 imágenes y medimos su rendimiento con una puntuación compuesta que incluye 3 métricas.
Resultados de referencia de la extracción de documentos agencial
Nuestras pruebas de rendimiento revelaron que LandingAI es la herramienta más capaz para la extracción de documentos mediante agentes, con una puntuación de 69 sobre 100.
*La herramienta de extracción de documentos basada en agentes de Docsumo no incluye una herramienta para la extracción de diagramas de flujo. El producto puede entrenarse para diversos procesos de extracción de documentos; sin embargo, nuestra evaluación comparativa se basa en modelos preconfigurados. Por lo tanto, Docsumo no obtuvo puntuaciones positivas en la extracción de diagramas de flujo.
Evaluamos las herramientas utilizando tres métricas para la evaluación de diagramas de flujo y cuatro métricas para la evaluación de tablas. Puede encontrar los detalles en nuestra metodología de evaluación comparativa de extracción de documentos con agentes .
Las 5 herramientas de extracción de documentos más populares
AterrizajeAI
LandingAI dejó atrás los enfoques tradicionales y aplicó el OCR en diversas áreas. Su procesamiento de documentos no se limita a un solo tipo de extracción de datos. Afirman que su herramienta de extracción de documentos basada en agentes puede extraer imágenes complejas y completar la información faltante cuando sea necesario. Esta herramienta se puede usar en el entorno de pruebas de LandingAI o mediante llamadas a la API.
Característica distintiva: Puede extraer datos complejos y mixtos (texto y tabla en la misma página) sin necesidad de introducir ningún dato.
Mistral OCR
Mistral AI ha introducido Mistral OCR para mejorar la comprensión de documentos. Esta herramienta procesa con precisión diversos elementos del documento, como texto, tablas e imágenes, manteniendo su estructura y jerarquía. Admite múltiples formatos y ofrece resultados en formato Markdown para facilitar su análisis y visualización.
Característica distintiva: Está optimizado específicamente para integraciones de Generación Aumentada de Recuperación (RAG) multimodales , preservando la estructura del documento con una salida en formato Markdown, ideal para flujos de trabajo de IA posteriores.
Anthropic Claude Sonnet 3.7
Sonnet, del modelo Claude 3.7 de Anthropic, es un modelo de IA de vanguardia con capacidades de razonamiento híbrido, lo que le permite alternar entre respuestas rápidas y análisis detallados paso a paso. Este modelo puede procesar archivos PDF de hasta 100 páginas, analizando tanto texto como elementos visuales, como imágenes, tablas y gráficos. Su modo de razonamiento extendido es ideal para tareas complejas de análisis de documentos, incluyendo codificación y razonamiento matemático.
Característica distintiva: Admite un razonamiento híbrido profundo, que combina un análisis de respuesta rápida con una lógica meticulosa paso a paso, lo cual resulta beneficioso para la comprensión integral y la extracción de información de documentos extensos.
OpenAI o3-mini
El modelo o3-mini de OpenAI es un modelo de razonamiento rentable, conocido por su capacidad para abordar tareas que requieren la resolución de problemas paso a paso, como la codificación y el razonamiento matemático. Permite la carga de archivos e imágenes, lo que mejora sus capacidades de análisis de documentos. Los usuarios han reportado un procesamiento exitoso de reconocimiento óptico de caracteres (OCR) de archivos PDF con o3-mini, destacando su capacidad para extraer secciones relevantes según las indicaciones del usuario.
Característica distintiva: Diseñado especialmente como un modelo rentable que enfatiza el razonamiento iterativo y paso a paso, lo que lo hace excepcionalmente eficaz en tareas de extracción de datos estructurados que implican flujos de trabajo lógicos o computacionales.
Docsumo
Docsumo ofrece una plataforma inteligente de procesamiento de documentos que incluye más de 30 modelos de IA preentrenados para extraer datos de diversos documentos, como extractos bancarios y facturas. La plataforma ofrece funciones como clasificación automática, análisis de documentos, extracción de metadatos y opciones de exportación en formatos JSON, CSV y Excel. Además, Docsumo se integra con herramientas como Microsoft y QuickBooks, lo que ayuda a optimizar los flujos de trabajo y mejorar la eficiencia.
Característica distintiva: Proporciona entrenamiento especializado impulsado por el usuario, lo que permite la creación de modelos de extracción de IA personalizados y adaptados específicamente a conjuntos de datos individuales.
Precios
Aquí puede consultar los precios de las herramientas que hemos analizado. Los sistemas LLM funcionan con precios basados en API, que tienen en cuenta varios factores, como el cobro independiente de la entrada y la salida . En cambio, las herramientas OCR suelen utilizar un modelo de pago por uso, por página. Para nuestros cálculos de precios, asumimos que cada página contiene aproximadamente 600 tokens. Esta conversión se realizó para garantizar precios consistentes.
*Docsumo ofrece suscripciones anuales que se facturan mensualmente por un número fijo de páginas al año.
Metodología de referencia ADE
Hemos recopilado nuestro conjunto de datos de Huggingface con un bajo número de descargas para que las imágenes que utilizamos no formen parte del conjunto de entrenamiento de LLM. Hemos utilizado 60 imágenes, 30 de las cuales contienen diagramas de flujo de diversa complejidad.
Imagen 1. Un ejemplo de diagramas de flujo en nuestro conjunto de datos.
Los diagramas de flujo se han subido a las herramientas como imágenes PNG y los resultados se obtienen como archivos JSON. Hemos utilizado 3 métricas para medir el rendimiento:
- Precisión de nodos : Mide la proporción de nodos reales (etiquetas/alias) que menciona el texto extraído. Por ejemplo, si la lista de nodos reales contiene 10 nodos y el modelo hace referencia correctamente a 8, la precisión de nodos es de 0,80 (80 %).
- Precisión de las aristas: Verifica si el texto extraído identifica correctamente las relaciones entre los nodos (por ejemplo, “Nodo A → Nodo B”). Por ejemplo, si hay 5 aristas reales y el texto del modelo solo revela 3 correctamente, la precisión de las aristas se calcula como 3/5 = 0,60 (60%).
- Precisión en la toma de decisiones: Este concepto es similar al de precisión en los bordes, pero aplicado a los puntos de decisión (por ejemplo, bifurcaciones de sí/no). Si hay cuatro puntos de decisión y el modelo los identifica todos, la precisión es del 100 %.
La puntuación compuesta es el promedio simple de la precisión de los nodos, las aristas y las decisiones, lo que proporciona una medida general de qué tan bien se alinea el texto extraído con todos los elementos del diagrama de flujo.
El segundo conjunto de datos contiene 30 imágenes PNG con tablas extraídas de diversos documentos del sector; el procesamiento de este conjunto de datos es el mismo que el de los diagramas de flujo.
Imagen 2. Un ejemplo de tablas en nuestro conjunto de datos.
En nuestra evaluación del rendimiento de la extracción de tablas, utilizamos cuatro métricas clave para valorar la fidelidad de los datos extraídos en comparación con los datos reales. Estas métricas ofrecen información detallada sobre los diferentes componentes estructurales de una tabla, desde los títulos hasta las celdas individuales.
- Precisión del título : Evalúa si el título extraído coincide con el título real después de la normalización (por ejemplo, eliminando espacios en blanco, normalizando mayúsculas y minúsculas). Esto garantiza la correcta identificación de la etiqueta contextual de la tabla.
Puntuación: Se trata de una métrica binaria ; se otorga una puntuación de 1 por una coincidencia exacta y de 0 en caso contrario. - Precisión de los encabezados : Los encabezados suelen representar los nombres de las columnas de una tabla. Esta métrica compara la lista de encabezados extraída con la información real. Cuantifica la precisión con la que se han capturado las etiquetas de las columnas, incluyendo su orden y exhaustividad.
Puntuación: La precisión del encabezado se calcula comparando cada elemento de ambas listas y calculando la proporción de elementos coincidentes con respecto al número máximo de elementos en cualquiera de las listas. - Precisión de fila : Mide cuántas filas de datos reales aparecen en la tabla extraída, independientemente del orden. Esto refleja la exhaustividad de la extracción de datos a nivel de fila.
Puntuación: Para cada fila de la verdad fundamental, el evaluador comprueba si hay una coincidencia exacta en las filas extraídas. La puntuación es la fracción de filas coincidentes de la verdad fundamental . - Precisión de celda : Esta métrica proporciona una comparación detallada del contenido de la tabla mediante la evaluación de las coincidencias de celdas individuales. La precisión de celda refleja la exactitud de la extracción de datos al nivel más granular.
Puntuación: Cuenta el número de celdas coincidentes entre las tablas extraídas y las de referencia. Las celdas adicionales o faltantes se tratan como discrepancias. La puntuación final es la proporción de celdas coincidentes con respecto al total de celdas evaluadas .
Para ofrecer una métrica resumen única, calculamos la puntuación tabular promedio como la media aritmética simple de las cuatro métricas: precisión del título, precisión del encabezado, precisión de la fila y precisión de la celda. Este promedio proporciona una visión integral de la calidad de la extracción de tablas.
¿Qué es la extracción de documentos basada en agentes?
La extracción de documentos mediante agentes de IA implica el uso de estos para identificar, interpretar y extraer información específica de los documentos de forma independiente y con una mínima intervención humana. A diferencia de los métodos tradicionales, que suelen depender de plantillas rígidas o del etiquetado manual, la extracción mediante agentes emplea sistemas inteligentes capaces de razonar y adaptarse dinámicamente. Este enfoque mejora significativamente la velocidad, la precisión y la eficiencia del procesamiento de grandes volúmenes de documentos complejos.
Limitaciones del OCR tradicional
La tecnología OCR tradicional es eficaz para extraer texto de documentos estructurados . Sin embargo, presenta importantes dificultades al procesar documentos complejos, no estructurados o semiestructurados. Entre las limitaciones más comunes se incluyen las imprecisiones causadas por variaciones en las fuentes, la escritura a mano, la mala calidad de la imagen y el formato inconsistente. Además,la tecnología OCR tradicional carece de comprensión contextual , lo que puede dar lugar a interpretaciones erróneas de los datos. En consecuencia, a menudo es necesario realizar una revisión manual o un procesamiento posterior extenso para corregir errores, lo que genera ineficiencias en el flujo de trabajo.
Casos de uso de la extracción de documentos basada en agentes
La extracción de documentos basada en agentes (ADE) es un concepto relativamente nuevo, por lo que no existen muchos ejemplos prácticos. Sin embargo, tiene el potencial de aplicarse en diversas áreas. Hemos identificado cuatro ejemplos donde ADE puede implementarse directamente para optimizar los procesos en comparación con los métodos tradicionales de extracción de documentos.
1. Servicios financieros: Procesamiento automatizado de facturas
En el sector financiero, las organizaciones gestionan diariamente un gran volumen de facturas. La extracción de documentos mediante agentes automatiza la captura y validación de los datos de las facturas , garantizando la precisión y el cumplimiento de las normas. Esta automatización acelera los ciclos de pago, mejora la gestión del flujo de caja y fortalece las relaciones con los proveedores.
2. Atención médica: Simplificación de los formularios de admisión de pacientes
Los proveedores de atención médica gestionan numerosos formularios de admisión de pacientes, cuyo procesamiento manual puede resultar laborioso. La extracción de documentos de Agentic captura datos de estos formularios, facilitando una incorporación eficiente de los pacientes y reduciendo la carga administrativa. Esto mejora la experiencia del paciente y permite que el personal médico se centre más en la atención al paciente .
3. Servicio al cliente: Soporte mediante análisis de documentos.
Los departamentos de atención al cliente suelen gestionar consultas que incluyen documentos detallados, como contratos o acuerdos de servicio. La extracción de documentos mediante agentes permite analizar y extraer las secciones relevantes de estos documentos, lo que facilita que los agentes de soporte proporcionen respuestas precisas y oportunas. Esta tecnología mejora la calidad de las respuestas y reduce el tiempo que los agentes dedican a buscar información.
4. Seguros: Tramitación de reclamaciones de seguros escritas a mano
Las compañías de seguros suelen recibir reclamaciones manuscritas que requieren un procesamiento manual exhaustivo. El uso de tecnología avanzada de extracción de documentos permite interpretar con precisión el texto manuscrito , extraer los datos relevantes e integrarlos en sistemas digitales. Este proceso reduce significativamente tanto el tiempo de procesamiento como los errores. Por ejemplo, Appian ofrece soluciones que automatizan la extracción de datos de reclamaciones de seguros manuscritas, optimizando los flujos de trabajo y mejorando la eficiencia general.
Últimos avances en la extracción de documentos mediante agentes
LandingAI DPT (Transformador preentrenado de documentos)
El nuevo Transformer preentrenado para documentos (DPT-2) de LandingAI representa una mejora significativa en las capacidades de procesamiento de documentos: 1
- DPT-2 está diseñado específicamente para extraer datos con precisión de documentos complejos, centrándose en tablas intrincadas, lo cual es esencial para aplicaciones en los campos financiero y médico.
- Las tablas complejas sin líneas de cuadrícula, las celdas combinadas y los diseños más complejos son algunos de los elementos problemáticos de los documentos que el sistema actualizado puede gestionar.
- Según LandingAI, su tecnología ADE ha reducido los tiempos de búsqueda de información hasta en un 90 % y ha procesado miles de millones de páginas.
- Gracias a su SDK, la integración solo requiere tres líneas de código, lo que simplifica enormemente la implementación.
- Las nuevas funciones incluyen la generación de subtítulos para tablas con capacidad de agente, la mejora en la generación de subtítulos para figuras, una detección de diseño más inteligente y una ontología de fragmentos ampliada, que ahora puede identificar elementos como certificaciones, tarjetas de identificación, logotipos, códigos de barras y códigos QR.
Agente de IA compositor de Extend
Extend lanzó Composer, un agente de IA creado especialmente para el procesamiento de documentos. 2 Para mejorar su plataforma de procesamiento de documentos, Extend recaudó recientemente 17 millones de dólares en financiación. Su solución combina LLM con API avanzadas para desarrolladores y herramientas fáciles de usar para usuarios no técnicos. Destacan las capacidades de Composer, entre las que se incluyen:
- Composer optimiza automáticamente los esquemas de procesamiento de documentos para lograr una alta precisión rápidamente.
- Durante las primeras pruebas beta, algunos equipos completaron tareas complejas de documentación con un 99 % de precisión en menos de 10 minutos.
- Composer identifica las debilidades del esquema, recomienda correcciones, ejecuta pruebas paralelas y muestra las diferencias y las mejoras en la precisión, en lugar de realizar ajustes manuales en las indicaciones.
Buenas prácticas para la implementación de la extracción de documentos basada en agentes
Al implementar la extracción de documentos con agentes, es fundamental aprovechar la API de manera efectiva para extraer información estructurada de documentos visualmente complejos. Utilice las funciones integradas de sus herramientas preferidas para gestionar los errores de forma eficiente, incluyendo reintentos automáticos para problemas de limitación de velocidad y errores HTTP intermitentes.
Prácticas de configuración y seguridad
Una configuración adecuada y una gestión segura de las credenciales son vitales para un uso fiable y seguro de la API:
- Configure de forma segura su clave API como una variable de entorno o guárdela en un archivo .env.
- Utilice el objeto Settings de la biblioteca para una gestión de configuración simplificada.
- Personaliza fácilmente las opciones de configuración mediante variables de entorno o archivos .env para mejorar la flexibilidad y la seguridad.
Estas prácticas protegen los datos confidenciales y contribuyen a mantener la solidez de las operaciones.
Gestión de errores y optimización en ADE
Las herramientas de extracción de documentos Agentic ofrecen sólidas capacidades de manejo de errores para optimizar la confiabilidad y el rendimiento:
- Gestionan automáticamente los límites de velocidad y los errores HTTP intermitentes mediante reintentos integrados.
- Previenen errores relacionados con los límites de velocidad al cumplir con las directrices de uso de la API.
- La segmentación de documentos PDF extensos en lotes manejables mejora de manera eficiente la velocidad y la estabilidad del procesamiento.
Estas estrategias minimizan el tiempo de inactividad y garantizan un rendimiento óptimo, incluso en condiciones exigentes.
Preguntas frecuentes
La extracción de documentos basada en agentes es un método avanzado para extraer datos estructurados de documentos, centrándose no solo en el contenido textual, sino también en la comprensión de elementos visuales como gráficos, tablas, imágenes y el diseño. A diferencia de la extracción de texto tradicional, que se basa en la identificación de texto en formato lineal, la extracción de documentos basada en agentes considera el contexto visual y la información visual subyacente para proporcionar extracciones más precisas. Interpreta tanto el contenido del documento original como su diseño, incluidos los campos de entrada, los campos de formulario, el cuadro delimitador y otros marcadores visuales. Este enfoque resulta especialmente útil para procesar múltiples documentos, como documentos de políticas, informes financieros y formularios médicos, que a menudo contienen una combinación de texto y datos visuales. El marco basado en agentes permite la extracción de cláusulas clave, tablas, imágenes y gráficos, lo que permite a las empresas automatizar los flujos de trabajo de inteligencia documental de forma más eficaz.
Para integrar la extracción de documentos con Agentic en sus sistemas actuales, puede utilizar la API de extracción de documentos con Agentic. Esta API proporciona una forma sencilla de automatizar la extracción de datos de diversos tipos de documentos, incluidos archivos PDF, formularios médicos e informes financieros. Al obtener una clave API, puede llamar a la API para procesar documentos y extraer información valiosa, como documentos extensos, resultados de laboratorio y documentos de políticas. La API devolverá los datos extraídos en un formato estructurado, como la representación Markdown, incluyendo el ID del fragmento, los campos del formulario y otro contexto relevante. Admite el procesamiento simultáneo de varios documentos, lo que ayuda a las empresas a optimizar sus flujos de trabajo. Ya sea que se trate de detalles de cuentas, tablas o imágenes, la API está diseñada para manejar diseños de documentos complejos y adaptarse a sus necesidades. La integración también admite la gestión de registros, lo que le permite realizar un seguimiento del rendimiento y la precisión de los procesos de extracción.
El uso de la extracción de documentos basada en agentes para documentos extensos, como informes financieros o documentos de políticas, ofrece numerosas ventajas. Al aprovechar los elementos visuales y comprender el diseño, la extracción basada en agentes puede analizar con precisión documentos complejos que abarcan varias páginas, descomponiéndolos en datos estructurados. Esto es particularmente útil para datos extraídos que incluyen métricas financieras clave, tablas y gráficos. Los métodos tradicionales de extracción de texto pueden tener dificultades con estos formatos, pero la extracción de documentos basada en agentes puede manejar las complejidades del contexto visual, lo que permite extraer datos de múltiples documentos simultáneamente. Por ejemplo, al procesar informes financieros, el sistema puede identificar cláusulas clave y campos de entrada relevantes, lo que garantiza una extracción de datos precisa incluso de documentos con formatos complejos. Este nivel de precisión ayuda a mejorar la exactitud y reduce el trabajo manual, lo que acelera la toma de decisiones y la automatización del flujo de trabajo.
Lecturas adicionales
- Comprender los precios de los másteres en Derecho (LLM) para elegir el máster adecuado a su presupuesto y necesidades.
- Otros programas de LLM populares con valoraciones para las necesidades de su empresa.
- Datos de entrenamiento de OCR
Sé el primero en comentar
Tu dirección de correo electrónico no será publicada. Todos los campos son obligatorios.