L'extraction de documents agentique (ADE) est une forme spécialisée de reconnaissance optique de caractères (OCR) qui extrait des données de divers types de fichiers. Elle combine le traitement de documents, la récupération de données, la génération de résultats structurés et l'automatisation afin de rationaliser le travail intellectuel.
L'ADE se distingue de la reconnaissance optique de caractères (OCR) traditionnelle par sa capacité à reconnaître des structures de documents complexes, telles que des tableaux, des organigrammes et des images. Cela la rend plus avancée que les méthodes conventionnelles de traitement de documents légers (IDP) et de génération augmentée par la recherche (RAG).
Nous testons les 5 meilleurs outils d'extraction de documents agentsiques en utilisant 60 images et mesurons leurs performances avec un score composite, qui comprend 3 métriques.
Résultats de référence de l'extraction de documents par agent
Notre analyse comparative a révélé que LandingAI est l'outil le plus performant pour l'extraction de documents automatisée, avec un score de 69 sur 100.
L'outil d'extraction de documents automatisée standard de Docsumo ne propose pas d'extraction de diagrammes de flux. Bien que le produit puisse être entraîné pour divers processus d'extraction de documents, notre évaluation repose sur des modèles standard. Par conséquent, Docsumo n'a pas obtenu de bons résultats en extraction de diagrammes de flux.
Nous avons évalué les outils à l'aide de trois indicateurs pour l'évaluation des organigrammes et de quatre indicateurs pour l'évaluation des tableaux. Vous trouverez plus de détails dans notre méthodologie d'évaluation comparative de l'extraction de documents par agents .
Les 5 outils d'extraction de documents les plus populaires
LandingAI
LandingAI a abandonné les approches traditionnelles et utilise la reconnaissance optique de caractères (OCR) dans divers domaines. Son traitement de documents ne se limite pas à un seul type d'extraction de données. L'entreprise affirme que son outil d'extraction de documents automatisé peut extraire des images complexes et compléter les informations manquantes si nécessaire. Cet outil est accessible via l'environnement de test LandingAI ou par le biais d'appels API.
Caractéristique distinctive : Il peut extraire des données complexes et mixtes (texte et tableau sur la même page) sans aucune intervention de sa part.
Mistral OCR
Mistral AI a introduit Mistral OCR pour améliorer la compréhension des documents. Cet outil traite avec précision divers éléments de document, tels que le texte, les tableaux et les images, tout en préservant leur structure et leur hiérarchie. Il prend en charge de nombreux formats et fournit des résultats au format Markdown pour faciliter l'analyse et l'affichage.
Caractéristique distinctive : Il est explicitement optimisé pour les intégrations multimodales de génération augmentée par la recherche (RAG) , préservant la structure du document avec une sortie au format Markdown idéale pour les flux de travail d’IA en aval.
Anthropic Claude Sonnet 3.7
Sonnet (Anthropic's Claude 3.7) est un modèle d'IA de pointe doté de capacités de raisonnement hybrides, lui permettant d'alterner entre réponses rapides et analyses approfondies et progressives. Ce modèle peut traiter des PDF jusqu'à 100 pages, en analysant à la fois le texte et les éléments visuels, tels que les images, les tableaux et les graphiques. Son mode de pensée étendu est idéal pour les tâches complexes d'analyse de documents, notamment le codage et le raisonnement mathématique.
Caractéristique distinctive : Il prend en charge un raisonnement hybride approfondi, combinant une analyse à réponse rapide avec une logique étape par étape méticuleuse, ce qui est bénéfique pour une compréhension et une extraction complètes à partir de documents volumineux.
OpenAI o3-mini
Le modèle de raisonnement OpenAI (référence o3-mini) est un outil économique reconnu pour sa capacité à résoudre des problèmes complexes par étapes, comme le codage et le raisonnement mathématique. Il permet le chargement de fichiers et d'images, ce qui enrichit ses fonctionnalités d'analyse documentaire. Des utilisateurs ont rapporté avoir réussi à effectuer une reconnaissance optique de caractères (OCR) sur des fichiers PDF avec o3-mini, soulignant ainsi sa capacité à extraire les sections pertinentes à partir des instructions de l'utilisateur.
Caractéristique distinctive : Spécialement conçu comme un modèle rentable mettant l’accent sur un raisonnement itératif et progressif, ce qui le rend particulièrement efficace dans les tâches d’extraction de données structurées impliquant des flux de travail logiques ou informatiques.
Docsumo
Docsumo propose une plateforme intelligente de traitement de documents intégrant plus de 30 modèles d'IA pré-entraînés pour l'extraction de données à partir de divers documents, tels que les relevés bancaires et les factures. La plateforme offre des fonctionnalités comme la classification automatique, l'analyse de documents, l'extraction de métadonnées et l'exportation aux formats JSON, CSV et Excel. De plus, Docsumo s'intègre à des outils comme QuickBooks, ce qui contribue à optimiser les flux de travail et à améliorer l'efficacité.
Caractéristique distinctive : Elle propose une formation spécialisée axée sur l’utilisateur, permettant la création de modèles d’extraction d’IA personnalisés et adaptés spécifiquement à chaque ensemble de données.
Tarification
Vous pouvez consulter les tarifs des outils que nous avons analysés. Les logiciels de reconnaissance de textes (LLM) fonctionnent avec une tarification API, qui prend en compte plusieurs facteurs, notamment la facturation séparée des données d'entrée et de sortie . En revanche, les outils de reconnaissance optique de caractères (OCR) utilisent généralement une tarification à l'utilisation, par page. Pour nos calculs, nous avons considéré que chaque page contenait environ 600 jetons. Cette conversion a été effectuée afin de garantir une tarification cohérente.
*Docsumo propose des abonnements annuels facturés mensuellement pour un nombre constant de pages par an.
Méthodologie de référence ADE
Nous avons constitué notre ensemble de données à partir de jeux de données Huggingface peu téléchargés, afin que les images utilisées ne figurent pas déjà dans l'ensemble d'entraînement des LLM. Nous avons utilisé 60 images, dont 30 représentent des organigrammes de complexité variable.
Image 1. Un exemple de diagramme de flux dans notre ensemble de données
Les organigrammes ont été importés dans les outils sous forme d'images PNG, et les résultats sont exportés au format JSON. Nous avons utilisé trois indicateurs pour mesurer les performances :
- Précision des nœuds : Mesure la proportion de nœuds de référence (étiquettes/alias) mentionnés par le texte extrait. Par exemple, si la référence contient 10 nœuds et que le modèle en référence correctement 8, la précision des nœuds est de 0,80 (80 %).
- Précision des arêtes : vérifie si le texte extrait identifie correctement les relations entre les nœuds (par exemple, « Nœud A → Nœud B »). Par exemple, s’il existe 5 arêtes réelles et que le texte du modèle n’en révèle correctement que 3, la précision des arêtes est calculée comme suit : 3/5 = 0,60 (60 %).
- Précision de la décision : Ce concept est similaire à la précision des arêtes, mais appliqué aux points de décision (par exemple, les branches oui/non). Si le modèle identifie correctement les quatre points de décision, la précision est de 100 %.
Le score composite est la moyenne simple des précisions des nœuds, des arêtes et des décisions, fournissant une mesure globale de la façon dont le texte extrait s'aligne sur tous les éléments de l'organigramme.
Le deuxième ensemble de données contient 30 images PNG avec des tableaux extraits de divers documents sectoriels ; le traitement de cet ensemble de données est identique à celui des organigrammes.
Image 2. Un exemple de tableaux dans notre ensemble de données
Pour évaluer les performances d'extraction de tableaux, nous avons utilisé quatre indicateurs clés afin d'apprécier la fidélité des données extraites par rapport aux données de référence. Ces indicateurs offrent une analyse détaillée des différentes composantes structurelles d'un tableau, des titres aux cellules individuelles.
- Précision du titre : vérifie si le titre extrait correspond au titre réel après normalisation (par exemple, suppression des espaces, normalisation de la casse). Ceci garantit l’identification correcte du libellé contextuel du tableau.
Notation : Il s’agit d’une métrique binaire ; un score de 1 est attribué pour une correspondance exacte et de 0 dans le cas contraire. - Précision des en-têtes : Les en-têtes correspondent généralement aux noms des colonnes d’un tableau. Cette mesure compare la liste des en-têtes extraite aux données réelles. Elle quantifie la précision avec laquelle les étiquettes de colonnes ont été saisies, notamment leur ordre et leur exhaustivité.
Évaluation : La précision de l’en-tête est calculée en comparant chaque élément des deux listes et en calculant le ratio des éléments correspondants par rapport au nombre maximal d’éléments dans l’une ou l’autre liste. - Précision des lignes : Mesure le nombre de lignes de référence présentes dans le tableau extrait, quel que soit leur ordre. Cela reflète l’exhaustivité de l’extraction des données au niveau des lignes.
Évaluation : Pour chaque ligne de la base de données de référence, l’évaluateur vérifie la présence d’une correspondance exacte dans les lignes extraites. Le score correspond au pourcentage de lignes de la base de données de référence qui correspondent . - Exactitude des cellules : Cette métrique permet une comparaison fine du contenu du tableau en évaluant la correspondance de chaque cellule. L’exactitude des cellules reflète la précision de l’extraction des données au niveau le plus fin.
Calcul du score : Il comptabilise le nombre de cellules concordantes entre les tables extraites et les tables de référence. Les cellules supplémentaires ou manquantes sont considérées comme des discordances. Le score final correspond au rapport entre le nombre de cellules concordantes et le nombre total de cellules évaluées .
Pour obtenir une mesure de synthèse unique, nous calculons le score tabulaire moyen comme la moyenne arithmétique simple des quatre mesures suivantes : précision du titre, précision de l’en-tête, précision des lignes et précision des cellules. Cette moyenne offre une vue d’ensemble de la qualité de l’extraction des données du tableau.
Qu'est-ce que l'extraction de documents par agent ?
L'extraction automatisée de documents repose sur l'utilisation d'agents d'IA pour identifier, interpréter et extraire de manière autonome des informations spécifiques à partir de documents, avec une intervention humaine minimale. Contrairement aux méthodes traditionnelles, souvent basées sur des modèles rigides ou un étiquetage manuel, l'extraction automatisée utilise des systèmes intelligents capables de raisonner et de s'adapter dynamiquement. Cette approche améliore considérablement la vitesse, la précision et l'efficacité du traitement de grands volumes de documents complexes.
Limites de la reconnaissance optique de caractères (OCR) traditionnelle
La technologie OCR traditionnelle est efficace pour extraire du texte de documents structurés . Cependant, elle rencontre des difficultés importantes lors du traitement de documents complexes, non structurés ou semi-structurés. Parmi les limitations courantes figurent les imprécisions dues aux variations de polices, à l'écriture manuscrite, à une mauvaise qualité d'image et à une mise en forme incohérente. De plus,l'OCR traditionnelle manque de compréhension du contexte , ce qui peut entraîner une mauvaise interprétation des données. Par conséquent, une vérification manuelle ou un post-traitement important est souvent nécessaire pour corriger les erreurs, ce qui engendre des pertes de productivité.
Cas d'utilisation de l'extraction de documents par agent
L'extraction de documents automatisée (ADE) est un concept relativement récent, et de ce fait, les exemples concrets sont peu nombreux. Cependant, son potentiel d'application est important dans divers domaines. Nous avons identifié quatre exemples où l'ADE peut être directement mise en œuvre pour optimiser les processus par rapport aux méthodes d'extraction de documents traditionnelles.
1. Services financiers : Traitement automatisé des factures
Dans le secteur financier, les organisations traitent quotidiennement un grand nombre de factures. L'extraction automatisée de documents (Agentic) capture et valide les données des factures , garantissant ainsi leur exactitude et leur conformité aux normes. Cette automatisation accélère les cycles de paiement, améliore la gestion de la trésorerie et renforce les relations avec les fournisseurs.
2. Santé : Rationalisation des formulaires d'admission des patients
Les établissements de santé gèrent de nombreux formulaires d'admission de patients, dont le traitement manuel peut s'avérer fastidieux. L'extraction automatisée de documents capture les données de ces formulaires, facilitant ainsi l'accueil des patients et réduisant les tâches administratives. Cela améliore l'expérience des patients et permet au personnel médical de se concentrer davantage sur les soins .
3. Service client : Assistance par l'analyse documentaire
Les services clients traitent fréquemment des demandes impliquant des documents détaillés, tels que des contrats ou des accords de service. L'extraction de documents par agent permet d'analyser et d'extraire les sections pertinentes de ces documents, permettant ainsi aux agents d'assistance de fournir des réponses précises et rapides. Cette technologie améliore la qualité des réponses et réduit le temps consacré par les agents à la recherche d'informations.
4. Assurance : Traitement des demandes d'indemnisation manuscrites
Les compagnies d'assurance reçoivent fréquemment des déclarations de sinistre manuscrites qui nécessitent un traitement manuel important. L'utilisation de technologies avancées d'extraction de documents permet d'interpréter avec précision le texte manuscrit , d'en extraire les données pertinentes et de les intégrer aux systèmes numériques. Ce processus réduit considérablement le temps de traitement et les erreurs. Par exemple, Appian propose des solutions qui automatisent l'extraction de données à partir de déclarations de sinistre manuscrites, rationalisant ainsi les flux de travail et améliorant l'efficacité globale.
Dernières avancées en matière d'extraction de documents par agents
LandingAI DPT (Transformateur pré-entraîné pour documents)
Le nouveau transformateur pré-entraîné de documents (DPT-2) de LandingAI représente une amélioration significative des capacités de traitement des documents : 1
- DPT-2 est spécifiquement conçu pour extraire avec précision des données à partir de documents complexes, en se concentrant sur les tableaux complexes, ce qui est essentiel pour les applications dans les domaines financier et médical.
- Les tableaux complexes sans quadrillage, les cellules fusionnées et les mises en page plus complexes figurent parmi les éléments de document problématiques que le système mis à jour peut gérer.
- Selon LandingAI, leur technologie ADE a permis de réduire les temps de recherche d'informations jusqu'à 90 % et de traiter des milliards de pages.
- Grâce à leur SDK, l'intégration ne nécessite que trois lignes de code, ce qui simplifie considérablement la mise en œuvre.
- Parmi les nouvelles fonctionnalités, citons le légendement automatique des tableaux, l'amélioration du légendement des figures, une détection de mise en page plus intelligente et une ontologie de blocs étendue, qui peut désormais identifier des éléments tels que les attestations, les cartes d'identité, les logos, les codes-barres et les codes QR.
Agent IA du compositeur d'Extend
Composer, un agent d'IA créé spécialement pour le traitement de documents, a été lancé par Extend. 2 Afin d'améliorer sa plateforme de traitement de documents, Extend a récemment levé 17 millions de dollars. Sa solution combine des modules linguistiques (LLM) avec des API avancées pour les développeurs et des outils conviviaux pour les utilisateurs non techniques. L'entreprise met en avant les fonctionnalités de Composer, notamment :
- Composer optimise automatiquement les schémas de traitement des documents pour atteindre rapidement une précision élevée.
- Lors des premiers tests bêta, certaines équipes ont réalisé des tâches documentaires complexes avec une précision de 99 % en moins de 10 minutes.
- Composer identifie les faiblesses du schéma, recommande des corrections, exécute des tests en parallèle et affiche les différences et les améliorations de précision au lieu d'un réglage manuel des invites.
Meilleures pratiques pour la mise en œuvre de l'extraction de documents par agent
Lors de la mise en œuvre de l'extraction de documents par agent, il est essentiel d'exploiter efficacement l'API pour extraire des informations structurées de documents visuellement complexes. Utilisez les fonctionnalités intégrées de vos outils préférés pour gérer efficacement les erreurs, notamment les nouvelles tentatives automatiques en cas de limitation de débit et d'erreurs HTTP intermittentes.
pratiques de configuration et de sécurité
Une configuration correcte et une gestion sécurisée des identifiants sont essentielles pour une utilisation fiable et sûre de l'API :
- Définissez votre clé API en toute sécurité comme variable d'environnement ou stockez-la dans un fichier .env.
- Utilisez l'objet Settings de la bibliothèque pour une gestion simplifiée de la configuration.
- Personnalisez facilement les options de configuration via les variables d'environnement ou les fichiers .env pour améliorer la flexibilité et la sécurité.
Ces pratiques protègent les données sensibles et contribuent à maintenir des opérations robustes.
Gestion des erreurs et optimisation dans ADE
Les outils d'extraction de documents Agentic offrent de solides capacités de gestion des erreurs pour optimiser la fiabilité et les performances :
- Ils gèrent automatiquement les limites de débit et les erreurs HTTP intermittentes grâce à des tentatives de nouvelle connexion intégrées.
- Ils préviennent les erreurs liées aux limitations de débit en respectant les directives d'utilisation de l'API.
- Le fractionnement efficace des documents PDF volumineux en lots gérables améliore la vitesse et la stabilité du traitement.
Ces stratégies minimisent les temps d'arrêt et garantissent des performances optimales, même dans des conditions exigeantes.
FAQ
L'extraction de documents par agent est une approche avancée d'extraction de données structurées à partir de documents. Elle se concentre non seulement sur le contenu textuel, mais aussi sur la compréhension des éléments visuels tels que les graphiques, les tableaux, les images et la mise en page. Contrairement à l'extraction de texte traditionnelle, qui repose sur l'identification linéaire du texte, l'extraction de documents par agent prend en compte le contexte visuel et les repères visuels pour fournir des extractions plus précises. Elle interprète à la fois le contenu et la mise en page du document original, y compris les champs de saisie, les champs de formulaire, les cadres de délimitation et autres marqueurs visuels. Cette approche la rend particulièrement utile pour le traitement de documents multiples, tels que les documents de politique interne, les rapports financiers et les formulaires médicaux, qui contiennent souvent un mélange de données textuelles et visuelles. Le cadre agentique permet l'extraction de clauses clés, de tableaux, d'images et de graphiques, permettant ainsi aux entreprises d'automatiser plus efficacement leurs flux de travail d'analyse documentaire.
Pour intégrer l'extraction automatisée de documents à vos systèmes actuels, vous pouvez utiliser l'API d'extraction automatisée. Cette API offre une méthode simple pour automatiser l'extraction de données à partir de divers types de documents, notamment les fichiers PDF, les formulaires médicaux et les rapports financiers. Grâce à une clé API, vous pouvez appeler l'API pour traiter les documents et extraire des informations précieuses telles que des documents longs, des résultats d'analyses et des documents de politique interne. L'API renvoie les données extraites dans un format structuré, comme une représentation Markdown, incluant l'identifiant du segment, les champs de formulaire et d'autres éléments de contexte pertinents. Elle prend en charge le traitement simultané de plusieurs documents, ce qui permet aux entreprises d'optimiser leurs flux de travail. Qu'il s'agisse de détails de compte, de tableaux ou d'images, l'API est conçue pour gérer des mises en page complexes et s'adapter à vos besoins. L'intégration prend également en charge la gestion des journaux, vous permettant de suivre les performances et la précision des processus d'extraction.
L'extraction automatisée de documents, notamment pour les documents longs tels que les rapports financiers ou les documents de politique interne, offre de nombreux avantages. En exploitant les éléments visuels et en comprenant la mise en page, elle analyse avec précision les documents complexes de plusieurs pages et les décompose en données structurées. Cette technique est particulièrement utile pour extraire des données incluant des indicateurs financiers clés, des tableaux et des graphiques. Les méthodes d'extraction de texte traditionnelles peuvent rencontrer des difficultés avec ces formats, tandis que l'extraction automatisée gère les subtilités du contexte visuel, permettant ainsi d'extraire simultanément des données de plusieurs documents. Par exemple, lors du traitement de rapports financiers, le système identifie les clauses clés et les champs de saisie pertinents, garantissant une extraction précise des données, même à partir de documents à la mise en forme complexe. Ce niveau de précision améliore l'exactitude des données, réduit le travail manuel et accélère la prise de décision et l'automatisation des flux de travail.
Pour en savoir plus
- Comprendre les tarifs des LLM pour choisir le LLM adapté à votre budget et à vos besoins
- Autres programmes de maîtrise en droit (LLM) populaires, classés selon les besoins de votre entreprise
- Données d'entraînement OCR
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.