Contactez-nous
Aucun résultat trouvé.

Comparaison des performances OCR des factures : précision d'extraction des logiciels de reconnaissance optique de caractères (LLM) par rapport aux logiciels de reconnaissance optique de caractères (OCR)

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 22, 2026
Consultez notre normes éthiques

Le traitement des factures est une opération commerciale essentielle mais gourmande en main-d'œuvre qui nécessite traditionnellement l'extraction et la saisie manuelles des données dans les systèmes comptables. Cette approche manuelle est chronophage et sujette aux erreurs humaines. Afin d'évaluer les alternatives automatisées, nous avons réalisé une analyse comparative des principales solutions de traitement de documents et des logiciels de gestion de la facturation (LLM).

  • API Amazon Textract
  • Claude Sonnet 3.5
  • Docsumo
  • Google IA du document
  • Microsoft Document Azure Intelligence
  • Rossum

Notre étude a évalué la capacité de ces outils à extraire avec précision des données à partir de formats et de qualités de factures divers, dans le but de quantifier leur efficacité en tant qu'alternatives au traitement manuel.

Résultats de référence

Loading Chart

Nous avons évalué les performances du traitement des factures sur des documents de qualité et de contraste variables. Si tous les outils ont affiché de bonnes performances avec des images de haute qualité, leur précision a considérablement diminué lors du traitement de documents de moindre qualité. Parmi les outils testés, Claude Sonnet 3.5 a présenté la meilleure précision globale et la plus grande robustesse sur l'ensemble des qualités de documents.

Méthodologie

Mesure : Notre méthodologie d’évaluation s’est concentrée sur la précision de l’extraction des paires clé-valeur. Chaque champ extrait a été évalué par une classification binaire : extraction correcte ou extraction incorrecte/manquante. La métrique de précision a été calculée à l’aide de la formule suivante :

Précision = (Nombre de paires clé-valeur correctement extraites) / (Nombre total de paires clé-valeur)

Cette méthodologie a permis une comparaison objective des performances d'extraction entre différents outils et types de documents.

Taille de l'échantillon : La recherche de données de facturation est complexe car elle implique des informations personnelles telles que les adresses électroniques et les noms. Nous avons utilisé plus de 400 paires clé-valeur issues de 20 exemples de factures accessibles au public.

Exemples : Bien que toutes les solutions aient correctement traité des images de haute qualité, la qualité d’extraction a diminué pour des images comme celles-ci :

Figure 2 : Détails de tarification d’une facture issue de l’ensemble de données utilisé dans cette étude comparative. La plupart des fournisseurs n’ont pas réussi à extraire correctement ces valeurs.

Optimisation : Bien que les produits testés aient permis de calculer les montants totaux, ils présentaient des difficultés pour extraire les détails des prix. Il est possible d’obtenir de meilleurs résultats en ajustant certains produits. Pour certains d’entre eux, l’utilisateur peut cliquer sur une valeur dans l’image afin de corriger le résultat du modèle.

Par souci d'équité envers tous les fournisseurs, nous n'avons procédé à aucun réglage fin. Un réglage fin permettrait à tous les fournisseurs d'obtenir de meilleurs taux de réussite lors du second traitement de ces documents. Cependant, cette analyse comparative porte sur les opérations autonomes, qui exigent des modèles qu'ils produisent des résultats corrects et fiables à partir de documents inédits.

Chronologie : Tous les tests ont été achevés en décembre 2024.

Prochaines étapes

Augmentation du nombre de participants : Étant donné que cette étude fournit des informations sur les capacités actuelles de traitement des factures à travers les grands modèles de langage (LLM), les technologies OCR et les outils spécialisés de traitement des factures, nous prévoyons d’étendre notre analyse en intégrant d’autres LLM de pointe afin de fournir un point de référence plus complet des solutions de traitement automatisé des factures.

Augmenter la taille et la diversité de l'échantillon .

Qu'est-ce que la reconnaissance optique de caractères (OCR) pour les factures ?

L'analyse des factures utilise des outils automatisés tels que le NLP , le NLU , l'OCR et d'autres technologies d'extraction de données pour extraire des données des factures dans divers formats, tels que les PDF et les images.

Un analyseur de factures est un logiciel qui extrait des informations telles que :

  • Nom du fournisseur

  • Numéro de facture

  • Montant dû

et les saisit dans un format lisible par machine. Ces données peuvent être utilisées pour de multiples fonctions, telles que l'automatisation des comptes fournisseurs , la clôture comptable de fin de mois et la gestion des factures.

Le logiciel d'analyse syntaxique est généralement intégré à un système de traitement des factures qui automatise l'ensemble du processus, de la réception de la facture au paiement.

Comment fonctionnent les outils de reconnaissance optique de caractères (OCR) pour les factures ?

Les documents rédigés dans un certain langage de balisage sont lus et traités par des analyseurs syntaxiques. Ces derniers décomposent le document en éléments plus petits, appelés jetons, et examinent chaque jeton pour déterminer sa signification et sa place dans la structure du document.

Pour ce faire, les analyseurs syntaxiques doivent posséder une connaissance approfondie de la grammaire du langage de balisage en question. Cela leur permet de reconnaître chaque jeton et de déterminer les liens précis qui les unissent.

Le processus comprend 5 étapes :

1. Entrée

Figure 3 : Exemple de saisie de facture Source : Stack Overflow

Les factures peuvent être reçues sous différents formats : papier, courriel ou formats électroniques tels que PDF ou XML. Le logiciel d’analyse de factures accepte généralement ces formats en entrée.

2. Reconnaissance optique de caractères (OCR)

Si la facture est au format papier numérisé ou image, le logiciel d'analyse utilisera la technologie OCR pour extraire le texte de l'image. Cela lui permettra d'accéder aux données contenues dans la facture.

Certaines solutions d'analyse de factures utilisent des outils de reconnaissance optique de caractères (OCR) basés sur l'intelligence artificielle (IA) ou des modèles de langage (LLM) qui extraient automatiquement les informations des PDF, des photos et des documents numérisés, sans nécessiter de nouvelles règles ni de nouveaux modèles. En effet, l'IA est capable de traiter des documents semi-structurés et peu familiers, et ses performances s'améliorent avec le temps. Les informations extraites peuvent être personnalisées pour n'inclure que certains tableaux ou entrées de données.

3. Extraction des données

Le système d'analyse extraira ensuite des informations spécifiques de la facture, telles que le nom du fournisseur, le numéro de facture, la date et le détail des articles. Cette opération est généralement réalisée grâce à une combinaison d'algorithmes de reconnaissance de formes et d'apprentissage automatique.

Certains logiciels d'analyse de factures sont capables d'extraire des informations clés telles que la date de la facture, son numéro, les numéros d'identification fiscale et divers totaux grâce à des filtres prédéfinis :

Certains outils d'analyse syntaxique offrent la possibilité d'extraire les informations des lignes de factures avec un format cohérent en créant un analyseur de documents distinct pour chaque mise en page de fournisseur ou de partenaire commercial spécifique :

4. Validation des données

Une fois les données extraites, l'analyseur les valide afin de garantir leur exactitude et leur exhaustivité. Il vérifie notamment que la date est au bon format, que le nom du fournisseur correspond à une liste prédéfinie et que les détails de l'article sont conformes au format attendu.

5. Sortie de données

Figure 4 : Exemple de facture (Source : Stack Overflow)

Les données extraites et validées sont ensuite exportées dans un format facilement importable dans le système comptable ou ERP de l'utilisateur. Ce format peut inclure un fichier CSV, un enregistrement de base de données ou une intégration directe dans un logiciel comptable.

Difficultés liées à l'extraction manuelle des données de factures

L'extraction manuelle des données des factures et leur saisie dans un système peuvent s'avérer complexes pour les entreprises, en raison de plusieurs facteurs :

Erreur humaine

Les factures peuvent contenir une grande quantité de données, et la saisie manuelle accroît le risque d'erreurs, telles que des fautes de frappe, des inversions de chiffres et des erreurs de saisie. Ces inexactitudes sont responsables de pertes annuelles estimées à 600 milliards de dollars. 1 Des processus comme la comptabilité fournisseurs nécessitent une exportation correcte des données issues des documents financiers.

Prend du temps

En moyenne, le traitement manuel d'une seule facture prend 17 jours, soit environ 75 % d'un mois. 2

Les factures contiennent de nombreuses informations importantes, présentées sous forme de paires clé-valeur, où chaque élément sert à la fois de clé et de valeur. L'extraction manuelle de ces paires est fastidieuse et exige de multiples vérifications pour garantir leur exactitude. Même certains algorithmes de reconnaissance optique de caractères (OCR) peinent à détecter les valeurs extraites hors contexte. Le traitement automatisé des factures permet aux employés de se concentrer sur des tâches plus complexes.

Manque de normalisation

Les factures de différents fournisseurs peuvent présenter des formats variés. Chaque facture est générée avec un format unique, ce qui peut compliquer leur traitement et leur interprétation. Les documents, tels que les courriels, les factures papier et les fichiers PDF, peuvent faire l'objet de nombreux traitements numériques et papier avant d'être approuvés pour paiement, rendant l'extraction manuelle des données complexe et sujette aux erreurs.

Inefficacité du processus

Le traitement manuel des factures engendre un coût moyen de près de 23 dollars par facture. 3 , peut s'avérer à la fois chronophage et coûteux, ce qui conduit à un processus inefficace et répétitif.

Risque de perte de données

Il existe un risque de perte de données si les factures sont perdues ou endommagées, ou si les données ne sont pas saisies correctement dans le système.

Figure 5 : OCR des lignes de facture Source : Klippa

Les logiciels de reconnaissance optique de caractères (OCR) rencontrent souvent des difficultés pour extraire les lignes de facturation. En effet, les tableaux de transactions peuvent être dépourvus de lignes horizontales ou verticales, ce qui complique le traitement des factures par OCR et l'établissement du contexte des éléments extraits. Dans ce cas, il est possible d'utiliser des factures numériques ou des images de factures.

Comment choisir son prestataire de traitement des factures ?

1. Fournit une solution conforme aux politiques de confidentialité des données de votre entreprise.

La politique de confidentialité des données de votre entreprise peut constituer un obstacle majeur à l'utilisation d'API externes telles qu'Amazon AWS Textract. La plupart des fournisseurs proposent des solutions sur site ; par conséquent, les politiques de confidentialité des données n'empêcheraient pas nécessairement votre entreprise d'utiliser une solution de capture de factures. Le processus de comptabilité fournisseurs doit être traité avec la plus grande attention, car il implique fréquemment des informations commerciales et financières confidentielles.

2. Fournir une structure de données cohérente quel que soit le texte des documents.

Les entreprises de capture de factures utilisant l'apprentissage profond fonctionnent de deux manières. Certaines, comme Textract, renvoient des paires clé-valeur. Ainsi, par exemple, si une facture indique le montant total « Montant brut », une autre « Montant total » et une autre facture allemande « Somme », Textract fournit les données dans trois structures différentes pour ces trois documents.

Dans un cas, vous avez une paire clé-valeur avec la clé « Montant brut », dans un autre « Montant total » et dans le cas allemand, « Somme ». D'autres fournisseurs ont conçu des structures de données cohérentes, compatibles avec toutes les factures. Dans les trois cas, vous obtenez « Montant total », qui est la clé utilisée dans leur fichier de sortie. Cela simplifie l'analyse et le traitement, car vous n'avez plus à gérer plusieurs formats de données structurés différents.

3. Demandez les taux de faux positifs et d'extraction manuelle de données.

Ensuite, exécutez un projet de preuve de concept (PoC) pour voir les taux réels sur les factures reçues par votre entreprise.

  • Les faux positifs sont des factures traitées automatiquement mais comportant des erreurs d'extraction de données. Difficiles à identifier, elles peuvent perturber les opérations. Par exemple, une extraction incorrecte des montants de paiement serait problématique. Minimiser ce risque doit être une priorité absolue.

  • L'extraction manuelle de données est nécessaire lorsque le système d'extraction automatisée présente une fiabilité limitée. Cela peut être dû à un format de facture différent, à une mauvaise qualité d'image ou à une erreur d'impression du fournisseur. Il est important de minimiser ce risque, mais il existe un compromis entre les faux positifs et l'extraction manuelle. Un recours plus important à l'extraction manuelle peut s'avérer préférable à un risque accru de faux positifs.

Il s'agit du premier benchmark quantitatif que nous voyons dans ce domaine et nous suivrons une méthodologie similaire pour préparer notre propre benchmark.

4. Utiliser une preuve de concept pour mesurer le taux d'automatisation potentiel

Cela dépend du nombre de champs que vous prévoyez d'extraire des documents. Un ensemble classique d'une dizaine de champs, comprenant notamment l'identifiant du bon de commande et le nom du fournisseur, permet la saisie des données dans l'ERP et le traitement des paiements.

Les fournisseurs les plus performants atteignent un taux de traitement automatisé (STP) d'environ 80 % en extrayant ces dix champs environ avec un taux d'erreur quasi nul (environ 80 %). Bien que des erreurs puissent survenir occasionnellement, la vérification manuelle des paiements les plus importants permet de s'assurer qu'aucun paiement erroné significatif ne passe entre les mailles du filet.

5. Demandez au fournisseur les options de traitement avancées qu'il propose.

L'extraction est la première étape de la collecte de données ; elle doit généralement être suivie d'un traitement. Par exemple, il est nécessaire de vérifier la conformité des factures à la TVA (par exemple, les factures nationales sans TVA doivent expliquer pourquoi la TVA est exclue), et tout manquement à cette obligation peut entraîner des amendes importantes pour l'entreprise, selon le pays.

6. Demandez comment la solution prend connaissance des nouvelles factures.

Les meilleures solutions disposent d'une interface permettant à votre équipe de contribuer à leur élaboration. Lorsque l'employé de votre entreprise sélectionne les paires clé-valeur, la solution de capture de factures en prend note afin de mieux traiter les factures similaires ultérieurement.

7. Évaluer la facilité d'utilisation de leur solution de saisie manuelle de données

Il sera utilisé par le personnel administratif de votre entreprise pour le traitement manuel des factures qui ne peuvent pas être traitées automatiquement avec certitude.

Au-delà de cela, il est pertinent de poser des questions sur les meilleures pratiques en matière d'approvisionnement. Par exemple :

  • Leur solution est-elle largement adoptée ? Ont-ils des clients figurant au classement Fortune 500 ?
  • Leurs clients sont-ils satisfaits de leur solution et de leur assistance ? Il serait judicieux de poser la question à une connaissance travaillant dans une entreprise qui utilise déjà leur solution. L'automatisation des factures n'étant pas une solution susceptible d'améliorer le marketing ou les ventes d'une entreprise, même les concurrents pourraient partager leur point de vue sur les solutions d'automatisation des factures.
  • Quelles sont les options pour intégrer la solution aux systèmes de votre entreprise (par exemple, ERP) ? Le service informatique adhère-t-il à cette approche d’intégration ?
  • Quel est leur coût total de possession (CTP) ? Les différentes solutions utilisent des unités de tarification différentes (par exemple, prix par page ou prix par document), ce qui rend cette comparaison difficile. Cependant, à partir d’un échantillon de vos archives, vous pourriez obtenir une estimation du coût.

Pour en savoir plus

Liens de référence

1.
2.
3.
Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet

Soyez le premier à commenter

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450