L'extraction de données à partir des reçus est essentielle pour les entreprises, car des millions d'employés soumettent leurs notes de frais professionnelles via ces documents. Grâce aux dernières avancées en intelligence artificielle générative et en modélisation du langage naturel , la précision de l'extraction de données a atteint un niveau comparable à celui des humains.
Nous avons évalué la précision d'extraction de données des LLM sur des images de reçus de qualité variable à l'aide de Claude 3.5 Sonnet afin d'évaluer leurs capacités d'extraction de données. Les résultats démontrent une grande précision lors du test de reconnaissance optique de caractères (OCR) sur les reçus, avec un taux de réussite moyen de 97 %.
Résultats de référence de la reconnaissance optique de caractères (OCR) des reçus
Ensemble de données
Nous avons divisé notre ensemble de données en deux parties :
Haute qualité : Reçus numérisés en haute résolution. Ces images sont bien alignées et présentent un contraste élevé. 1
Qualité médiocre : Photographie de faible qualité
reçus. Ces images ne sont pas correctement alignées, sans prétraitement pour les rendre conformes aux normes.contraste plus élevé. 2
Notre objectif est de traiter autant que possible de cas réels.
Nous avons demandé un format JSON pour faciliter l'évaluation. Voici notre consigne : veuillez exporter le texte des fichiers PDF au format JSON.
Si cela vous intéresse, vous pouvez également consulter l' étude comparative sur la reconnaissance optique de caractères (OCR) des factures .
Méthodologie
Les résultats ont été évalués au niveau des paires clé-valeur :
Si un champ comporte l'étiquette et la valeur correctes, il est considéré comme correct.
Si une différence quelconque apparaît entre les caractères de l'étiquette ou de la valeur et la valeur réelle, la ligne correspondante est marquée comme fausse.
Précision de l'extraction : nombre de paires clé-valeur correctement extraites divisé par le nombre total de paires clé-valeur.
Qu'est-ce que la reconnaissance optique de caractères (OCR) de reçus ?
La reconnaissance optique de caractères (OCR) est une technologie qui extrait les données des reçus numérisés et électroniques grâce à l'intelligence artificielle et aux algorithmes d'apprentissage automatique. L'OCR analyse les données, les convertit en un format structuré et capture les informations du reçu, telles que la date, les articles et les prix.
Meilleures pratiques pour extraire des données des reçus
Pour améliorer la précision de la reconnaissance optique de caractères (OCR) , les images doivent être :
En résolution plus élevée
Bien aligné
Exempt d'erreurs d'impression
Vous devez être conscient de :
La plupart des outils de reconnaissance optique de caractères (OCR) pour les reçus échouent à associer correctement l'article à son prix lorsqu'une note concernant l'article figure sur la ligne suivante sans indication de prix. Dans ce cas, il est fréquent que ces outils interprètent le prix de l'article suivant comme étant celui de la note. Pour mieux comprendre, prenons l'exemple suivant :
Dans de tels cas, le résultat de la reconnaissance optique de caractères (OCR) peut correspondre à « SpcyDlx +PJ » avec un prix de 0,40, ce qui est incorrect. Cela peut notamment se produire lorsque la résolution et la qualité de l'image sont faibles, ou lorsque l'image n'est pas droite.
Nous avons constaté qu'en cas de faible résolution ou d'erreurs d'impression (encre ne couvrant pas entièrement la lettre, etc.), les outils peinent à identifier correctement les lettres et les chiffres similaires, comme « 8 » et « 9 » ou « 5 » et « 6 ». L'identification du symbole « / » et du chiffre « 1 » est également souvent problématique, notamment pour les dates.
Types de données pouvant être extraites des reçus
Numéro de reçu
Date
Nom du fournisseur
Montant du sous-total
montant de l'impôt
Montant total
Articles achetés
Guide étape par étape pour l'extraction des données des reçus :
Numérisation de reçus : Numérisation du reçu en haute résolution. La reconnaissance optique de caractères (OCR) permet d’obtenir des images de meilleure qualité que la prise de photos.
Traitement des reçus : Pour améliorer le contraste et la lisibilité de l’image d’entrée, un traitement des reçus peut être nécessaire.
Analyse des reçus : L’analyse de l’image du reçu est essentielle pour analyser et capturer les données ; elle décompose les données en parties plus organisées.
Utilisation des données structurées : Les données structurées permettent d’automatiser la saisie de données dans les systèmes existants, tels que les logiciels comptables. Les données pertinentes peuvent être utilisées dans de nombreux cas, notamment pour le suivi des dates de transaction dans les documents financiers et la gestion des dépenses. L’extraction automatique des données des reçus à l’aide de LLM ou d’API de reconnaissance optique de caractères (OCR) permet de réduire les erreurs et la saisie manuelle, et d’accroître l’efficacité globale tout en garantissant une grande précision.
Vous pouvez également consulter notre référentiel OCR d'écriture manuscrite.
FAQ
La technologie OCR facilite le suivi des dépenses et l'identification des habitudes de consommation. L'analyse des lignes de code dans les réponses JSON fournit des informations clés et permet un gain de temps considérable grâce à l'extraction automatique du texte brut des documents et factures. Les entreprises peuvent paramétrer le moteur OCR en fonction des besoins de chaque projet. Il est possible d'extraire des reçus les numéros d'entreprise de différents pays, comme le numéro d'entreprise australien et le numéro de TVA.
Soyez le premier à commenter
Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.