Contactez-nous
Aucun résultat trouvé.

Test de performance OCR : Précision d'extraction/de capture de texte

Cem Dilmegani
Cem Dilmegani
mis à jour le Jan 22, 2026
Consultez notre normes éthiques

La précision de la reconnaissance optique de caractères (OCR) est essentielle pour de nombreuses tâches de traitement de documents, et les logiciels multimodaux de pointe offrent désormais une alternative à l'OCR . Nous avons comparé les principaux services d'OCR dans DeltOCR Bench afin d'identifier leurs niveaux de précision pour différents types de documents :

  • Écriture manuscrite : GPT-5 (95 %) se distingue comme le plus performant, suivi de près par olmOCR-2-7B (94 %) et Gemini 2.5 Pro (93 %).
  • Supports imprimés : Gemini 2.5 Pro, Google Vision et Claude Sonnet 4.5 sont en tête de cette catégorie avec le score le plus élevé (85 %).
  • Texte imprimé : Microsoft Document Azure Intelligence API en tête avec un score de %96.

Test de performance OCR : DeltOCR Bench

Loading Chart

Vous trouverez ci-dessous la liste complète des produits mentionnés ci-dessus et leurs versions en vigueur en novembre 2025. Notre étude porte à la fois sur les services API facilement accessibles et sur les solutions nécessitant une infrastructure sur site, et compare les principaux modèles du marché dans un environnement de test approfondi.

  • Écriture manuscrite :
    • Plage de précision : Une large plage allant de 46 % à 95 %.
    • Points saillants : GPT-5 (95 %), olmOCR-2-7B (94 %) et Gemini 2.5 Pro (93 %) affichent les meilleures performances. Ces scores élevés témoignent du potentiel de précision exceptionnel des modèles de langage multimodaux, tels que GPT-5 et Gemini 2.5 Pro, dans ce domaine.
    • Recommandation : Pour la reconnaissance d'écritures manuscrites très complexes, les meilleures solutions LLM comme GPT-5 ou Gemini 2.5 Pro sont recommandées en raison de leur accessibilité API et de leur facilité d'intégration.
  • Médias imprimés :
    • Plage de précision : Une plage de %54 à %85.
    • Points forts : Les solutions Gemini 2.5 Pro, Vision (référence 991259_1710) et Vision (référence 991259_957).5 obtiennent le meilleur score (85 %). Cette catégorie est très concurrentielle entre les logiciels de reconnaissance optique de caractères (LLM) et les services OCR traditionnels basés sur le cloud (Azure, Dots OCR, Amazon Textract). Vision (référence 991259_1211) est en retrait par rapport aux autres logiciels de reconnaissance optique de caractères leaders de cette catégorie (77 %).
    • Recommandation : Pour les documents avec des mises en page visuelles complexes (polices multiples, faible résolution, etc.), les LLM comme Gemini 2.5 Pro, ou les services basés sur le cloud comme Google Vision, ou Microsoft Azure Document Intelligence API sont recommandés.
  • Texte imprimé :
    • Plage de précision : Une plage élevée allant de 55 % à 96 %, bien que la plupart des solutions de pointe aient atteint des scores de 94 % et plus.
    • Points saillants : Azure Document API (96 %) arrive en tête, suivi de près par des solutions comme Gemini 2.5 Pro, Gemini 3 Pro Preview, Vision et Amazon Textract, toutes avec un score de 95 %. Dans cette catégorie, toutes les solutions de pointe atteignent des niveaux de précision extrêmement élevés.
    • Recommandation : Pour les textes imprimés simples nécessitant une grande précision, des solutions cloud établies comme Microsoft Azure Document Intelligence API ou Google Vision, ou des LLM à score élevé (Gemini/GPT-5), peuvent être utilisées en toute confiance.

Solutions API

Les modèles suivants ont été inclus dans notre liste de référence en raison de leur facilité d'accès et de leurs performances.

  • Claude Sonnet 4.5
  • OpenAI GPT-5
  • Gemini 2.5 Pro
  • Aperçu de Gemini 3 Pro
  • API Amazon Textract
  • API Cloud Vision Google
  • Microsoft Document Azure Intel API Licensing
  • Moondream OCR
  • Mistral OCR 3
  • Mistral OCR 2

Microsoft Document Azure IntelL'API ligence fait partie de la famille Azure Cognitive Services.

Modèles déployés localement (sur site)

Tester ces modèles est plus complexe que les solutions API en raison des exigences d'installation, de gestion des dépendances et de matériel. Tous les tests locaux ont été réalisés sur un serveur dédié.

  • olmOCR-2-7B
  • PaddleOCR-VL
  • Nanonets-OCR2-3B
  • Deepseek-OCR
  • OCR par points

Nous avons calculé la précision des résultats à l'aide du score de similarité cosinus pour les textes imprimés, les supports imprimés et l'écriture manuscrite. Chaque score affiché dans le graphique représente la performance du modèle correspondant dans cette catégorie.

Lors de nos tests, nous avons constaté que le modèle Nanonets-OCR2-3B affichait les performances les plus faibles du test de référence, obtenant les scores les plus bas. De manière générale, nous avons observé que certains modèles éprouvaient des difficultés particulières avec l'écriture cursive et les mises en page de texte désorganisées (ordre des lignes aléatoire, majuscules incohérentes). Des problèmes de performance similaires sont également apparus dans la catégorie des supports imprimés, notamment avec les images basse résolution et celles contenant plusieurs styles de police.

Ensemble de données

Nous avons utilisé un total de 300 documents dans cette analyse comparative, avec 100 documents par catégorie répartis en 3 catégories :

Les textes imprimés comprennent les lettres, les captures d'écran de sites web, les courriels, les rapports, etc.

Les supports imprimés comprennent les affiches, les couvertures de livres, les publicités, etc. Notre objectif était d'évaluer l'efficacité des outils de reconnaissance optique de caractères (OCR) avec différentes polices et mises en page.

Les fichiers de ces 2 catégories proviennent de la bibliothèque de documents de l'industrie (IDL). 1

Écriture manuscrite : Dans la catégorie « documents manuscrits », certains documents IDL étant difficiles à lire, notre équipe a généré des documents similaires. Nous avons préparé manuellement des échantillons d’écriture cursive lisibles par tous.

Figure 1 : Exemples de notre ensemble de données.

Méthodologie du banc d'essai DeltOCR

Ce test de performance porte sur la précision d'extraction de texte des produits.

Le prétraitement est effectué uniquement pour la catégorie « écriture manuscrite ». Nous avons photographié les documents manuscrits avec nos smartphones et utilisé une application de numérisation mobile.

  • Les photos ont été converties en noir et blanc
  • Le contraste a été augmenté et l'arrière-plan a été supprimé.

OCR : Nous avons testé tous les produits sur le même jeu de données et généré des fichiers texte bruts (.txt). Nous avons ensuite préparé manuellement la vérité terrain en incluant le texte correct dans tous ces fichiers. Cette vérité terrain a été vérifiée deux fois par des humains.

Comparaison : Nous avons mesuré la précision des solutions OCR en comparant leurs résultats aux textes originaux. À cette fin, nous avons utilisé le framework Sentence-BERT (SBERT) pour calculer les scores de similarité cosinus. Dans le cadre de l’évaluation comparative, nous avons utilisé le modèle de paraphrase multilingue performant MiniLM-L12-v2 pour calculer le score de similarité entre le résultat de chaque produit et les textes de référence. Ce score représente le niveau de précision du texte.

La fonction de similarité utilise la distance cosinus pour calculer la similarité entre deux textes. Nous n'avons pas utilisé la distance de Levenshtein pour ce test, car l'ordre d'affichage des textes varie selon les produits. 2

Bien que la distance de Levenshtein prenne en compte ces différences, nous nous intéressons uniquement à la précision de la détection du texte, et non à sa localisation. La distance cosinus n'entraîne que des pénalités négligeables dans ce cas, c'est pourquoi nous avons opté pour cette méthode dans ce test de performance.

Sélection de produits

De nombreux logiciels de reconnaissance optique de caractères (OCR) sont disponibles sur le marché. Nous devons nous concentrer sur ceux qui peuvent fournir des résultats textuels bruts. Les logiciels retenus pour ce test comparatif ont été sélectionnés selon les critères suivants :

  • Capacité d'extraction de texte. Nous n'avons pas inclus dans cette comparaison les solutions qui extraient uniquement des données lisibles par machine (c.-à-d. des données structurées).
  • Leur popularité sur le marché

Il ne s'agit pas d'une analyse de marché exhaustive et il est possible que nous ayons omis certains produits aux fonctionnalités importantes. Si tel est le cas, n'hésitez pas à laisser un commentaire ; nous serons ravis d'enrichir notre analyse.

Limites

Les fonctionnalités avancées telles que la détection de l'emplacement du texte, l'appariement clé-valeur et la classification des documents n'ont pas été évaluées dans ce test de performance.

La taille de l'échantillon sera augmentée lors de la prochaine itération. Si vous recherchez une solution OCR pour l'écriture manuscrite, consultez notre étude comparative OCR d'écriture manuscrite avec 50 échantillons.

Vous pouvez également consulter nos analyses comparatives de la reconnaissance optique de caractères (OCR) des factures et des reçus si cela vous intéresse.

Résultats de référence OCR précédents

Résultats globaux de la précision de la reconnaissance optique de caractères (OCR) avec intervalles de confiance à 90 %
  • Google Cloud Vision et AWS Textrect sont les technologies leaders du marché pour tous les cas
  • Abbyy offre également des performances élevées pour les documents non manuscrits.
  • Tous les logiciels de reconnaissance optique de caractères (OCR) testés, y compris le logiciel libre Tesseract, ont obtenu de bons résultats sur les captures d'écran numériques.

L'outil Vision OCR de Cloud Platform (Google) atteint une précision de texte maximale de 98,0 % sur l'ensemble des données testées. Si tous les produits affichent des performances supérieures à 99,2 % pour la catégorie 1 (textes dactylographiés inclus), ce sont les images manuscrites des catégories 2 et 3 qui font la réelle différence entre les produits.

Les résultats globaux montrent que GCP Vision et AWS Textract sont les produits OCR dominants, avec la plus grande précision dans la reconnaissance du texte donné.

Remarques tirées des résultats globaux :

  • Il y a eu une seule fois où AWS Textract n'a pas réussi à reconnaître le texte manuscrit. Cette situation a considérablement réduit les performances globales et celles de la catégorie. Elle a également accru l'écart au sein de la catégorie et globalement, car AWS Textract fonctionne parfaitement dans tous les autres cas.
  • Azure est le produit leader de la catégorie 1 avec une précision de 99,8 %. Cependant, il peine souvent à reconnaître l'écriture manuscrite, comme le montrent les résultats de la deuxième catégorie. C'est pourquoi Azure est en retrait dans la troisième catégorie et au classement général.
  • Tesseract OCR est un logiciel libre et gratuit. Comparé à Azure et ABBYY, il offre de meilleures performances pour la reconnaissance d'écriture manuscrite et peut être envisagé si l'utilisateur ne peut pas se procurer les produits AWS ou GCP. En revanche, ses performances peuvent être moindres pour les images numérisées.
  • Contrairement à d'autres produits, ABBYY génère un fichier .txt plus structuré. ABBYY tient également compte de la position du texte dans l'image lors de la génération du fichier de sortie. Bien que le produit offre d'autres fonctionnalités utiles, nous nous concentrons uniquement sur la précision du texte dans ce test comparatif. Or, ses performances en reconnaissance d'écriture manuscrite sont médiocres.

Suppression de l'image du « fauteur de troubles »

Comme indiqué dans les résultats globaux, une image « atypique » a été identifiée : AWS Textract n’a pas pu reconnaître le texte. Bien que le produit affiche une précision de texte supérieure à 95 % pour toutes les autres images, ce cas a réduit les performances d’AWS et élargi son intervalle de confiance.

Comme ce cas pourrait être une exception, nous avons également voulu comparer les produits sans cette image. Nous l'avons appelée « l'élément perturbateur » et avons recalculé nos résultats pour voir si elle avait une incidence.
Voici les nouveaux résultats après exclusion du « fauteur de troubles » de l’ensemble de données.

Résultats de précision de la reconnaissance optique de caractères (OCR) lorsque le « perturbateur » est exclu. L’intervalle de confiance à 90 % est indiqué.

Une fois le produit problématique exclu, AWS Textract se distingue par une précision textuelle quasi parfaite (99,3 %) et un intervalle de confiance étroit. Bien que les scores restent globalement stables, GCP Vision et AWS Textract conservent les deux premières places, affichant une précision textuelle supérieure aux autres.

Résultats sans reconnaissance d'écriture manuscrite

Le principal facteur réduisant la précision du texte pour certains produits est la présence d'écriture manuscrite dans les images. Par conséquent, nous avons exclu toutes les images (toutes celles de la catégorie 2 et 6 images de la catégorie 3) et réévalué la précision du texte.

Précision du texte OCR sans cas de reconnaissance d'écriture manuscrite

Les résultats sont plus serrés lorsque les images manuscrites sont exclues. AWS Textract et GCP Vision restent les deux meilleurs produits du test, mais ABBYY FineReader obtient également d'excellents résultats (99,3 %). Bien que tous les produits atteignent une précision supérieure à 95 % lorsque l'écriture manuscrite est exclue, Azure Computer Vision et Tesseract OCR rencontrent toujours des difficultés avec les documents numérisés, ce qui les désavantage dans ce classement.

Produits de référence

Nous avons testé cinq logiciels de reconnaissance optique de caractères (OCR) afin d'évaluer leur précision de traitement du texte. Nous avons utilisé les versions disponibles en mai 2021. Les logiciels utilisés sont :

  • ABBYY FineReader 15
  • Amazon Textract
  • API Vision de la plateforme cloud Google
  • Microsoft API Azure Computer Vision
  • Moteur OCR Tesseract

Ensemble de données

Bien qu'il existe de nombreux ensembles de données d'images pour la reconnaissance optique de caractères (OCR), ceux-ci sont

  • principalement au niveau des personnages, et ne correspondent pas aux cas d'utilisation réels en entreprise
  • ou concentrez-vous sur l'emplacement du texte plutôt que sur le texte lui-même.

Nous avons donc décidé de créer notre propre ensemble de données, organisé en trois grandes catégories :

  1. Catégorie 1 – Captures d’écran de pages Web contenant du texte : Cette catégorie comprend des captures d’écran de pages Wikipédia aléatoires et des résultats de recherche Google avec des requêtes aléatoires.
  2. Catégorie 2 – Écriture manuscrite : Cette catégorie comprend des photos aléatoires présentant différents styles d’écriture.
  3. Catégorie 3 – Reçus, factures et contrats numérisés : Cette catégorie comprend une collection aléatoire de reçus, de factures manuscrites et de contrats d’assurance numérisés collectés sur Internet.

Tous les fichiers d'entrée sont au format .jpg ou .png.

Limites

  • Jeu de données limité : Initialement, nous avions une quatrième catégorie composée de photos de journaux pour évaluer la performance des produits sur des documents imprimés. Cependant, ces photos contenaient trop de texte, ce qui rendait difficile l’obtention de données de référence. Nous avons donc décidé de ne pas les utiliser.
  • Incohérences dans les formats de sortie : De nombreuses images contiennent du texte distinct à gauche et à droite. Les logiciels extraient ce texte dans un ordre différent, ce qui entraîne des différences dans les fichiers de sortie, malgré une détection précise du texte. Cette situation nous a empêchés d’utiliser d’autres mesures de distance (comme la distance de Levenshtein) et a limité nos options pour calculer la précision du texte.
  • Problème potentiel lié à la distance cosinus : La distance cosinus utilise des représentations vectorielles pour calculer la similarité. Par exemple, comparer les phrases « J’aime le thé » et « J’aime le café » donnerait un score de similarité plus élevé que prévu. Cependant, les cas où l’on confondrait « thé » et « café » étant rares, nous n’avons pas pris en compte cette possibilité dans cet exercice.

Nous utilisons d'autres données de marché (par exemple, les avis sur les logiciels, les études de cas clients) pour classer les fournisseurs de logiciels. Cependant, comme la plupart des entreprises utilisent le terme « OCR » lorsqu'elles recherchent des solutions d'extraction de données (y compris celles qui génèrent des données lisibles par machine), notre liste est plus exhaustive et comprend davantage d'entreprises que celles présentées dans cette analyse comparative.

FAQ

La reconnaissance optique de caractères (OCR) est un domaine de l'apprentissage automatique spécialisé dans la distinction des caractères dans des images telles que des documents numérisés, des livres imprimés ou des photos. Bien qu'il s'agisse d'une technologie mature, aucun logiciel OCR n'est encore capable de reconnaître tous les types de textes avec une précision de 100 %. Parmi les produits que nous avons testés, seuls quelques-uns ont obtenu des résultats concluants sur notre jeu de données.
Les outils de reconnaissance optique de caractères (OCR) sont utilisés par les entreprises pour identifier les textes et leur position dans les images, classer les documents commerciaux par sujet ou effectuer des appariements clé-valeur au sein des documents. À partir des résultats de l'OCR, d'autres entreprises technologiques développent des applications telles que l'automatisation documentaire . Dans tous ces cas d'utilisation, une reconnaissance de texte précise est essentielle pour un produit OCR.

Cem Dilmegani
Cem Dilmegani
Analyste principal
Cem est analyste principal chez AIMultiple depuis 2017. AIMultiple informe chaque mois des centaines de milliers d'entreprises (selon similarWeb), dont 55 % des entreprises du classement Fortune 500. Les travaux de Cem ont été cités par des publications internationales de premier plan telles que Business Insider, Forbes et le Washington Post, ainsi que par des entreprises mondiales comme Deloitte et HPE, des ONG comme le Forum économique mondial et des organisations supranationales comme la Commission européenne. Vous trouverez d'autres entreprises et ressources réputées ayant fait référence à AIMultiple. Tout au long de sa carrière, Cem a exercé les fonctions de consultant, d'acheteur et d'entrepreneur dans le secteur des technologies. Il a conseillé des entreprises sur leurs décisions technologiques chez McKinsey & Company et Altman Solon pendant plus de dix ans. Il a également publié un rapport McKinsey sur la numérisation. Il a dirigé la stratégie technologique et les achats d'un opérateur télécom, sous la responsabilité directe du PDG. Il a également piloté la croissance commerciale de la société de deep tech Hypatos, qui a atteint un chiffre d'affaires annuel récurrent à sept chiffres et une valorisation à neuf chiffres en seulement deux ans. Les travaux de Cem chez Hypatos ont été présentés dans des publications technologiques de référence telles que TechCrunch et Business Insider. Cem intervient régulièrement lors de conférences internationales sur les technologies. Diplômé en génie informatique de l'université de Bogazici, il est également titulaire d'un MBA de la Columbia Business School.
Voir le profil complet
Recherche effectuée par
Şevval Alper
Şevval Alper
Chercheur en IA
Şevval est analyste chez AIMultiple, spécialisé dans les outils de codage IA, les agents IA et les technologies quantiques.
Voir le profil complet

Commentaires 8

Partagez vos idées

Votre adresse courriel ne sera pas publiée. Tous les champs sont obligatoires.

0/450
Serhat Cinar
Serhat Cinar
Feb 28, 2025 at 09:34

Did you ever think of oncluding multimodal llms in your comparison, like gpt4o, llama 3.2. gemini, claude etc.?

Cem Dilmegani
Cem Dilmegani
Mar 17, 2025 at 02:59

Hi Serhat and thank you for your comment, Yes, we added those for which we have API access like Claude and GPT-4o.

DLJ
DLJ
Oct 17, 2024 at 11:14

Just stumbled on this milestone assessment update. Could you kindly elaborate further on the three revised datasets: Thanks for this work. Character Sets When someone refers to 'handriting', that can mean many things: 'handwriting style' typefaces (per Docusign, etc.), and hand-printed (block printing and mixed-case printing) as often found in combs and box delineators, and finally, cursive or longhand writing (exclusive of signatures). Character Context Structured content, semi-structured content, and unstructured content. Image Qualities (bitonal, greyscale, full colour, spatial dpi, from a scanner/cell-phone/native rendering, image 'enhancements' prior to OCR (thickening, local gamma, background dropout, sharpening, smoothing, noise removal, etc.) These can have significant impacts, and some don't realize the importance of including these benchmark differentiators.

Cem Dilmegani
Cem Dilmegani
Oct 22, 2024 at 03:15

Hi there, thank you for the detailed comment, we are updating the article to include these details.

Webster
Webster
Feb 05, 2023 at 07:24

Hello, great work! Just curious, did you use a trained Tesseract when making these testing?

Bardia Eshghi
Bardia Eshghi
Feb 06, 2023 at 12:29

Hi, Webster. Glad you enjoyed the article. The tools we tested were: ABBYY FineReader 15 Amazon Textract Google Cloud Platform Vision API Microsoft Azure Computer Vision API Tesseract OCR Engine Hope this answers your question.

Bobby
Bobby
Aug 14, 2022 at 23:54

The graph images are not working for me at the moment. Otherwise great

Cem Dilmegani
Cem Dilmegani
Aug 15, 2022 at 14:48

Thank you Bobby! We have a glitch in the CMS and we are fixing it. Apologies for the issue, it should be fixed next week.

samsun
samsun
Jun 07, 2022 at 14:10

Thanks for sharing, can you add a free OCR for everyone to use? https://www.geekersoft.com/ocr-online.html

Cem Dilmegani
Cem Dilmegani
Aug 17, 2022 at 07:46

Hi Samsun, unfortunately, we don't share all OCR providers on this page, there are thousands of them. We tried to put together the largest ones in terms of market presence. If you have evidence that your solution is one of the top 10 globally, please share it with us at info@aimultiple.com so we can consider it.

Scott
Scott
Jan 20, 2022 at 20:42

What version of Tesseract did you test with? They recently released v5.

Cem Dilmegani
Cem Dilmegani
Aug 23, 2022 at 12:01

Hi Scott, we did the benchmarking before Tesseract 5. We will redo it soon and include the versions in the methodology section as well.

Bob
Bob
Jan 12, 2022 at 15:09

This is very informative, nice work. I assume your tests used documents/images in English? I've been experimenting with OCR tools on other languages and finding relatively poor accuracy.

Cem Dilmegani
Cem Dilmegani
Jan 15, 2022 at 13:52

Exactly, all text were in English. I hear similar things about OCR on non-Latin characters. We have an Arabic speaker in the team who claims that accuracy in Arabic is much lower compared to English. We can do a benchmark on non-Latin characters if there is demand for it.

kin
kin
Jun 21, 2021 at 02:22

interesting post!!! do you have any suggestion about improving accuracy on scanned image ? i'm using tesseract right now. anyway , great work!

Cem Dilmegani
Cem Dilmegani
Jun 22, 2021 at 07:50

Thank you for the comment. There are pre-processing approaches that can be implemented to improve image quality. But such approaches may already be used in Tesseract. A detailed research into Tesseract image processing would be helpful in your case.