Contattaci
Nessun risultato trovato.

Benchmark OCR delle ricevute con LLM

Cem Dilmegani
Cem Dilmegani
aggiornato il Gen 23, 2026
Guarda il nostro norme etiche

L'estrazione dei dati dalle ricevute è fondamentale per le aziende, poiché milioni di dipendenti presentano le proprie spese di lavoro tramite scontrini. Grazie ai recenti sviluppi nell'intelligenza artificiale generativa e nei modelli linguistici su larga scala , la precisione dell'estrazione dei dati ha raggiunto un livello paragonabile a quello umano.

Abbiamo valutato l'accuratezza dell'estrazione dati dei LLM su immagini di scontrini di bassa e alta qualità utilizzando Claude 3.5 Sonnet per valutarne le capacità di estrazione dati sugli scontrini. I risultati dimostrano un'elevata accuratezza nel test OCR sugli scontrini, con un tasso di successo medio del 97%.

Risultati del benchmark OCR delle ricevute

Figura 1: Risultati relativi all'accuratezza dell'estrazione dei dati.

Set di dati

Abbiamo suddiviso il nostro set di dati in due parti:

  • Alta qualità: ricevute scansionate ad alta risoluzione. Le immagini sono ben allineate e presentano un contrasto elevato. 1

  • Bassa qualità: fotografato, bassa qualità

    ricevute. Queste immagini non sono allineate correttamente, senza alcuna pre-elaborazione per renderle

    contrasto più elevato. 2

Figura 2: Esempi tratti da un set di dati di alta qualità e da un set di dati di bassa qualità.

Il nostro obiettivo è quello di trattare il maggior numero possibile di casi reali.

Abbiamo richiesto un output in formato JSON per facilitare la valutazione. La nostra richiesta è: Si prega di esportare il testo dei PDF in un formato JSON corretto.

Se ti interessa, puoi anche consultare il benchmark OCR per le fatture .

Metodologia

I risultati sono stati valutati a livello di coppie chiave-valore:

  • Se un campo include l'etichetta e il valore corretti, viene contrassegnato come corretto.

  • Se nell'etichetta o nel valore sono presenti differenze di carattere rispetto al valore reale, la riga corrispondente viene contrassegnata come falsa.

Accuratezza dell'estrazione: numero di coppie chiave-valore estratte correttamente diviso per il numero totale di coppie chiave-valore.

Che cos'è l'OCR per le ricevute?

La tecnologia OCR (Optical Character Recognition) per le ricevute estrae dati da scontrini scansionati e digitali utilizzando algoritmi di intelligenza artificiale e apprendimento automatico. L'OCR per le ricevute analizza i dati, li converte in un formato strutturato e cattura i dettagli presenti sulla ricevuta, come data, articoli e prezzi.

Procedure ottimali per estrarre dati dalle ricevute

Per aumentare la precisione dell'OCR , le immagini dovrebbero essere:

  • In alta risoluzione

  • Ben allineato

  • Privo di errori di stampa

È importante essere a conoscenza di quanto segue:

La maggior parte degli strumenti OCR per scontrini non riesce ad associare correttamente l'articolo al prezzo corretto quando nella riga successiva è presente una nota relativa all'articolo senza indicazione del prezzo. In tal caso, è frequente che gli strumenti interpretino il prezzo dell'articolo successivo come il prezzo indicato nella nota. Per chiarire meglio, osserviamo l'esempio:

Figura 3: Un errore comune degli strumenti OCR per le ricevute.

In questi casi, l'output dell'OCR potrebbe corrispondere a "SpcyDlx +PJ" con il prezzo 0.40, il che non è corretto. Ciò è possibile soprattutto quando la risoluzione e la qualità dell'immagine sono basse e l'immagine non è allineata correttamente.

Abbiamo notato che, in caso di bassa risoluzione o errori di stampa (l'inchiostro non copre completamente la lettera, ecc.), gli strumenti hanno difficoltà a identificare correttamente lettere e numeri simili, come "8" e "9" o "5" e "6". Anche l'identificazione di "/" e "1" è un problema frequente, soprattutto nelle date.

Tipi di dati che possono essere estratti dalle ricevute

  • Numero di ricevuta

  • Data

  • Nome del fornitore

  • Importo subtotale

  • Importo dell'imposta

  • Importo totale

  • Articoli acquistati

Una guida passo passo all'estrazione dei dati dalle ricevute:

  • Scansione delle ricevute: Scansione delle ricevute ad alta risoluzione. La scansione delle ricevute tramite OCR consente di ottenere immagini di qualità superiore rispetto alla semplice fotografia delle ricevute.

  • Elaborazione delle ricevute: per aumentare il contrasto e la leggibilità dell'immagine in ingresso, potrebbe essere necessario elaborare le ricevute.

  • Analisi delle ricevute: L'analisi dell'immagine della ricevuta è essenziale per analizzare e acquisire dati, in quanto scompone i dati in porzioni più organizzate.

  • Utilizzo di dati strutturati: i dati strutturati possono essere utilizzati per automatizzare l'inserimento dei dati nei sistemi esistenti, come i software di contabilità. I dati pertinenti possono essere utilizzati in molti casi, ad esempio per monitorare la data della transazione nei registri finanziari e nella gestione delle spese. L'estrazione automatica dei dati dalle ricevute tramite LLM o API OCR per ricevute può ridurre gli errori e l'inserimento manuale, aumentando l'efficienza complessiva con un'elevata precisione.

È inoltre possibile consultare il nostro benchmark OCR per la scrittura a mano.

FAQ

La tecnologia OCR aiuta a monitorare le spese e a identificare i modelli di spesa. Le voci nella risposta JSON possono fornire informazioni chiave e contribuire a risparmiare tempo estraendo automaticamente il testo grezzo da documenti e fatture. Le aziende possono personalizzare un motore OCR in base alle esigenze del progetto. I numeri di identificazione fiscale di diversi paesi, come il numero di partita IVA e il codice identificativo aziendale australiano, possono essere estratti dalle ricevute.

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450