L'estrazione dei dati dalle ricevute è fondamentale per le aziende, poiché milioni di dipendenti presentano le proprie spese di lavoro tramite scontrini. Grazie ai recenti sviluppi nell'intelligenza artificiale generativa e nei modelli linguistici su larga scala , la precisione dell'estrazione dei dati ha raggiunto un livello paragonabile a quello umano.
Abbiamo valutato l'accuratezza dell'estrazione dati dei LLM su immagini di scontrini di bassa e alta qualità utilizzando Claude 3.5 Sonnet per valutarne le capacità di estrazione dati sugli scontrini. I risultati dimostrano un'elevata accuratezza nel test OCR sugli scontrini, con un tasso di successo medio del 97%.
Risultati del benchmark OCR delle ricevute
Set di dati
Abbiamo suddiviso il nostro set di dati in due parti:
Alta qualità: ricevute scansionate ad alta risoluzione. Le immagini sono ben allineate e presentano un contrasto elevato. 1
Bassa qualità: fotografato, bassa qualità
ricevute. Queste immagini non sono allineate correttamente, senza alcuna pre-elaborazione per renderlecontrasto più elevato. 2
Il nostro obiettivo è quello di trattare il maggior numero possibile di casi reali.
Abbiamo richiesto un output in formato JSON per facilitare la valutazione. La nostra richiesta è: Si prega di esportare il testo dei PDF in un formato JSON corretto.
Se ti interessa, puoi anche consultare il benchmark OCR per le fatture .
Metodologia
I risultati sono stati valutati a livello di coppie chiave-valore:
Se un campo include l'etichetta e il valore corretti, viene contrassegnato come corretto.
Se nell'etichetta o nel valore sono presenti differenze di carattere rispetto al valore reale, la riga corrispondente viene contrassegnata come falsa.
Accuratezza dell'estrazione: numero di coppie chiave-valore estratte correttamente diviso per il numero totale di coppie chiave-valore.
Che cos'è l'OCR per le ricevute?
La tecnologia OCR (Optical Character Recognition) per le ricevute estrae dati da scontrini scansionati e digitali utilizzando algoritmi di intelligenza artificiale e apprendimento automatico. L'OCR per le ricevute analizza i dati, li converte in un formato strutturato e cattura i dettagli presenti sulla ricevuta, come data, articoli e prezzi.
Procedure ottimali per estrarre dati dalle ricevute
Per aumentare la precisione dell'OCR , le immagini dovrebbero essere:
In alta risoluzione
Ben allineato
Privo di errori di stampa
È importante essere a conoscenza di quanto segue:
La maggior parte degli strumenti OCR per scontrini non riesce ad associare correttamente l'articolo al prezzo corretto quando nella riga successiva è presente una nota relativa all'articolo senza indicazione del prezzo. In tal caso, è frequente che gli strumenti interpretino il prezzo dell'articolo successivo come il prezzo indicato nella nota. Per chiarire meglio, osserviamo l'esempio:
In questi casi, l'output dell'OCR potrebbe corrispondere a "SpcyDlx +PJ" con il prezzo 0.40, il che non è corretto. Ciò è possibile soprattutto quando la risoluzione e la qualità dell'immagine sono basse e l'immagine non è allineata correttamente.
Abbiamo notato che, in caso di bassa risoluzione o errori di stampa (l'inchiostro non copre completamente la lettera, ecc.), gli strumenti hanno difficoltà a identificare correttamente lettere e numeri simili, come "8" e "9" o "5" e "6". Anche l'identificazione di "/" e "1" è un problema frequente, soprattutto nelle date.
Tipi di dati che possono essere estratti dalle ricevute
Numero di ricevuta
Data
Nome del fornitore
Importo subtotale
Importo dell'imposta
Importo totale
Articoli acquistati
Una guida passo passo all'estrazione dei dati dalle ricevute:
Scansione delle ricevute: Scansione delle ricevute ad alta risoluzione. La scansione delle ricevute tramite OCR consente di ottenere immagini di qualità superiore rispetto alla semplice fotografia delle ricevute.
Elaborazione delle ricevute: per aumentare il contrasto e la leggibilità dell'immagine in ingresso, potrebbe essere necessario elaborare le ricevute.
Analisi delle ricevute: L'analisi dell'immagine della ricevuta è essenziale per analizzare e acquisire dati, in quanto scompone i dati in porzioni più organizzate.
Utilizzo di dati strutturati: i dati strutturati possono essere utilizzati per automatizzare l'inserimento dei dati nei sistemi esistenti, come i software di contabilità. I dati pertinenti possono essere utilizzati in molti casi, ad esempio per monitorare la data della transazione nei registri finanziari e nella gestione delle spese. L'estrazione automatica dei dati dalle ricevute tramite LLM o API OCR per ricevute può ridurre gli errori e l'inserimento manuale, aumentando l'efficienza complessiva con un'elevata precisione.
È inoltre possibile consultare il nostro benchmark OCR per la scrittura a mano.
FAQ
La tecnologia OCR aiuta a monitorare le spese e a identificare i modelli di spesa. Le voci nella risposta JSON possono fornire informazioni chiave e contribuire a risparmiare tempo estraendo automaticamente il testo grezzo da documenti e fatture. Le aziende possono personalizzare un motore OCR in base alle esigenze del progetto. I numeri di identificazione fiscale di diversi paesi, come il numero di partita IVA e il codice identificativo aziendale australiano, possono essere estratti dalle ricevute.
Sii il primo a commentare
Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.