Contattaci
Nessun risultato trovato.

Estrazione di documenti tramite agenti: LandingAI e altro ancora nel

Cem Dilmegani
Cem Dilmegani
aggiornato il Dic 4, 2025
Guarda il nostro norme etiche

L'estrazione automatica di documenti (ADE, Agentic Document Extraction) è una forma specializzata di riconoscimento ottico dei caratteri (OCR) che estrae dati da vari tipi di file. Combina l'elaborazione dei documenti, il recupero dei dati, la generazione di output strutturati e l'automazione per ottimizzare il lavoro basato sulla conoscenza.

ADE si distingue dall'OCR tradizionale per la sua capacità di riconoscere strutture di documenti complesse, come tabelle, diagrammi di flusso e immagini. Questo lo rende più avanzato rispetto ai metodi convenzionali di elaborazione dei documenti (IDP) e di generazione aumentata per il recupero (RAG).

Abbiamo testato i 5 migliori strumenti di estrazione di documenti basati su agenti utilizzando 60 immagini e ne abbiamo misurato le prestazioni con un punteggio composito, che include 3 parametri.

Risultati del benchmark per l'estrazione di documenti agenti

Il nostro test comparativo ha rivelato che LandingAI è lo strumento più efficace per l'estrazione di documenti tramite agenti, ottenendo un punteggio di 69 su 100.

Loading Chart

*L'estrazione di documenti tramite agenti predefinita di Docsumo non fornisce uno strumento per l'estrazione di diagrammi di flusso. Il prodotto può essere addestrato per vari processi di estrazione di documenti; tuttavia, il nostro benchmark si basa su modelli predefiniti. Pertanto, Docsumo non ha ottenuto punteggi migliori dall'estrazione di diagrammi di flusso.

Abbiamo valutato gli strumenti utilizzando tre metriche per la valutazione dei diagrammi di flusso e quattro metriche per la valutazione delle tabelle. I dettagli sono disponibili nella nostra metodologia di benchmarking per l'estrazione di documenti tramite agenti .

I 5 strumenti più popolari per l'estrazione di documenti tramite agenti

LandingAI

LandingAI ha abbandonato gli approcci tradizionali e ha utilizzato l'OCR in diversi ambiti. La loro elaborazione dei documenti non si limita a un solo tipo di estrazione dati. Affermano che il loro strumento di estrazione di documenti basato su agenti è in grado di estrarre immagini complesse e "riempire gli spazi vuoti" quando necessario. Lo strumento può essere utilizzato nella piattaforma di sviluppo di LandingAI o tramite chiamate API.

Caratteristica distintiva: è in grado di estrarre dati complessi e misti (testo e tabella sulla stessa pagina) senza richiedere alcuna istruzione.

Mistral OCR

Mistral AI ha introdotto Mistral OCR per migliorare la comprensione dei documenti. Questo strumento elabora con precisione una vasta gamma di elementi del documento, tra cui testo, tabelle e immagini, mantenendone la struttura e la gerarchia. Supporta diversi formati e fornisce i risultati in formato Markdown per una facile analisi e visualizzazione.

Caratteristica distintiva: è esplicitamente ottimizzato per le integrazioni multimodali di Retrieval-Augmented Generation (RAG) , preservando la struttura del documento con un output formattato in Markdown, ideale per i flussi di lavoro di intelligenza artificiale successivi.

Anthropic Claude Sonnet 3.7

Sonnet di Anthropic è un modello di intelligenza artificiale all'avanguardia con capacità di ragionamento ibrido, che gli consente di alternare risposte rapide e analisi approfondite e dettagliate. Questo modello può elaborare PDF fino a 100 pagine, analizzando sia il testo che gli elementi visivi, come immagini, grafici e diagrammi. La sua modalità di pensiero estesa è ideale per attività complesse di analisi di documenti, tra cui codifica e ragionamento matematico.

Caratteristica distintiva: supporta un ragionamento ibrido avanzato, che combina un'analisi a risposta rapida con una logica meticolosa passo-passo, risultando utile per una comprensione e un'estrazione complete da documenti di grandi dimensioni.

OpenAI o3-mini

Il modello di ragionamento OpenAI è economicamente vantaggioso e noto per la sua capacità di affrontare attività che richiedono la risoluzione di problemi passo dopo passo, come la programmazione e il ragionamento matematico. Consente il caricamento di file e immagini, migliorando le sue capacità di analisi dei documenti. Gli utenti hanno segnalato un'elaborazione OCR (riconoscimento ottico dei caratteri) di PDF efficace con o3-mini, sottolineando la sua capacità di estrarre sezioni rilevanti in base alle richieste dell'utente.

Caratteristica distintiva: Progettato specificamente come modello economicamente vantaggioso che privilegia il ragionamento iterativo e graduale, risultando particolarmente efficace nelle attività di estrazione di dati strutturati che coinvolgono flussi di lavoro logici o computazionali.

Docsumo

Docsumo offre una piattaforma intelligente per l'elaborazione dei documenti che include oltre 30 modelli di intelligenza artificiale pre-addestrati per l'estrazione di dati da diversi tipi di documenti, come estratti conto bancari e fatture. La piattaforma offre funzionalità quali classificazione automatica, analisi dei documenti, estrazione di metadati e opzioni di esportazione nei formati JSON, CSV ed Excel. Inoltre, Docsumo si integra con strumenti come Salesforce e QuickBooks, contribuendo a semplificare i flussi di lavoro e a migliorare l'efficienza.

Caratteristica distintiva: offre un training specializzato guidato dall'utente, che consente la creazione di modelli di estrazione AI personalizzati e adattati specificamente ai singoli set di dati.

Prezzi

Puoi visualizzare i prezzi degli strumenti che abbiamo esaminato. I software LLM operano con un modello di prezzo basato su API, che prevede diversi fattori da considerare, come ad esempio la distinzione tra input e output . Al contrario, gli strumenti OCR utilizzano in genere un modello di prezzo a consumo, calcolato per pagina. Per i nostri calcoli, abbiamo ipotizzato che ogni pagina contenga circa 600 token. Questa conversione è stata effettuata per garantire prezzi coerenti.

*Docsumo offre abbonamenti annuali con fatturazione mensile per un numero fisso di pagine all'anno.

Metodologia di riferimento ADE

Abbiamo raccolto il nostro dataset da dataset di Huggingface con un basso numero di download, in modo che le immagini che utilizziamo non siano già presenti nel set di addestramento di LLM. Abbiamo utilizzato 60 immagini, 30 delle quali contengono diagrammi di flusso di varia complessità.

Immagine 1. Un esempio di diagramma di flusso nel nostro set di dati.

I diagrammi di flusso sono stati caricati sugli strumenti come immagini PNG e gli output vengono acquisiti come file JSON. Abbiamo utilizzato 3 metriche per misurare le prestazioni:

  1. Accuratezza dei nodi : misura la proporzione di nodi reali (etichette/alias) menzionati nel testo estratto. Ad esempio, se i dati reali elencano 10 nodi e il modello ne identifica correttamente 8, l'accuratezza dei nodi è pari a 0,80 (80%).
  2. Accuratezza dei collegamenti: verifica se il testo estratto identifica correttamente le relazioni tra i nodi (ad esempio, "Nodo A → Nodo B"). Ad esempio, se ci sono 5 collegamenti reali e il testo del modello ne rivela correttamente solo 3, l'accuratezza dei collegamenti viene calcolata come 3/5 = 0,60 (60%).
  3. Accuratezza della decisione: Si tratta di un concetto simile all'accuratezza degli archi, ma applicato ai punti decisionali (ad esempio, diramazioni sì/no). Se ci sono quattro punti decisionali e il modello li identifica tutti e quattro, l'accuratezza della decisione è del 100%.

Il punteggio composito è la semplice media delle accuratezze di nodi, archi e decisioni, e fornisce una misura complessiva di quanto bene il testo estratto si allinei con tutti gli elementi del diagramma di flusso.

Il secondo set di dati contiene 30 immagini PNG con tabelle tratte da vari documenti di settore; l'elaborazione del set di dati è la stessa dei diagrammi di flusso.

Immagine 2. Un esempio di tabelle presenti nel nostro set di dati.

Nella nostra valutazione delle prestazioni di estrazione delle tabelle, abbiamo utilizzato quattro metriche chiave per valutare la fedeltà dei dati estratti rispetto alla verità di base. Queste metriche offrono informazioni dettagliate sui diversi componenti strutturali di una tabella, dai titoli alle singole celle.

  1. Accuratezza del titolo : valuta se il titolo estratto corrisponde al titolo reale dopo la normalizzazione (ad esempio, rimozione degli spazi bianchi, normalizzazione delle maiuscole/minuscole). Ciò garantisce la corretta identificazione dell'etichetta contestuale della tabella.
    Punteggio: Si tratta di una metrica binaria , in cui viene assegnato un punteggio di 1 per una corrispondenza esatta e 0 in caso contrario.
  2. Accuratezza delle intestazioni : le intestazioni rappresentano in genere i nomi delle colonne di una tabella. Questa metrica confronta l'elenco delle intestazioni estratte con i dati reali. Quantifica l'accuratezza con cui sono state acquisite le etichette delle colonne, inclusi il loro ordine e la loro completezza.
    Punteggio: l'accuratezza dell'intestazione viene calcolata confrontando ciascun elemento in entrambe le liste e calcolando il rapporto tra gli elementi corrispondenti e il numero massimo di elementi in ciascuna lista.
  3. Accuratezza delle righe : misura quante righe di verità di base sono presenti nella tabella estratta, indipendentemente dall'ordine. Questo valore riflette la completezza dell'estrazione dei dati a livello di riga.
    Punteggio: Per ogni riga nella verità di base, il valutatore verifica la presenza di una corrispondenza esatta nelle righe estratte. Il punteggio è la frazione di righe corrispondenti nella verità di base .
  4. Precisione delle celle : questa metrica fornisce un confronto dettagliato del contenuto della tabella valutando le corrispondenze delle singole celle. La precisione delle celle misura l'accuratezza dell'estrazione dei dati al livello più granulare.
    Punteggio: Conta il numero di celle corrispondenti tra le tabelle estratte e quelle di riferimento. Le celle in eccesso o mancanti vengono considerate come discrepanze. Il punteggio finale è il rapporto tra le celle corrispondenti e il numero totale di celle valutate .

Per fornire un singolo parametro riassuntivo, calcoliamo il punteggio medio della tabella come semplice media aritmetica dei quattro parametri: accuratezza del titolo, accuratezza dell'intestazione, accuratezza delle righe e accuratezza delle celle. Questa media fornisce una visione olistica della qualità dell'estrazione delle tabelle.

Che cos'è l'estrazione di documenti tramite agenti?

L'estrazione di documenti tramite agenti prevede l'utilizzo di agenti di intelligenza artificiale per identificare, interpretare ed estrarre autonomamente informazioni specifiche dai documenti, con un intervento umano minimo. A differenza dei metodi tradizionali, che spesso si basano su modelli rigidi o sull'etichettatura manuale, l'estrazione tramite agenti impiega sistemi intelligenti in grado di ragionare e adattarsi dinamicamente. Questo approccio migliora significativamente la velocità, l'accuratezza e l'efficienza dell'elaborazione di grandi volumi di documenti complessi.

Limitazioni dell'OCR tradizionale

La tecnologia OCR tradizionale è efficace per estrarre testo da documenti strutturati . Tuttavia, presenta notevoli difficoltà nell'elaborazione di documenti complessi, non strutturati o semi-strutturati. Le limitazioni più comuni includono imprecisioni causate da variazioni nei caratteri, nella scrittura a mano, da una scarsa qualità dell'immagine e da una formattazione incoerente. Inoltre,l'OCR tradizionale non possiede una comprensione contestuale , il che può portare a un'errata interpretazione dei dati. Di conseguenza, spesso è necessaria una revisione manuale o un'ampia post-elaborazione per correggere gli errori, creando inefficienze nel flusso di lavoro.

Casi d'uso dell'estrazione di documenti tramite agenti

L'estrazione di documenti tramite agenti (ADE, Agentic Document Extraction) è un concetto relativamente nuovo e, come tale, non esistono molti esempi concreti. Tuttavia, ha il potenziale per essere applicato in diversi ambiti. Abbiamo individuato quattro esempi in cui l'ADE può essere implementata direttamente per ottimizzare i processi rispetto ai metodi tradizionali di estrazione di documenti.

1. Servizi finanziari: elaborazione automatizzata delle fatture

Nel settore finanziario, le organizzazioni gestiscono quotidianamente un numero elevatissimo di fatture. L'estrazione automatizzata dei documenti da parte di Agentic acquisisce e convalida i dati delle fatture , garantendo accuratezza e conformità agli standard. Questa automazione accelera i cicli di pagamento, migliora la gestione del flusso di cassa e favorisce relazioni più solide con i fornitori.

2. Assistenza sanitaria: semplificazione dei moduli di ammissione dei pazienti

Gli operatori sanitari gestiscono numerosi moduli di anamnesi dei pazienti, la cui elaborazione manuale può richiedere molto tempo. L'estrazione automatica dei dati da questi moduli consente di acquisire informazioni in modo efficiente, facilitando l'inserimento dei pazienti e riducendo gli oneri amministrativi. Ciò migliora l'esperienza del paziente e permette al personale medico di concentrarsi maggiormente sulla cura .

3. Assistenza clienti: supporto tramite analisi documentale

I reparti di assistenza clienti gestiscono frequentemente richieste che includono documenti dettagliati, come contratti o accordi di servizio. L'estrazione automatica dei documenti consente di analizzare ed estrarre le sezioni rilevanti da questi documenti, permettendo agli operatori dell'assistenza di fornire risposte accurate e tempestive. Questa tecnologia migliora la qualità delle risposte e riduce il tempo che gli operatori dedicano alla ricerca di informazioni.

4. Assicurazioni: Elaborazione delle richieste di risarcimento assicurativo scritte a mano

Le compagnie assicurative ricevono spesso richieste di risarcimento scritte a mano che richiedono un'ampia elaborazione manuale. L'utilizzo di tecnologie avanzate di estrazione dati consente di interpretare con precisione il testo manoscritto , estrarre i dati rilevanti e integrarli nei sistemi digitali. Questo processo riduce significativamente sia i tempi di elaborazione che gli errori. Ad esempio, Appian offre soluzioni che automatizzano l'estrazione dei dati dalle richieste di risarcimento assicurativo scritte a mano, semplificando i flussi di lavoro e migliorando l'efficienza complessiva.

Ultimi progressi nell'estrazione di documenti tramite agenti

LandingAI DPT (Trasformatore pre-addestrato per documenti)

Il nuovo Document Pre-trained Transformer (DPT-2) di LandingAI rappresenta un significativo miglioramento nelle capacità di elaborazione dei documenti: 1

  • DPT-2 è specificamente progettato per estrarre dati con precisione da documenti complessi, concentrandosi su tabelle intricate, aspetto essenziale per applicazioni in ambito finanziario e medico.
  • Tabelle complesse senza griglia, celle unite e layout più elaborati sono tra gli elementi problematici dei documenti che il sistema aggiornato è in grado di gestire.
  • Secondo LandingAI, la loro tecnologia ADE ha ridotto i tempi di ricerca delle informazioni fino al 90% e ha elaborato miliardi di pagine.
  • Grazie al loro SDK, l'integrazione richiede solo tre righe di codice, semplificando notevolmente l'implementazione.
  • Tra le nuove funzionalità figurano la generazione automatica di didascalie per le tabelle, una migliore generazione di didascalie per le figure, un rilevamento del layout più intelligente e un'ontologia dei blocchi ampliata, in grado ora di identificare elementi come attestazioni, carte d'identità, loghi, codici a barre e codici QR.

Agente AI Composer di Extend

Composer, un agente di intelligenza artificiale creato appositamente per l'elaborazione di documenti, è stato lanciato da Extend. 2 Per migliorare la propria piattaforma di elaborazione documenti, Extend ha recentemente raccolto 17 milioni di dollari di finanziamenti. La loro soluzione combina i LLM con API avanzate per gli sviluppatori e strumenti intuitivi per gli utenti non tecnici. Evidenziano le funzionalità di Composer, tra cui:

  • Composer ottimizza automaticamente gli schemi di elaborazione dei documenti per raggiungere rapidamente un'elevata precisione.
  • Durante le prime fasi di beta testing, alcuni team hanno completato attività complesse di elaborazione documenti con una precisione del 99% in meno di 10 minuti.
  • Composer identifica le debolezze dello schema, raccomanda correzioni, esegue test in parallelo e mostra le differenze e i miglioramenti in termini di accuratezza, senza richiedere la regolazione manuale dei prompt.

Migliori pratiche per l'implementazione dell'estrazione di documenti tramite agenti

Nell'implementazione di Agentic Document Extraction, è fondamentale sfruttare efficacemente l'API per estrarre informazioni strutturate da documenti visivamente complessi. È importante utilizzare le funzionalità integrate degli strumenti preferiti per gestire gli errori in modo efficiente, inclusi i tentativi automatici per problemi di limitazione della frequenza e errori HTTP intermittenti.

Pratiche di configurazione e sicurezza

Una configurazione corretta e una gestione sicura delle credenziali sono fondamentali per un utilizzo affidabile e sicuro delle API:

  • Imposta in modo sicuro la tua chiave API come variabile d'ambiente oppure memorizzala all'interno di un file .env.
  • Utilizza l'oggetto Impostazioni della libreria per una gestione semplificata della configurazione.
  • Personalizza facilmente le opzioni di configurazione tramite variabili d'ambiente o file .env per migliorare flessibilità e sicurezza.

Queste pratiche proteggono i dati sensibili e contribuiscono a mantenere operazioni solide.

Gestione degli errori e ottimizzazione in ADE

Gli strumenti di estrazione documenti di Agentic offrono solide funzionalità di gestione degli errori per ottimizzare affidabilità e prestazioni:

  • Gestiscono automaticamente i limiti di frequenza e gli errori HTTP intermittenti tramite tentativi di ripetizione integrati.
  • Prevengono gli errori legati al limite di richieste attenendosi alle linee guida sull'utilizzo delle API.
  • La suddivisione di documenti PDF di grandi dimensioni in lotti gestibili migliora in modo efficiente la velocità e la stabilità dell'elaborazione.

Queste strategie riducono al minimo i tempi di inattività e garantiscono prestazioni ottimali, anche in condizioni difficili.

FAQ

L'estrazione di documenti tramite agenti è un approccio avanzato per estrarre dati strutturati da documenti, concentrandosi non solo sul contenuto testuale ma anche sulla comprensione di elementi visivi come grafici, tabelle, immagini e layout. A differenza dell'estrazione di testo tradizionale, che si basa sull'identificazione del testo in un formato lineare, l'estrazione di documenti tramite agenti considera il contesto visivo e la sua base visiva per fornire estrazioni più accurate. Interpreta sia il contenuto del documento originale che il suo layout, inclusi campi di input, campi modulo, riquadri di delimitazione e altri marcatori visivi. Questo approccio lo rende particolarmente utile per l'elaborazione di documenti multipli, come documenti di policy, report finanziari e moduli medici, che spesso contengono un mix di dati testuali e visivi. Il framework agentico consente l'estrazione di clausole chiave, tabelle, immagini e grafici, permettendo alle aziende di automatizzare i flussi di lavoro di intelligence documentale in modo più efficace.

Per integrare l'estrazione automatica di documenti nei vostri sistemi attuali, potete utilizzare l'API di estrazione automatica di documenti. Questa API offre un modo semplice per automatizzare l'estrazione di dati da vari tipi di documenti, inclusi file PDF, moduli medici e report finanziari. Ottenendo una chiave API, potete richiamare l'API per elaborare i documenti ed estrarre informazioni preziose come documenti lunghi, risultati di laboratorio e documenti di policy. L'API restituirà i dati estratti in un formato strutturato, come la rappresentazione Markdown, che include ID di blocco, campi del modulo e altri contesti rilevanti. Supporta l'elaborazione simultanea di più documenti, aiutando le aziende a semplificare i flussi di lavoro. Che si tratti di dettagli di account, tabelle o immagini, l'API è progettata per gestire layout di documenti complessi e adattarsi alle vostre esigenze. L'integrazione supporta anche la gestione dei log, consentendovi di monitorare le prestazioni e l'accuratezza dei processi di estrazione.

L'utilizzo dell'estrazione automatica di documenti per testi lunghi, come report finanziari o documenti normativi, offre numerosi vantaggi. Sfruttando gli elementi visivi e comprendendo il layout, l'estrazione automatica è in grado di analizzare con precisione documenti complessi che si estendono su più pagine, scomponendoli in dati strutturati. Ciò risulta particolarmente utile per i dati estratti che includono metriche finanziarie chiave, tabelle e grafici. I metodi tradizionali di estrazione del testo potrebbero avere difficoltà con questi formati, ma l'estrazione automatica di documenti è in grado di gestire le complessità del contesto visivo, consentendo di estrarre dati da più documenti contemporaneamente. Ad esempio, durante l'elaborazione di report finanziari, il sistema può identificare le clausole chiave e i campi di input rilevanti, garantendo un'estrazione accurata dei dati anche da documenti con formattazione complessa. Questo livello di precisione contribuisce a migliorare l'accuratezza e a ridurre il lavoro manuale, accelerando il processo decisionale e automatizzando i flussi di lavoro.

Per approfondire

Cem Dilmegani
Cem Dilmegani
Analista principale
Cem è analista principale presso AIMultiple dal 2017. AIMultiple fornisce informazioni a centinaia di migliaia di aziende (secondo SimilarWeb), tra cui il 55% delle aziende Fortune 500, ogni mese. Il lavoro di Cem è stato citato da importanti pubblicazioni globali come Business Insider, Forbes, Washington Post, società globali come Deloitte e HPE, ONG come il World Economic Forum e organizzazioni sovranazionali come la Commissione Europea. È possibile consultare l'elenco di altre aziende e risorse autorevoli che hanno citato AIMultiple. Nel corso della sua carriera, Cem ha lavorato come consulente tecnologico, responsabile acquisti tecnologici e imprenditore nel settore tecnologico. Ha fornito consulenza alle aziende sulle loro decisioni tecnologiche presso McKinsey & Company e Altman Solon per oltre un decennio. Ha anche pubblicato un report di McKinsey sulla digitalizzazione. Ha guidato la strategia tecnologica e gli acquisti di un'azienda di telecomunicazioni, riportando direttamente al CEO. Ha inoltre guidato la crescita commerciale dell'azienda deep tech Hypatos, che ha raggiunto un fatturato annuo ricorrente a 7 cifre e una valutazione a 9 cifre partendo da zero in soli 2 anni. Il lavoro di Cem in Hypatos è stato oggetto di articoli su importanti pubblicazioni tecnologiche come TechCrunch e Business Insider. Cem partecipa regolarmente come relatore a conferenze internazionali di settore. Si è laureato in ingegneria informatica presso l'Università di Bogazici e ha conseguito un MBA presso la Columbia Business School.
Visualizza il profilo completo

Sii il primo a commentare

Il tuo indirizzo email non verrà pubblicato. Tutti i campi sono obbligatori.

0/450