Ocr per creare fogli elettronici con Abbyy Finereader OCR


Acquisizione testi Abbyy Finereader OCR programma per il riconoscimento ottico dei caratteri
OCR (Optical Character Recognition, ovvero riconoscimento ottico dei caratteri) godevano di una considerazione maggiore rispetto a quella attuale, poiché i documenti cartacei e le pubblicazioni erano una fonte di informazioni significativa e preponderante.

Con Internet e la distribuzione di informazioni in formato elettronico, tra cui il download di file PDF, è sempre meno sentita la necessità di lavorare con gli applicativi OCR e, a volte, non si presta sufficiente attenzione al rilascio di nuove versioni, caratterizzate da continui miglioramenti da parte dei produttori per soddisfare le esigenze anche dei mercati verticali.

Tra questa categoria di software, Abbyy FineReader OCR Professional, giunto alla settima release, è candidato a essere una delle soluzioni più interessanti e affidabili in questa fascia di prezzo. Nella maggior parte dei casi è possibile affidarsi al processo semiautomatico SCAN & READ, dove ogni fase viene presentata e assistita da menu con testo e procedure guidate. Si comincia con l’acquisizione del documento tramite scanner o utilizzando un file che ne contiene l’immagine, passando dall’interfaccia Twain della periferica o da quella di FineReader.



Nel primo caso si possono sfruttare le eventuali funzioni peculiari dello scanner, mentre nel secondo caso si ha un’interfaccia standardizzata e in italiano. I tempi di acquisizione dipendono dalle caratteristiche dello scanner e non dal programma, mentre la cattura di più pagine in sequenza avviene ripetendo il ciclo di acquisizione, riconoscimento e correzione, prima del salvataggio.

In questa modalità semiautomatica non è prevista l’acquisizione di pagine multiple prima che si possa procedere all’elaborazione.

Il documento acquisito appare nella finestra di sinistra dell’interfaccia e, durante la procedura di analisi e riconoscimento del testo, si può notare come le aree vengano evidenziate prima da un fondo azzurro e poi, in qualche punto da uno blu scuro. Nel primo caso si tratta di identificazioni andate a buon fine, mentre nel secondo caso il programma non è riuscito a trovare all’interno dei dizionari i vocaboli più adeguati.

Le parti grafiche e le tabelle dovrebbero essere trattate di conseguenza, ma nei casi più complessi, come immagini circondate da testo o tabelle con sfondi e grafica, il software può essere tratto in inganno e una precisione maggiore si ottiene intervenendo manualmente.

Il terzo passaggio riguarda la correzione del testo trattato: l’applicazione esordisce chiedendo all’utente se si notano numerosi o pochi errori. Nel primo caso si avvia una procedura per la risoluzione dei problemi, mentre se le inesattezze sono in quantità limitata si procede con la correzione manuale.

Nella finestra  di destra viene visualizzato il documento mantenendo al meglio il formato iniziale, con tanto di dimensione dei caratteri e utilizzo di  font di tipo Serif e Sans Serif per rispettare le caratteristiche dell’originale. Tutta la grafica riconosciuta viene inserita direttamente sulla pagina nelle posizioni originali, mentre il testo può scorrere in modo leggermente diverso in quanto FineReader riconosce i trattini di sillabazione e ricostruisce le parole intere.

Il quarto e ultimo passaggio, se non si sceglie di catturare ed elaborare altre pagine, è quello del salvataggio o dell’apertura e visualizzazione del documento all’interno di una delle applicazioni supportate. Scegliendo la prima opzione, si attiva la finestra per la definizione del nome e l’impostazione del formato, selezionando fra quelli di Office (Word, Excel e Power Point), RTF, testo normale o Unicode, HTML, DBF o CSV, Microsoft Word Xml e PDF.

Con la visualizzazione diretta, invece, viene aperto Word, Excel, Power Point o Internet Explorer per riprodurre il documento così come Fine-Reader lo ha ricostruito.



Da notare che in questo caso il file è di tipo temporaneo, ovvero non è stato ancora memorizzato sul disco fisso e chiudendolo si perdono le modifiche. Il salvataggio deve essere effettuato dall’apposita voce del menu di FineReader o dall’applicazione che lo sta visualizzando.