OCR Riconoscimento ottico dei caratteri

Come avviene con altri OCR, FineReader permette di creare file PDF abbastanza particolari: al posto del solo documento ricostruito nel modo più fedele possibile, è infatti possibile avere l’immagine con il testo posizionato sopra o sotto. Grazie a questo accorgimento, il documento può essere archiviato in sistemi di amministrazione dei documenti che operano ricerche sul contenuto, oppure può essere utilizzato per copiare e incollare parti di testo.

È interessante notare che il programma prevede il formato PDF anche come sorgente per la gestione di file contenenti l’immagine bitmap generata con la scansione di una o più pagine.

Ma FineReader può gestire PDF contenenti testo e immagini in layout più complessi, per esempio scaricati da Internet, utilizzando una particolare versione di Ghostscript per generare una bitmap che verrà elaborata dal motore OCR. Si tratta di una scappatoia per superare gli eventuali blocchi inseriti nel PDF originale per impedire la copia del testo o la stampa. Documenti puliti In modalità “fai da te”, FineReader offre la possibilità di gestire direttamente il layout del documento e la sequenza delle colonne in cui è distribuito il testo. Così facendo si possono risparmiare molte correzioni e si ottiene in documento finale più pulito.

I parametri a disposizione sono numerosi e prevedono anche la selezione della lingua del dizionario, scegliendo tra le 122 disponibili, che salgono a 177 complessive dopo il processo di attivazione gratuita.

Per espandere ulteriormente le capacità di riconoscimento del software, Abbyy ha inserito anche dizionari medici e legali per l’inglese e il tedesco ed è possibile creare vocabolari o espandere quelli esistenti attraverso il processo di correzione delle parole. I dizionari sono fondamentali per perfezionare l’accuratezza del software, poiché vengono utilizzati per individuare i vocaboli acquisiti tramite il motore OCR e quindi inseriti all’interno del documento digitalizzato.

Bisogna ammettere che FineReader dispone di un assortimento invidiabile di lingue, e tutti gli idiomi vengono trattati in modo tutt’altro che superficiale. Solo l’italiano può contare su un file con dimensioni di poco inferiori a 3 MB, contenente lemmi e altre informazioni linguistiche, che assicura risultati di rilievo testimoniati dalla bassa incidenza di errori nelle parole riconosciute.

Utilizzare Ocr FineReader per trascrizioni Word

La presenza del formato XML per Word consente a FineReader di salvarli utilizzando questa estensione affinché il word processor possa riconoscere al loro interno i testi e le immagini sfruttando appieno le potenzialità dell’ultima suite di Microsoft. Perciò si possono usare gli strumenti di Word per correggere e verificare i testi conservando la possibilità di confrontare l’immagine acquisita in fase di OCR per un immediato riscontro.

I tempi di riconoscimento, considerando la potenza degli attuali PC, sono anch’essi diventati molto vicini e decisamente ridotti, mentre con arie prove si riescono ancora a trovare delle differenze nell’accuratezza.

FineReader riconosce meglio le parole, con un minor tasso di errori e incertezze, mentre sul formato c’è ancora spazio per migliorare, soprattutto a livello di gestione della sequenza dei blocchi di testo. Un po’ di confusione è imputabile al numero di idiomi gestiti e quelli per cui è effettuata l’effettiva correzione ortografica.

Le lingue trattabili sono 177 in totale, includendo anche quelle con caratteri cirillici disponibili dopo l’attivazione del programma, ma i controlli ortografici avvengono solo su 34 di queste, e ciò va tenuto in considerazione se si deve usare il prodotto per acquisire documenti in qualche lingua riconosciuta ma per cui non è prevista la revisione del testo

OCR Iris Readiris