OCR Riconoscimento ottico dei caratteri


OCRCome avviene con altri OCR, FineReader  permette di creare file PDF abbastanza particolari: al posto del solo documento ricostruito nel modo più  fedele possibile, è infatti possibile avere l’immagine con il testo posizionato sopra o sotto. Grazie a questo accorgimento, il documento può essere archiviato in sistemi di amministrazione dei  documenti che operano ricerche sul contenuto, oppure può essere utilizzato per copiare e incollare parti di testo.

 È interessante notare che il programma prevede il formato PDF anche come sorgente per la gestione di file contenenti l’immagine bitmap generata  con la scansione di una o più pagine.

Ma FineReader può gestire PDF contenenti testo e immagini in layout più complessi, per esempio scaricati da Internet, utilizzando una particolare  versione di Ghostscript per generare una bitmap che verrà elaborata dal  motore OCR. Si tratta di una scappatoia per superare gli eventuali blocchi inseriti nel PDF originale per impedire  la copia del testo o la stampa. Documenti puliti In modalità “fai da te”, FineReader offre la possibilità di gestire direttamente il layout del documento e la  sequenza delle colonne in cui è distribuito  il testo. Così facendo si possono  risparmiare molte correzioni e si ottiene in documento finale più pulito.

I parametri a disposizione sono numerosi e prevedono anche la selezione della lingua del dizionario, scegliendo tra le 122  disponibili, che salgono a 177 complessive dopo il processo di attivazione gratuita.

Per espandere ulteriormente le capacità di riconoscimento del software, Abbyy ha inserito anche dizionari medici e legali per l’inglese e il tedesco ed è possibile creare vocabolari o espandere quelli esistenti attraverso il  processo di correzione delle parole. I dizionari sono fondamentali per  perfezionare l’accuratezza del software,  poiché vengono utilizzati per individuare i vocaboli acquisiti tramite il  motore OCR e quindi inseriti all’interno del documento digitalizzato.

Bisogna  ammettere che FineReader dispone  di un assortimento invidiabile di lingue,  e tutti gli idiomi vengono trattati in modo tutt’altro che superficiale. Solo l’italiano può contare su un file con  dimensioni di poco inferiori a 3 MB, contenente lemmi e altre informazioni linguistiche, che assicura risultati di  rilievo testimoniati dalla bassa incidenza di errori nelle parole riconosciute.

Utilizzare Ocr FineReader  per trascrizioni Word

La presenza del formato XML per Word consente a FineReader di salvarli utilizzando questa estensione affinché il word processor possa riconoscere al loro interno i testi e le immagini sfruttando appieno le potenzialità  dell’ultima suite di Microsoft. Perciò si possono usare gli strumenti di Word per correggere e verificare i testi conservando la possibilità di confrontare l’immagine acquisita in fase di OCR per un immediato riscontro.


I tempi di riconoscimento, considerando la potenza degli attuali PC, sono anch’essi diventati molto vicini e decisamente ridotti, mentre con arie prove si riescono ancora a trovare delle differenze nell’accuratezza.

 FineReader riconosce meglio le parole, con un minor tasso di errori e incertezze, mentre sul formato c’è ancora spazio per migliorare, soprattutto  a livello di gestione della sequenza dei blocchi di testo. Un po’ di confusione  è imputabile al numero di idiomi gestiti e quelli per cui è effettuata l’effettiva correzione  ortografica.

Le lingue trattabili sono 177 in totale, includendo anche quelle con caratteri cirillici disponibili dopo l’attivazione del programma, ma i controlli ortografici  avvengono solo su 34 di queste, e ciò va tenuto in considerazione se si deve usare il prodotto per acquisire documenti in qualche lingua riconosciuta ma per cui non è prevista la revisione del testo

 

OCR Iris Readiris