2016/05/12

OCR-La_letteratura_del_immagine

ENG
Spesso capita di avere pdf o gif con testo come immagine, scansioni di libri, contratti, ecc e si vorrebbe trasformarli in testo. Per questo esistono i sw chiamati ocr [octical charater reader] che interpretano i caratteri nelle immagini e lo traducono in testo.


Vediamo una soluzione in linux:-))((-:

installare tesseract-ocr tesseract-ocr-it tesseract-ocr-it-old gscan2pdf  e dipendenze


Per dipendenze potrebbero essere necessarie diversi fonts per il OS usato rilevati nel syslog. Verificare anche i dizionari disponibili nel sistema (-:





tesseract-ocr è il sw che interpreta, mentre tesseract-ocr-it è il dizionario applicativo per l'italiano. gscan2pdf è una interfaccia grafica che a dispetto del nome va bene per diversi formati.






i passaggi da fare sono:


- aprire il file immagine con gscan2pdf
- selezionare tutte le pagine da scasionare
- verificare che la selezione sia corretta per ogni pagina
- lanciare l'OCR selezionando il dizionario desiderato


- salvare il testo nel formato txt, dove lui genera un file html.
  correggere con una semplice mv .txt .html. Aprire il file con  un browser selezionare il testo. Salvare il testo con un editor come file.txt.




Personalmente consiglio di utilizzare file con non più di 20 pagine per volta altrimenti le operazioni sono troppo lunghe e potrebbero essere instabili.