Quante volte abbiamo avuto la necessità di ricopiare il testo presente in un’immagine o in un documento PDF e, non avendo alternative, siamo stati costretti a riscriverlo interamente? Ebbene un’alternativa a questo laborioso lavoro c’è e si chiama gImageReader. Esso non è altro che una GUI (interfaccia grafica) per tesseract-ocr, il famoso software gratutito di riconoscimento ottico dei caratteri. Tramite questo front-end grafico semplice ed intuitivo potremo, in pochi passi, ottenere un testo editabile e completamente gestibile.

Dal menù principale dovremo indicare la sorgente: un file già presente sul computer o una periferica di acquisizione che digitalizzerà il nostro documento cartaceo. Molto importante, in entrambi i casi, la scelta dei DPI, che influenzerà la qualità e la precisione del testo generato. Maggiori sono i DPI e maggiore sarà la “fedeltà” dell’output; di contro aumenterà anche il tempo di elaborazione, ma non è difficile trovare una via di mezzo.

gImageReader supporta molteplici lingue, dal Catalano al Giapponese, dall’Inglese al Cinese, dal Magiaro al Turco, al Portoghese, ecc…

Se il documento è di più pagine, sarà possibile anche indicarne solo alcune o determinati intervalli.

Infine gImageReader incorpora anche un mini editor di testo, tramite il quale potremo aggiungere e/o sostituire in automatico parti del testo.

Per quanto concerne l’installazione, come sempre, procediamo all’installazione delle dipendenze: gtk2 imagemagick pycairo pygtk python-imaging python2 python2-gtkspell python2-poppler python2-pyenchant tesseract, dopodichè passiamo al download ed all’installazione:

wget http://downloads.sourceforge.net/gimagereader/gimagereader-0.9.tar.gz
tar zxvf gimagereader-0.9.tar.gz
cd gimagereader-0.9
python2 setup.py install –prefix=/usr

N.B.: Sono presenti pacchetti precompilati in formato .deb ed RPM. Per gli utenti Archlinux, in AUR è presente il PKGBUILD.

Riferimento Sourceforge.net - Home Progetto