gImageReader – Da immagini e PDF a testo
Quante volte abbiamo avuto la necessità di ricopiare il testo presente in un’immagine o in un documento PDF e, non avendo alternative, siamo stati costretti a riscriverlo interamente? Ebbene un’alternativa a questo laborioso lavoro c’è e si chiama gImageReader. Esso non è altro che una GUI (interfaccia grafica) per tesseract-ocr, il famoso software gratutito di riconoscimento ottico dei caratteri. Tramite questo front-end grafico semplice ed intuitivo potremo, in pochi passi, ottenere un testo editabile e completamente gestibile.
Dal menù principale dovremo indicare la sorgente: un file già presente sul computer o una periferica di acquisizione che digitalizzerà il nostro documento cartaceo. Molto importante, in entrambi i casi, la scelta dei DPI, che influenzerà la qualità e la precisione del testo generato. Maggiori sono i DPI e maggiore sarà la “fedeltà” dell’output; di contro aumenterà anche il tempo di elaborazione, ma non è difficile trovare una via di mezzo.
gImageReader supporta molteplici lingue, dal Catalano al Giapponese, dall’Inglese al Cinese, dal Magiaro al Turco, al Portoghese, ecc…
Se il documento è di più pagine, sarà possibile anche indicarne solo alcune o determinati intervalli.
Infine gImageReader incorpora anche un mini editor di testo, tramite il quale potremo aggiungere e/o sostituire in automatico parti del testo.
Per quanto concerne l’installazione, come sempre, procediamo all’installazione delle dipendenze: gtk2 imagemagick pycairo pygtk python-imaging python2 python2-gtkspell python2-poppler python2-pyenchant tesseract, dopodichè passiamo al download ed all’installazione:
wget http://downloads.sourceforge.net/gimagereader/gimagereader-0.9.tar.gz
tar zxvf gimagereader-0.9.tar.gz
cd gimagereader-0.9
python2 setup.py install –prefix=/usr
N.B.: Sono presenti pacchetti precompilati in formato .deb ed RPM. Per gli utenti Archlinux, in AUR è presente il PKGBUILD.
| Stampa l'articolo | Questo articolo è stato pubblicato da ice il 8 settembre 2011 alle 16:20, ed è archiviato come Software. Puoi seguire i commenti a questo post attraverso RSS 2.0. Puoi pubblicare un commento o segnalare un trackback dal tuo sito. |










