imagemagick | un coltellino svizzero per le immagini!

Imagemagick, una suite open source per la manipolazione di immagini (creazione, modifica, composizione, conversione,…) torna sempre utile!

Raggruppo qui alcuni semplici comandi indispensabili in operazioni che non svolgo abitualmente ma quando servono….:

Per ridimensionare tutte le immagini contenute in una directory utilizziamo il comando “mogrify” (che fa parte del pacchetto imagemagick).

– Ecco un esempio che mostra come ridurre del 50% le dimensioni di tutte le immagini contenute nella directory “image”.

$ mogrify -resize 50% *.JPG

Otterremo così tutte le immagini ridotte della metà (in termini di dimensioni width x height).

– Per ridimensionare una serie di immagini (in formato JPG per esempio) impostando solo la larghezza a 300 pixel (l’altezza viene adattata proporzionalmente):

$ mogrify -resize 300 *.JPG

– Se volessimo invece convertire una serie di immagine dal formato png al formato jpg:

$ mogrify -format jpg *.png

– Per ritagliare un’immagine si usa il tool “-crop“. Nell’esempio riportato sotto viene tagliata un’immagine con dimensione di ritaglio di 420×580 e con offset dai bordi sinistro e superiore rispettivamanete di 360 e 5 pixel.

$ convert nome_immagine.PNG -crop 420×580+360+5 nome_immagine_crop.PNG

Ecco uno schema dell’esempio:

immagine con misure (in pixel) del ritaglio. L’immagine originale era di 1158×583 pixel ed è stata ritagliata una porzione di 420×580 pixel

OCR con strumenti open source

Esistono strumenti open source per effettuare una ricognizione OCR di documenti. Ho provato il programma “tesseract“. E’ un programmino da riga di comando. Si installa via apt-get o synaptic. E’ necessario installare anche sane, sane-utils, imagemagick, unpaper, tesseract-ocr, e tesseract-ocr-eng oltre a tesseract-ocr-ita (per la lingua italiana).

Una volta installato effettuare la scansione della/e pagina/e volute (impostare una risoluzione di almeno 300 dpi per avere una buona qualità) quindi lanciare il programma, per es:

$ tesseract nome_file.tif nome_file_output -l ita

In questo modo viene processato il file nome_file.tif e viene prodotto in output nome_file_output.txt (l’estesnione .txt viene aggiunta dal software); il processamento avviene in lingua italiana. Possibilmente usare immagini in formato TIF.

Ottima questa guida in proposito.