OCR con strumenti open source

Esistono strumenti open source per effettuare una ricognizione OCR di documenti. Ho provato il programma “tesseract“. E’ un programmino da riga di comando. Si installa via apt-get o synaptic. E’ necessario installare anche sane, sane-utils, imagemagick, unpaper, tesseract-ocr, e tesseract-ocr-eng oltre a tesseract-ocr-ita (per la lingua italiana).

Una volta installato effettuare la scansione della/e pagina/e volute (impostare una risoluzione di almeno 300 dpi per avere una buona qualità) quindi lanciare il programma, per es:

$ tesseract nome_file.tif nome_file_output -l ita

In questo modo viene processato il file nome_file.tif e viene prodotto in output nome_file_output.txt (l’estesnione .txt viene aggiunta dal software); il processamento avviene in lingua italiana. Possibilmente usare immagini in formato TIF.

Ottima questa guida in proposito.