buy lasix http://all-treatment.org/buy-levitra-vardenafil/ http://all-treatment.org/buy-viagra-sildenafil-citrat/ isotretinoin online buy cialis online
26 set. 2009

Com recuperar el text d’un llibre escanejat

Author: Joaquim Perez Noguer | Filed under: Gimp, Linux

Fa poc vaig voler traduir un llibre francès de poques pàgines al català
utilitzant un traductor automàtic. El llibre en qüestió era un manual
d’ús de la panificadora Cuisichef. Una panificadora que només es va
vendre a França i de la qual no n’he sabut trobar el manual en cap
altre idioma que no fos el francès.

En tot l’important no és que tenia un fitxer PDF amb imatges
escanejades del manual en francès i que el volia traduir al català. Per
fer-ho el procés a seguir és el següent:

  1. Convertir les imatges escanejades del PDF a imatges .BMP amb el Gimp.
  2. Convertir les imatges .BMP a text amb el programa OCR tesseract.
  3. Traduir el text amb l’ajuda d’un traductor francés -> català d’Internet.

El Gimp 2.6 pot llegir fitxers PDF i convertir-los en imatges. Per
fer-ho només cal dir al Gimp que obri el fitxer PDF i indicar-li amb
quina resolució. Com més resolució la qualitat de la imatge és més
bona, però ocupa més espai de memòria. El valor predeterminat és 100
píxels per polzada, però aquest valor no és suficient per a l’OCR, cal
una resolució de 400 per anar bé.    Al Gimp obrirà les pàgines del PDF
en finestres separades, però se li pot dir que només obri una única
pàgina i d’aquesta manera no es tenen tantes finestres molestant. Un
cop fet això, cal convertir la imatge a escala de grisos, des del menú ImatgeMode.
Si la imatge no és text només sinó que conté dibuixos, taules o
decoracions, aleshores caldrà esborrar-les totes, amb la goma
d’esborrar fins que només quedi el text. El màxim que es permet són
línies horitzontals, però les verticals cal eliminar-les totes, per
tant molt de compte amb les taules. I per acabar cal desar la imatge en
format BMP, per a fer-ho cal desar-la amb qualsevol nom però acabat amb
.bmp .

De programes d’OCR per a Linux n’hi ha diversos, ocrad, clara, tesseract,
… cada un té les seves característiques, uns volen la imatge en
format .PNM, d’altres amb .PBM i d’altres amb .BMP. Jo vaig utilitzar
tesseract perquè en una comparativa el van deixar força bé. Per
instal·lar-ho vaig buscar al Synaptic tesseract-fra, que tenia
el diccionari francès que em feia falta, però al synaptic també podeu
trobar-lo pera a altres idiomes. Per executar-lo cal anar a la consola
de comandes i escriure   tesseract  pag1.bmp  pag1  -l fra . Fent això s’obtindrà un fitxer de text amb el nom pag1.txt .

Finalment un cop es tenen tots els fragments traduïts aleshores cal ajuntar-los en un únic fitxer de text  ( cat pag1.txt  pag2.txt pag3.txt > resultat.txt ). Aleshores ja es pot anar a qualsevol servei de traducció a internet, l’opentrad, el de google, el de la generalitat, …



Leave a Reply