Extraer imágenes de un pdf a lo fácil

Introducción

Por cuestiones de organización, cuando presento un informe, y este es aprobado, normalmente, guardo únicamente el archivo pdf, del informe y le “código fuente del documento”, lo suelo borrar, y con él todas las fotografías, imágenes, hojas de cálculo, empleadas para redactar el informe, y que están contenidos en el propio documento. Normalmente las hojas de cálculo las suelo guardar, porque me llevan mucho trabajo, y suelen ser útiles en otras ocasiones. No así los documentos de texto, que normalmente no los podemos aprovechar de una ocasión a otra, y en el caso de necesidad siempre podemos copiar y pegar.

Pero no es la primera vez que me pasa, querer utilizar las fotografías de un PDF. Es normal, cuando preparas un informe sueles recurrir a las mejores fotografías e imágenes tomadas, y claro, lo mejor es recuperar esas imágenes del pdf, para tu nuevo informe. Siempre puedes recurrir al copiar y pegar, pero, por una lado pierdes calidad de la images, y por el otro, si se trata de un informe de muchas imágenes, esto es totalmente contraproducente. Hay una solución pdfimages.

pdfimages

Pdfimages es una herramienta de la línea de comandos, que te permite precisamente eso, extraer todas las imágenes de una archivo PDF, y guardarlas como archivos de tipo Portable Pixmap (PPM) Portable Bitmap (PBM) o archivos JPEG.

Instalación

Pdfimages, es una herramienta dentro del paquete poppler-utils, que se encuentra en los repositorios de Ubuntu, con lo que puedes instalarlo, o bien, haciendo clic en poppler-utils, o bien desde el terminal:

1
sudo apt-get install poppler-utils

Uso

La sintaxis de esta herramienta es:

1
pdfimages archivo.pdf directorio_de_salida

donde archivo.pdf es el fichero del que quieres extraer las imágenes y directorio_de_salida es el directorio donde quieres guardar las imágenes.

Las imágenes se guardan con el siguiente formato:

directorio_de_salida/directorio_de_salida-nnn.ext

Es curioso, pero se nombran con el mismo nombre del directorio en el que se extraen, un número consecutivo y la extensión. Por defecto .ppm, si se trata de imágenes en color, o pbm si son en grises. Si queremos que en lugar de estos formatos queremos que lo guarde en jpg, tendremos que utilizar la opción “-j”, de esta manera, las imágenes que estén en formato DCT, las extraerá en formato jpeg, y el resto en los formatos anteriores según sea en escala de grises o no:

1
pdfimages -j archivo.pdf directorio_de_salida

Por otro lado, si no queremos extraer imágenes de todo el documento, sino solo de las páginas de la 8 a la 15, por ejemplo, tendremos que utilizar el siguiente comando:

1
pdfimages -f primera_pagina -l last_pagina archivo.pdf directorio_de_salida

También, puede suceder que el documento esté protegido, o bien con algunas restricciones, para lo que tendremos que proporcionar la contraseña de propietario:

1
pdfimages -opw contraseña_de_propietario archivo.pdf directorio_de_salida

O bien, si el documento está protegido con una contraseña de usuario

1
pdfimages -upw contraseña_de_usuario archivo.pdf directorio_de_salida

Conclusiones

Desde luego, con la capacidad que tienen actualmente los discos duros, es muy absurdo, ir borrando los archivos originales, y el documento fuente, con el que preparo un informe. Tendré que organizar el asunto de otra manera, para evitar este tipo de problemas.

De cualquier forma, es una herramienta muy interesante, y que al menos me ha servido para sacarme de un par de apuros, hay que tenerla guardada en el cajón de las herramientas útiles, para sacarla cuando sea necesario.

Fuente

Dejar un comentario?

0 Comentarios.

Deje un comentario


NOTA - Puede usar estosHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>