Convertir archivos PDF a HTML manteniendo el formato con pdf2htmlEX

Introducción

De forma habitual, siempre que envío un documento vía correo electrónico lo hago en formato PDF, aunque lo acompañe del archivo original para su modificación. Esto lo hago por dos motivos, por un lado, para que el receptor pueda imprimir el archivo como yo lo he creado, y por otro lado, para asegurarme, que aunque modifique el archivo, siempre tiene el documento de partida que le remití.

Sin embargo, en ocasiones es necesario tener el archivo también en otros formatos además de PDF, aunque solo te lo envíen en este formato. Ya sea porque no dispones de un visor adecuado, o bien porque quieres mostrarlo en una página web…, como es el caso que nos ocupa.

La herramienta que quiero presentar es pdf2htmlEX, y precisamente hace lo que he comentado, convertir archivos PDF a html, pero de una forma particular…

0025_Selecciónpdf2htmlEX

pdf2htmlEX es una utilidad para ejecutar desde el terminal, que renderiza archivos PDF en html, pero procurando que el archivo generado mantenga el formato del archivo original lo mas fielmente posible. De esta forma, esta utilidad, esta especialmente pensada y diseñada para archivos PDF de texto, sobre todo para documentos científicos con complicadas fórmulas y figuras.

Solo tienes que visitar estos dos ejemplos Typography y
Formulas. En cuyo segundo caso, da un resultado verdaderamente impresionante:

0022_SelecciónEl texto, las fuentes y los formatos se conservan de forma nativa en html, de forma que tu puedes buscar y copiar. El archivo html generado es estático y sin ningún script. De esta manera, puedes incluir en un sitio web la renderización del archivo PDF sin necesidad de incluir complementos a tu gestor de contenidos, ya sea WordPress, Drupal, Joomla, o el que sea que utilices.

Instalación

Esta utilidad no está disponible en el Centro de Software de Ubuntu, pero lo puedes instalar para Oneiric, Precise y Quantal, añadiendo el siguiente repositorio, actualizando e instalando:

sudo add-apt-repository ppa:coolwanglu/pdf2htmlex && sudo apt-get update && sudo apt-get install pdf2htmlex

Si estás utilizando ya Raring, y quieres instalar esta herramienta, puedes descargar el paquete debian para 32 bits o para 64 bits

Comparando

He realizado varias pruebas para ver que tal se comportaba esta herramienta, y lo cierto es que hay momentos en que es difícil discernir entre cual es el renderizado por Firefox, y cual es el renderizado por esta aplicación: Sin nombre Más información | pdf2htmlEX

Fuente

Dejar un comentario?

1 Comentarios.

  1. Hey there! I understand this is somewhat off-topic however I had to ask.
    Does managing a well-established website like yours require
    a lot of work? I’m completely new to running a blog
    however I do write in my journal every day. I’d like to start a blog
    so I can easily share my personal experience and views online.
    Please let me know if you have any ideas or tips for new aspiring bloggers.
    Thankyou!

Deje un comentario


NOTA - Puede usar estosHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>