DocHive, Software Libre para extraer datos de PDFs

pdfUn grupo de periodistas han anunciado el lanzamiento de DocHive, una innovadora solución de software libre para el problema que muchos escritores y periodistas tienen a la hora de obtener datos o imágenes de archivos PDF.

La solución permite convertir de forma fácil los datos en formato Hoja de Cálculo u otros medios diferentes.

El editor Charles Duncan Pardo y su equipo se encontraban a diario el típico problema que ocurre en muchas pequeñas salas de redacción; no disponen del personal suficiente para hacer la entrada de datos de cientos de páginas de información, ni el presupuesto para contratar a algún estudiante universitario que pueda hacerlo por ellos.

Así que Duncan creó junto con su hermano Edward -programador informático- una solución llamada DocHive. Esta herramienta utiliza XML para romper una página en pequeñas secciones, separando cada una en su propio archivo.

A continuación, se utiliza una tecnología de reconocimiento óptico de caracteres (OCR) para leer las palabras o los números e insertarlos en un archivo de texto.

DocHive será lanzado oficialmente el 28 de febrero. El código estará en GitHub y se creará un Wiki en el servidor para compartir plantillas y documentación. La elección de licencia de uso es lo que aún no se ha determinado.

Esta es sin duda una gran noticia para periodistas y escritores, que tendrán así una manera fácil y rápida de convertir los datos en información estructurada.

Fuente

Dejar un comentario?

1 Comentarios.

  1. Muy buena noticia, estaré atento a tu página para cuando publiques su lanzamiento y la forma de bajar la aplicación, es algo que necesito urgente.
    Gracias.

Deje un comentario


NOTA - Puede usar estosHTML tags and attributes:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>