Knight Center
Knight Center

Blog PERIODISMO EN LAS AMERICAS

5 herramientas digitales para extraer datos de archivos PDF protegidos



Periodistas e investigadores a menudo se encuentran con datos «protegidos» en archivos PDF (Portable Document Format). Este formato representa una pesadilla para quienes necesitan manipular y cruzar grandes volúmenes de información, pues funciona como una imagen y no se deja editar fácilmente.

Extraer datos de archivos PDF, para utilizarlos libremente, no es una tarea sencilla y requiere paciencia, como lo muestra Jeremy B. Merrill, reportero de la organización estadounidense Pro Publica, en su relato sobre el proyecto "Dollars for Docs". El Centro Knight consultó a programadores y especialistas en periodismo de datos, entre ellos Simon Rogers, ex-editor del Datablog del diario The Guardian, y enumeró algunas de las herramientas gratuitas usadas por ellos para facilitar la conversión de documentos PDF en archivos de formato abierto, como tablas en CSV.

Vale la pena recordar que ningún convertidor es completamente fiable. Eso es debido a que el PDF puede guardar información escaneada (que exige otro tipo de conversión, con OCR), tablas complejas (con filas o columnas que abarcan varias celdas), y tablas con gráficos, en resumen, distintos factores que dificultan el correcto formateado del archivo convertido.

Rogers aconseja revisar si hubo cambios en la estructura del documento que puedan invalidar sus datos. Según el periodista, la mejor manera de hacer esto es chequear aleatoriamente los datos del archivo convertido para ver si son los mismos del original. Y no se engañe, casi siempre la conversión automática de un archivo, especialmente si se trata de una tabla, exigirá algún tipo de limpieza antes de poder utilizar la información.

1. Cometdocs

En cuestión de minutos y unos pocos clics podrá convertir su archivo PDF en XLS (Excel), ODS, TXT y otros formatos - el servicio trabaja con más de 50 formatos diferentes! Para eso no es necesario ingresar al sitio web, pero si tener una cuenta de acceso a otras funcionalidades, para el almacenamiento y/o descarga directa del archivo convertido.

Cargue el archivo que quiere convertir - hasta 100 MB -, escoja el formato e incluya su dirección de correo electrónico. También puede compartir documentos de manera anónima (haga clic aquí para ver cómo).

2. Zamzar

La interfaz es tan simple como la de Cometdocs. Basta subir el archivo y recibirá la nueva versión por correo electrónico. Pero hay una advertencia: al convertir archivos PDF de varias páginas en formatos de hojas de cálculo, los datos son separados en tablas, haciendo que el trabajo de limpieza y organización sea aún mayor.

3. Nitro PDF to Excel

De acuerdo con Rogers este programa convierte archivos PDF en hojas de cálculo (Excel). Aunque se trata de un servicio pago, ofrece algunas funciones gratuitas. Funciona de la misma manera que Zamzar y Comedots, pero es especializado en convertir archivos para Excel.

4. PDFtoText

PDFtoText es gratuito y de código abierto, y hace un trabajo óptimo y rápido con tablas bien delimitadas. Sin embargo, no funciona muy bien para documentos con múltiples encabezados y diseños complejos. El periodista Jeff Porter, de Investigative Reporters and Editor (IRE), escribió un manual detallado sobre el uso de este programa.

5. Tabula

Creada por un grupo de periodistas y desarrolladores de Pro Publica y ganadores de la beca Knight-Mozilla Fellowship, esta herramienta fue lanzada en abril de este año, Tabula es una aplicación gratuita y de código abierto que le permite a los usuarios subir sus archivos y seleccionar las tablar que deseas convertir a CSV (vea una demostración). Hace un buen trabajo incluso con tablas que tengan gráficas. El principal obstáculo de este servicio es su instalación, la cual no es simple para la mayoría de los usuarios (vea el manual de instalación). Sin embargo, sus desarrolladores prometen hacer algunos cambios para simplificar su uso.

* Ley de Acceso a la Información

Bueno, no es exactamente una herramienta, pero es una forma de obtener datos gubernamentales abiertos, especialmente en países cuya ley de acceso a la información requiere que los datos sean publicados en "formatos legibles y a máquina", como Brasil.



3 comments

 
Alex wrote 1 año 13 semanas ago

Dividir un PDF en varias páginas asignándoles un nombre puntual

Hola a todos:
Estoy buscando algún utilitario que no sólo me permita dividir un PDF en varias hojas sino que, al generar el nombre de los PDF resultantes, permita darles un nombre con uno de los datos que contiene el PDF. Por ejemplo: el codigo de legajo.

Saben si existe alguna aplicación que permita esto?
Muchas Gracias.

Alex

 
Liria wrote 4 años 30 semanas ago

Se agradece

Escelente post, gracias por compartirlo. Saludos.

 
Guest wrote 4 años 32 semanas ago

comentario

Pero no comentron en ninguno cundo tiene password con eos s que hacemos????

Enviar un comentario nuevo

El contenido de este campo se mantiene privado y no se mostrará públicamente.
By submitting this form, you accept the Mollom privacy policy.


Boletín





Por favor, suscríbase a nuestro boletín semana.

Nombre Completo

Email *
Elija el boletín al que se desea suscribir:
Boletim Semanal (Português)

Boletín Semanal (Español)

Weekly Newsletter (English)
email marketing
by activecampaign

Facebook

Comentarios recientes