Knight Center
Knight Center

Blog JORNALISMO NAS AMERICAS

5 ferramentas digitais para extrair dados "fechados" em PDFs



Jornalistas e pesquisadores costumam se deparar, mais frequentemente do que gostariam, com dados "fechados" em arquivos Adobe Acrobat PDF (Portable Document Format). O formato é o pesadelo de quem quer manusear e cruzar grandes quantidades de informações, pois funciona como uma imagem e não é legível por programas de computador. 

Extrair dados de PDFs para usá-los livremente não é tarefa simples e exige paciência, como mostra o repórter da organização americana Pro Publica Jeremy B. Merrill ao contar os bastidores do projeto "Dollars for Docs". O Centro Knight consultou programadores e especialistas em jornalismo de dados, inclusive o ex-editor do Guardian Datablog, Simon Rogers, e listou algumas das ferramentas gratuitas indicadas por eles para facilitar a conversão dos abominados PDFs em arquivos de formato aberto, a exemplo das tabelas em CSV.

Nunca é demais lembrar que nenhum conversor é totalmente confiável. Isso porque o PDF pode guardar informações escaneadas (que exigem outro tipo de conversão, com OCR), tabelas complexas (com linhas ou colunas abrangendo várias células) ou sem linhas gráficas, em resumo, distintos padrões que dificultam a formatação correta do arquivo convertido.

Rogers aconselha a sempre observar se houve mudanças na estrutura do documento que possam invalidar seus dados. Segundo o jornalista, a melhor forma de fazer isso é checar aleatoriamente os dados do arquivo convertido para ver se equivalem aos do original. E, não se engane, quase sempre a conversão automática de um arquivo, especialmente se for uma tabela, vai demandar alguma limpeza para deixá-lo pronto para uso.

1. Cometdocs

Em questão de minutos e poucos cliques dá para transformar seu PDF em XLS (Excel), ODS, TXT ou muitos outros formatos - o serviço trabalha com mais de 50 diferentes! Para isso não é necessário fazer login no site, mas ter uma conta dá acesso a outras funcionalidades, como o armazenamento e o download direto do arquivo convertido.

Faça o upload do arquivo - de até 100MB, um tamanho bastante razoável - que deseja converter, escolha o formato e inclua o seu e-mail. Não demora muito para ele chegar convertido na sua caixa de entrada. Também dá para compartilhar documentos anonimamente (veja aqui como).

2. Zamzar

A interface é tão simples quanto a do Cometdocs. Basta carregar um arquivo e receber a nova versão por e-mail. Mas cabe uma advertência: ao converter PDFs de várias páginas em formatos de planilhas eletrônicas, os dados de páginas diferentes são separados em tabelas diferentes, tornando o trabalho de limpeza e organização dos dados ainda maior.

3. Nitro PDF to Excel

Esta é a indicação de Rogers para converter PDFs em planilhas de Excel. Embora seja um serviço pago, oferece algumas funcionalidades gratuitas. Funciona da mesma forma que o Zamzar e o Comedots, a partir de uploads de arquivos que depois são enviados no formato desejado para o e-mail do usuário, mas este é especializado em converter para Excel.

4. PDFtoText

O PDFtoText é gratuito e open-source e faz um ótimo e rápido trabalho com tabelas bem delimitadas. Contudo, não costuma ter respostas brilhantes para documentos com vários cabeçalhos e layouts complexos. O jornalista Jeff Porter, do Investigative Reporters and Editor (IRE), escreveu um manual detalhado de como usar o aplicativo.

5. Tabula

Criado por um grupo de jornalistas e desenvolvedores do Pro Publica e da Knight-Mozilla Fellowship e lançado no início de abril deste ano, o Tabula é um aplicativo livre e de código aberto que permite aos usuários carregar seus arquivos e selecionar as tabelas que desejam extrair do PDF e transformar em CSV (veja uma demonstração). Faz um bom trabalho inclusive com tabelas sem linhas gráficas. O maior obstáculo desse serviço é sua instalação, não muito simples para usuários pouco entendidos em programação (a instalação é manual). Mas seus desenvolvedores prometem mudanças que vão simplificar seu uso, então vale incluir o Tabula na sua lista de ferramentas digitais e acompanhar sua evolução.

*Lei de Acesso à Informação

Bom, não é exatamente uma ferramenta, mas não deixa de ser uma forma de obter dados governamentais abertos, especialmente em países cuja lei de acesso à informação exige que os dados sejam publicados em "formatos legíveis por máquina", como o Brasil. Fazer pedidos de acesso também ajuda a criar nos órgãos que detêm os dados a cultura de disponibilizá-los em formato e licença não restritivos.




Assine nossa newsletter semanal “Jornalismo nas Américas”

Boletim Semanal (Português)
Boletín Semanal (Español)
Weekly Newsletter (English)
 
Marketing by ActiveCampaign

Facebook