Um dos trabalhos que estamos a desenvolver no Transparência Hackday é o processamento do Diário da Assembleia da República.
Estamos, para já, a concentrar-nos na 1ª série do documento, que junta as transcrições de todas as sessões parlamentares desde 1998. Esta informação é um tesouro para cruzar informações e fazer vir ao de cima várias particularidades -- desde temas que foram discutidos, até expressões comuns. Queremos torná-la acessível através de uma base de dados simples, onde possamos cruzar as intervenções com as informações dos deputados.
O primeiro problema é que toda esta informação está disponível apenas em formato PDF no site do Parlamento, e não há forma de descarregar tudo de uma vez. Para isso, usámos a extensão DownThemAll para o Mozilla Firefox de forma a poder baixar todos os links PDF que encontramos em cada página.
A partir daí, passámos a converter os ficheiros PDF para ficheiros de texto, com recurso ao comando pdf2txt (incluído na package poppler-utils no Ubuntu).
Depois, fizemos um script em Python para analisar os ficheiros que obtivemos, e criar um ficheiro CSV onde esteja identificado o orador, partido e o conteúdo de cada intervenção.
O script pode ser encontrado no repositório do Transparência aqui.
Já existe um conjunto dos ficheiros CSV disponível aqui. Existirão ainda muitas inconsistências e erros na análise automática dos dados, já que ainda não testámos extensivamente os resultados -- testámos apenas com alguns documentos da XI Legislatura, por isso será aí o melhor sítio para começar. (Se nos quiseres ajudar, avisa-nos dos erros que encontrares nos ficheiros no bug tracker do Transparência.)
Agora o nosso esforço vai ser afinar pormenores no script de análise, ir actualizando o nosso arquivo de CSV's, e começar a fazer cruzamento de informação, bem como pensar em formas de análise linguística destes conteúdos.