Decifrando o Diário da Assembleia da República

por ricardo

Decifrando o Diário da Assembleia da República

Um dos trabalhos que estamos a desenvolver no Transparência Hackday é o processamento do Diário da Assembleia da República.

Estamos, para já, a concentrar-nos na 1ª série do documento, que junta as transcrições de todas as sessões parlamentares desde 1998. Esta informação é um tesouro para cruzar informações e fazer vir ao de cima várias particularidades -- desde temas que foram discutidos, até expressões comuns. Queremos torná-la acessível através de uma base de dados simples, onde possamos cruzar as intervenções com as informações dos deputados.

O primeiro problema é que toda esta informação está disponível apenas em formato PDF no site do Parlamento, e não há forma de descarregar tudo de uma vez. Para isso, usámos a extensão DownThemAll para o Mozilla Firefox de forma a poder baixar todos os links PDF que encontramos em cada página.

A partir daí, passámos a converter os ficheiros PDF para ficheiros de texto, com recurso ao comando pdf2txt (incluído na package poppler-utils no Ubuntu).

Depois, fizemos um script em Python para analisar os ficheiros que obtivemos, e criar um ficheiro CSV onde esteja identificado o orador, partido e o conteúdo de cada intervenção.

O script pode ser encontrado no repositório do Transparência aqui.

Já existe um conjunto dos ficheiros CSV disponível aqui. Existirão ainda muitas inconsistências e erros na análise automática dos dados, já que ainda não testámos extensivamente os resultados -- testámos apenas com alguns documentos da XI Legislatura, por isso será aí o melhor sítio para começar. (Se nos quiseres ajudar, avisa-nos dos erros que encontrares nos ficheiros no bug tracker do Transparência.)

Agora o nosso esforço vai ser afinar pormenores no script de análise, ir actualizando o nosso arquivo de CSV's, e começar a fazer cruzamento de informação, bem como pensar em formas de análise linguística destes conteúdos.

Quero ir!

Os nossos encontros são marcados ao segundo sábado de cada mês, no CRU Cowork.

Das 10:00 às 17:00, com pausa para almoço entre às 13:00 e as 14:00!

Temos internet, projetor, whiteboards e alguns comes e bebes. Traz o teu portátil e outros acessórios que possam dar jeito para hackarmos em conjunto.

Onde

CRU Cowork
Rua do Rosário 211
4050-524 Porto

Segue-nos para ficares a par das novidades:

Organização

Transparência Hackday Portugal
Open Knowledge Portugal

Apoio

UPTEC