Date With Data — Hackday

Mais um encontro Hacklaviva-Transparência com algum trabalho e realização do ponto de situação. E foram vários os pontos abordados.
No que se refere a actividade próxima, a presença no evento Future Places (de 12 a 16 de Outubro, Porto) ficará assinalada mais pela exposição do conceito do que propriamente pela apresentação de resultados. Contamos poder mostrar já alguns produtos como a visualização de profissões mas o forte vai incidir na explicação do projecto em si e na metodologia seguida.
Sobre o projecto propriamente dito, foram discutidos alguns aspectos que brevemente começarão a ter de ter contornos mais precisos. A questão do servidor com capacidade para processar pedidos vai ter de ser muito bem trabalhada. Também a disponibilização da BD, que numa primeira fase estará apenas acessível a poucos, em versão beta e para testes, será um ponto de honra. Vemos o tronco principal do projecto como a reunião e disponibilização dos dados de forma neutra e acrítica. Paralelamente, podem ser trabalhadas miniaplicações com selecção e análise de dados que visem pôr a descoberto facetas da realidade: aberrações, distorções, desequilíbrios nos padrões, que desmascarem situações de eventuais promiscuidades, falta de transparência, favorecimentos, etc. Assim, a recolha dos dados não deve visar pessoas em específico ou partir de pressupostos tidos como certos.
Para o interface, existem muitas possibilidades, entre as quais um simples motor de pesquisa à semelhança do Google, uma colecção de widgets com diferentes visualizações e tratamento dos dados. Este segundo modelo parece ser mais condizente com a natureza da equipa e o processo de trabalho implementado. O mais natural é cada pessoa ou pequeno grupo acrescentar uma solução que enriquece o conjunto, não ficando constrangido pelo ritmo de desenvolvimento dos demais nem pelas soluções tecnológicas adoptadas.
A propósito da frente de trabalho do Diário da República, agora numa fase de testes e correcção de bugs, discutiu-se a necessidade de começar a apostar com método na análise de temas e língua. Neste sentido, voltámos ao tema da criação de listagens prévias, espécie de índices, que possam ser contrastados com o texto extraído das sessões. A prioridade vai para uma lista de empresas, tendo para o efeito realizado contacto junto da Ansol e do projecto Transparência AP, no sentido de obter uma matriz que poderia abreviar o tempo de investigação. Caso não seja possível, existem as seguintes bases de recursos: base.gov.pt, INE, PorData (tem, contudo, ficheiros excel muito formatados).

Outra lista que é importante realizar é a dos nomes abreviados dos deputados, pois é por essa designação que são referidos nas sessões parlamentares. A Ana descobriu que na Wikipédia existe uma página dos deputados portugueses com nome completo e nome pelo qual são conhecidos. Recolher esses dados e eventualmente outros aí disponibilizados automaticamente seria óptimo. Nesse sentido, vai tentar usar a ferramenta Dapper.

Relativamente ao trabalho concretizado, o Bernardo prosseguiu a investigação em torno do modelo inglês. À semelhança do que acontece no RU com o País de Gales, Escócia e Irlanda do Norte, chamou a atenção para não ser esquecida a realidade dos parlamentos das regiões, cujas sessões estão também disponíveis.
O Ricardo esteve a corrigir bugs no script que faz o parsing dos ficheiros dos Diários da República e redigiu um excelente artigo a apelar à colaboração e à comunicação de erros. A Ana escreveu à Ansol e esteve com a Cláudia a fazer o levantamento de falhas nos ficheiros extraídos da BD, pois na importação dos .csv para o Drupal foram detectados pequenos erros que impedem que o parsing e a criação dos conteúdos saia perfeita. Listamos as falhas abaixo que decorrem dos ficheiros php resultantes das queries à BD (todas realizadas no dia 1o de setembro). O ficheiro mais explorado foi o da tabela MP.

ocorrência de quebras de linha a meio de uma linha de dados (geralmente entre os caracteres 68 e 73)
salto de linha no ficheiro informacaoDeputado.php (linha 3077 não existe!)
falta de normalização das profissões (género, maiúsculas/ minúsculas, texto descritivo irrelevante). Verificámos ainda que na importação por csv, usando a , (vírgula) como separador, quando existe referência a mais do que uma profissão, a pontuação usada é ; / e , Esta vírgula revelou-se fatal. Achámos que seria conveniente retirar toda e qualquer pontuação neste campo para não entrar em conflito com a pontuação do sistema.

O Victor ajudou na importação dos ficheiros .csv no Drupal e esteve a normalizar o ficheiro com todas as legislaturas e partidos (tabela Caucus) para aplicar a visualização em Drupal. Neste levantamento, necessitou de pesquisar informação sobre o número de deputados elegíveis para cada legislatura, porque os deputados eleitos são sempre em número superior. Esses dados encontrou-os no Portal do Cidadão e vão dar mais sentido ao que se visualiza.

Hackday – sessão #3

Quero ir!

Mapa

Onde