Open Data Day Portugal 2016

por admin

Open Data Day Portugal 2016

No dia 5 de março juntámo-nos pela quinta vez às comemorações do Dia Mundial dos Dados Abertos. Foi um Date With Data especial, estruturado em duas partes: uma sessão prática durante a manhã, e uma sessão de apresentações e conversa durante a tarde. Entre atividades, aproveitámos para fazer pausas de café e partilhar um almoço com todos os participantes. Para fazer isto acontecer, tivemos o apoio precioso da Open Knowledge e do seu generoso programa de micro-bolsas, bem como da UPTEC que mais uma vez aceitou albergar as nossas aventuras.

ODD 2016 IMG_0189 ODD 2016 CIMG2889 ODD 2016 CIMG2868

Maratona de transcrição: English as she is spoke

Como sempre procurámos interessar-nos por tudo o que é livre e aberto, não nos ficamos pelas bases de dados; os livros e o conhecimento aberto são áreas que sempre gostámos e já algumas vezes trabalhámos. Assim, a proposta da manhã era arregaçar as mangas e trabalhar numa transcrição de uma obra no domínio público para, no final, re-publicá-la num formato aberto e estruturado.

A obra proposta foi o English As She Is Spoke, um guia de conversação português-inglês, escrito no séc. XIX por alguém que não tinha noção de inglês — o que o torna um artefacto divertidíssimo! Juntámo-nos e organizámo-nos para dividir tarefas e assumir a missão de transcrever cada página, sob a batuta do Jan Berkel, que tratou de montar toda a estrutura necessária para facilitar o nosso trabalho colaborativo. Ao longo da manhã, partilhámos dicas e frustrações num Piratepad coletivo, enquanto exercitámos furiosamente os teclados a transcrever traduções ridículas a partir das imagens do livro original, passando-as para o Wikisource.

ODD 2016 IMG_0195 ODD 2016 IMG_0197 ODD 2016 IMG_0201 ODD 2016 CIMG2882 ODD 2016 CIMG2884 ODD 2016 IMG_0203

No final da maratona, ainda há algumas páginas para libertar, mas a boa disposição estava manifesta pelas notas colocadas no Piratepad, e pelos risinhos intermitentes de cada vez que alguém encontrava uma tradução particularmente brilhante. Ainda assim, conseguimos transcrever por completo o capítulo sobre Idiotismos e Provérbios, mais de metade das páginas de vocabulário (as mais morosas) e fizemos revisão das páginas terminadas. Ficou no ar a vontade de repetir a dose para continuar o esforço de transcrever completamente este delicioso compêndio.

Os dados e o conhecimento aberto: Dados.gov.pt e Creative Commons

ODD 2016 CIMG2896

A tarde guardava-nos um momento de partilha e conversa, tornada especialmente esclarecedora pela generosa presença de dois convidados que vieram de Lisboa para se juntarem ao Open Data Day: André Lapa e Teresa Nobre.

ODD 2016 IMG_0219 ODD 2016 IMG_0215 ODD 2016 CIMG2901

A seguir a uma breve explicação do que significa isso do aberto, recorrendo à Open Definition, tomou a palavra o primeiro convidado da tarde — André Lapa, representante da Agência de Modernização Administrativa (AMA), a entidade responsável pelo precioso portal de dados públicos Dados.gov.pt.

A missão da AMA, no que toca aos dados públicos, é conseguir navegar os silos da administração pública para obter, limpar e publicar inúmeros datasets sob licenças abertas. São dados de todo o género sobre as várias facetas do país, desde informação estatística até resultados eleitorais. Foram-nos mostrados os vários obstáculos encontrados neste esforço de tornar a informação pública legível e reutilizável.

André Lapa trouxe-nos também um vislumbre dos planos para um Dados.gov.pt 2.0: feito em código 100% aberto, será um portal orientado para a interoperabilidade com as plataformas de instituições europeias; há também a vontade de integrar um dos desenvolvimentos mais promissores dos últimos anos no meio dos dados abertos: linked data! É um tema que já tínhamos aflorado no Open Data Day 2015 e que procura alcançar uma organização semântica das várias bases de dados, permitindo a construção de ferramentas poderosas que permitam determinar relações entre várias fontes de informação.

A intervenção ainda nos guardou novidades como o lançamento do novo Portal de dados de Saúde e a preparação de mais portais sectoriais de Dados Abertos.

ODD 2016 IMG_0217

Nesse momento a palavra passou para Teresa Nobre, representante da Creative Commons Portugal, que nos veio iluminar sobre os complicadíssimos pormenores do direito de autor que rodeiam o tema dos dados abertos.

Foi articulada a forma como o direito de autor protege ou não os dados e as bases de dados. Fez-se a distinção entre um facto — que não é, em si, protegido pelo direito de autor — e uma apresentação, selecção ou organização de factos. O direito de autor protege expressões criativas, pelo que uma determinada apresentação de dados (e.g. um diagrama, um mapa, uma tabela) ou uma determinada compilação de dados podem estar protegidas por direito de autor. Nesse caso, os meros factos e informações que estão contidos nessa apresentação ou compilação permanecem livres, ie. qualquer pessoa pode utilizá-los desde que os apresente sob uma forma diferente. Só assim não será se os dados estiverem contidos numa base de dados protegida pelo direito sui generis do produtor da base de dados. Este — previsto numa diretiva europeia criada para defender o investimento substancial (quantitativo ou qualitativo) dos produtores de datasets na obtenção, verificação ou apresentação dos dados — confere ao seu titular o poder de impedir que pessoas não autorizadas extraiam ou reutilizem a totalidade ou uma parte substancial dos conteúdos das bases de dados.

Existem critérios específicos que determinam quais bases de dados podem estar protegidas por este direito sui generis, e muitas vezes só em tribunal se consegue esclarecer se uma certa base de dados é abrangida ou não.

Este direito não impede a extracção ou reutilização de partes não substanciais; apenas impede a extracção/reutilização de partes substanciais. Por outro lado, existem também excepções a este direito, por via das quais é possível extrair ou reutilizar uma parte substancial do conteúdo da base de dados para determinados fins (didáticos, científicos, e privados — mas neste último caso apenas quanto a bases de dados não electrónicas). Nesta altura, algumas pessoas do público mostraram curiosidade sobre os pormenores — e se fôssemos juntando partes não substanciais para re-construir o dataset? E se fossem pessoas diferentes a obter cada parte? Foi esclarecido que o direito impede a extracção/reutilização sistemáticas de partes não substanciais.

Ficou também claro que se encontrarmos online um dataset contendo informação pública, não significa que possamos presumir que seja aberto — só se a sua licença de uso o deixar evidente. E não existem formas simples de interpretar à cláusula do uso não substancial: a noção de substancial não está claramente definida!

ODD 2016 CIMG2894 ODD 2016 IMG_0212 ODD 2016 CIMG2900 ODD 2016 IMG_0208

Um exemplo positivo de licenças explicitamente abertas é precisamente o Dados.gov.pt, que publica os seus datasets segundo licenças Creative Commons Atribuição (BY).

Ainda houve tempo para aflorar assuntos como os direitos morais, a partilha de ficheiros, as licenças Creative Commons Zero, e a existência de licenças Creative Commons que não são abertas, como é o caso das que incluem a cláusula NonCommercial.

As intervenções foram curtas para amplificarmos o espaço de conversa, e do público vieram imediatamente questões. Apareceu o tema do uso justo (Fair Use) e das diferenças entre o modelo norte-americano e o europeu; os direitos morais e a sua interação com as licenças Creative Commons; ou qual a melhor forma de contribuir para os esforços da AMA.

Aproximámo-nos do final com uma última pergunta: que tácticas e métodos podemos usar para conseguir explicar de uma forma simples a importância da partilha de dados públicos?

Teresa Nobre articulou a estratégia utilizada para convencer entidades de arquivo como os museus ou bibliotecas a abrirem as suas colecções (a discussão, nesses casos, em que as obras contidas nas colecções foram criadas por outros, que não as próprias entidades, passa por sensibilizar as entidades para o facto de não lhes caber a elas controlar os usos que possam ser feitas das obras, uma vez caídas no domínio público); no entanto, este argumento não pode ser utilizado quando estamos a falar de obras ainda não caídas no domínio público. Há grandes obstáculos em conseguir convencer outras entidades a abrir as suas bases de dados, bem como sensibilizá-las para as implicações do direito de autor. E no caso dos dados é um desafio maior, já que não é suficiente uma publicação parcial.

André Lapa defendeu o recurso ao argumento cívico e de transparência: os dados públicos precisam de estar disponíveis porque é um direito dos cidadãos. Muitas vezes as instituições não sabem os dados que têm, ou a importância e potencial que a partilha desses dados pode ter. E enfatizou o fator humano: importa contactar as instituições e explicar para que se pretende usar os dados; com exemplos concretos é bem mais fácil. Foi ainda mencionada uma lista de argumentos a favor e contra os dados abertos presente na Wikipédia.

ODD 2016 CIMG2908

Depois de uma pausa focámos dois projectos da Open Knowledge: a School of Data, apresentada pela Marta Pinto, e o Global Open Data Index, apresentado pela Ana Isabel Carvalho e Ricardo Lafuente. Ambos os projetos são direccionados para a o envolvimento e participação da sociedade civil no movimento pelos dados abertos. A School of Data assume um papel educativo, fornecendo tutoriais e materiais sobre ferramentas para trabalhar com dados e suas aplicações. O Global Open Data Index é um indicador anual do estado dos dados abertos em cada país, a nível mundial. Este esforço visa promover a revisão dos datasets públicos que deveriam estar disponíveis e publicados, segundo os crítérios rigorosos da definição de dados abertos.

ODD 2016 IMG_0222

Terminado o plano de atividades, fechámos o Open Data Day com mais um longo momento de conversa, bolachas, networking e boa disposição. Já a pensar no ODD2017, voltaremos a encontrar-nos no próximo Date With Data, no dia 9 de abril!

Fotografias de Luís Oliveira, Ana Carvalho e Ricardo Lafuente.


Open Data Day Portugal 2016

On March 5th, we got together for the fifth time to join the global commemorations of the Open Data Day. We hosted a special Date With Data event, divided into two moments: a practical session in the morning, and a talks and debates session in the afternoon. Between activities, we made the most of coffee breaks and shared a lunch among all participants. In order to make this happen, we benefitted from the precious support of Open Knowledge and their generous micro-grant program, as well as UPTEC who, once again, had their doors open to host the Open Data Day activities.

Transcriptathon: English As She Is Spoke

Since we were always interested in anything that's free and open, we're not always tinkering with databases: books and open knowledge are fields which we love and have explored previously. Our proposal for the morning was thus a hands-on moment to work on transcribing a public domain work in order to re-publish it in an open and structured format.

The proposed work was English As She Is Spoke, a Portuguese-English conversation guide written in the 19th century by someone who had no knowledge of English — which could only make it an hilarious artifact. We got together and organised ourselves to assign tasks and take on the mission to transcribe each page, headed by Jan Berkel who had already taken up the effort to set up all the necessary structure to facilitate collaborative endeavours. During the morning, we shared tips and frustrations inside a collective Piratepad, while our keyboards took a beating as we transcribed ridiculous translations from the original book scans, placing them on Wikisource.

At the end of the transcriptathon, we're still some pages to go, but the good mood was demonstrated in the silly notes peppered in the Piratepad, and intermittent giggles were regularly heard when someone had found a particularly brilliant translation. Still, we managed to completely transcribe the chapter on Idiotisms and Proverbs, along with more than half of the vocabulary pages (the hardest) and we revised completed pages. There was a clear collective intent to go for it again and finish the effort of transcribing this wonderful tome.

Open data and open knowledge: Dados.gov.pt and Creative Commons

For the afternoon, we had set up a moment for sharing and talking, made especially enlightening by the generous presence of two guests who came all the way from Lisbon to join us: André Lapa and Teresa Nobre.

After a brief explanation about the meaning of open and the Open Definition, the mic was passed to our first guest: André Lapa, representing the Agency for Administrative Modernisation (AMA), the entity responsible for the official Portuguese public data portal, Dados.gov.pt.

AMA's mission when it comes to public data is to navigate the silos of public administration in order to obtain, clean and publish several datasets under open licenses. At Dados.gov.pt, we can find data related to many facets of the country, from statistical information to electoral results. Many of the obstacles found in this effort of liberating public information were explained, as well as the importance of providing information in a way that makes it readily legible and reusable.

André Lapa also gave us a peek at the future plans for Dados.gov.pt 2.0: completely based on free and open source code, it will be a portal guided towards interoperability with European data platforms; there is also the intent to integrate one of the most promising developments in data technology in recent years: linked data! It's a subject that we had already approached in Open Data Day 2015 and which aims to reach a semantic organisation of many distinct datasets, allowing for the development of powerful tools that can establish relationships between many different data sources.

It wouldn't be over before a few interesting bits of news, such as the launch of the new Health Data Portal and the preparation of more domain-specific Open Data portals.

The mic then switched over to Teresa Nobre, representative of Creative Commons Portugal, who came to enlighten us about the complicated details of copyright in open data.

We got started with the ways that copyright can or cannot protect data and databases. There is a clear distinction between a fact — which isn't by itself protectable by copyright — and a presentation, selection or compilation of facts. Copyright protects creative expression, so a specific organisation of data (e.g. diagrams, maps, tables) can be subject to copyright protection. In that case, simple facts and information inside that presentation remain free and reusable, as long as the reuse is materialised in a different form or shape. However, it's an altogether different situation if the data are contained in a database protected by the sui generis database right. This right gives the rightholder the power to stop unauthorised people from extracting or reusing the full or partial contents of the database in question.

There exist specific criteria to determine which databases can be protected by this database right; since they're not clearly defined, in many cases one would require the opinion of a court to be sure of whether a specific database is covered by this right or not.

The database right does not prevent the extraction or reuse of non-substantial parts of the database. On the other hand, there also exist exceptions to this right in which reuse is permitted (e.g. education or science). At this point, there was interest from the audience in the details — what if we put together non-substantial parts in order to rebuild the dataset? What if different people would acquire different parts?

It was clear that the database right does not allow for this kind of loophole. It was also clarified that if we find a dataset containing public information, it doesn't mean we can safely presume it is open — only if its usage license makes that evident. And there aren't simple ways to interpret the non-substantial use clause: the notion of "substantial" is not strictly defined!

A great example of explicitly open licensing is indeed Dados.gov.pt, who publish their datasets under Creative Commons Attribution licenses (CC-BY).

There was still time to approach issues like moral rights, file sharing, CC Zero licenses and the existence of non-open Creative Commons licenses, such as the ones with the NonCommercial clause.

The talks were kept short in order to maximise the space for debate, and questions started flowing from the audience. We touched the subjects of fair use and the differences between the USA and European models; moral rights and how they interact with CC licenses; and the best ways to contribute to AMA's efforts.

We got closer to the end with a last question: which tactics and methods can we use in order to effectively and concisely explain the importance of public data sharing?

Teresa Nobre articulated the strategy used to convince archiving entities such as museums or libraries to open their collections, the main argument being that they don't control the works in public domain. However, it's harder when addressing works not yet in the public domain. There are many obstacles involved in persuading other entities to open their databases, as well as getting them to understand the intricacies of copyright. And in the case of data it's an even bigger challenge, since publishing only parts of the data is not enough.

André Lapa put forward a defense of the civic and transparency arguments: public data needs to be available because it's a citizen right. Often, institutions do not even know the data that they own, or the importante and potential that sharing this data can have. He also emphasised the human factor: one should endeavour to contact institutions and explain the purpose for reusing their data; with specific use cases, it's much easier to convince them.

After a break, we looked into two projects by Open Knowledge: Marta Pinto showcased School of Data, while Ana Isabel Carvalho and Ricardo Lafuente presented the Global Open Data Index. Both projects are geared towards involvement and participation from civil society in the open data movement. School of Data has an educational role, providing tutorials and resources for working with data and building effective projects. The Global Open Data Index is an annual indicator of the state of open public data in each country worldwide. This effort aims to promote awareness of missing key datasets in each country, according to the strict guidelines of the Open Definition.

With the day programme wrapped up, we closed the Open Data Day festivities with another long moment of conversation, cookies, networking and positive mood. Already thinking of ODD2017, we'll see each other again in the next Date With Data event, on April 9th!

Photos by Luís Oliveira, Ana Carvalho e Ricardo Lafuente.

Quero ir!

Os nossos encontros são marcados ao segundo sábado de cada mês, no CRU Cowork.

Das 10:00 às 17:00, com pausa para almoço entre às 13:00 e as 14:00!

Temos internet, projetor, whiteboards e alguns comes e bebes. Traz o teu portátil e outros acessórios que possam dar jeito para hackarmos em conjunto.

Onde

CRU Cowork
Rua do Rosário 211
4050-524 Porto

Segue-nos para ficares a par das novidades:

Organização

Transparência Hackday Portugal
Open Knowledge Portugal

Apoio

UPTEC