Main menu

Septembre 2011

Septembre 2011

On y voit un peu plus clair : première note de synthèse.
Début de délimitation d’un « process » du data journalisme :
– Compiler
– Trier la somme gigantesque de données disponibles : tableur / il faut connaître le contexte pour comprendre quels documents sont intéressants (documentation et enquêtes).
– Organiser
les données pertinentes et non pertinentes
– Traduire
la donnée brute en statistiques et selon différentes unités de valeur pour les comparer. recalculer si nécessaire
– Analyser
les données, donner du sens, dénicher l’information. évaluer la pertinence du résultat obtenu.
– Publier
la donnée rendue informative par le travail graphique

Questions à se poser face aux données :
– Quoi de neuf et d’intéressant à partir de ces données ?
– Quel autre jeu de donnée associer aux données que je possède pour donner du sens ou soulever une problématique ?
– Quelle histoire je veux raconter ? Délivre-t-on la donnée brute ou mise en forme graphiquement ?

Compétences requises repérées à ce stade :
– graphistes / designer
– statisticiens : les erreurs sont légions et tout le monde ne maîtrise pas les calculs de probabilité ou les statistiques.
– développeurs
– chef de projet

Outils repérés :
– Free Viz Tools
– Google Fusion Table : https://www.google.com/accounts/ServiceLogin?service=fusiontables&continue=http://www.google.com/fusiontables/Home&followup=http://www.google.com/fusiontables/HomeUpload small or large data sets from spreadsheets or CSV files. Visualize your data on maps, timelines and charts.
– many eyes
– Google Charts
– Timetric
– OutWit Hub
– Google Maps : API Google de création de cartes
– DocumentCloud : http://www.documentcloud.org/home« turn document into data »
– Google Refine
http://code.google.com/p/google-refine/ a power tool for working with messy data, cleaning it up, transforming it from one format into another, extending it with web services, and linking it to databases like Freebase.

Les limites du data journalisme :
– toutes les données ne valent pas le coût de la visualisation : beaucoup demeurent peu intéressantes
– quand il est difficile de les comparer à d’autres jeux de données (qui ne prennent pas en compte les mêmes ensembles de données) et parce que les jeux de données libérés sont largement incomplets pour créer des statistiques intéressantes.

L’avant projet de cours pour les étudiants de l’IJBA évolue et l’organisation du Lab à l’IJBA prend forme.

Compétences nécessaires repérées à ce stade : un développeur ou spécialiste « outils » ; des intervenants ressources en cartographie et en statistiques, un webdesigner.

A AEC aussi les acteurs impliqués dans le projet travaillent :en lien avec dynamique Open data lab et ateliers « open data bar » de l’auberge numérique, il parait nécessaire d’organiser une « veille sur les jeux de données libérés et réutilisables » concernant l’Aquitaine et d’ imaginer des jeux de données nouveaux à créer dans la perspective d’une application ou d’une data-visualisation :
– Suzanne Galy constitue et met à jour un tableur Google entre acteurs de l’open data lab et l’ ijba >> Nom du jeu de données + date de publication + lien
– détenteurs potentiels repérés : CUB, CG33, CRA, SIAD, PIGMA (si libérables), Raudin, CRT (si libérables), GPV rive droite, Lyonnaise des eaux.
– Proposition de constitution d’un réseau de « veilleurs-relais ».
Un déjeuner est organisé avec un développeur : Thomas Parisot  thomas@cyneticmonkey.com pour mieux cerner les différents stades d’interventions des acteurs/compétences requises pour la production de data visualisations.

Thomas Parisot a suivi, dès son démarrage, le programme aquitain d’ouverture des données publiques (décembre 2010 – Assises au Conseil régional d’Aquitaine), en partenariat avec la Fing et AEC. Il a participé aux ateliers de créativité initiés par la CUB (Cité Labo) en amont de l’ouverture de ses données publiques (définition des « domaines » prioritaires, anticipation d’innovations de services, etc.) animés par la Fing (Sylvain Maire). Depuis, il a imaginé et présenté un à plusieurs projets innovants (« GPS déroutant ») pour web et mobile réutilisant des jeux de données publiques.

Résumé des échanges :
Thomas Parisot encourage une rencontre dès le démarrage de l’expérimentation (janvier) entre les étudiants journalistes et les « libérateurs » de données publics (prévu), sous l’angle technique et « métier » : « à quoi ces données servent-elles au sein de la collectivité et pourquoi ils ont choisi de les libérer »

Pascal Romain (CG33) : p.romain@cg33.fr
Frédéric Théodore (CUB) :
ftheodore@cu-bordeaux.fr

Le rôle du développeur dans un projet de data journalisme :
– il développe l’interface de visualisation à partir de la donnée recueillie (fichier excel ou PDF, donnée géographique, etc. aux formats XML, txt, GTFS, Csv, Wfs, Shp, etc.), en étroite collaboration avec le journaliste qui lui a indiqué au préalable les jeux de données qu’il souhaite exploiter.
– En amont, le journaliste a analysé la donnée brute, l’a interprétée, a croisé divers jeux de données.

CQFD : A ce stade, déjà, le journaliste doit pouvoir solliciter des « experts métiers » pour l’analyse des jeux de données bruts et envisager des exploitations éditoriales et techniques possibles : développeur, statisticien, cartographe, etc. (reste à définir ce etc.)
– Etape finale, un web designer apporte la dimension « esthétique » à l’outil de visualisation conçu par le développeur.

Les outils utilisés par le développeur « open data » :
– Pour filtrer et trier la donnée brute : par exemple, il s’agit de pouvoir extraire un ou plusieurs « critères » ou « type de donnée » inclus dans un jeu de données (Google Fusion Table)
– Utiliser ou développer des programmes et applications pour la visualisation des données (cartes, graphiques, etc.) sous des formes « dynamiques » (créer une arborescence, des modules interactifs).