Main menu

Quelle est la forme des données… ?

retour

6/ Quelle est la forme des données et comment les interroger ?

Les données peuvent être accessibles sous forme :
– de banques de données,
– ou de tableurs.

Les bases de données peuvent être exploitées par des logiciels spécialisés regroupés en Système de Gestion de Bases de Données (SGBD) qui sont conçus et développés par des entreprises comme Oracle ou Microsoft.
Ces SGBD :
– installent physiquement les données dans les disques durs des serveurs,
– décrivent chaque donnée et son implantation pour constituer un répertoire des données,
– traduisent les demandes du journaliste dans des langages informatiques de classement et peuvent sélectionner certaines données pour mieux répondre à sa recherche,
– surveillent l’organisation des contenus pour les préserver des erreurs susceptibles d’intervenir dans le traitement.
Les SGBD sont des interrogateurs performants de données brutes.

L’interrogation des données peut s’effectuer en :
– langage SQL (Structured Query language) qui développe un raisonnement en trois points: « Quoi ? », « Où ? » et « Selon quels critères ? ». Il permet d’isoler des briques d’informations ou d’en associer certaines à d’autres.
– approche XML qui tient compte du fait que les données identiques peuvent être enregistrées sous des formes différentes d’une base à l’autre (« Bordeaux » et « 33000 » par exemple) en établissant des « balises »
– web sémantique ou web 3.0 qui ambitionne de multiplier des relations structurées entre toutes les bases de données du réseau mondial grâce à un système de métadonnées.
Une métadonnée est une donnée qui décrit une donnée (la dernière date de mise à jour, la granularité, le volume de la base, des mots-clés, etc.) Les métadonnées sont importantes parce qu’elles permettent de faire le lien entre ce qui est dispersé sur le web. Par exemple, quand on tape sur Google le nom d’un objet, la liste de sites proposés est déjà une source de métadonnées : titre, adresses, notations par exemple.
Mais les données sont aussi tout objet avec un contenant et un contenu. Une architecture et des valeurs.
Elles peuvent être :
– « relationnelles » avec des tables sur lesquelles un paramètre est signifiant et sur lesquelles on relie les tables avec des clés,
– ou « non relationnelles » qui travaillent plus sur des descriptions et permettent de gérer des données plus importantes.
Les archives de journaux sont des bases de données. Le fil twitter est une base de données. Un tableau Excell est une base de données.

Devant les données, le journaliste doit :
– vérifier les données,
– les filtrer et les simplifier en gardant ce qu’il y a de plus pertinent pour le public,
– se souvenir que corrélation et causalité ne sont pas la même chose,
– rester pérenne sur le long terme,
– favoriser les approches avec plusieurs variables
– rester modeste face à ses données : les données parfaites n’existent pas et il faut expliquer comment elles ont été construites.

retour