Main menu

Ce qu'ils savent / What they know

Ce qu’ils savent / What they know

http://blogs.wsj.com/wtk/

Description de la production
Les annonceurs espionnent les utilisateurs d’internet, observent et mémorisent les clics des internautes, construisent et vendent des dossiers détaillés de leurs activités et de leurs centres d’intérêts. La série « Ce qu’ils savent – What they know* » du Wall Street Journal analyse les pratiques de cette nouvelle manière de traquer et de collecter des données sur internet.

Le journal a analysé les fichiers espions, installés sur les ordinateurs par les cinquante sites internet américains les plus consultés, y compris celui du Wall Street Journal. Grâce à la production proposée par le WSJ, les internautes peuvent connaitre leur degré d’exposition sur certains sites, l’importance des flux de données personnelles captées puis redistribuées par ces sites, ainsi que le nom des bénéficiaires qui récupèrent et utilisent ces informations personnelles.

*(La série « What They Know » a remporté le Prix Geralt Loeb Award 2011 qui récompense la meilleure production journalistique économique de l’année).

Méthode de réalisation de la production
Sélection des 50 sites internet américains les plus visités d’après un classement établi par Media Metri ComScore selon un rapport d’octobre 2009.

Identification des 3 types de fichiers espions utilisés par ces sites internet pour traquer les informations des internautes :
HTML cookies : petits textes installés par un site sur votre ordi qui leur permet de vous « marquer » et de suivre vos mouvements sur un site.
Flash cookies : utilisés en lien avec Adobe Flash Player, permet diffuser un graphique ou une video
Beacons : codes de données sur les recherches d’un internaute : les informations donnés aux sites web (ex: pour un achat en ligne, le site retiendra les éléments mis dans votre panier)

Analyse des données collectées par les sites internet
Ashkan Soltani, chercheur et consultant spécialisé en technologie employé par le Wall Street journal pour mener l’expérience navigue sur le web. Il va sur l’un des sites retenus et visite 20 pages. Avant chaque nouvelle navigation sur un site, il efface dans son navigateur toutes les données relatives à sa vie privée qu’enregistre un site web. Pour les Beacons, aucun fichier n’étant visible sur l’ordinateur, le consultant utilise donc un programme : Ghostery, qui permet de les comptabiliser. En parallèle, un autre logiciel est conçu par le WSJ pour que ses lecteurs puissent évaluer eux-mêmes le nombre de données collectées sur d’autres sites.

Traitement des données
Un score final a ainsi été établi pour les sites qui ont été classés entre :
– sites qui utilisent le tracking de manière automatique
– ceux qui nécessitent un accord de l’internaute pour l’installation de cookies
– ceux qui conservent les informations anonymes
– ceux qui mentionnent la durée de conservation de ces données et leur contenu

Création de la visualisation
Après une analyse statistique, les 50 sites sont regroupés par caractéristiques et présentés dans un module circulaire, sous la forme d’une bulle ou d’une pelote qui résume toutes les données que le WSJ à pu se procurer.

Fonctionnement de l’animation
Un code couleur rouge est attribué aux sites internet qui collectent des informations pendant la navigation. Leur taille et leur intensité de couleur varie selon l’importance des données récupérées et selon l’exposition à la collecte de données.

Ces blocs de rouge sont reliés par ces arcs de couleurs. Chaque arc correspondant à un type de tracker (cookie, flash cookie, beacons…) Leur largeur est aussi proportionnelle à l’importance du flux de données perçues.

L’éventail gris, en bas du module circulaire, correspond lui aux « Watchers » : les sociétés qui récupèrent et utilisent les données personnelles.

Du côté des auteurs
D’après une synthèse  des interviews de 3 membres ayant participés au projet (Sarah Tobin, Chef du projet / D’Andrew Garcia Philipps, Rédacteur et Scott Thurm, Statisticien) plusieurs caractéristiques ont été relevés :

– Difficulté de retranscrire graphiquement des données nombreuses et complexes pour toucher un public le plus large possible. Problématique dans le choix du visuel ou comment rendre attractif une telle somme de données.
– Importance du travail d’équipe et de la cohésion entre les différents corps de métier pour mener à bien le projet (Designers, éditeurs, journalistes, statisticiens, développeurs…)
– L’apparition de nouvelles techniques et de nouvelles compétences pour mener à bien ce projet comme le « CAR Journalism » et le « Structural Journalism » soit le journalisme assisté par ordinateur.
– Des Compétences basiques en traitement de données doivent faire partie de la formation des journalistes pour éviter la manipulation par les chiffres et comprendre des tendances à partir de données brutes
– Ce travail a eu un réel impact aux États-Unis, sur la prise de conscience des problématiques liées à la protection des données sur internet.

Du côté des utilisateurs
– Visuellement, cette production est assez réussie car elle permet de balayer un très grand nombre de données. D’un coup d’œil l’internaute est alerté sur l’importance du phénomène de la collecte de données personnelles sur internet.
– L’idée d’une « toile d’araignée » donne une sensation visuelle très forte qui illustre très nettement l’intention journalistique.
– En revanche son utilisation reste complexe ; il faut prendre du temps pour saisir en détail le fonctionnement de l’animation et explorer toutes les informations contenues. Cette data-visualization s’accompagne d’indications nécessaires à son entière utilisation.

Alix Mounou
Marc Bourreau
Jean-Baptiste Bourgeon