Outils pour la Data-visualisation
Outils pour la Data-visualisation
Vous avez des données à explorer ? Voici quelques outils qui pourront vous être utiles pour les transformer en informations et en graphiques attrayants.
1/ Nettoyage de données, analyse statistique, outils et services de visualisation
Cometdocs.com pour transformer un fichier .pdf en fichier .Excell
Google Docs intègre une fonction « feuilles de calcul » qui permet d’importer certaines parties de bases de données en ligne : inscrire dans la première cellule la formule ImportHTML suivie entre parenthèses et entre guillemets de l’adresse du site web, du numéro de la table et des numéros des colonnes à sélectionner, eux aussi entre guillemets.
Google Refine
Il ressemble à un tableur pour examiner à la fois les données numériques et alphanumériques, mais à l’inverse du tableur, il ne permet pas d’effectuer des calculs. Comme Excel, il peut importer et exporter dans différents formats, incluant les fichiers tabulés, textes, Excel, XML et JSON.
Refine intègre plusieurs algorithmes retrouvant les mots orthographiés différemment mais qui devraient en fait être regroupés. Il y a aussi des options pour passer rapidement en revue les données numériques. Ces fonctionnalités peuvent pointer des anomalies pouvant résulter d’erreurs de saisie, telles que 800 000 dollars à la place de 80 000 dollars pour un salaire par exemple, ou mettre à jour d’autres incohérences. Inconvénient, si le jeu de données est volumineux, son examen peut prendre un certain temps. A noter que Refine propose aussi des outils de tri et de filtre. Niveau de compétences requis : débutant avancé. La connaissance des concepts d’analyse de données est plus importante que la prouesse technique. Les utilisateurs avancés d’Excel qui ont l’habitude du nettoyage de données devraient être à l’aise avec cet outil.
Google Refine fonctionne sur Windows, Mac OS X et Linux.
2/ Outils de développement, SIG, analyse de données temporelles, nuages de mots, visualisation de données relationnelles
Ces outils offrent différentes options de visualisation. Certains se cantonnent aux graphiques conventionnels (représentations sectorielles, histogrammes…), mais la plupart proposent un éventail de choix supplémentaires tels que les Treemap pour afficher les données hiérarchisées ou les nuages de mots. Quelques-uns disposent aussi de représentations géographiques.
Google Fusion Tables : simple à utiliser et personnalisable
C’est l’une des plus simples façons de transformer des données en graphiques. On met en ligne son fichier (dans différents formats) et on choisit comment l’afficher : sous forme de tableau, de carte, de bargraphe, de camembert, de « heat map », de diagramme de dispersion, d’historique, d’animation… C’est assez personnalisable. Il est notamment possible de changer les icônes des cartes et le style des fenêtres d’information. Fusion Tables comporte aussi des fonctions d’édition de données, quoi que cela devient vite fastidieux dès que l’on commence à devoir modifier au-delà que quelques cellules. On peut aussi faire des jointures de table (important quand les données à afficher se trouvent dans différentes tables), filtrer, trier, ajouter des colonnes et commenter les données.
Google Chart Tools : des graphiques statiques et interactifs
Contrairement à Google Fusion Tables qui est comme une application à part entière pour stocker des données en ligner et générer graphiques et cartes, Chart Tools est conçu pour visualiser des données résidant ailleurs, par exemple sur un site web ou au sein de Google Docs. Il offre à la fois les API Chart utilisant une simple requête URL vers un serveur de graphiques Google pour créer une image statique, et l’API Visualization qui accède à une bibliothèque JavaScript pour bâtir des graphiques interactifs. Avec celle-ci, on n’échappe pas à l’écriture de code. Google donne des informations (taille des données, compétences requises…) pour déterminer quelle option retenir.
Pour les graphiques statiques les plus simples, un assistant fournit quelques exemples. Il va jusqu’à aider à saisir les données ligne par ligne, quoi qu’à partir d’une certaine taille, il est plus logique de formater celles-ci dans un fichier texte.
Niveau de compétences : débutant avancé et expert.
Fonctionne sur tout navigateur.
En savoir plus : http://code.google.com/apis/chart/image/docs/making_charts.html
Many Eyes : facile d’accès et bien documenté
Le projet Many Eyes d’IBM est l’un des pionniers de la visualisation de données sur le web. Il est très facile à utiliser et très bien documenté, incluant des suggestions sur le type de représentations qu’il convient d’utiliser suivant les cas. Many Eyes comprend plus d’une douzaine d’options de rendu, depuis les graphiques sectoriels, jusqu’aux nuages de mots, en passant par les treemaps, les diagrammes relationnels, plots, ainsi que quelques cartes géographiques.
Il faudra ouvrir un compte gratuit pour mettre ses données en ligne. Le formatage est basique : pour la plupart des visualisations, les données doivent être dans un fichier texte avec séparation par tabulateurs, comportant des têtes de colonnes sur la première ligne. Les résultats offerts apparaissent bien plus sophistiqués que ce que l’on aurait pu attendre au regard des efforts déployés pour les créer. La liste de visualisations possible s’accompagne d’explications pour déterminer celles qui sont les plus appropriées suivant le contexte. Inconvénient : vos jeux de données apparaissent publiquement sur le site Many Eyes et peuvent être facilement téléchargées, partagées, republiées et commentées par d’autres, ainsi que le projet soutenu par IBM encourage à le faire. Autre limite : la personnalisation est limitée, de même que la taille du fichier, qui ne peut pas dépasser 5 Mo.
Niveau de compétences : débutants.
Fonctionne sur les navigateurs Java et ceux pouvant afficher en Flash.
En savoir plus : sur Many Eyes
Tableau Public : personnalisable et interactif
Transforme les données en diverses visualisations, simples ou plus complexes. Les champs peuvent être glissés/déplacés sur l’espace de travail et le logiciel peut alors suggérer un type de visualisation, puis personnaliser tous les éléments : étiquettes, infobulles, taille, filtres interactifs, légendes… L’un des intérêts de l’outil réside dans les différentes façons d’afficher des données interactives sur lesquelles un filtre de recherche peut agir sur de nombreux graphiques, diagrammes et cartes. Les tables sous-jacentes peuvent également être jointes. Et une fois que vous savez comment fonctionne le logiciel, le maniement de son interface « drag and drop » se fait bien plus rapidement que de coder en JavaScript ou en R. Ce qui incite à essayer davantage de scénarios avec les données. En outre, on peut facilement effectuer des calculs sur les données au sein du logiciel.
Dans cette version gratuite du logiciel de BI de Tableau Software, les données doivent résider sur le site de Tableau. La mise à jour vers la version desktop coûte environ 1 000 dollars. Par ailleurs, sans surprise, les fonctionnalités gratuites ont malgré tout un coût : le temps d’apprentissage comparé à , par exemple, Fusion Tables. Même avec l’interface drag and drop, cela prend plus d’une heure ou deux pour savoir se servir du logiciel, à moins de réaliser d’abord des graphiques simples.
Niveau de compétences : débutant avancé ou intermédiaire.
Fonctionne sur Windows 7, Vista, XP, 2003, Server 2008 et 2003.
En savoir plus : quelques vidéos de formation