La puissance des coureurs sur le Tour de France
La puissance des coureurs sur le Tour de France
C.Domanico, C. Lannuque, J. Chabrout
http://www.lexpress.fr/actualite/sport/tour-de-france-2011-la-puissance-des-coureurs-en-chiffres.asp
I . Présentation
Nous avons choisi de présenter cette data-visualisation parue en mai 2011 sur le site de Lexpress.fr. Elle traite du Tour de France et s’intitule « Puissance des coureurs en montagne ».
Nous l’avons selectionnée car le domaine du sport professionnel représente une zone journalistique intéressante pour l’expérimentation du data journalisme.
L’utilisation des statistiques y est permanente mais reste assez basique dans les médias. C’est d’autant plus le cas en cyclisme, sport d’endurance et de performance pure.
D’ailleurs les entraîneurs et scientifiques qui suivent les coureurs consultent et alimentent ces données de manière quotidienne. Parmi les chercheurs, plusieurs ont mis en place des algorithmes permettant de mesurer la puissance en watt déployée par les coureurs lors d’une course. Ces calculs permettent de savoir quelles sont les possibilités physiques des sportifs et leurs évolutions dans le temps.
http://www.youtube.com/watch?v=9TM9H9Hr1kc&feature=related
Dans cet extrait du Tour de France 2010, Alberto Contador et Andy Schleck, deux favoris du Tour, s’affrontent sur les pentes du Tourmalet. À chaud, les journalistes débattent sur l’évolution de ces deux cyclistes d’après leurs impressions.
Le schéma que nous présentons répond à ce besoin de comparer les performances de manière scientifique.
À partir des calculs du médecin Fredéric Grappe, entraîneur professionnel et chercheur en biomécanique, il confronte les puissances développées par plus d’une centaine de coureurs entre 2004 et 2011.
Par rapport à l’extrait que l’on vient de voir, on peut y vérifier que les commentaires des journalistes sont en fait peu justifiés . Si l’on prend les performances d’Andy Schleck qui est soit disant meilleur en 2010 qu’en 2009, on se rend compte que ses performances en terme de puissance sont relativement équivalentes (entre 5,7 et 5,9 watts par kilo au Ventoux, Tourmalet et Axe 3 Domaines).
II. L’Analyse
En ce qui concerne le fonctionnement du graphique, en abscisse se trouve la durée de l’ascension en minutes ainsi que la vitesse ascensionnelle, c’est à dire le dénivellé, en mètres par minutes. En ordonnée se trouve la puissance du coureur exprimée en watts par kilo. Ce chiffre s’obtient en prenant en compte plusieurs paramètres: le temps d’ascension, le nombre de kilomètres grimpés, le poids du vélo et du coureur, la pente ou la dénivellation ainsi que la force du vent.
Selon Frédéric Portoleau, ingénieur qui analyse depuis plusieurs années les performances des cyclistes sur les grandes courses, le rapport watts/kg est le plus approprié pour faire des comparaisons entre des coureurs de gabarits différents.
Pour revenir à la visualisation de L’Express, le curseur de la souris pointé sur un point permet d’avoir trois données. On apprend par exemple que le Belge Maxime Monfort a effectué en 2011 l’ascension du Col d’Agnel en 73 minutes, développant une vitesse ascensionnelle de 20 mètres par minute et 3.9 watts par kilo.
Un clic sur le curseur permet d’avoir des précisions sur le coureur, le nom de l’ascension, son âge et sa nationalité. Son équipe, sa taille et son poids de base ne sont pas indiqués, ce qui est dommage en vue de l’importance de ces données dans les calculs qui forment la base de données. Pareil pour le profil de l’étape du jour où la longueur de l’ascension et le pourcentage de la pente font défaut.
Le menu déroulant permet de filtrer et sélectionner les coureurs en fonction des années (entre 2004 et 2011) et des cols.
Il y a environ 180 coureurs dans la base de données, c’est-à-dire un peloton complet au départ du Tour de France. On peut compter 18 erreurs sur les noms ou doublons. Par exemple on trouve deux fois Andy Schleck et on compte un « Gilbert Simon »,(voir ci-dessus) au coté du vrai nom du coureur : le Belge Philippe Gilbert numéro 1 mondial (en 2011). Nous constatons aussi quelques erreurs et doublons sur les cols, notamment en ce qui concerne le Tourmalet qui apparaît sous deux noms différents. (Tourmalet et col du Tourmalet). Clément Daniez, journaliste sportif à Lexpress.fr contacté par nos soins, n’était pas au courant de ces erreurs.
Sur la droite, un petit texte tente d’expliquer à l’internaute le fonctionnement de la data, accompagné d’une très courte légende avec les performances ordinaires en jaune et vert et les performances extraordinaires en bleu.
Mais comme il n’y a pas d’explications, de chiffres et de sources, cette classification peut paraître totalement arbitraire.
Il y aussi les cas de dopage recensés sur Wikipédia avec un cercle bleu. On peut s’interroger la pertinence de la source, Wikipédia.
Base de données
En ce qui concerne la base de données, les calculs sont ceux de Frédéric Grappe. Entraîneur depuis 10 ans à la Française des Jeux, il est aussi enseignant-chercheur en biomécanique à l’Université de Franche-Comté (Centre d’Optimisation des Performances Sportives). Pour lui, un tel schéma était l’occasion de donner de la visibilité à son travail mais aussi de matérialiser ses chiffres afin de leur donner plus de forces. Au final, il est plutôt dubitatif sur le résultat. Satisfait par l’expérience, il regrette que le schéma ne puisse pas être réactualisé après chaque course.
L’avis des spécialistes
Nous avons contacté Caroline Goulard, qui a crée Dataveyes, une start-up de visualisation interactives de données, avec trois autres personnes.
C’est elle qui est à l’origine de ce projet. Dataveyes l’a proposé à Lexpress.fr, qui a tout de suite accepté. Ensuite, aucun journaliste de la rédaction n’a travaillé dessus. Ils ont simplement jeté un coup d’œil avant la parution.
La jeune équipe de Dataveyes s’est tournée vers L’Express car plusieurs d’entre eux étaient en stage à la rédaction du site internet.
Caroline Goulard explique qu’une première version a été faite en 2010, tandis que la version en ligne date de mai 2011. Ce n’est pas une version à but commercial. Ils étaient trois à travailler dessus, un graphiste, un développeur et elle. Ils l’ont réalisé pendant presque trois semaines. Néanmoins, les membres de Dataveyes étaient sur d’autres projets en même temps.
Selon Caroline Goulard, avoir 180 coureurs dans la base de données c’est un avantage : c’est nécessaire pour comparer entre les meilleurs et les moins bons coureurs.
Concernant les données qui ont été fournies par Frédéric Grappe, docteur en science et maître de conférences, elle explique que son modèle est fiable car il l’a testé directement sur les coureurs de l’équipe FDJ, dont il est l’entraîneur et conseiller technique. Enfin, à son avis, il y a de l’avenir dans le data sportif car « il y a des tas de choses à faire ».
Chez Dataveyes, ils n’ont pas de projet actuellement en cyclisme mais ils aimeraient récupérer les données des coureurs en temps réels via les capteurs SRM sur les vélos.
Nous avons recueilli les propos de Gilles Simon, rédacteur en chef de la rubrique cyclisme à L’Equipe et rédacteur en chef de l’hebdomadaire « Vélo Magazine ».
Il nous a déclaré :
« Sur la forme, cette data visualisation n’est pas mauvaise. C’est assez clair, un peu trop même. C’est assez sympa à lire.
Sur le fond, je suis plus circonspect. On ne peut prétendre faire quelque chose de scientifique sans avoir tous les paramètres. Les données ne sont pas assez fiables. Il faut se garder de tirer des conclusions.
Il y a trop d’éléments extérieurs à prendre en compte pour faire un calcul fiable. On ne connaît pas le poids précis des coureurs au moment de ces étapes, ou encore du vent et de la course. Par exemple, l’étape de Verbier a été une course de côte. Il faut aussi se demander si le coureur est seul ou en groupe dans l’ascension […] A L’Équipe, nous avons fait peu de choses en data journalisme. Nous avons des statisticiens. Mais en cyclisme les statistiques sont très difficiles à utiliser. Nous avons eu jusqu’à présent que des expériences négatives dans le domaine. Néanmoins le data journalisme se développe en basket ou encore dans le foot.
Au final, nous n’avons pas eu pour le moment de réponse claire quand on se demande comment faire du data en cyclisme car nous n’avons pas de données scientifiques suffisamment fiables. Toutefois, nous pourrions à l’avenir utiliser les relevés des coureurs sur leurs vélos, mais c’est très technique. »
III Les enjeux du data
Le sport est un domaine avec un potentiel important pour le développement du data-journalisme. Le groupe L’Equipe qui manipule les statistiques depuis toujours est l’exemple même de carences dans l’utilisation des statistiques. Le site internet Lequipe.fr, lancé en 2000, propose des palmarès, des fiches sur les sportifs, de nombreux résultats… Mais ces données sont peu exploitées. Depuis un an et demi, les statistiques du site internet sont fournies par la société anglaise Opta sport, ex-filiale de la chaîne britannique Sky, leader européen sur le marché de fourniture de contenus sportifs. Le groupe L’Équipe n’est pas la seule rédaction à y avoir recourt : la société compte 200 clients parmi lesquels : Eurosport, Midi olympique, le 10 Sport, Canal + ou encore TF1… Les rédactions font appel à cette société car elles manquent de compétences techniques, de développeurs et de statisticiens pour décortiquer les matches en profondeur et en faire quelque chose d’attrayant pour les lecteurs.
Premières expériences
A/ http://www.actuvisu.fr/tour-de-france-performance
En cherchant bien sur internet, on peut tout de même trouver quelques datavisualisations qui font référence au monde sportif. Avant le graphique du Tour de France du site L’Express.fr, un premier projet avait été présenté sur le site Actuvisu.fr. Là aussi il s’agissait d’une collaboration entre Caroline Goulard et Frédéric Grappe. Ce graphique présentait les efforts fournis par 135 coureurs du Tour sur 88 cols de 2004 à 2009. Petit détail en plus : un trait rouge y délimite une « zone de performance extraordinaire » pour mettre en valeur les efforts anormaux.
B/ http://datavisualization.ch/showcases/2010-tour-de-france-visualization/
Il semblerait que le Tour de France soit particulièrement prisé pour réaliser des visualisations. A l’image de cette carte de Jérôme Daksiewicz, un designer américain (de Chicago), qui a voulu mettre en avant l’origine des coureurs présents sur le Tour de France en 2010. Sur cette carte du monde, on voit que plus il y a de coureurs d’un pays, plus il est écrit en gros… Ainsi des pays comme la France et l’Espagne sautent immédiatement aux yeux puisqu’ils qui représentent les deux plus gros contingents de coureurs présents sur le Tour, tandis que les Etats-Unis, la Russie ou la Grande-Bretagne apparaissent en plus petit puisqu’ils ont seulement quelques cyclistes présents sur le Tour.
C/ http://jeromedaksiewicz.com/images/stories/downloads/TdF/TdF_Teams-001a.jpg
Jérôme Daksiewicz a réalisé plusieurs graphiques sur le même thème. Sur celui-ci les coureurs sont répertoriés par équipes et reliés à leur pays d’origine grâce à un planisphère. Sur une seconde carte, on voit les villes étapes du tour sur la droite et un trait qui les relie à leur vainqueur dont le nom est écrit à gauche. Cependant il y a beaucoup de détails et le rendu n’est pas efficace sur un écran d’ordinateur standard.
D/ http://www.estadao.com.br/especiais/2010/06/copa_jogadores.shtm#bb-md-noticia-tabs-1
Toujours concernant les nationalités le site brésilien Estadao.com a répertorié dans quel pays jouaient les 736 joueurs qui ont disputé la Coupe du Monde 2010. L’internaute peut même comparer la répartition des joueurs depuis les 5 dernières coupes du Monde. On se rend compte par exemple qu’en 1994 beaucoup plus de joueurs jouaient dans leur propre pays qu’en 2010 (64% contre 40%).
Contrairement à cette dernière présentation, les deux infographies sur le cyclisme de Jérôme Daksiewicz, peuvent être commandées en poster pour la modique sommes de 30 dollars. Car le data dans le sport c’est aussi un business lucratif. C’est un potentiel énorme qui est peu exploité aujourd’hui.
Pas assez lisible
Pour le moment, la qualité de ce qui est fait n’est pas à la hauteur des espérances suscitées. Le graphique de L’Express.fr est relativement peu lisible, avec plus de 200 coureurs et plus de 100 cols . Il faut savoir que sur le Tour de France chaque coureur a ses points forts et tous ne sont pas spécialistes des courses en montagne. Il est contestable de tous les comparer avec un Contador car tous ne misent pas sur les étapes de haute montagne. De même, les cols n’ont pas tous la même inclinaison. Or sur le graphique cela est assez flou. Ainsi ce n’est pas pareil de monter le Col du Galibier, qui est un col hors catégorie, et le Mont des Alouettes qui propose 2 kilomètres d’ascension à 5%. Tout cela sans oublier les nombreuses erreurs que l’on peut relever : que ce soit sur les noms ou les doublons (les frères Schleck y sont en doublon tout comme le col du Tourmalet).
Au final, les nombreuses erreurs décrites nous amènent à vouloir faire une nouvelle version, améliorée, simplifiée, plus lisible, plus sourcée et donc plus efficace.
Sur la forme, nous nous inspirerons de la production de Dataveyes, mais nous utiliserons les données de Frédéric Portoleau, un ingénieur qui suit depuis des années le Tour de France et qui calcule les puissances à partir des enregistrements vidéos des étapes de montagne. Frédéric Portoleau a rédigé avec Antoine Vayer, l’ancien entraîneur de Festina, un livre intitulé « Pouvez vous gagner le Tour ? »
Sur le fond, nous couvrirons une période plus large, de 20 ans, pour moins de données. Il s’agirait essentiellement des vainqueurs du Tour et non de tous les coureurs ici. Pour voir comment, en 20 ans, les performances des grands cyclistes ont évolué. Avec pour ambition de donner plus de place à la beauté graphique et à la lisibilité.