République
Française
Publié le 6 avril 2021
D'avril à juin c'est le printemps de data.gouv.fr : chaque semaine nous partageons nos réflexions, des annonces concrètes ou encore des événements et quelques surprises !
Nous amorçons ce printemps de data.gouv.fr sur la question de la qualité des données.
La qualité des données est un élément essentiel du succès de l'open data : l'ouverture des jeux de données n'entraîne pas directement leur réutilisation. Ce constat s’explique notamment par les difficultés que rencontrent les réutilisateurs lorsqu’ils souhaitent s’approprier les données ouvertes.
D'ailleurs, l’analyse de l’enquête auprès des usagers (905 répondants de juin à septembre 2020) pointe une véritable attente des utilisateurs de la plateforme sur la qualité des données. Les répondants remontent des problèmes de mise à jour avec des jeux de données souvent obsolètes, une documentation insuffisante ou inexacte quand elle existe, la multiplicité de jeux de données ou encore le manque d’échanges entre producteurs et réutilisateurs de données malgré le système de commentaires de data.gouv.fr. En somme, la qualité n’est pas suffisamment au rendez-vous.
Au cours de 2020, dans le cadre de la réflexion sur la nouvelle feuille de route de data.gouv.fr, plusieurs ateliers sur la qualité et l’interopérabilité des données ont été organisés en présence de membres de l’équipe Etalab et d’une dizaine d’usagers réguliers de data.gouv.fr.
Il s'agit ici de partager les principales réflexions de ces ateliers : qu'entend-on par qualité des données ? Comment peut-elle être améliorée et quelles sont les difficultés inhérentes au sujet pour data.gouv.fr ?
La semaine prochaine, nous présenterons concrètement les travaux récents sur la qualité des données qui permettent de répondre à une partie des problématiques et opportunités présentées ici.
Plusieurs éléments permettent d'évaluer le niveau de qualité d'un jeu de données, nous mentionnerons ici les plus importants d'entre eux.
Si ces grands critères sont davantage de la responsabilité, des producteurs de données, data.gouv.fr peut faciliter leur respect.
Mais alors comment favoriser la publication de jeux de données de qualité respectant ces conditions ? Quels leviers peuvent être mobilisés ?
Plusieurs pistes intéressantes ont émergé des échanges :
Les participants ont évoqué quelques pistes pour améliorer l’accompagnement des producteurs de données de data.gouv.fr :
Les participants ont pointé une difficulté majeure lors de l’identification du producteur du jeu de données. En effet, il faut distinguer le producteur de la donnée, souvent issu d’une direction métier, du diffuseur qui publie le jeu de données, souvent un référent open data d’une organisation.
Le constat est partagé par tous : trop peu de producteurs répondent aux interrogations et demandes des réutilisateurs. Un nombre important d’exemples au sein de communautés numériques ont permis d’inspirer les participants des échanges : StackOverflow et son système d’échange gamifié, les forums Discourse et leurs badges, les “local guides” de Google Maps ou le système “d’issues” et de “pull requests” de Github. Sans rejeter la faute sur l’une ou l’autre catégorie d’usagers, plusieurs idées pour favoriser les interactions ont été évoquées :
Il faut noter ici que le lien entre producteurs et réutilisateurs n’est possible que dans la mesure où le jeu de données est publié par un producteur identifié et non moissonné.
La prévisualisation des jeux de données est importante, car elle permet de visualiser les données sans avoir à les télécharger et permet également aux réutilisateurs de se faire une idée du contenu et de la qualité d'un jeu de données avant de l'exploiter.
Les participants ont soulevé plusieurs contraintes sur ce point. Premièrement, une grande partie des ressources et des jeux de données ne sont pas hébergés directement par la data.gouv.fr ce qui complexifie l'analyse de leur contenu.
Une autre contrainte importante réside dans la liberté laissée aux producteurs sur les formats des fichiers publiés, contrairement à d’autres plateformes d’ouverture de données. Il est en effet très complexe de proposer des prévisualisations de données sans cadrer strictement le format et la structure des fichiers qui peuvent être publiés.
Ceci étant, les participants ont proposé plusieurs actions à mettre en place pour développer cette fonction de prévisualisation :
Les participants ont également réfléchi aux fonctionnalités à imaginer sur l’ensemble de l’écosystème data.gouv.fr pour améliorer la qualité des données comme :
Tout d'abord, nous souhaitons remercier chaleureusement tous les participants pour leurs nombreuses contributions ! L’ensemble des pistes d’action ont été discutées et priorisées pour établir la nouvelle feuille de route de data.gouv.fr.
La semaine prochaine nous présenterons nos travaux sur le cycle de vie de la donnée de qualité et notamment comment nous prévoyons d'accompagner les producteurs dans la saisie, la validation et la publication de leurs données.