Nos réflexions sur les réutilisations des données ouvertes

Publié le 10 mai 2021

D’avril à juin, c’est le printemps de data.gouv.fr : chaque semaine nous partageons nos réflexions, des annonces concrètes ou encore des événements et quelques surprises !

Le mois de mai est dédié aux réutilisations de données, enjeu central pour l’open data. L’exploitation des données publiques par des tiers pour créer de nouveaux services ou produits est une des raisons principales pour mener une politique d’ouverture des données publiques.

Le référencement de ces usages est également essentiel tant pour la mesure d’impact de l’open data que la montée en qualité des données publiques.

Au cours de 2020, dans le cadre de la réflexion sur la nouvelle feuille de route de data.gouv.fr, plusieurs ateliers sur les réutilisations de données ont été organisés en présence de membres de l’équipe Etalab et de réutilisateurs afin d’améliorer la partie réutilisation du portail et les fonctionnalités associées. Il s’agit ici de partager les principales réflexions de ces ateliers : qu’entend-on par réutilisations ? Quels besoins et opportunités pour les utilisateurs de data.gouv.fr et pour l’équipe  ? Quelles pistes d’amélioration pour le portail ?

Il est bon de noter que les réflexions exposées ici portent davantage sur la connaissance et le référencement de l’existant des réutilisations de données plutôt que de la question « comment favoriser les réutilisations ? », car cette dernière recouvre des sujets bien plus larges (volume des données ouvertes, modalité de mises à disposition, qualité des données, découvrabilité des données, etc.)

Qu’est-ce qu’une réutilisation ?

Avant tout, il convient de définir ce qu’on entend par réutilisation des données publiques.

Il n’existe pas de définition stricte du concept. Une définition large veut qu’une réutilisation désigne l’utilisation des données publiques par des tiers à d’autres fins que celle de la mission de service public pour laquelle les données ont été produites ou reçues.

Cependant il existe des approches plus restrictives. Certains considèrent par exemple que seuls les usages pérennes de la donnée sont des réutilisations tandis que d’autres considèrent tout usage de la donnée comme une réutilisation.

CovidTracker est sans doute la réutilisation de données publiques la plus célébre en ce moment. (Capture d'écran prise le 3 mai 2020)

Pourquoi référencer les réutilisations de données ?

Le référencement des réutilisations est un enjeu important pour data.gouv.fr pour plusieurs raisons.

Tout d’abord, la connaissance des réutilisations est essentielle pour mesurer l’impact de l’ouverture des données. Il s’agit de mesurer le nombre de réutilisations et leur qualité, mais aussi leur niveau d’utilisation : s’agit-il d’une application utilisée par des millions de personnes ou d’une visualisation de données ponctuelle par exemple ? De plus, il existe un besoin récurrent de disposer d’un catalogue de référence de cas d’usage de l’open data. Pour convaincre de la pertinence de la démarche d’ouverture et de son potentiel économique et social, l’ensemble des acteurs ont besoin de s’appuyer sur des exemples concrets.

Le référencement des réutilisations doit également permettre de faciliter la discussion entre réutilisateurs et producteurs de données voir leur collaboration. En effet, les producteurs sont plus disposés à répondre aux réutilisateurs identifiés et dont ils saisissent mieux le besoin. Les réutilisations permettent ainsi d’améliorer la qualité d’un jeu de données en facilitant les remontées de manques et défauts des données.

Enfin, les réutilisations sont un vecteur d’information au public. Le référencement des réutilisations sur la plateforme nationale permet à un grand nombre d’utilisateurs de découvrir des réutilisations permettant de visualiser les données brutes sous des formes riches et diverses.

Le site match.ID permet à des milliers de personnes d'explorer facilement les données du Fichier des personnes décédées de l'Insee.

Quelles sont les principales problématiques rencontrées ?

Bien que la plateforme peut s’enorgueillir d’avoir plus de 2600 réutilisations référencées, certaines problématiques persistent.

Premièrement, la plateforme fait face à une problématique de volume. Les réutilisations référencées ne représentent que le sommet de l’iceberg de l’existant. De nombreux acteurs ignorent encore la possibilité de référencer leur réutilisation ou n’en perçoivent pas l’intérêt.

Deuxièmement, il existe une problématique de qualité des réutilisations. On retrouve ici une certaine similitude avec les problématiques rencontrées sur la qualité des données. À l’instar de la documentation des jeux de données par exemple, de trop nombreuses réutilisations sont accompagnées de descriptions lacunaires qui n’explicitent pas l’usage qui est fait des données.

À ceci s’ajoute une problématique de représentativité des publics parmi les réutilisateurs. Si les acteurs de la société civile sont assez prompts à référencer leurs travaux, d’autres, comme les administrations et le secteur privé par exemple, sont moins proactifs. Ces derniers représentent pourtant des usages qu’il est essentiel de mesurer.

Par ailleurs, le référencement des réutilisations est complexifié par la diversité des usages. Certains usages étant plus faciles à documenter (cartographie, moteur de recherche) que d’autres (simple observation des données par exemple).

Enfin, le référencement des réutilisations implique également une problématique de modération. Comment faire la distinction entre publicité et réutilisation ? Comment gérer un contenu changeant dans le temps ? Sont autant de questions qui se posent à l’équipe de la plateforme.

Quelles pistes d’amélioration pour data.gouv.fr ?

Comment améliorer le référencement des réutilisations ?

Plusieurs idées ont étés émises pour répondre à la problématique de volume en permettant de référencer davantage de réutilisations :

  • L’organisation de campagne de recensement par la communauté sous forme de défi ou d'hackathons (annotathons) ;
  • Le moissonnage des réutilisations de certains portails thématiques de données ouvertes ;
  • Donner la possibilité aux producteurs de données de proposer des défis sur leurs jeux de données pour que les réutilisations répondent à un objectif d’action publique.
  • Mettre en valeur les réutilisateurs en proposant par exemple dans le format de description des réutilisations un champ biographie pour le réutilisateur ou encore en gamifiant les comptes individuels.

Néanmoins, les participants estiment qu’il ne faut pas viser l’exhaustivité, mais plutôt améliorer la pertinence, la qualité ainsi que la visibilité des réutilisations sur data.gouv.fr.

Comment améliorer la qualité et la découvrabilité des réutilisations ?

Pour améliorer la qualité des réutilisations, il s’agit en premier lieu de définir une grille d’analyse et de classement de celles-ci. Aux critères objectifs comme la maintenance, la mise à jour ou l’audience peuvent s’ajouter des choix éditoriaux plus subjectifs basés sur la finalité de la réutilisation ou la mission de service public par exemple.

Parmi les pistes évoquées pour améliorer la qualité et la découvrabilité des meilleures réutilisations, on peut citer :

  • Développer davantage et rendre plus visible le système de vote communautaire sur la plateforme ;
  • Accompagner davantage la publication de réutilisation. Il s’agit notamment de mieux accompagner les réutilisateurs dans la documentation de leurs travaux. Les formats de description peuvent par exemple être enrichis avec des champs à compléter pour inciter les réutilisateurs à respecter un cadre éditorial. Enrichir la documentation existante et fournir des exemples à suivre peut aussi être précieux ;
  • Développer encore davantage l’éditorialisation et la mise en récit des meilleures utilisations de jeux de données. De nombreuses actions de recensement et de documentation périodiques sont menées en ce sens, en France comme à l’étranger (citons notamment les excellents travaux d’OpenDataFrance en 2019). Cependant, ces dernières demandent un investissement important et doivent être répétées fréquemment. La façon dont data.gouv.fr présente les réutilisations est spécifique. Contrairement à la plupart de ses homologues, data.gouv.fr ne propose pas à proprement parler d’un catalogue de cas d’usages éditorialisés. En effet, le portail permet à quiconque de publier une réutilisation sans contrôle à priori. Une démarche hybride entre les deux approches en s’appuyant notamment sur les choix de la communauté pourrait favoriser la découvrabilité des réutilisations de qualité.

La semaine prochaine nous partagerons avec vous certains de nos derniers travaux pour tenter de répondre à certaines des problématiques et opportunités présentées ici.

Pour ne rien manquer, de l’actualité de data.gouv.fr et de l’open data inscrivez-vous à notre infolettre  !