Qualité des données : repenser la prévisualisation des données

D'avril à juin c'est le printemps de data.gouv.fr : chaque semaine nous partageons nos réflexions, des annonces concrètes ou encore des événements et quelques surprises !

Durant le mois d’avril, nous avons partagé nos réflexions ainsi que nos derniers travaux sur la qualité des données publiques.

Nous avons notamment discuté de l’importance de la documentation, du respect des schémas ainsi que de l’attention à apporter aux formats et à la structure des fichiers.

La question de la prévisualisation et de l’exploration des données a également été évoquée. Pour clore ce mois de la qualité des données, c’est sur ce dernier sujet que nous souhaitons vous soumettre nos derniers travaux et collecter vos retours.

La prévisualisation des données sur data.gouv.fr

La prévisualisation des données est importante car elle permet de les visualiser sans avoir à les télécharger et permet aux réutilisateurs de se faire une idée du contenu et de la qualité d’un jeu de données avant de l’exploiter. Une prévisualisation efficace des données permet également de pallier, dans une certaine mesure, le manque de documentation des données en permettant d’avoir accès à un aperçu des différents champs contenus dans le fichier.

La prévisualisation de certains fichiers tabulaires ainsi que certaines données géographiques est possible sur data.gouv.fr depuis 2018.

Exemple avec les données hospitalières relatives à l’épidémie de COVID-19 :

Exemple avec les parcs naturels régionaux actifs et en projet de Bretagne :

Depuis 2020, pour les jeux de données pour lesquels il existe un schéma, il est également possible de découvrir la documentation relative au schéma et de vérifier que la ressource est bien conforme à ce dernier (voir un exemple avec le fichier consolidé des Bornes de Recharge pour Véhicules Électriques).

D'autres fonctionnalités à imaginer

En complément de ces fonctionnalités déjà existantes, nous explorons la possibilité de permettre aux utilisateurs de rentrer plus en profondeur dans un jeu de données.

Pour ce faire, nous avons imaginé une application, qui n’est à ce stade qu’une preuve de concept, permettant de générer un rapport d’analyse de données à partir de l’URL du fichier qui présente de nombreuses informations utiles pour la réutilisation des données.

Ce rapport est obtenu en s’appuyant sur la librairie python pandas_profiling. Il permet d’obtenir des éléments de base sur le jeu de données, tels que le nombre de lignes et de colonnes, les valeurs manquantes ou les doublons. Il présente également de nombreuses informations sur chaque colonne : statistiques descriptives, valeurs uniques, valeurs fréquentes, distribution des valeurs, etc. D’autres analyses sont également disponibles comme celle des corrélations mettant en évidence des variables hautement corrélées.

Exemple sur l’inventaire de l’immobilier de l’État

Prenons un exemple, mettons que je suis un journaliste souhaitant représenter sur une carte les espaces naturels détenus par l’État à l’étranger.

Voyons voir quelles informations nous pouvons tirer par exemple de l’inventaire immobilier de l’État qui présente la liste détaillée des biens immobiliers (hors données confidentielles) dont l’État est propriétaire et occupant.

La prévisualisation du fichier CSV nous permet rapidement de nous faire une idée des colonnes existantes et d’appliquer des premiers tris et filtres. Ici nous avons sélectionné les bâtiments et les terrains pour le 3e arrondissement de Lyon.

Passons maintenant à l’exploration des données. La vue d’ensemble nous permet notamment constater que 2078 cellules sont vides.

Un onglet d’alerte nous prévient de potentiels problèmes sur les données. La cardinalité représente le degré de valeurs uniques dans la distribution. S’il est normal que le champ Ville soit d’une cardinalité élevé (6980 valeurs distinctes, on aurait même pu espérer davantage) la haute cardinalité du champ Pays est pour nous une bonne nouvelle, les données ne devraient pas concerner uniquement la France !

En revanche, les valeurs manquantes se trouvent principalement sur le département et surtout sur l’adresse (4 % de valeurs manquantes) ce qui pourrait nous poser problème.

D’un autre côté, il est rassurant de voir que l’ID et le Code Chorus sont distincts pour chaque ligne.

En observant chaque champ en détail, nous remarquons avec satisfaction que l’inventaire immobilier de l’État répertorie des biens immobiliers à l’étranger, ce qui explique la haute cardinalité constatée auparavant.

Encore une bonne surprise : lorsqu’on se penche sur le type de bâtiments on peut constater la forte représentation des espaces naturels !

Néanmoins, notre projet s’annonce complexe à partir de ce seul jeu de données. En effet, de nombreuses adresses sont manquantes, seulement 51,7 % sont distinctes et la visualisation d’un échantillon ne nous rassure pas sur leur précision ce qui va complexifier fortement le géocodage.

Il va probablement nous falloir combiner ce jeu de données à plusieurs autres pour arriver à nos fins. Peut-être que le Code Chorus nous servir référentiel (Chorus étant le portail internet de dématérialisation des factures adressées aux entités publiques) ?

Ainsi, sans même avoir téléchargé les données nous avons pu nous faire une première idée rapide de leurs qualités et de si elles peuvent répondre à nos besoins.

N’hésitez pas à aller tester vous-même avec un jeu de données de votre choix !

Vos retours nous sont précieux !

Il existe d’autres solutions comparables de profiling de données qui pourraient, à terme, être intégrées à data.gouv.fr. Parmi nos préférées, nous pensons à wtfcsv ou qri.io.

Exemple de qri.io sur les données de la population mondiale de la Banque Mondiale :

Exemple de wtfcsv sur le jeu de données des passagers du Titanic :

Pour répondre au mieux à vos besoins, vos retours et suggestions nous sont précieux. Quelles sont les informations qui vous sont les plus essentielles ? Quelles solutions semblent répondre le plus à votre besoin ?

Le sujet de la prévisualisation des données clôt le mois de la qualité des données sur data.gouv.fr en étant une transition toute trouvée sur le mois des réutilisations de données.

Comment les favoriser et les mettre en avant ? Quels besoins et opportunités pour les utilisateurs de data.gouv.fr ? Quelles pistes d’amélioration pour le portail ? Autant de questions auxquelles nous nous efforcerons de répondre au cours du mois de mai. Nous partagerons également avec vous une surprise qui devrait intéresser de nombreux datascientists !

Pour ne rien manquer, de l’actualité de data.gouv.fr et de l’open data, inscrivez-vous à notre infolettre.