Retour sur les activités de data.gouv.fr en 2019

Publié le 14 février 2020

Découvrez les travaux réalisés en 2019 par l'équipe de data.gouv.fr !

En 2019, l'équipe de www.data.gouv.fr a déployé de nouveaux efforts pour accélérer la publication de jeux de données qualitatifs et facilement réutilisables. Ces efforts ont été récompensés par une croissance significative des jeux de données mis à disposition mais aussi de l’audience et des usages du portail. Voici une rétrospective du travail effectué en 2019 sur la plateforme www.data.gouv.fr !

Une audience et des usages en hausse

En 2019, la plateforme www.data.gouv.fr a enregistré 50 millions de pages visitées, soit une augmentation de 43% par rapport à 2018. Les téléchargements enregistrés par l'interface web ont quant eux doublé, atteignant les 2 millions de téléchargements directs.

Sur les 34 000 jeux de données publiés, les cinq jeux de données les plus consultés sont :

Cette dynamique se reflète également dans les usages de la plateforme. Au cours de l'année, 14 566 comptes utilisateurs et 548 organisations ont été créés. Parmi ces organisations, 25 ont été certifiées "service public" par la plateforme.

L'activité sur la plateforme n'est pas en reste, puisque 6 403 nouveaux jeux de données et 353 nouvelles réutilisations ont été publiés. Enfin, plus de 2000 discussions ont été créées, ce qui confirme la place clé de la plateforme data.gouv.fr comme lieu de rencontre et d'échange entre producteurs et réutilisateurs.

Des publications toujours plus nombreuses et emblématiques

L'année 2019 a été marquée par la publication de jeux de données essentiels à la bonne information des citoyens et à la création de nouveaux services et produits.

Les demandes de valeurs foncières

En avril, Etalab a participé à la publication des données des demandes de valeurs foncières produites par la direction générale des Finances publiques. Ces données apportent des informations sur l'ensemble des transactions immobilières réalisées au cours des cinq dernières années.

Pour accompagner la publication de la base de données, Etalab a développé une application web qui permet de consulter les données au moyen d’une carte facile à explorer. Cette application a permis à tout utilisateur de découvrir les données sans qu'une manipulation de données soit nécessaire. Le site a ainsi été visité 5,6 millions de fois sur l'année, dont 1,5 million les 3 premières semaines.

L'ouverture de ces données a suscité un grand intérêt et entrainé de nombreuses autres réutilisations. A titre d'exemple, l'application web développée par MeilleursAgents permet notamment de visualiser les données sur une carte et d'obtenir des informations complémentaires sur le marché de l'immobilier. La carte des expropriations proposée par Christian Quest apporte, quant à elle, des informations sur les différentes expropriations survenues sur les cinq dernières années.

Consulter les données
Consulter la réutilisation

Le Répertoire national des élus (RNE)

En janvier 2019, le Répertoire National des Elus (RNE), l'un des jeux de données les plus demandés, a été publié sur data.gouv.fr.

Le Répertoire National des Elus (RNE) a pour finalité le suivi des titulaires d’un mandat électoral. Il contient des informations sur les personnes exerçant un mandat électoral, des conseillers municipaux aux sénateurs en passant par les maires.

Ce jeu de données a été l'objet de plusieurs réutilisations. A titre d'exemple, on peut citer une analyse du cumul des mandats exécutifs locaux, ou de l'égalité d'accès aux mandats d'élu.e.s dans les collectivités territoriales, ou encore cette analyse du RNE réalisée dans le cadre d'un stage de 3ème qui permet notamment de savoir quelles sont les professions les plus representées chez nos élus.

Consulter les données

Le fichier des personnes décédées de l'INSEE

Depuis décembre 2019, l'Institut National de la Statistique et des Etudes Economiques (Insee) met a disposition le fichier des personnes décédées. Ce fichier apporte des informations sur tous les décès portés à la connaissance de l’INSEE depuis 1970 : nom, prénoms, date de naissance, lieu de naissance, date du décès et numéro de l'acte de décès, etc.

Des réutilisations ont déjà été publiées sur data.gouv.fr, notamment un moteur de recherche des décès qui permet de réaliser des recherches dans le fichier des personnes décédées.

Consulter les données

Les données des marchés publics

Depuis le 1er octobre 2018, tous les acheteurs publics sont tenus de publier les données essentielles de leurs marchés publics dépassant 40.000€ HT. Les données essentielles de la commande publique correspondent aux données d'attribution de marchés publics. C’est-à-dire la phase qui se conclut par l’annonce de la ou des entreprises qui ont remporté le marché.

Au cours de 2019, Etalab a déployé des efforts particuliers pour centraliser ces données sur la plateforme data.gouv.fr. Les fichiers consolidés des données essentielles de la commande publique (DECP) référence ainsi les données issus de différentes plateformes.

Parmi les réutilisations notables, l'application sireneLD permet d'explorer les données d'attributions et de les croiser avec des données relatives aux entreprises et administrations identifiées par un SIRET. La publication de ces données a également inspiré des analyses visuelles.

Consulter les données

Les données de Parcoursup

Parcoursup est la plateforme nationale de préinscription en première année de l’enseignement supérieur en France. En 2019, le ministère de l'Enseignement supérieur, de la Recherche et de l'Innovation a publié les données relatives aux vœux de poursuite d’études et de réorientation dans l’enseignement supérieur, ainsi que les propositions des établissements pour chaque formation à la fin du processus d’affectation pour la session 2018.

Consulter les données

Des publications toujours plus variées et qualitatives

Evidemment, de nombreux autres jeux de données critiques on été publiés. Parmis ceux-ci, il est possible de citer le jeu relatif à la qualité de l'eau du robinet du Ministère des Solidarités et de la Santé, les données carroyés de l'INSEE qui permettent des analyses géographiques, les nombreuses données relatives à l'immigration en France du Ministère de l'Intérieur ou encore les données relatives à l'environnement de l'ADEME.

Un meilleur suivi des publications

Afin d'accompagner l'utilisateur dans la découverte des publications les plus pertinentes, l'équipe de www.data.gouv.fr publie depuis avril 2019 un article mensuel qui revient sur les dernières publications marquantes.

Consulter le suivi des sorties de décembre 2019
S'abonner à la newsletter

Un nouvel accompagnement pour faciliter la publication de données sur data.gouv.fr

Au cours de l’année 2019 Etalab a intensifié ses efforts pour mieux accompagner les producteurs de données dans leurs démarches de publication.

Les guides de l'open data

La démarche de publication de jeux de données peut soulever des interrogations vis-à-vis du cadre réglementaire et de l'implémentation technique. L'équipe d'Etalab propose désormais un ensemble de guides d'accompagnement pour les producteurs de données. Ces guides ont pour objectif de couvrir l'ensemble des étapes de publication :

  • Comment préparer des données à l’ouverture / la circulation ?
  • Quels jeux de données doivent être publiés en open data ?
  • Comment publier des jeux de données sur data.gouv.fr ?

Consulter les guides

L'aide à la création et le référencement de schéma de données

Il a été constaté que de nombreux jeux de données étaient difficilement exploitables, du fait de leur mauvaise qualité ou interopérabilité. Une voie pour répondre à ce constat est de proposer des schémas de données partagés par le plus grand nombre.

L'équipe d'Etalab a lancé en 2019 www.schema.data.gouv.fr, un service de référencement et d'accompagnement à la création de schémas de données publics pour la France. À partir de schema.data.gouv.fr et des outils qui s'y raccrochent, il est posssible de consulter les schéma de données référencés, de valider qu’un jeu de données se conforme à un schéma, de générer de la documentation et des jeux de données d’exemple automatiquement ou de proposer des formulaires de saisie standardisés. Tout acteur est également libre de proposer le référencement de schémas sur schema.data.gouv.fr.

Consulter www.schema.data.gouv.fr

Des nouveautés pour améliorer l'expérience sur data.gouv.fr

La plateforme www.data.gouv.fr ne peut être pensée comme un simple catalogue de données. Cette année, l'équipe de data.gouv.fr s'est attelée à proposer de nouveaux outils et services pour faciliter le téléchargement et l'exploitation des jeux de données.

Une fluidification des échanges avec les équipes de www.data.gouv.fr et d'Etalab

L'adresse de contact historique recevait environ 1 millier de messages par an. Ceux-ci n'étaient pas catégorisés et difficiles à traiter sans outil spécialisé. Depuis, l'équipe a tenté de clarifier la manière dont les usagers peuvent prendre contact et d'améliorier le traitement des demandes :

  • L'ouverture de deux canaux pour le support autour de www.data.gouv.fr : support@data.gouv.fr et ouverture@data.gouv.fr, respectivement pour le support technique et les demandes liées à la recherche ou l'utilisation des données ouvertes ;
  • Un formulaire de contact catégorisé au niveau d'Etalab : https://www.etalab.gouv.fr/contact ;
  • Le recours par l'ensemble des équipes d'Etalab à un outil de gestion de tickets qui permet de répondre plus efficacemment aux différentes demandes.

Une meilleure visibilité sur le catalogue de www.data.gouv.fr

En 2019, plus de 39 000 jeux de données étaient référencés sur www.data.gouv.fr. Ce chiffre peut sembler vertigineux pour les réutilisateurs qui souhaitent découvrir l'offre de données publiques de data.gouv.fr. Afin de proposer une meilleure visibilité des jeux de données publiés, l'équipe propose depuis juin 2019 le catalogue des données de data.gouv.fr.
Ce jeu de données renseigne sur la liste des jeux de données, des ressources, des réutilisations, des organisations, des tags et des discussions publiés sur www.data.gouv.fr. En apportant une meilleure visibilité sur le catalogue de données, l'équipe espère à terme améliorer la découvrabilité et la réutilisation des données publiques. Elle continuera en 2020 à s'investir sur la mise en valeur de ce catalogue !

Un outil de prévisualisation des fichiers au format CSV

Le projet csvapi permet d'exposer une API pour un fichier de type CSV ou Excel, hébergé n'importe où sur internet, grâce à son URL.

Ce projet est utilisé par www.data.gouv.fr afin de proposer une prévisualisation des ressources aux utilisateurs. Le déploiement initial était restreint aux fichiers hébergés par www.data.gouv.fr, mais depuis quelques mois, il est possible de prévisualiser n'importe quel CSV d'une taille raisonnable reférencé sur www.data.gouv.fr.

L'année 2020 devrait voir plus d'usages autour de cet outil se développer sur www.data.gouv.fr.

Une connexion toujours plus grande entre www.data.gouv.fr et les autres portails de données

Le mécanisme de moissonnage permet à www.data.gouv.fr de récupérer automatiquement et quotidiennement les métadonnées de nombreuses plateformes open data distantes, notamment celles des collectivités locales. Aujourd'hui, 133 moissonneurs sont actifs et 60 d'entre eux ont été créés en 2019. Les jeux de données moissonnés représentent environ 35% des jeux de données de www.data.gouv.fr.

L'équipe d'Etalab considère que ce modèle décentralisé est un modèle vertueux pour tous les acteurs. C'est pour cela qu'elle a continué en 2019 à investir dans les mécanismes de moissonnage :

  • Nombreuses corrections de bugs et améliorations techniques sur les différentes implémentations : CKAN, OpenDataSoft et DCAT ;
  • Mise en place d'un support avancé pour de nombreux producteurs afin de les accompagner à la mise en place de leurs moissonneurs ;
  • Mise en place du moissonnage des plateformes DKAN ;
  • Mise en place de l'archivage automatique des jeux de données qui ne sont plus présents sur la plateforme distante (les métadonnées d'un jeu de données archivé sont toujours visibles sur www.data.gouv.fr mais ne remontent plus dans les résultats de recherche) ;
  • La page d'un jeu de données moissonné affiche désormais un lien "Source originale" dans l'encart "Informations" qui pointe vers le portail distant dont est issu le jeu de donnée.

Toujours plus vite 🚀

Au cours de l'été 2019, l'équipe s'est penchée sur les performances considérablement améliorables du portail www.data.gouv.fr. Les sondes indiquaient des temps de chargement bien supérieurs à la seconde en moyenne... Après quelques mois d'efforts, le portail est revenu à un niveau considéré acceptable, qui s'établit autour de 250ms, et ce malgré une augmentation continue du trafic.

Au menu : plus de cache, un travail sur l'infrastructure sous-jacente, un focus sur des cas limites (jeu de données avec des milliers de ressources etc.), une meilleure supervision etc. Au passage, les capacités de stockage ont été largement augmentée.

L'équipe n'a pas prévu de se reposer sur ses lauriers en 2020 et de nouvelles optimisations sont à attendre.

Une meilleure visibilité sur les données d'usage

Les données d'usage anonymisées de www.data.gouv.fr (et des nombreux autres services de la DINUM) sont depuis plusieurs années disponibles librement sur stats.data.gouv.fr.

Fin 2019, il a été choisi de séparer ces statistiques entre l'API et le site web à proprement parler, dans le but de faciliter l'analyse des usages en interne. Attention donc si vous souhaitez faire votre propre analyse sur plusieurs années, les différents liens sont les suivants :

L'amélioration constante de udata

La plateforme www.data.gouv.fr repose sur le logiciel libre udata, dont Etalab est le principal contributeur. En 2019, l'équipe a réalisé de nouveaux travaux :

  • Seize mises à jour majeures de udata ont été réalisées : 1.6.3 à 1.6.19. En plus des nouvelles fonctionnalités de www.data.gouv.fr listées ci-dessus, ces mises à jour apportent de nombreuses améliorations et corrections à udata.
  • De nombreux développements ont été réalisés dans la perspective de la sortie de udata 2.0, qui prendra en charge le support de python 3.7. Restez à l'écoute pour une date de sortie que l'équipe espère très proche !

Un déploiement toujours plus approfondi des verticales

www.geo.data.gouv.fr

L'année 2019 a également été riche pour la verticale geo.data.gouv.fr, la plateforme dédiée au référencement et à la valorisation des données géographiques, qui administre notamment www.adresse.data.gouv.fr, www.cadastre.data.gouv.fr, www.geo.api.gouv.fr et www.geo.data.gouv.fr.

Coté API, la demande a été très forte avec 400 millions d’appels sur l’API Géo Découpage administratif et 4,4 milliards d’appels sur l’API Géo Adresse en 2019. Un effort de convergence progressive de ces APIs est en cours. Celui-ci correspond notamment à une refonte de l'infrastructure de production pour mieux suivre la croissance de l'utilisation des APIs.

La verticale adresse a également poursuivi ses efforts pour proposer des outils et servives simples, qui facilitent la prise en main des données géographiques :

Enfin, le succès de l'application www.app.dvf.fr mentionné précédemment s'appuit directement sur les données et services proposés par la verticale geo.data.gouv.fr.

www.transport.data.gouv.fr

Près de 100 autorités organisatrices de la mobilité (AOM) ont rejoint la plateforme www.transport.data.gouv.fr en référençant les données statiques de leurs réseaux. Ces données de réseaux de transport sont aujourd'hui référencées dans les applications d'accompagnement à la mobilité (calculateur d'itinéraire, accompagnement des personnes malvoyantes, etc.).

L'année 2019 a également été marquée par l'ouverture de données emblématiques tels que les horaires et itinéraires des Train à Grande Vitesse de la SNCF ou encore l'offre des cars Macrons. Le jeu de données des lieux de co-voiturage a quant à lui été consolidé au niveau national.

Au delà des données statiques, les AOM ont commencé en 2019 à publier des données de transport en temps réel. Cette dynamique sera poursuivie durant l'année 2020.

La plateforme en soutien des événements d'Etalab

Les activités de www.data.gouv.fr se retrouvent durant les événements organisés par Etalab. À l'occasion du hackathon "À l'asso des données !, la plateforme a été utilisée pour mettre en valeur les jeux de données relatifs à la vie associative. Elle a également été le support de publication de la base Demandes de valeur de foncière lors du hackathon dédié à ces données. Plus largement, data.gouv.fr est devenue une plateforme incontournable lors d'événements organisés autour des données publiques.

La France toujours dans le trio de tête des classements open data

De part l'ensemble des travaux réalisés au quotidien, la France a maintenu ou amélioré en 2019 sa position de leader mondial en matière d’open data : la France est 2e au classement OURIndex 2019 de l’OCDE et 3e au classement Open Data Maturity de l’Union Européenne. La France est particulièrement plébiscitée pour son cadre réglementaire en matière d'open data, pour l'accompagnement qu'elle réalise auprès des administrations ainsi que pour la qualité et la dimension collaborative de son portail data.gouv.fr.

Par ailleurs, l’open data contribue à améliorer la position française dans des classements plus englobants, tels que le classement DESI (Digital Economy & Society Index) 2019 de l’Union Européenne (3e sur l’open data vs 15e au global).

Consulter les résultats de l’OURdata index 2019 dans le rapport Government at a Glance 2019 (chapitre 9)

Consulter le rapport Open data data maturity

Quel programme pour 2020 ?

Pour l'année 2020, l'équipe de la plateforme www.data.gouv.fr redoublera d'efforts, notamment pour favoriser la publication de données de qualité, améliorer la découverte de son catalogue, faciliter et stimuler la réutilisation des données. N'hésitez pas à suivre les travaux de l'équipe sur la plateforme www.data.gouv.fr et sur les différents réseaux d'Etalab !

Jeux de données 5