République
Française
Cette page a pour vocation de référencer les principaux jeux de données qui se prêtent bien à l’apprentissage automatique (Machine Learning) disponibles sur data.gouv.fr. Elle n’est pas exhaustive et est ouverte aux contributions.
Pour en savoir plus sur le contexte dans lequel s’inscrit ce catalogue et sur sa construction vous pouvez lire l’article dédié.
Nous proposons ici un catalogue des jeux de données identifiés comme exploitables par des algorithmes d’apprentissage automatique regroupés par tâche. Chaque jeu est accompagné des résultats de l’entraînement et du test automatique d’algorithmes classiques de Machine Learning : métriques, matrices de confusion, graphiques, etc.
N.b.: Cette page est en cours de construction et est ouverte à la contribution plus de jeux de données sont à venir. Les modèles ont été entrainés à l’aide de mljar-supervised.
Ce jeu de données présente l’ensemble des caractéristiques techniques des véhicules commercialisés en France en 2013, ainsi que les consommations de carburant, les émissions de CO2 et de polluants de l’air.
Ce jeu de données contient un recensement des caractéristiques des logements (prix par nuit, nombre de pièces, services disponibles, etc.) proposés par Airbnb à Bordeaux.
AGRIBALYSE® est une base de données de référence des indicateurs d’impacts environnementaux des produits agricoles et des produits alimentaires consommés en France. Vous trouverez le recensement des caractéristiques de plusieurs aliments ainsi que les émissions de polluants qui leur sont associés.
Ces données proviennent du dispositif sur les revenus localisés sociaux et fiscaux (FiLoSoFi) et contiennent des variables sur la structure par âge des individus, sur les caractéristiques des ménages et des logements et sur les revenus de l’année 2015. On se restreint ici au jeu de données correspondant à la France métropolitaine.
Publié et produit par la direction générale des finances publiques, ce jeu de données permet de connaître les transactions immobilières intervenues au cours des cinq dernières années sur le territoire métropolitain et les DOM-TOM. On se restreint ici aux données du premier trimestre de 2020.
Ce jeu de données contient les concentrations moyennes horaires des principaux polluants de l’air réglementés dans la région Centre-Val de Loire : monoxyde d’azote NO et dioxyde d’azote NO2, particules en suspension PM10, particules en suspension PM2.5, ozone O3, monoxyde de carbone CO. Les données sont souvent mises à jour et peuvent donc évoluer.
Ce jeu de données recense les effets de l’ensemble des gaz à effet de serre, en détaillant les émissions par commune et par secteur en 2016.
Ce jeu contient les données issues de l’opération nationale de collecte de données sur l’insertion professionnelle (taux d’insertion, salaire, etc.) des diplômés de Master.
Ces jeux de données répertorient l’intégralité des accidents corporels de la circulation intervenus durant une année précise en France métropolitaine et dans les DOM-TOM. Ils comprennent des informations de localisation de l’accident ainsi que des informations concernant les caractéristiques de l’accident et son lieu, les véhicules impliqués et leurs victimes.
Ici nous avons choisi les données de 2019 et nous avons concaténé les jeux disponibles (caractéristique, lieux, véhicule, usager) dans un unique jeu de données.
Ce jeu de données comprend des informations sur la localisation, l’espèce, les dimensions, les spécificités et l’état de santé du patrimoine arboré de la commune de Saint-Germain-en-Laye.
Ce jeu de données contient le résultat des contrôles officiels en sécurité sanitaire des aliments réalisés dans tous les établissements de la chaîne alimentaire : abattoirs, commerces de détail (métiers de bouche, restaurants, supermarchés, marchés, vente à la ferme, etc.), restaurants collectifs et établissements agroalimentaires.
Ce jeu de données contient les concentrations moyennes horaires des principaux polluants réglementés dans l’air sur la région Centre-Val de Loire : monoxyde d’azote NO et dioxyde d’azote NO2, particules en suspension PM10, particules en suspension PM2.5, ozone O3, monoxyde de carbone CO. Les données sont souvent mises à jour et peuvent donc évoluer.
Ces jeux de données, réutilisés dans le projet OpenSolar, se composent d’un datasses contributions (id OpenStreetMap du bâtiment ainsi que l’orientation du toit) et bâtiments (id, géométrie, surface du bâtiment et orientation du toit).
Cinq jeux de données différents sont proposés contenant des données sur les hospitalisations, les réanimations et les décès, regroupés par région, puis par département et par sexe, par classe d’âge et par établissements.
Quatre jeux de données qui contiennent les données quotidiennes de SOS Médecins et des urgences hospitalières en relation à l’épidémie de Covid-19. On s’intéresse ici au jeu de données des passages quotidiens par département et par tranche d’âge.
Les données mises à disposition présentent la valeur quotidienne de 4 indicateurs (activité épidémique, taux de positivité des tests virologiques, évolution du R0, tension hospitalière sur la capacité en réanimation) au niveau national et départemental depuis le 15 mars 2020. On s’intéresse ici aux données par département.
Ce jeu de données contient des données sur l’éclairage public de la ville de Béthune (62400) sur la période de janvier 2017 à décembre 2019. En particulier : la consommation en kWhEN, la dépense en euros TTC, l’émission GES (KgCO2).
Ce jeu de données présente les voeux de poursuite d’études et de réorientation dans l’enseignement supérieur ainsi que les propositions des établissements pour chaque formation — hors apprentissage — à la fin du processus d’affectation de la plateforme Parcoursup pour la session 2020
Un jeu de données de questions réponses francophones