Modèles de classification (et ses résultats) entrainés sur certains ressources CSV de data.gouv.fr

Name: Modèles de classification (et ses résultats) entrainés sur certains ressources CSV de data.gouv.fr
Creator: Pavel Soriano
License: https://www.etalab.gouv.fr/wp-content/uploads/2014/05/Licence_Ouverte.pdf
Keywords: classification,datascience,machine-learning

Description

Contexte

Data.gouv.fr (DGF) contient des milliers de ressources de type CSV. Déterminer à la main quels sont les ressources qui pourront être utiles pour faire des explications/tutoriels en Machine Learning (ML) avec des données ouvertes semble une tache monumentale. En outre, pouvoir utiliser des données ouvertes présente une grande opportunité pour familiariser les utilisateurs avec la démarche open data et au même temps promouvoir les réutilisations de ces données.

Méthodologie

Afin d’éventuellement accélérer le processus de sélection des datasets pertinents pour le ML, dans ce dataset nous présentons pour chacun de 5479 fichiers CSV analysés (catalogués dans data.gouv.fr), une liste des modèles entraînés sur chacune des variables catégorielles détectées dans chaque CSV. Pour l'instant on se concentre que sur des modèles de classification supervisée. Brièvement, l'analyse consiste en détecter les colonnes catégorielles de chaque dataset, tester plusieurs modèles de classification en ayant chaque une de ces colonnes comme variable à expliquer. Finalement, nous sauvegardons les détails de chaque modèle testé ainsi que ses résultats en termes de performance.

Pour chaque CSV:
    Déterminer les colonnes catégorielles ;
    Pour chaque variable catégorielle (ou colonnes catégorielles):
        a. Faire tourner un ensemble des modèles d'apprentissage de type "baseline" (GaussianNaiveBayes, LogisticRegression, DecisionTrees, ...) ;
        b. Récupérer les performances issues de la validation, basée sur des métriques de performance: (accuracy, recall_macro, precision_macro, f1_macro, roc_auc)
    Sauvegarder ces infos dans un CSV

Cette méthodologie est absolument basé sur la librairie dabl: The data analysis baseline library.

Output

Les CSVs de ce dataset sont organisés par producteur du dataset. Le nom de chaque fichier CSV suive le format id-dataset--id-ressource.csv.
Chaque CSV généré peut contenir ces colonnes :

csv_id: Id du dataset DGF suivi par l'Id de la ressource (separés par --) ;
task: Task ML (que classification pour l'instant) ;
algorithm: Nom de l’algorithme testé ainsi que ça configuration initiale ;
target_col : Noms de la colonne catégorielle testée ;
nb_features: Nombre des features utilisés dans le modèle ;
features_names: Noms des features utilisés ;
classes : Noms des classes prédites ;
nb_classes : Nombre des classes prédites ;
nb_lines: Nombre des lignes dans le dataset original ;
nb_samples: Nombre des lignes dans l’échantillon testé ;
date : Date de l'analyse ;
accuracy
recall_macro
precision_macro
f1_macro
average_precision
roc_auc
avg_scores : Moyenne des scores calculés ;

Code

Le code pour produire ce dataset se trouve sur.

TODO

Lancer la même analyse pour la régression (avec des valeurs continus)
Standardiser les colonnes de tout les CSV produits (le même entête pour tous les CSVs)
Ajouter une variable qui affiche la corrélation entre les colonnes.

Auteur

Pavel Soriano

Ce jeu de données a été publié à l'initiative et sous la responsabilité de Pavel Soriano.

Dernière mise à jour

24 juin 2020

Licence

Licence Ouverte / Open Licence

Qualité des métadonnées

77.77777777777779/100

Couverture temporelle non renseignée

Couverture spatiale non renseignée

1 Fichier principal ¹

dabl-results-dgf.zip

Mis à jour le 24 juin 2020

zip (8.9Mo)

169 téléchargements

URL: https://static.data.gouv.fr/resources/modeles-de-classification-et-ses-resultats-entraines-sur-certains-ressources-csv-de-data-gouv-fr/20200624-182322/dabl-results-dgf.zip
URL stable: https://www.data.gouv.fr/fr/datasets/r/0a0b2d1c-5c52-4945-87de-c67c0ff349a9
sha1: 43c6f4a71e00543ba96a32ed043dc2cda2aca2cb
Type MIME: application/zip

Créée le: 24 juin 2020
Modifiée le: 24 juin 2020

Taille: 8.9Mo

Zip contenant les résultats de l'analyse avec Dabl.

1 Documentation ¹

5af036f5b595081c1880a895-ab5711d8-026a-4e69-9e21-74d150275bff-dabl.csv

Mis à jour le 24 juin 2020

csv (1.7Ko)

159 téléchargements

URL: https://static.data.gouv.fr/resources/modeles-de-classification-et-ses-resultats-entraines-sur-certains-ressources-csv-de-data-gouv-fr/20200624-182400/5af036f5b595081c1880a895-ab5711d8-026a-4e69-9e21-74d150275bff-dabl.csv
URL stable: https://www.data.gouv.fr/fr/datasets/r/139dd62c-3bb5-49b6-99fb-bb3e7ad5e2e1
sha1: 9ba2db77920c9df198c10d74dc3a06c1578f6c79
Type MIME: text/csv

Créée le: 24 juin 2020
Modifiée le: 24 juin 2020

Taille: 1.7Ko

Fichier d'analyse exemple.

1 API

Il n'y a pas encore de réutilisation pour ce jeu de données.

Publiez une réutilisation Qu'est-ce qu'une réutilisation ?

Il n'y a pas encore de discussion pour ce jeu de données.

Il n'y a pas encore de ressources communautaires pour ce jeu de données.

Partagez vos ressources En savoir plus sur la communauté

Informations

Licence

Licence Ouverte / Open Licence

ID

5ef37c8d2a4d43e1ab3f9d78

Temporalité

Création

24 juin 2020

Fréquence

Sans régularité

Dernière mise à jour

24 juin 2020

Actions

Intégrer sur votre site

<div data-udata-dataset="5ef37c8d2a4d43e1ab3f9d78"></div><script data-udata="https://www.data.gouv.fr/" src="https://static.data.gouv.fr/static/oembed.js" async defer></script>

Statistiques des 12 derniers mois

Télécharger les statistiques de trafic au format CSV

Visites

1,7k

7 en avr. 2025

Téléchargements

112

1 en avr. 2025

Modèles de classification (et ses résultats) entrainés sur certains ressources CSV de data.gouv.fr

Description

Contexte

Méthodologie

Output

Code

TODO

Auteur

Dernière mise à jour

Licence

Qualité des métadonnées :

Qualité des métadonnées

1 API

Informations

Tags

Licence

ID

Temporalité

Création

Fréquence

Dernière mise à jour

Actions

Intégrer sur votre site

Statistiques des 12 derniers mois

Visites

Téléchargements

Réutilisations de ce jeu de données

Favoris