Profils d'utilisateurs Twitter From French Ambassador for Digital Affairs / Ambassadeur pour le numérique Ce dataset permet d’entrainer l’algorithme qui détermine la probabilité qu’un compte soit un bot ou non (https://github.com/ambanum/social-networks-bot-finder/) Liste des dataset fusionnés : Cresci (https://botometer.osome.iu.edu/bot-repository/datasets.html) Gilani… Metadata quality: Metadata quality: Data description filled Files documented License filled Update frequency followed File formats are open Temporal coverage not set Spatial coverage not set All files are available Learn more about this indicator Metadata quality: 77.77777777777779/100 Updated on June 28, 2021 License Not Specified 0 reuses 1 favorite
Base Étendue, Améliorée et Unifiée des Annonces des Marchés Publics (BeauAMP) BeauAMP From Adrien Deschamps Le jeu de données fusionne les informations contenues au Bulletin Officiel des Annonces des Marchés Publics (BOAMP) avec les données de la base SIRENE de l'INSEE pour l'ensemble des marchés publics attribués de 2015 à 2023. Principaux apports : Conversion des données textuelles des avis publiés au… Metadata quality: Metadata quality: Data description filled Files documented License filled Update frequency followed File formats are open Temporal coverage filled Spatial coverage filled All files are available Learn more about this indicator Metadata quality: 100.0/100 Updated on May 7, 2024 Creative Commons Attribution Share-Alike 0 reuses 2 favorites
Modèles de classification (et ses résultats) entrainés sur certains ressources CSV de data.gouv.fr From Pavel Soriano Contexte Data.gouv.fr (DGF) contient des milliers de ressources de type CSV. Déterminer à la main quels sont les ressources qui pourront être utiles pour faire des explications/tutoriels en Machine Learning (ML) avec des données ouvertes semble une tache monumentale. En outre, pouvoir utiliser des… Metadata quality: Metadata quality: Data description filled Files documented License filled Update frequency followed File formats are open Temporal coverage not set Spatial coverage not set All files are available Learn more about this indicator Metadata quality: 77.77777777777779/100 Updated on June 24, 2020 Licence Ouverte / Open Licence 0 reuses 0 favorites
Jeux de toxicité des mots From WebCressonTech Voici un dictionnaire de mots toxiques permettant l'entraînement d'une potentielle machine Learning ou autres. C'est mots sont triés en Label "1" pour l'étiquetage des données. Vous pouvez en rajouter au tant que vous voulez, tant que vous respectez la logiques du CSV. Metadata quality: Metadata quality: Data description filled Files documented License filled Update frequency not followed File formats are open Temporal coverage filled Spatial coverage filled All files are available Learn more about this indicator Metadata quality: 88.88888888888889/100 Updated on December 14, 2023 Licence Ouverte / Open Licence version 2.0 0 reuses 0 favorites