Métadonnées des Publications de l'INCa
Description
Métadonnées des Publications de l'INCa
À propos de cette documentation
La documentation de ce jeu de données suit le concept de fiche technique pour les jeux de données (ou Datasheets for Datasets) proposé par Gebru et al. Spécifiquement, nous reprenons l'adaptation et traduction au français proposée par Samuel Goëta ici.
Le but de cette fiche technique est de normaliser la documentation à propos de pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique.
Motivations pour la création du jeu de données
Pourquoi le jeu de données a-t-il été initialement créé ? Les données des publications de l'INCa sont accessibles sur les fiches web du site de l'INCa. Ce jeu de données centralise les données de publication sous forme d'un fichier JSON.
Pour quelles autres tâches le jeu de données pourrait-il être utilisé ? Créer un graphe de connaissance en liant les publications par rapport aux collections, publics, dates, contenu du résumé etc.
Quelles sont les utilisations trompeuses du jeu de données ? L'utilisation des dates de publication ou de mise à jour comme des dates ayant une valeur légale. Ces dates font partie d'un processus métier interne et ne peuvent pas être prises en compte pour des démarches légales.
Qui a financé ou soutenu la création du jeu de données ? L'INCa pour les données disponibles sur le site de l'INCa, la HAS pour la centralisation de ces données et leur mise à disposition.
Composition du jeu de données
Que contient le jeu de données principalement ? Les métadonnées des documents rédigés par les agents de l'INCa.
Dispose-t-on d’un schéma décrivant les variables du jeu de données ? Oui :
├── Titre
├── Collection
├── PublicationInfos
│ ├── Public
│ ├── Date de publication
│ ├── Référence # identifiant unique de la publication
│ ├── Format # format papier (A4...)
│ ├── Langue
│ ├── LienPublication # lien vers le fichier PDF disponible [ici](https://www.data.gouv.fr/fr/datasets/62721e92b9937f6a1c5b8b96/)
├── Résumé
│ ├── Texte
│ ├── Liens # liens présents dans le texte du résumé
├── Partenaires
│ ├── Texte
│ ├── Liens # liens présents dans le texte des partenaires
├── LienSite # URL de la fiche
Que contient chaque champ du jeu de données ? Voir l'arborescence des champs ci-dessus.
Est-ce que le contenu du jeu de données dépend de ressources externes ? Non
De quelles garanties dispose-t-on concernant la pérennité de ces ressources ? Les données de publications présentes dans ce jeu de données ont été extraites de façon ponctuelle du site de l'INCa, l'auteur de ce jeu de données ne peut apporter de garantie sur la pérennité des données sources disponibles sur le site de l'INCa.
Processus de collecte des données
Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ? Les publications sont rédigées par des agents de l'INCa et sont mises à disposition sur le site de l'INCa. La collecte a été faite en utilisant des techniques de web scraping.
Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ? Cette collecte a été réalisée dans le cadre d’une mission pour le compte de la HAS, afin que les données soient mises à disposition des participants du Défi iDoc Santé.
Quelle a été la période de collecte des données ? Les données de publication ont été collectées le 04/05/2022.
Les données ont-elles été collectées directement ou inférées à partir d’autres données ? Les données de publication de l'INCa ont été collectées directement sur les pages des fiches correspondantes, à l’aide de techniques de web scraping.
Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ? Les données de publication de l'INCa sont exhaustives sur le résultat de la requête des fiches en français.
Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ? Aucune connue à ce jour.
Pré-traitement des données
Comment les données ont-elles nettoyées ou préparées ?
Pour chaque fiche :
- les liens relatifs ont été modifiés afin de proposer un lien complet contenant la racine https://www.e-cancer.fr/
- les liens erronés ont été corrigés manuellement
- les liens présents dans le texte des résumé ou partenaires sont présentés séparément du texte brut
Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ? Oui, elles sont trouvables sur le site de l'INCa.
L’outil de prétraitement des données est-il disponible ? Oui, dans le repo correspondant à ce dataset.
Diffusion du jeu de données
Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…)? Oui, sur cette page data.gouv.fr.
Selon quelle licence les données sont-elles diffusées ? License Ouverte version 2.0
Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ? Non.
Maintenance du jeu de données
Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ? La Mission Data de la HAS.
Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ? Non. Les données de publication sont produites, éditorialisées et diffusées par les services de l’INCa.
Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ? Non.
Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ? À travers de cette page.
Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ? Oui, en nous contactant à travers des commentaires de cette page ou directement par e-mail.
Considérations légales et éthiques
Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ? Il ne concerne pas des individus.
Le jeu de données peut-il exposer de manière directe ou indirecte des individus ? Non, pas à notre connaissance.
Ces données sont-elles conformes au RGPD ? Oui.
Les données peut-elles avantager ou désavantager des groupes sociaux ? Non, pas à notre connaissance.
Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ? Non, pas à notre connaissance
Organisation de fichiers
Un fichier metadatapublicationsinca.json est mis à disposition.
Dictionnaire des données abrégé
Champ | Description | Commentaire |
---|---|---|
Titre |
Titre de la publication | |
Collection |
Collections auxquelles la publication est rattachée | |
Public |
Public cible de la publication | |
Date de publication |
Date de publication | Date sans valeur légale |
Référence |
Identifiant unique de la publication | |
Format |
Format papier de la publication | Par ex: Affichette, Brochure A4... |
Langue |
Langue de la publication | Uniquement français ici |
LienPublication |
Lien vers le fichier PDF relatif à la fiche | |
Texte (<Résumé) |
Résumé en texte brut | |
Liens (<Résumé) |
Lien présent dans le résumé | |
Texte (<Partenaires) |
Partenaires | |
Liens (<Partenaires) |
Lien présent dans les partenaires | |
LienSite |
Lien de la fiche de publication |
Producer
Latest update
May 3, 2022
License
License Not Specified
Metadata quality:
Data description filled
Files documentation missing
License filled
Update frequency followed
File formats are open
Temporal coverage not set
Spatial coverage not set
All files are available
Metadata quality
Files documentation missing
Temporal coverage not set
Spatial coverage not set
There are no reuses for this dataset yet.
There are no discussions for this dataset yet.
There are no community resources for this dataset yet.
Information
Tags
License
License Not Specified
ID
62718e928b7f39c0942e4473
Temporality
Creation
May 3, 2022
Frequency
Punctual
Latest update
May 3, 2022
Actions
Embed
Statistics for the year
Views
753
Downloads
10
Reuses of this dataset
0
Followers
0