Textes des publications de la HAS
Description
Textes des publications de la HAS
À propos de cette documentation
La documentation de ce jeu de données suit le concept de fiche technique pour les jeux de données (ou Datasheets for Datasets) proposé par Gebru et al. Spécifiquement, nous reprenons l'adaptation et traduction au français proposée par Samuel Goëta ici.
Le but de cette fiche technique est de normaliser la documentation à propos de pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique.
Motivations pour la création du jeu de données
Pourquoi le jeu de données a-t-il été initialement créé ? Les métadonnées des publications de la HAS sont disponibles ici. Chacune de ces publications contient des ressources liées. Dans le but de faciliter la réutilisation des connaissances produites par la HAS, ce jeu de données propose le fichier PDF ainsi qu'une version semi-structure du texte contenu à l'intérieur pour chaque ressource, pour chaque publication HAS.
Pour quelles autres tâches le jeu de données pourrait-il être utilisé ? Faciliter la découverte des informations médicales, suivre l'évolution des connaissances en santé…
Quelles sont les utilisations trompeuses du jeu de données ? Nous incluons tout l'historique des publications de la HAS disponible sur le site web. Les informations incluses dans les documents peuvent ne pas être à jour.
Qui a financé ou soutenu la création du jeu de données ? La HAS.
Composition du jeu de données
Que contient le jeu de données principalement ? Les textes bruts (non structurés (PDF) et semi-structurés (XML)) des documents rédigés par les agents de la HAS.
Deux types de fichiers semi-structurés sont mis à disposition :
- Text : fichier XML contenant le texte brut par page,
- Annotated: fichier XML contenant le mis en forme (en utilisant de balises type HTML) ainsi que le texte. Ce type de fichier existe que pour les fichiers PDF qui suivent le standard PDF/A ou PDF/UA.
Dispose-t-on d’un schéma décrivant les variables du jeu de données ? Pas pour l'instant.
Est-ce que le contenu du jeu de données dépend de ressources externes ? Oui, ce jeu de données est exploitable en combinaison avec un autre sur les métadonnées des publications de la HAS. En outre, les documents peuvent contenir des informations relatives à des ressources externes.
De quelles garanties dispose-t-on concernant la pérennité de ces ressources ? Le jeu de données des métadonnées des publications de la HAS est assuré par les agents de la HAS. Pour le reste, cela dépend de chaque ressource externe.
Processus de collecte des données
Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ? Les publications sont rédigées par des agents de la HAS. Certaines publications sont versées automatiquement sur le site internet de la HAS à partir de systèmes d'information internes, d'autres sont ajoutées manuellement. La collecte depuis le site internet de la HAS se fait par des outils informatiques.
Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ? Des agents de la HAS.
Quelle a été la période de collecte des données ? Le jeu de données contient les textes des publications créées à partir de juin 1999.
Les données ont-elles été collectées directement ou inférées à partir d’autres données ? Collectées directement.
Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ? Oui. Nous n'incluons que les publications de certains types, liées à la production des experts de la HAS. Nous écartons les publications liées au système de gestion de documents du site web. Les publications incluses/exclues sont les suivantes :
Types inclus | Types exclus |
---|---|
Avis sur les Médicaments | Médecin accrédité |
Avis sur les dispositifs médicaux et autres produits de santé | Avis et décisions de la HAS |
Évaluation des technologies de santé | Article HAS |
Recommandation de bonne pratique | Médicament |
Outil d'amélioration des pratiques professionnelles | Résultat de certification des établissements |
Guide maladie chronique | Événement de Calendrier |
Guide méthodologique | Lien externe |
Recommandation en santé publique | Article Webzine |
Études et Rapports | Communiqué de presse |
Guide usagers | Synthèse d'avis et Fiche bon usage |
Recommandation vaccinale | Newsletter HAS |
Sous-éléments | |
Glossaire - Terme | |
Avis sur les Actes | |
Brève | |
Vos interlocuteurs | |
Faq - Entrée | |
Sondage | |
Étude d'évaluation économique |
Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ?
- La transformation PDF vers texte peut introduire des erreurs orthographiques, voire rendre illisible le contenu.
- Pour la majorité des fichiers semi-structurés (XML), nous perdons le concept de table ainsi que les images.
- La création de fichiers XML annotated depend de l'annotation fait par le créateur original du fichier PDF. Par defaut, ce balisage se fait automatiquement (par exemple, par Office 365 lors de la conversion
docx
verspdf
). Cette démarche peut contenir des erreurs.
Pré-traitement des données
Comment les données ont-elles nettoyées ou préparées ?
Aucun prétraitement n'est réalisé sur les fichiers PDF.
Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ? Oui, les fichiers PDF sont diffusés dans ce jeu de données.
L’outil de prétraitement des données est-il disponible ? Oui, dans le dépôt de code correspondant à ce jeu de données.
Diffusion du jeu de données
Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…)? Oui, sur cette page data.gouv.fr.
Selon quelle licence les données sont-elles diffusées ? License Ouverte version 2.0
Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ? Non.
Maintenance du jeu de données
Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ? La Mission Data de la HAS.
Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ? Oui. Produit par les services HAS. Éditorialisé aussi par les services HAS et le service communication. Diffusé par le service informatique et la Mission Data de la HAS.
Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ? Oui, toutes les semaines. Si besoin de mettre à jour plus fréquemment, nous écrire.
Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ? Par le biais de cette page.
Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ? Oui, en nous contactant par le biais de commentaires de cette page, ou directement par e-mail.
Considérations légales et éthiques
Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ? Il ne concerne pas des individus.
Le jeu de données peut-il exposer de manière directe ou indirecte des individus ? Non à notre connaissance.
Ces données sont-elles conformes au RGPD ? Oui.
Les données peuvent-elles avantager ou désavantager des groupes sociaux ? Non à notre connaissance.
Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ? Non à notre connaissance
Organisation de fichiers
Deux fichiers ZIP sont mis à disposition :
Le premier fichier
TextesPublicationsHAS.zip
contient, pour chaque publication et pour chacune de ses ressources liées, le fichier PDF ainsi que le fichier XML text et annotated. Ce dernier existe uniquement si le fichier PDF traité suit le standard PDF/UA (tagged PDF).Le deuxieme fichier
TextesPublicationsHAS_XML.zip
ne contient que les fichiers semi-structurés XML pour toutes les thématiques.
Arborescence des fichiers
Les deux fichiers zip de ce jeu de données suivent la hiérarchie de fichiers décrite ci-dessous :
├── AVISMedicament # Thématique de la publication
│ ├── p_3201790 # Id de la publication
| | ├── p_3201789 # Id de la ressource
| | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742.pdf
| | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_tagged.xml # Fichier XML tagged avec la date de publication comme préfixe
| | | ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_text.xml # Fichier XML text avec la date de publication comme préfixe
│ ├── c_1001256
│ ├── c_1001258
│ ├── c_1001261
| ├── ...
├── AVISMedicament
| ├── ...
├── AVISProduitsEtPrestations
| ├── ...
├── EtudeEtEnquete
| ├── ...
├── EvaluationDesPratiques
| ├── ...
├── EvaluationDesProgrammesEtPolitiq
| ├── ...
├── EvaluationDesTechnologiesDeSante
| ├── ...
├── GuideMedecinALD
| ├── ...
├── GuideMethodologique
| ├── ...
├── GuidePatient
| ├── ...
├── RecommandationsProfessionnelles
| ├── ...
├── RecommandationVaccinale
| ├── ...
Producteur
Dernière mise à jour
18 novembre 2024
Licence
Licence Ouverte / Open Licence version 2.0
Qualité des métadonnées :
Description des données renseignée
Documentation des fichiers manquante
Licence renseignée
Fréquence de mise à jour respectée
Formats de fichiers standards
Couverture temporelle non renseignée
Couverture spatiale non renseignée
Tous les fichiers sont disponibles
Qualité des métadonnées
Documentation des fichiers manquante
Couverture temporelle non renseignée
Couverture spatiale non renseignée
Il n'y a pas encore de réutilisation pour ce jeu de données.
Il n'y a pas encore de ressources communautaires pour ce jeu de données.
Informations
Mots-clés
ID
628f9c55cde04a0912e8d854
Temporalité
Création
26 mai 2022
Fréquence
Hebdomadaire
Dernière mise à jour
18 novembre 2024
Actions
Intégrer sur votre site
Statistiques des 12 derniers mois
Visites
933
Téléchargements
266
Réutilisations de ce jeu de données
0
Favoris
0