Textes des Publications de la HAS

Name: Textes des Publications de la HAS
Creator: Défi iDoc Santé
License: https://www.etalab.gouv.fr/licence-ouverte-open-licence

Description

Textes des Publications de la HAS

À propos de cette documentation

La documentation de ce jeu de données suit le concept de fiche technique pour les jeux de données (ou Datasheets for Datasets) proposé par Gebru et al. Spécifiquement, nous reprenons l'adaptation et traduction au français proposée par Samuel Goëta ici.

Le but de cette fiche technique est de normaliser la documentation à propos de pourquoi un jeu de données a été créé, quelles informations il contient, les tâches pour lesquelles il devrait et ne devrait pas être utilisé, et si cela pourrait soulever des préoccupations d’ordre éthique ou juridique.

Motivations pour la création du jeu de données

Pourquoi le jeu de données a-t-il été initialement créé ? Les métadonnées des publications de la HAS sont disponibles ici. Chacune de ces publications contient des ressources liées. Dans le but de faciliter la réutilisation des connaissances produites par la HAS, ce dataset propose le fichier PDF ainsi qu'une version semi-structure du texte contenu à l'intérieur pour chaque ressource, pour chaque publication HAS.

Pour quelles autres tâches le jeu de données pourrait-il être utilisé ? Faciliter la découverte des informations médicales, suivre l'évolution des connaissances en santé…

Quelles sont les utilisations trompeuses du jeu de données ? Nous incluons tout l'historique des publications de la HAS disponible sur le site web. Les informations incluses dans les documents peuvent ne pas être à jour.

Qui a financé ou soutenu la création du jeu de données ? La HAS.

Composition du jeu de données

Que contient le jeu de données principalement ? Les textes bruts (non structurés (PDF) et semi-structurés (XML)) des documents rédigés par les agents de la HAS.
Deux types de fichiers semi-structurés sont mis à disposition :

Text : fichier XML contenant le texte brut par page,
Annotated: fichier XML contenant le mis en forme (en utilisant de balises type HTML) ainsi que le texte. Ce type de fichier existe que pour les fichiers PDF qui suivent le standard PDF/A ou PDF/UA.

Dispose-t-on d’un schéma décrivant les variables du jeu de données ? Pas pour l'instant.

Est-ce que le contenu du jeu de données dépend de ressources externes ? Oui, ce dataset est exploitable en utilisant le dataset avec les métadonnées des publications de la HAS. En outre, les documents peuvent contenir des informations relatives à des ressources externes.

De quelles garanties dispose-t-on concernant la pérennité de ces ressources ? Le dataset des métadonnées des publications de la HAS est assuré par les agents de la HAS. Pour le reste, cela dépend de chaque ressource externe.

Processus de collecte des données

Comment les données ont été collectées (avec des capteurs, manuellement par des outils informatiques…) ? Les publications sont rédigées par des agents de la HAS et puis sont versées automatiquement à partir d'un système d'information interne. Certaines publications sont ajoutées manuellement. La collecte se fait par des outils informatiques.

Qui a assuré le processus de collecte de données (des agents, des bénévoles, des étudiants…) ? Des agents de la HAS.

Quelle a été la période de collecte des données ? Le dataset contient les textes des publications créées à partir de juin 1999.

Les données ont-elles été collectées directement ou inférées à partir d’autres données ? Collectées directement.

Les données ont-elles été collectées sur un échantillon ? Selon quelles méthodes ? Oui. Nous incluions que les types des publications liées à la production des experts de la HAS. Nous écartons les publications liées au système de gestion de documents du site web. Les publications incluses/exclues sont les suivantes :

Types inclus	Types exclus
Avis sur les Médicaments	Médecin accrédité
Avis sur les dispositifs médicaux et autres produits de santé	Avis et décisions de la HAS
Évaluation des technologies de santé	Article HAS
Recommandation de bonne pratique	Médicament
Outil d'amélioration des pratiques professionnelles	Résultat de certification des établissements
Guide maladie chronique	Événement de Calendrier
Guide méthodologique	Lien externe
Recommandation en santé publique	Article Webzine
Études et Rapports	Communiqué de presse
Guide usagers	Synthèse d'avis et Fiche bon usage
Recommandation vaccinale	Newsletter HAS
	Sous-éléments
	Glossaire - Terme
	Avis sur les Actes
	Brève
	Vos interlocuteurs
	Faq - Entrée
	Sondage
	Étude d'évaluation économique

Quelles sont les erreurs connues, les limites, les sources de bruit ou de redondances associées à ces données ?

La transformation PDF vers texte peut introduire des errerurs ortographiques voir rendre illisible le contenu.
Pour la majorité des fichiers semi-structurés (XML), nous perdons le concept de table ainsi que les images.
La creation de fichiers XML annotated depend de l'annotation fait par le createur original du fichier PDF. Par defaut, ce balisage se fait automatiquement (par exemple, par Office 365 lors de la conversion docx vers pdf). Cette démarche peut contenir des erreurs.

Pré-traitement des données

Comment les données ont-elles nettoyées ou préparées ?
Aucun prétraitement est fait aux fichiers PDF.

Les données « brutes » ont-elles été conservées ? Sont-elles diffusées ? Oui, les fichiers PDF sont diffusés dans ce dataset.

L’outil de prétraitement des données est-il disponible ? Oui, dans le repo correspondant à ce dataset.

Diffusion du jeu de données

Les données sont-elles diffusées en ligne ? Selon quelles modalités (sur un portail open data, un site web, une API…)? Oui, sur cette page data.gouv.fr.

Selon quelle licence les données sont-elles diffusées ? License Ouverte version 2.0

Des redevances ou des restrictions sont-elles appliquées dans l’accès aux données ? Non.

Maintenance du jeu de données

Qui assure la maintenance du jeu de données ? Comment peut-on contacter cette personne ? Quel est le service responsable du jeu de données ? La Mission Data de la HAS.

Est-ce que les rôles sont distincts entre la production des données, leur éditorialisation et leur diffusion ? Oui. Produit par les services HAS. Éditorialisé aussi par les services HAS et le service communication. Diffusé par le service informatique et la Mission Data de la HAS.

Le jeu de données sera-t-il mis à jour ? Si oui, à quelle fréquence ? Non.

Si les données deviennent obsolètes, comment cette information sera-t-elle communiquée ? À travers de cette page.

Est-il possible de contribuer à l’amélioration des données ? Selon quelles modalités ? Oui, en nous contactant à travers des commentaires de cette page ou directement par e-mail.

Considérations légales et éthiques

Si le jeu de données concerne des individus, ont-ils exprimé leur consentement de manière claire ? Il ne concerne pas des individus.

Le jeu de données peut-il exposer de manière directe ou indirecte des individus ? Non à notre connaissance.

Ces données sont-elles conformes au RGPD ? Oui.

Les données peut-elles avantager ou désavantager des groupes sociaux ? Non à notre connaissance.

Le jeu de données contient-il des informations pouvant être considérées comme inappropriées ou offensantes ? Non à notre connaissance

Organisation de fichiers

Douze fichiers ZIP sont mis à disposition :

Les premiers 12 fichiers contiennent, pour chaque publication et pour chacune de ses resources liées, le fichier PDF ainsi que le fichier XML text et annotated. Ce dernier existe seulement si le fichier PDF traité suit le standard PDF/UA (tagged PDF). Par souci de taille, le fichier zip des Avis sur les Médicaments est séparé en deux parties.
Le dernier fichier TextesPublicationsHAS_XML.zip contient que les fichiers semi-structurés XML pour toutes les thematiques.

Arborescence des fichiers

Tous les fichiers de ce dataset suivent la hiérarchie de fichiers décrite ci-dessous :

├── AVISMedicament  # Thématique de la publication
│   ├── p_3201790   # Id de la publication
|   |   ├── p_3201789   # Id de la ressource
|   |   |   ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742.pdf
|   |   |   ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_tagged.xml  # Fichier XML tagged avec la date de publication comme préfixe
|   |   |   ├── 2020-09-16_CT-18742_TAKHZYRO_PIS_INS_AvisDef_CT18742_text.xml    # Fichier XML text avec la date de publication comme préfixe
│   ├── c_1001256
│   ├── c_1001258
│   ├── c_1001261
|   ├── ...
├── AVISMedicament
|   ├── ...
├── AVISProduitsEtPrestations
|   ├── ...
├── EtudeEtEnquete
|   ├── ...
├── EvaluationDesPratiques
|   ├── ...
├── EvaluationDesProgrammesEtPolitiq
|   ├── ...
├── EvaluationDesTechnologiesDeSante
|   ├── ...
├── GuideMedecinALD
|   ├── ...
├── GuideMethodologique
|   ├── ...
├── GuidePatient
|   ├── ...
├── RecommandationsProfessionnelles
|   ├── ...
├── RecommandationVaccinale
|   ├── ...

Producer

Défi iDoc Santé

Latest update

May 5, 2022

License

Licence Ouverte / Open Licence version 2.0

Metadata quality

55.55555555555556/100

Update frequency not set

Temporal coverage not set

Spatial coverage not set

14 Main files

AVISMedicament_partie1_2.zip

Updated on May 5, 2022

zip (1.4GB)

45 downloads

URL: https://static.data.gouv.fr/resources/textes-des-publications-de-la-has/20220505-123446/avismedicamen1.zip
Permalink: https://www.data.gouv.fr/en/datasets/r/ef049eb1-b262-44ad-8a4b-8d17eae47ba6
sha1: 5bf2971adf7cf53780fe02c545616c71a8378ff2
MIME Type: application/zip

Created on: May 5, 2022
Modified on: May 5, 2022

Size: 1.4GB

Fichier 1/2 des Avis sur les Médicaments

AVISMedicament_partie2_2.zip

Updated on May 5, 2022

zip (2.0GB)

27 downloads

URL: https://static.data.gouv.fr/resources/textes-des-publications-de-la-has/20220505-124622/avismedicamen2.zip
Permalink: https://www.data.gouv.fr/en/datasets/r/fbc33d3a-6a15-4181-9db7-59734cde5ac1
sha1: cf431e7e5bb7279348fc27cc701c8e109824219e
MIME Type: application/zip

Created on: May 5, 2022
Modified on: May 5, 2022

Size: 2.0GB

Fichier 2/2 des Avis sur les Médicaments

AVISProduitsEtPrestations.zip

Updated on May 4, 2022

zip (1.8GB)

30 downloads

URL: https://static.data.gouv.fr/resources/textes-des-publications-de-la-has/20220504-165854/avisproduitsetprestations.zip
Permalink: https://www.data.gouv.fr/en/datasets/r/850cb1a1-1655-492d-832a-c17227fc15f0
sha1: a8624eea973198f01c0315bc2e4fd30d07b4e1d0
MIME Type: application/zip

Created on: May 4, 2022
Modified on: May 4, 2022

Size: 1.8GB

EtudeEtEnquete.zip

Updated on May 4, 2022

zip (262.9MB)

23 downloads

URL: https://static.data.gouv.fr/resources/textes-des-publications-de-la-has/20220504-170400/etudeetenquete.zip
Permalink: https://www.data.gouv.fr/en/datasets/r/4e23d366-566c-4496-8475-f6a6cce4f128
sha1: 25d0420039446e5ceec37e541976f480a9b86691
MIME Type: application/zip

Created on: May 4, 2022
Modified on: May 4, 2022

Size: 262.9MB

EvaluationDesPratiques.zip

Updated on May 4, 2022

zip (500.3MB)

22 downloads

URL: https://static.data.gouv.fr/resources/textes-des-publications-de-la-has/20220504-170659/evaluationdespratiques.zip
Permalink: https://www.data.gouv.fr/en/datasets/r/973c9566-bed9-472e-b260-b30edef4eda5
sha1: a4592cfe39ffae1924cd19fcd0c63e888c56e848
MIME Type: application/zip

Created on: May 4, 2022
Modified on: May 4, 2022

Size: 500.3MB

EvaluationDesProgrammesEtPolitiq.zip

Updated on May 4, 2022

zip (178.9MB)

23 downloads

URL: https://static.data.gouv.fr/resources/textes-des-publications-de-la-has/20220504-170853/evaluationdesprogrammesetpolitiq.zip
Permalink: https://www.data.gouv.fr/en/datasets/r/4b100282-69a5-4614-b8f2-5353249e0b1a
sha1: db933f0b15f2c2fd93ee0fa386fe194614cab101
MIME Type: application/zip

Created on: May 4, 2022
Modified on: May 4, 2022

Size: 178.9MB

See the 14 main files

There are no reuses for this dataset yet.

Publish a reuse What's a reuse ?

There are no discussions for this dataset yet.

There are no community resources for this dataset yet.

Share your resources Learn more about the community

Information

License

Licence Ouverte / Open Licence version 2.0

ID

627246af9e0377f18d4cdb48

Temporality

Creation

May 4, 2022

Frequency

Unknown

Latest update

May 5, 2022

Actions

Embed

<div data-udata-dataset="627246af9e0377f18d4cdb48"></div><script data-udata="https://www.data.gouv.fr/" src="https://static.data.gouv.fr/static/oembed.js" async defer></script>

Statistics for the year

Download traffic metrics as CSV

Views

454

7 in May 2025

Downloads

111

5 in May 2025

Textes des Publications de la HAS

Description

Textes des Publications de la HAS

À propos de cette documentation

Motivations pour la création du jeu de données

Composition du jeu de données

Processus de collecte des données

Pré-traitement des données

Diffusion du jeu de données

Maintenance du jeu de données

Considérations légales et éthiques

Organisation de fichiers

Arborescence des fichiers

Producer

Latest update

License

Metadata quality:

Metadata quality

Information

Tags

License

ID

Temporality

Creation

Frequency

Latest update

Actions

Embed

Statistics for the year

Views

Downloads

Reuses of this dataset

Followers