Données synthétiques de la base principales du Système National des Données de Santé

Descripción

Description de la base de données :

  • Objectifs et finalités initiales de la base de données :

Mise à disposition d’un jeu de données synthétiques (données fictives) selon le modèle des tables de la base principale du SNDS pour 50 patients fictifs.

  • Contexte de création :

Ce jeu de données a été généré en utilisant le schéma des tables de la base principale du SNDS de l’année 2019.

L'intérêt scientifique des données de synthèse peut se manifester au travers de nombreux cas d’usage. En effet, les données synthétiques peuvent permettre de :

Découvrir et comprendre les données de la base principale du SNDS (DCIR, PMSI, CépiDc, etc.),
Se former à la manipulation de ces données,
Commencer à préparer des programmes en attendant d’être formellement autorisé à accéder aux données réelles,
Créer du contenu pédagogique.

Les données exposées reproduisent aléatoirement les variables des tables de la base principale du SNDS mais n’ont pas de cohérence statistique, ni médicale. Ce jeu de données est principalement utile pour découvrir la base principale du SNDS.

  • Public cible :

Ces données synthétiques s’adressent à l’écosystème des acteurs de la donnée de santé qui souhaitent découvrir le SNDS et le type de contenu que sa base principale peut contenir.

  • Résultats associés à la création de la base :

Le code source qui a permis de générer ce jeu de données se trouve dans ce lien.

Les versions des librairies (packages) et de Python utilisées pour la génération des données synthétiques sont les suivantes :
Python 3.8.10 (default, Jun 22 2022, 20:18:18)

Packages et versions utilisées :
attrs 23.2.0 ,decorator 5.1.1 ,Faker 4.1.2 ,iniconfig 2.0.0 ,joblib 1.3.2 ,networkx 2.5 ,numpy 1.19.2 ,packaging 23.2 ,pandas 1.2.3 ,pip 20.0.2 ,pkg-resources 0.0.0 ,pluggy 0.13.1 ,py 1.11.0 ,pytest 6.2.2 ,python-dateutil 2.9.0.post0,python-Levenshtein 0.12.2 ,pytz 2024.1 ,scikit-learn 0.24.2 ,scipy 1.10.1 ,setuptools 44.0.0 ,six 1.16.0 ,text-unidecode 1.3 ,threadpoolctl 3.3.0 ,toml 0.10.2 .

Le code qui a été utilisé pour générer les données synthétiques présentées ici a utilisé la configuration qui se trouve dans le fichier snds.config. Le détail de cette configuration est décrite ci-dessous :

[BASE]
basename = SNDS #choose a root for every connected component of the data base which contains more than 2 tables
roots = IR_BEN_R #_fill only one parameter of n_beneficiaires, volume_beneficiaires (which is indicated in Mo)
n_beneficiaires = 50 #_volume_beneficiaires = 8000
export_path = test_snds #_path2resources = src/resources
sep = ;

[SCHEMA MODIFIER]
the following format is expected: modifier_name=table|variable|property|new value. Note that table, variable and property can be given as globstrings.
eg date_modifier=|MY_DATE|type|datetime will convert the variable MY_DATE's type to "datetime" in ALL the tables
Note that %Y%m will raise an Error, as % needs to be preceded by %. The correct version of %Y%m is %%Y%%m
modif1 =
|_DTD|format|%%d/%%m/%%Y
modif2 =
|*_DTF|format|%%d/%%m/%%Y

Présentation des données :

  • Méthodologie de collecte et critères d’inclusion :

Aucune collecte de données n’est réalisée pour générer ces données synthétiques. Nous nous appuyons seulement sur le schéma des tables de la base principale du SNDS.

  • Choix des variables :

Toutes les variables des tables de la base principale du SNDS sont visées pour être le plus exhaustif possible. Le schéma considéré est celui de l’année 2019.

  • Description détaillée de chaque champ :

La description des champs se trouve dans le dictionnaire des variables de la base principale du SNDS.

  • Structure de la base et rationnel des fichiers :

Le jeu de données synthétique a été scindé selon les composantes suivantes. La description des tables se trouve dans la documentation. Notons que la composante “DCIR_DCIRS” est aussi appelée “REFERENTIELS”.

-BENEFICIAIRE
IR_BEN_R.csv
IR_IBA_R.csv

-CARTOGRAPHIE_PATHOLOGIES
CT_DEP_AAAA_GN.csv
CT_IDE_AAAA_GN.csv
CT_IND_AAAA_GN.csv

-Causes de décès
KI_CCI_R.csv
KI_ECD_R.csv

-DCIR
ER_ANO_F.csv
ER_ARO_F.csv
ER_BIO_F.csv
ER_CAM_F.csv
ER_CPT_F.csv
ER_DCT_F.csv
ER_DTR_F.csv
ER_ETE_F.csv
ER_INV_F.csv
ER_LOT_F.csv
ER_PHA_F.csv
ER_PRS_F.csv
ER_RAT_F.csv
ER_TIP_F.csv
ER_TRS_F.csv
ER_UCD_F.csv

-DCIR_DCIRS ou REFERENTIELS
BE_IDE_R.csv
DA_PRA_R.csv
IR_ACS_R.csv
IR_ETM_R.csv
IR_IMB_R.csv
IR_MAT_R.csv
IR_MTT_R.csv
IR_ORC_R.csv

-PMSI
├───PMSI HAD
│ T_HADaaA.csv
│ T_HADaaB.csv
│ T_HADaaC.csv
│ T_HADaaD.csv
│ T_HADaaDMPA.csv
│ T_HADaaDMPP.csv
│ T_HADaaE.csv
│ T_HADaaEHPA.csv
│ T_HADaaFA.csv
│ T_HADaaFB.csv
│ T_HADaaFC.csv
│ T_HADaaFH.csv
│ T_HADaaFI.csv
│ T_HADaaFL.csv
│ T_HADaaFM.csv
│ T_HADaaFP.csv
│ T_HADaaGJ.csv
│ T_HADaaGRE.csv
│ T_HADaaGRP.csv
│ T_HADaaLEG.csv
│ T_HADaaMED.csv
│ T_HADaaMEDATU.csv
│ T_HADaaMEDCHL.csv
│ T_HADaaMON.csv
│ T_HADaaS.csv
│ T_HADaaSTC.csv

├───PMSI MCO
│ T_MCOaaA.csv
│ T_MCOaaB.csv
│ T_MCOaaBPHN.csv
│ T_MCOaaC.csv
│ T_MCOaaCSTC.csv
│ T_MCOaaD.csv
│ T_MCOaaDIALP.csv
│ T_MCOaaDMIP.csv
│ T_MCOaaE.csv
│ T_MCOaaFA.csv
│ T_MCOaaFASTC.csv
│ T_MCOaaFB.csv
│ T_MCOaaFBSTC.csv
│ T_MCOaaFC.csv
│ T_MCOaaFCSTC.csv
│ T_MCOaaFH.csv
│ T_MCOaaFHSTC.csv
│ T_MCOaaFI.csv
│ T_MCOaaFL.csv
│ T_MCOaaFLSTC.csv
│ T_MCOaaFM.csv
│ T_MCOaaFMSTC.csv
│ T_MCOaaFP.csv
│ T_MCOaaFPSTC.csv
│ T_MCOaaGVxx.csv
│ T_MCOaaIVG.csv
│ T_MCOaaLEG.csv
│ T_MCOaaMED.csv
│ T_MCOaaMEDATU.csv
│ T_MCOaaMEDTHROMBO.csv
│ T_MCOaaORP.csv
│ T_MCOaaPIE.csv
│ T_MCOaaPIP.csv
│ T_MCOaaPORG.csv
│ T_MCOaaSTC.csv
│ T_MCOaaSUP_BPHNA.csv
│ T_MCOaaSUP_BPHNC.csv
│ T_MCOaaSUP_BPHNP.csv
│ T_MCOaaSUP_CES.csv
│ T_MCOaaSUP_FFM.csv
│ T_MCOaaSUP_LACT.csv
│ T_MCOaaSUP_PPCO.csv
│ T_MCOaaSUP_SMUR.csv
│ T_MCOaaSUP_USMP.csv
│ T_MCOaaUM.csv
│ T_MCOaaUPGV.csv
│ T_MCOaaVALO.csv
│ T_MCOaaVALOACE.csv
│ T_MCOaaZ.csv
│ T_SUPaaALD.csv
│ T_SUPaaATU.csv
│ T_SUPaaBPHN.csv
│ T_SUPaaDMI.csv
│ T_SUPaaFFM.csv
│ T_SUPaaIVG.csv
│ T_SUPaaMON.csv

├───PMSI RIM-P
│ T_RIPaaC.csv
│ T_RIPaaCCAM.csv
│ T_RIPaaE.csv
│ T_RIPaaFA.csv
│ T_RIPaaFB.csv
│ T_RIPaaFC.csv
│ T_RIPaaFH.csv
│ T_RIPaaFI.csv
│ T_RIPaaFL.csv
│ T_RIPaaFM.csv
│ T_RIPaaFP.csv
│ T_RIPaaISOCONT.csv
│ T_RIPaaR3A.csv
│ T_RIPaaR3AD.csv
│ T_RIPaaRSA.csv
│ T_RIPaaRSAD.csv
│ T_RIPaaS.csv
│ T_RIPaaSTC.csv

└───PMSI SSR
T_SSRaaA.csv
T_SSRaaB.csv
T_SSRaaC.csv
T_SSRaaCCAM.csv
T_SSRaaCCAR.csv
T_SSRaaCMC.csv
T_SSRaaCSARR.csv
T_SSRaaCSTC.csv
T_SSRaaD.csv
T_SSRaaE.csv
T_SSRaaFA.csv
T_SSRaaFASTC.csv
T_SSRaaFB.csv
T_SSRaaFBSTC.csv
T_SSRaaFC.csv
T_SSRaaFCSTC.csv
T_SSRaaFH.csv
T_SSRaaFI.csv
T_SSRaaFL.csv
T_SSRaaFLSTC.csv
T_SSRaaFM.csv
T_SSRaaFMSTC.csv
T_SSRaaFP.csv
T_SSRaaGHJ.csv
T_SSRaaGME.csv
T_SSRaaLEG.csv
T_SSRaaMED.csv
T_SSRaaMEDATU.csv
T_SSRaaS.csv
T_SSRaaSTC.csv

Problèmes connus/Limites du jeu de données :

Le jeu de données partagé a les caractéristiques suivantes:
Absence de cohérence statistique entre les variables et au sein d’une variable,
Absence de cohérence médicale,
Génération des dates sont aléatoires

Par conséquent, des incohérences dans les données persistent - Exemple : année de naissance post remboursement de soins, date de naissances post décès, etc.

Instructions/pré-requis d’utilisation de la base :

Les fichiers sont au format CSV peuvent être directement téléchargés.

Support :

Un support peut être apporté en sollicitant le HDH aux adresses de messagerie suivantes:
opensource@health-data-hub.fr

Producer

Latest update

11 de abril de 2024

Licencia

Licence Ouverte / Open Licence version 2.0

Metadata quality
100.0/100

There are no reuses for this dataset yet.

Publish a reuse What's a reuse ?

There are no discussions for this dataset yet.

There are no community resources for this dataset yet.

Share your resources Learn more about the community

Information

Temporality

Creation

29 de abril de 2024

Frequency

Puntual

Cobertura temporal

2019

Latest update

11 de abril de 2024

Cobertura espacial

Territorial coverage

France

Territorial coverage granularity

País

Actions

Embed

Statistics for the year

Views

1,5k

9 in dic 2024

Downloads

555

3 in dic 2024

Reuses of this dataset

0

Followers

0