Données synthétiques de la base principales du Système National des Données de Santé

Description de la base de données :

Objectifs et finalités initiales de la base de données :

Mise à disposition d’un jeu de données synthétiques (données fictives) selon le modèle des tables de la base principale du SNDS pour 50 patients fictifs.

Contexte de création :

Ce jeu de données a été généré en utilisant le schéma des tables de la base principale du SNDS de l’année 2019.

L'intérêt scientifique des données de synthèse peut se manifester au travers de nombreux cas d’usage. En effet, les données synthétiques peuvent permettre de :

Découvrir et comprendre les données de la base principale du SNDS (DCIR, PMSI, CépiDc, etc.),
Se former à la manipulation de ces données,
Commencer à préparer des programmes en attendant d’être formellement autorisé à accéder aux données réelles,
Créer du contenu pédagogique.

Les données exposées reproduisent aléatoirement les variables des tables de la base principale du SNDS mais n’ont pas de cohérence statistique, ni médicale. Ce jeu de données est principalement utile pour découvrir la base principale du SNDS.

Public cible :

Ces données synthétiques s’adressent à l’écosystème des acteurs de la donnée de santé qui souhaitent découvrir le SNDS et le type de contenu que sa base principale peut contenir.

Résultats associés à la création de la base :

Le code source qui a permis de générer ce jeu de données se trouve dans ce lien.

Les versions des librairies (packages) et de Python utilisées pour la génération des données synthétiques sont les suivantes :
Python 3.8.10 (default, Jun 22 2022, 20:18:18)

Packages et versions utilisées :
attrs 23.2.0 ,decorator 5.1.1 ,Faker 4.1.2 ,iniconfig 2.0.0 ,joblib 1.3.2 ,networkx 2.5 ,numpy 1.19.2 ,packaging 23.2 ,pandas 1.2.3 ,pip 20.0.2 ,pkg-resources 0.0.0 ,pluggy 0.13.1 ,py 1.11.0 ,pytest 6.2.2 ,python-dateutil 2.9.0.post0,python-Levenshtein 0.12.2 ,pytz 2024.1 ,scikit-learn 0.24.2 ,scipy 1.10.1 ,setuptools 44.0.0 ,six 1.16.0 ,text-unidecode 1.3 ,threadpoolctl 3.3.0 ,toml 0.10.2 .

Le code qui a été utilisé pour générer les données synthétiques présentées ici a utilisé la configuration qui se trouve dans le fichier snds.config. Le détail de cette configuration est décrite ci-dessous :

[BASE]
base_name = SNDS #choose a root for every connected component of the data base which contains more than 2 tables_
roots = IR_BEN_R #_fill only one parameter of n_beneficiaires, volume_beneficiaires (which is indicated in Mo)
n_beneficiaires = 50 #_volume_beneficiaires = 8000
export_path = test_snds #_path2resources = src/resources
sep = ;

Présentation des données :

Méthodologie de collecte et critères d’inclusion :

Aucune collecte de données n’est réalisée pour générer ces données synthétiques. Nous nous appuyons seulement sur le schéma des tables de la base principale du SNDS.

Choix des variables :

Toutes les variables des tables de la base principale du SNDS sont visées pour être le plus exhaustif possible. Le schéma considéré est celui de l’année 2019.

Description détaillée de chaque champ :

La description des champs se trouve dans le dictionnaire des variables de la base principale du SNDS.

Structure de la base et rationnel des fichiers :

Le jeu de données synthétique a été scindé selon les composantes suivantes. La description des tables se trouve dans la documentation. Notons que la composante “DCIR_DCIRS” est aussi appelée “REFERENTIELS”.

-BENEFICIAIRE
IR_BEN_R.csv
IR_IBA_R.csv

-CARTOGRAPHIE_PATHOLOGIES
CT_DEP_AAAA_GN.csv
CT_IDE_AAAA_GN.csv
CT_IND_AAAA_GN.csv

-Causes de décès
KI_CCI_R.csv
KI_ECD_R.csv

-DCIR
ER_ANO_F.csv
ER_ARO_F.csv
ER_BIO_F.csv
ER_CAM_F.csv
ER_CPT_F.csv
ER_DCT_F.csv
ER_DTR_F.csv
ER_ETE_F.csv
ER_INV_F.csv
ER_LOT_F.csv
ER_PHA_F.csv
ER_PRS_F.csv
ER_RAT_F.csv
ER_TIP_F.csv
ER_TRS_F.csv
ER_UCD_F.csv

-DCIR_DCIRS ou REFERENTIELS
BE_IDE_R.csv
DA_PRA_R.csv
IR_ACS_R.csv
IR_ETM_R.csv
IR_IMB_R.csv
IR_MAT_R.csv
IR_MTT_R.csv
IR_ORC_R.csv

-PMSI
├───PMSI HAD
│ T_HADaaA.csv
│ T_HADaaB.csv
│ T_HADaaC.csv
│ T_HADaaD.csv
│ T_HADaaDMPA.csv
│ T_HADaaDMPP.csv
│ T_HADaaE.csv
│ T_HADaaEHPA.csv
│ T_HADaaFA.csv
│ T_HADaaFB.csv
│ T_HADaaFC.csv
│ T_HADaaFH.csv
│ T_HADaaFI.csv
│ T_HADaaFL.csv
│ T_HADaaFM.csv
│ T_HADaaFP.csv
│ T_HADaaGJ.csv
│ T_HADaaGRE.csv
│ T_HADaaGRP.csv
│ T_HADaaLEG.csv
│ T_HADaaMED.csv
│ T_HADaaMEDATU.csv
│ T_HADaaMEDCHL.csv
│ T_HADaaMON.csv
│ T_HADaaS.csv
│ T_HADaaSTC.csv
│
├───PMSI MCO
│ T_MCOaaA.csv
│ T_MCOaaB.csv
│ T_MCOaaBPHN.csv
│ T_MCOaaC.csv
│ T_MCOaaCSTC.csv
│ T_MCOaaD.csv
│ T_MCOaaDIALP.csv
│ T_MCOaaDMIP.csv
│ T_MCOaaE.csv
│ T_MCOaaFA.csv
│ T_MCOaaFASTC.csv
│ T_MCOaaFB.csv
│ T_MCOaaFBSTC.csv
│ T_MCOaaFC.csv
│ T_MCOaaFCSTC.csv
│ T_MCOaaFH.csv
│ T_MCOaaFHSTC.csv
│ T_MCOaaFI.csv
│ T_MCOaaFL.csv
│ T_MCOaaFLSTC.csv
│ T_MCOaaFM.csv
│ T_MCOaaFMSTC.csv
│ T_MCOaaFP.csv
│ T_MCOaaFPSTC.csv
│ T_MCOaaGVxx.csv
│ T_MCOaaIVG.csv
│ T_MCOaaLEG.csv
│ T_MCOaaMED.csv
│ T_MCOaaMEDATU.csv
│ T_MCOaaMEDTHROMBO.csv
│ T_MCOaaORP.csv
│ T_MCOaaPIE.csv
│ T_MCOaaPIP.csv
│ T_MCOaaPORG.csv
│ T_MCOaaSTC.csv
│ T_MCOaaSUP_BPHNA.csv
│ T_MCOaaSUP_BPHNC.csv
│ T_MCOaaSUP_BPHNP.csv
│ T_MCOaaSUP_CES.csv
│ T_MCOaaSUP_FFM.csv
│ T_MCOaaSUP_LACT.csv
│ T_MCOaaSUP_PPCO.csv
│ T_MCOaaSUP_SMUR.csv
│ T_MCOaaSUP_USMP.csv
│ T_MCOaaUM.csv
│ T_MCOaaUPGV.csv
│ T_MCOaaVALO.csv
│ T_MCOaaVALOACE.csv
│ T_MCOaaZ.csv
│ T_SUPaaALD.csv
│ T_SUPaaATU.csv
│ T_SUPaaBPHN.csv
│ T_SUPaaDMI.csv
│ T_SUPaaFFM.csv
│ T_SUPaaIVG.csv
│ T_SUPaaMON.csv
│
├───PMSI RIM-P
│ T_RIPaaC.csv
│ T_RIPaaCCAM.csv
│ T_RIPaaE.csv
│ T_RIPaaFA.csv
│ T_RIPaaFB.csv
│ T_RIPaaFC.csv
│ T_RIPaaFH.csv
│ T_RIPaaFI.csv
│ T_RIPaaFL.csv
│ T_RIPaaFM.csv
│ T_RIPaaFP.csv
│ T_RIPaaISOCONT.csv
│ T_RIPaaR3A.csv
│ T_RIPaaR3AD.csv
│ T_RIPaaRSA.csv
│ T_RIPaaRSAD.csv
│ T_RIPaaS.csv
│ T_RIPaaSTC.csv
│
└───PMSI SSR
T_SSRaaA.csv
T_SSRaaB.csv
T_SSRaaC.csv
T_SSRaaCCAM.csv
T_SSRaaCCAR.csv
T_SSRaaCMC.csv
T_SSRaaCSARR.csv
T_SSRaaCSTC.csv
T_SSRaaD.csv
T_SSRaaE.csv
T_SSRaaFA.csv
T_SSRaaFASTC.csv
T_SSRaaFB.csv
T_SSRaaFBSTC.csv
T_SSRaaFC.csv
T_SSRaaFCSTC.csv
T_SSRaaFH.csv
T_SSRaaFI.csv
T_SSRaaFL.csv
T_SSRaaFLSTC.csv
T_SSRaaFM.csv
T_SSRaaFMSTC.csv
T_SSRaaFP.csv
T_SSRaaGHJ.csv
T_SSRaaGME.csv
T_SSRaaLEG.csv
T_SSRaaMED.csv
T_SSRaaMEDATU.csv
T_SSRaaS.csv
T_SSRaaSTC.csv

Problèmes connus/Limites du jeu de données :

Le jeu de données partagé a les caractéristiques suivantes:
Absence de cohérence statistique entre les variables et au sein d’une variable,
Absence de cohérence médicale,
Génération des dates sont aléatoires

Par conséquent, des incohérences dans les données persistent - Exemple : année de naissance post remboursement de soins, date de naissances post décès, etc.

Instructions/pré-requis d’utilisation de la base :

Les fichiers sont au format CSV peuvent être directement téléchargés.

Support :

Un support peut être apporté en sollicitant le HDH aux adresses de messagerie suivantes:
opensource@health-data-hub.fr

Autres ressources communautaires du HDH :

Documentation collaborative SNDS :
Depuis 2019, le Health Data Hub concrétise son engagement pour l’open science à travers des initiatives variées qui favorisent le partage et la valorisation des données de santé. Une collaboration étroite avec des acteurs comme la DREES, Santé publique France, la CNAM, l’ANSM, les ARS et l’ATIH a permis de développer une documentation ouverte et collaborative, régulièrement mise à jour pour accompagner les utilisateurs.
Forum entraide :
Un forum dédié à la communauté d'entraide sur le SNDS et destiné aussi bien aux débutants qu’aux experts, est mis à disposition afin de référencer les questions et réponses techniques, actualités, discussions livres, etc.
Groupe meetUp :
Dans le cadre de sa mission d'animation de l'écosystème des données de santé, le Health Data Hub organise régulièrement des Meetups autour de l’avancée des travaux exploitant la base principale du Système National des Données de Santé et de leur ouverture. Les Meetups sont des rencontres ouvertes à tous réunissant des acteurs variés dans le but d’échanger autour de cette thématique. Ces événements s'inscrivent dans une dynamique visant à participer à l’ouverture des connaissances autour du SNDS. Ce groupe, lancé en 2019, rassemble aujourd’hui plus de 3 600 membres.
Dictionnaire de variables :
Le Health Data Hub soutient également l’exploration des données grâce au dictionnaire des variables, élaboré avec la DREES, qui offre une navigation simplifiée et intègre les évolutions régulières des terminologies de la base principale du SNDS.

Citation :

Pour citer la base de données, vous pouvez utiliser le DOI suivant : https://doi.org/10.60597/n9rg-9k76