Parcours d'études dans l'enseignement supérieur en Île-de-France à partir des données SISE (2022-2023)

Description

Données sources

Les données sources sont toutes les données SISE (système d'information pour le suivi des étudiants) sur les inscriptions et les réussites entre 2010 et 2022. Soit les années universitaires 2010-2011 à 2022-2023. Nous n'avons pris en considération que les parcours individuels ayant au moins une inscription entre 2018 et 2022. Pour se conformer à la demande d'accès à ces données que nous avions formulée nous nous sommes limités aux données concernant les académies de Paris, Créteil et Versailles. Nous envisageons d'étendre notre demande d'accès de façon à produire des données de portée nationale.

L'exploitation de ces données sources a été réalisée le 7 septembre 2023.

Données produites

L'objectif du projet Oraccle est de produire des données ouvertes montrant les parcours d'études possibles en Île-de-France dans leur plus grande variété, de façon à enrichir le dialogue d'orientation. Les données produites s'attachent à préserver cette richesse des parcours tout en préservant l'anonymat des personnes les ayant suivies, quitte à rendre les données inexploitables pour la production d'indicateurs quantitatif sur les flux et les réussites.

Pour plus d'informations sur le projet Oraccle voir le site https://oraccle.fr et sur l'action open data de ce projet voir la documentation https://data.pages.unif.app.

Les données sources nécessitent d'accéder à des codifications auxiliaires pour être comprises. Nous avons conservé ces références externes dans les données produites.

Les codes UAI (unité administrative immatriculée) identifient de manière unique les établissements publics et privés d'enseignement et leurs composantes (ils succèdent aux codes RNE, répertoire national des établissements). La donnée de référence sur cette nomenclature est accessible sur le site du ministère de l'Éducation nationale et de la jeunesse via l'application de consultation et cartographie des établissements (https://www.education.gouv.fr/acce_public/search.php?mode=advanced) et sur le portail open data de ce ministère (https://data.education.gouv.fr/explore/dataset/fr-en-annuaire-education/).

Les codes SISE des diplômes étaient accessibles via un portail de la direction de l’Évaluation, de la prospective et de la performance du ministère de l'Éducation nationale et de la jeunesse. Ce portail appelé Infocentre apparait comme fermé, mais il fournit une base centrale des nomenclatures, https://infocentre.pleiade.education.fr/bcn/, où l'on peut retrouver les codes SISE de diplôme y compris avec des mises à jour très récentes
https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_DIPLOME_SISE.

La méthode d'anonymisation que nous avons employée est une variante de la k-anonymisation pour k = 5, avec un peu moins d'effacement. Cette méthode est détaillée plus bas.

Le format de sortie est le CSV, avec une virgule comme séparateur et des guillemets doubles (ascii) autour de chaque champ (y compris les champs numériques), en UTF-8.

Les données sources concernent 1,5 millions de parcours individuels (exactement 1 518 563 individus).

Fichier formations.csv

Tableau de l'ensemble des formations ayant reçu des inscriptions d'étudiant⋅es d'après les données SISE restreintes à l'Île-de-France. Mis à part le code formation, les champs reprennent la nomenclature SISE.

  • formation: code construit en concaténant l'identifiant de composante (code UAI), l'identifiant de diplôme (code SISE) et, lorsque l'information existe, le degré d'étude (DEGETU des données SISE)
  • acaeta: académie de l'établissement tel que fourni dans les données SISE (code à deux chiffres)
  • compos: le code UAI de la composante (code établissement ou code d'une composante de l'établissement)
  • cursus-lmd: L, M ou D selon le type de cursus
  • cycle: 1, 2 ou 3 selon le cycle concerné
  • degetu: degré d'étude (le n du bac + n)
  • diplom: code SISE du diplôme. Le code commence par un chiffre entre 1 et 8 inclus. Formation LMD sur 3 caractères 210 (licence), 220 (master indifférencié), 221 (master professionnel), 222 (master recherche), 420 (doctorat), 230 (licence), 240 (licence pro), 250 (master). Les codes suivent soit la nomenclature nationale dans le cas de diplômes nationaux soit une nomenclature ad-hoc lorsqu'ils concernent des diplômes universitaires (donc créés par les établissements).
  • etabli: code UAI de l'établissement, il peut être différent du code composante
  • groupe: groupe disciplinaire selon la nomenclature SISE
  • sectdis: code à deux chiffres représentant le secteur disciplinaire du diplôme (52 valeurs possibles dans la nomenclature SISE).
  • typ-dipl: type de diplôme (codé sur deux caractères).

précaution d'anonymisation : aucune.

nombre de lignes (formations) : 54 132.

Fichier cohortes.csv

Une cohorte est caractérisée par deux données, d'une part une séquence d'inscriptions principales dans des formations, une par année d'inscription et organisées selon les années croissantes et d'autre part un ensemble de formations réussies, ensemble organisé en séquence croissante selon l'ordre lexicographique. Le nombre de personnes ayant suivi exactement cette séquence d'inscriptions avec exactement cet ensemble de réussites est l'effectif de la cohorte. Si la cohorte avait un effectif inférieur à 5 son effectif n'est pas communiqué. Il est alors remplacé par un zéro (pour conserver l'homogénéité du type numérique pour la colonne). La séquence d'inscriptions ainsi que la liste des réussites sont conservés. Les années d'inscriptions ou de réussite ne sont pas conservés dans cette donnée. Par contre, lorsque les inscriptions sautent une ou plusieurs années, le mot-clé "trou" remplace le code formation dans la séquence.

  • cohorteid: identifiant numérique de la cohorte
  • effectif: nombre de personnes dans la cohortes, ou zéro si ce nombre est inférieur à 5.
  • inscriptions: séquence des inscriptions dans des formations, représentée par la concaténation des codes formation au sens de la première colonne du fichier formations.csv joints par le caractère "+". en cas d'années sans données entre deux inscriptions, le texte "trou" remplace le code formation.
  • réussites: ensemble des réussites dans des formations, codifiées par des codes formation et organisées par ordre lexicographique sous la forme d'une chaîne utilisant "+" comme séparateur.

Nous avons pris la précaution de ne pas publier l'effectif des cohortes trop singulières (moins de 5 individus dans la cohorte) et de le remplacer un zéro. Cette anonymisation des cohortes nous fait perdre 0,5 millions (543 180) de parcours individuels trop spécifiques pour être publiés dans les données produites. Cela se traduit par 47 3001 cohortes ayant un effectif masqué par un zéro. Ces cohortes avec un effectif nul avaient donc en moyenne un effectif de 1,148 personnes.

nombre de lignes (cohortes) : 503 882.

nombre de cohortes avec un effectif non masqué : 30 881.

Attributs des cohortes

Les personnes composant chaque cohorte étaient porteuses d'attributs :

  • sexe (champ SISE binaire)
  • type de bac obtenu (regroupement selon 8 valeurs)
  • année d'obtention du bac
  • année de début de la séquence d'inscriptions dans la cohorte (première année d'inscription en Île-de-France)
  • année de fin de la séquence d'inscriptions dans la cohorte (dernière année d'inscription en Île-de-France)
  • spécialités de terminale au bac général (introduites en 2021)

Ces attributs sont transformés en attributs du groupe entier qui compose la cohorte. Ainsi la corrélation entre eux est détruite. On peut savoir qu'il y a 30 femmes et 40 hommes dans une cohorte parmi lesquels 20 personnes ont obtenues leur bac en 2015, mais on ne sait pas combien il y avait d'hommes et de femmes parmi ces 20 personnes ayant obtenues leurs bac en 2015.

De plus, pour une cohorte donnée et un type d'attribut donné, on a effacé de l'information dès que des valeurs de l'attribut concernaient des effectifs faibles, inférieurs à 5, au sein du groupe. Cet effacement tient compte du risque de recalcul de l'information masquée à partir de l'effectif total de la cohorte. Ce risque de secret secondaire est traité en effaçant de nouvelles valeurs jusqu'à ce qu'il ne soit plus possible d'inférer l'effectif d'une entrée initialement représentée. Ainsi :

  • si une cohorte se compose de 70 individus, 40 hommes et 30 femmes aucune information n'est effacée concernant le type d'attribut sexe.
  • si une cohorte se compose de 7 individus, 4 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
  • si une cohorte se compose de 7 individus, uniquement des hommes, l'attribut sexe est renseigné avec une seule entrée, homme, d'effectif égal à 7.
  • si une cohorte se compose de 43 individus, 40 hommes et 3 femmes, l'attribut sexe n'est pas renseigné.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 4 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2015 et 2016. Les entrées 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro. L'entrée 2019 (par exemple) initialement absente reste absente.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 7 personnes ayant obtenu le bac en 2017, 3 personnes ayant obtenu le bac en 2018, alors l'attribut année du bac ne renseigne un effectif que pour les entrées 2016 et 2017. Les entrées 2015 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 6 personnes ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac ne renseigne un effectif que pour l'entrée 2016. Les entrées 2015, 2017 et 2018 sont fournies, mais leur effectif est masqué par un zéro.
  • si une cohorte se compose de 5 personnes ayant obtenu le bac en 2015, 1 personne ayant obtenu le bac en 2016, 1 personne ayant obtenu le bac en 2017, 1 personne ayant obtenu le bac en 2018, l'attribut année du bac n'est pas renseigné.

Fichier cohorte-bac.csv

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • bac-rgrp: la valeur de l'attribut bac-rgrp selon la nomenclature SISE : 1 littéraire, 2 économique, 3 scientifique, 4 techno STT, 5 autres technos, 6 professionnel, 7 dispense, A bac général (2021), vide.

Fichier cohorte-anbac.csv

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • anbac: la valeur de l'attribut année du bac.

Fichier cohorte-sexe.csv

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • sexe: la valeur de l'attribut sexe (selon la nomenclature SISE deux valeurs possibles : 1 hommme, 2 femme).

Fichier cohorte-premiereins.csv

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • annee: la valeur de l'attribut première année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-derniereins.csv

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • annee: la valeur de l'attribut dernière année d'inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-age-premiereins.csv

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • annee: la valeur de l'attribut age au moment de la première inscription dans le supérieur en Île-de-France dans la limite de la fenêtre d'observation 2010-2022.

Fichier cohorte-spe.csv

Les deux spécialités de terminale au bac général forment une paire, que nous avons ordonné par ordre lexicographique. Elles sont codées sur sept caractères formant un libellé intelligible. La nomenclature est disponible dans la base centrale des nomenclatures https://infocentre.pleiade.education.fr/bcn/workspace/viewTable/n/N_SPECIALITE_BAC_2021_SISE

  • cohorteid: l'identifiant numérique de la cohorte auquel se rapporte la valeur de l'attribut
  • effectif: l'effectif concerné par la valeur de l'attribut, ou zéro si cet effectif a été masqué
  • bac-spe1: la première valeur de l'attribut paire de spécialités au bac
  • bac-spe2: la seconde valeur de l'attribut paire de spécialités au bac

Producer

Latest update

October 3, 2023

License

Licence Ouverte / Open Licence version 2.0

Metadata quality
88.88888888888889/100

Update frequency not followed

1 API

There are no reuses for this dataset yet.

Publish a reuse What's a reuse ?

There are no discussions for this dataset yet.

There are no community resources for this dataset yet.

Share your resources Learn more about the community

Information

Temporality

Creation

October 3, 2023

Frequency

Annual

Temporal coverage

2010/08/31 to 2023/01/15

Latest update

October 3, 2023

Spatial coverage

Territorial coverage

Île-de-France

Territorial coverage granularity

POI

Actions

Embed

Statistics for the year

Views

1.7k

109 in Nov 2024

Downloads

270

20 in Nov 2024

Reuses of this dataset

0

Followers

0