Stage, Paris, 6ème arrondissement ou Lille, Cité scientifique.| Entreprise/Organisme : | Université Paris Cité ou Université de Lille | | Niveau d'études : | Master | | Sujet : | 1) Causalité en présence d'une exposition multiple
Dans les cours introductifs de causalité, le premier type d’effet causal à être présenté est en général l'``effet causal moyen'' (ATE) pour une exposition binaire A et une réponse continue Y. Dans ce cas, l'ATE est défini comme la différence entre les valeurs attendues de la réponse sous l’exposition et en absence de l’exposition : ATE = E[Y(1)] - E[Y(0)]. Pour certaines applications, il est intéressant de considérer l’effet d’une exposition vectorielle A dans un espace euclidien de dimension d. Dans ce contexte, le paramètre cible E[Y(a_1,…,a_d)] définit une fonction ``dose-réponse'' de R^d vers R. Pour identifier ce paramètre, on peut utiliser une approche basée sur les scores de propension multivariés. La difficultés consiste alors à estimer des fonctions de densités conditionnelles multivariées. Une méthode simple consiste à modéliser ces densités par régression linéaire multivariée (Fong 2018, Williams 2020). Nous souhaiterions explorer d’autres approches pour estimer ces densités multivariées conditionnelles à l’aide de méthodes non paramétriques ou paramétrique mais flexibles. Dans cette deuxième classe de méthodes, on trouve les approches basées sur des réseaux de neurones. Par exemple, Shi et al. (2019) décrivent une architecture pour l’estimation du score de propension pour une exposition réelle. Il serait intéressant d’étudier la généralisation à une exposition multivariée. Une autre piste intéressante est celle des flots génératifs (voir Papamakarios 2021). Le stage pourrait porter sur l’étude d’une, ou plusieurs de ces approches, avec une validation par simulations. Nous aurons aussi la possibilité d’appliquer ces méthodes à des données réelles issues d’une cohorte française pour étudier les effets d’un mélange de polluants organiques persistants sur un événement de santé.
2) Causalité en analyse de survie
En analyse de survie causale, on s’intéresse à l'effet causal d’une exposition sur le temps avant un événement d’intérêt T en présence de données censurées. Le correspondant de l'ATE dans ce contexte est donné par la différence P(T(1)>t) - P(T(0)>t), ou son intégrale par rapport à t sur un intervalle limité. Les résultats d’identification de l’ATE sur données non-censurées peuvent s’étendre à ce cadre, en considérant des poids qui prennent en compte non seulement la probabilité conditionnelle du traitement mais aussi la fonction de survie conditionnelle de la censure (Cheng 2022). Cette approche donne un estimateur consistant si les modèles utilisés pour estimer les probabilités conditionnelles définissant les poids sont bien spécifiés. Des estimateurs doublement robustes qui sont consistants sous des hypothèses moins restrictives ont également été proposés (Rytgaard 2023). Ces estimateurs, appelés estimateurs ``d'apprentissage ciblé'' sont issus de la théorie de l’efficacité semi-paramétrique (voir par exemple le lien Github ``Introduction to modern causal inference'' de Schuler et van der Laan). La théorie mathématique sous-jacente à ces estimateurs est particulièrement riche et élégante mais demande un peu d’investissement. Le stage pourrait porter sur un travail bibliographique pour comprendre et présenter de façon accessible ces approches et, si possible, sur une validation par simulations. Il sera aussi possible d’appliquer les méthodes étudiées à des données de vie réelle pour étudier l’effet d’un traitement hormonal sur le cancer du sein. | | Date de début : | A n'importe quel moment à partir du mois de février | | Durée du contrat : | 4 à 6 mois | | Rémunération : | 660 euros par mois | | Secteur d'activité : | Statistique | | Description : | 1) Causalité en présence d'une exposition multiple
Dans les cours introductifs de causalité, le premier type d’effet causal à être présenté est en général l'``effet causal moyen'' (ATE) pour une exposition binaire A et une réponse continue Y. Dans ce cas, l'ATE est défini comme la différence entre les valeurs attendues de la réponse sous l’exposition et en absence de l’exposition : ATE = E[Y(1)] - E[Y(0)]. Pour certaines applications, il est intéressant de considérer l’effet d’une exposition vectorielle A dans un espace euclidien de dimension d. Dans ce contexte, le paramètre cible E[Y(a_1,…,a_d)] définit une fonction ``dose-réponse'' de R^d vers R. Pour identifier ce paramètre, on peut utiliser une approche basée sur les scores de propension multivariés. La difficultés consiste alors à estimer des fonctions de densités conditionnelles multivariées. Une méthode simple consiste à modéliser ces densités par régression linéaire multivariée (Fong 2018, Williams 2020). Nous souhaiterions explorer d’autres approches pour estimer ces densités multivariées conditionnelles à l’aide de méthodes non paramétriques ou paramétrique mais flexibles. Dans cette deuxième classe de méthodes, on trouve les approches basées sur des réseaux de neurones. Par exemple, Shi et al. (2019) décrivent une architecture pour l’estimation du score de propension pour une exposition réelle. Il serait intéressant d’étudier la généralisation à une exposition multivariée. Une autre piste intéressante est celle des flots génératifs (voir Papamakarios 2021). Le stage pourrait porter sur l’étude d’une, ou plusieurs de ces approches, avec une validation par simulations. Nous aurons aussi la possibilité d’appliquer ces méthodes à des données réelles issues d’une cohorte française pour étudier les effets d’un mélange de polluants organiques persistants sur un événement de santé.
2) Causalité en analyse de survie
En analyse de survie causale, on s’intéresse à l'effet causal d’une exposition sur le temps avant un événement d’intérêt T en présence de données censurées. Le correspondant de l'ATE dans ce contexte est donné par la différence P(T(1)>t) - P(T(0)>t), ou son intégrale par rapport à t sur un intervalle limité. Les résultats d’identification de l’ATE sur données non-censurées peuvent s’étendre à ce cadre, en considérant des poids qui prennent en compte non seulement la probabilité conditionnelle du traitement mais aussi la fonction de survie conditionnelle de la censure (Cheng 2022). Cette approche donne un estimateur consistant si les modèles utilisés pour estimer les probabilités conditionnelles définissant les poids sont bien spécifiés. Des estimateurs doublement robustes qui sont consistants sous des hypothèses moins restrictives ont également été proposés (Rytgaard 2023). Ces estimateurs, appelés estimateurs ``d'apprentissage ciblé'' sont issus de la théorie de l’efficacité semi-paramétrique (voir par exemple le lien Github ``Introduction to modern causal inference'' de Schuler et van der Laan). La théorie mathématique sous-jacente à ces estimateurs est particulièrement riche et élégante mais demande un peu d’investissement. Le stage pourrait porter sur un travail bibliographique pour comprendre et présenter de façon accessible ces approches et, si possible, sur une validation par simulations. Il sera aussi possible d’appliquer les méthodes étudiées à des données de vie réelle pour étudier l’effet d’un traitement hormonal sur le cancer du sein. | | En savoir plus : | https://obouaziz.github.io/supervision.html Stage_Causalite.pdf | | Contact : | olivier.bou-aziz@univ-lille.fr |
|