Smoking Trajectory

A noter

Hors thème. Mais c'est intéressant quand même.

Smokingtrajectory est un petit projet de machine learning pour prédire la trajectoire de fumeur. Plus d'info ici : Smoking Trajectory et sur le GitHub du projet.

A propos de Smoking Trajectory

Smoking Trajectory est un projet d'extension à l'article Milieu d’origine, situation sociale et parcours tabagique en France de Damin Bricard et Florence Jusot paru en 2012. Cet article s'intéresse au parcours tabagique des individus. Un travail qui utilise la base de donnée de l'enquete ESPS de l'IRDES. Ce papier montre que le tabagisme des parents joue un rôle clef dans celui des individus, confirmant ainsi qu'il y existe une transmission intergénérationnelle des préférences tabagiques. De plus, il semblerait que les individus les plus aisés ont plus de chance de commencer la cigarette mais sont par ailleurs plus susceptibles d'arrêter tôt. Bricard et Jusot procèdent en deux temps pour leur analyse, ils commencent par une analyse non paramétrique via l'estimateur Kaplan-Meier qui s'écrit comme suit :

KEPLAN MEIEIR

Ŝ = (t) Π_{t_i<t} n_i-d_i / n_i

Où, d_i est le nombre d'événements observés en i et n_i le nombre d'individus à risque en i.

Puis, ils font une analyse semi-paramétrique avec un modèle de Cox stratifié à risque proportionnelle qui s'écrit comme suit :

COX

h_g(tx) = h_0g(t)exp(βX),

Où, h_0,g est le risque de base pour la strate g. Le code ci-dessous montre comment les résultats ont été obtenus.

Ces deux modèles conduisent aux résultats mentionnés plus haut.

Smoking Trajectory propose d'aborder la question du parcours tabagique via des réseaux de neuronnes. Les résultats qui s'affichent en dessous après avoir lancé le code (c'est normal si cela prend un peu de temps), sont les SHAP Values et les scores d'importance de trois modèles :

Modèle Fume : modèle qui prédit si l'individu fume ou non.
Modèle ageinit : modèle qui prédit l'âge d'initiation.
Modèle agecess : modèle qui prédit l'âge de cessation.

Ces trois modèles sont principalement construits via la bibliothèque Pytorch. Le modèle fume présente un taux de précision de 90%, et les modèles de prédiction d'âge d'initiation et de cessation présentent une erreur de 0,5, c'est-à-dire qu'ils prédisent en moyenne le bon âge de cessation à 0,5 années près. Et, trouvent sensiblement les mêmes résultats que l'analyse économétrique. Ces modèles se basent sur la liste de données suivante :

Ces modèles exploitent la base de données ESPS de 2010, et voici les variables retenues pour les modèles :

mere_pcs: Profession et catégorie socioprofessionnelle de la mère
pere_pcs: Profession et catégorie socioprofessionnelle du père
mere_etude: Niveau d'études de la mère
pere_etude: Niveau d'études du père
fumfoy1: Statut tabagique du père
fumfoy2: Statut tabagique de la mère
sexe: Genre de l'individu
age: Âge de l'individu
nivetu: Niveau d'études de l'individu
pcs: Profession et catégorie socioprofessionnelle de l'individu
fume: Statut tabagique de l'individu
afume: Si l'individu a déjà fumé
anfume: Nombre d'années depuis que l'individu a commencé à fumer
nbanfum: Nombre d'années pendant lesquelles l'individu a fumé
aarret: Âge auquel l'individu a arrêté de fumer
quintuc: Quintile de revenu
pond: Poids de l'individu dans l'enquête
pers: Nombre de personnes dans le ménage
total: Revenu total du ménage
heberqgd: Si l'individu a connu la pauvreté pendant l'enfance

Les âges d'initiation et de cessation sont calculés à partir des variables disponibles.

Pour bien comprendre la lecture des SHAP Value, il faut regarder l'axe des abscisses qui indique l'impact sur la prédiction. Plus une valeur sera négative, plus elle penchera pour le modèle fume à la prédiction de ne pas fumer, pour les modèles de prédiction d'âge d'initiation et de cessation à prédire à un jeune âge et inversement. Ensuite, il faut observer le gradient : plus un point est rouge, plus il aura un poids important dans la prédiction, et inversement. Enfin, vous pouvez vous amuser avec les graphiques interactifs de SHAP force pour analyser plus en détail chaque variable.

Projet mené par Octavien Maury, vous pouvez retrouver tout le code sur Github.

Amusez-vous bien !