Smoking Trajectory
Smokingtrajectory est un petit projet de machine learning pour prédire la trajectoire de fumeur. Plus d'info ici : Smoking Trajectory et sur le GitHub du projet.
A propos de Smoking Trajectory
Smoking Trajectory est un projet d'extension à l'article Milieu d’origine, situation sociale et parcours tabagique en France de Damin Bricard et Florence Jusot paru en 2012. Cet article s'intéresse au parcours tabagique des individus. Un travail qui utilise la base de donnée de l'enquete ESPS de l'IRDES. Ce papier montre que le tabagisme des parents joue un rôle clef dans celui des individus, confirmant ainsi qu'il y existe une transmission intergénérationnelle des préférences tabagiques. De plus, il semblerait que les individus les plus aisés ont plus de chance de commencer la cigarette mais sont par ailleurs plus susceptibles d'arrêter tôt. Bricard et Jusot procèdent en deux temps pour leur analyse, ils commencent par une analyse non paramétrique via l'estimateur Kaplan-Meier qui s'écrit comme suit :
KEPLAN MEIEIR
Ŝ = (t) Πti<t ni-di / ni
Où, di est le nombre d'événements observés en i et ni le nombre d'individus à risque en i.
Puis, ils font une analyse semi-paramétrique avec un modèle de Cox stratifié à risque proportionnelle qui s'écrit comme suit :
COX
hg(tx) = h0g (t)exp(βX),
Où, h0,g est le risque de base pour la strate g. Le code ci-dessous montre comment les résultats ont été obtenus.
Ces deux modèles conduisent aux résultats mentionnés plus haut.
Smoking Trajectory propose d'aborder la question du parcours tabagique via des réseaux de neuronnes. Les résultats qui s'affichent en dessous après avoir lancé le code (c'est normal si cela prend un peu de temps), sont les SHAP Values et les scores d'importance de trois modèles :
- Modèle Fume : modèle qui prédit si l'individu fume ou non.
- Modèle ageinit : modèle qui prédit l'âge d'initiation.
- Modèle agecess : modèle qui prédit l'âge de cessation.
Ces trois modèles sont principalement construits via la bibliothèque
Pytorch
. Le modèle fume présente un taux de précision de 90%, et les modèles de prédiction
d'âge d'initiation et de cessation présentent une erreur de 0,5, c'est-à-dire qu'ils prédisent en moyenne
le bon âge de cessation à 0,5 années près. Et, trouvent sensiblement les mêmes résultats que l'analyse économétrique. Ces modèles se basent sur la liste de données suivante :
Ces modèles exploitent la base de données ESPS de 2010, et voici les variables retenues pour les modèles :
- mere_pcs: Profession et catégorie socioprofessionnelle de la mère
- pere_pcs: Profession et catégorie socioprofessionnelle du père
- mere_etude: Niveau d'études de la mère
- pere_etude: Niveau d'études du père
- fumfoy1: Statut tabagique du père
- fumfoy2: Statut tabagique de la mère
- sexe: Genre de l'individu
- age: Âge de l'individu
- nivetu: Niveau d'études de l'individu
- pcs: Profession et catégorie socioprofessionnelle de l'individu
- fume: Statut tabagique de l'individu
- afume: Si l'individu a déjà fumé
- anfume: Nombre d'années depuis que l'individu a commencé à fumer
- nbanfum: Nombre d'années pendant lesquelles l'individu a fumé
- aarret: Âge auquel l'individu a arrêté de fumer
- quintuc: Quintile de revenu
- pond: Poids de l'individu dans l'enquête
- pers: Nombre de personnes dans le ménage
- total: Revenu total du ménage
- heberqgd: Si l'individu a connu la pauvreté pendant l'enfance
Les âges d'initiation et de cessation sont calculés à partir des variables disponibles.
Pour bien comprendre la lecture des SHAP Value, il faut regarder l'axe des abscisses qui indique l'impact sur la prédiction. Plus une valeur sera négative, plus elle penchera pour le modèle fume à la prédiction de ne pas fumer, pour les modèles de prédiction d'âge d'initiation et de cessation à prédire à un jeune âge et inversement. Ensuite, il faut observer le gradient : plus un point est rouge, plus il aura un poids important dans la prédiction, et inversement. Enfin, vous pouvez vous amuser avec les graphiques interactifs de SHAP force pour analyser plus en détail chaque variable.
Projet mené par Octavien Maury, vous pouvez retrouver tout le code sur Github.
Amusez-vous bien !