Appariement des coefficients de propension dans Excel
Ce tutoriel vous aidera à mettre en place et réaliser un appariement de coefficients de propension sous Excel en utilisant le logiciel de statistique XLSTAT.
Jeu de données pour réaliser un appariement de coefficients de propension
Ce tutoriel utilise un sous-échantillon aléatoire d'un jeu de données originalement publié dans Robert Lalonde (1986) et revisité dans Dehejia and Wahba (1999).
L'étude originale visait à étudier l'effet de la participation à un programme de stage particulier sur les revenus d'individus en 1978. Des variables confondantes sont suspectées d'introduire un sérieux biais dans les résultats de cette étude et nous souhaitons quantifier cet effet et construire au préalable un sous-échantillon qui le réduise. Ceci pourra être accompli en appariant les individus similaires en termes d’effets confondants, grâce à l’appariement de coefficients de propension.
Il y a 10 variables utilisées dans l'étude originale. La première est une variable binaire intitulée Participation in job training qui indique si le participant a suivi le stage d'emploi (1) ou pas (0). C'est notre variable de groupe. Nous pensons que la probabilité pour un participant de suivre le programme de stage d'emploi n'est pas aléatoire et qu'elle peut être expliquée dans une certain mesure par des variables confondantes.
Les variables suspectées d'être confondantes sont les 8 variables qui suivent :
-
age : l'âge du participant en années ;
-
years of education : le nombre d'années de scolarité du participant ;
-
Afro-American : 1 si le participant est d'origine afro-américaine, 0 sinon ;
-
Hispanic-American : 1 si le participant est d'origine hispanico-américaine, 0 sinon ;
-
Married : 1 si le participant est marié, 0 sinon ;
-
No degree : 1 si le participant a reçu un diplôme, 0 sinon ;
-
Earnings in 1974 : le revenu total du participant the total revenu of the participant en 1974 exprimé en dollars de 1978 ;
-
Earnings in 1975 : le revenu total du participant the total revenu of the participant en 1975 exprimé en dollars de 1978
Age, years of education, earnings in 1974 and 1975 sont des variables quantitatives. Les autres sont des variables qualitatives binaires.
Finalement, la dernière variable nommée Earnings in 1978 est le revenu total du participant durant l'année 1978. C'était la variable d'intérêt dans l'étude originale mais nous ne l'utiliseront pas dans ce tutoriel.
Le sous-échantillon utilisé dans ce tutoriel est constitué de 200 participants parmi lesquels 82 ont suivi le stage d'emploi.
Mettre en place un appariement des coefficients de propension
Tout d'abord, ouvrez le fichier téléchargé avec Excel et activez XLSTAT. Une fois que XLSTAT est activé, sélectionnez XLSTAT/ Fonctions avancées / Analyse de survie / Appariement des coefficients de propension (voir ci-dessous).
Une fois que vous avez cliqué sur le bouton, la boite de dialogue apparait.
Tout d'abord, vous devez sélectionner la variable de groupe, Participation in job training, dans la colonne A. Vous devez également sélectionner la modalité indiquant le traitement. Dans notre cas, cette modalité est 1. La modalité de traitement devrait être détectée automatiquement lorsque vous sélectionnez vos données sur la feuille. Si ce n'est pas le cas, cliquez sur le bouton de rafraîchissement situé juste à droite du menu déroulant.
Ensuite, sélectionnez les variables explicatives suspectées d'être des facteurs confondants. Cliquez sur la checkbox Quantitatif pour activer le champ quantitatif et sélectionnez les colonnes B, C, H et I correspondant aux variables age, years of education, earnings in 1974 et earnings in 1975 respectivement. Vous pouvez utiliser la touche Ctrl pour effectuer une sélection de plusieurs colonnes. De manière similaire, cochez la case Qualitative et sélectionnez les colonnes D, E, F et G (Afro-American, Hispanic-Americain, married, no degree). Comme des libellés sont présents pour chaque variable, il vous faut cocher la case libellés des variables.
Vous avez fini avec l'onglet Général. La boite de dialogue devrait ressembler à l'image ci-dessus.
Passons maintenant à l'onglet Options pour configurer notre méthode d'appariement comme indiqué sur la figure ci-dessous.
Nous laissons les options de gauche à leurs valeurs par défaut. Sur le côté droit, activez l’algorithme optimal et sélectionnez la distance de Mahalanobis dans le menu déroulant juste en dessous. Sélectionnez Une à Une dans le nombre d'appariement des observations et activez l'option caliper. Dans le menu déroulant juste en dessous, sélectionnez 0.1 * sigma. Nous avons fini avec l'onglet options.
Dans l'onglet Données manquantes, nous laissons l'option Supprimer les observations activée comme indiqué ci-dessous.
Dans l'onglet Sorties, activez les options comme indiqué ci-dessous.
Et finalement, sélectionnez coefficients normalisés et box-plot des coefficients dans l'onglet graphiques comme indiqué ci-dessous.
Maintenant, vous pouvez lancer les calculs en cliquant sur OK.
Interpréter les résultats d'un appariement de coefficients de propension
Après les statistiques descriptives des variables sélectionnées, le premier résultat est le tableau affichant les coefficients normalisés avec le graphique associé comme montré dans la figure qui suit.
Ce sont les coefficients de la régression logistique ajustée sur le jeu de données sélectionné. C'est le modèle qui est utilisé pour calculer les coefficients de propension de chaque participant.
Le tableau suivant montré ci-dessous affiche un résumé de l'opération d'appariement.
Vous pouvez voir dans ce tableau que 7% des participants du groupe traité n'ont pas été appairés avec un participant du groupe contrôle. Ceci indique qu'il n'y avait pas de candidat en dessous du rayon de caliper de 0.10 * sigma pour ces participants. Juste en dessous du tableau, vous pouvez voir le coût total de l'opération d'appariement. C'est la somme des distances entre chaque paire de participants. C'est un critère très utile pour évaluer l'efficacité d'une opération d'appariement.
Ensuite, les coefficients de propension et leurs limites hautes et basses sont affichés comme montré dans la figure ci-dessous.
Sont également affichés, le logit de ces coefficients avec ces valeurs limites. C'est la grandeur qui est en fait utilisée pour calculer la matrice de distance montrée ci-dessous.
Dans la matrice de distance, les participants du groupe traité (ici ayant suivi le stage) sont sur les lignes alors que ceux du groupe contrôle sont sur les colonnes. Les paires de participants retenues sont indiquées dans la matrice de distance par des valeurs écrites en gras.
Dans le box-plot montré ci-dessous, vous pouvez voir l'effet de l'opération d'appariement sur différents paramètres de la distribution des coefficients de propension pour chaque groupe. Les distributions sont beaucoup plus similaires après l'opération d'appariement.
Finalement, le dernier tableau indique le détail des appariements des participants de chaque groupe comme montré dans la figure ci-dessous. La distance entre chaque participant en termes de logit est également indiquée.
Conclusion
En utilisant le logiciel de statistique XLSTAT, nous avons pu calculer les coefficients de propension associés à chaque participant de l'étude depuis Excel et réaliser un appariement entre ces participants à partir de ces coefficients de propension.
Cet article vous a t-il été utile ?
- Oui
- Non