Comparer k proportions dans Excel
Ce tutoriel explique comment calculer et interpréter un test paramétrique pour comparer k proportions avec Excel en utilisant XLSTAT.
Test paramétrique pour comparer k proportions
Une proportion permet de mesurer sur une échelle [0, 1], combien d'observations appartiennent à une modalité (ou catégorie) donnée, en comparaison avec la taille totale de l'échantillon étudié. Pour la calculer, on divise le nombre d'observations appartenant à la modalité à laquelle on s'intéresse par l'effectif total de l'échantillon.
Pour comparer k proportions, les méthodes statistiques requièrent que les tailles d'échantillon soient connues pour toutes les proportions. Les données en entrée doivent donc être d'une part, soit des proportions soit des nombres d'observations appartenant à la modalité d'intérêt, et d'autre part des tailles d'échantillon.
Jeu de données pour réaliser un test paramétrique de comparaison de k proportions
Les données correspondent à 6 différentes séries de vis utilisées sur des voitures de rallye. Le nombre de vis ayant passé les tests de qualité pour chaque série est enregistré dans la colonne "Succès".
Le nombre de vis ne passant pas les tests est enregistré dans la colonne "Echec".
Notre but est de déterminer si la qualité des 6 séries de vis peut être considérée comme homogène ou non, puis, s'il y a une différence, d'identifier les séries qui sont significativement différentes des autres.
Paramétrer un test paramétrique de comparaison de k proportions
Une fois XLSTAT lancé, choisissez la commande XLSTAT / Tests paramétriques / Comparaison de k proportions ou cliquez sur le bouton Comparaison de k proportions de la barre d'outils Tests paramétriques.
Une fois le bouton cliqué, la boîte de dialogue apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel.
Sélectionnez d'abord les données "Effectifs" qui correspondent ici aux "Succès", puis les "Tailles des échantillons" qui correspondent ici à la colonne "Total".
Les Libellés des observations sont aussi sélectionnés.
Tous les tests sont activés.
L'option Libellés des variables est activée car la première ligne des colonnes sélectionnées comprend un libellé.
Les calculs commencent une fois que vous avez cliqué sur OK.
Interpréter les résultats d'un test paramétrique de comparaison de k proportions
Les premiers résultats affichés correspondent au test du Khi’². Le test du Khi’² est communément utilisé sur des tableaux de contingence (tableaux croisés) pour tester si les lignes et les colonnes sont indépendantes. Dans ce cas particulier où nous étudions un événement binaire (succès/échec), l'indépendance des lignes et les colonnes est équivalente à ce qu'il n'y ait aucune différence entre les proportions de succès entre les 6 séries. Le tableau de contingence est automatiquement reconstruit par XLSTAT à partir des données d'entrée.
Le test du Khi’² permet de conclure qu'il y a au moins une série qui diffère des autres. Cependant, nous notons que la p-value est très proche du niveau de signification choisi (0.05).
Nous savons que le test du Khi’² est un test asymptotique dont la fiabilité est peu sûre lorsque trop de cellules du tableau de contingence ont des valeurs faibles. Comme c'est ici le cas, il est recommandé d'utilisé le test de Monte Carlo utilisant des simulations. Le principe des simulations est de générer de manière aléatoire des tableaux de contingence ayant les mêmes sommes marginales, puis de calculer les distances du Khi’² sur ces tableaux. Enfin, nous déterminons quelle proportion de tableaux donnent une distance plus faible que celle mesurée sur le tableau des données, ce qui indique alors si le tableau correspond à un cas "extrême" ou non.
Nous voyons que le test de Monte Carlo avec 5000 simulations donne presque le même résultat que le test du Khi’², ce qui confirme le fait qu'au moins une série est différente des autres.
Afin d'identifier quelles séries diffèrent, nous utilisons la procédure de Marascuilo. Les résultats sont affichés ci-dessous.
Nous voyons que les séries qui diffèrent le plus sont S2 et S3. Nous concluons que la différence importante entre ces deux séries est responsable du rejet de l'hypothèse H0 du test de comparaison des k proportions. Il est appartient alors aux ingénieurs de déterminer pour quelles raisons la qualité de production de la série S3 est meilleure.
Cet article vous a t-il été utile ?
- Oui
- Non