Filtrer des observations dans une ACP
Ce tutoriel explique comment filtrer des observations dans une ACP avec Excel en utilisant XLSTAT.
Jeu de données pour réaliser une Analyse en Composantes Principales
Les données proviennent du US Census Bureau.
Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants.
But de ce tutoriel
Le but est ici d'analyser les corrélations entre les variables et d'identifier des états se différenciant fortement des autres. Nous nous concentrons sur les grands états en utilisant l'outil de filtrage d'XLSTAT.
La seule différence entre ce tutoriel et celui-ci est que nous nous focalisons sur les grands états.
Paramétrer une Analyse en Composantes Principales
XLSTAT / Analyse de données / Analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la barre Analyse de données(voir ci-dessous).
Une fois le bouton cliqué, la boîte de dialogue correspondant à l'Analyse en composantes principales apparaît.
Vous pouvez alors sélectionner les données sur la feuille Excel. L'option Libellés des variables est activée, car la première ligne de données contient le nom des variables.
Le Format des données choisi ici est Observations/Variables car c'est bien le format des données de départ.
Le Type d'ACP choisi est Pearson (n), ce qui signifie que les calculs seront basés sur une matrice composée des coefficients de corrélation de Pearson, le coefficient de Pearson étant le coefficient de corrélation classiquement utilisé.
Dans l'onglet "prétraitement", activez l'option filtrer et sélectionnez la colonne taille dans les données.
Dans l'onglet Graphiques, les options d’Étiquettes sont toutes activées afin que les libellés des variables et des observations soient bien affichés.
L'option de filtrage des observations à afficher est aussi désactivée afin d'afficher toutes les observations.
Cliquez sur le bouton OK Une nouvelle boîte apparaît afin de sélectionner le groupe à analyser. On choisit donc le groupe des grands états.
Les calculs commencent lorsque vous cliquez sur le bouton OK.
Puis une nouvelle boîte vous permet de choisir les axes pour lesquels les graphiques doivent être affichés. Dans notre cas, le pourcentage de variabilité représenté sur les deux premiers axes n'est pas particulièrement élevé (72,09%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc aussi demandé.
’’’’
Interpréter les résultats de l'Analyse en Composantes Principales
Les résultats pour les grands états sont donc affichés. Le premier tableau donne quelques statistiques descriptives.
Puis, les valeurs propres sont affichées.
Nous sommes intéressés par le cercle des corrélations et le plan des observations. Nous avons donc :
Nous voyons que les états plus "vieux" s’opposent taux états plus "jeunes" sur le premier axe. Le second axe oppose les états avec un taux de migration domestique élevés à ceux dont ce taux est plus faible.
Concernant les observations, nous avons ce graphique :
Cette option simple permet donc de filtrer des observations directement dans la boîte de dialogue de l'ACP afin de simplifier le traitement des données.
Cet article vous a t-il été utile ?
- Oui
- Non