Imputation de données manquantes avec NIPALS dans Excel
Principe de l'algorithme NIPALS pour compléter des données manquantes
L'algorithme NIPALS est une méthode présentée par H. Wold (1973) permettant d'effectuer une analyse en composantes principales sur les données disponibles. L'algorithme NIPALS est appliqué sur les données pour obtenir un modèle d'ACP. Ce modèle est ensuite utilisé pour prédire les données manquantes.
Le jeu de données utilisé ici comprend 6 observations et 6 variables avec 6 données manquantes.
Imputation de données manquantes avec XLSTAT
Une fois XLSTAT lancé, cliquez sur l’icône Préparation des données et choisissez la fonction Gestion des données.****
Une fois que vous avez cliqué sur le bouton, la boîte de dialogue apparaît. Sélectionnez les données à compléter (le tableau avec données manquantes). Le type de données est quantitatif et la méthode d'estimation est la méthode NIPALS.
Activez l'option libellé des observations et sélectionnez le nom des voitures.
Une fois que vous avez cliqué sur Ok, les résultats sont affichés sur une nouvelle feuille.
Résultats de la complétion avec la méthode NIPALS
Les statistiques descriptives sont affichées (un tableau avant la complétion et un après la complétion).
Puis les données complétées sont affichées.
On peut voir les données complétées en gras. Dans notre cas, nous pouvons comparer ces valeurs aux vraies valeurs disponible dans le premier tableau.
On peut voir que les données complétées sont proches des vraies valeurs. Par exemple, pour la cylindrée de l'Honda Civic, la valeur réelle est de 1396, la valeur obtenue avec l'algorithme NIPALS est de 1365,236. Si on avait utilisé une méthode par imputation par la moyenne, on aurait une valeur de 1781,4 qui est très loin de la valeur réelle.
Cet article vous a t-il été utile ?
- Oui
- Non