Aller au contenu principal

Créer un workflow pour connecter des analyses avec XLSTAT

Ce tutoriel montre comment créer une filière (workflow), qui permet de chaîner un ensemble de fonctionnalités XLSTAT de manière simple et fluide.

Jeu de données pour illustrer les filières

Le jeu de données utilisé pour illustrer le fonctionnement des filières est extrait d’un jeu de données provenant de la plateforme de data science Kaggle (FIFA World Cup 2018 Prediction). Il décrit 668 joueurs de football appartenant à la English League One en 2018 selon 84 variables.

L’exploration de nos données pouvant nécessiter l’utilisation de plusieurs fonctionnalités consécutives, le but sera ici d’enchaîner les analyses suivantes :

Fonctionnement des filières

Les workflows sont un moyen simple d’enchaîner des analyses qui ont besoin en données d’entrée des résultats d’autres analyses.

Comment initialiser une filière dans XLSTAT ?

  • Ouvrir XLSTAT

  • Sélectionner le menu XLSTAT / Filières/ Nouvelle filière. L’espace de travail associé à la filière apparaît avec un premier nœud relatif aux données d’entrée.

Workflow-interface.png

  • Dans l’onglet Général de la boite de dialogue apparue, sélectionner manuellement ou par détection automatique les données à utiliser comme données d’entrée de la filière. Pour le mode manuel, sélectionner les données et cliquer sur Ajouter. Enfin, cocher la case Libellés des variables et cliquer sur OK pour terminer la configuration du premier nœud.

input-data-interface.png

Comment configurer une filière dans XLSTAT ?

Une fois la filière initialisée, nous pouvons ajouter des méthodes statistiques à celle-ci de la manière suivante :

  • Cliquer sur le premier bloc pour ouvrir le menu, puis dans le sous menu Bloc à ajouter après sélectionner l’analyse à ajouter

  • Configurer la boite de dialogue de l’analyse et cliquer sur OK

  • Les tableaux de résultats des analyses effectuées sont automatiquement détectés et sont utilisables dans les blocs qui suivent

  • Répéter l’opération pour chaque nouveau bloc à créer

  • Sauvegarder la filière en cliquant sur le bouton Sauvegarder, ou cliquer sur le bouton Exporter pour le partager.

Comment interpréter les résultats d’une filière ?

Chaque nœud de la filière possède une feuille de résultat. Pour la visualiser, utiliser le menu du nœud correspondant ou cliquer sur la miniature du nœud dans l’encart de gauche. Il est maintenant possible de relancer la filière avec des données à jour ou à partir des données existantes.

Exemple de création d’une filière

  • Initialiser le workflow et sélectionner les données

  • Ajouter une ACP (Analyse en Composantes Principales), puis configurer la boite de dialogue en sélectionnant les 77 variables quantitatives du jeu de données. Puis cliquer sur OK.

D’après le tableau et l’éboulis des valeurs propres suivant, ne garder que les 5 premières composantes principales permet de conserver plus de 80% de l’information apportée par le jeu de données initial.

Principal-component-analysis.pngPCA-SCREE-PLOT.png

  • Ajouter de la même manière un bloc classification k-means, en prenant comme données d’entrée les coordonnées des observations dans le nouvel espace. Ces données sont détectées automatiquement et disponibles dans tous les blocs suivants.

silhouette-scores.png
Une rapide analyse de l’évolution du score de silhouette nous permet de déterminer que la partition en 4 clusters semble être la meilleure.

  • Enfin, ajouter un ou plusieurs blocs nuages de points, afin de décrire les clusters obtenus selon les différents plans factoriels de l’ACP.

La partition en 4 classes retenue semble correspondre à des profils de joueurs bien distincts. Une rapide analyse des sorties de notre ACP nous permet de dire que la classe n°3 correspondrait par exemple aux gardiens de but.

Une fois ces différents profils de joueurs identifiés, il pourrait être intéressant de réaliser des analyses plus fines dans chacun de ces groupes.Scatter-plots.png

Cet article vous a t-il été utile ?

  • Oui
  • Non