Arbre de classification (QUEST) dans Excel
Ce tutoriel vous aide à construire un arbre de classification QUEST dans Excel en utilisant le logiciel de statistiques XLSTAT.
Si vous n'êtes pas sûr que ce soit la fonction d’apprentissage supervisée que vous recherchez, veuillez consulter ce guide.
Jeu de données pour créer un arbre de classification (QUEST) et but de ce tutoriel.
Les données proviennent à l'origine de l'Institut national du diabète et des maladies digestives et rénales. L’objectif du tutoriel est de prédire si un patient est atteint ou non de diabète sur la base de certaines mesures diagnostiques incluses dans le jeu de données. Tous les patients de cette étude ont au moins 21 ans et sont issus du groupe des indiens Pimas (peuple de Nord-Amérindiens originaires du Mexique et du Sonora). Le jeu de données comprend plusieurs variables prédictives médicales (indépendantes) et une variable cible (dépendante) : Diabète. Les variables indépendantes incluent le nombre de grossesses du patient, son IMC, son niveau d'insuline, son âge, etc.
Paramétrer l'arbre de classification (QUEST)
Une fois XLSTAT lancé, choisissez la commande XLSTAT / Machine Learning / Arbres de classification et régression. La boîte de dialogue apparaît, vous pouvez commencer la sélection des données sur la feuille Excel. Nous sélectionnons la variable dépendante, qui est dans ce cas précis la variable qualitative binaire "Diabète" qui vaut "Oui" si le patient est atteint de diabète et "Non" sinon. Les variables explicatives sont les huit variables descriptives restantes. L'option Libellés des variables est laissée activée car la première ligne des colonnes sélectionnées comprend le nom des variables. Nous choisissons la méthode QUEST pour créer l'arbre. Ensuite, nous voulons obtenir un modèle le plus efficace possible, donc nous choisissons l’option Automatique dans l’onglet Général. Les options permettent d'ajuster les paramètres de manière automatique. En sortie graphique, nous choisissons d'afficher l'arbre en utilisant des diagrammes en bâtons pour représenter les fréquences des espèces au niveau de chaque nœud de l'arbre. Une fois que vous avez cliqué sur le bouton OK, les calculs commencent et les résultats sont affichés.
Interpréter les résultats d'un arbre de classification (QUEST)
Les deux premiers tableaux regroupent les statistiques descriptives des différentes variables et le tableau des corrélations. En dessous est affichée la matrice de confusion qui résume l'information des reclassements d'observations, et qui permet de déduire les taux de bons et mauvais classements. Le "% correct" correspond au rapport du nombre d'observations bien classées sur le nombre total d'observations. Ici il est égal à 75%.
Vient ensuite la structure de l'arbre sous forme de tableau. Il décrit pour les différents nœuds, le nombre d'objets au niveau de chaque nœud, le % correspondant, la statistique de test pour la scission de ce nœud, la pureté qui mesure le % d'observations se trouvant dans la classe (ou modalité) dominante au niveau du nœud, les nœuds parents et fils, la variable de séparation, la ou les valeurs correspondantes (des intervalles pour les variables quantitatives explicatives), et la classe prédite par le nœud. Le tableau suivant présente une lecture de l'arbre sous forme de règles en langage naturel. Pour chaque nœud, la règle correspondant à la classe prédite est affichée. Le pourcentage correspondant à la classe au niveau du nœud étant lui donné par le pourcentage d’observations dans le nœud. Ainsi nous voyons que : "Si Glucose <= 143.592 alors Diabète = NON dans 77,1% des cas", cette règle est vérifiée pour 592 individus (77% des données) avec une pureté au niveau du nœud de 76,01% comme indiqué dans le tableau structure de l’arbre.
Viens ensuite le tableau qui présente l’ensemble des paramètres testés pour notre modèle et ceux sélectionnés (en gras), avec leur score de validation croisée respectif. Nous constatons qu’à la quatrième itération de notre l’algorithme, nous avons nos paramètres optimaux : - Taille minimale pour un parent : 108
- Taille minimale d’un fils : 24
- Profondeur maximale : 5
Avec une erreur minimale de validation croisée de 24,9%. Nous utilisons donc ces paramètres pour construire notre arbre.
L'arbre de classification généré est affiché ci-dessous.
Ce diagramme permet de visualiser les étapes successives au cours desquelles l'algorithme QUEST identifie les variables qui permettent de séparer au mieux les différentes catégories de la variable dépendante.
L'algorithme s'arrête lorsque plus aucune règle ne peut être trouvée, ou lorsque l'une des limites obtenus de manière automatique est atteinte (nombre d'objets au niveau du nœud parent ou fils, profondeur de l'arbre, le niveau de signification <= limite fixée par l’utilisateur).
Une visualisation alternative est proposée par XLSTAT. Au lieu de représenter les distributions au niveau de chaque nœud avec des diagrammes en bâtons, XLSTAT permet aussi de les représenter avec des diagrammes circulaires, qui s'avèrent plus lisibles lorsqu'il y a de nombreux nœuds et plus de 4 ou 5 modalités pour la variable dépendante.
Cet article vous a t-il été utile ?
- Oui
- Non