Aller au contenu principal

Régression linéaire multiple dans Excel

Ce tutoriel vous aidera à configurer et interpréter une régression linéaire multiple dans Excel en utilisant le logiciel XLSTAT. La régression linéaire est basée sur les Moindres Carrés Ordinaires (OLS).
Vous n'êtes pas sûr que c'est la fonctionnalité de modélisation que vous recherchez ? Consultez ce guide.

Jeu de données pour la réalisation d'une régression linéaire multiple

Les données proviennent de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Elles concernent 237 enfants, décrits par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre = 0.45 kg).

La méthode de régression linéaire appartient à une famille plus large de modèles appelée GLM (Modèles Linéaires Généralisés), tout comme l'ANOVA. Ce jeu de données est également utilisé dans les deux tutoriels sur la régression linéaire simple et l'ANCOVA.

But de ce tutoriel sur la régression linéaire multiple

En utilisant la régression linéaire simple, nous voulons découvrir comment le poids des enfants varie en fonction de leur taille et de leur âge, et vérifier si un modèle linéaire est pertinent. Ici, la variable dépendante est le poids, et les variables explicatives sont la taille et l'âge : nous avons donc deux variables explicatives, ce qui nous conduit à choisir la régression linéaire multiple.

Paramétrer une régression linéaire multiple

  • Ouvrez XLSTAT.

  • Dans le ruban, sélectionnez Modélisation des données / Régression linéaire.

  • Sélectionnez les données sur la feuille Excel. La variable dépendante (ou variable à modéliser) est ici le "Poids". Les variables explicatives quantitatives sont la "Taille" et l'"Âge".

  • Comme le titre des colonnes pour les variables est déjà sélectionné, laissez l'option Étiquettes des variables activée.

image.png

  • Allez à l'onglet Sorties et activez l'option SS Type I/III afin d'afficher les résultats correspondants.

  • Cliquez sur OK pour commencer le calcul.

Interpréter les résultats de la régression linéaire multiple

Juste pour rappel, la régression linéaire multiple permet de prédire une variable en fonction de plusieurs autres, sur la base d'une relation linéaire déduite par un algorithme d'apprentissage supervisé. Si vous souhaitez établir une relation linéaire entre seulement deux variables, n'hésitez pas à consulter notre tutoriel sur la régression linéaire simple.

Le premier tableau de résultats fournit les coefficients d'ajustement du modèle. Le R² (coefficient de détermination) donne une idée du % de variabilité de la variable à modéliser, expliqué par les variables explicatives. Plus ce coefficient est proche de 1, meilleur est le modèle.

image.png
Dans notre cas, 63% de la variabilité est expliquée par la taille et l'âge. Le reste de la variabilité est dû à des effets (autres variables explicatives) qui ne sont pas pris en compte dans cet exemple. Dans le tutoriel sur la régression simple, nous avons vu que l'utilisation de la taille dans le modèle expliquait déjà 56%. L'apport de la variable âge est donc faible.

Le tableau d'analyse de la variance est un résultat qui doit être analysé attentivement (voir ci-dessous). C'est à ce niveau que l'on teste si l'on peut considérer que les variables explicatives sélectionnées (la taille et l'âge) apportent une quantité d'information significative au modèle (hypothèse nulle H0) ou non. En d'autres termes, c'est un moyen de tester si la moyenne de la variable à modéliser (le poids) suffirait à décrire les résultats obtenus ou non.

image.png
Le test du F de Fisher est utilisé. Etant donnée que la probabilité associée au F est dans ce cas inférieure à 0.0001, cela signifie que l'on prend un risque de se tromper de moins de 0.01% en concluant que les variables explicatives apportent une quantité d'information significative au modèle.

Les tableaux suivants affichent les SS de Type I et Type III. Ces résultats indiquent si une variable apporte des informations significatives ou non, une fois que toutes les autres variables ont déjà été incluses dans le modèle.

image.png
Le tableau suivant fournit les détails sur le modèle et est essentiel dès lors que le modèle doit être utilisé pour faire des prévisions, des simulations ou s'il doit être comparé à d'autres résultats, par exemple les coefficients que l'on obtiendrait pour les garçons. Nous voyons que la p-value associé au test de Student pour l'âge est d'environ 0.01, et que l'intervalle de confiance à 95% associé frôle la valeur 0. Cela confirme le faible impact de l'âge sur le modèle. L'équation du modèle est donnée sous le tableau. Le modèle indique que dans les limites de l'intervalle de variation de la variable taille et de la variable âge données par les observations, à chaque fois que la taille augmente d'un inch, le poids augmente de 3.6 livres, et à chaque fois que l'âge augmente d'un mois, le poids augmente de 0.2 livres.

image.png
Le tableau et le graphique ci-dessous correspondent aux coefficients de régression standardisés (parfois appelés coefficients bêta). Ils nous permettent de comparer directement l'influence relative des variables explicatives sur la variable dépendante, ainsi que leur signification.

image.pngimage.png
Le tableau suivant montre les résidus. Il nous permet d'examiner de plus près chacun des résidus standardisés. Ces résidus, étant donné les hypothèses du modèle de régression linéaire, devraient être normalement distribués, ce qui signifie que 95 % des résidus devraient se situer dans l'intervalle [-1,96, 1,96]. Tous les valeurs en dehors de cet intervalle sont des valeurs aberrantes potentielles, ou peuvent suggérer que l'hypothèse de normalité est incorrecte. Nous avons utilisé DataFlagger d'XLSTAT pour mettre en évidence les résidus qui ne sont pas dans l'intervalle [-1,96, 1,96].
Sur 237, nous pouvons identifier que 15 résidus sont hors de l'intervalle [-1,96, 1,96], ce qui représente 6,3 % au lieu de 5 %. Une analyse plus approfondie des résidus a été réalisée dans un tutoriel sur l'ANCOVA. Le graphique ci-dessous nous permet de comparer les valeurs prédites aux valeurs observées.

image.png
Le premier graphique permet de visualiser les résidus centrés réduits en fonction du Poids. Il semble indiquer que les résidus croissent en fonction du poids. L'histogramme des résidus centrés réduits permet de repérer rapidement et visuellement la présence de valeurs hors de l'intervalle [-2, 2].

image.png

Conclusion pour cette régression linéaire multiple

En conclusion, la taille et l'âge permettent d'expliquer 59% de la variabilité du poids. Néanmoins l'âge n'a pas permis d'améliorer sensiblement le résultat obtenu avec la seule variable taille. D'autres variables doivent donc être prises en compte dans le modèle pour expliquer les variations du poids. Dans le tutoriel sur l'ANCOVA, le sexe est ajouté comme variable qualitative explicative.

La vidéo ci-dessous vous montre comment faire une régression multilinéaire dans XLSTAT.

Cet article vous a t-il été utile ?

  • Oui
  • Non