Moyenne, médiane, écart-type et autres statistiques dans Excel
Ce tutoriel explique comment calculer et interpréter la moyenne, la médiane et d’autres statistiques descriptives pour des données quantitatives en utilisant XLSTAT.
Jeu de données pour calculer des statistiques descriptives sur une variable quantitative
Les données correspondent aux résultats d’une enquête sur le montant dépensé, en moyenne, dans le commerce en ligne par mois. Les répondants sont représentés en lignes et les réponses ainsi que la classe d’âge de chaque répondant en colonnes.
Le but ici est de résumer les résultats de l’enquête en utilisant des statistiques descriptives, comme : 1. La moyenne et la médiane qui mesurent la tendant centrale, 2. L’écart-type, la variance et le coefficient de variation qui mesurent la dispersion.
Nous souhaitons également comparer les réponses par classe d’âge.
Paramétrer la boite de dialogue des statistiques descriptives
1. Une fois XLSTAT lancé, sélectionnez le menu XLSTAT / Description des données / Statistiques Descriptives : 2. La boîte de dialogue Statistiques Descriptives apparaît :
3. Dans l’onglet Général, sélectionnez la colonne Online(EUR) dans le champ Données quantitatives et la colonne classe d’âge dans le champ Sous-échantillons. Activez également l’option Libellés Variable-Modalité afin d’utiliser des libellés longs dans les résultats.
Ensuite, choisissez l'option Feuille pour que l'affichage des résultats soit effectué sur une nouvelle feuille du même classeur. Cochez également l'option Libellés des échantillons puisque le nom des variables est inclus dans la sélection.
4. Dans l'onglet Options, activez les options suivantes : Les options standardiser ou remettre à l'échelle** peuvent être utilisées pour comparer entre elles des variables mesurées sur des échelles différentes. Ce n’est pas le cas ici, car nous n'examinons qu'une seule variable.
5. Dans l’onglet Sorties, cliquez sur le bouton Toutes afin de sélectionner toutes les sorties proposées.
Interpréter les statistiques descriptives d’une variable quantitative
Le tableau de résultats est affiché dans une nouvelle feuille nommée Desc. La colonne B correspond à l’ensemble de données et les colonnes C-E aux différentes classes d’âge.
Plus de trente statistiques descriptives sont calculées. Les plus connues sont les mesures de la tendance centrale (ex. moyenne, médiane) et de la variabilité (ex. variance, écart-type, amplitude, coefficient de variation). Vous trouverez toutes les définitions et formules dans le menu Aide (cliquez sur le bouton Aide de la boite de dialogue).
a. Interpréter la tendance centrale
La moyenne affichée dans colonne Online indique que les répondants dépensent en moyenne 156 euros par mois dans le commerce en ligne.
Le montant médian est 139 euros. Cela signifie que la moitié des individus dépense plus de 139 euros tandis que l’autre moitié dépense moins de ce montant. La distribution des données est probablement étalée sur la droite puisque la médiane est inférieure à la moyenne.
En comparant les trois classes d’âge, nous constatons que les consommateurs entre 30 et 45 ans dépensent plus que les autres groupes (moyenne et médiane). Une interprétation possible est que ces individus ont des moyens financiers plus importants que les plus jeunes (15-30), mais ils maitrisent mieux les achats en ligne que les plus âgés (>45).
b. Interpréter la dispersion
Nous avons constaté que les plus jeunes (15-30) dépensent en moyenne plus que les plus âgés (>45). Néanmoins, l’écart-type (n-1) des jeunes est plus élevé. Cela signifie que des montants plus variés sont dépensés par le groupe des jeunes par rapport à l’autre groupe qui dépense des montants plutôt similaires. Diverses interprétations peuvent être proposées. Par exemple, nous pouvons dire que les jeunes consommateurs appartiennent à des catégories socio-professionnelles plus diversifiés (ex. étudiants, professionnels, chômeurs) que les plus âgés.
Les mêmes conclusions ressortent en utilisant la variance. En général, l’écart-type est utilisé plus souvent pour l’interprétation des résultats parce qu’il s’exprime sur la même échelle de mesure que les données.
Un autre indicateur de la dispersion de données est le coefficient de variation. Un coefficient plus élevé indique des données plus dispersées. Cette statistique est sans unité donc elle est souvent préférée à l’écart-type ou la variance pour comparer des échantillons d’unités différentes.
Ecart type (n) ou Ecart type (n-1) ?
Dans ce tutoriel, nous utilisons les réponses d’un échantillon de 150 individus afin d’étudier la population totale. Pour cette raison, nous avons choisi de parler au-dessus de l’écart type (n-1) qui est calculé en tenant compte d’une approximation liée à l’échantillonnage. La variance (n) ou l’écart type (n) sont plus appropriés, dans le cas idéal où nous avons accès aux mesures relatives à toute la population des acheteurs en ligne.
Aller plus loin : décrire des données quantitatives en utilisant une boite à moustaches (box plot)
Comment visualiser en un seul graphique une ou plusieurs variables quantitatives ? La boite à moustaches est une représentation simple et assez complète affichant le minimum, la moyenne, la médiane ainsi que le premier et le troisième quartile d’une série de données. Nos tutoriels vous permettent de voir comment réaliser une boîte à moustache ou une boîte à moustaches entaillées avec XLSTAT.
La vidéo suivante vous fournira des informations complémentaires sur les statistiques descriptives de données quantitatives.
Cet article vous a t-il été utile ?
- Oui
- Non