Quel outil de modélisation statistique choisir ?
Pour une introduction courte et simple à la modélisation statistique, veuillez vous référer à cet article .
Guide de choix d’outil de modélisation statistique en fonction de la situation
Il est erroné de penser qu’à chaque jeu de données correspond un modèle adapté. Chaque type de modèle répond à des questions spécifiques. Par exemple, la glycémie liée à un diabète particulier peut être expliquée par une variable qualitative (le sexe par exemple). Dans cette situation, le modèle ANOVA peut être utilisé. Nous pouvons utiliser les mêmes données de glycémie avec des données d’âge (variable quantitative) pour voir s’il existe une augmentation ou diminution linéaire de cette glycémie en fonction de l’âge. Dans cette situation, la régression linéaire simple serait plus appropriée.
Le choix d’un modèle statistique peut aussi être inspiré par la forme des relations entre variables à expliquer et variables explicatives. Un examen graphique de ces relations peut s’avérer très utile. Ces formes peuvent être curvilignes, ce qui suggère que l’utilisation de modèles polynomiaux ou non-linéaires pourrait être plus appropriée que les modèles linéaires.
Le choix d’un modèle peut aussi être intimement lié à la question très spécifique de l’étude. Par exemple, l’estimation des paramètres Vmax et Km d’une cinétique enzymatique de Michaelis-Menten implique obligatoirement la prise en compte de l’équation de Michaelis-Menten. Cette équation lie le temps de réaction (variable à expliquer) à la concentration de substrat (variable explicative) de manière non-linéaire.
Si l’objectif de l’étude est uniquement d’effectuer des prédictions à partir d’un grand nombre de variables possiblement corrélées, alors des solutions autres que les modèles paramétriques peuvent être envisagées. Par exemple, la régression par les moindres carrés partiels (PLS) est très utilisée en chimiométrie, où il est souvent question d’expliquer des variables par un large spectre de longueurs d’onde.
Combien de paramètres faut-il inclure dans le modèle ?
Une fois que l’outil de modélisation a été choisi, souvent la question du nombre de paramètres à inclure dans le modèle se pose. Plus le nombre de paramètres est élevé, meilleure est l’adéquation du modèle aux données (résidus plus faibles donc R² plus élevé). Un modèle trop adapté à un jeu de données particulier n’est pas souhaitable car il serait trop représentatif de ce jeu de données, et la généralisation à toute la population sera moins précise.
La qualité d’un modèle peut se traduire par un compromis entre une bonne adéquation du modèle aux données et un nombre minimal de paramètres. Cette qualité peut se mesurer grâce à des indices. Les plus populaires sont l’AIC (Akaike’s Information Criterion) et le BIC (ou SBC, Bayesian Information Criterion). Lorsque différents modèles paramétriques sont comparés, le modèle associé à l’AIC ou au BIC le plus faible a la meilleure qualité parmi les modèles comparés. Ces indices sont des indices de qualité relative. Leur interprétation n’a pas de sens si uniquement un seul modèle est pris en compte.
La grille
La grille ci-dessous vous aidera à choisir un modèle statistique qui pourrait être approprié selon votre situation (types et nombres de variables dépendantes et explicatives). La grille inclut également des exemples pour chaque situation.
Les conditions de validité de modèles paramétriques sont listées dans le paragraphe suivant la grille.
Les solutions affichées sont les plus courantes en statistiques. Elles sont toutes disponibles dans XLSTAT. La liste n’est pas exhaustive. D’autres solutions existent.
Variable(s) à expliquer | variable(s) explicative(s) | Exemple | Modèles paramétriques | Conditions d'application | Autres solutions |
---|---|---|---|---|---|
Une seule variable quantitative | une variable qualitative (= 1 facteur) à deux modalités | Effet de la contamination (oui / non) sur la concentration d'un élément trace dans des plantes | ANOVA un facteur 2 modalités | 1 ; 2 ; 3 ; 4 | Test de Mann-Whitney |
une variable qualitative à k modalités | Effet d'un site (4 usines) sur la concentration d'un élément trace dans des plantes | ANOVA à un facteur | 1 ; 2 ; 3 ; 4 | Test de Kruskal-Wallis | |
plusieurs variables qualitatives à k modalités | Effets croisés du site et de l'espèce de plante sur la concentration d'un composé dans la plante | ANOVA à plusieurs facteurs (plan factoriel) | 1 ; 2 ; 3 ; 4 | ||
une variable quantitative | effet de la température sur la concentration d'une protéine | régression linéaire simple ; modèles non linéaires (en fonction de la forme de la relation entre var. à expliquer et var. explicative) | 1 - 3 | régression non paramétrique (*);régression quantile ; arbres de régression(*) ; K plus proches voisins (*) | |
plusieurs variables quantitatives | Effets de la concentration de différents contaminants sur la biomasse | régression linéaire multiple ; modèles non-linéaires | 1 - 6 | régression PLS(*); Lasso; Ridge; Elastic Net | |
mélange variables qualitatives / quantitatives | Effets croisés du sexe et de l'âge sur la glycémie associée à un type de diabète | ANCOVA | 1 - 6 | régression PLS (*) ; régression quantile ; arbres de régression(*); (*);Forêts aléatoires de régression (*); Lasso; Ridge; Elastic Net | |
Plusieurs variables quantitatives | qualitative(s) et/ou quantitative(s) | Effet d'une matrice de variables environnementale sur le transcriptome | MANOVA | 1 ; 4 ; 7 ; 8 | Analyse canonique des corrélations ; régression PLS (*) |
Une seule variable qualitative | qualitative(s) et/ou quantitative(s) | Effet d'une dose de poison sur la survie / la mort de souris | Régression logistique (binomiale ou ordinale ou multinomiale ) | 5 ; 6 | PLS-DA (*) ; Analyse discriminante (*) ; Arbres de classification(*); Forêts aléatoires de classification (*) |
Une seule variable type comptages (avec bcp de 0) | qualitative(s) et/ou quantitative(s) | Effet d'une dose de poison sur le nombre de nécroses chez la souris | Régression log-linéaire (Poisson) | 5 ; 6 |
(*) solutions conçues surtout pour les prédictions
Conditions de validité
Les conditions de validité suggérées sont uniquement des pistes qui peuvent changer en fonction du type de données et des domaines d'application spécifiques. Il est vivement recommandé de se référer aux recommandations propres à vos domaines.
Conditions d'application
-
Les individus sont indépendants
-
Variance(s) homogène(s)
-
Les résidus suivent une distribution normale
-
Au moins 20 individus dans le dispositif (recommandé)
-
Absence de multicollinéarité (si l'objectif est d'estimer les paramètres)
-
Pas plus de variables explicatives que d'individus
-
Normalité multivariée des résidus
-
Variance homogène au sein de chaque variable à expliquer. Corrélations homogènes entre les variables à expliquer.
Cet article vous a t-il été utile ?
- Oui
- Non