¿Qué modelo estadístico debería elegir?
Si usted se acerca por primera vez al modelado estadístico, esta sencilla y corta introducción puede resultarle útil antes de explorar la tabla que se presenta más adelante.
Una guía para elegir la herramienta de modelado estadístico apropiada a la situación
La elección de un modelo estadístico no es sencilla. Es erróneo pensar que cada conjunto de datos dispone de su propio modelo adaptado. Si usted se acerca por primera vez al modelado estadístico, esta sencilla y corta posiblemente correlacionadas. El uso de la regresión PLS es muy popular en la quimiometría, en la cual las salidas con frecuencia son pronosticadas por un amplio espectro de longitudes de onda.
¿Qué número de parámetros deberían incluirse en el modelo?
Una vez que elija la herramienta de modelización adecuada, en muchas situaciones, podríamos preguntarnos cuántos parámetros deberíamos incluir en el modelo. Cuanto mayor sea el número de parámetros que incluyamos, mejor será el ajuste del modelo a los datos (i.e., el menores serán los residuos y, en consecuencia, mayor será el estadístico R²). Así, ¿debería maximizarse el número de parámetros del modelo de manera que los residuos fueran lo más pequeños posible? En realidad, no. Un modelo que se ajuste mucho a los datos será demasiado representativo de la muestra particular utilizada, y la generalización a toda la población será menos precisa.
La calidad del modelo, medida como el equilibrio entre un ajuste razonable de los datos y un número mínimo de parámetros, se puede evaluar usando índices como el Criterio de Información de Akaike (AIC) o el Criterio de Información Bayesiano (BIC o SBC). Al comparar varios modelos paramétricos entre sí, el modelo con el índice más bajo es el que presenta la mejor calidad en el conjunto de modelos evaluados. La interpretación de estos índices no tiene sentido en un contexto absoluto, esto es, cuando se toma en consideración un solo modelo.
La rejilla
La rejilla o tabla de más abajo puede ayudarle a elegir un modelo estadístico adecuado a su situación (tipos y número de variables dependientes y explicativas). La tabla incluye asimismo una columna con un ejemplo de cada situación.
Las condiciones de validez de los modelos paramétricos se listan en el párrafo que sigue a la tabla.
Las soluciones que se presentan son las herramientas más frecuentemente usadas en estadística. Todas ellas están disponibles en XLSTAT. La lista no es exhaustiva (existen muchas otras soluciones).
(*) soluciones diseñadas preferentemente para la predicción
Condiciones de validez
Las condiciones de validez que proponemos son reglas generales. No existen normas precisas en la literatura, por lo que le recomendamos encarecidamente que siga las recomendaciones específicas de su campo de estudio.
Condiciones de validez
-
Los individuos son independientes.
-
La varianza es homogénea.
-
Los residuos siguen una distribución normal.
-
Al menos 20 individuos (recomendado).
-
Ausencia de multicollinealidad (si el propósito es estimar los parámetros del modelo).
-
No hay más variables explicativas que individuos.
-
Normalidad multivariante de los residuos.
8) La varianza es homogénea dentro de cada variable dependiente. Las correlaciones entre variables dependientes son homogéneas. |
¿Ha sido útil este artículo?
- Sí
- No