Pasar al contenido principal

Regresión Ridge en Excel

Esta guía nos explica como configurar e interpretar la regresión Ridge en Excel usando el programa XLSTAT.

Juego de datos para la Regresión Ridge

Los datos provienen de Osborne and al. (1984). El juego de datos contiene las discretizaciones de los infrarrojos cercanos de 30 cookies. La longitud de onda de cada espectro varía desde 1100 hasta 2460 nanómetros con un paso de 40 nanómetros. Así tenemos 35 variables explicativas en el juego de datos. La tabla de datos también contiene la proporción de agua en cada cookie.

Objetivo de la guia

El objetivo de esta guía es configurar e interpretar una regresión Ridge en el juego de datos de los cookies.

Configurar una regresión Ridge en XLSTAT

Después de haber abierto XLSTAT, haga clic en Modelación de datos/Regresión Ridge
Regresion Ridge en el Menu XLSTAT
El cuadro de diálogo de la regresión Ridge aparece. 
 
Ahora puede seleccionar sus datos en la hoja de Excel. Aquí, la variable dependiente (o variable a modelar) es la proporción de agua en los cookies.
 
Las variables cuantitativas explicativas corresponden a las columnas L1 hasta L35. Aquí queremos explicar la variabilidad de la proporción de agua en los cookies en función de los espectros.
 
Solo los 20 primeros cookies del juego de datos son seleccionados para la modelación. Vamos a utilizar los otros para predecir.

Tenemos que activar la casilla Etiquetas de las variables, y también la casilla Etiquetas de las Observaciones para seleccionar las etiquetas de los cookies.
 
Pestana General de la regresion Ridge en XLSTAT
En la pestaña Opciones, tenemos que utilizar la Validación cruzada para encontrar el parámetro lambda optimal para la regularización. Elegimos 5 bloques para la Validación cruzada y probar 100 valores de lambda diferentes.

Pestana Opciones de la regresion Ridge en XLSTAT
En la pestaña Predicción, selecciona los datos que sirven para la predicción. Aquí vamos a seleccionar los últimos 10 cookies en el juego de datos.
  Pestana Prediccion de la regresion Ridge en XLSTAT 
Configura la pestaña Resultados así:

Pestana Resultados de la regresion Ridge en XLSTAT
En la pestaña Gráficos, puede activar la opción Evolución de la MSE (Validación cruzada) que permite observar la evolución de la MSE (Error cuadrático medio) dependiendo del parámetro de regularización.
 
Las computaciones empiezan después de haber hecho clic en el botón OK.

Interpretar la régression Ridge

La tabla “Parámetros del modelo” nos da detalles sobre el modelo. Esta tabla sirve cuando necesitamos predecir o analizar la importancia de cada variable en el modelo. Podemos ver que todas las 35 variables han sido conservadas en el modelo con coeficientes demasiado pequeños y homogéneos.
 
 Tabla de parametros del modelo después de la regresion Ridge
El siguiente gráfico muestra la evolución de la MSE dependiendo del parámetro de regularización Lambda. La valor de Lambda seleccionada por XLSTAT es la que minimiza el MSE, aproximadamente 0.133.
 
Grafico de evolucion de la MSE para la regresion Ridge en XLSTAT
La última tabla nos muestra las predicciones del modelo de la proporción de agua en los 10 últimos cookies.
 
Predicciones del modelo generado por la regresion Ridge en XLSTAT

Conclusion sobre la régression Ridge

Por fin, la regresión Ridge es diferente de la regresión LASSO y ha modelado la proporción de agua en los cookies basándose en todas las 35 variables. También, contrariamente a la regresión LASSO, ninguna variable se distingue con un coeficiente largo en el modelo construido por la regresión Ridge.

¿Ha sido útil este artículo?

  • No