Pasar al contenido principal

Regresión Lineal Simple: tutorial en Excel

Este tutorial le mostrará cómo configurar e interpretar una regresión lineal simple en Excel usando el software XLSTAT. La regresión lineal simple se basa en los Mínimos Cuadrados Ordinarios (Ordinary Least Squares, OLS).

¿No está seguro si esta característica de modelado es la que está buscando? Consulte por favor esta guía.

¿Qué es la regresión lineal simple?

La regresión lineal simple permite predecir una variable según una otra variable, basándose en una relación lineal identificada por un algoritmo de aprendizaje especializado. Si está intentando predecir una variable según varias otras variables, no dude en leer nuestra guía sobre la regresión lineal múltiple.

¿Como realizar una regresión lineal simple en XLSTAT?

Datos para ejecutar una regresión lineal simple

Los datos proceden de Lewis T. and Taylor L.R. (1967). Introduction to Experimental Ecology, New York: Academic Press, Inc.. Corresponden a 237 niños detallados por su sexo, su edad en meses, su estatura en inch (1 inch = 2.54 cm), y su peso en libras (1 libra = 0.45 kg).

Objetivo de este tutorial

En utilizar la regresión lineal simple, nuestro objetivo es estudiar como el peso varà­a en función de la estatura, y si una relación lineal tiene una orientación. Se trata aquà­ de una regresión lineal simple, porque una sola variable explicativa es utilizada (la estatura). En un tutorial sobre la regresión lineal multiple, este ejemplo es reproducido con el fin de estudiar la influencia de la edad sobre está relación. Un tutorial sobre el ANCOVA reproduce este ejemplo con el fin de añadir el sexo (variable cualitativa) como variable explicativa, y los datos que corresponden a los varones son entonces tomados en cuenta.

Configuración de una regresión lineal simple

  • Inicie XLSTAT

  • Elija el comando XLSTAT/Modelación de datos/Regresión. Una vez el botón presionado, aparece el cuadro de diálogo que corresponde a la regresión.

  • Puede elegir entonces los datos en la hoja Excel. La "Variable dependiente" corresponde a la variable explicada, es decir, en este caso preciso, el peso. La variable cuantitativa explicativa es aquí la estatura. Queremos explicar aquí la variabilidad del peso por la de la estatura.

  • La opción "Etiquetas de las variables" se deja activada, ya que la primera línea incluye el nombre de las variables.
    XLSTAT dialog box for running a linear regression

    • Haga clic en el botón OK para que empiecen las calculaciones.

Interpretación de los resultados de una regresión lineal simple

El primer cuadro de resultados proporciona los coeficientes de ajuste del modelo. El R’² (coeficiente de determinación) proporciona una idea del % de variabilidad de la variable a modelizar, explicado por la variable explicativa. Mientras más cerca está de 1 este coeficiente, mejor es el modelo.

reg2e.gif

En nuestro caso, 60% de la variabilidad del peso es explicada por la estatura. El resto de la variabilidad es debido a efectos (variables explicativas) que no son tenidos en cuenta en este ejemplo.

El cuadro de análisis de la varianza es un resultado que debe ser atentamente analizado (ver a continuación). Es en este nivel que comprobamos si podemos considerar que la variable explicativa seleccionada (la estatura) originan una cantidad de información significativa al modelo (hipótesis nula H0) o no. En otros términos, es una manera de comprobar si la media de la variable a modelizar (el peso) bastaría con describir los resultados obtenidos o no.

reg3e.gif
La prueba del F de Fisher es utilizada. Dado que la probabilidad asociada al F, en este caso, es inferior de 0.0001, significa que nos arriesgamos de menos del 0.01% concluyendo que la variable explicativa origina una cantidad de información significativa al modelo.
El siguiente cuadro proporciona los detalles sobre el modelo y es esencial en cuanto el modelo debe ser utilizado para realizar previsiones, simulaciones o si debe ser comparado a otros resultados, por ejemplo los coeficientes que obtendríamos para los varones. Vemos que si el parámetro de la estatura tiene un intervalo de confianza bastante restringido, el de la constante del modelo es bastante importante. La ecuación del modelo es proporcionada debajo del cuadro. El modelo enseña que con los coeficientes proporcionados por las observaciones del intervalo de la variable tamaño, cada vez que la estatura aumenta de un inch, el peso aumenta de 3.8 libras.
reg4e.gif
El cuadro siguiente expone el análisis de los residuos. Los residuos centrados reducidos deben tener una atención particular, dado que las hipótesis vinculadas a la regresión lineal, deben ser distribuidos según una ley normal N(0,1). Eso significa, entre otros, que 95% de los residuos deben encontrarse en el intervalo [-1.96, 1.96]. Dado que el escaso número de datos del que disponemos aquí, cualquier valor fuera de este intervalo es revelador de un dato sospechoso. Hemos utilizado la herramienta DataFlagger de XLSTAT, con el fin de demostrar rápidamente los valores que se encuentran fuera del intervalo [-1.96, 1.96].

Podemos aquí identificar nueve observaciones dudosas, en 237 observaciones. Este análisis de los residuos no anula la hipótesis de normalidad.

El primer gráfico permite visualizar los datos, la recta de regresión, y los dos intervalos de confianza (el intervalo alrededor de la media del estimador es lo más cerca de la curva, el segundo es el intervalo alrededor de la estimación puntual). Vemos aquí claramente una tendencia lineal, pero con una intensa variabilidad alrededor de la recta. Los 9 valores sospechosos están fuera del segundo intervalo de confianza.

reg5e.gif

El tercer gráfico permite analizar si hay una relación entre la variable explicativa y los residuos. Una de las hipótesis del modelo, es que no debe haber ninguna relación.

reg6e.gif

El gráfico siguiente permite comparar las predicciones con las observaciones.

reg7e.gif

El histograma de los residuos estandarizados permite señalar rápidamente y visualmente la presencia de valores fuera del intervalo [-2, 2].

reg8e.gif

Conclusión de esta regresión lineal simple

En conclusión, la estatura permite explicar 60% de la variabilidad del peso. Para explicar la variabilidad sobrante, otras fuentes de variabilidad deben entonces ser utilizadas en el modelo. En el tutorial sobre la regresión lineal múltiple , la edad es añadida como segunda variable explicativa.

¿Ha sido útil este artículo?

  • No