Regresión Lineal
Departamento Estadística e I. O.
Universidad de Granada
Y = f (X1 , X2 , . . . , Xk ) + u
Y = β0 + β1 X1 + . . . + βk Xk + u
Objetivo
Nuestro objetivo es, tomar una muestra (u observaciones) de los valores de las variables Y , X1 , X2 , . . . , Xk , y
encontrar los valores β0 , β1 , . . . , βk , de tal forma que conocidos valores concretos de las variables explicativas
X1 , . . . , Xk , podamos sustituirlos en la expresión anterior y obtener un valor para la variable Y.
Obtención en SPSS
Tendremos que seleccionar los menús:
Analizar
Regresión
Lineales
Seleccionar la variable dependiente (Tasa Embarazo) y las independientes (Alcohol y Monoparentales)
H 0 : βi = 0
H1 : βi 6= 0
con este contrastes nos garantizamos que el parámetro sea significativo, de modo que:
Si se acepta la hipótesis nula: implica que βi = 0, es decir el coeficiente que multiplica a la variable es 0 y por lo
tanto esa variable no afecta al modelo.
Si se rechaza la hipótesis nula (p-valor< α) implica aceptar la alternativa y por ello el parámetro es significativo.
Si aceptamos H0 , solo nos quedaría que Y = β0 , es decir que la variable dependiente es una constante, por lo que no
existe regresión.
Si aceptamos H1 si existe la regresión.
Generalmente si todos los parámetros individualmente son significativos, la regresión también lo es. Este contraste se
denomina contraste de regresión y está asociado a la Tabla ANOVA.
Tabla ANOVA
El contraste de regresión se resuelve mediante la tabla ANOVA:
Podemos ver que el p-valor del contrastes es p − valor =, 000 <= α = 0,05 por lo que se rechaza la hipótesis nula, es decir, la
regresión existe o es significativa
En este caso R 2 toma un valor de 0.439, por lo que podremos considerar un medio-bajo
nivel de ajuste.
Nota
No se debe realizar predicciones fuera de los rangos de las variables
independientes pues no se conoce el comportamiento en otras zonas
La correlación, r , varía entre [−1, 1], cuanto más cerca de los extremos mayor linealidad.
Definición
Los residuos (no tipificados) son la diferencia entre los valores observados
(variable Y o dependiente) y los valores predichos (valor obtenido de sustituir para
cada individuo de la muestra los valores de las variables independientes en el
modelo de regresión obtenido).
Obtención
Seleccionaremos:
Guardar
Residuos no tipificados
Se guardan en la vista de datos.
Métodos gráficos
Desde la ventana de regresión, marcamos:
Botón gráficos
Seleccionar Histográma
Seleccionar Gráfico probabilístico normal
El histograma se adapta a la curva normal, pero no podemos afirmarlo en la parte de la izquierda. Tampoco
podemos asegurar la normalidad con el gráfico probabilístico normal.
Estadísticos
Estadístico de Durbin-Watson
El estadístico es muy cercano a 2, por lo que asumiremos que los residuos están incorrelados.
Aplicación en SPSS
Para realizar el gráfico para contrastar la homocedasticidad, en el menú de regresión seleccionamos:
Gráficos
En Y introducimos *ZRESID
En X introducimos *ZPRED
En este gráfico, tenemos que ver que los valores se distribuyan aleatoriamente en torno al eje X (línea imaginaria que pasa por
el 0)
Creación de variables
Si tenemos una variable (Estado Civil) con tres modalidades (soltero, casado y viudo), tendremos que:
Crear dos variables ficticias F1 y F2
Si un individuo es soltero, los valores en ambas variables serán 0 (este será el estado de referencia).
Si un individuo está casado, las variables ficticias tomarán el valor F1=1 y F2=0.
Si un individuo es viudo, las variables ficticias tomarán el valor F1=0 y F2=1.
De tal forma que si realizamos la regresión entre una variable Y que dependa del estado civil, se realiza en base a
estas dos nuevas variables:
Y = β0 + β1 F 1 + β2 F 2
donde:
β0 será el valor en Y si el individuo es soltero.
β1 será el cambio que se produce en Y al pasar de soltero a casado.
β2 será el cambio que se produce al pasar de soltero a viudo
Modelo
El modelo será:
Tasadelatinos = 22,150 + 46,935F 1 − 4,225F 2
Es decir, comparando con nuestro estado de control (Resto del estado) en el que la población latina es del 22.15 %, los estados de la
frontera aumenta con respecto al resto en un 46.935 % (22.15+46.935=69.085 %) y en el Centro Oeste disminuye en un 4.225
(22.150-4.225=17.925 %).
El resto de los análisis: de bondad de ajuste, contrastes sobre los parámetros, hipótesis del modelo... son equivalentes. Sobre las
variables ficticias no tienen sentido la mayor parte de ellos.