Regresión lineal
1 2
3 4
Diagramas de dispersión o nube de puntos Relación entre variables.
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de
dispersión. dispersión.
100 100
90 90
80 Pesa 76 kg. 80
70 70
Predicción de una variable en función de la otra. Cómo reconocer relación directa e inversa.
330 100
Aparentemente el peso aumenta 10Kg por cada 10 cm de altura... o sea, 280 Incorrelación 90 Fuerte relación
directa.
el peso aumenta en una unidad por cada unidad de altura. 230
80
70
180
60
100 130
50
80 40
90 30
140 150 160 170 180 190 200
30
140 150 160 170 180 190 200
10 cm.
60 inversa •Esto se llama relación directa o
40 50
creciente entre X e Y.
40
30
30 20
Para los valores de X mayores que la media
10
140 150 160 170 180 190 200 0
le corresponden valores de Y menores. Esto
140 150 160 170 180 190 200 es relación inversa o decreciente.
7 8
Cómo reconocer buena o mala relación
330 100
Coef. de correlación lineal de Pearson
280 Poca relación 90 Fuerte relación
230
80 directa.
La coeficiente de correlación lineal de Pearson de
70
180
60
dos variables, R, nos indica si los puntos tienen
130
50 una tendencia a disponerse alineadamente
80 40 (excluyendo rectas horizontales y verticales).
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Dado un valor de X no podemos decir gran • Conocido X sabemos que Y se mueve por Tiene el mismo signo que Sxy por tanto de su signo
cosa sobre Y. Mala relación. Independencia. una horquilla estrecha. Buena relación. obtenemos el que la posible relación sea directa o
inversa.
• Lo de “horquilla estrecha” hay que
entenderlo con respecto a la dispersión que S xy
R
80
70 Cierta relación tiene la variable Y por si sola, cuando no se R es útil para determinar si hay relación lineal
60 inversa considera X. entre dos variables, pero no servirá para otro tipo SxS y
50
40
de relaciones (cuadrática, logarítmica,...)
30
20
10
0
140 150 160 170 180 190 200
9 10
13 14
b1 (pendiente de la recta) 90
60
b0=85 cm
Y e Ŷ rara vez coincidirán por muy bueno que sea el 30
modelo de regresión. A la cantidad
0
e=Y-Ŷ se le denomina residuo o error residual.
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
15 16
La relación entre las variables no es exacta. Es natural El modelo lineal de regresión se construye utilizando la técnica de
preguntarse entonces: estimación mínimo cuadrática:
Buscar b0, b1 de tal manera que se minimice la cantidad
¿Cuál es la mejor recta que sirve para predecir los valores de
Y en función de los de X? e (y
2
i i yˆ i ) 2
¿Qué error cometemos con dicha aproximación (residual)?. i i
•Cuanto menor sea la dispersión del error residual Cuando un ajuste es bueno, R2 será cercano a uno.
mejor será el ajuste de regresión.
Eso hace que definamos como medida de Cuando un ajuste es malo R2 será cercano a cero.
bondad de un ajuste de regresión,
o coeficiente de determinación a:
A R2 también se le denomina porcentaje de variabilidad explicado
2 por el modelo de regresión.
S
R2 1 e
2 R2 puede ser pesado de calcular en modelos de regresión
S Y
general, pero en el modelo lineal simple, la expresión es sencilla.
b1=0,466
El estudio descriptivo univariante de ambas variables por
separado no revela nada sobre una posible relación. ¿Aprecias regresión a la media? 150
150 160 170 180 190 200
14
10
¿Eso significa que el 57% de las predicciones del modelo son correctas?
12
¿Cómo lo interpretas?
8
10
Correlaciones
8 6
Regresión Múltiple En el modelo se supone que la variable dependiente Y se puede expresar de la forma
siguiente:
26
29 30
31 32
Modelo de regresión lineal múltiple
Multicolinealidad
La No Multicolinealidad es otra de las hipótesis básicas del modelo. Este término hace
referencia a la correlación existente entre las variables explicativas del modelo de regresión.
Pueden ocurrir dos situaciones extremas:
EL grado de multicolinealidad puede medirse con el factor de la inflación de la varianza (FIV) del
estimador de cada parámetro β del modelo. FIV (bj) = 1/(1-R2j)
Soluciones:
Incorporar más información; aumentando el tamaño de la muestra, añadiendo información a
priori sobre valor de alguno de los parámetros, etc…
Cambios en la estructura del modelo; cambios en las variables explicativas, transformación
en las variables explicativas, etc…
33