Regresión y correlación
Contenidos:
Estadística Económica 2
007-2008. Sara Mateo.
Independencia - Dependencia
Cuando se estudian dos características simultáneamente sobre una muestra, s
e puede considerar que una de ellas influye sobre la otra de alguna mane
ra. Por ejemplo la altura y el peso o las horas de estudio y la calificación en
un examen.
Dependencia
Independencia estadística Dependencia funcional
estadística
- +
Grado de asociación entre dos variables
GRÁFICOS DE DISPERSIÓN: Permite ver si hay asociación
Dadas dos variables X y Y tomadas sobre el mismo elemento de la p
oblación, el diagrama de dispersión es simplemente un gráfico de d
os dimensiones, donde en un eje (la abscisa) se sitúa una variable,
y en el otro eje (la ordenada) se sitúa la otra variable. Si las variabl
es están correlacionadas, el gráfico mostraría algún nivel de correla
ción (tendencia) entre las dos variables. Si no hay ninguna correlaci
ón, el gráfico presentaría una figura sin forma, una nube de puntos
dispersos en el gráfico.
Asociación
positiva. Si
aumenta X
aumenta Y
Estadística Económica 2
007-2008. Sara Mateo.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
La relación entre dos variables métricas puede ser represent
ada mediante la línea de mejor ajuste a los datos. Esta recta
se le denomina recta de regresión, que puede ser negativa o
positiva, la primera con tendencia decreciente y la segunda c
reciente.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
Para el cálculo de la recta de regresión se aplica el método de
mínimos cuadrados entre dos variables. Esta línea es la que h
ace mínima la suma de los cuadrados de los residuos, es decir,
es aquella recta en la que las diferencias elevadas al cuadrado
entre los valores calculados por la ecuación de la recta y los v
alores reales de la serie, son las menores posibles.
y = a + bx
Recta de regresión Pendiente
yn
yn 1 yˆ i
y3
u3 ui
yi
y1 yi
y2
Intercepto
x1 x2 x3 xi xn 1 xn
i i ii
y abxu u y ˆi
y
i
Error
Llamemos a “u” perturbación o error, siendo la diferencia que hay entre el v
alor observado de la variable exógena (y) y el valor estimado que obtendrem
os a través de la recta de regresión . yˆ i
yi abx
i
n n
u
(2
y
i
iˆ
y
i)2
u2
i
i
1
(yi ˆ
y
i)2
i
1
n n n
2
i
m
in
2
u (
y ˆ
i y
)
i
2
y
i aq
bp
x
i
q
,
p
i1 i
1 i
1
Estadística Económica 2
007-2008. Sara Mateo.
En el modelo de regresión lineal simple la función elegida para aproximar la relación entre las
variables es una recta, es decir y=a+bx, donde a,b son los parámetros. A esta recta la llamar
emos RECTA DE REGRESIÓN DE Y SOBRE X.
Vamos a deducir su ecuación usando el método de los mínimos cuadrados. Dado un valor de
X, tenemos los dos valores de Y, el observado, yi , y el teórico, yi* = a + bxi. Hemos de mini
mizar los errores cometidos:
n n
2 2 MINIMIZAR
y i a bx i yi
abx
i
i
1 El valor que hemos aproxii 1
Errores cometidos al aprox
imar por una recta
mado para “y” con la recta
de regresión y*
nay
i i
bx
a
y
b
x i i
x y y b x x b x
i
i i
i
i
i
2
i
x y
y
x bx nx b x
i
yi abxi 0
2
2 yi ab xi
i i
n
i i
a i i i
i
i i i
b
2 yi abxi xi 0
xi yi a xi b 2
xi
i
xi y i y n x b
i
x i2 n x 2
i i i i
S xy
S xy bS x2 b
S x2
y obtenemos que la recta de regresión de Y sobre X: y = a + bx con los valore
s a y b anteriormente calculados, o bien la siguiente expresión:
Sxy
yy
2
xx
Sx
Aplicando el mismo razonamiento llegaríamos a la expresión de la recta de regre
sión de X sobre Y: x = a’ + b’y con los valores a’ y b’ calculados como:
Sxy
b' ya'x
b'y
2
Sy
S xy
x x y y
Estadística Económica 2 S y2
007-2008. Sara Mateo.
Varianza residual: Ayuda a medir la dependencia.
2
y ˆ
y Si es grande, los residuos, por término
VR = 2
S
u2
S
R i i
medio, serán grandes. Dependencia pe
y
N queña y viceversa.
2 Su2 VR
2 Sx
Ayuda a determinar la
Sy S y2 VT y
asociación pero en sen
tido inverso. La mejor
medida es R.
Coeficiente de correlación general:
Su2 rxyR
Haciendo unas transformaciones se demuestra que r(xy) v
R 1 2 isto en el capítulo 6 sólo es un caso particular de R
SY
Elevado al cuadrado obtenemos el coeficiente de determinación que sirve como medida 2
del buen ajuste de la recta de regresión R
2
Cuando solo exista una variable explicativa o ind S S S 2
2
R '
bb
xyxy
xyr
ependiente y una sola dependiente se cumple: 2 2 SS x
x y
S S xy
1
r
1
1
R
1
2
0
r
1
0
2
R
1
S S S
ˆ
Recta de regresión: y
i
yX
Y
2
x
X
Y
x
2i
yXY
2
xi
x
X X
S S SX
SS S SS S
ˆ
y
i
yX
Y
2
X
Y
x
ix
yX
YY
x
ix
Y
yx
r
ix
SS
XS
YX S
S
X
YS
X S
X
r
1
1r0 r0 0
r1 r1
Estadística Económica 2
007-2008. Sara Mateo.
2
S Y
Se descompone en:
S S VR
2
u
2
ry
SS
2
RS 2
Y
2
u
VE
S S S 2
S 2 2
VR VE 2
R
2
1 2 2 1
u
2
R Y u
S SY SY
Y
VT VT
SS
2
Y
S VT
VR
VE
2
R
2
u
2
R Tanto por uno de la Y que viene explicado por la X
S
ˆ
y
0a
q
bpx
0
y X
Y
2x
0
x
SX