ndice
Julio de 2011
ndice
ndice I
Dependencia determinista
Dependencia estadstica
Modelo para la dependencia estadstica
ndice
ndice II
1
2
ndice
ndice III
2
3
ndice
definicin
Dos variables son dependientes cuando el conocimiento del valor de
una de ellas en un individuo aporta informacin sobre el valor de la
otra en ese individuo.
definicin
Cuando dos variables no son dependientes se dice que son
independientes.
ndice
a=
F
.
m
ndice
F
La ecuacin a = 10
es el modelo que
explica la relacin
de dependencia
entre estas
variables.
ndice
e = gt
t=
2e
ndice
ndice
Dependencia determinista V
10
ndice
Dependencia estadstica I
11
ndice
Qu altura le
corresponde a un
cerezo que tenga un
dimetro en la base
de 14 unidades?
12
ndice
13
ndice
Dependencia estadstica IV
Problema
En los casos de dependencia estadstica no existe un modelo
matemtico (ecuacin) que permita calcular con exactitud el valor
de una variable, cuando la otra es conocida.
Solucin
En ocasiones se puede establecer un modelo que permita calcular,
de manera aproximada, el valor de una variable aleatoria, cuando el
de la otra, tambin aleatoria, es conocida.
14
ndice
ndice
16
17
ndice
ndice
Definicin
Un modelo de regresin es una expresin matemtica que permite
calcular, de forma aproximada, el valor de una variable aleatoria
en un individuo, cuando se conoce el valor de una o varias variables
en ese mismo individuo (regresores), que tambin son aleatorias.
18
19
ndice
ndice
Principio bsico
Un modelo de regresin es til cuando describe correctamente la
relacin de dependencia entre variables.
21
ndice
22
ndice
ndice
23
ndice
Qu modelo es el adecuado?
La conjetura de la conveniencia de un modelo de regresin, para
explicar la relacin de dependencia entre variables, se realiza, en
primer lugar, a travs del anlisis grco de la informacin
disponible.
24
ndice
X
x
x
1
2
..
.
Y
y
y
1
2
..
.
xn yn
25
ndice
Grcamente,
Qu tipo de modelo
explicara esta relacin de
dependencia entre X e Y ?
Parece razonable, en este
caso, conjeturar una recta
como el modelo adecuado.
ndice
ndice
28
ndice
El coeficiente de covarianza I
X
x
x
1
2
..
.
Y
y
y
1
2
..
.
xn yn
29
ndice
El coeficiente de covarianza II
definicin
Se dene el coeciente de covarianza entre X e Y como:
P
(xi x)(yi y )
COV (X , Y ) =
30
ndice
Interpretacin de la covarianza I
Para interpretar el
signicado del coeciente
de covarianza, considrese
la representacin grca
de los datos de la tabla. .
b
b
b
b
b
b
b
b
b
b bb
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b bb
bb
b
bb
b
b
b
b
b
b
b
b
b
b
b
ndice
Interpretacin de la covarianza II
b
b
b
b
b
b
b
b
b
b bb
b
b
b
b
b
bb
b
b
bb
b
b
b
b
b
b
b
b
b
b bb
b bbb
b
b
b
b
b
b
b
b
b
b
b
(
x, y)
b
b
ndice
(xi x
) > 0
b
(yi y) > 0
(
x, y)
ndice
Interpretacin de la covarianza IV
(xi x
) < 0
(yi y) > 0
(
x, y)
ndice
Interpretacin de la covarianza V
De forma similar, en el
tercer cuadrante:
(xi x)(yi y ) > 0
b
(yi y) < 0
b
(xi x
) < 0
(
x, y)
ndice
Interpretacin de la covarianza VI
Y en el cuarto cuadrante:
(xi x)(yi y ) < 0
b
(yi y) < 0
(
x, y)
b
(xi x
) > 0
ndice
()
b
b
b
b
b
b
37
b
b
bb
(+)
b
b
b bb
b
b
b
b
b
b
(+)
b
bb
b
b
b
b bb
b bbb
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
bb
b
b bb
b
b
b
b
b
b
b
b
b
b
()
ndice
()
b
b
b
b b
b
b
b
(+)
38
b
b
b
b
b
b
(+)
b
bb
b
b
b
b
()
b
b
b
b
bb
b
b
bb
b
b
b
b
b
b
b
b
b
b
(+)
b
b
b
b
b
()
(+)
b bb
b
b
b
b
()
ndice
Propiedades de la covarianza
39
ndice
COV (X , Y )
sX sY
ndice
41
X e Y.
X e Y.
ndice
()
b
b
b
b
b
b
42
b
b
bb
(+)
b
b
b bb
b
b
b
b
b
b
(+)
b
bb
b
b
b
b bb
b bbb
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
bb
b
b bb
b
b
b
b
b
b
b
b
b
b
()
ndice
Sin embargo, en los casos que resumen los siguientes grcos cabe
esperar un coeciente de correlacin prximo a uno en valor
absoluto.
()
b
b
b
b b
b
b
b
(+)
43
b
b
b
b
b
b
(+)
b
bb
b
b
b
b
()
b
b
b
b
bb
b
b
bb
b
b
b
b
b
b
b
b
b
b
(+)
b
b
b
b
b
()
(+)
b bb
b
b
b
b
()
ndice
y
= f (x)
b
b
b
b
b
b
b
=1
ndice
(xi , yi )
y
= f (x)
b
b
b
b
b
b
b
xi
45
ndice
yi se puede descomponer
como se describe en el
grco: .
(xi , yi )
b
b
y
= f (x)
b
b
b
b
xi
46
ndice
La parte inferior,
yi = f (xi ), representa el
valor que el modelo prev
para la variable Y , en un
individuo cuyo valor en X
es xi . .
(xi , yi )
y
= f (x)
b
b
b
b
b
y
i = f (xi )
b
b
xi
47
ndice
La parte superior, ei , es la
diferencia entre el valor
observado de Y en el
individuo yi , y el previsto
por el modelo, yi , para ese
individuo. .
(xi , yi )
y
= f (x)
ei
b
b
b
b
b
b
b
xi
48
ndice
En consecuencia,
yi
= yi + ei . .
(xi , yi )
y
= f (x)
ei
b
b
b
b
b
y
i = f (xi )
b
b
xi
49
ndice
Calculado el modelo, el
valor de yi queda
determinado para cada xi ,
yi
= f (xi )
y
= f (x)
b
b
b
b
b
yi
= f (xi ) es la parte
determinista, o
funcional del modelo.
50
b
b
x1 x2
xi
ndice
Calculado el modelo, el
valor de ei no queda
determinado por xi
Puede haber dos
observaciones con el
mismo xi y distinto ei
y
= f (x)
b
b
b
b
b
ei
= yi yi es la parte
ndice
i
|{z}
Valor observado
f (xi )
| {z }
Parte determinista,
De manera resumida:
y=f(x)+E
52
+
y
i
|{z}
Error aleatorio
ndice
y = f (x ) + E
53
ndice
Supngase que un
conjunto de datos sugiere
que entre dos variables, X
e Y , existe una relacin de
dependencia.
Y
b
Grcamente, .
b
b
ndice
Y
b
y
= f (x)
b
b
b
ndice
Qu valores de k , c y h
se deben tomar?
Distintos valores de los
parmetros modican la
ecuacin del modelo
ajustado. .
b
b
y
= f (x)
b
b
b
b
ndice
ei
= yi yi
Interesara que,
globalmente, el error
cometido por el modelo
fuera mnimo. .
e1
Y
b
y
= f (x)
en
b
e2
b
b
ei
ndice
58
ndice
2
1
+ e22 + + en2
59
ndice
Y
b
b
b
60
ndice
MODELO CUALQUIERA
e1
Y
b
y
= f (x)
e1
y
= f (x)
en
b
e2
b
b
e2
b
b
ei
b
Necesariamente,
ei
61
en
ei
<
(ei0 )2
62
ndice
y
|
= 0 + 1 x +E
{z
}
Recta
63
ndice
ndice
||
=1
b
b
b
b
b
b
b
64
ndice
y
= 0 + 1 x
Y
ei
S (
, 1 ) =
n
X
i =1
en
ei
e1
b
b
65
66
ndice
S
=0
1
ndice
ei
se tiene que:
67
= yi yi , con yi = 0 + 1 x ,
i
ei
= yi (0 + 1 x )
i
68
ndice
De donde:
S
=
0
Pn
S
=
1
Pn
i =1 ei
=
Pn
2
i =1 (yi (0 + 1 xi ))
=0
y
i =1 ei
=
Pn
2
i =1 (yi (0 + 1 xi ))
=0
69
ndice
ei
ei xi
y =
= 0.
= 0, e
+ 1 x
70
ndice
COV (X , Y )
sx
2
COV (X , Y )
(x x)
sx
2
ndice
71
ndice
Si y = 0 + 1 x es la recta
de regresin calculada por
mnimos cuadrados,
asociada a una muestra, .
0 +
1 x
y
=
72
ndice
0 = y (0). Grcamente,
Y
0 +
1 x
y
=
Obsrvese que 0 no
siempre tiene
signicado fsico.
0
73
ndice
1 representa la variacin
de la variable Y cuando X
aumenta o disminuye una
unidad. En efecto:
y(x ) =
y(x + 1) =
+ 1 x ,
Y
0 +
1 x
y
=
b
+ 1 (x + 1),
De donde,
y(x + 1) y(x ) = .
1
74
x+1
75
ndice
Problemas abiertos
ndice
Idea clave
Para poder usar correctamente un modelo de regresin y para
analizar su abilidad es necesario controlar el error.
76
ndice
ei
y
= 0 + 1 x
Y
ei
= yi yi ,
Se tiene que
Cada error, ei , es una
variable aleatoria.
en
b
b
e1
b
b
78
ndice
79
ndice
ndice
y = 0 + 1 x
Grcamente, si las
hiptesis del modelo son
ciertas, cuando X = xi , Y
es una V.A. normal. .
xi
ndice
y = 0 + 1 x
La esperanza matemtica
de esta distribucin es
0 + 1 xi . .
E(Y |X = xi ) = 0 + 1 xi
xi
ndice
y = 0 + 1 x
La desviacin tpica de
esta distribucin coincide
con la del error aleatorio,
. .
xi
ndice
En general, si el modelo es
correcto,los valores de la
variable Y , cuando
X = xi , se encontrarn en
el intervalo
(0 + 1 xi ) 3, con una
probabilidad 00 997. .
y = 0 + 1 x
b
b
b
b
b
b
b
b
b
b
xi
ndice
y = 0 + 1 x
xi
xj
ndice
Y los individuos de
Y |X = xi y de Y |X = xi
se situarn,
respectivamente, como
muestra la gura: .
y = 0 + 1 x
Y
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
xi
xj
86
ndice
ndice
Problema
Si existe una recta, y = 0 + 1 x , que pasa por los puntos (xi , x ),
donde x representa la media de la distribucin de Y condicionada
por X = xi , coincide con la recta y = 0 + 1 x calculada por
mnimos cuadrados?
i
ndice
88
ndice
Grcamente se observa
cmo dos muestras
distintas daran lugar a
rectas distintas. .
l
b
b
bl
l
b
89
ndice
Conclusin
90
91
ndice
1 N 1 ,
0 N
sx n
.
x
1+
sx
n
0 ,
!
,
ndice
Observaciones
0 como 1 son estimadores centrados de 0 y de 1 ,
1 Tanto
respectivamente.
2
ndice
93
ndice
ei
n
P
2
ei
=0 y
ei xi
= 0,
E (
94
) 6= 2 .
95
ndice
ei
n2
ndice
E (sR ) =
2
Adems,
ei
(n 2)sR2
2n2 .
2
96
97
ndice
Como
1 N 1 ,
,
sx n
se deduce que:
1 1
tn2 ,
sR
sx n
sR
1 t/2 ;(n2)
sx n
ndice
II. Ejemplo
sx
= 20 00002871. Y sR = 00 204324741.
98
99
ndice
III. Ejemplo
Como
1 1
tn2 ,
sR
sx n
con el 95 % de probabilidad,
20 57
00 21 1
20 57.
00 204324741
20 000002871 7
ndice
1 .
Ejemplo III
Y operando,
20 57
00 21 1
20 57,
00 03861
Es decir, al 95 %,
1 (00 11076, 00 30923).
ndice
El contraste de regresin I
101
sx n
ndice
El contraste de regresin II
102
tn2 ,
sx n
lo que permite discutir el resultado del contraste.
Si
t/2 ;(n2)
1
sR
t/2 ;(n2)
sx n
se aceptar la hiptesis nula, rechazndose en caso contrario.
ndice
sx
= 20 00002871. Y sR = 00 204324741.
103
ndice
104
tn2 ,
sx n
por lo tanto, con el 95 % de conanza, debera cumplirse que:
20 57
00 21
20 57.
00 204324741
20 00002871
7}
|
{z
50 438
ndice
105
Y como
50 438
/ (20 57, 20 57)
se rechaza la hiptesis nula de que 1 = 0, y se acepta que 1 6= 0.
Naturalmente, se podra haber llegado a la misma conclusin
con el anlisis del intervalo de conanza para 1 calculado
anteriormente, que no contiene al 0.
ndice
Observaciones:
La aceptacin del contraste de regresin, 1 = 0, se interpreta
como falta de relacin lineal entre las variables y, por lo
tanto, supone la inutilidad del modelo de regresin.
Si 1 = 0, puede ser debido a que X e Y sean independientes.
Si 1 = 0, puede ser debido, tambin, a que entre X e Y haya
una relacin NO lineal.
106
ndice
b
b
107
ndice
b
b
y = 0
b
108
ndice
b
b
b
b
b
b
109
ndice
b
b
b
b
b
b
110
ndice
b
b
y = 0
b
b
b
b
111
ndice
Observaciones:
El rechazo del contraste de regresin, 1 = 0, supone la
aceptacin de la hiptesis alternativa 1 6= 0, y se interpreta
como sntoma de la existencia de relacin lineal entre las
variables X e Y , resumida por la recta de regresin.
La aceptacin de que 1 6= 0 no garantiza por s sola la
bondad del modelo de regresin.
112
ndice
113
ndice
ei
114
= yi yi .
ndice
115
ndice
Al representarlos
grcamente, los residuos
deberan formar una nube
de puntos sin estructura, y
con, aproximadamente, la
misma variabilidad por
todas las zonas del grco.
Grcamente, .
ei
3
b
b
b
0
b
b
y
i
116
ndice
ei
3
b
b
b
b
b
b b b
y
i
117
ndice
ei
b
b
b
b
b
b
b
b
b
y
i
118
ndice
El grco de la gura
contiene una
representacin temporal de
los residuos.
El eje de abscisas indica el
orden de obtencin de los
datos, y la estructura del
grco sugiere falta de
independencia en los
mismos:
119
ei
3
b
0
b
b
b
b
b
b
ndice
ei
3
b
0
b
b
b
b
b
b
120
ndice
121
ndice
El grco de la gura
representa un conjunto de
residuos sobre papel
probabilstico normal, que
hace razonable la
aceptacin de la hiptesis
de normalidad. .
b b
b
b b
b
b
ei
122
ndice
Transformaciones I
123
ndice
z = xk
= 0 + 1 z
= 0 + 1 ln(x )
z = ln(x )
= 0 + 1 z
y
y
124
Modelo lineal
= 0 + 1 x k
y
y
Transformacin
= 0 e 1 x
= ln(y )
= ln(0 ) + 1 x
= Kx 1
= ln(y )
= 0 + 1 ln x
ndice
Observaciones
Cuando se realiza una transformacin, la interpretacin de los
parmetros del modelo estimado se modica.
125
ndice
126
ndice
E (Y |X = xi )
y(xi ) X
DT (y (xi ))
tn2 ,
127
ndice
E (Y |X = xi )
II
Grcamente: .
y(x
i) + t/2 ;(n2) DT (y(x
i))
b
b
y(x
i)
y(x
i) t/2 ;(n2) DT (y(x
i))
xi
128
ndice
E (Y |X = xi )
III
Observaciones:
El valor exacto de
DT (y (xi )) puede
consultarse en Pea
(2002).
Se puede comprobar
que DT (
y (xi ))
aumenta cuando (xi )
se aleja de x.
Y
0 +
1 x
y
=
b
b
b
b
b
b
129
ndice
E (Y |X = xi )
IV
0 +
1 x
y
=
b
b
b
b
b
b
130
b
b
ndice
Y
0 +
1 x
y
=
b
b
b
xi
131
ndice
La distribucin de
(Y |X = xi ), para los
posibles valores extremos
de X , sera,
grcamente: .
0 +
1 x
y
=
b
xi
132
ndice
Y
0 +
1 x
y
=
O bien: .
b
xi
133
ndice
xi
134
0 +
1 x
y
=
ndice
xi
135
0 +
1 x
y
=
ndice
136
Y
b
0 +
1 x
y
=
xi
ndice
137
ndice
Grcamente, la hiprbola
interior ofrece intervalos de
conanza para el valor de
x .
Y
0 +
1 x
y
=
*
b
b
b
xi
xj
ndice
139
ndice
Puede observarse,
como ejemplo, el
siguiente grco.
La recta de regresin
slo es til en la zona
de linealidad.
Esta zona, en general,
se descubre
experimentalmente.
zona de linealidad
ndice
141
ndice
El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P .
b
b
b
b
b
b
b
b
b
*P
ndice
El punto P es inuyente,
puesto que su inclusin
modica sustancialmente
la recta de regresin. .
b
b
b
b
b
b
b
b
b
*P
ndice
El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P . .
*P
b
b
b
b
b
b
b
b
ndice
El punto P NO es
inuyente, puesto que su
inclusin NO modica
sustancialmente la recta de
regresin. .
*P
b
b
b
b
b
b
b
b
ndice
El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P . .
*P
b
b
b
b
ndice
*P
b
b
b
b
ndice
148