Nuevos elementos
La Normal bivariante
(modelo de probabilidad)
m1= E(X) m2 = E(Y) s12 = Var(X) s22 = Var(Y) r = Coef. Correlacin (X,Y)
2
-5
m1= m2 = 0
s1 = 1 s 2 = 3
r =0
-3
-10
-2
-1
m1= m2 = 0
s1 = s2 = 1
r =0
10
rho=0, sigma1=sigma2
-10
-5
10
rho=0.8, sigma1=sigma2
rho=-0.8, sigma1=sigma2
m1= m2 = 0
s1 = s2 = 1
r = - 0.8
m1= m2 = 0
s 1 = s2 = 1
r = 0.8
-5
-1
-2
-5
-3
-4
-2
-4
-2
E(Y/X=x)
x
Ejemplo de David W. Stockburger
(Modelo para X resultado de un test, Y errores de produccin)
y = b0 + b1 x
Para ello dispondremos:
De un modelo de probabilidad (la Normal)
y de n pares de datos (xi,yi) que suponemos que
provienen del modelo establecido
5
Variables:
X altura del padre
Y altura del hijo
Datos:
n= 1078 parejas de padres e hijos
Media de los padres = 68 pulgadas
Media de los hijos = 69 pulgadas
vx = vy = 2.7
r =0.51
6
s
7
La diferencia est en
cmo se tomarn los datos !
Modelo 1:
El experimentador fija los valores de las xi
y obtiene al azar los correspondientes yi
Modelo 2:
El experimentador obtiene al azar parejas de valores
(xi ,yi)
En ambos casos
Los datos son un conjunto de n parejas (xi ,yi)
8
Muestra aleatoria
i = 1,2,,n
Interpretacin de los parmetros:
Representa el valor medio de la respuesta (y)
cuando la variable explicativa (x) vale cero
Representa el incremento de la respuesta
media (y) cuando la variable explicativa (x)
aumenta en una unidad
DATOS
Grfico de los puntos
(xi,yi)
i =1,2,,n
10
Grfico de puntos
tiene sentido
una relacin lineal?
tiene sentido
alguna relacin?
11
Cul es la recta
que mejor predice
la altura en funcin
de la edad?
Mnimos cuadrados
Hacemos mnima la
suma de los
cuadrados de las
diferencias entre el
valor real de cada yi
con el valor que
predice la recta
12
13
Varianza residual
14
Estimacin de r
15
16
17
y1
x2
y2
x3
y3
x4
y4
10
8.04
10
9.14
10
7.46
6.58
6.95
8.14
6.77
5.76
13
7.58
13
8.74
13
12.74
7.71
8.81
8.77
7.11
8.84
11
8.33
11
9.26
11
7.81
8.47
14
9.96
14
8.1
14
8.84
7.04
7.24
6.13
6.08
5.25
4.26
3.1
5.39
19
12.5
12
10.84
12
9.13
12
8.15
5.56
4.82
7.26
6.42
7.91
5.68
4.74
5.73
6.89
11
Media de las xs
9.0
Media de las ys
7.5
Ecuacin de la recta de
regresin
y = 3 + 0.5x
Coeficiente de correlacin
0.82
r2
0.67
19
12.5
16.0
2.0
9.0
x2
x3 vs y3
x4 vs y4
12.5
16.0
16.5
20.0
11.5
4.0
6.5
y4
9.0
11.5
9.0
6.5
y3
5.5
x1
4.0
2.0
6.0
8.0
9.0
14.0
5.5
14.0
2.0
2.0
4.0
y2
8.0
4.0
6.0
y1
10.0
10.0
x2 vs y2
12.0
x1 vs y1
5.5
9.0
x3
12.5
16.0
6.0
9.5
13.0
x4
20
y1
4.0
6.0
8.0
10.0
12.0
x1 vs y1
2.0
5.5
9.0
12.5
16.0
12.5
16.0
x1
2.0
4.0
y2
6.0
8.0
10.0
x2 vs y2
2.0
5.5
9.0
x2
22
y3
4.0
6.5
9.0
11.5
14.0
x3 vs y3
2.0
5.5
9.0
12.5
16.0
16.5
20.0
x3
4.0
6.5
y4
9.0
11.5
14.0
x4 vs y4
6.0
9.5
13.0
x4
23
24
25
26
evolucin temperatura
temperatura relativa
4,00
2,00
0,00
-2,00
-4,00
-6,00
-8,00
-10,00
-180
-130
-80
-30
27
evolucin CO2
400
CO2 (ppm)
350
300
250
200
150
100
-180
-130
-80
-30
qu efecto
tendr este dato
sobre la recta de
regresin?
Es de 1995
CO2 (ppm)
350
300
250
200
150
100
-10,00
-8,00
-6,00
-4,00
-2,00
0,00
2,00
4,00
temperatura relativa
29
dato
anmalo
30
31
Doble Log
Inversa
Log + 1/x
32
Algunas grficas
y=kebx
y=keb/x
33
La curva logstica
yi =
C
1 e - - bX i
yi
= Z i
Ln
(C - y i )
Modelo lineal
Z i = bX i
34
Ejemplo
Problemas de
Heterocedasticidad
35
Ejemplo
WORLD REGRESSION LINE
(N = 1,764 primary administrative subdivisions of 98 nations)
36
Elefante asitico
Elefante africano
Hombre
37
peso (libras)
Caimanes (datos)
Qu funcin representa
mejor el peso (Y) en
funcin de la longitud (X)?
700
600
500
400
300
200
100
0
Y = b 0 + b 1 X3
Y= kX
40
60
80
100
120
longitud (pulgadas)
140
160
b1
Y = keb1X
38
Caimanes R2 = 0'94
Caimanes R2 = 0'97
700
7
Log (peso)
600
Peso
500
400
300
200
100
0
100000
6
5
4
3
1100000
2100000
Longitud al cubo
3100000
4,2
4,4
4,6
4,8
Log (longitud)
39
Modelo Y = k X b1
Equivalente al ajuste lineal Log(Y) = b0 + b1Log(X)
40
Modelo Y = k X
b1
Residuos tipificados
sobre Log(peso)
Residuos brutos
sobre Log(longitud)
0,6
Residuos
0,4
0,2
0
-0,2
4,2
4,4
4,6
4,8
-0,4
Log (longitud)
41
Modelo Y = k X
b1
42
Residuos tipificados
43
CONTRASTES DE LA REGRESIN: t
(Los valores de la X no influyen en los valores de Y
en una relacin lineal)
Error tpico
44
45
Modelo 1
Error
tpico
-10,175
3,286
Coeficientes
Intercepcin
Log(Longitud)
p-valor
Inferior
95%
Superior
95%
0,732
13,907
1,1E-12
-11,688
-8,661
0,165
19,868
5,59E-16
2,944
3,628
Y = e-10,175 X
3,286
= 0,0000381 X
3,286
46
SCT
SCE
SCR
47
TABLA ANOVA
p-valor
?
48
Coeficiente de determinacin R2
Valoracin de cunto se ajustan los puntos a la recta
El COEFICIENTE DE DETERMINACIN es la proporcin de
variabilidad explicada por la regresin
R2 = SCE /SCT
R=
49
Coeficiente de determinacin R2
50
Comentarios:
El contraste de la regresin supone que la relacin (ms
o menos fuerte) es LINEAL
LINEAL. Por tanto, si no
rechazamos la hiptesis nula lo nico que podemos
decir es que no hemos encontrado evidencia de que
exista una relacin lineal,
lineal puede existir una relacin
no lineal
En REGRESIN SIMPLE el contraste ANOVA coincide
exactamente con el contraste de la t para el coeficiente
de la variable regresora
51
52
Modelo
1
R c uadrado
corregida
,943
R
R c uadrado
a
,972
,945
Error t p. de la
est imac in
,17531
ANOVAb
Modelo
1
Regresin
Res idual
Tot al
Suma de
cuadrados
12, 132
,707
12, 838
gl
1
23
24
Media
cuadrt ica
12, 132
,031
F
394,729
Sig.
,000a
53
Ejemplo 3
Datos extraidos de: C. D. Keeling, T. P. Whorf & CO2 Research Groups (SIO); U.
California, La Jolla; en http://cdiac.ornl.gov/trends/co2/sio-mlo.htm
54
CO2
316,91
325,68
338,69
354,19
369,47
Ao
1960
1970
1980
1990
2000
Estadsticas de la regresin
Coeficiente de correlacin mltiple
Coeficiente de determinacin R^2
R^2 ajustado
Error tpico
Observ aciones
0,9947
0,9894
0,9858
2,5288
5
360
350
340
330
320
310
1950
1960
1970
1980
1990
2000
2010
Ao
ANLISIS DE VARIANZA
g. l.
S. C.
1
3
4
Regresin
Residuos
Total
Coef.
Intercepcin
Variable X 1
300,90
13,36
1785,70
19,19
1804,88
Error tpico
2,65
0,80
M. C.
1785,70
6,40
Estadstico t
113,45
16,71
279,23
Probabilidad
0,0000
0,0005
F-crit
0,0005
Inferior 95%
292,46
10,82
Superior 95%
309,34
15,91
55
56
57
y0 = b0 + b1x0
Dnde est la diferencia?
58
59
Error tpico
60
media
62
3,286
= 0,0000381 X
3,286
Qu peso estimaramos en media para los caimanes cuya longitud sea 100
pulgadas?
Respuesta: log (y100) = 4,958
63
64
Extrapolacin
Aplicar el modelo a valores de la variable explicativa alejados
de los observados
Verdadera
relacin
Ybuena
Yprediccin
Recta de
regresin
estimada
xprediccin
65
millones de barriles
25000
20000
15000
10000
5000
0
1860
1880
1900
1920
1940
1960
1980
2000
aos
66
Generalizacin
Utilizar un nico modelo para conjuntos de datos que
proceden de distintas poblaciones
Regresin con
todos los datos
67
68
Correlacin ecolgica
Cuando no existe relacin entre dos variables en ninguna
de las poblaciones pero al juntar varias poblaciones
aparece una falsa correlacin
Regresin con
todos los datos
69
Causalidad
Poblacin de burros
Presupuesto en educacin
70
71
Ejemplo 4.
Y = Incidencia de hielo (en meses por ao) en las costas
de Islandia en funcin de X = temperatura media anual.
n = 57 aos
72
57
57
57
Mnimo
1, 00
,20
Mx imo
4, 40
7, 30
Media
2, 8947
2, 5561
Des v . t p.
,79066
1, 84556
Coefi cientesa
Coef icientes no
est andarizados
Modelo
1
(Constante)
temperatura
B
6, 573
-1,388
Error t p.
,759
,253
Coef icientes
est andarizad
os
Beta
-, 595
t
8, 661
-5,484
ANOVAb
Modelo
1
Regresin
Res idual
Tot al
Suma de
cuadrados
67, 422
123,319
190,740
gl
1
55
56
Media
cuadrt ica
67, 422
2, 242
F
30, 070
Sig.
,000a
73
Normalidad
74
4
2
0
-2
0,0
1,0
2,0
3,0
4,0
5,0
-4
Mean annual temperature (C)
Comentarios?
75
Valores de R y F:
Lineal: R=0,595 F=30,07
Log: R= 0,609 F= 32,384
Exp: R= 0,514 F = 19,7
Inverso: R=0,586 F=28,7
Coefi cientes
ln(t emperatura)
(Constante)
Coef icientes no
est andarizados
B
Error t pico
-3,382
,594
5, 993
,635
Coef icientes
est andarizad
os
Beta
-, 609
t
-5,691
9, 440
Sig.
,000
,000
76
Predicciones
Qu incidencia de hielo esperamos de un ao en que la temperatura
global sea de 1C?
Respuesta con el modelo lineal: 6,573 1,388 = 5,185 meses al ao
Intervalo de confianza 0.95 para la incidencia media de hielo:
5,185 -+ t55,0.025 1,497 (0,515) = 5,185 -+ 1,03 = (4,155, 6,215)
Qu efecto tendr sobre la incidencia del hielo un incremento de un 1C
en la temperatura?
Respuesta: la incidencia de hielo descender en 1,388 meses
77