1/47
1. Introduccin
Los mtodos de la Matemtica que estudian los fenmenos deterministas
relacionan una variable dependiente con diversas variables independientes:
y = g ( x1 , x 2 ,..., x k )
El problema se reduce a resolver un sistema lineal, una ecuacin
diferencial, un sistema no lineal
Las Ciencias Experimentales han revelado la poca fiabilidad de las
relaciones deterministas. En tales Ciencias el azar, la aleatoriedad, la
variabilidad individual, las variables no controladas, justifican el planteo de
la ecuacin fundamental
observacin = modelo + error aleatorio
modelo su estructura queda fijada por el experimentador teniendo en
cuenta las condiciones de su experimento.
error aleatorio el experimentador debe tener en cuenta la desviacin
que existe entre lo que observa y lo que espera observar segn el modelo.
2/47
3/47
yi
{
ui
{
observacin
modelo
error aleatorio
4/47
5/47
velocidad
80
60
40
20
0
0
20
40
60
densidad
Modelos que podemos plantear:
(Llamamos Y a la velocidad y X a la densidad)
1. Y= a + b X +error
2. Y= a + b X + c X2 + error
80
100
6/47
lifeexpf
55
55
59
56
68
63
53
79
72
72
68
71
72
82
81
birthrate
46
50
48
45
31
45
50
18
28
24
34
20
28
13
13
7/47
lifeexpf
78
73
68
63
58
53
13
23
33
43
53
birthrate
Modelo que podemos plantear:
(Llamamos Y a la esperanza de vida y X a los nacimientos)
Y= a + b X +error
8/47
1.1 Covarianza
En la prctica muchas relaciones que analizaremos sern dbiles y no bastar ver su
grfico, sino que adems tendremos que medir la magnitud o el grado de relacin
lineal entre estas variables.
Dos de las medidas ms utilizadas para datos bivariantes que sirven
para cuantificar el grado de relacin lineal son:
La covarianza
El coeficiente de correlacin lineal de Pearson
Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), que corresponden
a la observacin de dos variables X e Y sobre n individuos, se define la
covarianza muestral entre X e Y como:
s XY
1 n
= ( xi x )( yi y )
n i =1
donde
1 n
1 n
x = xi , y = yi
n i=1
n i=1
s XY
1 n
1 n
= ( xi x )( yi y ) = xi yi x y
n i =1
n i =1
9/47
10/47
11/47
12/47
s X , a +bY = b s XY
Demostracin (pizarra)
13/47
1.2 Correlacin
El coeficiente de correlacin lineal de Pearson es una medida
adimensional de la variacin conjunta de dos variables.
Se define como:
s XY
=
s X sY
rX ,Y
donde
1
s =
n
2
X
(xi x) ,
2
i =1
1
s =
n
2
Y
2
(y
y
)
i
i =1
Propiedades:
Es una medida acotada: -1 rX,Y 1.
No se ve afectado por traslaciones ni por cambios de escala (del
14/47
Ejercicio 1. Con los datos del ejemplo 2 (esperanza de vida), calcula la covarianza y el coeficiente
de correlacin lineal.
Country
Somalia
Tanzania
Zambia
Zaire
Algeria
Namibia
Burkina Faso
Cuba
Equador
North Korea
Mongolia
Thailand
Turkey
France
Netherlands
lifeexpf (y)
55
55
59
56
68
63
53
79
72
72
68
71
72
82
81
birthrate (x)
46
50
48
45
31
45
50
18
28
24
34
20
28
13
13
15/47
Solucin Ejercicio 1.
y
55
55
59
56
68
63
xy
2530
2750
2832
2520
2108
2835
Somalia
46
Tanzania
50
Zambia
48
Zaire
45
Algeria
31
Namibia
45
Burkina
Faso
53
50
2650
Cuba
79
18
1422
Equador
72
28
2016
North Korea
72
24
1728
Mongolia
68
34
2312
Thailand
71
20
1420
Turkey
72
28
2016
France
82
13
1066
Netherlands
81
13
1053
total
1006
493 31258
medias
67,07 32,87 2083,87
varianzas
89,53 172,65
x^2
2116
2500
2304
2025
961
2025
y^2
3025
3025
3481
3136
4624
3969
2500
2809
324
6241
784
5184
576
5184
1156
4624
400
5041
784
5184
169
6724
169
6561
18793 68812
1252,87 4587,47
covarianza -120,39
correlacin
-0,97
16/47
y
5
7
8
13
14
Ejercicio 3. Cul sera el coeficiente de correlacin entre las edades de los cnyuges si las
mujeres siempre se casaran con hombres 2 aos mayores que ellas?
17/47
2. Hiptesis bsicas
Los factores que influyen en la variable respuesta y pueden dividirse en:
1) Un primer grupo que contiene a una variable x, independiente, no aleatoria y
conocida al observar y.
2) Un segundo grupo de mltiples factores que afectan a y, cada uno en pequeas
cantidades, que se denomina perturbacin aleatoria o error aleatorio.
yi = 0 + 1 xi +
1424
3
primer grupo
ui
{
segundo grupo
Hiptesis inicial
Aproximaci n
yi = 0 + 1 xi + ui
18/47
E (u i ) = 0
b) Tiene varianza constante (homocedasticidad) y no depende de x:
var(ui ) = 2
c) Como consecuencia del TLC tiene distribucin normal:
ui ~ N (0, 2 )
d) Las perturbaciones son independientes (dos a dos):
E (ui u j ) = E (ui ) E (u j ),
i j
),
i.i.d. con ley normal
19/47
E ( yi ) = E ( 0 + 1 xi + ui ) = 0 + 1 xi + E (ui )
1424
3
123
constante
=0
y x = xi ~ N ( 0 + 1 xi , 2 )
Pregunta: Son las yi idnticamente distribuidas?
d) Las yi son independientes dos a dos.
20/47
Consideraciones importantes:
La hiptesis principal del modelo es que la media de la ley de la respuesta, para x
fija, vara linealmente con x. Esta hiptesis debe comprobarse siempre, pues
condiciona toda la construccin del modelo.
La utilidad del modelo lineal radica en que muchas relaciones no lineales puede
convertirse en lineales transformando las variables adecuadamente. Una relacin
lineal debe considerarse como una aproximacin simple, en un rango de valores
limitado, de una relacin ms compleja. Por tanto, ser necesario tener presente:
1)
El rango de valores dentro del cual se va a trabajar,
2)
El peligro de extrapolar una relacin fuera de ese rango.
Cundo no se cumplirn las condiciones de Gauss-Markov?
La condicin a) no ser cierta si existen observaciones tomadas en condiciones
heterogneas con el resto. Esto puede comprobarse mediante un anlisis de
residuos del modelo, y es importante porque una nica observacin atpica puede
tener gran influencia en la estimacin.
La condicin b) no se cumplir si la variabilidad de y depende de la media de y
(heterocedasticidad).
La condicin d) es esperable en situaciones estticas (todas las observaciones
corresponden al mismo perodo temporal), pero casi nunca en situaciones
dinmicas, donde la variable respuesta se mide a lo largo del tiempo.
21/47
yi = 0 + 1 xi + ui
a la recta de regresin
y i = 0 + 1xi
donde
1 =
s xy
s x2
, 0 = y 1 x
22/47
Ejercicio 4. Con los datos del ejemplo 1 (densidad del trfico) encontrar la recta de regresin que
mejor ajusta la velocidad en funcin de la densidad del trfico. Por razones que se vern ms
adelante, tomar la raz cuadrada de la velocidad.
densidad raiz(velocidad) densidad raiz(velocidad)
x
y
x
y
12,7
7,90
18,3
7,16
17
7,12
19,1
7,13
66
4,14
16,5
7,40
50
5,09
22,2
6,82
87,8
3,52
18,6
6,80
81,4
3,66
66
4,11
75,6
3,70
60,3
4,45
66,2
4,23
56
4,60
81,1
3,71
66,3
4,28
62,8
4,23
61,7
4,24
77
3,97
66,6
4,07
89,6
3,55
67,8
4,28
23/47
raiz(velocidad)
grfico de dispersin
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
0
20
40
60
80
100
densidad raiz(velocidad)
x
y
x^2
12,7
7,90
161,29
17
7,12
289
66
4,14
4356
50
5,09
2500
87,8
3,52
7708,84
81,4
3,66
6625,96
75,6
3,70
5715,36
66,2
4,23
4382,44
81,1
3,71
6577,21
62,8
4,23
3943,84
77
3,97
5929
89,6
3,55
8028,16
18,3
7,16
334,89
19,1
7,13
364,81
16,5
7,40
272,25
22,2
6,82
492,84
18,6
6,80
345,96
66
4,11
4356
60,3
4,45
3636,09
56
4,60
3136
66,3
4,28
4395,69
61,7
4,24
3806,89
66,6
4,07
4435,56
67,8
4,28
4596,84
1306,6
120,17
86390,92
24/47
y^2
62,40
50,70
17,10
25,90
12,40
13,40
13,70
17,90
13,80
17,90
15,80
12,60
51,20
50,80
54,70
46,50
46,30
16,90
19,80
21,20
18,30
18,00
16,60
18,30
652,2
xy
100,32
121,05
272,92
254,46
309,18
297,97
279,82
280,08
301,27
265,70
306,07
318,05
130,94
136,13
122,03
151,38
126,56
271,32
268,32
257,84
283,62
261,77
271,35
290,04
5678,21
25/47
medias
varianzas
x
54,44
635,73
covarianza
correlacin
-36,00
-0,98
coeficientes
0
1
y
5,01
2,10
x^2
3599,62
y^2
27,18
xy
236,59
8,09
-0,06
Recta de regresin
raiz(velocidad)
10,00
8,00
6,00
4,00
2,00
0,00
0
20
40
60
80
100
26/47
27/47
1
s R2 =
n2
ei2
i =1
e = 0, e x = 0.
i
i =1
i i
i =1
Por tanto, solamente hay n-2 valores independientes o n-2 grados de libertad.
28/47
Observacin: En la prctica, existe otra forma para calcular la varianza residual, sin
utilizar explcitamente los residuos:
s R2 =
n( s 2y 12 s x2 )
n2
Demostracin (pizarra).
2
s
Atencin: R es una varianza y, por tanto, su valor debe ser siempre positivo. Si al
12 , s 2y , s x2 .
Consideraciones importantes:
La recta de regresin y la desviacin tpica residual juegan el mismo papel que la
media y la desviacin tpica de una distribucin de datos:
la recta de regresin indica el valor medio de y para cada valor de x,
mientras que la desviacin tpica residual mide la desviacin promedio
de las observaciones alrededor de la recta.
29/47
4.
30/47
var(1 ) =
2
nsx2 ,
cuyo estimador es
s 2 =
1
s R2
ns x2
= ... =
s 2y 12 s x2
(n 2) s x2
31/47
s 2
se deduce que:
1) El error aumenta al
aumentar la
varianza residual,
para x fijo,
2) El error disminuye
al aumentar la
dispersin de x,
3) El error disminuye
al aumentar el
tamao muestral.
s R2
ns x2
32/47
var(0 ) =
n
x2
1 + 2
sx
2
El primer trmino es n , que es el error de estimacin de y .
2 2
)x 2
x
=
var(
1
El segundo trmino, ns 2
, tiene en cuenta que el error de estimacin de
x
33/47
Conclusiones:
Para una muestra concreta,
el valor calculado para 1 puede interpretarse como un valor extrado al azar de
2
2
una distribucin normal de media 1 y varianza (ns x ) . Esto equivale a decir
que el estimador
2
1 ~ N 1 , 2
ns x
el valor calculado para 0 puede interpretarse como un valor extrado al azar de
x2
que el estimador
2 x 2
0 ~ N 0 , 1 + 2
n sx
34/47
cov(0 , 1 ) = 2 = x var(1 )
ns x
viceversa.
2) La dependencia
disminuye con x y con
los factores que
contribuyen a estimar la
pendiente con mayor
precisin.
35/47
ei2
i =1
n22
(n 2) s R2
{
sR2 =
1
n2
ei2
~ n22
2 4
E ( s ) = , var(s ) =
.
n2
2
R
2
R
36/47
Estimador
0 = y 1 x
s xy
1 = 2
sx
s R2 =
e
i =1
2
i
n2
Esperanza
E ( 0 ) = 0
Linealidad
Varianza
x
1
var(0 ) =
n sx
Homocedasticidad
Independencia
2
var(1 ) = 2
E ( 1 ) = 1
nsx
Linealidad
Homocedasticidad
Independencia
2 4
2
var(sR ) =
E ( sR2 ) = 2
n2
Linealidad
Linealidad
Homocedasticidad Homocedasticidad
Independencia
Independencia
Normalidad
Distribucin
2
Normal
Normalidad
Normal
Normalidad
(n 2) sR2
~ n22
Linealidad
Homocedasticidad
Independencia
Normalidad
2
37/47
2
2
2
(
y
y
)
=
(
y
y
)
+
(
y
y
)
i
i
i
i
i =1
i =1
i =1
1
4243 1
4243 1
42
4 43
4
VT
VE
VNE
Esta relacin nos dice que la variabilidad de y (VT) descompone en dos trminos
independientes:
VE: contiene la variabilidad explicada o recogida en el modelo de regresin.
VNE: contiene la variabilidad no explicada por el modelo de regresin, que es debido
al carcter estocstico de la relacin.
38/47
VT =
( yi y ) =
2
i =1
(y
i =1
(
y
y
+
y
y
)
i i i
i =1
y i ) + ( y i y ) + 2 ( y i y i )( y i y )
i =1
i =1
1
4 442 4 4 4
3
2
=0 ?
( y y )( y y ) = ( y x )( + x x )
= ( y x )( x x ) = ( y x )( x x ) ( x x )
14243
i
1 i
1 i
i =1
= 1
(y
1 i
1 xi )( xi x ) = 1
(y x
i i
1 i
1 0
=0
y i x 1 xi2 + 1 x i x )
= 1 n( xy x y 1 x 2 + 1 x 2 ) = 1 n( s xy 1 s x2 ) = 0
142
4 43
4
=0
39/47
VT = ( yi y ) 2 = ns y2
i =1
2
VNE = ( yi y i ) = ei = (n 2) s R2 = n( s y2 12 s x2 )
2
i =1
i =1
VE = VT VNE = ns y2 n( s y2 12 s x2 ) = n12 s x2
Tabla ANOVA:
Fuente de
variacin
Sumas de
Cuadrados
Grados
de libertad
Cociente o varianza
VE
n12 s x2
n12 s x2 / 1
VNE
(n 2) s R2
n-2
VT
ns y2
n-1
40/47
Ejemplo. Con los datos del Ejemplo 1 (densidad del trfico) encontrar la tabla ADEVA (ANOVA).
Recordemos que x=densidad del trfico, y=raz cuadrada de la velocidad.
n = 24,
y
i =1
y
i =1
2
i
= 120.17,
= 652.2,
x
i =1
x
i =1
= 1306.6,
= 86390.92,
x y
i =1
= 5678.21,
1 = 0.057.
2
86390.92 1306.6
s x2 = x 2 x 2 =
= 635.73
24
24
652.2 120.17
s =y y =
= 2.10
24
24
n( s y2 12 s x2 ) 24
2
=
2.10 (0.57) 2 635.73 = 0.0377
sR =
n2
22
2
y
41/47
Sumas de
Cuadrados
Grados de libertad
Cociente o varianza
VE
n12 s x2 = 49.5717
49.5717
VNE
(n 2) sR2 = 0.8294
(n-1)-1=23-1=22
0.0377
VT
ns y2 = 50.4
n-1=23
42/47
6. El coeficiente de determinacin
La varianza residual es un ndice de precisin de la recta de regresin, pero no es til
para comparar rectas de regresin de variables distintas, porque depende de las
unidades de medida de la variable respuesta.
Una medida ms adecuada del ajuste es la proporcin de variabilidad explicada. Se
define el coeficiente de determinacin del modelo como:
n
R2 =
VE
=
VT
(
y
y
)
i
i =1
n
2
(
y
y
)
i
i =1
43/47
s2
= s s2
s
=
xy
1 x
Puesto que 1
y, por tanto:
xy
x , entonces
r =
s xy
sx s y
1s x2
s
= 1 x
sx s y
sy
Atencin:
r 2 = R2 r = R2
44/47
R2 =
VE VT VNE
VNE
=1
=
VT
VT
VT
1) 0 R 2 1
R 2 0, al ser un cociente de varianzas,
R 2 1, puesto que VE VT = VE + VNE
2) Si R 2 = 1 VE = VT VNE = 0 sR2 = 0
es decir, todos los residuos son cero
3) Si R 2 = 0 VE = 0 VNE = VT
la variacin de y no es debida a x, sin al error.
45/47
Ejemplo. Con los datos del Ejemplo 1 (densidad del trfico) encontrar el valor del
coeficiente de determinacin e interpretarlo.
R2 =
VE 49.5717
=
= 0.9835 98.35%
VT
50.4
46/47
y
i =1
50
x
i =1
= 3333 ,
50
y
i =1
= 459.9 ,
2
i
x y
i =1
50
x
i =1
= 231933 ,
50
= 30549 ,
= 4308.57 .
47/47
y
i =1
100
= 1180 ,
xi = 1000 ,
i =1
100
y
i =1
100
2
i
= 25543 ,
100
x y
i =1
= 13469 ,
xi = 12820 .
2
i =1
Se pide:
a) Obtener estimadores insesgados de los parmetros 0, 1 y 2, as como el
coeficiente de determinacin. Interpretar los resultados.
b) Hallar la descomposicin de la variabilidad (tabla ADEVA).