Regresion Lineal y Correlaciòn

Mtodos de Regresin-Grado en Estadstica y Empresa
Tema 1. El modelo de regresin lineal simple

1. Introduccin
1.1 Covarianza
1.2 Correlacin
2. Hiptesis bsicas
3. Estimacin por el mtodo de los mnimos cuadrados
3.1 Estimacin de los parmetros 1 y 0
3.2 Estimacin de la varianza 2
4. Propiedades de los estimadores
4.1 Propiedades del estimador de 1
4.2 Propiedades del estimador de 0
5. Propiedades de la varianza residual
6. El coeficiente de determinacin
1/47
1. Introduccin
Los mtodos de la Matemtica que estudian los fenmenos deterministas
relacionan una variable dependiente con diversas variables independientes:
y = g ( x1 , x 2 ,..., x k )
El problema se reduce a resolver un sistema lineal, una ecuacin
diferencial, un sistema no lineal
Las Ciencias Experimentales han revelado la poca fiabilidad de las
relaciones deterministas. En tales Ciencias el azar, la aleatoriedad, la
variabilidad individual, las variables no controladas, justifican el planteo de
la ecuacin fundamental
observacin = modelo + error aleatorio
modelo su estructura queda fijada por el experimentador teniendo en
cuenta las condiciones de su experimento.
error aleatorio el experimentador debe tener en cuenta la desviacin
que existe entre lo que observa y lo que espera observar segn el modelo.
2/47
3/47
En los Modelos de Regresin:

Modelo: funcin lineal de unos parmetros.
yi
{
= 0 + 1 x1i + 2 x2i + ... + k xki +

14444
4244444
3
ui
{
observacin
modelo
error aleatorio
Objetivo: A partir de una muestra de tamao n de una cierta

poblacin, determinar los parmetros para poder:
1) hacer extensible el modelo a toda la poblacin,
2) poder predecir nuevos valores de la variable dependiente.
Ejemplo 1. Densidad del trfico.

Sabemos que cuntos ms coches circulan por una carretera, menor
es la velocidad del trfico.
El estudio de este problema tiene como objetivo la mejora del
transporte y la reduccin del tiempo de viaje.
Densidad=nmero de vehculos por km
Velocidad=velocidad del vehculo en km/h
Como la congestin afecta a la velocidad, estamos interesados en
determinar el efecto de la densidad en la velocidad.
4/47
5/47
Ejemplo 1. Densidad del trfico.
Plot of velocidad vs densidad
velocidad
80
60
40
20
0
0
20
40
60
densidad
Modelos que podemos plantear:
(Llamamos Y a la velocidad y X a la densidad)
1. Y= a + b X +error
2. Y= a + b X + c X2 + error
80
100
6/47
Ejemplo 2. Esperanza de vida.

Existe algn tipo de relacin entre la esperanza de vida de la mujer y el nmero de nacimientos
cada 1000 habitantes?
lifeexpf= "esperanza de vida de las mujeres"
birthrate= "nmero de nacimientos cada 1000 habitantes" (datos de 1992)
Country
Somalia
Tanzania
Zambia
Zaire
Algeria
Namibia
Burkina Faso
Cuba
Equador
North Korea
Mongolia
Thailand
Turkey
France
Netherlands
lifeexpf
55
55
59
56
68
63
53
79
72
72
68
71
72
82
81
birthrate
46
50
48
45
31
45
50
18
28
24
34
20
28
13
13
7/47
Ejemplo 2. Esperanza de vida.
Plot of lifeexpf vs birthrate

83
lifeexpf
78
73
68
63
58
53
13
23
33
43
53
birthrate
Modelo que podemos plantear:
(Llamamos Y a la esperanza de vida y X a los nacimientos)
Y= a + b X +error
8/47
1.1 Covarianza
En la prctica muchas relaciones que analizaremos sern dbiles y no bastar ver su
grfico, sino que adems tendremos que medir la magnitud o el grado de relacin
lineal entre estas variables.
Dos de las medidas ms utilizadas para datos bivariantes que sirven
para cuantificar el grado de relacin lineal son:
La covarianza
El coeficiente de correlacin lineal de Pearson
Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), que corresponden
a la observacin de dos variables X e Y sobre n individuos, se define la
covarianza muestral entre X e Y como:
s XY
1 n
= ( xi x )( yi y )
n i =1
donde
1 n
1 n
x = xi , y = yi
n i=1
n i=1
Ejercicio: Demostrar que
s XY
1 n
1 n
= ( xi x )( yi y ) = xi yi x y
n i =1
n i =1
Interpretacin geomtrica de la covarianza

Consideremos una nube de puntos formada por los n pares de datos
(x1, y1), (x2, y2), ..., (xn, yn). El centro de gravedad de esta nube de
puntos, que es ( x , y ) , divide a la nube en cuatro cuadrantes.
Los puntos que se encuentran en el primer y tercer cuadrante
contribuyen positivamente a sXY, mientras que los puntos que estn en
el segundo y cuarto cuadrantes, lo hacen negativamente.
9/47
Si hay ms puntos en el tercer y primer cuadrantes, entonces sXY 0, lo

que puede interpretarse como que la variable Y tiende a aumentar
cuando lo hace X.
Si hay ms puntos en el segundo y cuarto cuadrantes, entonces sXY 0,
lo que puede interpretarse como que la variable Y tiende a disminuir
cuando X aumenta.
10/47
Si los puntos se reparten con igual intensidad alrededor del centro de

gravedad, entonces se tendr que sXY = 0, lo que indicar que no hay
relacin lineal entre las variables.
Atencin: Esto no significa que no pueda existir otro tipo de relacin
entre ambas variables.
11/47
12/47
La covarianza presenta los siguientes inconvenientes:

1) depende de las unidades de medida de las variables,
2) no est acotada ni superior ni inferiormente.
Proposicin: Si (x1, y1), (x2, y2), ..., (xn, yn) es una muestra de tamao
n de la variable bidimensional (X,Y), y a, b son dos valores reales,
entonces:
s X , a +bY = b s XY
Demostracin (pizarra)
13/47
1.2 Correlacin
El coeficiente de correlacin lineal de Pearson es una medida
adimensional de la variacin conjunta de dos variables.
Se define como:
s XY
=
s X sY
rX ,Y
donde
1
s =
n
2
X
(xi x) ,
2
i =1
1
s =
n
2
Y
2
(y
y
)
i
i =1
Propiedades:
Es una medida acotada: -1 rX,Y 1.
No se ve afectado por traslaciones ni por cambios de escala (del
mismo signo), es decir: rX , a + bY = rXY , b > 0.

Su signo coincide con el signo de sX,Y e indica el tipo de
dependencia entre X e Y.
Si | rX,Y |=1 fl correlacin mxima entre X e Y.
Si rX,Y=0 fl no existe relacin lineal entre X e Y, y se dice que las
variables estn incorreladas.
14/47
Ejercicio 1. Con los datos del ejemplo 2 (esperanza de vida), calcula la covarianza y el coeficiente
de correlacin lineal.
Country
Somalia
Tanzania
Zambia
Zaire
Algeria
Namibia
Burkina Faso
Cuba
Equador
North Korea
Mongolia
Thailand
Turkey
France
Netherlands
lifeexpf (y)
55
55
59
56
68
63
53
79
72
72
68
71
72
82
81
birthrate (x)
46
50
48
45
31
45
50
18
28
24
34
20
28
13
13
15/47
Solucin Ejercicio 1.
y
55
55
59
56
68
63
xy
2530
2750
2832
2520
2108
2835
Somalia
46
Tanzania
50
Zambia
48
Zaire
45
Algeria
31
Namibia
45
Burkina
Faso
53
50
2650
Cuba
79
18
1422
Equador
72
28
2016
North Korea
72
24
1728
Mongolia
68
34
2312
Thailand
71
20
1420
Turkey
72
28
2016
France
82
13
1066
Netherlands
81
13
1053
total
1006
493 31258
medias
67,07 32,87 2083,87
varianzas
89,53 172,65
x^2
2116
2500
2304
2025
961
2025
y^2
3025
3025
3481
3136
4624
3969
2500
2809
324
6241
784
5184
576
5184
1156
4624
400
5041
784
5184
169
6724
169
6561
18793 68812
1252,87 4587,47
covarianza -120,39
correlacin
-0,97
16/47
Ejercicio 2. Calcular el coeficiente de correlacin para los datos de la tabla siguiente:

x
2
3
4
5
6
y
5
7
8
13
14
Cmo cambiar el coeficiente de correlacin si:

a) sumamos 5 a la variable x.
b) sumamos 5 a ambas variables.
c) intercambiamos los valores de x por los de y.
Ejercicio 3. Cul sera el coeficiente de correlacin entre las edades de los cnyuges si las
mujeres siempre se casaran con hombres 2 aos mayores que ellas?
17/47
2. Hiptesis bsicas
Los factores que influyen en la variable respuesta y pueden dividirse en:
1) Un primer grupo que contiene a una variable x, independiente, no aleatoria y
conocida al observar y.
2) Un segundo grupo de mltiples factores que afectan a y, cada uno en pequeas
cantidades, que se denomina perturbacin aleatoria o error aleatorio.
yi = 0 + 1 xi +
1424
3
primer grupo
ui
{
segundo grupo
yi, ui son variables aleatorias,

xi es una variable predeterminada con valores conocidos,
0, 1 son parmetros desconocidos.
Modelo general
yi = g ( x1i , x2i ,..., xni )
Hiptesis inicial
yi = g1 ( x1i ) + g 2 ( x2i ,..., xni )
Aproximaci n
yi = 0 + 1 xi + ui
18/47
Se establecen las siguientes hiptesis para la perturbacin aleatoria:

a) Tiene esperanza nula:
E (u i ) = 0
b) Tiene varianza constante (homocedasticidad) y no depende de x:
var(ui ) = 2
c) Como consecuencia del TLC tiene distribucin normal:
ui ~ N (0, 2 )
d) Las perturbaciones son independientes (dos a dos):
E (ui u j ) = E (ui ) E (u j ),
i j
Pregunta: cunto vale la covarianza entre dos perturbaciones cualesquiera?

Observaciones:
1) Las condiciones a), b), c) y d) se resumen diciendo que u1, u2, , un son n v.a.
2
N
(
0
,
),
i.i.d. con ley normal
2) Las condiciones a), b), d) se denominan condiciones de Gauss-Markov.
19/47
Estas cuatro condiciones inducen la siguiente estructura sobre la variable respuesta y:

a) La esperanza de y depende linealmente de x:
E ( yi ) = E ( 0 + 1 xi + ui ) = 0 + 1 xi + E (ui )
1424
3
123
constante
=0
0 es el valor medio de y cuando x vale 0,

1 es el incremento que experimenta la media de y cuando x aumenta en una
unidad.
b) La varianza de y es constante:
var( yi ) = var( 0 + 1 xi + ui ) = var(ui ) = 2

1424
3
constante
2 es la varianza del modelo.

c) Para cada valor de x, la respuesta y tiene ley normal:
y x = xi ~ N ( 0 + 1 xi , 2 )
Pregunta: Son las yi idnticamente distribuidas?
d) Las yi son independientes dos a dos.
20/47
Consideraciones importantes:
La hiptesis principal del modelo es que la media de la ley de la respuesta, para x
fija, vara linealmente con x. Esta hiptesis debe comprobarse siempre, pues
condiciona toda la construccin del modelo.
La utilidad del modelo lineal radica en que muchas relaciones no lineales puede
convertirse en lineales transformando las variables adecuadamente. Una relacin
lineal debe considerarse como una aproximacin simple, en un rango de valores
limitado, de una relacin ms compleja. Por tanto, ser necesario tener presente:
1)
El rango de valores dentro del cual se va a trabajar,
2)
El peligro de extrapolar una relacin fuera de ese rango.
Cundo no se cumplirn las condiciones de Gauss-Markov?
La condicin a) no ser cierta si existen observaciones tomadas en condiciones
heterogneas con el resto. Esto puede comprobarse mediante un anlisis de
residuos del modelo, y es importante porque una nica observacin atpica puede
tener gran influencia en la estimacin.
La condicin b) no se cumplir si la variabilidad de y depende de la media de y
(heterocedasticidad).
La condicin d) es esperable en situaciones estticas (todas las observaciones
corresponden al mismo perodo temporal), pero casi nunca en situaciones
dinmicas, donde la variable respuesta se mide a lo largo del tiempo.
21/47
3. Estimacin por el mtodo de los mnimos cuadrados

3.1 Estimacin de los parmetros 1 y 0
Dadas n observaciones (x1,y1), , (xn,yn) el mtodo de los mnimos cuadrados
(MMC) selecciona como estimacin de la recta poblacional
yi = 0 + 1 xi + ui
a la recta de regresin
y i = 0 + 1xi
donde
1 =
s xy
s x2
, 0 = y 1 x
que estima el valor medio de y, para cada valor de x.

Demostracin (obtencin de las ecuaciones normales en la pizarra)
22/47
Ejercicio 4. Con los datos del ejemplo 1 (densidad del trfico) encontrar la recta de regresin que
mejor ajusta la velocidad en funcin de la densidad del trfico. Por razones que se vern ms
adelante, tomar la raz cuadrada de la velocidad.
densidad raiz(velocidad) densidad raiz(velocidad)
x
y
x
y
12,7
7,90
18,3
7,16
17
7,12
19,1
7,13
66
4,14
16,5
7,40
50
5,09
22,2
6,82
87,8
3,52
18,6
6,80
81,4
3,66
66
4,11
75,6
3,70
60,3
4,45
66,2
4,23
56
4,60
81,1
3,71
66,3
4,28
62,8
4,23
61,7
4,24
77
3,97
66,6
4,07
89,6
3,55
67,8
4,28
23/47
raiz(velocidad)
grfico de dispersin
9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
0
20
40
60
densidad del trfico
80
100
densidad raiz(velocidad)
x
y
x^2
12,7
7,90
161,29
17
7,12
289
66
4,14
4356
50
5,09
2500
87,8
3,52
7708,84
81,4
3,66
6625,96
75,6
3,70
5715,36
66,2
4,23
4382,44
81,1
3,71
6577,21
62,8
4,23
3943,84
77
3,97
5929
89,6
3,55
8028,16
18,3
7,16
334,89
19,1
7,13
364,81
16,5
7,40
272,25
22,2
6,82
492,84
18,6
6,80
345,96
66
4,11
4356
60,3
4,45
3636,09
56
4,60
3136
66,3
4,28
4395,69
61,7
4,24
3806,89
66,6
4,07
4435,56
67,8
4,28
4596,84
1306,6
120,17
86390,92
24/47
y^2
62,40
50,70
17,10
25,90
12,40
13,40
13,70
17,90
13,80
17,90
15,80
12,60
51,20
50,80
54,70
46,50
46,30
16,90
19,80
21,20
18,30
18,00
16,60
18,30
652,2
xy
100,32
121,05
272,92
254,46
309,18
297,97
279,82
280,08
301,27
265,70
306,07
318,05
130,94
136,13
122,03
151,38
126,56
271,32
268,32
257,84
283,62
261,77
271,35
290,04
5678,21
25/47
medias
varianzas
x
54,44
635,73
covarianza
correlacin
-36,00
-0,98
coeficientes
0
1
y
5,01
2,10
x^2
3599,62
y^2
27,18
xy
236,59
8,09
-0,06
Recta de regresin
raiz(velocidad)
10,00
8,00
6,00
4,00
2,00
0,00
0
20
40
60
densidad del trfico
80
100
densidad raiz(velocidad) modelo

x
y
=0+1x residuo
12,7
7,90
7,37
0,53
17
7,12
7,13
-0,01
66
4,14
4,35
-0,22
50
5,09
5,26
-0,17
87,8
3,52
3,12
0,40
81,4
3,66
3,48
0,18
75,6
3,70
3,81
-0,11
66,2
4,23
4,34
-0,11
81,1
3,71
3,50
0,22
62,8
4,23
4,53
-0,30
77
3,97
3,73
0,25
89,6
3,55
3,02
0,53
18,3
7,16
7,05
0,10
19,1
7,13
7,01
0,12
16,5
7,40
7,16
0,24
22,2
6,82
6,83
-0,01
18,6
6,80
7,04
-0,23
66
4,11
4,35
-0,24
60,3
4,45
4,68
-0,23
56
4,60
4,92
-0,31
66,3
4,28
4,34
-0,06 Observaciones:
61,7
4,24
4,60
-0,35 (1) La suma de los residuos es cero.
66,6
4,07
4,32
-0,24 (2) La suma de los valores de y
67,8
4,28
4,25
0,03 coincide con la suma de los valores
1306,6
120,17
120,17
0,00 de .
26/47
27/47
3.2 Estimacin de la varianza 2

La desviacin tpica de la perturbacin, , mide la precisin del ajuste de la
recta de regresin. Para medir la variabilidad de los puntos alrededor de la recta
utilizaremos la desviacin tpica residual (estimador de ).
Se define la varianza residual como:
1
s R2 =
n2
ei2
i =1
donde ei = yi y i son los residuos del modelo.

Se divide por n-2 (y no por n), porque los residuos no son independientes,
pues las ecuaciones normales inducen dos restricciones sobre ellos:
n
e = 0, e x = 0.
i
i =1
i i
i =1
Por tanto, solamente hay n-2 valores independientes o n-2 grados de libertad.
28/47
Observacin: En la prctica, existe otra forma para calcular la varianza residual, sin
utilizar explcitamente los residuos:
s R2 =
n( s 2y 12 s x2 )
n2
Demostracin (pizarra).
2
s
Atencin: R es una varianza y, por tanto, su valor debe ser siempre positivo. Si al
calcularlo aparecen valores negativos, ser debido a errores de redondeo. En caso de

que esto ocurriera, se debe tomar una mayor precisin decimal en las estimaciones
12 , s 2y , s x2 .
Consideraciones importantes:
La recta de regresin y la desviacin tpica residual juegan el mismo papel que la
media y la desviacin tpica de una distribucin de datos:
la recta de regresin indica el valor medio de y para cada valor de x,
mientras que la desviacin tpica residual mide la desviacin promedio
de las observaciones alrededor de la recta.
Ejemplo: Hallar la varianza y desviacin tpica residual del Ejemplo 1

(densidad del trfico).
Recordemos que para este ejemplo n=24, y adems habamos
calculado
sx2 = 635.73, s y2 = 2.10, 12 = 0.057.

Entonces, sustituyendo en la frmula anterior, obtenemos que la
varianza residual es igual a:
n( s 2y 12 sx2 ) 24(2.10 (0.057) 2 635.73)

s =
=
= 0.0377
n2
24 2
2
R
y la desviacin tpica residual ser su raz cuadrada.
29/47
4.
30/47
Propiedades de los estimadores de los parmetros 1 y 0
Si se toman muestras de y manteniendo constantes los valores de x, y para cada

2
muestra se calculan los estimadores 0 , 1 y s R , stos tomarn valores distintos de
una muestra a otra. Se trata pues de variables aletaorias y, por tanto, tienen una
distribucin de probabilidad en el muestreo.
Las propiedades de los estimadores y consisten en determinar su esperanza,
0
varianza y distribucin de probabilidad en el muestreo.

4.1 Propiedades del coeficiente de regresin 1 (demostraciones en la pizarra)
a) 1 tiene ley normal al ser combinacin lineal de v.a. normales.
b) es un estimador insesgado del parmetro .
1
c) 1 es el estimador ms eficiente del parmetro 1 . La varianza de 1 es:
var(1 ) =
2
nsx2 ,
cuyo estimador es
s 2 =
1
s R2
ns x2
= ... =
s 2y 12 s x2
(n 2) s x2
31/47
La varianza de 1 indica el error de estimacin del parmetro 1 . As, de la frmula
s 2
se deduce que:
1) El error aumenta al
aumentar la
varianza residual,
para x fijo,
2) El error disminuye
al aumentar la
dispersin de x,
3) El error disminuye
al aumentar el
tamao muestral.
s R2
ns x2
32/47
4.2 Propiedades del estimador 0

a) 0 tiene ley normal al ser combinacin lineal de v.a. normales.
b) 0 es un estimador insesgado del parmetro 0 .
c) La varianza de puede expresarse como suma de dos trminos:
0
var(0 ) =
n
x2
1 + 2
sx
2
El primer trmino es n , que es el error de estimacin de y .
2 2
)x 2
x
=
var(
1
El segundo trmino, ns 2
, tiene en cuenta que el error de estimacin de
x
la pendiente de la recta se transmite a la ordenada en el origen en funcin de lo

alejado que se encuentre x del origen (aumenta a medida que aumenta x ).
33/47
Conclusiones:
Para una muestra concreta,
el valor calculado para 1 puede interpretarse como un valor extrado al azar de
2
2
una distribucin normal de media 1 y varianza (ns x ) . Esto equivale a decir
que el estimador
2
1 ~ N 1 , 2
ns x
el valor calculado para 0 puede interpretarse como un valor extrado al azar de
x2
una distribucin normal de media 0 y varianza n 1 + s 2 . Esto equivale a decir

x
que el estimador
2 x 2
0 ~ N 0 , 1 + 2
n sx
34/47
Relacin entre los estimadores 0 y 1

Tal como se ha obtenido 0 = y 1 x , est claro que 0 y 1 no son independientes.
Puede demostrarse que:
2
x
cov(0 , 1 ) = 2 = x var(1 )
ns x
De donde se deduce que:

1) si x > 0 , la covarianza
es negativa, indicando
que errores por exceso
en la pendiente
producirn errores por
defecto en , y
0
viceversa.
2) La dependencia
disminuye con x y con
los factores que
contribuyen a estimar la
pendiente con mayor
precisin.
35/47
5. Propiedades de la varianza residual

Recordemos que solamente hay n-2 residuos independientes.
Puede demostrarse (lo veremos en general, cuando estudiemos el modelo de
regresin lineal mltiple) que la suma cuadrtica de los residuos de variables normales
divida por 2 tiene ley chi-cuadrado con los grados de libertad que tengan los residuos.
1
ei2
i =1
n22
(n 2) s R2
{
sR2 =
1
n2
ei2
~ n22
La esperanza y varianza del estimador s R son:
2 4
E ( s ) = , var(s ) =
.
n2
2
R
2
R
(Se deducen a partir de la esperanza y varianza de la ley Gamma k2 = Gamma ,2 E ( k2 ) = k , var( k2 ) = 2k . )

k
2
36/47
Propiedades de los estimadores y su dependencia de las hiptesis bsicas

Parmetro
Estimador
0 = y 1 x
s xy
1 = 2
sx
s R2 =
e
i =1
2
i
n2
Esperanza
E ( 0 ) = 0
Linealidad
Varianza
x
1
var(0 ) =
n sx
Homocedasticidad
Independencia
2
var(1 ) = 2
E ( 1 ) = 1
nsx
Linealidad
Homocedasticidad
Independencia
2 4
2
var(sR ) =
E ( sR2 ) = 2
n2
Linealidad
Linealidad
Homocedasticidad Homocedasticidad
Independencia
Independencia
Normalidad
Distribucin
2
Normal
Normalidad
Normal
Normalidad
(n 2) sR2
~ n22
Linealidad
Homocedasticidad
Independencia
Normalidad
2
El incumplimiento de las hiptesis bsicas afecta la estimacin de los parmetros.
37/47
Descomposicin de la variabilidad: Relacin fundamental de la regresin

n
2
2
2
(
y
y
)
=
(
y
y
)
+
(
y
y
)
i
i
i
i
i =1
i =1
i =1
1
4243 1
4243 1
42
4 43
4
VT
VE
VNE
Esta relacin nos dice que la variabilidad de y (VT) descompone en dos trminos
independientes:
VE: contiene la variabilidad explicada o recogida en el modelo de regresin.
VNE: contiene la variabilidad no explicada por el modelo de regresin, que es debido
al carcter estocstico de la relacin.
38/47
Demostracin de la relacin fundamental de la regresin:
VT =
( yi y ) =
2
i =1
(y
i =1
(
y
y
+
y
y
)
i i i
i =1
y i ) + ( y i y ) + 2 ( y i y i )( y i y )
i =1
i =1
1
4 442 4 4 4
3
2
=0 ?
( y y )( y y ) = ( y x )( + x x )
= ( y x )( x x ) = ( y x )( x x ) ( x x )
14243
i
1 i
1 i
i =1
= 1
(y
1 i
1 xi )( xi x ) = 1
(y x
i i
1 i
1 0
=0
y i x 1 xi2 + 1 x i x )
= 1 n( xy x y 1 x 2 + 1 x 2 ) = 1 n( s xy 1 s x2 ) = 0
142
4 43
4
=0
39/47
Es conveniente descomponer la varianza en una tabla ADEVA (anlisis de la varianza) o

ANOVA (analysis of variace) de la forma siguiente:
n
VT = ( yi y ) 2 = ns y2
i =1
2
VNE = ( yi y i ) = ei = (n 2) s R2 = n( s y2 12 s x2 )
2
i =1
i =1
VE = VT VNE = ns y2 n( s y2 12 s x2 ) = n12 s x2
Tabla ANOVA:
Fuente de
variacin
Sumas de
Cuadrados
Grados
de libertad
Cociente o varianza
VE
n12 s x2
n12 s x2 / 1
VNE
(n 2) s R2
n-2
(n 2) sR2 /(n 2) = sR2
VT
ns y2
n-1
40/47
Ejemplo. Con los datos del Ejemplo 1 (densidad del trfico) encontrar la tabla ADEVA (ANOVA).
Recordemos que x=densidad del trfico, y=raz cuadrada de la velocidad.
n = 24,
y
i =1
y
i =1
2
i
= 120.17,
= 652.2,
x
i =1
x
i =1
= 1306.6,
= 86390.92,
x y
i =1
= 5678.21,
1 = 0.057.
2
Para construir la tabla ANOVA vamos a calcular primero sx , sy y sR :

2
86390.92 1306.6
s x2 = x 2 x 2 =
= 635.73
24
24
652.2 120.17
s =y y =
= 2.10
24
24
n( s y2 12 s x2 ) 24
2
=
2.10 (0.57) 2 635.73 = 0.0377
sR =
n2
22
2
y
41/47
La tabla ANOVA es:

Fuente de
variacin
Sumas de
Cuadrados
Grados de libertad
Cociente o varianza
VE
n12 s x2 = 49.5717
49.5717
VNE
(n 2) sR2 = 0.8294
(n-1)-1=23-1=22
0.0377
VT
ns y2 = 50.4
n-1=23
Observacin: Generalmente se calculan solamente VE y VT y se obtiene VNE=VT-VE.
42/47
6. El coeficiente de determinacin
La varianza residual es un ndice de precisin de la recta de regresin, pero no es til
para comparar rectas de regresin de variables distintas, porque depende de las
unidades de medida de la variable respuesta.
Una medida ms adecuada del ajuste es la proporcin de variabilidad explicada. Se
define el coeficiente de determinacin del modelo como:
n
R2 =
VE
=
VT
(
y
y
)
i
i =1
n
2
(
y
y
)
i
i =1
En la prctica, utilizaremos la siguiente expresin:

2
n12 s x2
s
2
x
R =
= 1 2
2
ns y
sy
2
Ejercicio: Expresar el coeficiente de determinacin en funcin de la varianza residual.
43/47
Relacin entre el coeficiente de determinacin

y el coeficiente de correlacin lineal de Pearson
s2
= s s2
s
=
xy
1 x
Puesto que 1
y, por tanto:
xy
x , entonces
r =
s xy
sx s y
1s x2
s
= 1 x
sx s y
sy
elevando al cuadrado, tenemos que:

2
s
r 2 = 12 x2 = R 2
sy
Atencin:
r 2 = R2 r = R2
44/47
Propiedades del coeficiente de determinacin
R2 =
VE VT VNE
VNE
=1
=
VT
VT
VT
1) 0 R 2 1
R 2 0, al ser un cociente de varianzas,
R 2 1, puesto que VE VT = VE + VNE
2) Si R 2 = 1 VE = VT VNE = 0 sR2 = 0
es decir, todos los residuos son cero
3) Si R 2 = 0 VE = 0 VNE = VT
la variacin de y no es debida a x, sin al error.
45/47
Ejemplo. Con los datos del Ejemplo 1 (densidad del trfico) encontrar el valor del
coeficiente de determinacin e interpretarlo.
R2 =
VE 49.5717
=
= 0.9835 98.35%
VT
50.4
El modelo y=8.09-0.057x resume el 98.35% de la variabilidad de y. Queda sin explicar

el 100-98.35=1.65% de la variabilidad de los datos.
La velocidad de los vehculos queda explicada por la densidad del trfico en un
98.35%. La influencia de otros factores en la velocidad es del 1.65%.
46/47
Ejercicio 5 (longitud de la lnea de la mano). En un estudio para relacionar la

longitud de la lnea de la vida en la mano izquierda y la vida de una persona, se han
observado los siguientes datos de 50 personas con los siguientes resultados:
x= longitud de lnea (en cm)
y= edad al morir (en aos)
50
y
i =1
50
x
i =1
= 3333 ,
50
y
i =1
= 459.9 ,
2
i
x y
i =1
50
x
i =1
= 231933 ,
50
= 30549 ,
= 4308.57 .
a) Se pide construir una recta de regresin de y sobre x y encontrar la varianza

residual.
b) Descomponer la variabilidad y expresarla en una tabla ADEVA (ANOVA).
47/47
Ejercicio 6 (salario-escolarizacin). Un investigador considera que el salario que

percibe un individuo es funcin lineal de sus aos de escolarizacin, esto es,
yi = 0 + 1 xi + u i , donde yi representa el salario mensual del individuo i-simo, xi los
aos de estudio de dicho individuo y ui es el trmino de error, que supondremos que
verifica las hiptesis habituales del modelo de regresin. El investigador ha obtenido
una muestra aleatoria de 100 individuos, de la que conocemos la siguiente informacin:
100
y
i =1
100
= 1180 ,
xi = 1000 ,
i =1
100
y
i =1
100
2
i
= 25543 ,
100
x y
i =1
= 13469 ,
xi = 12820 .
2
i =1
Se pide:
a) Obtener estimadores insesgados de los parmetros 0, 1 y 2, as como el
coeficiente de determinacin. Interpretar los resultados.
b) Hallar la descomposicin de la variabilidad (tabla ADEVA).

Regresion Lineal y Correlaciòn

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Regresion Lineal y Correlaciòn

Diunggah oleh

Hak Cipta:

Format Tersedia

Mtodos de Regresin-Grado en Estadstica y Empresa

Tema 1. El modelo de regresin lineal simple

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

En los Modelos de Regresin:

= 0 + 1 x1i + 2 x2i + ... + k xki +

Objetivo: A partir de una muestra de tamao n de una cierta

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejemplo 1. Densidad del trfico.

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejemplo 1. Densidad del trfico.

Plot of velocidad vs densidad

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejemplo 2. Esperanza de vida.

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejemplo 2. Esperanza de vida.

Plot of lifeexpf vs birthrate

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejercicio: Demostrar que

Interpretacin geomtrica de la covarianza

Mtodos de Regresin-Grado en Estadstica y Empresa

Si hay ms puntos en el tercer y primer cuadrantes, entonces sXY 0, lo

Mtodos de Regresin-Grado en Estadstica y Empresa

Si los puntos se reparten con igual intensidad alrededor del centro de

Mtodos de Regresin-Grado en Estadstica y Empresa

La covarianza presenta los siguientes inconvenientes:

Mtodos de Regresin-Grado en Estadstica y Empresa

mismo signo), es decir: rX , a + bY = rXY , b > 0.

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejercicio 2. Calcular el coeficiente de correlacin para los datos de la tabla siguiente:

Cmo cambiar el coeficiente de correlacin si:

Mtodos de Regresin-Grado en Estadstica y Empresa

yi, ui son variables aleatorias,

yi = g ( x1i , x2i ,..., xni )

yi = g1 ( x1i ) + g 2 ( x2i ,..., xni )

Mtodos de Regresin-Grado en Estadstica y Empresa

Se establecen las siguientes hiptesis para la perturbacin aleatoria:

Pregunta: cunto vale la covarianza entre dos perturbaciones cualesquiera?

2) Las condiciones a), b), d) se denominan condiciones de Gauss-Markov.

Mtodos de Regresin-Grado en Estadstica y Empresa

Estas cuatro condiciones inducen la siguiente estructura sobre la variable respuesta y:

0 es el valor medio de y cuando x vale 0,

var( yi ) = var( 0 + 1 xi + ui ) = var(ui ) = 2

2 es la varianza del modelo.

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

3. Estimacin por el mtodo de los mnimos cuadrados

que estima el valor medio de y, para cada valor de x.

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

densidad del trfico

Mtodos de Regresin-Grado en Estadstica y Empresa

Mtodos de Regresin-Grado en Estadstica y Empresa

densidad del trfico

Mtodos de Regresin-Grado en Estadstica y Empresa

densidad raiz(velocidad) modelo

Mtodos de Regresin-Grado en Estadstica y Empresa

3.2 Estimacin de la varianza 2

donde ei = yi y i son los residuos del modelo.

Mtodos de Regresin-Grado en Estadstica y Empresa