Anda di halaman 1dari 47

Mtodos de Regresin-Grado en Estadstica y Empresa

Tema 1. El modelo de regresin lineal simple


1. Introduccin
1.1 Covarianza
1.2 Correlacin
2. Hiptesis bsicas
3. Estimacin por el mtodo de los mnimos cuadrados
3.1 Estimacin de los parmetros 1 y 0
3.2 Estimacin de la varianza 2
4. Propiedades de los estimadores
4.1 Propiedades del estimador de 1
4.2 Propiedades del estimador de 0
5. Propiedades de la varianza residual
6. El coeficiente de determinacin

1/47

Mtodos de Regresin-Grado en Estadstica y Empresa

1. Introduccin
Los mtodos de la Matemtica que estudian los fenmenos deterministas
relacionan una variable dependiente con diversas variables independientes:

y = g ( x1 , x 2 ,..., x k )
 El problema se reduce a resolver un sistema lineal, una ecuacin
diferencial, un sistema no lineal
Las Ciencias Experimentales han revelado la poca fiabilidad de las
relaciones deterministas. En tales Ciencias el azar, la aleatoriedad, la
variabilidad individual, las variables no controladas, justifican el planteo de
la ecuacin fundamental
observacin = modelo + error aleatorio
modelo su estructura queda fijada por el experimentador teniendo en
cuenta las condiciones de su experimento.
error aleatorio el experimentador debe tener en cuenta la desviacin
que existe entre lo que observa y lo que espera observar segn el modelo.

2/47

Mtodos de Regresin-Grado en Estadstica y Empresa

3/47

En los Modelos de Regresin:


Modelo: funcin lineal de unos parmetros.

yi
{

= 0 + 1 x1i + 2 x2i + ... + k xki +


14444
4244444
3

ui
{

observacin

modelo

error aleatorio

Objetivo: A partir de una muestra de tamao n de una cierta


poblacin, determinar los parmetros para poder:
1) hacer extensible el modelo a toda la poblacin,
2) poder predecir nuevos valores de la variable dependiente.

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejemplo 1. Densidad del trfico.


Sabemos que cuntos ms coches circulan por una carretera, menor
es la velocidad del trfico.
El estudio de este problema tiene como objetivo la mejora del
transporte y la reduccin del tiempo de viaje.
Densidad=nmero de vehculos por km
Velocidad=velocidad del vehculo en km/h
Como la congestin afecta a la velocidad, estamos interesados en
determinar el efecto de la densidad en la velocidad.

4/47

Mtodos de Regresin-Grado en Estadstica y Empresa

5/47

Ejemplo 1. Densidad del trfico.

Plot of velocidad vs densidad

velocidad

80
60
40
20
0
0

20

40

60

densidad
Modelos que podemos plantear:
(Llamamos Y a la velocidad y X a la densidad)
1. Y= a + b X +error
2. Y= a + b X + c X2 + error

80

100

Mtodos de Regresin-Grado en Estadstica y Empresa

6/47

Ejemplo 2. Esperanza de vida.


Existe algn tipo de relacin entre la esperanza de vida de la mujer y el nmero de nacimientos
cada 1000 habitantes?
lifeexpf= "esperanza de vida de las mujeres"
birthrate= "nmero de nacimientos cada 1000 habitantes" (datos de 1992)
Country
Somalia
Tanzania
Zambia
Zaire
Algeria
Namibia
Burkina Faso
Cuba
Equador
North Korea
Mongolia
Thailand
Turkey
France
Netherlands

lifeexpf
55
55
59
56
68
63
53
79
72
72
68
71
72
82
81

birthrate
46
50
48
45
31
45
50
18
28
24
34
20
28
13
13

Mtodos de Regresin-Grado en Estadstica y Empresa

7/47

Ejemplo 2. Esperanza de vida.

Plot of lifeexpf vs birthrate


83

lifeexpf

78
73
68
63
58
53
13

23

33

43

53

birthrate
Modelo que podemos plantear:
(Llamamos Y a la esperanza de vida y X a los nacimientos)
Y= a + b X +error

Mtodos de Regresin-Grado en Estadstica y Empresa

8/47

1.1 Covarianza
En la prctica muchas relaciones que analizaremos sern dbiles y no bastar ver su
grfico, sino que adems tendremos que medir la magnitud o el grado de relacin
lineal entre estas variables.
Dos de las medidas ms utilizadas para datos bivariantes que sirven
para cuantificar el grado de relacin lineal son:
La covarianza
El coeficiente de correlacin lineal de Pearson
Dados n pares de valores (x1, y1), (x2, y2), ..., (xn, yn), que corresponden
a la observacin de dos variables X e Y sobre n individuos, se define la
covarianza muestral entre X e Y como:

s XY

1 n
= ( xi x )( yi y )
n i =1

donde

1 n
1 n
x = xi , y = yi
n i=1
n i=1

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejercicio: Demostrar que

s XY

1 n
1 n
= ( xi x )( yi y ) = xi yi x y
n i =1
n i =1

Interpretacin geomtrica de la covarianza


Consideremos una nube de puntos formada por los n pares de datos
(x1, y1), (x2, y2), ..., (xn, yn). El centro de gravedad de esta nube de
puntos, que es ( x , y ) , divide a la nube en cuatro cuadrantes.
Los puntos que se encuentran en el primer y tercer cuadrante
contribuyen positivamente a sXY, mientras que los puntos que estn en
el segundo y cuarto cuadrantes, lo hacen negativamente.

9/47

Mtodos de Regresin-Grado en Estadstica y Empresa

Si hay ms puntos en el tercer y primer cuadrantes, entonces sXY 0, lo


que puede interpretarse como que la variable Y tiende a aumentar
cuando lo hace X.
Si hay ms puntos en el segundo y cuarto cuadrantes, entonces sXY 0,
lo que puede interpretarse como que la variable Y tiende a disminuir
cuando X aumenta.

10/47

Mtodos de Regresin-Grado en Estadstica y Empresa

Si los puntos se reparten con igual intensidad alrededor del centro de


gravedad, entonces se tendr que sXY = 0, lo que indicar que no hay
relacin lineal entre las variables.
Atencin: Esto no significa que no pueda existir otro tipo de relacin
entre ambas variables.

11/47

Mtodos de Regresin-Grado en Estadstica y Empresa

12/47

La covarianza presenta los siguientes inconvenientes:


1) depende de las unidades de medida de las variables,
2) no est acotada ni superior ni inferiormente.
Proposicin: Si (x1, y1), (x2, y2), ..., (xn, yn) es una muestra de tamao
n de la variable bidimensional (X,Y), y a, b son dos valores reales,
entonces:

s X , a +bY = b s XY
Demostracin (pizarra)

Mtodos de Regresin-Grado en Estadstica y Empresa

13/47

1.2 Correlacin
El coeficiente de correlacin lineal de Pearson es una medida
adimensional de la variacin conjunta de dos variables.
Se define como:

s XY
=
s X sY

rX ,Y
donde

1
s =
n
2
X

(xi x) ,
2

i =1

1
s =
n
2
Y

2
(y

y
)
i
i =1

Propiedades:
Es una medida acotada: -1 rX,Y 1.
No se ve afectado por traslaciones ni por cambios de escala (del

mismo signo), es decir: rX , a + bY = rXY , b > 0.


Su signo coincide con el signo de sX,Y e indica el tipo de
dependencia entre X e Y.
Si | rX,Y |=1 fl correlacin mxima entre X e Y.
Si rX,Y=0 fl no existe relacin lineal entre X e Y, y se dice que las
variables estn incorreladas.

Mtodos de Regresin-Grado en Estadstica y Empresa

14/47

Ejercicio 1. Con los datos del ejemplo 2 (esperanza de vida), calcula la covarianza y el coeficiente
de correlacin lineal.
Country
Somalia
Tanzania
Zambia
Zaire
Algeria
Namibia
Burkina Faso
Cuba
Equador
North Korea
Mongolia
Thailand
Turkey
France
Netherlands

lifeexpf (y)
55
55
59
56
68
63
53
79
72
72
68
71
72
82
81

birthrate (x)
46
50
48
45
31
45
50
18
28
24
34
20
28
13
13

Mtodos de Regresin-Grado en Estadstica y Empresa

15/47

Solucin Ejercicio 1.
y
55
55
59
56
68
63

xy
2530
2750
2832
2520
2108
2835

Somalia
46
Tanzania
50
Zambia
48
Zaire
45
Algeria
31
Namibia
45
Burkina
Faso
53
50
2650
Cuba
79
18
1422
Equador
72
28
2016
North Korea
72
24
1728
Mongolia
68
34
2312
Thailand
71
20
1420
Turkey
72
28
2016
France
82
13
1066
Netherlands
81
13
1053
total
1006
493 31258
medias
67,07 32,87 2083,87
varianzas

89,53 172,65

x^2
2116
2500
2304
2025
961
2025

y^2
3025
3025
3481
3136
4624
3969

2500
2809
324
6241
784
5184
576
5184
1156
4624
400
5041
784
5184
169
6724
169
6561
18793 68812
1252,87 4587,47
covarianza -120,39
correlacin
-0,97

Mtodos de Regresin-Grado en Estadstica y Empresa

16/47

Ejercicio 2. Calcular el coeficiente de correlacin para los datos de la tabla siguiente:


x
2
3
4
5
6

y
5
7
8
13
14

Cmo cambiar el coeficiente de correlacin si:


a) sumamos 5 a la variable x.
b) sumamos 5 a ambas variables.
c) intercambiamos los valores de x por los de y.

Ejercicio 3. Cul sera el coeficiente de correlacin entre las edades de los cnyuges si las
mujeres siempre se casaran con hombres 2 aos mayores que ellas?

Mtodos de Regresin-Grado en Estadstica y Empresa

17/47

2. Hiptesis bsicas
Los factores que influyen en la variable respuesta y pueden dividirse en:
1) Un primer grupo que contiene a una variable x, independiente, no aleatoria y
conocida al observar y.
2) Un segundo grupo de mltiples factores que afectan a y, cada uno en pequeas
cantidades, que se denomina perturbacin aleatoria o error aleatorio.

yi = 0 + 1 xi +
1424
3
primer grupo

ui
{
segundo grupo

yi, ui son variables aleatorias,


xi es una variable predeterminada con valores conocidos,
0, 1 son parmetros desconocidos.
Modelo general

yi = g ( x1i , x2i ,..., xni )

Hiptesis inicial

yi = g1 ( x1i ) + g 2 ( x2i ,..., xni )

Aproximaci n

yi = 0 + 1 xi + ui

Mtodos de Regresin-Grado en Estadstica y Empresa

18/47

Se establecen las siguientes hiptesis para la perturbacin aleatoria:


a) Tiene esperanza nula:

E (u i ) = 0
b) Tiene varianza constante (homocedasticidad) y no depende de x:
var(ui ) = 2
c) Como consecuencia del TLC tiene distribucin normal:
ui ~ N (0, 2 )
d) Las perturbaciones son independientes (dos a dos):

E (ui u j ) = E (ui ) E (u j ),

i j

Pregunta: cunto vale la covarianza entre dos perturbaciones cualesquiera?


Observaciones:
1) Las condiciones a), b), c) y d) se resumen diciendo que u1, u2, , un son n v.a.
2
N
(
0
,

),
i.i.d. con ley normal

2) Las condiciones a), b), d) se denominan condiciones de Gauss-Markov.

Mtodos de Regresin-Grado en Estadstica y Empresa

19/47

Estas cuatro condiciones inducen la siguiente estructura sobre la variable respuesta y:


a) La esperanza de y depende linealmente de x:

E ( yi ) = E ( 0 + 1 xi + ui ) = 0 + 1 xi + E (ui )
1424
3
123
constante

=0

0 es el valor medio de y cuando x vale 0,


1 es el incremento que experimenta la media de y cuando x aumenta en una
unidad.
b) La varianza de y es constante:

var( yi ) = var( 0 + 1 xi + ui ) = var(ui ) = 2


1424
3
constante

2 es la varianza del modelo.


c) Para cada valor de x, la respuesta y tiene ley normal:

y x = xi ~ N ( 0 + 1 xi , 2 )
Pregunta: Son las yi idnticamente distribuidas?
d) Las yi son independientes dos a dos.

Mtodos de Regresin-Grado en Estadstica y Empresa

20/47

Consideraciones importantes:
La hiptesis principal del modelo es que la media de la ley de la respuesta, para x
fija, vara linealmente con x. Esta hiptesis debe comprobarse siempre, pues
condiciona toda la construccin del modelo.
La utilidad del modelo lineal radica en que muchas relaciones no lineales puede
convertirse en lineales transformando las variables adecuadamente. Una relacin
lineal debe considerarse como una aproximacin simple, en un rango de valores
limitado, de una relacin ms compleja. Por tanto, ser necesario tener presente:
1)
El rango de valores dentro del cual se va a trabajar,
2)
El peligro de extrapolar una relacin fuera de ese rango.
Cundo no se cumplirn las condiciones de Gauss-Markov?
La condicin a) no ser cierta si existen observaciones tomadas en condiciones
heterogneas con el resto. Esto puede comprobarse mediante un anlisis de
residuos del modelo, y es importante porque una nica observacin atpica puede
tener gran influencia en la estimacin.
La condicin b) no se cumplir si la variabilidad de y depende de la media de y
(heterocedasticidad).
La condicin d) es esperable en situaciones estticas (todas las observaciones
corresponden al mismo perodo temporal), pero casi nunca en situaciones
dinmicas, donde la variable respuesta se mide a lo largo del tiempo.

Mtodos de Regresin-Grado en Estadstica y Empresa

21/47

3. Estimacin por el mtodo de los mnimos cuadrados


3.1 Estimacin de los parmetros 1 y 0
Dadas n observaciones (x1,y1), , (xn,yn) el mtodo de los mnimos cuadrados
(MMC) selecciona como estimacin de la recta poblacional

yi = 0 + 1 xi + ui
a la recta de regresin

y i = 0 + 1xi
donde

1 =

s xy
s x2

, 0 = y 1 x

que estima el valor medio de y, para cada valor de x.


Demostracin (obtencin de las ecuaciones normales en la pizarra)

Mtodos de Regresin-Grado en Estadstica y Empresa

22/47

Ejercicio 4. Con los datos del ejemplo 1 (densidad del trfico) encontrar la recta de regresin que
mejor ajusta la velocidad en funcin de la densidad del trfico. Por razones que se vern ms
adelante, tomar la raz cuadrada de la velocidad.
densidad raiz(velocidad) densidad raiz(velocidad)
x
y
x
y
12,7
7,90
18,3
7,16
17
7,12
19,1
7,13
66
4,14
16,5
7,40
50
5,09
22,2
6,82
87,8
3,52
18,6
6,80
81,4
3,66
66
4,11
75,6
3,70
60,3
4,45
66,2
4,23
56
4,60
81,1
3,71
66,3
4,28
62,8
4,23
61,7
4,24
77
3,97
66,6
4,07
89,6
3,55
67,8
4,28

Mtodos de Regresin-Grado en Estadstica y Empresa

23/47

raiz(velocidad)

grfico de dispersin

9,00
8,00
7,00
6,00
5,00
4,00
3,00
2,00
1,00
0,00
0

20

40

60

densidad del trfico

80

100

Mtodos de Regresin-Grado en Estadstica y Empresa

densidad raiz(velocidad)
x
y
x^2
12,7
7,90
161,29
17
7,12
289
66
4,14
4356
50
5,09
2500
87,8
3,52
7708,84
81,4
3,66
6625,96
75,6
3,70
5715,36
66,2
4,23
4382,44
81,1
3,71
6577,21
62,8
4,23
3943,84
77
3,97
5929
89,6
3,55
8028,16
18,3
7,16
334,89
19,1
7,13
364,81
16,5
7,40
272,25
22,2
6,82
492,84
18,6
6,80
345,96
66
4,11
4356
60,3
4,45
3636,09
56
4,60
3136
66,3
4,28
4395,69
61,7
4,24
3806,89
66,6
4,07
4435,56
67,8
4,28
4596,84
1306,6
120,17
86390,92

24/47

y^2
62,40
50,70
17,10
25,90
12,40
13,40
13,70
17,90
13,80
17,90
15,80
12,60
51,20
50,80
54,70
46,50
46,30
16,90
19,80
21,20
18,30
18,00
16,60
18,30
652,2

xy
100,32
121,05
272,92
254,46
309,18
297,97
279,82
280,08
301,27
265,70
306,07
318,05
130,94
136,13
122,03
151,38
126,56
271,32
268,32
257,84
283,62
261,77
271,35
290,04
5678,21

Mtodos de Regresin-Grado en Estadstica y Empresa

25/47

medias
varianzas

x
54,44
635,73

covarianza
correlacin

-36,00
-0,98

coeficientes

0
1

y
5,01
2,10

x^2
3599,62

y^2
27,18

xy
236,59

8,09
-0,06

Recta de regresin

raiz(velocidad)

10,00
8,00
6,00
4,00
2,00
0,00
0

20

40

60

densidad del trfico

80

100

Mtodos de Regresin-Grado en Estadstica y Empresa

densidad raiz(velocidad) modelo


x
y
=0+1x residuo
12,7
7,90
7,37
0,53
17
7,12
7,13
-0,01
66
4,14
4,35
-0,22
50
5,09
5,26
-0,17
87,8
3,52
3,12
0,40
81,4
3,66
3,48
0,18
75,6
3,70
3,81
-0,11
66,2
4,23
4,34
-0,11
81,1
3,71
3,50
0,22
62,8
4,23
4,53
-0,30
77
3,97
3,73
0,25
89,6
3,55
3,02
0,53
18,3
7,16
7,05
0,10
19,1
7,13
7,01
0,12
16,5
7,40
7,16
0,24
22,2
6,82
6,83
-0,01
18,6
6,80
7,04
-0,23
66
4,11
4,35
-0,24
60,3
4,45
4,68
-0,23
56
4,60
4,92
-0,31
66,3
4,28
4,34
-0,06 Observaciones:
61,7
4,24
4,60
-0,35 (1) La suma de los residuos es cero.
66,6
4,07
4,32
-0,24 (2) La suma de los valores de y
67,8
4,28
4,25
0,03 coincide con la suma de los valores
1306,6
120,17
120,17
0,00 de .

26/47

Mtodos de Regresin-Grado en Estadstica y Empresa

27/47

3.2 Estimacin de la varianza 2


La desviacin tpica de la perturbacin, , mide la precisin del ajuste de la
recta de regresin. Para medir la variabilidad de los puntos alrededor de la recta
utilizaremos la desviacin tpica residual (estimador de ).
Se define la varianza residual como:

1
s R2 =
n2

ei2

i =1

donde ei = yi y i son los residuos del modelo.


Se divide por n-2 (y no por n), porque los residuos no son independientes,
pues las ecuaciones normales inducen dos restricciones sobre ellos:
n

e = 0, e x = 0.
i

i =1

i i

i =1

Por tanto, solamente hay n-2 valores independientes o n-2 grados de libertad.

Mtodos de Regresin-Grado en Estadstica y Empresa

28/47

Observacin: En la prctica, existe otra forma para calcular la varianza residual, sin
utilizar explcitamente los residuos:

s R2 =

n( s 2y 12 s x2 )
n2

Demostracin (pizarra).
2
s
Atencin: R es una varianza y, por tanto, su valor debe ser siempre positivo. Si al

calcularlo aparecen valores negativos, ser debido a errores de redondeo. En caso de


que esto ocurriera, se debe tomar una mayor precisin decimal en las estimaciones

12 , s 2y , s x2 .
Consideraciones importantes:
La recta de regresin y la desviacin tpica residual juegan el mismo papel que la
media y la desviacin tpica de una distribucin de datos:
la recta de regresin indica el valor medio de y para cada valor de x,
mientras que la desviacin tpica residual mide la desviacin promedio
de las observaciones alrededor de la recta.

Mtodos de Regresin-Grado en Estadstica y Empresa

Ejemplo: Hallar la varianza y desviacin tpica residual del Ejemplo 1


(densidad del trfico).
Recordemos que para este ejemplo n=24, y adems habamos
calculado

sx2 = 635.73, s y2 = 2.10, 12 = 0.057.


Entonces, sustituyendo en la frmula anterior, obtenemos que la
varianza residual es igual a:

n( s 2y 12 sx2 ) 24(2.10 (0.057) 2 635.73)


s =
=
= 0.0377
n2
24 2
2
R

y la desviacin tpica residual ser su raz cuadrada.

29/47

Mtodos de Regresin-Grado en Estadstica y Empresa

4.

30/47

Propiedades de los estimadores de los parmetros 1 y 0

Si se toman muestras de y manteniendo constantes los valores de x, y para cada


2
muestra se calculan los estimadores 0 , 1 y s R , stos tomarn valores distintos de
una muestra a otra. Se trata pues de variables aletaorias y, por tanto, tienen una
distribucin de probabilidad en el muestreo.
Las propiedades de los estimadores y consisten en determinar su esperanza,
0

varianza y distribucin de probabilidad en el muestreo.


4.1 Propiedades del coeficiente de regresin 1 (demostraciones en la pizarra)
a) 1 tiene ley normal al ser combinacin lineal de v.a. normales.
b) es un estimador insesgado del parmetro .
1

c) 1 es el estimador ms eficiente del parmetro 1 . La varianza de 1 es:

var(1 ) =

2
nsx2 ,

cuyo estimador es
s 2 =
1

s R2
ns x2

= ... =

s 2y 12 s x2
(n 2) s x2

Mtodos de Regresin-Grado en Estadstica y Empresa

31/47

La varianza de 1 indica el error de estimacin del parmetro 1 . As, de la frmula

s 2

se deduce que:
1) El error aumenta al
aumentar la
varianza residual,
para x fijo,
2) El error disminuye
al aumentar la
dispersin de x,
3) El error disminuye
al aumentar el
tamao muestral.

s R2
ns x2

Mtodos de Regresin-Grado en Estadstica y Empresa

32/47

4.2 Propiedades del estimador 0


a) 0 tiene ley normal al ser combinacin lineal de v.a. normales.
b) 0 es un estimador insesgado del parmetro 0 .
c) La varianza de puede expresarse como suma de dos trminos:
0

var(0 ) =
n

x2
1 + 2
sx

2
El primer trmino es n , que es el error de estimacin de y .
2 2
)x 2
x
=
var(

1
El segundo trmino, ns 2
, tiene en cuenta que el error de estimacin de
x

la pendiente de la recta se transmite a la ordenada en el origen en funcin de lo


alejado que se encuentre x del origen (aumenta a medida que aumenta x ).

Mtodos de Regresin-Grado en Estadstica y Empresa

33/47

Conclusiones:
Para una muestra concreta,
el valor calculado para 1 puede interpretarse como un valor extrado al azar de
2
2
una distribucin normal de media 1 y varianza (ns x ) . Esto equivale a decir
que el estimador
2

1 ~ N 1 , 2
ns x
el valor calculado para 0 puede interpretarse como un valor extrado al azar de

x2

una distribucin normal de media 0 y varianza n 1 + s 2 . Esto equivale a decir


x

que el estimador
2 x 2

0 ~ N 0 , 1 + 2
n sx

Mtodos de Regresin-Grado en Estadstica y Empresa

34/47

Relacin entre los estimadores 0 y 1


Tal como se ha obtenido 0 = y 1 x , est claro que 0 y 1 no son independientes.
Puede demostrarse que:
2
x

cov(0 , 1 ) = 2 = x var(1 )
ns x

De donde se deduce que:


1) si x > 0 , la covarianza
es negativa, indicando
que errores por exceso
en la pendiente
producirn errores por
defecto en , y
0

viceversa.
2) La dependencia
disminuye con x y con
los factores que
contribuyen a estimar la
pendiente con mayor
precisin.

Mtodos de Regresin-Grado en Estadstica y Empresa

35/47

5. Propiedades de la varianza residual


Recordemos que solamente hay n-2 residuos independientes.
Puede demostrarse (lo veremos en general, cuando estudiemos el modelo de
regresin lineal mltiple) que la suma cuadrtica de los residuos de variables normales
divida por 2 tiene ley chi-cuadrado con los grados de libertad que tengan los residuos.
1

ei2

i =1

n22

(n 2) s R2

{
sR2 =

1
n2

ei2

~ n22

La esperanza y varianza del estimador s R son:

2 4
E ( s ) = , var(s ) =
.
n2
2
R

2
R

(Se deducen a partir de la esperanza y varianza de la ley Gamma k2 = Gamma ,2 E ( k2 ) = k , var( k2 ) = 2k . )


k
2

Mtodos de Regresin-Grado en Estadstica y Empresa

36/47

Propiedades de los estimadores y su dependencia de las hiptesis bsicas


Parmetro

Estimador

0 = y 1 x

s xy

1 = 2
sx

s R2 =

e
i =1

2
i

n2

Esperanza

E ( 0 ) = 0
Linealidad

Varianza

x
1
var(0 ) =
n sx

Homocedasticidad
Independencia
2

var(1 ) = 2
E ( 1 ) = 1
nsx
Linealidad
Homocedasticidad
Independencia
2 4
2
var(sR ) =
E ( sR2 ) = 2
n2
Linealidad
Linealidad
Homocedasticidad Homocedasticidad
Independencia
Independencia
Normalidad

Distribucin
2

Normal
Normalidad

Normal
Normalidad
(n 2) sR2

~ n22

Linealidad
Homocedasticidad
Independencia
Normalidad
2

El incumplimiento de las hiptesis bsicas afecta la estimacin de los parmetros.

Mtodos de Regresin-Grado en Estadstica y Empresa

37/47

Descomposicin de la variabilidad: Relacin fundamental de la regresin


n

2
2
2

(
y

y
)
=
(
y

y
)
+
(
y

y
)

i
i
i
i
i =1
i =1
i =1
1
4243 1
4243 1
42
4 43
4
VT

VE

VNE

Esta relacin nos dice que la variabilidad de y (VT) descompone en dos trminos
independientes:
VE: contiene la variabilidad explicada o recogida en el modelo de regresin.
VNE: contiene la variabilidad no explicada por el modelo de regresin, que es debido
al carcter estocstico de la relacin.

Mtodos de Regresin-Grado en Estadstica y Empresa

38/47

Demostracin de la relacin fundamental de la regresin:

VT =

( yi y ) =
2

i =1

(y
i =1

(
y

y
+
y

y
)
i i i
i =1

y i ) + ( y i y ) + 2 ( y i y i )( y i y )
i =1
i =1
1
4 442 4 4 4
3
2

=0 ?

( y y )( y y ) = ( y x )( + x x )
= ( y x )( x x ) = ( y x )( x x ) ( x x )
14243
i

1 i

1 i

i =1

= 1

(y

1 i

1 xi )( xi x ) = 1

(y x

i i

1 i

1 0

=0

y i x 1 xi2 + 1 x i x )

= 1 n( xy x y 1 x 2 + 1 x 2 ) = 1 n( s xy 1 s x2 ) = 0
142
4 43
4
=0

Mtodos de Regresin-Grado en Estadstica y Empresa

39/47

Es conveniente descomponer la varianza en una tabla ADEVA (anlisis de la varianza) o


ANOVA (analysis of variace) de la forma siguiente:
n

VT = ( yi y ) 2 = ns y2
i =1

2
VNE = ( yi y i ) = ei = (n 2) s R2 = n( s y2 12 s x2 )
2

i =1

i =1

VE = VT VNE = ns y2 n( s y2 12 s x2 ) = n12 s x2
Tabla ANOVA:
Fuente de
variacin

Sumas de
Cuadrados

Grados
de libertad

Cociente o varianza

VE

n12 s x2

n12 s x2 / 1

VNE

(n 2) s R2

n-2

(n 2) sR2 /(n 2) = sR2

VT

ns y2

n-1

Mtodos de Regresin-Grado en Estadstica y Empresa

40/47

Ejemplo. Con los datos del Ejemplo 1 (densidad del trfico) encontrar la tabla ADEVA (ANOVA).
Recordemos que x=densidad del trfico, y=raz cuadrada de la velocidad.

n = 24,

y
i =1

y
i =1

2
i

= 120.17,

= 652.2,

x
i =1

x
i =1

= 1306.6,

= 86390.92,

x y
i =1

= 5678.21,

1 = 0.057.
2

Para construir la tabla ANOVA vamos a calcular primero sx , sy y sR :


2

86390.92 1306.6
s x2 = x 2 x 2 =

= 635.73
24
24

652.2 120.17
s =y y =

= 2.10
24
24
n( s y2 12 s x2 ) 24
2
=
2.10 (0.57) 2 635.73 = 0.0377
sR =
n2
22
2
y

Mtodos de Regresin-Grado en Estadstica y Empresa

41/47

La tabla ANOVA es:


Fuente de
variacin

Sumas de
Cuadrados

Grados de libertad

Cociente o varianza

VE

n12 s x2 = 49.5717

49.5717

VNE

(n 2) sR2 = 0.8294

(n-1)-1=23-1=22

0.0377

VT

ns y2 = 50.4

n-1=23

Observacin: Generalmente se calculan solamente VE y VT y se obtiene VNE=VT-VE.

Mtodos de Regresin-Grado en Estadstica y Empresa

42/47

6. El coeficiente de determinacin
La varianza residual es un ndice de precisin de la recta de regresin, pero no es til
para comparar rectas de regresin de variables distintas, porque depende de las
unidades de medida de la variable respuesta.
Una medida ms adecuada del ajuste es la proporcin de variabilidad explicada. Se
define el coeficiente de determinacin del modelo como:
n

R2 =

VE
=
VT

(
y

y
)
i
i =1
n

2
(
y

y
)
i
i =1

En la prctica, utilizaremos la siguiente expresin:


2
n12 s x2
s
2
x
R =
= 1 2
2
ns y
sy
2

Ejercicio: Expresar el coeficiente de determinacin en funcin de la varianza residual.

Mtodos de Regresin-Grado en Estadstica y Empresa

43/47

Relacin entre el coeficiente de determinacin


y el coeficiente de correlacin lineal de Pearson

s2
= s s2
s
=

xy
1 x
Puesto que 1
y, por tanto:
xy
x , entonces

r =

s xy
sx s y

1s x2

s
= 1 x
sx s y
sy

elevando al cuadrado, tenemos que:


2
s
r 2 = 12 x2 = R 2
sy

Atencin:

r 2 = R2 r = R2

Mtodos de Regresin-Grado en Estadstica y Empresa

44/47

Propiedades del coeficiente de determinacin

R2 =

VE VT VNE
VNE
=1
=
VT
VT
VT

1) 0 R 2 1
R 2 0, al ser un cociente de varianzas,
R 2 1, puesto que VE VT = VE + VNE

2) Si R 2 = 1 VE = VT VNE = 0 sR2 = 0
es decir, todos los residuos son cero
3) Si R 2 = 0 VE = 0 VNE = VT
la variacin de y no es debida a x, sin al error.

Mtodos de Regresin-Grado en Estadstica y Empresa

45/47

Ejemplo. Con los datos del Ejemplo 1 (densidad del trfico) encontrar el valor del
coeficiente de determinacin e interpretarlo.

R2 =

VE 49.5717
=
= 0.9835 98.35%
VT
50.4

El modelo y=8.09-0.057x resume el 98.35% de la variabilidad de y. Queda sin explicar


el 100-98.35=1.65% de la variabilidad de los datos.
La velocidad de los vehculos queda explicada por la densidad del trfico en un
98.35%. La influencia de otros factores en la velocidad es del 1.65%.

Mtodos de Regresin-Grado en Estadstica y Empresa

46/47

Ejercicio 5 (longitud de la lnea de la mano). En un estudio para relacionar la


longitud de la lnea de la vida en la mano izquierda y la vida de una persona, se han
observado los siguientes datos de 50 personas con los siguientes resultados:
x= longitud de lnea (en cm)
y= edad al morir (en aos)
50

y
i =1

50

x
i =1

= 3333 ,

50

y
i =1

= 459.9 ,

2
i

x y
i =1

50

x
i =1

= 231933 ,

50

= 30549 ,

= 4308.57 .

a) Se pide construir una recta de regresin de y sobre x y encontrar la varianza


residual.
b) Descomponer la variabilidad y expresarla en una tabla ADEVA (ANOVA).

Mtodos de Regresin-Grado en Estadstica y Empresa

47/47

Ejercicio 6 (salario-escolarizacin). Un investigador considera que el salario que


percibe un individuo es funcin lineal de sus aos de escolarizacin, esto es,
yi = 0 + 1 xi + u i , donde yi representa el salario mensual del individuo i-simo, xi los
aos de estudio de dicho individuo y ui es el trmino de error, que supondremos que
verifica las hiptesis habituales del modelo de regresin. El investigador ha obtenido
una muestra aleatoria de 100 individuos, de la que conocemos la siguiente informacin:
100

y
i =1

100

= 1180 ,

xi = 1000 ,
i =1

100

y
i =1

100

2
i

= 25543 ,

100

x y
i =1

= 13469 ,

xi = 12820 .
2

i =1

Se pide:
a) Obtener estimadores insesgados de los parmetros 0, 1 y 2, as como el
coeficiente de determinacin. Interpretar los resultados.
b) Hallar la descomposicin de la variabilidad (tabla ADEVA).

Anda mungkin juga menyukai