Anda di halaman 1dari 148

1

ndice

Regresin lineal simple

Jos Gabriel Palomo Snchez


gabriel.palomo@upm.es
E.U.A.T.
U.P.M.

Julio de 2011

ndice

ndice I

El problema general. Dependencia e independencia de variables


1
2
3

Dependencia determinista
Dependencia estadstica
Modelo para la dependencia estadstica

Los modelos de regresin


Los modelos de regresin. Generalidades
Clculo de un modelo de regresin
Conjetura del modelo
El coeciente de covarianza
El coeciente de correlacin lineal
Estructura de un modelo de regresin simple. Partes
determinista y aleatoria
7 Nomenclatura en un modelo de regresin simple
1
2
3
4
5
6

ndice

ndice II

Clculo de los parmetros del modelo de regresin simple


El criterio de mnimos cuadrados
Clculo de los parmetros del modelo de regresin lineal simple
por mnimos cuadrados
3 Interpretacin de los parmetros de un modelo de regresin
lineal simple

1
2

Inferencia en un modelo de regresin lineal simple


Problemas abiertos
Las hiptesis del modelo
Consecuencias de las hiptesis del modelo
Estimadores de los parmetros de la recta de regresin.
Propiedades
5 Estimador de la varianza del error experimental. La varianza
residual. Propiedades
6 Clculo de intervalos de conanza para el coeciente de
regresin
7 El contraste de regresin
1
2
3
4

ndice

ndice III

Diagnosis y validacin del modelo


1
2
3

Diagnosis y validacin del modelo


Diagnosis y validacin del modelo. Grcos de residuos
Transformaciones

Prediccin en regresin lineal simple


1 Precisin de la estimacin de E (Y |X = x )
i

2
3

Precisin de la estimacin de una observacin


Precisin en regresin. Resumen y observaciones

Los valores atpicos en regresin


Los valores atpicos en regresin. Puntos inuyentes y puntos
palanca
2 Estrategia ante los valores atpicos en regresin

ndice

El problema general. Dependencia e


independencia de variables.

definicin
Dos variables son dependientes cuando el conocimiento del valor de
una de ellas en un individuo aporta informacin sobre el valor de la
otra en ese individuo.
definicin
Cuando dos variables no son dependientes se dice que son
independientes.

ndice

Dependencia determinista I. Ejemplo

Si a un cuerpo de masa m se le aplica una fuerza F, esta


fuerza comunica una aceleracin al cuerpo, cuyo mdulo viene
expresado por la ecuacin:

a=

F
.
m

Esta ecuacin permite calcular con exactitud, el mdulo de la


aceleracin que una fuerza determinada comunicar a un
cuerpo de masa conocida.

ndice

Dependencia determinista II. Ejemplo

El siguiente grco muestra los distintos valores de las


aceleraciones provocadas sobre un cuerpo de masa 10 Kg , por
distintas fuerzas ejercidas sobre l.

F
La ecuacin a = 10
es el modelo que
explica la relacin
de dependencia
entre estas
variables.

ndice

Dependencia determinista III. Ejemplo

El espacio recorrido por un cuerpo en cada libre, en el vaco,


viene dado por la expresin:
1
2

e = gt

donde g representa el valor de la aceleracin de la gravedad, y


t es el valor del tiempo transcurrido.
Despejando:

t=

2e

ndice

Dependencia determinista IV. Ejemplo

El siguiente grco muestra los distintos valores del tiempo


transcurrido hasta que un cuerpo en cada libre alcanza el suelo, en
funcin de la distancia entre ste y el punto en el que inicia la cada.
La ecuacin
q
t = 2ge es el
modelo que explica
la relacin de
dependencia entre
estas variables.

ndice

Dependencia determinista V

Cuando el conocimiento del valor de una variable permite el


clculo exacto de otra, se dice que entre ellas hay una relacin
de dependencia determinista o funcional.
La ecuacin que posibilita este clculo determina el modelo
que explica la relacin entre ambas variables.

10

ndice

Dependencia estadstica I

En ocasiones, cuando dos variables son dependientes, NO se puede


calcular con exactitud el valor de una variable cuando el de la otra
es conocido.
En estos casos se dice que la relacin de dependencia entre las
variables es estadstica o aleatoria.

11

ndice

Dependencia estadstica II. Ejemplo

El siguiente grco representa los dimetros en la base del tronco, y


las alturas, de un conjunto de cerezos.

Qu altura le
corresponde a un
cerezo que tenga un
dimetro en la base
de 14 unidades?

12

ndice

Dependencia estadstica III. Ejemplo

El siguiente grco representa la esperanza de vida en un conjunto


de paises en funcin de su producto interior bruto, (en el grco las
unidades del PIB son miles de millones de dlares).
Qu esperanza de
vida le corresponde
a un pas que tenga
un PIB de 15
unidades?
Y a otro con un
PIB de 5 unidades?

13

ndice

Dependencia estadstica IV

Problema
En los casos de dependencia estadstica no existe un modelo
matemtico (ecuacin) que permita calcular con exactitud el valor
de una variable, cuando la otra es conocida.
Solucin
En ocasiones se puede establecer un modelo que permita calcular,
de manera aproximada, el valor de una variable aleatoria, cuando el
de la otra, tambin aleatoria, es conocida.

14

ndice

Dependencia estadstica V. Ejemplo

La recta del grco permite el clculo aproximado de la altura de


un cerezo, conocido su dimetro en la base.
Su ecuacin es:
y = 610 55 + 10 066x
La altura aproximada de
un cerezo, cuyo dimetro
en la base sea 14, ser:
y = 610 55 + 10 066 14 =
760 47

ndice

Dependencia estadstica VI. Ejemplo

La curva del grco permite el clculo aproximado de la esperanza


de vida de un pas, conocido el nmero de miles de millones de su
PIB.
Su ecuacin es:
y = 20 03 + 70 76 ln(x )
La esperanza de vida
aproximada en un pas de
5000 millones de dlares
de PIB es: y = 20 03 +
70 76 ln(5000) = 680 12

16

17

ndice

Dependencia estadstica VII. Resumen

Cuando dos variables son dependientes, el conocimiento del


valor de una de ellas aporta informacin sobre el valor de la
otra.

En el caso de dependencia funcional, conocido el valor de una


de las variables, la ecuacin del modelo, y = f (x ), permite el
clculo exacto del valor de la otra.

En el caso de dependencia estadstica, el conocimiento del


valor de una variable aleatoria permite, slo, el clculo
aproximado del valor de la otra.

ndice

Los modelos de regresin. Generalidades I

Definicin
Un modelo de regresin es una expresin matemtica que permite
calcular, de forma aproximada, el valor de una variable aleatoria
en un individuo, cuando se conoce el valor de una o varias variables
en ese mismo individuo (regresores), que tambin son aleatorias.

Cuando se contempla nicamente un regresor se trata de un


modelo de regresin simple. En el caso en que se trate ms de un
regresor se tratar de un modelo de regresin mltiple. En este
captulo, solo se tratarn modelos de regresin simple.

18

19

ndice

Los modelos de regresin. Generalidades II

A lo largo de este captulo se tratar de dar respuesta a las


siguientes preguntas:
1

Cundo es til un modelo de regresin?

Cmo se calcula un modelo de regresin?

Cmo se emplea un modelo de regresin?

Qu abilidad ofrece un modelo de regresin?

ndice

Los modelos de regresin. Generalidades III

Principio bsico
Un modelo de regresin es til cuando describe correctamente la
relacin de dependencia entre variables.

21

ndice

Los modelos de regresin. Generalidades IV.


Ejemplo

La recta del siguiente grco describe, de forma aproximada, y


segn la informacin disponible, la relacin entre la altura de los
cerezos y su dimetro en la base.

22

ndice

Los modelos de regresin. Generalidades V.


Ejemplo

La recta del siguiente grco no describe, de forma aproximada, y


segn la informacin disponible, la relacin entre la esperanza de
vida en un pas y su producto interior bruto.

ndice

Clculo de un modelo de regresin

Para el clculo de un modelo de regresin es necesario establecer


una metodologa que tenga en cuenta:
La clase de modelo que explique la relacin de dependencia
entre las variables, (lineal, polinmico, logartmico,...).
La estructura matemtica de dicho modelo.
Un criterio de clculo de los parmetros del modelo.

23

ndice

Conjetura del modelo I

Qu modelo es el adecuado?
La conjetura de la conveniencia de un modelo de regresin, para
explicar la relacin de dependencia entre variables, se realiza, en
primer lugar, a travs del anlisis grco de la informacin
disponible.

24

ndice

Conjetura del modelo II. Ejemplo

Para analizar la relacin de dependencia entre dos variables


aleatorias X e Y se toman datos (pareados), segn la tabla:

X
x
x

1
2

..
.

Y
y
y

1
2

..
.

xn yn

25

ndice

Conjetura del modelo III. Ejemplo

Grcamente,
Qu tipo de modelo
explicara esta relacin de
dependencia entre X e Y ?
Parece razonable, en este
caso, conjeturar una recta
como el modelo adecuado.

ndice

Conjetura del modelo IV. Ejemplo

El siguiente grco resume la informacin de un conjunto de datos,


obtenidos para analizar la relacin de dependencia entre las
variables aleatorias X e Y .
Qu tipo de modelo
explicara esta relacin de
dependencia entre X e Y ?
No parece razonable, en
este caso, conjeturar una
recta como el modelo
adecuado.

ndice

Conjetura del modelo V. El caso lineal

En el caso en que la nube de puntos sugiera una relacin lineal, con


forma de recta, entre las variables, existen dos coecientes que
complementan la informacin grca:
Covarianza.
Coeciente de correlacin lineal.

28

ndice

El coeficiente de covarianza I

El coeciente de covarianza se construye para medir la


intensidad de la dependencia lineal entre dos variables.
Supngase que para medir esta relacin de dependencia se
dispone de una muestra de datos pareados como los expuestos
en la siguiente tabla:

X
x
x

1
2

..
.

Y
y
y

1
2

..
.

xn yn
29

ndice

El coeficiente de covarianza II

definicin
Se dene el coeciente de covarianza entre X e Y como:
P
(xi x)(yi y )
COV (X , Y ) =

Donde x e y representan las medias muestrales de X e Y ,


respectivamente.

30

ndice

Interpretacin de la covarianza I

Para interpretar el
signicado del coeciente
de covarianza, considrese
la representacin grca
de los datos de la tabla. .

b
b

b
b

b
b
b

b
b
b bb

b
b
b
b

b
b
b

b
b

bb
b

b
b

b
b
b
b bb

bb

b
bb

b
b
b

b
b

b
b
b
b

b
b

ndice

Interpretacin de la covarianza II

Considres una traslacin


de los ejes al punto (x , y):
.

b
b

b
b

b
b
b

b
b
b bb

b
b
b

b
b

bb

b
b

bb
b

b
b

b
b
b

b
b
b
b bb

b bbb

b
b
b

b
b

b
b

b
b
b
b

(
x, y)

b
b

ndice

Interpretacin de la covarianza III

Para todo punto del primer


cuadrante, se observa que:

(xi x
) > 0

b
(yi y) > 0

(xi x)(yi y ) > 0

(
x, y)

ndice

Interpretacin de la covarianza IV

Del mismo modo, para los


puntos del segundo
cuadrante:

(xi x
) < 0

(yi y) > 0

(xi x)(yi y ) < 0

(
x, y)

ndice

Interpretacin de la covarianza V

De forma similar, en el
tercer cuadrante:
(xi x)(yi y ) > 0

b
(yi y) < 0

b
(xi x
) < 0

(
x, y)

ndice

Interpretacin de la covarianza VI

Y en el cuarto cuadrante:
(xi x)(yi y ) < 0

b
(yi y) < 0
(
x, y)

b
(xi x
) > 0

ndice

Interpretacin de la covarianza VII

Por lo tanto, en distribuciones de puntos como las de las guras


adjuntas cabe esperar un coeciente de covarianza prximo a cero.

()
b

b
b

b
b
b

37

b
b

bb

(+)

b
b
b bb

b
b
b
b

b
b

(+)
b

bb

b
b
b
b bb

b bbb

b
b
b
b

()

(+)

b
b
b

b
b

b
b

b
b

b
b

()

(+)

b
b

b
b

b
b
b
b
bb
b

b bb
b

b
b

b
b

b
b
b

b
b

()

ndice

Interpretacin de la covarianza VIII

Sin embargo, en distribuciones de puntos como las de las guras


adjuntas cabe esperar un coeciente de covarianza alto en valor
absoluto.

()

b
b
b
b b

b
b
b

(+)

38

b
b

b
b

b
b

(+)
b

bb

b
b

b
b

()

b
b

b
b

bb
b
b
bb

b
b
b

b
b
b

b
b

b
b

(+)
b

b
b

b
b

()

(+)

b bb

b
b

b
b

()

ndice

Propiedades de la covarianza

La covarianza tiene unidades, las de la variable X multiplicadas


por las de la variable Y .
La covarianza no tiene escala y se puede hacer, en valor
absoluto, arbitrariamente grande o pequea con el mismo
conjunto de datos.

39

ndice

El coeficiente de correlacin lineal

Para corregir los inconvenientes de la covarianza se dene el


coeciente de correlacin, que tambin mide la intensidad de
la dependencia lineal entre dos variables.
Definicin
El coeciente de correlacin entre dos variables es:
=

COV (X , Y )
sX sY

Donde sX y sY representan las desviaciones tpicas de X e Y ,


respectivamente.

ndice

Propiedades del coeficiente de correlacin I

El coeciente de correlacin tiene las siguientes propiedades:


Es un nmero adimensional.
En todo caso:
1 1

41

|| = 1 implica dependencia lineal exacta entre

X e Y.

= 0 implica falta de dependencia lineal entre

X e Y.

ndice

Propiedades del coeficiente de correlacin II

En situaciones como las que muestran los siguinetes grcos, cabe


esperar un coeciente de correlacin prximo a cero.

()
b

b
b

b
b
b

42

b
b

bb

(+)

b
b
b bb

b
b
b
b

b
b

(+)
b

bb

b
b
b
b bb

b bbb

b
b
b
b

()

(+)

b
b
b

b
b

b
b

b
b

b
b

()

(+)

b
b

b
b

b
b
b
b
bb
b

b bb
b

b
b

b
b

b
b
b

b
b

()

ndice

Propiedades del coeficiente de correlacin III

Sin embargo, en los casos que resumen los siguientes grcos cabe
esperar un coeciente de correlacin prximo a uno en valor
absoluto.

()

b
b
b
b b

b
b
b

(+)

43

b
b

b
b

b
b

(+)
b

bb

b
b

b
b

()

b
b

b
b

bb
b
b
bb

b
b
b

b
b
b

b
b

b
b

(+)
b

b
b

b
b

()

(+)

b bb

b
b

b
b

()

ndice

Estructura de un modelo de regresin simple.


Partes determinista y aleatoria I

Para analizar la estructura


de un modelo de regresin,
supngase que se ha
ajustado uno de estos
modelos a un conjunto de
datos.
Sin prdida de generalidad,
se supondr que se analiza
el caso de dependencia
entre dos variables, y que
se puede considerar que el
modelo adecuado es una
recta:
44

y
= f (x)

b
b
b

b
b
b
b

=1

ndice

Estructura de un modelo de regresin simple.


Partes determinista y aleatoria II

Sea (xi , yi ) un punto


correspondiente a un dato
cualquiera del conjunto: .

(xi , yi )

y
= f (x)

b
b
b

b
b
b
b

xi

45

ndice

Estructura de un modelo de regresin simple.


Partes determinista y aleatoria III

yi se puede descomponer
como se describe en el
grco: .

(xi , yi )

b
b

y
= f (x)

b
b
b
b

xi

46

ndice

Estructura de un modelo de regresin simple.


Partes determinista y aleatoria IV

La parte inferior,
yi = f (xi ), representa el
valor que el modelo prev
para la variable Y , en un
individuo cuyo valor en X
es xi . .

(xi , yi )

y
= f (x)

b
b
b

b
b

y
i = f (xi )

b
b

xi

47

ndice

Estructura de un modelo de regresin simple.


Partes determinista y aleatoria V

La parte superior, ei , es la
diferencia entre el valor
observado de Y en el
individuo yi , y el previsto
por el modelo, yi , para ese
individuo. .

(xi , yi )

y
= f (x)

ei
b
b
b

b
b
b
b

xi

48

ndice

Estructura de un modelo de regresin


simple.Partes determinista y aleatoria VI

En consecuencia,

yi

= yi + ei . .

(xi , yi )

y
= f (x)

ei
b
b
b

b
b

y
i = f (xi )

b
b

xi

49

ndice

Estructura de un modelo de regresin simple.


La parte determinista.

Calculado el modelo, el
valor de yi queda
determinado para cada xi ,

yi

= f (xi )

y
= f (x)

b
b
b

b
b

yi

= f (xi ) es la parte

determinista, o
funcional del modelo.

50

b
b

x1 x2

xi

ndice

Estructura de un modelo de regresin simple.


La parte aleatoria.

Calculado el modelo, el
valor de ei no queda
determinado por xi
Puede haber dos
observaciones con el
mismo xi y distinto ei

y
= f (x)

b
b
b

b
b

ei

= yi yi es la parte

aleatoria del modelo.


(Error aleatorio.) .
51

ndice

Estructura de un modelo de regresin simple.


Resumen

En consecuencia, la estructura de un modelo de regresin simple es:

i
|{z}

Valor observado

f (xi )
| {z }

Parte determinista,

De manera resumida:
y=f(x)+E

52

+
y

i
|{z}

Error aleatorio

ndice

Nomenclatura de un modelo de regresin


simple

y = f (x ) + E

y es la variable explicada, dependiente o respuesta.


x es la variable explicativa, el regresor o la variable
independiente.

E representa el error aleatorio. Contiene el efecto sobre y de


todas las variables distintas de x .

53

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados I

Supngase que un
conjunto de datos sugiere
que entre dos variables, X
e Y , existe una relacin de
dependencia.

Y
b

Grcamente, .

b
b

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados II

A la vista del grco se


conjetura como un modelo
posible una parbola de la
forma:
y = c (x h)2 + k .

Y
b

y
= f (x)
b

b
b

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados III

Qu valores de k , c y h
se deben tomar?
Distintos valores de los
parmetros modican la
ecuacin del modelo
ajustado. .

b
b

y
= f (x)
b

b
b
b

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados IV

Recurdese que, para


cualquier modelo ajustado,
cada valor observado lleva
asociado su error aleatorio:

ei

= yi yi

Interesara que,
globalmente, el error
cometido por el modelo
fuera mnimo. .

e1

Y
b

y
= f (x)
en
b

e2

b
b

ei

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados V

Cmo se minimiza globalmente el error asociado al modelo?

58

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados VI

Criterio de mnimos cuadrados:


Sea e = (e1 , e2 , . . . , en ) el vector de errores asociado al
modelo.
El mdulo de este vector viene dado por la expresin:
|e | =

2
1

+ e22 + + en2

El criterio de mnimos cuadrados selecciona los valores de los


parmetros del modelo que P
minimizan el mdulo del vector
error, (equivalentemente el (ei2 ).)

59

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados VII. Ejemplo

Se se ajustan dos modelos de regresin a una nube de puntos, y


uno de ellos es el de mnimos cuadrados:

Y
b

b
b

60

ndice

Clculo de los parmetros del modelo de R.S.


Mnimos cuadrados VIII. Ejemplo

MODELO CUALQUIERA

MODELO DE MNIMOS CUADRADOS


b

e1

Y
b

y
= f (x)

e1

y
= f (x)

en
b

e2

b
b

e2

b
b

ei
b

Necesariamente,

ei

61

en

ei

<

(ei0 )2

62

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados I

El modelo de regresin lineal con una variable independiente tiene


la forma:

y
|

= 0 + 1 x +E
{z
}
Recta

63

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados II

El modelo de regresin lineal simple es el modelo de regresin


ms sencillo.
Se utiliza cuando:
1

La nube de puntos se asemeja a una recta.

El coeciente de correlacin lineal es alto en valor absoluto.

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados III

Supngase que la relacin


entre dos variables sugiere
una alta relacin lineal. .

||
=1

b
b
b

b
b
b
b

64

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados IV

Para ajustar una recta por


mnimos cuadrados hay
que minimizar:

y
= 0 + 1 x
Y

ei

S (

, 1 ) =

n
X
i =1

en

ei

e1

b
b

65

66

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados V

Como S es funcin de 0 y de 1 , para que S sea mnimo:


S
=0
0

S
=0
1

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados VI

Ahora bien, como

ei
se tiene que:

67

= yi yi , con yi = 0 + 1 x ,
i

ei

= yi (0 + 1 x )
i

68

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados VII

De donde:

S
=
0

Pn

S
=
1

Pn

i =1 ei


=

Pn

2
i =1 (yi (0 + 1 xi ))

=0

y
i =1 ei


=

Pn

2
i =1 (yi (0 + 1 xi ))

=0

69

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados VIII

Operando para resolver el sistema anterior se tiene que:


n
X
i =1
n
X
i =1

ei

ei xi

y =

= 0.
= 0, e
+ 1 x

Siendo 0 y 1 las soluciones del sistema.

70

ndice

Los parmetros del modelo de regresin


lineal por mnimos cuadrados IX

Resolviendo el sistema, se tiene que:


1 =

COV (X , Y )
sx
2

Por lo que la ecuacin de la recta de regresin es:


(y y ) =

COV (X , Y )
(x x)
sx
2

ndice

Interpretacin de los parmetros de un


modelo de regresin lineal simple I

En el modelo y = 0 + 1 x que relaciona las variables X e Y :


0 representa el valor medio de la variable Y |X = 0, que en

muchas ocasiones carece de sentido.

1 representa la variacin de la variable Y , cuando X aumenta


o disminuye una unidad.

71

ndice

Interpretacin de los parmetros de un


modelo de regresin lineal simple II

Si y = 0 + 1 x es la recta
de regresin calculada por
mnimos cuadrados,
asociada a una muestra, .

0 +
1 x
y
=

72

ndice

Interpretacin de los parmetros de un


modelo de regresin lineal simple III

0 = y (0). Grcamente,
Y
0 +
1 x
y
=

Obsrvese que 0 no
siempre tiene
signicado fsico.
0

73

ndice

Interpretacin de los parmetros de un


modelo de regresin lineal simple IV

1 representa la variacin

de la variable Y cuando X
aumenta o disminuye una
unidad. En efecto:

y(x ) =

y(x + 1) =

+ 1 x ,

Y
0 +
1 x
y
=
b

+ 1 (x + 1),

De donde,

y(x + 1) y(x ) = .
1

74

x+1

75

ndice

Problemas abiertos

Una vez calculado un modelo de regresin, cabe preguntarse


1

Cmo se emplea un modelo de regresin?

Qu abilidad ofrecen las previsiones de un modelo de


regresin?

ndice

Hiptesis del modelo I

Idea clave
Para poder usar correctamente un modelo de regresin y para
analizar su abilidad es necesario controlar el error.

76

ndice

Hiptesis del modelo II

Recordando que para cada


observacin, (xi , yi )

ei

y
= 0 + 1 x
Y

ei

= yi yi ,

Se tiene que
Cada error, ei , es una
variable aleatoria.

en

b
b

e1

b
b

78

ndice

Hiptesis del modelo III

Al ajustar un modelo de regresin lineal simple, se supondr que se


verican las siguientes hiptesis:
1

Para un valor jo de X , xi , se tiene que yi = 0 + 1 xi + ei


donde 0 y 1 son constantes desconocidas.
Cada error ei N (0, 2 ) .
La hiptesis de normalidad se basa en el teorema central del
lmite.
El hecho de que la varianza sea constante recibe el nombre de
homocedasticidad.

Cualquier par de errores ei y ej son independientes.

79

ndice

Consecuencias de las hiptesis del modelo I

Las hiptesis impuestas al modelo tienen las siguientes


consecuencias:
1

Para cada valor, xi , de X la variable aleatoria (Y |X = xi ) tiene


una distribucin:
(Y |X = xi ) N (0 + 1 xi , 2 )

Las observaciones yi de la variable Y son independientes.

ndice

Consecuencias de las hiptesis del modelo II

y = 0 + 1 x

Grcamente, si las
hiptesis del modelo son
ciertas, cuando X = xi , Y
es una V.A. normal. .

xi

ndice

Consecuencias de las hiptesis del modelo III

y = 0 + 1 x

La esperanza matemtica
de esta distribucin es
0 + 1 xi . .

E(Y |X = xi ) = 0 + 1 xi

xi

ndice

Consecuencias de las hiptesis del modelo IV

y = 0 + 1 x

La desviacin tpica de
esta distribucin coincide
con la del error aleatorio,
. .

xi

ndice

Consecuencias de las hiptesis del modelo V

En general, si el modelo es
correcto,los valores de la
variable Y , cuando
X = xi , se encontrarn en
el intervalo
(0 + 1 xi ) 3, con una
probabilidad 00 997. .

y = 0 + 1 x

b
b
b
b
b
b
b
b
b
b

xi

ndice

Consecuencias de las hiptesis del modelo VI

y = 0 + 1 x

Para dos valores distintos


de X , X = xi y X = xj , las
distribuciones de Y sern:
.

xi

xj

ndice

Consecuencias de las hiptesis del modelo VII

Y los individuos de
Y |X = xi y de Y |X = xi
se situarn,
respectivamente, como
muestra la gura: .

y = 0 + 1 x

Y
b
b
b
b
b

b
b
b
b
b

b
b
b
b
b

b
b
b
b
b

xi

xj

86

ndice

Consecuencias de las hiptesis del modelo


VIII.Resumen

Si las hiptesis del modelo son ciertas:


1

Existe una recta, y = 0 + 1 x que, para cada valor de

X = xi , permite obtener el valor de la esperanza de


(Y |X = xi ):
E (Y |X = xi ) = + xi
La varianza de la distribucin de (Y |X = xi ), que es normal,
no depende de xi y coincide con la varianza del error, .
0

ndice

Estimadores de los parmetros de la recta de


regresin I

Problema
Si existe una recta, y = 0 + 1 x , que pasa por los puntos (xi , x ),
donde x representa la media de la distribucin de Y condicionada
por X = xi , coincide con la recta y = 0 + 1 x calculada por
mnimos cuadrados?
i

ndice

Estimadores de los parmetros de la recta de


regresin II

Discusin del problema


1 Si existe una recta, y = 0 + 1 x , que pasa por los puntos
(xi , x ), donde x representa la media de la distribucin de
condicionada por X = xi , sta debera ser nica.
i

88

La recta y = 0 + 1 x calculada por mnimos cuadrados


depende de la muestra (x1 , y1 ), . . . , (xn , yn )

ndice

Estimadores de los parmetros de la recta de


regresin III

Grcamente se observa
cmo dos muestras
distintas daran lugar a
rectas distintas. .

l
b

b
bl

l
b

89

ndice

Estimadores de los parmetros de la recta de


regresin IV

Conclusin

La recta y = 0 + 1 x es una aproximacin de la recta


y = 0 + 1 x .
Los valores 0 y 1 son estimaciones de 0 y 1 ,
respectivamente.
0 y 1 son estimadores de 0 y 1 .

90

91

ndice

Propiedades de los estimadores de los


parmetros de la recta de regresin I

Recordando que los estimadores de un parmetro siempre son


variables aleatorias, se puede demostrar que:
1

1 N 1 ,

0 N

sx n


.

x
1+
sx
n

0 ,

!
,

donde representa la desviacin tpica del error experimental,


y x y sx son la media y la desviacin tpica de los valores
observados de X , respectivamente.

ndice

Propiedades de los estimadores de los


parmetros de la recta de regresin II

Observaciones
0 como 1 son estimadores centrados de 0 y de 1 ,
1 Tanto
respectivamente.
2

Las desviaciones tpicas de ambos estimadores crecen con el


error experimental, , y disminuyen cuando aumenta la
varianza de los valores observados de X .

La realizacin de un estudio inferencial para 0 y 1 , requiere


el conocimiento de .

ndice

Estimador de la varianza del error


experimental. La varianza residual I

La estimacin por mnimos cuadrados no aporta informacin


sobre la variabilidad del error experimental.
La informacin sobre el error experimental se encuentra en los
valores de ei , con i = 1, . . . , n

93

ndice

Estimador de la varianza del error


experimental. La varianza residual II

Los mtodos de los momentos y de mxima verosimilitud


proponen como estimador de 2 , la varianza de los residuos:

ei
n

P
2

Este estimador de 2 no tiene en cuenta las relaciones de


dependencia entre los residuos:
X

ei

=0 y

ei xi

= 0,

y origina un estimador no centrado de 2 , es decir:

E (
94

) 6= 2 .

95

ndice

Estimador de la varianza del error


experimental. La varianza residual III

Alternativamente, se dene la varianza residual en la forma:


sR =
2

ei

n2

sR2 ser el estimador habitual de 2 .

ndice

Propiedades de la varianza residual

sR2 es un estimador centrado de 2 , esto es:

E (sR ) =
2

Adems,

ei

(n 2)sR2
2n2 .
2

Esta distribucin permite realizar inferencia respecto del valor


de 2 .

96

97

ndice

Clculo de intervalos de confianza para el


coeficiente de regresin,

Como

1 N 1 ,


,

sx n

se deduce que:
1 1
tn2 ,
sR

sx n

por lo que, con el (1 ) 100 % de conanza,



1

sR
1 t/2 ;(n2)

sx n

ndice

Clculo de intervalos de confianza para el


coeficiente de regresin,

II. Ejemplo

Al calcular una recta de regresin que describa la relacin entre el


tamao de un conjunto de siete guisantes con el de sus
descendientes, se obtuvieron los siguientes resultados:
1 = 00 21.

sx

= 20 00002871. Y sR = 00 204324741.

Cul sera un intervalo de conanza al 95 % para 1 ?

98

99

ndice

Clculo de intervalos de confianza para el


coeficiente de regresin,

III. Ejemplo

Como
1 1
tn2 ,
sR

sx n

con el 95 % de probabilidad,
20 57

00 21 1
20 57.
00 204324741

20 000002871 7

ndice

Clculo de intervalos de confianza para el


coeficiente de regresin,

1 .

Ejemplo III

Y operando,
20 57

00 21 1
20 57,
00 03861

de donde se deduce que, con el 95 % de conanza,


1 (00 21 20 57 00 03861, 00 21 + 20 57 00 03861).

Es decir, al 95 %,
1 (00 11076, 00 30923).

ndice

El contraste de regresin I

101

Se denomina contraste de regresin al anlisis de la hiptesis


H0 : 1 = 0, frente a la hiptesis alternativa H1 : 1 6= 0.
La realizacin del contraste se realiza teniendo en cuenta la
distribucin:
1 1
tn2 .
sR

sx n

ndice

El contraste de regresin II

102

Por lo que, si la hiptesis nula, 1 = 0, es cierta, debera ser


1
sR

tn2 ,

sx n
lo que permite discutir el resultado del contraste.
Si
t/2 ;(n2)

1
sR

t/2 ;(n2)

sx n
se aceptar la hiptesis nula, rechazndose en caso contrario.

ndice

El contraste de regresin III. Ejemplo

Al calcular una recta de regresin que describa la relacin entre el


tamao de un conjunto siete de guisantes con el de sus
descendientes, se obtuvieron los siguientes resultados:
1 = 00 21.

sx

= 20 00002871. Y sR = 00 204324741.

Se aceptara, con una conanza del 95 %, la hiptesis de que


1 = 0?

103

ndice

El contraste de regresin IV. Ejemplo

104

Si la hiptesis nula, 1 = 0, es cierta, debera ser


1
sR

tn2 ,

sx n
por lo tanto, con el 95 % de conanza, debera cumplirse que:
20 57

00 21
20 57.
00 204324741

20 00002871
7}
|
{z
50 438

ndice

El contraste de regresin V. Ejemplo

105

Y como
50 438
/ (20 57, 20 57)
se rechaza la hiptesis nula de que 1 = 0, y se acepta que 1 6= 0.
Naturalmente, se podra haber llegado a la misma conclusin
con el anlisis del intervalo de conanza para 1 calculado
anteriormente, que no contiene al 0.

ndice

El contraste de regresin VI. Interpretacin

Observaciones:
La aceptacin del contraste de regresin, 1 = 0, se interpreta
como falta de relacin lineal entre las variables y, por lo
tanto, supone la inutilidad del modelo de regresin.
Si 1 = 0, puede ser debido a que X e Y sean independientes.
Si 1 = 0, puede ser debido, tambin, a que entre X e Y haya
una relacin NO lineal.

106

ndice

El contraste de regresin VII.


Interpretacin. Ejemplo

Los puntos del grco


muestran cmo no existe
relacin de dependencia
entre las variables X e Y . .

b
b

107

ndice

El contraste de regresin VIII.


Interpretacin. Ejemplo

En este caso se aceptara


la hiptesis nula, 1 = 0.
Grcamente, .

b
b

y = 0
b

108

ndice

El contraste de regresin IX. Interpretacin.


Ejemplo

Los puntos del grco


muestran cmo existe una
relacin de dependencia no
lineal entre las variables X
e Y. .

b
b

b
b

b
b

109

ndice

El contraste de regresin X. Interpretacin.


Ejemplo

Esta relacin sera,


posiblemente, descriptible
por un modelo cuadrtico.
Grcamente, .

b
b

b
b

b
b

110

ndice

El contraste de regresin XI. Interpretacin.


Ejemplo

En este caso se aceptara


la hiptesis nula, 1 = 0.
Grcamente, .

b
b

y = 0

b
b

b
b

111

ndice

El contraste de regresin XII. Interpretacin

Observaciones:
El rechazo del contraste de regresin, 1 = 0, supone la
aceptacin de la hiptesis alternativa 1 6= 0, y se interpreta
como sntoma de la existencia de relacin lineal entre las
variables X e Y , resumida por la recta de regresin.
La aceptacin de que 1 6= 0 no garantiza por s sola la
bondad del modelo de regresin.

112

ndice

Diagnosis y validacin del modelo I

Una vez calculado el modelo de regresin siguiendo los pasos


anteriores, antes de emplearlo, es necesario vericar las
hiptesis de linealidad y las de normalidad, homocedasticidad e
independencia de los errores, impuestas anteriormente.
Este proceso se conoce como la validacin o diagnosis del
modelo.
Observacin: Debe tenerse en cuenta que para que un modelo
de regresin pueda utilizarse, es imprescindible que supere el
requisito de su validacin.

113

ndice

Diagnosis y validacin del modelo II

La diagnosis del modelo se realiza a travs de los grcos de


los residuos.
Cada residuo, ei , est denido por la diferencia:

ei

114

= yi yi .

ndice

Diagnosis y validacin del modelo III.


Grficos de residuos

Las hiptesis de linealidad, homocedasticidad e independencia


se contrastan a travs del grco que enfrenta los valores de
los residuos con los previstos para cada valor de xi observado.
La hiptesis de independencia se contrasta tambin a travs
del grco que enfrenta los valores de los residuos con el orden
de la obtencin de datos.

115

ndice

Diagnosis y validacin del modelo IV.


Grficos de residuos

Al representarlos
grcamente, los residuos
deberan formar una nube
de puntos sin estructura, y
con, aproximadamente, la
misma variabilidad por
todas las zonas del grco.
Grcamente, .

ei

3
b

b
b

0
b
b

y
i

116

ndice

Diagnosis y validacin del modelo V. Grficos


de residuos. Ejemplo

ei

Los residuos de la gura


muestran una estructura
que sugiere una relacin no
lineal entre las variables: .

3
b

b
b

b
b

b b b

y
i

117

ndice

Diagnosis y validacin del modelo VI.


Grficos de residuos. Ejemplo

Los residuos de la gura


sugieren la asusencia de
homocedasticidad
(heterocedasticidad). .

ei

b
b

b
b

b
b

b
b
b

y
i

118

ndice

Diagnosis y validacin del modelo VII.


Grficos de residuos. Ejemplo

El grco de la gura
contiene una
representacin temporal de
los residuos.
El eje de abscisas indica el
orden de obtencin de los
datos, y la estructura del
grco sugiere falta de
independencia en los
mismos:

119

ei

3
b

0
b

b
b
b

b
b

ndice

Diagnosis y validacin del modelo VIII.


Grficos de residuos. Ejemplo

La unin de los puntos por


medio de una lnea ayuda
a detectar la falta de
independencia en los
residuos.
Sabra colocar
aproximadamente el
siguiente residuo en el
grco? .

ei

3
b

0
b

b
b
b

b
b

120

ndice

Diagnosis y validacin del modelo IX.


Grficos de residuos. Ejemplo

La representacin de los residuos en papel probabilstico


normal permite contrastar la hiptesis de normalidad. Esta
hiptesis ser aceptada cuando los residuos originen,
aproximadamente, una lnea recta.
Observacin: Esta hiptesis puede, en el caso en el que el
nmero de datos sea grande, contrastarse por medio del test
de la chi cuadrado, aunque los residuos no son independientes,
ya que existen dos relaciones algebraicas que los relacionan,
como se vi anteriormente.

121

ndice

Diagnosis y validacin del modelo X. Grficos


de residuos. Ejemplo

El grco de la gura
representa un conjunto de
residuos sobre papel
probabilstico normal, que
hace razonable la
aceptacin de la hiptesis
de normalidad. .

b b
b

b b
b
b

ei

122

ndice

Transformaciones I

En el caso en el que el anlisis de los residuos no permita


validar el modelo, bien por
Falta de linealidad en la relacin entre las variables X e Y .
Falta de homocedasticidad.
Falta normalidad.

En ocasiones se puede obtener un modelo lineal que s verique las


hiptesis a travs de transformaciones en X , en Y , o en ambas.

123

ndice

Transformaciones II. Algunos Modelos


linealizables

Modelo real (desconocido)

z = xk

= 0 + 1 z

= 0 + 1 ln(x )

z = ln(x )

= 0 + 1 z

y
y

124

Modelo lineal

= 0 + 1 x k

y
y

Transformacin

= 0 e 1 x

= ln(y )

= ln(0 ) + 1 x

= Kx 1

= ln(y )

= 0 + 1 ln x

ndice

Transformaciones III. Interpretacin de los


parmetros de regresin

Observaciones
Cuando se realiza una transformacin, la interpretacin de los
parmetros del modelo estimado se modica.

Pueden encontrarse las interpretaciones de los parmetros del


modelo, cuando se realizan algunas transformaciones de
inters, por ejemplo las logartmicas, en Pea (2002).

125

ndice

Prediccin en regresin simple

126

Una vez calculada la recta de regresin, y validado el modelo, se


puede emplear dicha recta para hacer predicciones.
1

Se puede emplear y(xi ) para predecir el valor de E (Y |X = xi ),


la media de la variable (Y |X = xi ).

Tambin se puede emplear y(xi ) para predecir el valor de un


individuo de la variable (Y |X = xi ).
Obsrvese que los dos valores se estiman por el mismo nmero.

ndice

Prediccin en regresin simple. Precisin de


la estimacin de

E (Y |X = xi )

Se puede demostrar que si X = E (Y |X = xi ),


se cumple que:
i

y(xi ) X
DT (y (xi ))

tn2 ,

lo que permite calcular un intervalo de conanza para X ,


siendo DT (
y (xi )) la desviacin tpica de y(xi )
i

Con el (1 ) 100 % de conanza,

y (xi ) t/2 ;(n2) DT (y (xi )))


X (
i

127

ndice

Prediccin en regresin simple. Precisin de


la estimacin de

E (Y |X = xi )

II

Grcamente: .

y(x
i) + t/2 ;(n2) DT (y(x
i))

b
b

y(x
i)

y(x
i) t/2 ;(n2) DT (y(x
i))

xi

128

ndice

Prediccin en regresin simple. Precisin de


la estimacin de

E (Y |X = xi )

III

Observaciones:
El valor exacto de
DT (y (xi )) puede
consultarse en Pea
(2002).
Se puede comprobar
que DT (
y (xi ))
aumenta cuando (xi )
se aleja de x.

Y
0 +
1 x
y
=
b
b
b
b

b
b

129

ndice

Prediccin en regresin simple. Precisin de


la estimacin de

E (Y |X = xi )

Uniendo los extremos de


todos los intervalos de
conanza de x , para todo
x , se observa cmo la
precisin de la estimacin
disminuye cuando x se
aleja de x, originndose la
hiprbola que se
representa en el grco. .

IV

0 +
1 x
y
=
b
b
b
b

b
b

130

b
b

ndice

Prediccin en regresin simple. Precisin de


la estimacin de una observacin. I

Si se utiliza y(xi ) para


predecir el valor de un
individuo de la poblacin
Y |X = xi , teniendo en
cuenta el intervalo de
conanza para X
calculado anteriormente,
cuya representacin grca
es .

Y
0 +
1 x
y
=
b
b
b

xi

131

ndice

Prediccin en regresin simple. Precisin de


la estimacin de una observacin. II

La distribucin de
(Y |X = xi ), para los
posibles valores extremos
de X , sera,
grcamente: .

0 +
1 x
y
=
b

xi

132

ndice

Prediccin en regresin simple. Precisin de


la estimacin de una observacin. III

Y
0 +
1 x
y
=

O bien: .
b

xi

133

ndice

Prediccin en regresin simple. Precisin de


la estimacin de una observacin. IV

Por lo tanto, cabra


esperar que los individuos
de la variable (Y |X = xi )
se encuentren en el
intervalo: .

xi

134

0 +
1 x
y
=

ndice

Prediccin en regresin simple. Precisin de


la estimacin de una observacin. V

Con el nivel de conanza


deseado, una observacin
de la variable (Y |X = xi )
se encontrara en el
intervalo: .

xi

135

0 +
1 x
y
=

ndice

Prediccin en regresin simple. Precisin de


la estimacin de una observacin. VI

Uniendo los extremos de


los intervalos de conanza
para una observacin de
(Y |X = x ), para todo x ,
se observa cmo la
precisin de la estimacin
disminuye cuando x se
aleja de x, originndose la
hiprbola que se
representa en el grco. .

136

Y
b

0 +
1 x
y
=

xi

ndice

Prediccin en regresin simple. Resumen I

El valor de y(x ) se puede emplear para estimar tanto x , como


una observacin de (Y |X = x ).
La precisin de la estimacin disminuye al aumentar la
distancia de x a x.
La precisin de la estimacin de x es mayor que la de una
observacin de (Y |X = x ).

137

ndice

Prediccin en regresin simple. Resumen II

Grcamente, la hiprbola
interior ofrece intervalos de
conanza para el valor de
x .

Y la exterior para el valor


de un individuo de
(Y |X = x ). .

Y
0 +
1 x
y
=

*
b

b
b

xi

xj

ndice

Prediccin en regresin simple. Observaciones

Es importante no emplear la recta para hacer previsiones fuera


del rango muestral.
Fuera de este rango no hay garanta de que la recta de
regresin describa correctamente la relacin entre las variables.

139

ndice

Prediccin en regresin simple. Observaciones

Puede observarse,
como ejemplo, el
siguiente grco.

La recta de regresin
slo es til en la zona
de linealidad.
Esta zona, en general,
se descubre
experimentalmente.

zona de linealidad

ndice

Los valores atpicos en regresin I.

Un punto atpico, en regresin, es un punto muy separado del


resto.
Un punto atpico es inuyente si modica sustancialmente la
ecuacin de la recta de regresin.
Los puntos atpicos en la variable X , puntos palanca, son los
que poseen mayor potencialidad de inuencia.
Los puntos atpicos en Y pueden no afectar a la pendiente de
la recta.

141

ndice

Los valores atpicos en regresin II. Ejemplo

El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P .

b
b
b
b

b
b

b
b
b

*P

ndice

Los valores atpicos en regresin III. Ejemplo

El punto P es inuyente,
puesto que su inclusin
modica sustancialmente
la recta de regresin. .

b
b
b
b

b
b

b
b
b

*P

ndice

Los valores atpicos en regresin IV. Ejemplo

El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P . .

*P
b
b
b
b

b
b

b
b

ndice

Los valores atpicos en regresin V. Ejemplo

El punto P NO es
inuyente, puesto que su
inclusin NO modica
sustancialmente la recta de
regresin. .

*P
b
b
b
b

b
b

b
b

ndice

Los valores atpicos en regresin VI. Ejemplo

El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P . .

*P

b
b

b
b

ndice

Los valores atpicos en regresin VII. Ejemplo

La inclusin del punto P


no supone variacin
signicativa en la
pendiente de la recta de
regresin estimada. .

*P

b
b

b
b

ndice

Estrategia ante los valores atpicos.

Si en un anlisis se observan valores atpicos, una estrategia


recomendable es la siguiente:
1

Descartar que se trata de un error.

Analizar si el punto es inuyente.

Si el punto es inuyente, calcular las rectas de regresin


incluyndole y excluyndole, eligiendo la que mejor se adapte
al conocimiento del problema y a las observaciones futuras.
Observacin: En caso de duda, se debe utilizar el modelo con
precaucin. No se debe descartar, en ningn caso, recabar ms
informacin.

148

Anda mungkin juga menyukai