Regresion

1
ndice
Regresin lineal simple
Jos Gabriel Palomo Snchez

gabriel.palomo@upm.es
E.U.A.T.
U.P.M.
Julio de 2011
ndice
ndice I
El problema general. Dependencia e independencia de variables

1
2
3
Dependencia determinista
Dependencia estadstica
Modelo para la dependencia estadstica
Los modelos de regresin

Los modelos de regresin. Generalidades
Clculo de un modelo de regresin
Conjetura del modelo
El coeciente de covarianza
El coeciente de correlacin lineal
Estructura de un modelo de regresin simple. Partes
determinista y aleatoria
7 Nomenclatura en un modelo de regresin simple
1
2
3
4
5
6
ndice
ndice II
Clculo de los parmetros del modelo de regresin simple

El criterio de mnimos cuadrados
Clculo de los parmetros del modelo de regresin lineal simple
por mnimos cuadrados
3 Interpretacin de los parmetros de un modelo de regresin
lineal simple
1
2
Inferencia en un modelo de regresin lineal simple

Problemas abiertos
Las hiptesis del modelo
Consecuencias de las hiptesis del modelo
Estimadores de los parmetros de la recta de regresin.
Propiedades
5 Estimador de la varianza del error experimental. La varianza
residual. Propiedades
6 Clculo de intervalos de conanza para el coeciente de
regresin
7 El contraste de regresin
1
2
3
4
ndice
ndice III
Diagnosis y validacin del modelo

1
2
3
Diagnosis y validacin del modelo

Diagnosis y validacin del modelo. Grcos de residuos
Transformaciones
Prediccin en regresin lineal simple

1 Precisin de la estimacin de E (Y |X = x )
i
2
3
Precisin de la estimacin de una observacin

Precisin en regresin. Resumen y observaciones
Los valores atpicos en regresin

Los valores atpicos en regresin. Puntos inuyentes y puntos
palanca
2 Estrategia ante los valores atpicos en regresin
ndice
El problema general. Dependencia e

independencia de variables.
definicin
Dos variables son dependientes cuando el conocimiento del valor de
una de ellas en un individuo aporta informacin sobre el valor de la
otra en ese individuo.
definicin
Cuando dos variables no son dependientes se dice que son
independientes.
ndice
Dependencia determinista I. Ejemplo
Si a un cuerpo de masa m se le aplica una fuerza F, esta

fuerza comunica una aceleracin al cuerpo, cuyo mdulo viene
expresado por la ecuacin:
a=
F
.
m
Esta ecuacin permite calcular con exactitud, el mdulo de la

aceleracin que una fuerza determinada comunicar a un
cuerpo de masa conocida.
ndice
Dependencia determinista II. Ejemplo
El siguiente grco muestra los distintos valores de las

aceleraciones provocadas sobre un cuerpo de masa 10 Kg , por
distintas fuerzas ejercidas sobre l.
F
La ecuacin a = 10
es el modelo que
explica la relacin
de dependencia
entre estas
variables.
ndice
Dependencia determinista III. Ejemplo
El espacio recorrido por un cuerpo en cada libre, en el vaco,

viene dado por la expresin:
1
2
e = gt
donde g representa el valor de la aceleracin de la gravedad, y

t es el valor del tiempo transcurrido.
Despejando:
t=
2e
ndice
Dependencia determinista IV. Ejemplo
El siguiente grco muestra los distintos valores del tiempo

transcurrido hasta que un cuerpo en cada libre alcanza el suelo, en
funcin de la distancia entre ste y el punto en el que inicia la cada.
La ecuacin
q
t = 2ge es el
modelo que explica
la relacin de
dependencia entre
estas variables.
ndice
Dependencia determinista V
Cuando el conocimiento del valor de una variable permite el

clculo exacto de otra, se dice que entre ellas hay una relacin
de dependencia determinista o funcional.
La ecuacin que posibilita este clculo determina el modelo
que explica la relacin entre ambas variables.
10
ndice
Dependencia estadstica I
En ocasiones, cuando dos variables son dependientes, NO se puede

calcular con exactitud el valor de una variable cuando el de la otra
es conocido.
En estos casos se dice que la relacin de dependencia entre las
variables es estadstica o aleatoria.
11
ndice
Dependencia estadstica II. Ejemplo
El siguiente grco representa los dimetros en la base del tronco, y

las alturas, de un conjunto de cerezos.
Qu altura le
corresponde a un
cerezo que tenga un
dimetro en la base
de 14 unidades?
12
ndice
Dependencia estadstica III. Ejemplo
El siguiente grco representa la esperanza de vida en un conjunto

de paises en funcin de su producto interior bruto, (en el grco las
unidades del PIB son miles de millones de dlares).
Qu esperanza de
vida le corresponde
a un pas que tenga
un PIB de 15
unidades?
Y a otro con un
PIB de 5 unidades?
13
ndice
Dependencia estadstica IV
Problema
En los casos de dependencia estadstica no existe un modelo
matemtico (ecuacin) que permita calcular con exactitud el valor
de una variable, cuando la otra es conocida.
Solucin
En ocasiones se puede establecer un modelo que permita calcular,
de manera aproximada, el valor de una variable aleatoria, cuando el
de la otra, tambin aleatoria, es conocida.
14
ndice
Dependencia estadstica V. Ejemplo
La recta del grco permite el clculo aproximado de la altura de

un cerezo, conocido su dimetro en la base.
Su ecuacin es:
y = 610 55 + 10 066x
La altura aproximada de
un cerezo, cuyo dimetro
en la base sea 14, ser:
y = 610 55 + 10 066 14 =
760 47
ndice
Dependencia estadstica VI. Ejemplo
La curva del grco permite el clculo aproximado de la esperanza

de vida de un pas, conocido el nmero de miles de millones de su
PIB.
Su ecuacin es:
y = 20 03 + 70 76 ln(x )
La esperanza de vida
aproximada en un pas de
5000 millones de dlares
de PIB es: y = 20 03 +
70 76 ln(5000) = 680 12
16
17
ndice
Dependencia estadstica VII. Resumen
Cuando dos variables son dependientes, el conocimiento del

valor de una de ellas aporta informacin sobre el valor de la
otra.
En el caso de dependencia funcional, conocido el valor de una

de las variables, la ecuacin del modelo, y = f (x ), permite el
clculo exacto del valor de la otra.
En el caso de dependencia estadstica, el conocimiento del

valor de una variable aleatoria permite, slo, el clculo
aproximado del valor de la otra.
ndice
Los modelos de regresin. Generalidades I
Definicin
Un modelo de regresin es una expresin matemtica que permite
calcular, de forma aproximada, el valor de una variable aleatoria
en un individuo, cuando se conoce el valor de una o varias variables
en ese mismo individuo (regresores), que tambin son aleatorias.
Cuando se contempla nicamente un regresor se trata de un

modelo de regresin simple. En el caso en que se trate ms de un
regresor se tratar de un modelo de regresin mltiple. En este
captulo, solo se tratarn modelos de regresin simple.
18
19
ndice
Los modelos de regresin. Generalidades II
A lo largo de este captulo se tratar de dar respuesta a las

siguientes preguntas:
1
Cundo es til un modelo de regresin?
Cmo se calcula un modelo de regresin?
Cmo se emplea un modelo de regresin?
Qu abilidad ofrece un modelo de regresin?
ndice
Los modelos de regresin. Generalidades III
Principio bsico
Un modelo de regresin es til cuando describe correctamente la
relacin de dependencia entre variables.
21
ndice
Los modelos de regresin. Generalidades IV.

Ejemplo
La recta del siguiente grco describe, de forma aproximada, y

segn la informacin disponible, la relacin entre la altura de los
cerezos y su dimetro en la base.
22
ndice
Los modelos de regresin. Generalidades V.

Ejemplo
La recta del siguiente grco no describe, de forma aproximada, y

segn la informacin disponible, la relacin entre la esperanza de
vida en un pas y su producto interior bruto.
ndice
Clculo de un modelo de regresin
Para el clculo de un modelo de regresin es necesario establecer

una metodologa que tenga en cuenta:
La clase de modelo que explique la relacin de dependencia
entre las variables, (lineal, polinmico, logartmico,...).
La estructura matemtica de dicho modelo.
Un criterio de clculo de los parmetros del modelo.
23
ndice
Conjetura del modelo I
Qu modelo es el adecuado?
La conjetura de la conveniencia de un modelo de regresin, para
explicar la relacin de dependencia entre variables, se realiza, en
primer lugar, a travs del anlisis grco de la informacin
disponible.
24
ndice
Conjetura del modelo II. Ejemplo
Para analizar la relacin de dependencia entre dos variables

aleatorias X e Y se toman datos (pareados), segn la tabla:
X
x
x
1
2
..
.
Y
y
y
1
2
..
.
xn yn
25
ndice
Conjetura del modelo III. Ejemplo
Grcamente,
Qu tipo de modelo
explicara esta relacin de
dependencia entre X e Y ?
Parece razonable, en este
caso, conjeturar una recta
como el modelo adecuado.
ndice
Conjetura del modelo IV. Ejemplo
El siguiente grco resume la informacin de un conjunto de datos,

obtenidos para analizar la relacin de dependencia entre las
variables aleatorias X e Y .
Qu tipo de modelo
explicara esta relacin de
dependencia entre X e Y ?
No parece razonable, en
este caso, conjeturar una
recta como el modelo
adecuado.
ndice
Conjetura del modelo V. El caso lineal
En el caso en que la nube de puntos sugiera una relacin lineal, con

forma de recta, entre las variables, existen dos coecientes que
complementan la informacin grca:
Covarianza.
Coeciente de correlacin lineal.
28
ndice
El coeficiente de covarianza I
El coeciente de covarianza se construye para medir la

intensidad de la dependencia lineal entre dos variables.
Supngase que para medir esta relacin de dependencia se
dispone de una muestra de datos pareados como los expuestos
en la siguiente tabla:
X
x
x
1
2
..
.
Y
y
y
1
2
..
.
xn yn
29
ndice
El coeficiente de covarianza II
definicin
Se dene el coeciente de covarianza entre X e Y como:
P
(xi x)(yi y )
COV (X , Y ) =
Donde x e y representan las medias muestrales de X e Y ,

respectivamente.
30
ndice
Interpretacin de la covarianza I
Para interpretar el
signicado del coeciente
de covarianza, considrese
la representacin grca
de los datos de la tabla. .
b
b
b
b
b
b
b
b
b
b bb
b
b
b
b
b
b
b
b
b
bb
b
b
b
b
b
b
b bb
bb
b
bb
b
b
b
b
b
b
b
b
b
b
b
ndice
Interpretacin de la covarianza II
Considres una traslacin

de los ejes al punto (x , y):
.
b
b
b
b
b
b
b
b
b
b bb
b
b
b
b
b
bb
b
b
bb
b
b
b
b
b
b
b
b
b
b bb
b bbb
b
b
b
b
b
b
b
b
b
b
b
(
x, y)
b
b
ndice
Interpretacin de la covarianza III
Para todo punto del primer

cuadrante, se observa que:
(xi x
) > 0
b
(yi y) > 0
(xi x)(yi y ) > 0
(
x, y)
ndice
Interpretacin de la covarianza IV
Del mismo modo, para los

puntos del segundo
cuadrante:
(xi x
) < 0
(yi y) > 0
(xi x)(yi y ) < 0
(
x, y)
ndice
Interpretacin de la covarianza V
De forma similar, en el
tercer cuadrante:
(xi x)(yi y ) > 0
b
(yi y) < 0
b
(xi x
) < 0
(
x, y)
ndice
Interpretacin de la covarianza VI
Y en el cuarto cuadrante:
(xi x)(yi y ) < 0
b
(yi y) < 0
(
x, y)
b
(xi x
) > 0
ndice
Interpretacin de la covarianza VII
Por lo tanto, en distribuciones de puntos como las de las guras

adjuntas cabe esperar un coeciente de covarianza prximo a cero.
()
b
b
b
b
b
b
37
b
b
bb
(+)
b
b
b bb
b
b
b
b
b
b
(+)
b
bb
b
b
b
b bb
b bbb
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
bb
b
b bb
b
b
b
b
b
b
b
b
b
b
()
ndice
Interpretacin de la covarianza VIII
Sin embargo, en distribuciones de puntos como las de las guras

adjuntas cabe esperar un coeciente de covarianza alto en valor
absoluto.
()
b
b
b
b b
b
b
b
(+)
38
b
b
b
b
b
b
(+)
b
bb
b
b
b
b
()
b
b
b
b
bb
b
b
bb
b
b
b
b
b
b
b
b
b
b
(+)
b
b
b
b
b
()
(+)
b bb
b
b
b
b
()
ndice
Propiedades de la covarianza
La covarianza tiene unidades, las de la variable X multiplicadas

por las de la variable Y .
La covarianza no tiene escala y se puede hacer, en valor
absoluto, arbitrariamente grande o pequea con el mismo
conjunto de datos.
39
ndice
El coeficiente de correlacin lineal
Para corregir los inconvenientes de la covarianza se dene el

coeciente de correlacin, que tambin mide la intensidad de
la dependencia lineal entre dos variables.
Definicin
El coeciente de correlacin entre dos variables es:
=
COV (X , Y )
sX sY
Donde sX y sY representan las desviaciones tpicas de X e Y ,

respectivamente.
ndice
Propiedades del coeficiente de correlacin I
El coeciente de correlacin tiene las siguientes propiedades:

Es un nmero adimensional.
En todo caso:
1 1
41
|| = 1 implica dependencia lineal exacta entre
X e Y.
= 0 implica falta de dependencia lineal entre
X e Y.
ndice
Propiedades del coeficiente de correlacin II
En situaciones como las que muestran los siguinetes grcos, cabe

esperar un coeciente de correlacin prximo a cero.
()
b
b
b
b
b
b
42
b
b
bb
(+)
b
b
b bb
b
b
b
b
b
b
(+)
b
bb
b
b
b
b bb
b bbb
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
b
b
b
()
(+)
b
b
b
b
b
b
b
b
bb
b
b bb
b
b
b
b
b
b
b
b
b
b
()
ndice
Propiedades del coeficiente de correlacin III
Sin embargo, en los casos que resumen los siguientes grcos cabe
esperar un coeciente de correlacin prximo a uno en valor
absoluto.
()
b
b
b
b b
b
b
b
(+)
43
b
b
b
b
b
b
(+)
b
bb
b
b
b
b
()
b
b
b
b
bb
b
b
bb
b
b
b
b
b
b
b
b
b
b
(+)
b
b
b
b
b
()
(+)
b bb
b
b
b
b
()
ndice
Estructura de un modelo de regresin simple.

Partes determinista y aleatoria I
Para analizar la estructura

de un modelo de regresin,
supngase que se ha
ajustado uno de estos
modelos a un conjunto de
datos.
Sin prdida de generalidad,
se supondr que se analiza
el caso de dependencia
entre dos variables, y que
se puede considerar que el
modelo adecuado es una
recta:
44
y
= f (x)
b
b
b
b
b
b
b
=1
ndice

Partes determinista y aleatoria II
Sea (xi , yi ) un punto

correspondiente a un dato
cualquiera del conjunto: .
(xi , yi )
y
= f (x)
b
b
b
b
b
b
b
xi
45
ndice

Partes determinista y aleatoria III
yi se puede descomponer
como se describe en el
grco: .
(xi , yi )
b
b
y
= f (x)
b
b
b
b
xi
46
ndice

Partes determinista y aleatoria IV
La parte inferior,
yi = f (xi ), representa el
valor que el modelo prev
para la variable Y , en un
individuo cuyo valor en X
es xi . .
(xi , yi )
y
= f (x)
b
b
b
b
b
y
i = f (xi )
b
b
xi
47
ndice

Partes determinista y aleatoria V
La parte superior, ei , es la
diferencia entre el valor
observado de Y en el
individuo yi , y el previsto
por el modelo, yi , para ese
individuo. .
(xi , yi )
y
= f (x)
ei
b
b
b
b
b
b
b
xi
48
ndice
Estructura de un modelo de regresin

simple.Partes determinista y aleatoria VI
En consecuencia,
yi
= yi + ei . .
(xi , yi )
y
= f (x)
ei
b
b
b
b
b
y
i = f (xi )
b
b
xi
49
ndice

La parte determinista.
Calculado el modelo, el
valor de yi queda
determinado para cada xi ,
yi
= f (xi )
y
= f (x)
b
b
b
b
b
yi
= f (xi ) es la parte
determinista, o
funcional del modelo.
50
b
b
x1 x2
xi
ndice

La parte aleatoria.
Calculado el modelo, el
valor de ei no queda
determinado por xi
Puede haber dos
observaciones con el
mismo xi y distinto ei
y
= f (x)
b
b
b
b
b
ei
= yi yi es la parte
aleatoria del modelo.

(Error aleatorio.) .
51
ndice

Resumen
En consecuencia, la estructura de un modelo de regresin simple es:
i
|{z}
Valor observado
f (xi )
| {z }
Parte determinista,
De manera resumida:
y=f(x)+E
52
+
y
i
|{z}
Error aleatorio
ndice
Nomenclatura de un modelo de regresin

simple
y = f (x ) + E
y es la variable explicada, dependiente o respuesta.

x es la variable explicativa, el regresor o la variable
independiente.
E representa el error aleatorio. Contiene el efecto sobre y de

todas las variables distintas de x .
53
ndice
Clculo de los parmetros del modelo de R.S.

Mnimos cuadrados I
Supngase que un
conjunto de datos sugiere
que entre dos variables, X
e Y , existe una relacin de
dependencia.
Y
b
Grcamente, .
b
b
ndice

Mnimos cuadrados II
A la vista del grco se

conjetura como un modelo
posible una parbola de la
forma:
y = c (x h)2 + k .
Y
b
y
= f (x)
b
b
b
ndice

Mnimos cuadrados III
Qu valores de k , c y h
se deben tomar?
Distintos valores de los
parmetros modican la
ecuacin del modelo
ajustado. .
b
b
y
= f (x)
b
b
b
b
ndice

Mnimos cuadrados IV
Recurdese que, para

cualquier modelo ajustado,
cada valor observado lleva
asociado su error aleatorio:
ei
= yi yi
Interesara que,
globalmente, el error
cometido por el modelo
fuera mnimo. .
e1
Y
b
y
= f (x)
en
b
e2
b
b
ei
ndice

Mnimos cuadrados V
Cmo se minimiza globalmente el error asociado al modelo?
58
ndice

Mnimos cuadrados VI
Criterio de mnimos cuadrados:

Sea e = (e1 , e2 , . . . , en ) el vector de errores asociado al
modelo.
El mdulo de este vector viene dado por la expresin:
|e | =
2
1
+ e22 + + en2
El criterio de mnimos cuadrados selecciona los valores de los

parmetros del modelo que P
minimizan el mdulo del vector
error, (equivalentemente el (ei2 ).)
59
ndice

Mnimos cuadrados VII. Ejemplo
Se se ajustan dos modelos de regresin a una nube de puntos, y

uno de ellos es el de mnimos cuadrados:
Y
b
b
b
60
ndice

Mnimos cuadrados VIII. Ejemplo
MODELO CUALQUIERA
MODELO DE MNIMOS CUADRADOS

b
e1
Y
b
y
= f (x)
e1
y
= f (x)
en
b
e2
b
b
e2
b
b
ei
b
Necesariamente,
ei
61
en
ei
<
(ei0 )2
62
ndice
Los parmetros del modelo de regresin

lineal por mnimos cuadrados I
El modelo de regresin lineal con una variable independiente tiene

la forma:
y
|
= 0 + 1 x +E
{z
}
Recta
63
ndice

lineal por mnimos cuadrados II
El modelo de regresin lineal simple es el modelo de regresin

ms sencillo.
Se utiliza cuando:
1
La nube de puntos se asemeja a una recta.
El coeciente de correlacin lineal es alto en valor absoluto.
ndice

lineal por mnimos cuadrados III
Supngase que la relacin

entre dos variables sugiere
una alta relacin lineal. .
||
=1
b
b
b
b
b
b
b
64
ndice

lineal por mnimos cuadrados IV
Para ajustar una recta por

mnimos cuadrados hay
que minimizar:
y
= 0 + 1 x
Y
ei
S (
, 1 ) =
n
X
i =1
en
ei
e1
b
b
65
66
ndice

lineal por mnimos cuadrados V
Como S es funcin de 0 y de 1 , para que S sea mnimo:

S
=0
0
S
=0
1
ndice

lineal por mnimos cuadrados VI
Ahora bien, como
ei
se tiene que:
67
= yi yi , con yi = 0 + 1 x ,
i
ei
= yi (0 + 1 x )
i
68
ndice

lineal por mnimos cuadrados VII
De donde:
S
=
0
Pn
S
=
1
Pn
i =1 ei

=
Pn
2
i =1 (yi (0 + 1 xi ))
=0
y
i =1 ei

=
Pn
2
i =1 (yi (0 + 1 xi ))
=0
69
ndice

lineal por mnimos cuadrados VIII
Operando para resolver el sistema anterior se tiene que:

n
X
i =1
n
X
i =1
ei
ei xi
y =
= 0.
= 0, e
+ 1 x
Siendo 0 y 1 las soluciones del sistema.
70
ndice

lineal por mnimos cuadrados IX
Resolviendo el sistema, se tiene que:

1 =
COV (X , Y )
sx
2
Por lo que la ecuacin de la recta de regresin es:

(y y ) =
COV (X , Y )
(x x)
sx
2
ndice
Interpretacin de los parmetros de un

modelo de regresin lineal simple I
En el modelo y = 0 + 1 x que relaciona las variables X e Y :

0 representa el valor medio de la variable Y |X = 0, que en
muchas ocasiones carece de sentido.
1 representa la variacin de la variable Y , cuando X aumenta

o disminuye una unidad.
71
ndice

modelo de regresin lineal simple II
Si y = 0 + 1 x es la recta
de regresin calculada por
mnimos cuadrados,
asociada a una muestra, .
0 +
1 x
y
=
72
ndice

modelo de regresin lineal simple III
0 = y (0). Grcamente,
Y
0 +
1 x
y
=
Obsrvese que 0 no
siempre tiene
signicado fsico.
0
73
ndice

modelo de regresin lineal simple IV
1 representa la variacin
de la variable Y cuando X
aumenta o disminuye una
unidad. En efecto:
y(x ) =
y(x + 1) =
+ 1 x ,
Y
0 +
1 x
y
=
b
+ 1 (x + 1),
De donde,
y(x + 1) y(x ) = .
1
74
x+1
75
ndice
Problemas abiertos
Una vez calculado un modelo de regresin, cabe preguntarse

1
Cmo se emplea un modelo de regresin?
Qu abilidad ofrecen las previsiones de un modelo de

regresin?
ndice
Hiptesis del modelo I
Idea clave
Para poder usar correctamente un modelo de regresin y para
analizar su abilidad es necesario controlar el error.
76
ndice
Hiptesis del modelo II
Recordando que para cada

observacin, (xi , yi )
ei
y
= 0 + 1 x
Y
ei
= yi yi ,
Se tiene que
Cada error, ei , es una
variable aleatoria.
en
b
b
e1
b
b
78
ndice
Hiptesis del modelo III
Al ajustar un modelo de regresin lineal simple, se supondr que se

verican las siguientes hiptesis:
1
Para un valor jo de X , xi , se tiene que yi = 0 + 1 xi + ei

donde 0 y 1 son constantes desconocidas.
Cada error ei N (0, 2 ) .
La hiptesis de normalidad se basa en el teorema central del
lmite.
El hecho de que la varianza sea constante recibe el nombre de
homocedasticidad.
Cualquier par de errores ei y ej son independientes.
79
ndice
Consecuencias de las hiptesis del modelo I
Las hiptesis impuestas al modelo tienen las siguientes

consecuencias:
1
Para cada valor, xi , de X la variable aleatoria (Y |X = xi ) tiene

una distribucin:
(Y |X = xi ) N (0 + 1 xi , 2 )
Las observaciones yi de la variable Y son independientes.
ndice
Consecuencias de las hiptesis del modelo II
y = 0 + 1 x
Grcamente, si las
hiptesis del modelo son
ciertas, cuando X = xi , Y
es una V.A. normal. .
xi
ndice
Consecuencias de las hiptesis del modelo III
y = 0 + 1 x
La esperanza matemtica
de esta distribucin es
0 + 1 xi . .
E(Y |X = xi ) = 0 + 1 xi
xi
ndice
Consecuencias de las hiptesis del modelo IV
y = 0 + 1 x
La desviacin tpica de
esta distribucin coincide
con la del error aleatorio,
. .
xi
ndice
Consecuencias de las hiptesis del modelo V
En general, si el modelo es
correcto,los valores de la
variable Y , cuando
X = xi , se encontrarn en
el intervalo
(0 + 1 xi ) 3, con una
probabilidad 00 997. .
y = 0 + 1 x
b
b
b
b
b
b
b
b
b
b
xi
ndice
Consecuencias de las hiptesis del modelo VI
y = 0 + 1 x
Para dos valores distintos

de X , X = xi y X = xj , las
distribuciones de Y sern:
.
xi
xj
ndice
Consecuencias de las hiptesis del modelo VII
Y los individuos de
Y |X = xi y de Y |X = xi
se situarn,
respectivamente, como
muestra la gura: .
y = 0 + 1 x
Y
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
b
xi
xj
86
ndice
Consecuencias de las hiptesis del modelo

VIII.Resumen
Si las hiptesis del modelo son ciertas:

1
Existe una recta, y = 0 + 1 x que, para cada valor de
X = xi , permite obtener el valor de la esperanza de

(Y |X = xi ):
E (Y |X = xi ) = + xi
La varianza de la distribucin de (Y |X = xi ), que es normal,
no depende de xi y coincide con la varianza del error, .
0
ndice
Estimadores de los parmetros de la recta de

regresin I
Problema
Si existe una recta, y = 0 + 1 x , que pasa por los puntos (xi , x ),
donde x representa la media de la distribucin de Y condicionada
por X = xi , coincide con la recta y = 0 + 1 x calculada por
mnimos cuadrados?
i
ndice

regresin II
Discusin del problema

1 Si existe una recta, y = 0 + 1 x , que pasa por los puntos
(xi , x ), donde x representa la media de la distribucin de
condicionada por X = xi , sta debera ser nica.
i
88
La recta y = 0 + 1 x calculada por mnimos cuadrados

depende de la muestra (x1 , y1 ), . . . , (xn , yn )
ndice

regresin III
Grcamente se observa
cmo dos muestras
distintas daran lugar a
rectas distintas. .
l
b
b
bl
l
b
89
ndice

regresin IV
Conclusin
La recta y = 0 + 1 x es una aproximacin de la recta

y = 0 + 1 x .
Los valores 0 y 1 son estimaciones de 0 y 1 ,
respectivamente.
0 y 1 son estimadores de 0 y 1 .
90
91
ndice
Propiedades de los estimadores de los

parmetros de la recta de regresin I
Recordando que los estimadores de un parmetro siempre son

variables aleatorias, se puede demostrar que:
1
1 N 1 ,
0 N
sx n

.
x
1+
sx
n
0 ,
!
,
donde representa la desviacin tpica del error experimental,

y x y sx son la media y la desviacin tpica de los valores
observados de X , respectivamente.
ndice
Propiedades de los estimadores de los

parmetros de la recta de regresin II
Observaciones
0 como 1 son estimadores centrados de 0 y de 1 ,
1 Tanto
respectivamente.
2
Las desviaciones tpicas de ambos estimadores crecen con el

error experimental, , y disminuyen cuando aumenta la
varianza de los valores observados de X .
La realizacin de un estudio inferencial para 0 y 1 , requiere

el conocimiento de .
ndice
Estimador de la varianza del error

experimental. La varianza residual I
La estimacin por mnimos cuadrados no aporta informacin

sobre la variabilidad del error experimental.
La informacin sobre el error experimental se encuentra en los
valores de ei , con i = 1, . . . , n
93
ndice

experimental. La varianza residual II
Los mtodos de los momentos y de mxima verosimilitud

proponen como estimador de 2 , la varianza de los residuos:
ei
n
P
2
Este estimador de 2 no tiene en cuenta las relaciones de

dependencia entre los residuos:
X
ei
=0 y
ei xi
= 0,
y origina un estimador no centrado de 2 , es decir:
E (
94
) 6= 2 .
95
ndice

experimental. La varianza residual III
Alternativamente, se dene la varianza residual en la forma:

sR =
2
ei
n2
sR2 ser el estimador habitual de 2 .
ndice
Propiedades de la varianza residual
sR2 es un estimador centrado de 2 , esto es:
E (sR ) =
2
Adems,
ei
(n 2)sR2
2n2 .
2
Esta distribucin permite realizar inferencia respecto del valor

de 2 .
96
97
ndice
Clculo de intervalos de confianza para el

coeficiente de regresin,
Como
1 N 1 ,

,
sx n
se deduce que:
1 1
tn2 ,
sR
sx n
por lo que, con el (1 ) 100 % de conanza,

1
sR
1 t/2 ;(n2)
sx n
ndice

II. Ejemplo
Al calcular una recta de regresin que describa la relacin entre el

tamao de un conjunto de siete guisantes con el de sus
descendientes, se obtuvieron los siguientes resultados:
1 = 00 21.
sx
= 20 00002871. Y sR = 00 204324741.
Cul sera un intervalo de conanza al 95 % para 1 ?
98
99
ndice

III. Ejemplo
Como
1 1
tn2 ,
sR
sx n
con el 95 % de probabilidad,
20 57
00 21 1
20 57.
00 204324741
20 000002871 7
ndice

1 .
Ejemplo III
Y operando,
20 57
00 21 1
20 57,
00 03861
de donde se deduce que, con el 95 % de conanza,

1 (00 21 20 57 00 03861, 00 21 + 20 57 00 03861).
Es decir, al 95 %,
1 (00 11076, 00 30923).
ndice
El contraste de regresin I
101
Se denomina contraste de regresin al anlisis de la hiptesis

H0 : 1 = 0, frente a la hiptesis alternativa H1 : 1 6= 0.
La realizacin del contraste se realiza teniendo en cuenta la
distribucin:
1 1
tn2 .
sR
sx n
ndice
El contraste de regresin II
102
Por lo que, si la hiptesis nula, 1 = 0, es cierta, debera ser

1
sR
tn2 ,
sx n
lo que permite discutir el resultado del contraste.
Si
t/2 ;(n2)
1
sR
t/2 ;(n2)
sx n
se aceptar la hiptesis nula, rechazndose en caso contrario.
ndice
El contraste de regresin III. Ejemplo
Al calcular una recta de regresin que describa la relacin entre el

tamao de un conjunto siete de guisantes con el de sus
descendientes, se obtuvieron los siguientes resultados:
1 = 00 21.
sx
= 20 00002871. Y sR = 00 204324741.
Se aceptara, con una conanza del 95 %, la hiptesis de que

1 = 0?
103
ndice
El contraste de regresin IV. Ejemplo
104
Si la hiptesis nula, 1 = 0, es cierta, debera ser

1
sR
tn2 ,
sx n
por lo tanto, con el 95 % de conanza, debera cumplirse que:
20 57
00 21
20 57.
00 204324741
20 00002871
7}
|
{z
50 438
ndice
El contraste de regresin V. Ejemplo
105
Y como
50 438
/ (20 57, 20 57)
se rechaza la hiptesis nula de que 1 = 0, y se acepta que 1 6= 0.
Naturalmente, se podra haber llegado a la misma conclusin
con el anlisis del intervalo de conanza para 1 calculado
anteriormente, que no contiene al 0.
ndice
El contraste de regresin VI. Interpretacin
Observaciones:
La aceptacin del contraste de regresin, 1 = 0, se interpreta
como falta de relacin lineal entre las variables y, por lo
tanto, supone la inutilidad del modelo de regresin.
Si 1 = 0, puede ser debido a que X e Y sean independientes.
Si 1 = 0, puede ser debido, tambin, a que entre X e Y haya
una relacin NO lineal.
106
ndice
El contraste de regresin VII.

Interpretacin. Ejemplo
Los puntos del grco

muestran cmo no existe
relacin de dependencia
entre las variables X e Y . .
b
b
107
ndice
El contraste de regresin VIII.

Interpretacin. Ejemplo
En este caso se aceptara

la hiptesis nula, 1 = 0.
Grcamente, .
b
b
y = 0
b
108
ndice
El contraste de regresin IX. Interpretacin.

Ejemplo
Los puntos del grco

muestran cmo existe una
relacin de dependencia no
lineal entre las variables X
e Y. .
b
b
b
b
b
b
109
ndice
El contraste de regresin X. Interpretacin.

Ejemplo
Esta relacin sera,

posiblemente, descriptible
por un modelo cuadrtico.
Grcamente, .
b
b
b
b
b
b
110
ndice
El contraste de regresin XI. Interpretacin.

Ejemplo
En este caso se aceptara

la hiptesis nula, 1 = 0.
Grcamente, .
b
b
y = 0
b
b
b
b
111
ndice
El contraste de regresin XII. Interpretacin
Observaciones:
El rechazo del contraste de regresin, 1 = 0, supone la
aceptacin de la hiptesis alternativa 1 6= 0, y se interpreta
como sntoma de la existencia de relacin lineal entre las
variables X e Y , resumida por la recta de regresin.
La aceptacin de que 1 6= 0 no garantiza por s sola la
bondad del modelo de regresin.
112
ndice
Diagnosis y validacin del modelo I
Una vez calculado el modelo de regresin siguiendo los pasos

anteriores, antes de emplearlo, es necesario vericar las
hiptesis de linealidad y las de normalidad, homocedasticidad e
independencia de los errores, impuestas anteriormente.
Este proceso se conoce como la validacin o diagnosis del
modelo.
Observacin: Debe tenerse en cuenta que para que un modelo
de regresin pueda utilizarse, es imprescindible que supere el
requisito de su validacin.
113
ndice
Diagnosis y validacin del modelo II
La diagnosis del modelo se realiza a travs de los grcos de

los residuos.
Cada residuo, ei , est denido por la diferencia:
ei
114
= yi yi .
ndice
Diagnosis y validacin del modelo III.

Grficos de residuos
Las hiptesis de linealidad, homocedasticidad e independencia

se contrastan a travs del grco que enfrenta los valores de
los residuos con los previstos para cada valor de xi observado.
La hiptesis de independencia se contrasta tambin a travs
del grco que enfrenta los valores de los residuos con el orden
de la obtencin de datos.
115
ndice
Diagnosis y validacin del modelo IV.

Grficos de residuos
Al representarlos
grcamente, los residuos
deberan formar una nube
de puntos sin estructura, y
con, aproximadamente, la
misma variabilidad por
todas las zonas del grco.
Grcamente, .
ei
3
b
b
b
0
b
b
y
i
116
ndice
Diagnosis y validacin del modelo V. Grficos

de residuos. Ejemplo
ei
Los residuos de la gura

muestran una estructura
que sugiere una relacin no
lineal entre las variables: .
3
b
b
b
b
b
b b b
y
i
117
ndice
Diagnosis y validacin del modelo VI.

Grficos de residuos. Ejemplo
Los residuos de la gura

sugieren la asusencia de
homocedasticidad
(heterocedasticidad). .
ei
b
b
b
b
b
b
b
b
b
y
i
118
ndice
Diagnosis y validacin del modelo VII.

El grco de la gura
contiene una
representacin temporal de
los residuos.
El eje de abscisas indica el
orden de obtencin de los
datos, y la estructura del
grco sugiere falta de
independencia en los
mismos:
119
ei
3
b
0
b
b
b
b
b
b
ndice
Diagnosis y validacin del modelo VIII.

La unin de los puntos por

medio de una lnea ayuda
a detectar la falta de
independencia en los
residuos.
Sabra colocar
aproximadamente el
siguiente residuo en el
grco? .
ei
3
b
0
b
b
b
b
b
b
120
ndice
Diagnosis y validacin del modelo IX.

La representacin de los residuos en papel probabilstico

normal permite contrastar la hiptesis de normalidad. Esta
hiptesis ser aceptada cuando los residuos originen,
aproximadamente, una lnea recta.
Observacin: Esta hiptesis puede, en el caso en el que el
nmero de datos sea grande, contrastarse por medio del test
de la chi cuadrado, aunque los residuos no son independientes,
ya que existen dos relaciones algebraicas que los relacionan,
como se vi anteriormente.
121
ndice
Diagnosis y validacin del modelo X. Grficos

de residuos. Ejemplo
El grco de la gura
representa un conjunto de
residuos sobre papel
probabilstico normal, que
hace razonable la
aceptacin de la hiptesis
de normalidad. .
b b
b
b b
b
b
ei
122
ndice
Transformaciones I
En el caso en el que el anlisis de los residuos no permita

validar el modelo, bien por
Falta de linealidad en la relacin entre las variables X e Y .
Falta de homocedasticidad.
Falta normalidad.
En ocasiones se puede obtener un modelo lineal que s verique las

hiptesis a travs de transformaciones en X , en Y , o en ambas.
123
ndice
Transformaciones II. Algunos Modelos

linealizables
Modelo real (desconocido)
z = xk
= 0 + 1 z
= 0 + 1 ln(x )
z = ln(x )
= 0 + 1 z
y
y
124
Modelo lineal
= 0 + 1 x k
y
y
Transformacin
= 0 e 1 x
= ln(y )
= ln(0 ) + 1 x
= Kx 1
= ln(y )
= 0 + 1 ln x
ndice
Transformaciones III. Interpretacin de los

parmetros de regresin
Observaciones
Cuando se realiza una transformacin, la interpretacin de los
parmetros del modelo estimado se modica.
Pueden encontrarse las interpretaciones de los parmetros del

modelo, cuando se realizan algunas transformaciones de
inters, por ejemplo las logartmicas, en Pea (2002).
125
ndice
Prediccin en regresin simple
126
Una vez calculada la recta de regresin, y validado el modelo, se

puede emplear dicha recta para hacer predicciones.
1
Se puede emplear y(xi ) para predecir el valor de E (Y |X = xi ),

la media de la variable (Y |X = xi ).
Tambin se puede emplear y(xi ) para predecir el valor de un

individuo de la variable (Y |X = xi ).
Obsrvese que los dos valores se estiman por el mismo nmero.
ndice
Prediccin en regresin simple. Precisin de

la estimacin de
E (Y |X = xi )
Se puede demostrar que si X = E (Y |X = xi ),

se cumple que:
i
y(xi ) X
DT (y (xi ))
tn2 ,
lo que permite calcular un intervalo de conanza para X ,

siendo DT (
y (xi )) la desviacin tpica de y(xi )
i
Con el (1 ) 100 % de conanza,
y (xi ) t/2 ;(n2) DT (y (xi )))

X (
i
127
ndice

la estimacin de
E (Y |X = xi )
II
Grcamente: .
y(x
i) + t/2 ;(n2) DT (y(x
i))
b
b
y(x
i)
y(x
i) t/2 ;(n2) DT (y(x
i))
xi
128
ndice

la estimacin de
E (Y |X = xi )
III
Observaciones:
El valor exacto de
DT (y (xi )) puede
consultarse en Pea
(2002).
Se puede comprobar
que DT (
y (xi ))
aumenta cuando (xi )
se aleja de x.
Y
0 +
1 x
y
=
b
b
b
b
b
b
129
ndice

la estimacin de
E (Y |X = xi )
Uniendo los extremos de

todos los intervalos de
conanza de x , para todo
x , se observa cmo la
precisin de la estimacin
disminuye cuando x se
aleja de x, originndose la
hiprbola que se
representa en el grco. .
IV
0 +
1 x
y
=
b
b
b
b
b
b
130
b
b
ndice

la estimacin de una observacin. I
Si se utiliza y(xi ) para

predecir el valor de un
individuo de la poblacin
Y |X = xi , teniendo en
cuenta el intervalo de
conanza para X
calculado anteriormente,
cuya representacin grca
es .
Y
0 +
1 x
y
=
b
b
b
xi
131
ndice

la estimacin de una observacin. II
La distribucin de
(Y |X = xi ), para los
posibles valores extremos
de X , sera,
grcamente: .
0 +
1 x
y
=
b
xi
132
ndice

la estimacin de una observacin. III
Y
0 +
1 x
y
=
O bien: .
b
xi
133
ndice

la estimacin de una observacin. IV
Por lo tanto, cabra

esperar que los individuos
de la variable (Y |X = xi )
se encuentren en el
intervalo: .
xi
134
0 +
1 x
y
=
ndice

la estimacin de una observacin. V
Con el nivel de conanza

deseado, una observacin
de la variable (Y |X = xi )
se encontrara en el
intervalo: .
xi
135
0 +
1 x
y
=
ndice

la estimacin de una observacin. VI
Uniendo los extremos de

los intervalos de conanza
para una observacin de
(Y |X = x ), para todo x ,
se observa cmo la
precisin de la estimacin
disminuye cuando x se
aleja de x, originndose la
hiprbola que se
representa en el grco. .
136
Y
b
0 +
1 x
y
=
xi
ndice
Prediccin en regresin simple. Resumen I
El valor de y(x ) se puede emplear para estimar tanto x , como

una observacin de (Y |X = x ).
La precisin de la estimacin disminuye al aumentar la
distancia de x a x.
La precisin de la estimacin de x es mayor que la de una
observacin de (Y |X = x ).
137
ndice
Prediccin en regresin simple. Resumen II
Grcamente, la hiprbola
interior ofrece intervalos de
conanza para el valor de
x .
Y la exterior para el valor

de un individuo de
(Y |X = x ). .
Y
0 +
1 x
y
=
*
b
b
b
xi
xj
ndice
Prediccin en regresin simple. Observaciones
Es importante no emplear la recta para hacer previsiones fuera

del rango muestral.
Fuera de este rango no hay garanta de que la recta de
regresin describa correctamente la relacin entre las variables.
139
ndice
Prediccin en regresin simple. Observaciones
Puede observarse,
como ejemplo, el
siguiente grco.
La recta de regresin
slo es til en la zona
de linealidad.
Esta zona, en general,
se descubre
experimentalmente.
zona de linealidad
ndice
Los valores atpicos en regresin I.
Un punto atpico, en regresin, es un punto muy separado del

resto.
Un punto atpico es inuyente si modica sustancialmente la
ecuacin de la recta de regresin.
Los puntos atpicos en la variable X , puntos palanca, son los
que poseen mayor potencialidad de inuencia.
Los puntos atpicos en Y pueden no afectar a la pendiente de
la recta.
141
ndice
Los valores atpicos en regresin II. Ejemplo
El grco de la gura
representa la recta de
regresin calculada sin
considerar el punto P .
b
b
b
b
b
b
b
b
b
*P
ndice
Los valores atpicos en regresin III. Ejemplo
El punto P es inuyente,
puesto que su inclusin
modica sustancialmente
la recta de regresin. .
b
b
b
b
b
b
b
b
b
*P
ndice
Los valores atpicos en regresin IV. Ejemplo
El grco de la gura
considerar el punto P . .
*P
b
b
b
b
b
b
b
b
ndice
Los valores atpicos en regresin V. Ejemplo
El punto P NO es
inuyente, puesto que su
inclusin NO modica
sustancialmente la recta de
regresin. .
*P
b
b
b
b
b
b
b
b
ndice
Los valores atpicos en regresin VI. Ejemplo
El grco de la gura
considerar el punto P . .
*P
b
b
b
b
ndice
Los valores atpicos en regresin VII. Ejemplo
La inclusin del punto P

no supone variacin
signicativa en la
pendiente de la recta de
regresin estimada. .
*P
b
b
b
b
ndice
Estrategia ante los valores atpicos.
Si en un anlisis se observan valores atpicos, una estrategia

recomendable es la siguiente:
1
Descartar que se trata de un error.
Analizar si el punto es inuyente.
Si el punto es inuyente, calcular las rectas de regresin

incluyndole y excluyndole, eligiendo la que mejor se adapte
al conocimiento del problema y a las observaciones futuras.
Observacin: En caso de duda, se debe utilizar el modelo con
precaucin. No se debe descartar, en ningn caso, recabar ms
informacin.
148

Regresion

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Regresion

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Regresin lineal simple

Jos Gabriel Palomo Snchez

El problema general. Dependencia e independencia de variables

Los modelos de regresin

Clculo de los parmetros del modelo de regresin simple

Inferencia en un modelo de regresin lineal simple

Diagnosis y validacin del modelo

Diagnosis y validacin del modelo

Prediccin en regresin lineal simple

Precisin de la estimacin de una observacin

Los valores atpicos en regresin

El problema general. Dependencia e

Dependencia determinista I. Ejemplo

Si a un cuerpo de masa m se le aplica una fuerza F, esta

Esta ecuacin permite calcular con exactitud, el mdulo de la

Dependencia determinista II. Ejemplo

El siguiente grco muestra los distintos valores de las

Dependencia determinista III. Ejemplo

El espacio recorrido por un cuerpo en cada libre, en el vaco,

donde g representa el valor de la aceleracin de la gravedad, y

Dependencia determinista IV. Ejemplo

El siguiente grco muestra los distintos valores del tiempo

Cuando el conocimiento del valor de una variable permite el

En ocasiones, cuando dos variables son dependientes, NO se puede

Dependencia estadstica II. Ejemplo

El siguiente grco representa los dimetros en la base del tronco, y

Dependencia estadstica III. Ejemplo

El siguiente grco representa la esperanza de vida en un conjunto

Dependencia estadstica V. Ejemplo

La recta del grco permite el clculo aproximado de la altura de

Dependencia estadstica VI. Ejemplo

La curva del grco permite el clculo aproximado de la esperanza

Dependencia estadstica VII. Resumen

Cuando dos variables son dependientes, el conocimiento del

En el caso de dependencia funcional, conocido el valor de una

En el caso de dependencia estadstica, el conocimiento del

Los modelos de regresin. Generalidades I

Cuando se contempla nicamente un regresor se trata de un

Los modelos de regresin. Generalidades II

A lo largo de este captulo se tratar de dar respuesta a las

Cundo es til un modelo de regresin?

Cmo se calcula un modelo de regresin?

Cmo se emplea un modelo de regresin?

Qu abilidad ofrece un modelo de regresin?

Los modelos de regresin. Generalidades III

Los modelos de regresin. Generalidades IV.

La recta del siguiente grco describe, de forma aproximada, y

Los modelos de regresin. Generalidades V.

La recta del siguiente grco no describe, de forma aproximada, y

Clculo de un modelo de regresin

Para el clculo de un modelo de regresin es necesario establecer

Conjetura del modelo I

Conjetura del modelo II. Ejemplo

Para analizar la relacin de dependencia entre dos variables

Conjetura del modelo III. Ejemplo

Conjetura del modelo IV. Ejemplo

El siguiente grco resume la informacin de un conjunto de datos,

Conjetura del modelo V. El caso lineal

En el caso en que la nube de puntos sugiera una relacin lineal, con

El coeciente de covarianza se construye para medir la

Donde x e y representan las medias muestrales de X e Y ,

Considres una traslacin

Interpretacin de la covarianza III

El siguiente grco muestra los distintos valores de las

El siguiente grco muestra los distintos valores del tiempo

El siguiente grco representa los dimetros en la base del tronco, y

El siguiente grco representa la esperanza de vida en un conjunto

La recta del grco permite el clculo aproximado de la altura de

La curva del grco permite el clculo aproximado de la esperanza

Qu abilidad ofrece un modelo de regresin?

La recta del siguiente grco describe, de forma aproximada, y

La recta del siguiente grco no describe, de forma aproximada, y

El siguiente grco resume la informacin de un conjunto de datos,

El coeciente de covarianza se construye para medir la

Por lo tanto, en distribuciones de puntos como las de las guras

Sin embargo, en distribuciones de puntos como las de las guras

Para corregir los inconvenientes de la covarianza se dene el

El coeciente de correlacin tiene las siguientes propiedades:

En situaciones como las que muestran los siguinetes grcos, cabe

A la vista del grco se

El coeciente de correlacin lineal es alto en valor absoluto.