Anda di halaman 1dari 64

1

REGRESIN LINEAL SIMPLE


2
Regresin: conjunto de tcnicas que son usadas para
establecer una relacin entre una variable cuantitativa
llamada variable dependiente y una o ms variables
independientes, llamadas predictoras. Estas tambin
deberan ser cuantitativas, sin embargo algunas de
ellas podran ser cualitativas.
Modelo de regresin. Ecuacin que representa la
relacin entre las variables. Para estimar la ecuacin del
modelo se debe tener una muestra de entrenamiento.
3
Usos del modelo de regresin
a) Prediccin
b) Descripcin
c) Control
d) Seleccin de variables
4
El modelo de Regresin Lineal simple
Considerando la muestra (x
i
, y
i
) parai=1,n
Suposiciones del modelo:
La variable X es no aleatoria.
Los errores
i
son variables aleatorias con media 0 y varianza
constante
2
.
Los errores
i
y
j
(ij=1,n) son independientes entre si.
+ + = X Y
i i i
e X Y + + =
5
Razones para la existencia de
Imprecisin de la teora
Datos no disponibles
Variables deficientes proxy
Principio de Parsimonia
Omisin de variables relevantes
Mala especificacin de la forma funcional
6
VARIABLES
VARIABLE
DEPENDIENTE
V. EXPLICADA
V. RESPUESTA
V. PREDICHA
V. REGRESADA
VARIABLE
INDEPENDIENTE
V. EXPLICATIVA
V. CONTROL
V. PREDICTORA
V. REGRESOR
Notacin alternativa:
Y
i
=
0
+
1
X
i
+
i
(Y es funcin lineal de X)
7
{

x
E(y|x)
E(y|x)
X
E(y|x)=+x
=
E(y|x)
x
Constante
Parmetro de
intercepcin
Es la pendiente
Parmetro de pendiente
: expresa la magnitud
del cambio de y por
cada unidad de x
8
Supuestos del Modelo de RLS
1. Modelo de regresin lineal:
(Lineal en los parmetros) y =
0
+
1
x + u
2. Muestreo aleatorio: {(y
i
, x
i
); i=1, , n} muestra aleatoria del
modelo poblacional
3. Media condicional de es cero,
E(
i
| x
j
) = E(
i
) = 0
4. Variacin muestral en la variable independiente
5. Homocedasticidad o igual varianza de
i
,
var(
i
|x
j
) =
2
6. No autocorrelacin de :
cov(i, j) = 0, para todo i j
9
.
.
x
i x
1
=80 x
2
=100
y
i
f(y
i
)
Las varianzasde y
i
en dos nivelesdistintosde
rentafamiliar, x
i
, son idnticas.
g
a
s
t
o
Caso Homocedstico
renta
10
.
x
t
x
1
x
2
y
i
f(y
i
)
La varianzade y
i
aumentacon la rentade la
familia x
i
.
g
a
s
t
o
Caso Heterocedstico
x
3
.
.
renta
11
Estimacin de la lnea de regresin usando
Mnimos Cuadrados
Se debe Minimizar
( ) , Q

=
n
i
i
1
2

=
=

n
i
i i
x y
1
2
) (
Derivando se obtiene las ecuaciones normales, con
solucin:


= =
= = =

=
n
i
n
i
i i
n
i
i
n
i
i
n
i
i i
x x n
y x y x n
1
2
1
2
1 1 1
) (

x y

=
xx
xy
S
S
=

equivalentemente
=

=
=
n
i
i
x x Sxx
1
2
) ( Donde:
12
.
.
.
.
y
4
y
1
y
2
y
3
x
1
x
2
x
3
x
4
}
}
{
{
e
1
e
2
e
3
e
4
y = b
0
+ b
1
x
x
y
E(y) = + x
(RRM)
(RRP)
13
Interpretacin de los coeficientes de regresin
estimados
La pendiente indica el cambio promedio en la variable de
respuesta cuando la variable predictoraaumenta en una unidad
adicional.

El intercepto indica el valor promedio de la variable de


respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretacin prctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
)

)
14
Ejemplo de estudio de la altura en grupos familiares de Pearson
Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)
Si el padre mide 200cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.
Si el padre mide 120cm cunto mide el hijo?
Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.
Es decir, nos interesaremos por modelos de regresin lineal simple.
15
Propiedades de los estimadores mnimos cuadrticos
de regresin
a) esun estimador insegadode . Es decir, E( )=
b) esun estimador insegadode . Es decir, E( )=
c) La varianzade es y la de es
Nota: la covarianza:

)

)

)
Sxx
2


)
)
1
(
2
2
Sxx
x
n
+
16
Propiedades de los residuales
Los residuales son las desviaciones de los valores
observados de la variables de respuesta con respecto
a la lnea de regresin.
a) La suma de los residuales es 0. Es decir,
b)
c)
0
1
=

=
n
i
i
e
0
1
=

=
n
i
i i
x e
0
1
=

=
n
i
i i
y e
)
17
Estimacin de la varianza del error
Un estimador insesgado de es:
2

2 2
) (
1
2
1
2
2

=

= =
n
e
n
y y
s
n
i
i
n
i
i i
)
2
s
es tambienllamado el cuadrado medio del error
(MSE)
18
Descomposicin de la suma de cuadrados total
) ( ) ( ) ( y y y y y y
i i i i
+ =
) )
La desviacion de un valor observado con respecto a
la media se puede escribir como:
=

=
n
i
i
y y
1
2
) (

=

n
i
i i
y y
1
2
) (
)

=

n
i
i
y y
1
2
) (
)
+
SST = SSE + SSR

=
=
n
i
i
x x SSR
1
2 2
) (

Se puede deducir que


19
El Coeficiente de Determinacin
Es una medida de la bondad de ajuste del modelo
Un modelo de regresin con mayor o igual a 75% se puede
considerar bastante optimista.
Nota: El valor de es afectado por la presencia de valores
anormales.
SST
SSR
R =
2
2
R
2
R
20
Distribucin de los estimadores mnimos
cuadrticos
Para efecto de hacer inferencia en regresin, se requiere asumir
que los errors , se distribuyen en forma normal e
independientemente con media 0 y varianza constante . En
consecuencia, tambin las s se distribuyen normalmente con
media y varianza .
Se puede establecer que:
i
e
2

'
i
y
i
x +
2

) , ( ~

2
xx
S
N


) )
1
( , ( ~

2
2

xx
S
x
n
N +
21
Las sumas de cuadrados son formas cuadrticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
i) (Chi-Cuadradono central con n-1 g.l)
ii) Equivalentemente
iii) (Chi-Cuadradono central con 1 g.l)
Podemos mostrar que:
2
) 1 (
2
' ~
n
SST

2
) 2 (
2
~
n
SSE

2
) 2 (
2
2
~
) 2 (

n
s n

2
) 1 (
2
' ~

SSR
xx xx
S S E SSR E
2 2 2
)

( ) ( + = =
22
Inferencia en Regresion Lineal Simple
Pruebas de hiptesis e intervalos de confianza acerca de los
coeficientes de regresin del modelo de regresin
poblacional.
Intervalos de confianza para un valor predicho y para el valor
medio de la variable de respuesta
23
Inferencia acerca de la pendiente y el
intercepto usando la prueba t.
La pendiente de regresin se distribuye como una normal con
media y varianza
Un intervalo de confianza del 100(1-)% para la pendiente
poblacional es de la forma:
El nivel de significacin , vara entre 0 y 1.
) , (
) 2 / , 2 ( ) 2 / , 2 (
Sxx
s
t
Sxx
s
t
n n


+
) )
Sxx
2

24
Intervalo de confianza para el intercepto
Un intervalo de confianza del 100(1-)% para el intercepto de
la lineade regresin poblacional es de la forma:
)
1
,
1
(
2
) 2 / , 2 (
2
) 2 / , 2 (
Sxx
x
n
s t
Sxx
x
n
s t
n n
+ + +


) )
25
Tres Posibles Poblaciones

1 1
< 0 < 0 = 0 = 0 > 0 > 0
A A B B C C
X X X X X X
Y Y Y Y Y Y
26
Pruebas de hiptesis para la pendiente
(asumiendo que su valor es * )
Caso I Caso II Caso III
Ho: =* Ho: =* Ho: =*
Ha: <* Ha: * Ha: >*
Prueba Estadstica
Regla de Decisin
Rechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2)
*Un P-value cercanoa cero, sugirirarechazar la hiptesisnula.
) 2 (
~
*

=
n
t
Sxx
s
t

)
27
Pruebas de hiptesis para el intercepto
(asumiendo que su valor es * )
Caso I Caso II Caso III
Ho: =* Ho: =* Ho: =*
Ha: < * Ha: * Ha: > *
Prueba Estadstica
Regla de Decisin
Rechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t(,n-2) si |tcal |>t(/2,n-2) si tcal>t(,n-2)
*Un P-value cercanoa cero, sugirirarechazar la hiptesisnula.
) 2 (
2
2
~
)
1
(
*

=
n
xx
t
S
x
n
t


28
El anlisis de varianza para regresin lineal
simple
El anlisis de varianza para regresin consiste en descomponer
la variacin total de la variable de respuesta en varias partes
llamadas fuentes de variacin.
La divisin de la suma de cuadrados por sus grados de libertad
es llamada cuadrado medio.
As se tienen tres cuadrados medios.
Cuadrado Medio de Regresin=MSR=SSR/1
Cuadrado Medio del Error= MSE=SSE/(n-2)
Cuadrado Medio del Total=MST=SST/(n-1)
29
Tabla de Anlisis de Varianza
________________________________________________________________
Fuente de Variacin g.l. Sumas de Cuadrados Cuadrados Medios F
________________________________________________________________
Debidoa
la Regresion 1 SSR MSR=SSR/1
Error n-2 SSE MSE=SSE/(n-2)
________________________________________________________________
Total n-1 SST
________________________________________________________________
Se rechazara la hiptesis nula Ho:=0 si el P-value de la
pruebade F esmenor de . En estecaso, X se relacionade manera
importantecon Y
MSE
MSR
30
Estimacin de la Recta Media:
Interesa estimar la respuesta media en funcin de un valor especfico del input,
1) Pivote: Sea
Interesa estimar
Podemos utilizar que
y es independiente de
31
Luego,
2) Intervalo para la Media: Se obtiene el intervalo de (1 - )100% de confianza
para
32
Ejemplo: En el ejemplo de la dureza de los paneles de partculas versus la
temperatura de produccin, se obtiene las bandas de confianza para la recta
media:
recta estimada
lmite inferior del
intervalo
lmite
superior del
intervalo
33
Problemas: Estimaciones simultneas.
i) Bonferroni: Reemplazar por /n, donde n es el nmero de estimaciones
que se desea realizar (nmero de valores de X
0
).
ii) Scheff: Reemplazar valor por
Se obtiene intervalos ms amplios. .
34
Prediccin de una Nueva Observacin:
Interesa predecir una observacin que se producir para un valor especfico del
input .
Sabemos que
luego con probabilidad (1 - )100%, la nueva observacin estar en el intervalo:
Problema:
No conocemos , ni .
35
Idea:
Definir
Se puede ver que
luego, con (1 - )100% de probabilidad la nueva observacin estar en
36
CUIDADO CON EXTRAPOLACIN
37
Ejemplo: Bandas de confianza para la Recta Media (curvas interiores) e
Intervalos de Prediccin para nuevas observaciones (curvas exteriores)
38
Estandarizacin de los Datos;
I) Definamos la variable:
y la regresin
Interpretacin de vs .

39
II) Definamos las variables:
y la regresin
Entonces:

40
Ejemplo Consideremos el ejemplo de la presin atmosfrica versus la
temperatura de ebullicin del agua.
Ajustamos los modelos:
Modelo 1)
boil.point
p
r
e
s
s
u
r
e
195 200 205 210
2
2
2
4
2
6
2
8
3
0
41
boil.point.star
p
r
e
s
s
u
r
e
.
s
t
a
r
-0.4 -0.2 0.0 0.2 0.4
-
0
.
2
0
.
0
0
.
2
0
.
4
Modelo 2)
con
42
El Coeficiente de Correlacin
Mide el grado de asociacin lineal entre las variables X y Y y se
define como:
a)
b) La media condicional de Y dado X es ,
donde: y
c) La varianza condicional de las Y dado X, estdado por
Si entonces (perfecta relacin lineal).
y x
Y X Cov

) , (
=
1 1
x X Y E + = ) / (
x
y

=
x y
=
) 1 (
2 2 2
/
=
y x y
1 =
0
2
/
=
x y

El signo de la covarianza nos dice si el aspecto de la nube de puntos es


creciente o no, pero no nos dice nada sobre el grado de relacin entre las
variables.
43
Coeficiente de correlacin muestral
Considerando una muestra de n pares (x
i
,y
i
)
Notar que:
El cuadrado del coeficiente de correlacin es igual al coeficiente de
determinacin.
r es til para determinar si hay relacin lineal entre dos variables, pero no
servirpara otro tipo de relaciones (cuadrtica, logartmica,...)
SxxSyy
Sxy
r =
Syy
Sxx
r
)
=
SST
SSR
Syy
Sxx
r = =
2
2

)
44
Dcima para el coeficiente de correlacin
Para probar la hiptesis nula H
0
: = 0, utilizamos la
estadstica de prueba
2
1
2
r
n r
t

=
Decisin: Rechazar Ho, si |tcal |>t(/2,n-2)
Si Ho: = 0, (X e Y no estn relacionados)
45
Los residuos ( e ) deben ser :
CONSIDERACIONES PARA LA VALIDEZ DEL TEST
- Normales
- Homocedsticos
- Independientes
Testar la Ho: = 0 equivale a ensayar la Ho: = 0
46
Prctica. Problema resuelto de regresin lineal simple
Los datos de la tabla adjunta muestran el tiempo de impresin de trabajos
que se han impreso en impresoras de la marca HP. Se est interesado en
estudiar la relacin existente entre la variable de inters tiempo de impresin
de un trabajo y la variable explicativa nmero de pginas del trabajo. Hacer
el estudio en base a los datos obtenidos en el muestreo y que son los de la
tabla adjunta.
47
Se calculan los estadsticos bsicos de las variables X e Y,
Solucin
Que permiten calcular las estimaciones de los parmetros de la recta de
regresin
48
49
50
51
El coeficiente de correlacin es
52
53
El grfico de residuos frente a las predicciones se observa en el
siguiente grfico
54
55
A partir de la tabla se puede realizar el contraste de regresin
56
Que permite construir la siguiente tabla ANOVA ms completa
57
58
59
60
61
62
63
64