a) Predicción
b) Descripción
c) Control
d) Selección de variables
El modelo de Regresión Lineal simple
Y = α + βX + ε
Considerando la muestra (xi, yi) para i=1,…n
Yi = α + βX i+ei
• Suposiciones del modelo:
La variable X es no aleatoria.
Los errores ei son variables aleatorias con media 0 y varianza
constante σ2.
Los errores ei y e j (i≠j=1…,n) son independientes entre si.
β: expresa la magnitud
del cambio de y por
cada unidad de x
E(y|x)
E(y|x)=α+βx
∆E(y|x)
∆x
α{
Constante X
Parámetro de
intercepción ∆E(y|x)
β= Es la pendiente
∆x Parámetro de pendiente
Estimación de la línea de regresión usando
Mínimos Cuadrados
Se debe Minimizar
Q(α, β ) = ∑
n n
∑(y − α − β
2 2
e i = i xi )
i =1
i =1
equivalentemente S
β̂ = i =1
n
i =1
n
i =1 xx
n∑xi2 − (∑xi )2
i =1 i=1 αˆ = y − βˆx
(RRP)
y E(y) = α + βx
y4 .
e4 {
(RRM)
y3 .}e3 y = b0 + b1x
y2 e2 {.
y1 }
. e1
x
x1 x2 x3 x4
Interpretación de los coeficientes de regresión
estimados
)
La pendiente β indica el cambio promedio en la variable de
respuesta cuando la variable predictora aumenta en una unidad
adicional.
)
El intercepto α indica el valor promedio de la variable de
respuesta cuando la variable predictora vale 0. Sin embargo
carece de interpretación práctica si es irrazonable pensar que el
rango de valores de x incluye a cero.
Propiedades de los estimadores mínimos cuadráticos
de regresión
) )
a) β es un estimador insegado de β. Es decir, E( β )=β
) σ2 ) 1 x2
c) La varianza de β es y la de α es σ ( +
2
)
Sxx n Sxx
Propiedades de los residuales
n
)
c) ∑ ei yi = 0
i =1
Estimación de la varianza del error
∑ ( yi − y ) 2 =
n n
) )
i =1
∑ ( yi − yi ) 2 +
i =1
∑(y
i =1
i − y)2
2
Un modelo de regresión con R mayor o igual a 75% se puede
considerar bastante aceptable.
2
Nota: El valor de R es afectado por la presencia de valores
anormales.
Distribución de los estimadores mínimos
cuadráticos
Para efecto de hacer inferencia en regresión, se requiere asumir
que los errores ei , se distribuyen en forma normal e
independientemente con media 0 y varianza constante σ . En
2
σ2 1 x2 2
β ~ N(β , )
ˆ αˆ ~ N (α , ( + )σ )
Sxx n S xx
Las sumas de cuadrados son formas cuadráticas del vector aleatorio Y y por
lo tanto se distribuyen como una Chi-cuadrado. Se pueden establecer los
siguientes resultados:
SCT
i) ~ χ '(2n −1) (Chi-Cuadrado no central con n-1 g.l)
σ 2
SCE (n − 2) s 2
ii) ~χ 2
( n−2) Equivalentemente ~ χ (2n − 2 )
σ 2
σ2
SCR
iii) ~ χ '(21) (Chi-Cuadrado no central con 1 g.l)
σ 2
E ( SCR ) = E ( βˆ 2 S xx ) = σ 2 + β 2 S xx
Inferencia en Regresion Lineal Simple
Sxx
) 1 x2 ) 1 x2
(α − t( n − 2,1−α / 2 ) s + , α + t( n − 2,1−α / 2) s + )
n Sxx n Sxx
Tres Posibles Poblaciones
Y Y Y
X X X
β=0 β>0 β 1< 0
A B C
Pruebas de hipótesis para la pendiente β
(asuminendo que su valor es β* )
Caso I Caso II Caso III
Ho: β=β* Ho: β=β* Ho: β=β*
Ha: β<β* Ha: β≠β* Ha: β>β*
Prueba Estadística )
β −β*
t= ~ t( n − 2)
s
Sxx
Regla de Decisión
Rechazar Ho, Rechazar Ho Rechazar Ho
si tcal<-t(1-α,n-2) si |tcal |>t(1-α/2,n-2) si tcal>t(1-α,n-2)
*Un “P-value” cercano a cero, sugiriría rechazar la hipótesis nula.
El análisis de varianza para regresión lineal
simple
El análisis de varianza para regresión consiste en descomponer
la variación total de la variable de respuesta en varias partes
llamadas fuentes de variación.
1 ( x − x ) 2
Var (Yˆ0 ) = σ 2 ( + 0 )
n Sxx
Intervalo de confianza para el valor medio
Un intervalo de confianza del 100(1-α )% para el valor medio
de las y’s dado que x=x0 es de la forma:
1 ( x − x ) 2
αˆ + βˆx0 ± t(1−α / 2,n − 2 ) s + 0
n Sxx
bacterias tiempo
1 175 1
2 108 2
3 95 3
4 82 4
5 71 5
6 50 6
7 49 7
8 31 8
9 28 9
10 17 10
11 16 11 Resumen del modelo
12 11 12 R cuadrado Error típ. de la
Total N 12 12 Modelo R R cuadrado corregida estimación
a. Limitado a los primeros 100 casos. 1 ,932a ,869 ,856 18,298
a. Variables predictoras: (Constante), tiempo
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrática F Sig.
1 Regresión 22268,813 1 22268,813 66,512 ,000a
Residual 3348,104 10 334,810
Total 25616,917 11
a. Variables predictoras: (Constante), tiempo
Coeficientesa
b. Variable dependiente: bacterias
Coeficientes
Coeficientes no estandarizad
estandarizados os
Modelo B Error típ. Beta t Sig.
1 (Constante) 142,197 11,262 12,627 ,000
tiempo -12,479 1,530 -,932 -8,155 ,000
a. Variable dependiente: bacterias
Análisis de los residuos
a
Coeficientes
Coeficientes
Coeficientes no standarizad
estandarizados os
Model B Error típ. Beta t Sig.
1 (Constan 5,339 ,074 72,054 ,000
tiempo -,236 ,010 -,991 -23,459 ,000
a.Variable dependiente: LnY
¿Cómo interpretar el parámetro estimado ?
En general, un parámetro en un modelo sometido a tranformación
logaritmica representa el porcentaje esperado de incremento (o
decremento) de la variable dependiente para un incremento unitario
de la variable independiente. El porcentaje de cambio se calcula
obteniendo el antilogaritmo de y restandole 1.
Explicación (esconder)
De la expresión se tiene que el valor estimado de la respuesta
para un valor dado de es . Ahora el cambio porcentual es
dado por
Y = a + bX + cX 2 + ε
Valor Tamaño de la
Agregado por tienda ( miles
hora-hombre de pies
Tienda ($) cuadrados)
1 1 4,0 21,0
2 2 3,4 12,0
3 3 3,5 25,2
4 4 3,1 10,4
5 5 2,9 30,9
6 6 1,9 6,8
7 7 4,1 19,6
8 8 3,2 14,5
9 9 3,8 25,0
10 10 3,6 19,1
Total N 10 10 10
a. Limitado a los primeros 100 casos.