Anda di halaman 1dari 11

LECTURAS DE LA SEMANA 15 DE ME

4.9 Regresión Lineal Simple

La metodología de la regresión lineal simple tiene como objetivo ajustar una línea recta
(una ecuación de una recta) a un conjunto de puntos en el plano. EL conjunto de puntos en
el plano es la gráfica de dispersión de los datos de una muestra aleatoria.

Suponer que un investigador sospecha de que hay una relación lineal entre dos variables (X,
Y) donde el valor de Y depende o es función del valor de X, es decir y = f(x). A la variable X
se le llama variable independiente o variable predictora y a la variable Y se le llama variable
dependiente o variable de respuesta. Suponer que se toma una muestra aleatoria (de tamaño
n) de pares ( x1 , y1 ) , ( x 2 , y 2 ) , ( x3 , y 3 ) ,..., ( x n , y n ) y al construir su diagrama de
dispersión se desea obtener la ecuación de la recta que mejor se ajusta a los puntos, como se
muestra en la figura (4.5).

Recta que se desea ajustar

• •
• •
• • •
• •

Figura 4.5. Ilustración de una recta que se desea ajustar.

La diferencia principal entre un análisis de correlación y una regresión lineal simple es que
en el análisis de correlación se tiene que ambas variables (X, Y) son variables aleatorias y al
tomar la muestra el investigador no tiene control sobre los valores que observará de X ni de
Y. Por otra parte, en la regresión lineal se tiene que Y si es una variable aleatoria mientras
que X puede o no puede ser una variable aleatoria, es decir, puede darse el caso en que los
valores de X son controlados por el investigador (ésto es típico en un diseño de
experimentos) mientras que los valores de Y definitivamente no son controlados por el
investigador.

Entonces, para un valor fijo de X se supone que Y es una variable aleatoria con distribución
normal con media µ y|x y varianza σ 2 (la varianza es constante para todo valor de x).
Luego se supone que hay una relación lineal entre las variables (X, Y) cuya ecuación es
desconocida y relaciona µ y|x con x, esta ecuación se denota como

µ y|x = β 0 + β1 x (4.13)
Para un valor particular y observado en cierto valor x se tiene que su ecuación queda;

y = β 0 + β1 x + ε (4.14)

donde ε es el error (la desviación o distancia de y a la media µ y ) el cual es una variable


aleatoria con distribución normal con media cero y varianza σ 2 (la misma mencionada
antes) la cual es constante para todo valor de x.

Como los valores de β 0 y β1 son desconocidos, se deben estimar a partir de los valores de
la muestra ( x , y ). El estimador de β que denotaremos por βˆ es:
1 i 1 1

S XY
βˆ1 = (4.15)
S XX

donde S XY se define como;

(∑ xi )(∑ yi )
S XY = ∑ xi yi − (4.16)
n

además S XX se define como;

(∑ xi )2
S XX = ∑ ( xi ) −2
(4.17)
n

finalmente el estimador de β 0 que denotaremos como β̂ 0 es;

βˆ 0 = Y − βˆ1 X (4.18)

también se recomienda calcular S YY que será necesario para hacer inferencia estadística y
se define como;

(∑ yi )2
S YY = ∑ ( yi ) −2
(4.19)
n

observe que las fórmulas de S XX y S YY son casos especiales de la fórmula de S XY .

Ejemplo 4.15. Retomando el problema 4 de la tarea 14 se tienen los datos correspondientes


a la tasa de cambio del peso mexicano por un dólar referente al precio a la compra y a la
venta como se muestra en la tabla 4.13.
compra venta compra venta
9.86 10.13 10.01 10.30
9.83 10.08 10.07 10.31
9.91 10.14 10.20 10.46
10.14 10.41 10.09 10.36
10.13 10.37 10.01 10.28
10.11 10.35 9.99 10.27
10.00 10.26 10.06 10.33
10.05 10.30 10.01 10.26
10.02 10.31 10.02 10.27
9.99 10.23 10.13 10.38
9.90 10.15 10.14 10.38
9.84 10.00 10.07 10.30
9.84 10.10 10.09 10.34
10.08 10.34 10.30 10.59
10.04 10.29 10.27 10.54
Tabla 4.13. datos del ejemplo 4.15.

Para estimar la ecuación de la recta considerando X = precio a la compra y Y = precio a la


venta se presenta la tabla 4.14 con los cálculos de ∑ xi , ∑ ( xi ) 2 , ∑ yi ∑ ( yi ) 2 y
∑ xi y i .
2 2 2 2
x=compra y=venta x y xy x=compra y=venta x y xy
9.86 10.13 97.220 102.617 99.882 10.01 10.30 100.200 106.090 103.103
9.83 10.08 96.629 101.606 99.086 10.07 10.31 101.405 106.296 103.822
9.91 10.14 98.208 102.820 100.487 10.20 10.46 104.040 109.412 106.692
10.14 10.41 102.820 108.368 105.557 10.09 10.36 101.808 107.330 104.532
10.13 10.37 102.617 107.537 105.048 10.01 10.28 100.200 105.678 102.903
10.11 10.35 102.212 107.123 104.639 9.99 10.27 99.800 105.473 102.597
10.00 10.26 100.000 105.268 102.600 10.06 10.33 101.204 106.709 103.920
10.05 10.30 101.003 106.090 103.515 10.01 10.26 100.200 105.268 102.703
10.02 10.31 100.400 106.296 103.306 10.02 10.27 100.400 105.473 102.905
9.99 10.23 99.800 104.653 102.198 10.13 10.38 102.617 107.744 105.149
9.90 10.15 98.010 103.023 100.485 10.14 10.38 102.820 107.744 105.253
9.84 10.00 96.826 100.000 98.400 10.07 10.30 101.405 106.090 103.721
9.84 10.10 96.826 102.010 99.384 10.09 10.34 101.808 106.916 104.331
10.08 10.34 101.606 106.916 104.227 10.30 10.59 106.090 112.148 109.077
10.04 10.29 100.802 105.884 103.312 10.27 10.54 105.473 111.092 108.246
suma 301.200 308.830 3024.447 3179.671 3101.080
Tabla 4.14. Cálculos previos para estimar la ecuación de la recta del ejemplo 4.15.

De la tabla 4.14 vemos que n = 30, ∑ xi = 301.20, ∑ yi = 308.83, ∑ ( xi ) 2 = 3024.447,

∑ ( yi ) 2 = 3179.671 y ∑ xi y i = 3101.08. Entonces X = 301.20/30 = 10.04, Y =


308.83/30 = 10.294, aplicando (4.16);
(301.20)(308.83)
S XY = 3101.08 − = 0.4268
30

aplicando (4.17);

(301.20) 2
S XX = 3024.447 − = 0.399
30

aplicando (4.19);

(308.83) 2
SYY = 3179.671 − = 0.472
30

Entonces, aplicando (4.15), se tiene βˆ1 = 0.4268/0.399 = 1.07 y aplicando (4.18), β̂ 0 =


10.294−(1.07)(10.04) = −0.449, quedando la ecuación lineal estimada (ver figura 4.6);

µ y|x = −0.449 + 1.07 x

10.6

10.5

10.4
venta

10.3

10.2

10.1

10.0

9.8 9.9 10.0 10.1 10.2 10.3

compra

Figura 4.6. Gráfica de dispersión y de la recta ajustada al ejemplo 4.15.

La calidad del ajuste se evalúa mediante el coeficiente de determinación que se denota por
R 2 que toma valores entre cero y uno [0 ≤ R 2 ≤ 1], o entre cero y 100 si se expresa como
porcentaje. Solo para el caso de una regresión lineal simple se tiene que R 2 = r 2 . Mientras
el valor de R 2 más se aproxima a 1 ( o a 100) más evidencia hay de un buen ajuste, y
mientras el valor de R 2 más se aproxima al cero más evidencia hay de un mal ajuste. Por
buen ajuste se entiende que la recta pasa muy cerca de todos los puntos. En este caso se
tiene que (ver material de lectura de la semana 14) para los datos del ejemplo 4.15, r =
0.984, entonces R 2 = (0.984)2 = 0.968 lo cual es indicador de un buen ajuste como se
puede ver en la figura 4.6.

La varianza del error ε (o lo que es lo mismo, la varianza de y) se estima mediante la


fórmula;

SYY − βˆ1S XY
σˆ 2 = (4.20)
n−2

Ejemplo 4.16. Considerando los datos del ejemplo 4.15, la varianza del error queda
estimada como [aplicando la fórmula (4.20)];

0.472 − (1.07)(0.4268)
σˆ 2 = = 0.00055
30 − 2

La prueba de hipótesis para β1 se desarrolla de la siguiente manera: H 0 : β1 = 0 vs


βˆ1
H 1 : β1 ≠ 0 . El estadístico de prueba es: t = , donde al denominador
2
σˆ / S XX
σˆ 2 / S XX se le llama error estándar del estimador βˆ1 . Regla de decisión: Se rechaza H0
con nivel de significancia α si: | t |> tα / 2, n−2 .

Ejemplo 4.17. Se aplica una prueba de hipótesis a βˆ1 para los datos del ejemplo 4.15 con α
= 0.05. Del ejemplo 4.15 y 4.17 tenemos que n = 30, βˆ = 1.062, S1 = 0.402 y σˆ 2 =
XX

0.00055. Luego, el error estándar de βˆ1 es σˆ / S XX = 0.00055 / 0.399 = 0.0371 y el


2

1.07
estadístico de prueba es: t = = 28.84 , el valor crítico es t 0.025, 28 = 2.048 . Como |t|
0.0371
> t 0.025,28 se rechaza H0, es decir que hay evidencia estadística de que el valor de β1 es
diferente de cero.

El valor de β1 se puede estimar mediante un intervalo de confianza. El intervalo de


confianza para β1 con un nivel de confianza 1−α se obtiene mediante;

βˆ1 − tα / 2,n−2 σˆ 2 / S XX < β1 < βˆ1 + tα / 2,n−2 σˆ 2 / S XX (4.21)

La prueba de hipótesis para β1 también se puede hacer mediante una anova (donde F = t2 )
que generan los paquetes estadísticos como la que se presenta en la tabla 4.14, del ejemplo
4.17 se tiene que t = 28.84 y en la tabla 4.14 se tiene que F = t2 = 28.842 = 831.75 (las
diferencias en los decimales es por redondeo). Además, la estimación de la varianza del
error es la media de cuadrados del error de esta tabla de anova.
Analysis of Variance

Source DF SS MS F P
Regression 1 0.45695 0.45695 831.53 0.000
Residual Error 28 0.01539 0.00055
Total 29 0.47234
Tabla 4.14. tabla de anova para la prueba de hipótesis de β1

Ejemplo 4.18. Considerando nuevamente los datos del ejemplo 4.15, se tiene que el
intervalo de confianza para β1 con un nivel de confianza del 95% es (ver ejemplo 14.17);

1.07 − 2.048(0.0371) < β1 < 1.062 + 2.048(0.0371)

0.994 < β1 < 1.146, es decir que el valor de β1 está entre 0.994 y 1.146 con una confianza
del 95%.

(
Otra inferencia estadística de una regresión lineal es estimar la media de Y µ y|x0 para un )
valor de x en particular que denotaremos como x0 . Los límites del intervalo de confianza
de µ y|x0 con un nivel de confianza 1−α está dado por;

1
µˆ y|x ± tα / 2, n−2 σˆ 2  +
(x0 − X ) (4.22)
n S XX
0

donde,

µˆ y|x = βˆ 0 + βˆ1 x0
0
(4.23)

además a

2 1
σˆ  + 0
(
x −X )2  se le llama el error estándar de µˆ
y| x0 .
 n S XX 

Ejemplo 4.19. Haciendo referencia a los datos del ejemplo 4.15, se estimará mediante un
intervalo de confianza la media del precio de venta cuando el precio de compra sea 10.25
con un nivel de confianza del 95%.

Tenemos que: n = 30, x0 = 10.25, β̂ 0 = −0.449, βˆ1 = 1.07, S XX = 0.399, X = 10.04, σˆ 2


= 0.00055, t 0.025,28 = 2.048. Usando la fórmula (4.23) se tiene que,
µˆ y|x =10.25 = −0.449 + 1.07(10.25) = 10.519 , y el error estándar de µˆ y|x es, 0

2 1
σˆ  +
(
x0 − X 
2

 =
) 0 . 00055
 1 (10.25 − 10.04) 2 
 +  = 0.0089, luego aplicando la
 n S XX  
 30 0 . 399 
fórmula (4.22) el intervalo de confianza queda;

10.519 − 2.048(0.0089) < µ y|x =10.25 < 10.519 + 2.048(0.0089)

obteniendo, 10.501 < µ y|x =10.25 < 10.537, es decir que el valor de la media del precio de
compra cuando el precio de venta es 10.25 esta entre 10.50 y 10.54 con un nivel de
confianza del 95%. La figura 4.7 muestra una “banda” a los lados de la recta ajustada a los
datos del ejemplo 4.15 que corresponde a los intervalos de confianza de µ y|x con un nivel
de confianza del 95%.

10.6

10.5

10.4
venta

10.3

10.2

10.1 Regression
95% CI

10.0

9.8 9.9 10.0 10.1 10.2 10.3

compra

Figura 4.7. Intervalos de confianza del 95% para los datos del ejemplo 4.15.

También es de interés estimar un valor individual (observado) de y mediante un intervalo


de confianza que llamaremos “intervalo de predicción”, dado un valor particular de x que
denotaremos como x0 . Los límites del intervalo de predicción de y para un valor dado x0
(denotado por y | x0 ) con nivel de confianza 1−α, esta dado por;


µˆ y|x ± tα / 2, n−2 σˆ 2 1 +
(
1 x0 − X 
+ 
) (4.24)
0
 n S XX 

además a 2
 1 x −X
σˆ 1 + + 0
( )2  se le llama el error estándar de y | x
0.
 n S XX 
Ejemplo 4.20. Haciendo referencia a los datos del ejemplo 4.15, se estimará mediante un
intervalo de predicción un valor individual del precio de venta cuando el precio de compra
sea 10.25 con un nivel de confianza del 95%.

Del ejemplo 4.19 tenemos que: n = 30, x0 = 10.25, β̂ 0 = −0.449, βˆ1 = 1.07, S XX = 0.399,
X = 10.04, σˆ 2 = 0.00055, t 0.025,28 = 2.048, µˆ y|x =10.25 = 10.519. Además, el error
estándar de y | x = 10.25 es,
 1 x −X
2
σˆ 1 + + 0
( )2  = 
0.000551 +
1 (10.25 − 10.04) 2 
+  = 0.025
 n S XX   30 0.399 

Luego, de (4.24) el límite de predicción queda;

10.519 − 2.048(0.025) < y | x = 10.25 < 10.519 + 2.048(0.025)

obteniendo, 10.47 < y | x = 10.25 < 10.57, es decir que el valor del precio de compra
cuando el precio de venta es 10.25 esta entre 10.47 y 10.57 con un nivel de confianza del
95%. La figura 4.8 muestra unas “bandas” a los lados de la recta ajustada a los datos del
ejemplo 4.15. La banda más amplia corresponde a los intervalos de predicción y la banda
más estrecha corresponde a los intervalos de confianza del 95%.

10.6

10.5

10.4
venta

10.3

10.2

Regression
10.1
95% CI

10.0 95% PI

9.8 9.9 10.0 10.1 10.2 10.3

compra

Figura 4.8. Intervalos de predicción y de confianza para los datos del ejemplo 4.15.

Los modelos de regresión lineal simple se aplican usualmente para estimar la media de y
para un valor dado. Es importante mencionar que se recomienda solo hacer inferencia
estadística sobre valores de X ubicados en el rango de los valores de la muestra aleatoria (a
esto se la llama hacer interpolación). No es recomendable hacer inferencia sobre valores de
X ubicados más allá del rango de los valores de la muestra (hacer extrapolación).

En un análisis de regresión lineal, también es importante evaluar el cumplimiento de los


supuestos que principalmente son:

1) Los valores de Y siguen una distribución normal.


2) Los valores de Y tienen una varianza constante.

o equivalentemente:

1) Los valores del error ε tienen una distribución normal con media cero.
2) Los valores del error ε tienen una varianza constante.

Los valores de ε se estiman mediante los residuales (denotado por e). El residual del par de
valores ( xi , yi ) se define como;

ei = y i − µˆ y|xi = yi − ( βˆ 0 + βˆ1 xi ) (4.25)

Se espera que los residuales se comporten con las características ideales de los errores
aleatorios ε . La tabla 4.15 muestra los residuales de los datos del ejemplo 4.15.

x=compra y=venta µ̂ y|x e x=compra y=venta µ̂ y|x e


9.86 10.13 10.101 0.029 10.01 10.30 10.262 0.038
9.83 10.08 10.069 0.011 10.07 10.31 10.326 -0.016
9.91 10.14 10.155 -0.015 10.20 10.46 10.465 -0.005
10.14 10.41 10.401 0.009 10.09 10.36 10.347 0.013
10.13 10.37 10.390 -0.020 10.01 10.28 10.262 0.018
10.11 10.35 10.369 -0.019 9.99 10.27 10.240 0.030
10.00 10.26 10.251 0.009 10.06 10.33 10.315 0.015
10.05 10.30 10.305 -0.005 10.01 10.26 10.262 -0.002
10.02 10.31 10.272 0.038 10.02 10.27 10.272 -0.002
9.99 10.23 10.240 -0.010 10.13 10.38 10.390 -0.010
9.90 10.15 10.144 0.006 10.14 10.38 10.401 -0.021
9.84 10.00 10.080 -0.080 10.07 10.30 10.326 -0.026
9.84 10.10 10.080 0.020 10.09 10.34 10.347 -0.007
10.08 10.34 10.337 0.003 10.30 10.59 10.572 0.018
10.04 10.29 10.294 -0.004 10.27 10.54 10.540 0.000
Tabla 4.15. Residuales de los datos del ejemplo 4.15.

Por ejemplo, de la tabla 4.15 consideremos el dato x = 9.86, y = 10.13. tenemos que µ̂ y|x =
-0.449 + 1.07(9.86) = 10.101, y su residual es, e = 1013 – 10.101 = 0.029, y así
similarmente se va obteniendo el resto de la tabla. Para evaluar el ajuste de los residuales a
una distribución normal con media cero, se construye un “Q-Q polt” de la distribución
normal que para los valores de la tabla 4.15 se muestra en la figura 4.9.
Normal Probability Plot for e

99 ML Estimates

Mean: 0.0005
95
StDev: 0.0227109
90

80
70
Percent

60
50
40
30
20

10
5

-0.05 0.00 0.05

Data

Figura 4.9 Evaluación del ajuste de los residuales a la distribución normal.

De la figura 4.9 se aprecia que los residuales se ajustan bien a una distribución normal con
media cero. Excepto el residual –0.08 que se puede considerar como un valor atípico. Para
evaluar el supuesto de varianza constante de los residuales, se recomienda una gráfica de
dispersión de los residuales vs µ̂ y|x o valores ajustados. La figura 4.10 muestra esta gráfica
para los valores de la tabla 4.15.

0.04

0.02

0.00

-0.02
e

-0.04

-0.06

-0.08

10.1 10.2 10.3 10.4 10.5 10.6


Y est.

Figura 4.10 Gráfica de residuales vs µ̂ y|x .


Lo deseable en la gráfica de residuales vs µ̂ y|x es ver una nube de puntos de la misma
amplitud sin ningún patrón en particular (forma de cono, recta, o curva). En la figura 4.10
no se aprecia ningún patrón especial por lo que podemos inferir que se cumple el supuesto
de varianza constante. Algunos paquetes estadísticos generan una análisis de residuales
mediante un grupo de gráficas como la que se presenta en la figura 4.11.

Residual Model Diagnostics


Normal Plot of Residuals I Chart of Residuals
0.04 3.0SL=0.06626
0.02 0.05
Residual

0.00

Residual
0.00 X=5.00E-04
-0.02
-0.04
-0.05
-0.06 -3.0SL=-0.06526
1
-0.08 -0.10
-2 -1 0 1 2 0 10 20 30
Normal Score Observation Number

Histogram of Residuals Residuals vs. Fits


0.04
10 0.02
Frequency

0.00
Residual

-0.02
5
-0.04
-0.06
0 -0.08
-0.07 -0.05 -0.03 -0.01 0.01 0.03 10.1 10.2 10.3 10.4 10.5 10.6
Residual Fit

Figura 4.11 Análisis de residuales generado por MinitabTM.

La figura 4.11 es una análisis de residuales de los datos de la tabla 4.15 generado pro el
paquete estadístico Minitab.