La Regresin lineal se refiere a la prediccin del valor de una variable a partir de una o
ms variables. En ocasiones se denomina a la variable dependiente (y) variable de
respuesta y a la variable independiente (x) variable de prediccin.
En muchos problemas hay dos o ms variables inherentemente relacionadas, y es
necesario explorar la naturaleza de esta relacin. El anlisis de regresin puede
emplearse por ejemplo para construir un modelo que exprese el rendimiento como una
funcin de la temperatura. Este modelo puede utilizarse luego para predecir el
rendimiento en un nivel determinado de temperatura. Tambin puede emplearse con
propsitos de optimizacin o control del proceso.
Comenzaremos con el caso ms sencillo, la prediccin de una variable (y) a partir de otra
variable (x).
REGRESIN LINEAL SIMPLE
Para las situaciones siguientes establezca cual es la variable dependiente y cual es la
independiente.
a) Un actuario quiere predecir el monto del seguro de vida alcanzado por los maestros a
partir de sus salarios mensuales.
Solucin: la variable dependiente o de respuesta, es el monto del seguro de vida
alcanzado por un maestro, y la variable independiente o variable de prediccin es el
salario anual del docente.
b) El gerente de un restaurante quiere estimar el nmero de clientes que puede esperar
cierta noche a partir del nmero de reservaciones para cenar recibidas hasta las 5:00
PM
Solucin: El nmero de clientes es la variable de respuesta, el nmero de
reservaciones es la variable independiente.
Supuestos para el modelo de regresin lineal
1. Para cada valor de x, la variable aleatoria
se distribuye normalmente.
es 0; esto es,
es la constante
E 0
dependen de los de .
6. Para un valor fijo x, es posible predecir el valor de y.
7. Para un valor fijo x, es posible estimar el valor promedio de y
Ejemplo 1:
La revista Motor Trend presenta con frecuencia datos de rendimiento para automviles,
que compara el tamao del motor en pulgadas cbicas de desplazamiento (pcd) y las
millas por galn (mpg) estimadas para ocho modelos representativos de automviles
subcompactos modelo 1984.
millas/galn (mpg), y
30
31
34
27
29
34
38
32
Diagrama de dispersin
39
37
35
m 33
p 31
g 29
27
25
80
90
100
110
120
130
pcd
ddci
d
y 0 1 x
Donde
y = variable dependiente
Ordenada al origen
= pendiente
x = variable independiente
= Error aleatorio
La expresin
0 1 x
0 y 1
y b0 b1 x.
Donde:
Valor predicho de
b0 =
Estimador puntual de
b1=
Estimador puntual de
1.
.(ordenada al origen)
(pendiente)
SS x x
2
SS y y
2
SS xy xy
b1
SS xy
SS x
x y
n
b0 y b1 x
Donde:
SS = suma de cuadrados
b1 = pendiente
b0 = ordenada al origen
n = nmero de pares de datos
En la tabla incluimos las sumatorias que utilizaremos para el clculo de las frmulas.
coches compactos
tamao del motor (pcd) x
Chevrolet Cavalier
121
Datsun Nissan Stanza
120
Dodge Omni
97
Ford Escort
98
Mazda 626
122
Plymouth Horizon
97
Renault Alliance/Encore
85
Toyota Corolla
122
SUMAS
862
Media
107.75
millas/galn (mpg), y
30
31
34
27
29
34
38
32
255
31.875
x^2
14641
14400
9409
9604
14884
9409
7225
14884
94456
y^2
900
961
1156
729
841
1156
1444
1024
8211
xy
3630
3720
3298
2646
3538
3298
3230
3904
27264
Calculando b0 y b1 tenemos:
SSx = 1575.50
SSy = 82.88
SSxy = -212.25
b1 = -0.13472
b0 = 46.39099
La ecuacin de prediccin de mnimos cuadrados es:
y b0 b1 x.
=>
50
y 46.39099 0.37472 x
40
30
20
10
Lineal (Y)
0
0
50
100
Variable X
150
Al usar el criterio de mnimos cuadrados para obtener la recta que mejor se ajuste a
nuestros datos, podemos obtener el valor mnimo para la suma de cuadrados del error
(SSE)
SSE SS y b1 SS xy
S e2
s e2
, se
SSE
n2
S e2
54.2849
9.0475
6
Se
3.007
Calificacin
Calificacin proEstudiante
SAT (X1)
GPA (X2)
medio del MCAT (Y)
1
1200
3.8
12.4
2
1350
3.4
13.3
3
1000
2.9
Con esta informacin podemos encontrar una ecuacin9.2
lineal que nos permita predecir el
4
1250
3.3
10.6
promedio de calificaciones del MCAT para un estudiante si se conocen su GPA y su
5
1425
3.9
13.2
calificacin combinada
del
SAT.
6
1340
3.1
11.2
y b0 b1 x1 b2 x 2 .
y nb
b1 x1 b2 x 2
x y b x b x b x
1
2
1
2
2
y b0 x 2 b1 x1 x 2 b2
x
2
2
X2
3.8
3.4
2.9
3.3
3.9
3.1
20.4
Y
12.4
13.3
9.2
10.6
13.2
11.2
69.9
X1^2
1440000
1822500
1000000
1562500
2030625
1795600
9651225
X2^2
14.44
11.56
8.41
10.89
15.21
9.61
70.12
X1X2
4560
4590
2900
4125
5557.5
4154
25886.5
X1Y
14880
17955
9200
13250
18810
15008
89103
X2Y
47.12
45.22
26.68
34.98
51.48
34.72
240.2
SST y y 12.9950
2
SSE y y 2.2403
2
glT gl R gl E
glT n 1
gl R k
gl E n (k 1)
donde:
k = nmero de variables independientes
Clculo de cuadrados medios:
MSR
SSR 10.7547
5.3773
gl R
2
MSE
SSE 2.2403
0.7468
gl E
3
Donde:
MSR= Cuadrado medio de la regresin
MSE= Cuadrado medio del error.
Prueba de hiptesis
Para determinar si el modelo lineal describe adecuadamente los datos, se usa la prueba
F.
Para los datos del ejemplo las hiptesis son:
H 0 : 1 2 0
H1 : 1 0 o 2 0
El valor del estadstico F se encuentra dividiendo MSR entre MSE.
MSR 5.3773
7.20
MSE 0.7468
R2
SSR
SST
R2
10.7547
0.8276 82.8%
12.995
REGRESION POLINOMIAL
Algunos datos cientficos o de ingeniera, pueden presentar un patrn como este:
Que como puede intuirse, se representan pobremente mediante una lnea recta. En estos
casos, se ajusta mejor una curva a los datos. Para ello se recomienda regresin polinomial.
El procedimiento de mnimos cuadrados se puede extender fcilmente y ajustar datos a un
polinomio de grado m.
Y =ao +a1 x i+ a2 x 2i +a3 x 3i + +a m x mi
En este caso, la suma de los cuadrados es:
N
m 2
Sr = ( Y i ao a1 xi a2 xi a3 xi am xi
i=1
Sr
n( m+1 )
S t S r
St