(1.1)
(1.2)
1 REGRESIN LINEAL SIMPLE Y MLTIPLE
INTRODUCCIN
El anlisis de regresin tiene como objetivo modelar en forma matemtica el
comportamiento de una variable de respuesta en funcin de una o ms variables
independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso
qumico est relacionado con la temperatura de operacin. Si mediante un modelo
matemtico es posible describir tal relacin, entonces este modelo puede ser
usado para propsitos de prediccin, optimizacin o control.
Para estimar los parmetros de un modelo de regresin son necesarios los datos,
los cuales pueden obtenerse de experimentos planeados, de observaciones de
fenmenos no controlados o de registros histricos.
Sean dos variables X y Y, suponga que se quiere explicar el comportamiento de Y
con base en los valores que toma X. Para esto, se mide el valor de Y sobre un
conjunto de n valores de X, con lo que se obtienen n parejas de puntos
(x
1
,y
1
),(x
2
,y
2
),,(x
n
,y
n
). A Y se le llama la variable dependiente o variable de
respuesta y a X se le conoce como variable independiente. La variable X no
necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus
valores; en cambio, Y s es una variable aleatoria. Una manera de estudiar el
comportamiento de Y con respecto a X es mediante un modelo de regresin que
consiste en ajustar un modelo matemtico a las n parejas de puntos. Con ello, se
puede ver si dado un valor de la variable independiente X es posible predecir el
valor promedio de Y.
Suponga que las variables X y Y estn relacionadas linealmente y que para cada
valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que
cada observacin de Y puede ser descrita por el modelo:
Donde es un error aleatorio con media cero y varianza
+
| =
2
variables ser necesario estimar los dos parmetros, que tienen los siguientes
significados:
es la pendiente de la lnea, es decir, es la cantidad en que se incrementa o
disminuye la variable Y por cada unidad que se incrementa X.
El siguiente ejemplo nos permitir ilustrar mejor los conceptos anteriores.
Ejemplo 1.1 En un laboratorio se quiere investigar la forma en que se relaciona la
cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Los
datos obtenidos en un estudio experimental son los siguientes:
Es claro que la variable de respuesta o variable dependiente es la resistencia, por
eso se denota con Y. para tener una idea de la relacin que existe entre X y Y, los
14 pares de datos son graficados en un diagrama de dispersin como el siguiente.
30 25 20 15 10 5
190
180
170
160
150
140
130
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a
Porcentaje de fibra Resistencia
4 134
6 145
8 142
10 149
12 144
14 160
16 156
18 157
20 168
22 166
24 167
26 171
28 174
30 183
Tabla 1.1 Datos de resistencia de la pulpa
Figura 1.1 Diagrama de dispersin para los datos de resistencia de la pulpa
3
Se observa que entre X y Y existe una correlacin lineal positiva, ya que conforme
aumenta X tambin se incrementa Y, por lo que es razonable suponer que la
relacin entre X y Y la explique un modelo de regresin lineal simple. As, cada
observacin de Y, la podemos expresar como:
Con i=1,2,,n (n=14 para este ejemplo). Para estimar
ajustamos la recta
que explique de mejor manera el comportamiento de los datos en el diagrama de
dispersin de la figura 1.1. En otras palabras, debemos encontrar la recta que
pasa ms cerca de todos los puntos. Un procedimiento para ajustar la mejor recta
y, por lo tanto, para estimar
, consiste en calcular
dichos estimadores por medio de las siguientes frmulas:
(1.3)
(1.4)
(1.5)
(1.6)
(1.7) y (1.8)
4
=
.
= 1.6242 y
= 130.67 + 1.6242
En la siguiente figura se muestra el ajuste de esta lnea. De esta manera, por cada
punto porcentual de incremento en el porcentaje de fibra, se espera un incremento
de la resistencia de 1.6242 en promedio.
30 25 20 15 10 5
190
180
170
160
150
140
130
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a
Porcentaje de fibra
(X
i
)
Resistencia
(Y
i
)
4 134 16 536
6 145 36 870
8 142 64 1136
10 149 100 1490
12 144 144 1728
14 160 196 2240
16 156 256 2496
18 157 324 2826
20 168 400 3360
22 166 484 3652
24 167 576 4008
26 171 676 4446
28 174 784 4872
30 183 900 5490
=238
=2216
=4956
=39150
=17
=158.286
Tabla 1.2 Procedimiento para realizar los clculos para la regresin simple
(1.9)
Figura 1.2 Lnea que mejor se ajusta a los puntos
5
La ecuacin (1.9) sirve para estimar la resistencia promedio esperada para
cualquier porcentaje de fibra utilizada, claro que esa estimacin ser ms precisa
en la medida que X est dentro del intervalo de los valores con los que se hizo la
estimacin. Por ejemplo, para cada X
i
, con el que se experiment, se puede
estimar el
, se le
llama residual y se denota como:
El residual
La suma de los cuadrados de estos residuales o errores es la cantidad que se
minimiza empleando el mtodo de los mnimos cuadrados. Esta cantidad, tambin
conocida como suma de cuadrados debida al error, se denota por SCE.
El valor SCE es una medida del error al utilizar la ecuacin de regresin estimada
para estimar los valores de la variable dependiente en los elementos de la
muestra. Por lo tanto, SCE mide el error que existe al utilizar la ecuacin de
regresin estimada para predecir Y.
Retomando el ejemplo 1.1, los valores de las variables independiente y
dependiente para/del porcentaje de fibra 1 son X
1
= 4 y Y
1
= 134. El valor estimado
para esta resistencia de la pulpa segn la ecuacin de regresin estimada es
Y
para estimar Y
1
es:
Y
(1.10)
6
Tabla 1.3 Clculos de SCE suma de cuadrados debido al error
Despus de calcular y elevar al cuadrado los residuales de cada uno de los
porcentajes de la muestra, se suman y se obtiene la Suma de Cuadrados debido
al Error (SCE).
A continuacin se muestra una tabla con cada uno de los residuales de cada uno
de los porcentajes de fibra.
es la varianza del error aleatorio, . As que es natural utilizar los residuos para
hacer una estimacin para dicha varianza. Para ello la suma de cuadrados debido
al error se divide entre sus respectivos grados de libertad, por lo tanto, un
estimador insesgado de
= (1.11)
Como se aprecia en la expresin anterior
Residual
(error)
Residual al
cuadrado
4 134 137.17 -3.17 10.05
6 145 140.42 4.59 21.02
8 142 143.66 -1.66 2.76
10 149 146.91 2.09 4.37
12 144 150.16 -6.16 37.95
14 160 153.41 6.59 43.43
16 156 156.66 -0.66 0.44
18 157 159.90 -2.90 8.41
20 168 163.15 4.85 23.52
22 166 166.40 -0.40 0.16
24 167 169.65 -2.65 7.02
26 171 172.90 -1.90 3.61
28 174 176.15 -2.15 4.62
30 183 179.40 3.60 12.96
=238
=2216 SCE=180.32
7
1.1.1 PRUEBA DE HIPTESIS EN LA REGRESIN LINEAL SIMPLE
En cualquier anlisis de regresin no basta hacer los clculos que se explicaron
antes, sino que es necesario evaluar qu tan bien el modelo (la lnea recta) explica
la relacin entre X y Y.
Para probar si existe una relacin de regresin significante, se debe realizar una
prueba de hiptesis.
Hay dos pruebas que son las usadas: Prueba t y F, en ambas se requiere una
estimacin de
El estadstico de prueba o de contraste se determina as:
Uno de los mtodos para rechazar la hiptesis nula (
= 0
0
(1.12)
ERROR ESTNDAR ESTIMADO DE
(1.13)
(1.14)
1
8
No rechazar que
Pendiente
Pr
|
Consideremos el ejemplo 1.1 (resistencia de la pulpa) para realizar la prueba de
hiptesis recin descrita.
Determinamos nuestras hiptesis:
0
Calculamos el error estndar estimado de
.
.
0.1285
Calculamos el estadstico de prueba:
.
.
.
Considerando un nivel de significancia de 0.05, determinamos el valor crtico; as
tenemos que t
./
, 12gl equivale a 2.1788
Sustituimos valores respectivos en la regla de rechazo si t
cal
/
si t
cal
/
se
rechaza H
o.
Como el estadstico de contraste es positivo, probamos la segunda
condicin de dicha regla, as tenemos que 12.64 2.1788 por lo tanto se rechaza
H
o
.
-2.1788 2.1788
12.64
9
Debido a que rechazamos H
o
podemos concluir que
lo proporciona el CMR.
SUMA TOTAL DE CUADRADOS STC = STC = STC = STC =
(1.16)
CUADRADO MEDIO DEBIDO AL ERROR =
(1.11)
CUADRADO MEDIO DEBIDO A LA REGRESIN =
(1.17)
10
Todo lo anterior podemos utilizarlo para generar otra forma de probar la hiptesis
sobre la significancia de la regresin:
Ya que si H
o
es verdadera, entonces el siguiente estadstico:
Tiene una distribucin F con 1 y n-2 grados de libertad en el numerador y
denominador respectivamente. Por lo tanto, se rechaza
= 0, si el estadstico
de prueba es mayor que el valor crtico correspondiente, es decir, se rechaza H
o
si
F>F
(, 1, n-2)
.
El anlisis de varianza para probar la significancia del modelo de regresin se
resume a continuacin.
Fuente de
variacin
Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
F Valor-p
Regresin SCR 1 CMR
Pr(F
>F
cal
)
Error o
residual
SCE n-2 CME
Total STC n-1
Tabla 1.5 Anlisis de varianza (ANOVA) para el modelo de regresin simple
Ejemplo 1.2 Al hacer el anlisis de regresin y el anlisis de varianza para el
modelo que se ajust a los datos del ejemplo 1.1 (resistencia de la pulpa), se
obtienen las tablas 1.6 y 1.7. Veamos los detalles.
En la pgina cuatro y ocho del presente material ya habamos visto que
=
130.675 y
= 1.6242,
= 0.1285 y
= 0
0
(1.20)
ESTADSTICO DE PRUEBA F
(1.21)
11
En cuanto al anlisis de varianza para la siguiente tabla ya tenemos el valor de
SCE=180.32, el cual se calcul en la pgina 6 del presente, por lo que nos falta
calcular los dems valores de dicha tabla.
Tomando informacin de la tabla 1.3 calcularemos la SCR de la siguiente manera:
Prcticamente ya tenemos todos los clculos para completar el anlisis de
varianza de la tabla 1.7, slo restara:
STC= 2,400.5+180.32= 2,580.86 CMR=
,.
= , .
CME=
.
= . F=
,.
.
= .
Fuente de variacin Suma de
cuadrados
Grados de
libertad
Cuadrado
medio
F Valor-p
Regresin 2,400.5 1 2,400.5 159.71 0.0000
Error o residual 180.32 12 180.32
Total 2,580.86 13
Tabla 1.7 Anlisis de varianza (ANOVA) para el ejemplo 1.2
En esta tabla se observa que el modelo de regresin es significativo, ya que el
valor p es menor de 0.05. Esta misma conclusin se obtiene si se procede con el
mtodo del valor crtico, ya que de las tablas de distribucin F se obtiene que
= 159.71 >
.;,
= 6.55
Porcentaje
de fibra
(X
i
)
Resistencia
(Y
i
)
Resistencia
estimada
4 134 137.17 445.63
6 145 140.42 319.16
8 142 143.66 213.74
10 149 146.91 129.28
12 144 150.16 65.93
14 160 153.41 23.72
16 156 156.66 2.62
18 157 159.90 2.62
20 168 163.15 23.72
22 166 166.40 65.93
24 167 169.65 129.28
26 171 172.90 213.74
28 174 176.15 319.34
30 183 179.40 446.05
SCR= 2400.5
12
1.1.2 CALIDAD DEL AJUSTE EN LA REGRESIN LINEAL SIMPLE
En la seccin anterior estudiamos pruebas de hiptesis para verificar que hay una
relacin significativa entre X y Y; sin embargo, no hemos visto si tal relacin
permite hacer estimaciones con una precisin aceptable. Por ejemplo, es de
inters saber qu tanta de la variabilidad presente en Y fue explicada por el
modelo.
1.1.2.1 COEFICIENTE DE DETERMINACIN R
2
Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el
modelo se ajust a los datos. En el caso de la regresin lineal simple esto se
distingue al observar si los puntos tienden a ajustarse razonablemente bien a la
lnea recta (vase figura 1.2). Pero otro criterio ms cuantitativo es el que
proporciona el coeficiente de determinacin, que en regresin est definido por:
Es claro que 0 <
1. En general
,.
,.
= 0.930. Por
lo tanto, podemos decir 93% de la variacin observada en la resistencia es
explicada por el modelo (lnea recta), lo cual nos dice que la calidad del ajuste es
satisfactorio, y que por ello, la relacin entre X y Y es descrita adecuadamente por
una lnea recta.
Coeficiente de determinacin ajustado
se prefiere en lugar de
1.
=
=
(1.22)
(1.23)
13
Para el modelo del ejemplo 1.1, de acuerdo a la tabla 1.7, el coeficiente de
determinacin ajustado est dado por:
2,580.86 13 ] [180.32 12 ]
2,580.86 13
= .
Coeficiente de correlacin r. Es bien conocido que el coeficiente de correlacin,
r, mide la intensidad de la relacin lineal entre dos variables X y Y. Si se tiene n
pares de datos de la forma (X
i
,Y
i
), entonces este coeficiente se obtiene de la
siguiente manera:
=
Se puede ver que -1 r 1; si r es prximo a -1, entonces tendremos una relacin
lineal negativa fuerte, y si r es prximo a cero, entonces diremos que no hay
correlacin lineal, y finalmente si r es prximo a 1, entonces tendremos una
relacin lineal positiva fuerte. Por ejemplo, para los datos del ejemplo 1, el
coeficiente de correlacin es =
.
= . , lo cual habla de una
correlacin lineal positiva fuerte.
Media del error absoluto (mea). Otra forma de medir la calidad del ajuste es a
travs de la media del valor absoluto de los residuos, es decir:
Es claro que mientras mejor sea el ajuste, los residuos sern ms pequeos y, en
consecuencia, tambin la mea tender a ser ms pequea. La mea se puede ver
como una medicin para ver cunto falla en promedio el modelo al hacer la
estimacin de la variable de respuesta. En los datos del ejemplo 1.1, de acuerdo a
la tabla 1.3:
=
|3.17| + |4.59| +|1.7| + + |3.6|
14
=
43.37
14
= 3.0979
=
|
(1.24)
14
1.1.2.2 ANLISIS GRFICO DE RESIDUOS
Como complemento a lo que se ha discutido hasta aqu, un anlisis adecuado de
los residuos proporciona informacin adicional sobre la calidad del ajuste del
modelo de regresin y de esa manera es posible verificar si el modelo es
adecuado. Las grficas que suelen hacerse para completar el diagnostico del
modelo consisten en: graficar los residuos en papel de probabilidad normal,
graficar los residuos contra los predichos (
Adems de esto, en ocasiones es de inters obtener una estimacin por intervalo
para |
= error estndar de
180 170 160 150 140
7.5
5.0
2.5
0.0
-2.5
-5.0
Valores Predichos
R
e
s
i
d
u
o
s
Figura 1.4 Grfica de residuos contra estimados o predichos del ejemplo 1.1
INTERVALO DE CONFIANZA
( ,)
(1.25)
ERROR ESTNDAR DE
+
(
=1
(1.26)
16
Al intervalo 1.25 se le conoce tambin como intervalo para la recta de regresin.
Note que su amplitud depende de CME y de la distancia entre
. La amplitud
es mnima cuando
y se incrementa conforme |
| se hace ms grande.
Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo
1.1, y obtengamos el intervalo de confianza para la respuesta media en
= 12
(porcentaje en fibra).
El estimador puntual est dado por
910
. .
De aqu que el intervalo de confianza para la respuesta media en
= 12 est
dado por:
147.5 |
= 12) 152.82
30 25 20 15 10 5
190
180
170
160
150
140
130
120
Porcentaje de fibra
R
e
s
i
s
t
e
n
c
i
a
S 3.87648
R-Sq 93.0%
R-Sq(adj) 92.4%
Regression
95% CI
95% PI
Resistencia = 130.7 + 1.624 Porcentaje de fibra
La primera banda (roja) de confianza en torno a la recta de regresin de la figura
1.5 indica el clculo del intervalo de confianza de la expresin (1.25) para los
valores
|.
Figura 1.5 Recta de regresin con intervalo de confianza y de prediccin para observaciones
futuras para el ejemplo 1.1
17
1.2 REGRESIN LINEAL MULTIPLE
Aunque la seccin previa aplica a una relacin entre dos variables, en esta
seccin veremos un mtodo para analizar una relacin lineal que incluye ms de
dos variables.
Al igual que en la seccin anterior, slo estudiaremos relaciones lineales.
Utilizamos la siguiente ecuacin de regresin mltiple para describir relaciones
lineales que incluyen ms de dos variables.
Emplearemos la siguiente notacin, que surge de manera natural de la notacin
utilizada en la seccin anterior.
Notacin:
+ +
, ,
= estimado de
es un estadstico
muestral).
, ,
, ,
, ,
, ,
=es el error aleatorio, que permite a cada respuesta desviarse del valor promedio
de Y por la cantidad . Se debe suponer que los valores de son independientes;
tienen una media de 0 y una varianza comn
, ,
++
+ (1.27)
Por lo tanto la forma general de una ecuacin de regresin mltiple ESTIMADA es
++
(1.28)
18
Cuando estos supuestos respecto a se cumplen, el valor promedio de Y para un
conjunto dado de valores
, ,
++
Observemos que el modelo de regresin mltiple y los supuestos son muy
similares al modelo y los supuestos usados para la regresin lineal simple. Por lo
tanto, no nos sorprenda saber que los procedimientos de prueba y estimacin
tambin son extensiones de los usados en la seccin anterior.
Los modelos de regresin mltiple son muy flexibles y toman muchas formas, lo
que depende de cmo sean introducidas las variables independientes
, ,
en el modelo.
ANALISIS DE REGRESIN MLTIPLE
Este anlisis tiene que ver con procedimientos de estimacin, prueba y
diagnstico diseados para ajustar el modelo de regresin mltiple =
++
a un conjunto de datos.
Debido a la complejidad de los clculos, estos procedimientos se ponen en
prctica casi siempre mediante un programa de regresin en uno o varios
paquetes de software. Seguiremos los patrones bsicos establecidos en la
regresin lineal simple, comenzando con una descripcin de los procedimientos
generales e ilustrados con un ejemplo.
Veamos cmo podemos calcular la ecuacin de regresin mltiple. Por
conveniencia utilizaremos solamente dos variables independientes en el problema
que trabajaremos en esta seccin. Debemos tener en consideracin, que en
principio la misma tcnica es aplicable a cualquier nmero de variables
independientes.
Ejemplo 1.3 El SAT est tratando de estimar la cantidad mensual de impuestos no
pagados descubiertos por su departamento de auditoras. En el pasado, el SAT
estimaba esta cantidad sobre la base del nmero esperado de horas de auditoras
de campo. En los ltimos aos, sin embargo, las horas de trabajo de auditoras de
campo se han vuelto un factor de prediccin errtico de los impuestos reales no
pagados. Como resultado de ello, el SAT est buscando otro factor con el cual
pueda mejorar la ecuacin de estimacin.
19
El departamento de auditoras tiene un registro del nmero de horas que sus
computadoras usan para detectar impuestos no pagados. Podramos combinar
esta informacin con los datos referentes a las horas de trabajo de auditoras de
campo y obtener una ecuacin de estimacin ms precisa para los impuestos no
pagados descubiertos cada mes? En la siguiente tabla se presentan esos datos
correspondientes a los ltimos diez meses.
En la regresin simple, X es el smbolo utilizado para los valores de la variable
independiente. En la regresin mltiple tenemos ms de una variable
independiente. De modo que debemos continuar usando X, pero debemos aadir
un subndice (por ejemplo X
1
,X
2
) para diferenciar las variables independientes que
estamos utilizando.
En este ejemplo, dejaremos que X
1
represente el nmero de horas de trabajo de
auditoras en campo y X
2
represente el nmero de horas en computadora. La
variable dependiente, Y, ser los impuestos reales no pagados descubiertos.
Mes Horas de
trabajo de
auditora de
campo
(x
1
)
Horas en
computadora
(x
2
)
Impuestos
reales no
pagados
descubiertos
(Y
i
)
Enero 45 16 29
Febrero 42 14 24
Marzo 44 15 27
Abril 45 13 25
Mayo 43 13 26
Junio 46 14 28
Julio 44 16 30
Agosto 45 16 28
Septiembre 44 15 28
Octubre 43 15 27
Tabla 1.8 Datos de la auditora del SAT empleados en el ejemplo 1.3
Recordemos que en la regresin simple, la ecuacin
describe la
relacin entre dos variables X y Y. En regresin mltiple, debemos extender esa
ecuacin, agregando un trmino para cada nueva variable. En forma simblica, la
ecuacin (1.28) es la frmula que podemos utilizar cuando tenemos dos variables
independientes
20
En la que:
= Interseccin con Y
, respectivamente.
Recordemos que visualizamos la ecuacin de estimacin como una lnea recta en
una grfica; as pues, podemos representar una ecuacin de regresin mltiple
con dos variables independientes como un plano, como el siguiente.
Aqu tenemos una forma tridimensional que posee profundidad, longitud y ancho.
Para adquirir una idea intuitiva de esta forma tridimensional, visualice la
interseccin de los ejes Y, X
1
y X
2
como el rincn de un cuarto.
Usaremos los datos de la tabla 1.8 y las siguientes ecuaciones para determinar los
valores de las constantes numricas
El resolver las ecuaciones 1.29, 1.30 y 1.31 para
(1.29)
(1.30)
(1.31)
21
todas las sumas implicadas en estas tres ecuaciones es mediante el uso de una
tabla para recoger y organizar la informacin necesaria, del mismo modo como lo
hicimos en la regresin simple. Hemos hecho esto en la siguiente tabla para el
problema del SAT
Y
(1)
X
1
(2)
X
2
(3)
X
1
Y
(2)x(1)
X
2
Y
(3)x(1)
X
1
X
2
(2)x(3)
(2)
2
(3)
2
Y
2
(1)
2
29 45 16 1,305 464 720 2,025 256 841
24 42 14 1,008 336 588 1,764 196 576
27 44 15 1,188 405 660 1,936 225 729
25 45 13 1,125 325 585 2,025 169 625
26 43 13 1,118 338 559 1,849 169 676
28 46 14 1,288 392 644 2,116 196 784
30 44 16 1,320 480 704 1,936 256 900
28 45 16 1,260 448 720 2,025 256 784
28 44 15 1,232 420 660 1,936 225 784
27 43 15 1,161 405 645 1,849 225 729
272 441 147 12,005 4,013 6,485 19,461 2,173 7,428
. ,
= . ,
= .
Tabla 1.9 Datos de 15 condominios para el ejemplo 1.4
Ahora, utilizando la informacin de la tabla anterior en las ecuaciones 1.29, 1.30 y
1.31, obtenemos tres ecuaciones con tres constantes desconocidas (
:
272 = 10
+ 441
+ 147
12,005 = 441
+ 19,461
+ 6,485
4,013 = 147
+ 6,485
+ 2,173
Cuando resolvemos estas tres ecuaciones de manera simultnea obtenemos:
= 13.828,
= 0.564 y
= 1.099
Sustituimos estos valores en la ecuacin de regresin de dos variables,
obtenemos una ecuacin que describe la relacin entre el nmero de horas de
trabajo de auditoras de campo, el nmero de horas de computacin y los
impuestos no pagados descubiertos por el departamento de auditoras:
= -13.828 + 0.564
+ 1.099
22
El departamento de auditoras puede utilizar esta ecuacin mensualmente para
estimar la cantidad de impuestos no pagados que va a descubrir.
Supongamos que el SAT desea aumentar la cantidad de sus descubrimientos de
impuestos no pagados durante el siguiente mes. Como los auditores entrenados
son escasos, el SAT no tiene la intencin de contratar personal adicional. El
nmero de horas de trabajo en auditoras de campo, entonces, permanecer en el
nivel de octubre, alrededor de 4,300 horas. Pero con el fin de aumentar sus
hallazgos de impuestos no pagados, el SAT espera aumentar el nmero de horas
en computadora a aproximadamente 1,600. Como consecuencia de lo anterior:
+ 1.099
= -13.828 + (0.564)(43) +(1.099)(16)
= -13.828 + 24.252 + 17.584
= 28.008 descubrimientos estimados en $28008,000
Por consiguiente, en el pronstico para noviembre, el departamento de auditoras
espera encontrar una evasin de impuestos de aproximadamente 28 millones de
dlares, para esta combinacin de factores.
Hasta este punto nos hemos referido a
como las pendientes del plano de regresin mltiple. Pero, para ser ms precisos,
deberamos decir que estas constantes numricas son los coeficientes de
regresin estimados. La constante
es el valor de
.
En el ejemplo del SAT, podemos dejar constante el nmero de horas de trabajo de
auditora de campo, X
1
, y cambiar el nmero de horas en computadora, X
2
.
Cuando hacemos esto, el valor de
aumenta en $564,000.
Como vemos, cada variable independiente puede ser responsable por algo de la
variabilidad de la variable dependiente.
23
En resumen, la regresin mltiple es slo una tcnica para usar varias variables
independientes para construir una mejor ecuacin de prediccin.
LA REGRESIN MLTIPLE
En la seccin inicial y hasta donde vamos de la presente, hemos visto problemas
simplificados y muestras de tamao pequeo. Despus del ejemplo anterior,
probablemente hayamos concluido que no nos interesa la regresin si tenemos
que realizar los clculos a mano. De hecho, conforme aumenta el tamao de las
muestras y el nmero de variables independientes de la regresin se hace mayor,
rpidamente se vuelve impracticable hacer los clculos, incluso con la ayuda de
una calculadora de bolsillo.
Sin embargo, como profesionistas, tendremos que tratar con problemas complejos
que requieren muestras ms grandes y variables independientes adicionales. Para
ayudarnos a resolver estos problemas ms detallados, utilizaremos una
computadora, lo cual nos permitir efectuar un gran nmero de clculos en un
perodo muy pequeo.
Para demostrar cmo una computadora maneja el anlisis de regresin mltiple,
tomemos el problema del SAT de la seccin anterior. Supongamos que el
departamento de auditoras agrega a su modelo la informacin correspondiente a
las recompensas pagadas a los informantes. El SAT desea incluir esta tercera
variable independiente, X
3
, debido a que siente que es verdad que existe una
cierta relacin entre estos pagos y la evasin de impuestos descubierta.
Mes Horas de
trabajo de
auditora de
campo
(x
1
)
Horas en
computadora
(x
2
)
Recompensa
a
informantes
(X
3
)
Impuestos
reales no
pagados
descubiertos
(Y
i
)
Enero 45 16 71 29
Febrero 42 14 70 24
Marzo 44 15 72 27
Abril 45 13 71 25
Mayo 43 13 75 26
Junio 46 14 74 28
Julio 44 16 76 30
Agosto 45 16 69 28
Septiembre 44 15 74 28
Octubre 43 15 73 27
Tabla 2.0 Datos de la auditora del SAT empleados en el ejemplo 1.3
24
En la tabla 2.0 se recogi la informacin correspondiente a los ltimos diez meses.
Para resolver este problema, el departamento de auditoras ha utilizado el
procedimiento de regresin mltiple del paquete estadstico Minitab. Desde luego
que todava no sabemos cmo interpretar la solucin proporcionada por el
paquete, pero como veremos ms adelante, la mayora de los nmeros que se
dan en la solucin corresponden bastante bien a los que hemos analizado en el
contexto de regresin simple.
Una vez que todos los datos se han capturado en la computadora y se han elegido
las variables independiente y dependiente, el programa Minitab calcula los
coeficientes de regresin y varias estadsticas asociadas con la ecuacin de
regresin. Miremos lo que se obtiene para el problema del SAT y veamos que
significan los nmeros producidos. La primera parte del informe se da en la
siguiente figura.
Como podemos ver, Minitab muestra explcitamente la ecuacin de estimacin, as
como tambin da una tabla con los coeficientes. Por lo tanto, podemos leer la
ecuacin de estimacin como:
= -45.796 + 0.597
+ 1.177
+ 0.405
Podemos interpretar esta ecuacin del mismo modo en que interpretamos la
ecuacin de regresin de dos variables en la pgina 21 de este material. Si
mantenemos constante el nmero de horas de trabajo en auditoras de campo, X
1
,
y el nmero de horas en computadora, X
2
, y cambiamos la recompensa a
informantes, X
3
, entonces el valor de
se incrementar en $1177,000. Finalmente, si X
2
y X
3
se mantienen fijas,
estimamos que un gasto adicional de 100 horas en las auditoras de campo
descubrir una evasin de impuestos adicional de $597,000.
The regression equation is
Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)
Predictor Coef SE Coef T P
Constant -45.796 4.878 -9.39 0.000
Auditoria (x1) 0.59697 0.08112 7.36 0.000
Compu (x2) 1.17684 0.08407 14.00 0.000
Recompensa (x3) 0.40511 0.04223 9.59 0.000
25
Supongamos que en noviembre el SAT intenta dejar las horas de trabajo en
auditoras de campo y las horas en computadora en sus niveles de octubre (4,300
y 1,500), pero decide aumentar las recompensas pagadas a los informantes a
$75,000. Cunto de impuestos no pagados esperan descubrir en noviembre?
Sustituyendo estos valores en la ecuacin de regresin estimada, obtenemos:
= - 45.796 + 0.597
+ 1.177
+ 0.405
= - 45.796 + 0.597(43) + 1.177(15) + 0.405(75)
= - 45.796 + 25.671 + 17.6556 + 30.375
= 27.905 descubrimientos estimados, $27905,000
De modo que el departamento de auditoras espera descubrir aproximadamente
$28 millones de evasin de impuestos en noviembre.
Una medida de dispersin, el error estndar de la estimacin de la regresin
mltiple, el cul es denotado en Minitab por la letra S y es mostrado
inmediatamente despus de la primera parte del informe, como vemos a
continuacin:
S = 0.286128 R-Sq = 98.3% R-Sq(adj) = 97.5%
Recordemos que la estimacin se hace ms precisa conforme el grado de
dispersin alrededor del plano de regresin mltiple se hace ms pequeo. Por lo
tanto considerando el informe de Minitab, podemos ver que la estimacin de los
impuestos descubiertos se desva en $286,000.
En la misma lnea en la que Minitab muestra el error estndar de la estimacin, se
encuentran los coeficientes de determinacin mltiple as como el coeficiente de
determinacin mltiple ajustado. Al igual que en regresin simple, en regresin
mltiple el coeficiente de determinacin representa la proporcin de la variabilidad
total de Y pero aqu, dicha variabilidad es explicada por el plano de regresin.
Por lo tanto, podemos decir 98.3% de la variacin total de impuestos no pagados
descubiertos se explica por las tres variables independientes. Para la regresin de
dos variables que efectuamos anteriormente, R
2
es solamente 0.7289, as que
72.89% de la variacin se explica por las horas de trabajo de auditora de campo y
las horas en computadora. El agregar las recompensas a los informantes explica
otro 25.45% de la variacin.
Si deseamos saber el porcentaje en el que las variables estn relacionadas
debemos calcular el coeficiente de correlacin, para lo cual sacamos raz
cuadrada al coeficiente de determinacin R
2
, para este caso en particular tenemos
26
que
.
La razn por la cual solamente podamos estimar la lnea de regresin de
poblacin en lugar de encontrarla exactamente era que los puntos de dato no caen
exactamente en la lnea de regresin de la poblacin. Debido a las perturbaciones
aleatorias, los puntos de dato satisfacan =
.
Exactamente el mismo tipo de situacin se tiene en la regresin mltiple. Nuestro
plano de regresin estimado:
Es una estimacin de un plano de regresin de poblacin verdadero pero
desconocido de la forma:
De nuevo, los puntos de dato individuales normalmente no caen con exactitud en
el plano de regresin de poblacin. Consideremos el problema del SAT para ver
cmo es esto. No todos los pagos a los informantes sern igualmente efectivos.
Algunas de las horas en computadora podran ser utilizadas para recolectar y
organizar datos; otras podran ser utilizadas para analizar tales datos en bsqueda
de errores y fraudes. El xito de la computadora en descubrir impuestos no
pagados puede depender de cunto tiempo se dedique a cada una de estas
actividades. Por stas y otras razones, algunos de los puntos de dato se
encontrarn por encima del plano de regresin y algunos estarn por debajo de
ste.
En esta seccin haremos inferencias acerca de las pendientes (
, ,
de la
ecuacin de regresin verdadera (la que se aplica a la poblacin completa)
basadas en las pendientes (
, ,
+ +
(1.28)
=
+ +
(1.27a)
27
INFERENCIAS ACERCA DE LA REGRESIN COMO UN TODO (PRUEBA
GLOBAL)
En la regresin lineal simple se usaron las pruebas t y F, las que llevaban a la
misma conclusin; es decir, si se rechaza la hiptesis nula, se concluye que b1
0. En la regresin mltiple, la prueba t y F tienen propsitos diferentes.
1. La prueba F se usa para determinar si existe una relacin de significancia
entre la variable dependiente y el conjunto de todas las variables
independientes; a esta prueba F se le llama prueba de significancia
global.
2. Si la prueba F indica que hay significancia global, se usa la prueba t para
ver si cada una de las variables individuales es significativa. Para cada una
de las variables independientes del modelo se realiza una prueba t. A cada
una de estas pruebas t se les conoce como pruebas de significancia
individual.
El modelo de regresin mltiple que se defini al inicio de esta seccin es:
++
+
La hiptesis de la prueba F comprende los parmetros del modelo de regresin
mltiple.
= =
= 0
:
Cuando se rechaza la hiptesis nula, la prueba proporciona evidencia estadstica
suficiente para concluir que uno o ms de los parmetros no es igual a cero y que
la relacin global entre Y y el conjunto de variables independientes X1, X2,,Xk
es significativa.
En la seccin 1.1.1.2 de este material, nos fijamos en tres trminos diferentes,
cada uno de los cuales es una suma de cuadrados. Los denotamos como:
STC = suma total de cuadrados =
SCR = suma de cuadrados debido a la regresin =
SCE = suma de cuadrados debido al error =
As tenemos que STC=SCR+SCE. Cada una de estas sumas de cuadrados tiene
un nmero asociado de grados de libertad.
28
STC tiene n-1 grados de libertad (n observaciones, pero perdimos un grado de
libertad debido a que la variable de la muestra est fija). SCR tiene k grados de
libertad, debido a que existen k variables independientes que se utilizaron para
explicar Y. SCE tiene n-k-1 grados de libertad, porque utilizamos nuestras n
observaciones para estimar k+1 constantes b
0
, b
1
, b
2,
,b
k
.
Por otro lado, un cuadrado medio es una suma de cuadrados dividida entre sus
correspondientes grados de libertad. Por lo tanto, el cuadrado medio debido a la
regresin (CMR) es SCR/k y el cuadrado medio debido al error (CME) es SCE/(n-
k-1).
El siguiente informe de Minitab corresponde al problema del SAT; dicho informe se
encuentra inmediatamente despus del anlisis de regresin visto anteriormente.
Aplicaremos la prueba F al problema del SAT. Como se tienen tres variables
independientes, las hiptesis se expresan como se mencion anteriormente:
= =
= 0
:
Como podemos ver, en el presente anlisis de varianza tenemos que el CMR =
9.7029 y que el CME = 0.0819; as mismo vemos que el estadstico de prueba F
tiene un valor de 118.52, el cual, si recordamos de la seccin anterior vimos que
ste se calcula dividiendo CMR/CME.
Ahora usaremos el mtodo del valor crtico para emplear la regla de rechazo y
emitir una conclusin. Para determinar dicho valor crtico se procede igual que en
la regresin lineal simple, pero lo realizaremos nuevamente aqu. Consideremos la
siguiente expresin:
;,
CUADRADO MEDIO DEBIDO A LA REGRESIN =
(1.32)
CUADRADO MEDIO DEBIDO AL ERROR =
(1.33)
Analysis of Variance
Source DF SS MS F P
Regression 3 29.1088 9.7029 118.52 0.000
Residual Error 6 0.4912 0.0819
Total 9 29.6000
29
Donde:
= nivel de significancia dado
k = nmero de variables independientes = V
1
= grados de libertad
n-k-1 = nmero total de la muestra - nmero de variables independientes -1 = V
2
Suponiendo que el nivel de significancia es del 1%, en las tablas de distribucin F
buscamos lo siguiente:
;,
.
;,
.;,
.
La regla de rechazo dice: Rechazar H
o
si F
cal
F
Como 118.52 > 12.92, se rechaza H
El plano de regresin se deriva de una muestra y no de la poblacin completa.
Como resultado de ello, no podemos esperar que la ecuacin de regresin
verdadera
+ +
+ +
. Pero, a pesar de
esto, podemos utilizar el valor
es parecido al
procedimiento analizado en la seccin 1 de este material sobre prueba de
hiptesis. Para entender este problema regresemos al problema en que se
relaciona la evasin de impuestos descubierta con las horas de trabajo en
auditoras de campo, horas en computadora y recompensa a informantes. En la
12.92 Fcal= 118.52
30
The regression equation is
Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2)
+ 0.405 Recompensa (x3)
Predictor Coef SE Coef T P
Constant -45.796 4.878 -9.39 0.000
Auditoria (x1) 0.59697 0.08112 7.36 0.000
Compu (x2) 1.17684 0.08407 14.00 0.000
Recompensa (x3) 0.40511 0.04223 9.59 0.000
pgina 21 apuntamos que
y compararlo con
= 0.597.
Supongamos que durante un largo periodo transcurrido, la pendiente de la relacin
entre Y y X
1
fue de 0.400. Para probar si todava esto es vlido, podramos definir
las hiptesis como:
ha
cambiado su valor histrico de 0.400.
Para encontrar el estadstico de prueba para
a mano, pero,
afortunadamente, el programa Minitab calcula los errores estndar de todos los
coeficientes de regresin. Por conveniencia, repetiremos el resultado de Minitab
Del resultado anterior, vemos que
en el resultado
obtenido con Minitab, podemos usar la ecuacin siguiente para estandarizar la
pendiente de nuestra ecuacin de regresin ajustada:
As tenemos que,
=
..
.
= .
Supongamos que estamos interesados en probar nuestras hiptesis al nivel de
significancia de 10%. Como tenemos diez observaciones en nuestra muestra de
datos, y tres variables independientes, sabemos que se tienen n-k-1= 10-3-1= 6
ESTADSTICO DE PRUEBA
(1.32)
31
grados de libertad. Buscamos en la tabla de distribucin t, en la columna
correspondiente al 10% hasta que encontremos el rengln de los 6 grados de
libertad. Ah, notamos que el valor apropiado de t es 1.943. Como nos preocupa si
ha cambiado su valor
tradicional. Debido a esto, sentimos que cada 100 horas adicionales de trabajo en
auditoras de campo ya no aumentan la cantidad de descubrimientos de impuestos
no pagados en $400,000 como lo hacan en el pasado.
-1.943 1.943
2.432
Antes tenamos el 0.400 como un parmetro que nos servia para pensar que si aumentbamos
100 horas a las auditoras de campo seguramente descubriramos $400,000 de impuestos no
pagados, pero como la prueba nos dice que rechacemos el 0.400 como vlido, ya no hay un
parmetro que nos deje suponer lo anterior, sino que aumentemos lo que aumentemos no
sabremos cuantos impuestos no pagados descubriremos.
32
De los resultados de Minitab
nivel de significancia () de 5% y 6
grados de libertad
1.2.2 INTERVALOS DE CONFIANZA Y PREDICCIN EN
REGRESIN LINEAL MULTIPLE
Adems de la prueba de hiptesis, tambin podemos construir un intervalo de
confianza para cualquiera de los valores de
es una
estimacin puntual de
en el ejemplo
del SAT. Los datos importantes son:
= 2.447
Con esta informacin podemos calcular el intervalo de confianza de la siguiente
manera:
= 0.405 + 2.4470.0422
= 0.508 lmite superior del intervalo
= 0.405 2.4470.0422
= 0.302 lmite inferior del intervalo
Vemos que podemos estar seguros en 95% de que cada $1,000 adicionales
pagados a informantes aumenta el descubrimiento de impuestos no pagados en
una cantidad entre $302,000 y $508,000.
Al igual que en regresin lineal simple podemos construir intervalos de confianza
sobre la respuesta media para el conjunto de condiciones dadas por las variables
independientes.
Un intervalo de confianza de (1-)100% para la respuesta media de X
1
, X
2
,,X
k
es:
Donde:
= valor de la distribucin t con n-k-1 grados de libertad
= 0.405
= 0.0422
INTERVALO DE CONFIANZA
(1.33)
33
Con los datos del ejemplo del SAT, construiremos un intervalo de confianza de
95% para la respuesta media, cuando X
1
= 42, X
2
= 13 y X
3
= 69. Como ya lo
mencionamos anteriormente, los clculos de forma manual en regresin mltiple
resultan poco prcticos, por lo tanto seguimos explotando las herramientas del
programa Minitab, as que una vez ingresados los valores deseados para cada
una de las variables independientes, dicho programa nos arroja el siguiente
resultado:
Analicemos el informe de Minitab; en primer lugar tenemos la respuesta media
estimada,
+ (1.34)
Por lo tanto la forma general de una ecuacin de regresin no lineal ESTIMADA es
(1.35)
Figura 1.6 diagrama de dispersin del ejemplo 1.4
35
Las siguientes frmulas nos permiten calcular de forma manual los coeficientes de
la ecuacin de regresin no lineal estimada:
Para facilitar un poco el clculo de las frmulas anteriores, se construye la
siguiente tabla de datos:
X Y X
2
X
3
X
4
X*Y X
2
*Y Y
2
X Y X
2
X
3
X
4
X*Y X
2
Y Y
2
Tabla 2.1 Organizacin de datos para clculo de
Ejemplo 1.4 En un estudio de variables que afecta la productividad en el comercio
de comestibles al menudeo, Erick Moreno usa valor agregado por hora de trabajo
para medir la productividad de tiendas de comestibles al menudeo. l define valor
agregado como el excedente (dinero generado por el negocio) disponible para
pagar empleados, mobiliario y enseres y equipo. Los datos consistentes con la
relacin entre valor agregado por hora de trabajo Y y el tamao X de una tienda de
comestibles descrita en el artculo de Moreno, se muestran en la tabla 2.1 para 10
tiendas de alimentos ficticias. Escoja un modelo para relacionar Y con X.
(1.36)
(1.37)
(1.38)
36
Tienda Valor agregado por hora
de trabajo
(Y)
Tamao de tienda (miles
de pies cuadrados)
(X)
1 4.08 21.0
2 3.40 12.0
3 3.51 25.2
4 3.09 10.4
5 2.92 30.9
6 1.94 6.8
7 4.11 19.6
8 3.16 14.5
9 3.75 25.0
10 3.60 19.1
Tabla 2.1 Datos ficticios de diez tiendas de alimentos
Podemos investigar la relacin entre Y y X al observar el diagrama de puntos de la
figura 1.6, el cul insertamos nuevamente aqu:
30 25 20 15 10
4.0
3.5
3.0
2.5
2.0
X
Y
Esta grfica siguiere que la productividad, Y, aumenta cuando el tamao de la
tienda de comestibles, X, aumenta hasta alcanzar un tamao ptimo. Arriba de
ese tamao, la productividad tiende a disminuir. La relacin parece ser curvilnea y
un modelo cuadrtico,
0.1594 + 0.3919
0.009495
La grfica de esta ecuacin cuadrtica junto con los puntos de datos se muestran
en la figura 1.7:
30 25 20 15 10
4.0
3.5
3.0
2.5
2.0
X
Y
S 0.250298
R-Sq 87.9%
R-Sq(adj) 84.5%
Fitted Line Plot
Y = - 0.1594 + 0.3919 X
- 0.009495 X**2
Para evaluar lo adecuado del modelo cuadrtico, podemos realizar una prueba de
hiptesis global, como la siguiente:
The regression equation is
Y = - 0.1594 + 0.3919 X - 0.009495 X**2
S = 0.250298 R-Sq = 87.9% R-Sq(adj) = 84.5%
Analysis of Variance
Source DF SS MS F P
Regression 2 3.19889 1.59945 25.53 0.001
Error 7 0.43855 0.06265
Total 9 3.63744
Sequential Analysis of Variance
Source DF SS F P
Linear 1 0.80032 2.26 0.171
Quadratic 1 2.39858 38.29 0.000
Figura 1.7 Recta de regresin cuadrtica ajustada para el ejemplo 1.4
38
Establecemos las hiptesis:
0
Con un nivel de significancia de 5% y procediendo por el mtodo del valor crtico
tenemos que
.;,
. .
Recordemos que el estadstico de contraste est dado por
.
.
.
Rechazamos la hiptesis nula; en consecuencia, el ajuste total del modelo es
altamente significativo. Por otro lado, vemos que el coeficiente de determinacin,
R
2
, muestra un ajuste de la lnea a los puntos en 87.9% y si calculamos el
coeficiente de correlacin, R, ste nos dice que la relacin entre las variables es
de un 93.7%, por todo esto podemos concluir que la productividad en el comercio
de los comestibles al menudeo est altamente relacionado con el tamao de la
tienda.
6.54 F
cal
23.53
39
BIBLIOGRAFA:
Levin, Richard I. y Rubin S. David. Estadstica para administradores.
Prentice-Hall Hispanoamrica, 1996.
Anderson, David R., Sweeney Dennis J. y Williams Thomas A. Estadstica para
administracin y economa.
Cengage Learning Editores, 2008.
Mendenhall, William, Beaver, Robert J. y Barbara M. Introduccin a la probabilidad
y estadstica.
Cengage Learning Editores, 2010