Anda di halaman 1dari 16

Ejercicio 17 (Libro Gutirrez, De la Vara)

Considere un modelo de regresin lineal mltiple con cuatro variables:


y i=B0 + B1 x 1 i+ B2 x 2i + B4 i + i ; i=1,2 , n
y suponga que para estimar los parmetros se

utilizaron un total de 12 observaciones, es decir, n=12 . Conteste las siguientes preguntas:

a) Explique en forma esquemtica el procedimiento matemtico para estimar los


parmetros que minimizan los errores por mnimos cuadrados.

Teniendo en cuenta el esquema matemtico general para este modelo, se tiene:

y i=B0 + B1 x 1 i+ B2 x 2i + Bk x ki + i ;

k
y i=B0 + B j x ji + i ,
j=1

i=1,2 .12 ; k =4

Los datos se pueden estructurar en la siguiente tabla:


y x1 x2 xk

y1 x 11 x 21 xk 1

y2 x 12 x 22 xk 2

y 12 x 112 x 212 x k 12

Bj
Para hallar los estimadores de mnimos cuadrados para , se deben minimizar los errores, por
tanto se despejan, se elevan al cuadrado y se suman. Esto significa que la funcin queda de la
siguiente manera:
y iB
4
2
( 0 j x ji )
j=1
12 12
2
S= i =
j =1 i=1

b) Denote el modelo en forma matricial: y= X + , exprese con precisin todas las

matrices involucradas en el modelo.

[] [ ] [] []
y1 1 x 11 x 21 x 41 0 1
y= y 2 X = 1 x 12 x 21 x 42 = 1 = 2

y12 1 x 1 12 x2 12 x 4 12 12 12

c) Proporcione la expresin matricial para los estimadores de mnimos cuadrados.

El estimador de mnimos cuadrados de es


^ 1
=( X ' X ) X ' y

2
El estimador de mnimos cuadrados de
SS E = y ^ ' X ' y

d) Especifique la hiptesis de significancia del modelo y lo que significa aceptar o


rechazar esta hiptesis.

Para este modelo se tiene:


H 0 : 1= 2= 3 = 4=0

H 0 : j=0 donde j=1 4

H a : j 0 para al menos una j

H0
El rechazo de la Hiptesis Nula ( implica que por lo menos una de las variables
x1 x 2, , x 4
independientes o regresoras , contribuye significativamente a este
modelo. Si la hiptesis se acepta quiere decir que los coeficientes de estas variables son
igual a cero y ningn trmino o variable en el modelo tiene una contribucin significativa al
explicar la variables respuesta.

F0
e) D la expresin del estadstico de prueba , para la hiptesis anterior, as como
una explicacin racional de porqu funciona como estadstico de prueba, es decir, vea
cuando este estadstico tiene valores grandes o pequeos, y lo que significa en
trminos de calidad de ajuste.

El estadstico de prueba est dado por la siguiente ecuacin:

S CR /k C MR
F0 = =
S C E /(nk1) C M E

k =grados de libertad y es igual a 4( para este ejercicio)

C M R =Cuadrado medio de regresin

C M E =Cuadrado medio de error o residual

F0 > F ( ,k , nk1) p=P ( F> F 0 ) < ,


La hiptesis nula se rechaza si , o si el valor lo que
significa que entre ms pequeo sea este estadstico, tiende a ser menor que el valor de rechazo o
significancia del problema.

C MR F0
Esto conlleva a que entre mayor sea tiende a ser grande el estadstico lo que
significa que las constantes del modelo son grandes y por ende hay una significancia de las
F0
variables. En otras palabras si tiene un valor grande, es mejor la capacidad de prediccin o
de calidad de ajuste, si es menor, se tiene una baja capacidad de predictibilidad.

f) Formule las hiptesis sobre los parmetros individuales del modelo y comente qu
significa
j
Las hiptesis para probar la significacin de los coeficientes de regresin individual , como su
mismo nombre lo indica, se calculan de manera independiente para cada uno de ellos. Estas
hiptesis corresponden a:

H 0 : j=0 donde j=1 4

Ha: j 0

H 0 : j=0 xj
Si se rechaza, esto indica que la variable puede eliminarse del modelo porque
no es significante en l.

g) Proporcione la expresin para el estadstico de prueba para el caso

Se tiene en cuenta el estadstico de prueba T-Student con n2 grados de libertad. Este

estadstico se calcula como el cociente entre el estimados y su error estndar.


^ j
t 0=
^ 2
C jj

El valor de este estadstico es utilizado para contrastar la hiptesis de que el coeficiente es igual

a cero (H0: = 0 frente a H a: 0). La hiptesis nula se rechaza si | 0| /2 ,n k1 , lo que


t >t

significa que entre el valor de este estadstico sea ms grande, tiende a ser mayor que el valor
crtico obtenido en tablas de distribucin T-Student, entonces se encuentra en el rea de
aceptacin.

h) Cules son los riesgos de hacer predicciones fuera de la regin de los datos
originales?

Fuera de la regin, los aspectos fsicos o sociales que estn atrs de todo modelo de
regresin pueden empezar a actuar de otra forma, muy fuera de la regin de los datos
originales empiezan a actuar otros fenmenos no considerados en el modelo original.

Este riesgo es ms grande en el anlisis de regresin mltiple, ya que se trabaja con


regiones multidimensionales.
Ejercicio 18 (Libro Gutirrez, De la Vara)

En una empresa dedicada a anodizar artculos de aluminio (bateras de cocina), el anodizado se


logra con una solucin hecha a base de cidos (sulfrico, ctrico, brico) y dicromato de aluminio. En
este proceso se controla el PH de la solucin, la temperatura, la corriente y el tiempo de
permanencia. Debido al poco grosor del anodizado, han aumentado las quejas por la escasa
resistencia y durabilidad del producto. Para resolver este problema se decide estudiar, mediante un
experimento, la relacin del PH y la temperatura con el grosor anodizado. Los datos se muestran en
la siguiente tabla:

Temperatur
PH Espesor
a
1.2 -8 9
1.8 -8 14
1.2 8 10
1.8 8 19
1.2 -8 8
1.8 -8 12
1.2 8 11
1.8 8 20
1.5 0 14
1.5 0 13

a) Cules son las variables independientes y cul es la variable dependiente? Argumente.

R/a. Las variables independientes son la temperatura y el PH de la solucin, debido a que son las
que ocasionan la variabilidad en el espesor del anodizado y por lo general estn controladas en el
proceso:

X1 X2
: PH : Temperatura Y: Espesor

Y 0 1 X 1 2 X 2
b) Ajuste un modelo del tipo y anote la ecuacin del modelo ajustado.

Y 0 1 X 1 2 X 2
R/a. Modelo:

Donde los valores de Y, X1, X2 se muestran en la siguiente tabla:


Y X1 X2
9 1,2 -8
14 1,8 -8
10 1,2 8
19 1,8 8
8 1,2 -8
12 1,8 -8
11 1,2 8
20 1,8 8
14 1,5 0
13 1,5 0

Obteniendo de esta forma, un modelo matricial:

9 1,2 - 8 1
14 1,8 - 8
2
10 1,2 8 3
0
19 1,8 8 4
8 1,2 - 8 1 5
2
12 1,8 - 8 6
11 1,2 8 11 7
22

20 1,8 8 8
14 1,5 0
9
13 1,5 0 10

Utilizando el programa Statgraphics, se obtuvo los coeficientes de cada variable independiente:

Parmetro Estimacin Error Estndar Estadstico T Valor-P


CONSTANTE -3,875 2,60682 -1,48648 0,1807
X1 11,25 1,71073 6,57615 0,0003
X2 0,265625 0,0641523 4,14054 0,0043

0 3,875
1 11,25
2 0,265625
Y 3,875 11,25 X 1 0,265625 X 2

c) A partir del modelo ajustado, cul es el espesor estimado cuando se utiliza un PH=2 y una
temperatura de 10 grados?

X 1 2 y X 2 10
R/a. Cuando

Yi 3,875 11,25(2) 0,265625(10)


Yi 21,28125

Es decir, que cuando la solucin tiene un PH de 2 y una temperatura de 10 grados, el espesor del
anodizado ser de 21,28125.

d) El modelo es adecuado? Argumente con base en grficas de residuo, pruebas de hiptesis y


coeficientes de determinacin.

R/a. Con el objeto de establecer si el modelo es adecuado, se procede a realizar las pruebas de
Hiptesis pertinentes.

En primera instancia se requiere comprobar si la regresin es significativa, a travs de la siguiente


hiptesis:

H 0 1 2 0
; indicando que ninguna variable tiene una contribucin significativa al explicar la
variable de respuesta (Y).

H1 1 2
; indicando que por lo menos un trmino en este modelo contribuye de manera
significativa a explicar la variable de respuesta (Y).

Tomando los datos de la ANOVA generados del programa para el anlisis de varianza se tiene que:

Fuente Suma de Gl Cuadrado Razn-F Valor-P


Cuadrados Medio
Modelo 127,25 2 63,625 30,19 0,0004
Residuo 14,75 7 2,10714
Total (Corr.) 142,0 9
R2
Con los cuales se procede a calcular el coeficiente de determinacin y el coeficiente de
R 2 aj
determinacin ajustado :
SC R
R2 89,6127%
S yy

CM E
R 2 aj 1 86,644%
CM Total

El estadstico R-Cuadrada indica que el modelo as ajustado explica 89,6127% de la variabilidad en


Y. El estadstico R-Cuadrada ajustada, que es ms apropiada para comparar modelos con diferente
nmero de variables independientes, es 86,6449%.

Por lo que como ambos coeficientes tienen valor superior a 0,7, se puede decir que el modelo tiene
un ajuste satisfactorio. Y teniendo en cuenta que el valor-P en la tabla ANOVA es menor que 0,05, se
dice que existe una relacin estadsticamente significativa entre las variables con un nivel de
confianza del 95,0%.

En segunda instancia se mira el anlisis de regresin generado:

Parmetro Estimacin Error Estndar Estadstico T Valor-P

CONSTANTE -3,875 2,60682 -1,48648 0,1807


X1 11,25 1,71073 6,57615 0,0003
X2 0,265625 0,0641523 4,14054 0,0043

Como el valor-P ms alto de las variables independientes es 0,0043, que corresponde a la


temperatura, y es menor que 0,05, ese trmino es estadsticamente significativo con un nivel de
confianza del 95,0%.

Y en ltima instancia, para determinar si el modelo es adecuado se analizan las siguientes grficas
de residuos:
Grfico Y (Observado) Vs Y(Predicho)

En la cual se puede observar que los datos calculados se encuentran muy prximos a los
observados.

Grfico de Residuos

Teniendo en cuenta la grfica anterior, se observa que de los 10 datos calculados 3 se alejan
considerablemente del valor observado, pero la mayora se encuentra dentro del margen de error
aceptado.

Por lo que tomando como base estas grficas, las pruebas de hiptesis y los coeficientes de
determinacin, se puede decir que el modelo ajustado es adecuado.
e) Cree que valdra la pena pensar en aadir otro trmino al modelo para mejorar el ajuste?
Argumente.

R 2 aj 86,644% R 2 89,6127%
R/a. Teniendo en cuenta que tiende a ser menor que , en el modelo hay
trminos que no contribuyen de manera significativa a este, y se piensa que podra ser la variable
TEMPERATURA, tomando como referencia la comparacin de los estadsticos de las dos variables
dependientes.

Ejercicio 6 (Libro Montgomery)

Se realiz un estudio sobre el desgaste y de un cojinete y su relacin con


x 1=viscosidad del aceite x 2=carga
y . Se obtuvieron los siguientes datos:

y x1 x2

193 1.6 851


230 15.5 816
172 22.0 1058
91 43.0 1201
113 33.0 1357
125 40.0 1115

a) Ajustar un modelo de regresin lineal mltiple a los datos.

X 1, X 2 , . , X k
Sea variables independientes o regresoras, y sea Y una variable de respuesta,
entonces el modelo de regresin lineal mltiple con k variables independientes es el polinomio de
primer orden:

Y = 0 + 1 X 1+ 2 X 2 + .+ k X k +

j
Donde los son los parmetros del modelo que se conocen como coeficientes de regresin y
es el error aleatorio, con media cero, E ( ) =0 y V ( )= 2 . Si en la ecuacin k =1

, se presenta un caso de regresin lineal simple y el modelo es una lnea recta; si k =2 , tal
ecuacin representa un plano.

Parmetro Estimacin Error Estadstico t Valor-P


Estndar
CONSTANTE 350,994 74,7531 4,69538 0,0183
X1 -1,27199 1,16914 -1,08797 0,3562

X2 -0,153904 0,0895297 -1,71903 0,1841


R-cuadrada = 86,179 %
R-cuadrado (ajustado para g.l.) = 76,965%
Error estndar del estadstico. = 25,4979
Error absoluto medio = 16,3191
Autocorrelacin de residuos en retraso 1 = -0,445756

De acuerdo a los resultados obtenidos en el software statgrphics para ajustar un modelo de


regresin lineal mltiple que describa la relacin entre Y y las 2 variables independientes, se obtiene
el siguiente modelo ajustado:

Y = 0 + 1 X 1+ 2 X 2

Y =350,9941,27199 X 10,153904 X 2

Donde:

0 = 350,994

1 = - 1,27199

2 = - 0,1539

b) Probar la significacin de la regresin.

Anlisis de Varianza

Fuente Suma de Gl Cuadrado Razn-F Valor-P


Cuadrados Medio
Modelo 12161,6 2 6080,79 9,35 0,0514
Residuo 1950,42 3 650,141
Total (Corr.) 14112,0 5
Grfico de Y

240

210
observado

180

150

120

90
90 120 150 180 210 240
predicho

Grfico de Residuos

2
Rediduo Estudentizado

-1

-2
90 120 150 180 210 240
predicho Y

Puesto que el valor-P en la tabla ANOVA es mayor o igual que 0,05, no existe una relacin
estadsticamente significativa entre las variables con un nivel de confianza del 95,0%. Esto se puede
observar en el grfico Y, en donde se muestra que la mayora de los puntos se encuentran un poco
alejados de la lnea recta.

c) Calcular el estadstico t para cada parmetro del modelo. Qu conclusiones pueden


sacarse?

Parmetro Estimacin Error Estndar Estadstico T Valor-P


CONSTANTE 350,994 74,7531 4,69538 0,0183
X1 -1,27199 1,16914 -1,08797 0,3562
X2 -0,153904 0,0895297 -1,71903 0,1841

De acuerdo a las pruebas t, cada uno de los regresores del modelo no son necesarios, debido a que
el valor p para cada parmetro es mayor que 0,05, mostrando poca relacin estadsticamente
significativa entre las variables. De igual forma, en la tabla anterior se observa que el valor p para
X1
es el ms alto, comparado con el nivel de significancia de 0,05, por lo que se recomienda
eliminarlo la observacin del modelo, para que este encuentre ms ajustado.

Ejercicio 7 (Libro Montgomery)

Se piensa que la potencia al freno desarrollada por el motor de un automvil en un dinammetro es


una funcin de la rapidez del motor en revoluciones por minuto (rpm), el octanaje del combustible y
la compresin del motor. Se llev a cabo un experimento en el laboratorio y los datos colectados
fueron:

Potencia al freno Rpm Octanaje Compresin


225 2000 90 100
212 1800 94 95
229 2400 88 110
222 1900 91 96
219 1600 86 100
278 2500 96 110
246 3000 94 98
237 3200 90 100
233 2800 88 105
224 3400 86 97
223 1800 90 100
230 2500 89 104

a) Ajustar un modelo de regresin lineal mltiple a los datos.


X 1, X 2 , . , X k
Sea variables independientes o regresoras, y sea Y una variable de respuesta,
entonces el modelo de regresin lineal mltiple con k variables independientes es el polinomio de
primer orden:

Y = 0 + 1 X 1+ 2 X 2 + .+ k X k +

j
Donde los son los parmetros del modelo que se conocen como coeficientes de regresin y
es el error aleatorio, con media cero, E ( ) =0 y V ( )= 2 . Si en la ecuacin k =1

, se presenta un caso de regresin lineal simple y el modelo es una lnea recta; si k =2 , tal
ecuacin representa un plano.

Parmetro Estimacin Error Estadstico T Valor-P


Estndar
CONSTANTE -266,031 92,6737 -2,87062 0,0208
rpm 0,0107132 0,00448326 2,3896 0,0439
Octanaje 3,13481 0,844435 3,71231 0,0059
Compresin 1,86741 0,534526 3,49358 0,0082

R-cuadrada = 80,652 porciento


R-cuadrado (ajustado para g.l.) = 73,3965 porciento
Error estndar del est. = 8,81239
Error absoluto medio = 5,37969
Autocorrelacin de residuos en retraso 1 = 0,465392

De acuerdo a los resultados obtenidos en el software statgrphics para ajustar un modelo de


regresin lineal mltiple que describa la relacin entre Y y las 3 variables independientes, se obtiene
el siguiente modelo ajustado:

Potencia al freno = -266,031 + 0,0107132*rpm + 3,13481*Octanaje + 1,86741*Compresin

b) Probar la significancia de la regresin. Qu conclusiones pueden sacarse?

Anlisis de Varianza

Fuente Suma de Gl Cuadrado Razn-F Valor-P


Cuadrados Medio
Modelo 2589,73 3 863,245 11,12 0,0032
Residuo 621,265 8 77,6581
Total (Corr.) 3211,0 11

Grfico de Potencia al freno

280

260
observado

240

220

200
200 220 240 260 280
predicho

Grfico de Residuos

2
Rediduo Estudentizado

-1

-2

-3
210 230 250 270 290
predicho Potencia al freno

Puesto que el valor-P en la tabla ANOVA es menor que 0,05, existe una relacin estadsticamente
significativa entre las variables con un nivel de confianza del 95,0%. Esto se puede observar en el
grfico Y, en donde se muestra que la mayora de los puntos se encuentran cercanos a la lnea
recta.

c) Con base en las pruebas t, son necesarios los regresores en el modelo?


Parmetro Estimacin Error Estadstico T Valor-P
Estndar
CONSTANTE -266,031 92,6737 -2,87062 0,0208
rpm 0,0107132 0,00448326 2,3896 0,0439
Octanaje 3,13481 0,844435 3,71231 0,0059
Compresin 1,86741 0,534526 3,49358 0,0082

De acuerdo a las pruebas t, cada uno de los regresores del modelo son necesarios, debido a que el
valor p para cada parmetro es menor que 0,05, mostrando una relacin estadsticamente
significativa entre las variables. De igual forma, en la tabla anterior se observa que el valor p para
rpm es el ms alto, comparado con el nivel de significancia de 0,05, por lo que se recomienda

eliminarlo la observacin del modelo, para que este encuentre ms ajustado.

Anda mungkin juga menyukai