Anda di halaman 1dari 51

Regresin Mltiple y Polinominal

Regresin Mltiple
y Polinominal
Contenido
Usa los Datos Histricos Primero
Regresin Polinominal
Qu es la Regresin Mltiple
El Problema de las Variables Correlacionadas
Mtodo de Construccin de Modelos
Concentracin de Variables Cuantitativas
Regresin Stepwise
Regresin Mltiple y
Polinominal - Objetivos de Aprendizaje
Al terminar este mdulo, tendrs la capacidad de...
1. Usar el anlisis de regresin para identificar y verificar
los KPIVs (causas), y determinar los mejores niveles de
operacin.
2. Realizar un anlisis de regresin cuando haya mltiples
variables independientes y/o trminos de orden superior.
3. Seguir un mtodo slido para la construccin de modelos
y as obtener la ecuacin predictiva ms confiable
posible en una situacin determinada.
Usa los Datos Histricos Primero
Antes de realizar un DOE, aprende lo que puedas de los
datos existentes.
Con frecuencia, las bases de datos existentes tienen varias
variables.
Mediante tcnicas de Regresin slidas, podemos analizar
los datos existentes para
Identificar las variables que tienen mayor impacto sobre la
salida (Y).
Identificar las variables que debemos incluir en un DOE.
Determinar los mejores niveles de operacin a partir de la
ecuacin predictiva resultante.
En otras palabras, con frecuencia el anlisis de regresin
identifica y verifica las causas. Algunas veces, slo con ste
podemos establecer los mejores niveles de operacin.
Tcnicas de Regresin
Las tcnicas de regresin avanzadas son necesarias ya
que muchas bases de datos tienen numerosas variables
independientes (Xs) y muchos valores para cada una.
Por ejemplo
El modelo lineal tal vez no funcione. Es posible que se
necesiten trminos de orden superior, como x
2
.
Pueden existir varias relaciones entre las variables, como
interacciones y correlaciones.
Y = f (x
1
, x
2
, x
3
)
Este mdulo presenta
1. Tcnicas de regresin mltiple y polinominal para manejar
estas situaciones.
2. Un procedimiento slido para realizar el anlisis de regresin.
Modelos Polinominales
En el caso de la regresin polinominal, generalmente se usa el
polinomio de grado inferior que funcione.
Si el diagrama de dispersin muestra un patrn "de curva", puede ser
apropiado un modelo polinominal.
y
x
(cbico) x x x y : Modelo:
3
3
2
2 1 0
+ + + =
) (cuadrtico) x x y : Modelo
2
2 1 0
+ + =
y
x
Ejemplo: Modelo Polinominal
35 30 25 20 15 10
40
30
20
X
Y
Cuad = 5.80697 R-Cuad= 27.0% R-Cuad (aj) = 19.7%
Y = 22.6810 + 0.377143 X
Grfica de Regresin
Considera los datos
pares en JC7.
Vemos que el modelo
lineal no es muy
conveniente.
Seguiremos con el
anlisis slo con fines
explicativos.
Se complet una
corrida de regresin,
incluyendo la prueba
de error puro por falta
de ajuste, error puro y
una grfica de
residuos vs x.
Descarte del Modelo Lineal
Regression Analysis: Y versus X
The regression equation is
Y = 22.7 + 0.377 X
Predictor Coef SE Coef T P
Constant 22.681 4.724 4.80 0.001
X 0.3771 0.1963 1.92 0.084
S = 5.807 R-Sq = 27.0% R-Sq(adj) = 19.7%
Analysis of Variance
Source DF SS MS F P
Regression 1 124.46 124.46 3.69 0.084
Residual Error 10 337.21 33.72
Lack of Fit 4 318.21 79.55 25.12 0.001
Pure Error 6 19.00 3.17
Total 11 461.67
El 19.7% no es
muy significativo.
La prueba de falta de ajuste
descarta la adecuacin del
modelo lineal.
Para el modelo lineal se considera
el 19.7% de variabilidad.
Patrn de Residuos no Aleatorio
35 30 25 20 15 10
10
0
-10
X
R
e
s
i
d
u
o
s
Residuos vs X
(la respuesta es Y)
La grfica de
residuos muestra
claramente un patrn
no aleatorio.
Ahora pasaremos a un modelo cuadrtico.
35 30 25 20 15 10
40
30
20
X
Y
Cuad = 1.57510 R-C = 95.2 % R-C (adj) = 94.1 %
- 0.0821429 X**2
Y = -12.9143 + 4.07357 X
Grfica de Regresin
El Modelo Cuadrtico Se Ve Mejor
Selecciona: Stat >
Regression >
Fitted line plot.
Haz clic en
Quadratic y luego
en OK.
El modelo cuadrtico
parece ser una
buena opcin. El
porcentaje de
variabilidad que se
representa es 94.1%.
Creacin de un
Trmino Cuadrtico
Para crear un trmino cuadrtico para el anlisis de
regresin:
Abre el archivo JC7.
Nombra una columna en blanco como X2 .
Selecciona: Calc > Calculator.
y despus....
Calculadora
C1 Y
C2 X
C3 X2
Guarda el
resultado en
X2
Expresin:
X*X
Interpretacin de los
Resultados de Minitab
Regression Analysis: Y versus X, X2
The regression equation is
Y = - 12.9 + 4.07 X - 0.0821 X2
Predictor Coef SE Coef T P
Constant -12.914 3.410 -3.79 0.004
X 4.0736 0.3324 12.25 0.000
X2 -0.082143 0.007291 -11.27 0.000
S = 1.575 R-Sq = 95.2% R-Sq(adj) = 94.1%
Analysis of Variance
Source DF SS MS F P
Regression 2 439.34 219.67 88.54 0.000
Residual Error 9 22.33 2.48
Lack of Fit 3 3.33 1.11 0.35 0.791
Pure Error 6 19.00 3.17
Total 11 461.67
Source DF Seq SS
X 1 124.46
X2 1 314.88
La variabilidad del 94.1%
que explica este modelo
tiene significancia.
La falta de prueba de ajuste
no descarta el modelo
cuadrtico.
Del SS
T
= 461.67, la x representa 124.46
unidades. Cuando se suma a x
2
,
representa 314.88 unidades adicionales.
Comparacin de Modelos
Lineales y Cuadrticos
En este ejemplo...
El modelo lineal tiene una R
2
(aj) = 19.7%
El modelo cuadrtico tiene una R
2
(aj) = 94.1%
Cuando se comparan los modelos, se debe usar una R
2
ajustada ya que cuando se suman trminos (ya sea que
tengan o no significancia estadstica) la R
2
siempre
aumenta.
Nota
Modelo Cuadrtico
Verificacin de Residuos
35 30 25 20 15 10
2
1
0
-1
-2
X
R
e
s
i
d
u
o
s
Residuos vs X
(la respuesta es Y)
La grfica de residuos vs x no muestra problemas.
Modelo Cuadrtico
Prueba de Normalidad
Valor P: 0.790
A Cuadrada: 0.219
Prueba de Normalidad Anderson-Darling
N: 12
Desv. Est. 1.42474
Promedio : 0
2 1 0 -1 -2
.999
.99
.95
.80
.50
.20
.05
.01
.001
P
r
o
b
a
b
i
l
i
d
a
d
RESI3
La prueba de normalidad no muestra evidencia de no
normalidad, con un valor P de .79. El modelo cuadrtico
ajusta bien!
Ejercicio en Grupo 1.1
Modelo Cuadrtico
Consulta tu cuaderno de trabajo.
Encuentra un modelo adecuado para el
ejemplo que le asignaron a tu equipo.
Ejercicio en Grupo 1.2 - Catapulta
Consulta tu cuaderno de trabajo.
Sigue las instrucciones para disparar la
catapulta y recolecta los datos. Encuentra un
modelo adecuado.
Qu es la Regresin Mltiple?
Si tenemos diversas variables que sospechamos/
sabemos estn relacionadas con una variable de
respuesta, y, de inters, podemos construir un modelo
de regresin mltiple.
Si usamos dos o ms variables de entrada, x
1
, x
2
, etc.,
los modelos se tornan mucho ms complejos, pero
tienen el potencial de producir informacin ms til y
arrojar predicciones ms precisas que los modelos de
una sola variable.
Uno de los problemas principales para construir
modelos de regresin mltiple es la imposibilidad de
ver la relacin entre x
1
, x
2
y la y.
Los datos en JC3 son:
y = % de impurezas en una solucin qumica
x
1
= temperatura (C)
x
2
= tiempo de esterilizacin (minutos)
Nuestro objetivo es construir un modelo de regresin y
usarlo para predecir el % medio de impurezas cuando se
establece un tiempo de 15 minutos y una temperatura de
120.
Estrategia
Propn un modelo.
Corre un programa de regresin, incluyendo todos los
procedimientos de verificacin de modelos.
Usa/interpreta el modelo una vez que est validado.
Ejemplo de Regresin Mltiple
20 19 18 17 16 15
2.6
2.1
1.6
tiempo
%
i
m
p
% de Impurezas vs Tiempo
La y vs x
2
(% de impurezas vs tiempo) muestra una relacin
ligeramente lineal. An cuando parece que no hay mucha
relacin, puede ser til en combinacin con x (temperatura).
125 115 105 95 85 75
2.6
2.1
1.6
temp
%

i
m
p
% de Impurezas
vs Temperatura
La y vs x
1
(% de impurezas vs temperatura) muestra una relacin
lineal ms clara.
Con base en las grficas, probaremos el modelo lineal.
Nuestras selecciones de Minitab son:
Stat > Regression > Regression.
% de impurezas en el cuadro de respuesta, temperatura en el
cuadro de prediccin.
Haz clic en Graphs (grficas) y luego en Residuals versus fits
(residuos vs ajustes).
Introduce tiempo y temperatura en el cuadro Residuals versus
variables (residuos vs variables) y haz clic en OK.
Haz clic en Options (opciones), y luego en Pure error (error puro),
introduce 15 120 en el cuadro de intervalos de prediccin y haz clic
en OK.
Haz clic en Results (resultados), selecciona la tercera opcin, y
luego OK.
Haz clic en Storage (almacenamiento) y verifica Residuals
(residuos).
Corre el programa ahora.
Prueba el Modelo Lineal
2 2 1 1 0
x x y + + =
Resultado de Minitab
Regresin Mltiple
Regression Analysis: %imp versus time, temp
The regression equation is
%imp = 2.86 + 0.0433 time - 0.0146 temp
Predictor Coef SE Coef T P
Constant 2.8567 0.1734 16.48 0.000
time 0.043333 0.008061 5.38 0.000
temp -0.0146000 0.0009873 -14.79 0.000
S = 0.06981 R-Sq = 96.5% R-Sq(adj) = 95.7%
El modelo representa 95.7% de la
variabilidad.
Cada variable tiene significancia,
dado que la otra variable se
incluye en el modelo.
Resultado de Minitab (continuacin)
Analysis of Variance
Source DF SS MS F P
Regression 2 1.20663 0.60332 123.78 0.000
Residual Error 9 0.04387 0.00487
Lack of Fit 3 0.01367 0.00456 0.91 0.492
Pure Error 6 0.03020 0.00503
Total 11 1.25050
Source DF Seq SS
time 1 0.14083
temp 1 1.06580
Predicted Values for New Observations
New Obs Fit SE Fit 95.0% CI 95.0% PI
1 1.7547 0.0347 ( 1.6762, 1.8331) ( 1.5783, 1.9310)
Values of Predictors for New Observations
New Obs time temp
1 15.0 120
Se predice que la media del % de impurezas ser
1.7547 cuando la temperatura es de 120 y el tiempo
es de 15 minutos.
De la SS
T
= 1.25050, 1.0658 se
debe a la temperatura. El .14083
adicional se debe al tiempo.
La prueba de falta de
ajuste no descarta el
modelo.
El 95.7% tiene
significancia.
Anlisis Residual
Residuos vs Tiempo
Residuos vs Temperatura
Residuos vs Valores Ajustados
Se examinaron tres grficas de residuos (las
tres diapositivas siguientes):
Las grficas de residuos no muestran
problemas de modelo.
125 115 105 95 85 75
0.1
0.0
-0.1
temperatura
R
e
s
i
d
u
o
s
Residuos vs temperatura
(la respuesta es % de imp)
Residuos vs Temperatura
Residuos vs Tiempo
20 19 18 17 16 15
0.1
0.0
-0.1
tiempo
R
e
s
i
d
u
o
s
Residuos vs Tiempo
(la respuesta es % de imp)
Residuos vs Valores Ajustados
2.6 2.1 1.6
0.1
0.0
-0.1
Valor Ajustado
R
e
s
i
d
u
o
s
Residuos vs Valores Ajustados
(la respuesta es % de imp)
Prueba de Normalidad
Valor P: 0.786
A Cuadrada: 0.220
Prueba de Normalidad Anderson-Darling
N: 12
Desv. Est.: 0.0631497
Promedio: -0.0000000
0.1 0.0 -0.1
.999
.99
.95
.80
.50
.20
.05
.01
.001
P
r
o
b
a
b
i
l
i
d
a
d
RESI1
La grfica
normal y la
prueba no
muestran
problemas con
la suposicin de
normalidad.
Nuestro modelo
lineal queda
validado.
El Problema de las
Variables Correlacionadas
En la regresin mltiple, si las variables de entrada x
1
, x
2
,
ect., no estn correlacionadas, el anlisis es ms directo
que en el caso de variables correlacionadas.
Por lo general en un experimento diseado, como en el
caso de este ejemplo, las variables no estn, o casi no
estn correlacionadas.
En nuestro ejemplo, con un coeficiente de correlacin = 0
para x
1
, x
2
, tenemos y = 2.86 - .0146x1 + .0433x2 con R
2
(aj) = 95.7%.
Variables No
Correlacionadas las R
2
de Adicin
Regression Analysis: % imp versus temp
The regression equation is
% imp = 3.62 0.0146 temp
Predictor Coef SE Coef T P
Constant 3.6150 0.1962 18.43 0.000
Temp -0.014600 0.001922 -7.60 0.000
S = 0.1359 R-Sq = 85.2% R-Sq (adj) = 83.8%
Regression Analysis: % imp versus time
The regression equation is
% imp = 1.40 + 0.0433 time
Predictor Coef SE Coef T P
Constant 1.3967 0.6800 2.05 0.067
Time 0.04333 0.03846 1.13 0.286
S = 0.3331 R-Sq = 11.3% R-Sq (adj) = 2.4%
Si hacemos la regresin de y
slo en x
2
obtenemos:
y = 3.62 - .0146x
1
con R
2
= 85.2%
Si hacemos la regresin de y
slo en x
1
obtenemos:
y = 1.40 + .0433 x
2
con R
2
= 11.3%
NOTA:
Los coeficientes de x
1
, x
2
no
cambian.
Los valores individuales de R
2
se
suman para obtener el valor
combinado de R
2
del 96.5%. Esto
no sucede cuando las variables de
entrada estn correlacionadas.
Ejercicio en Grupo 1.3 Regresin Mltiple
Consulta tu cuaderno de trabajo.
Encuentra un buen modelo predictivo para el
ejemplo que se asign a tu equipo.
Regresin Mltiple:
Variables X Correlacionadas
Los datos en JC6 son:
y = dimetro de la parte extruda
x
1
= temperatura de dado
x
2
= velocidad de extrusin
x
3
= temperatura del material
Para ver las correlaciones, selecciona:
Stat > Basic stat > Correlation.
Matriz de Correlacin
La correlacin alta entre las variables x puede causar problemas.
Correlations: diam, dtemp, rate, mtemp
diam dtemp rate
dtemp 0.824
0.012
rate 0.543 0.000
0.164 1.000
mtemp 0.689 0.965 -0.214
0.059 0.000 0.610
Cell Contents: Pearson correlation
P-Value
Observa que la correlacin
entre dtemp y mtemp es
muy alta. Esto significa que
las dos variables
proporcionan casi la misma
informacin en relacin con
y = dimetro.
Regresin con Todas las Variables
dtemp y mtemp parecen no tener significancia.
Regression Analysis: diam versus dtemp, rate, mtemp
The regression equation is
diam = - 518 + 1.43 dtemp + 5.67 rate + 2.00 mtemp
Predictor Coef SE Coef T P
Constant -518.33 64.84 -7.99 0.001
dtemp 1.433 1.684 0.85 0.443
rate 5.667 1.132 5.01 0.007
mtemp 2.000 2.218 0.90 0.418
S = 11.09 R-Sq = 97.8% R-Sq(adj) = 96.2%
Analysis of Variance
Source DF SS MS F P
Regression 3 22316.0 7438.7 60.48 0.001
Residual Error 4 492.0 123.0
Lack of Fit 2 344.0 172.0 2.32 0.301
Pure Error 2 148.0 74.0
Total 7 22808.0
4 rows with no replicates
Regresin sin Mtemp
Una vez que se elimina mtemp, dtemp muestra mayor
significancia.
Regression Analysis: diam versus dtemp, rate
The regression equation is
diam = - 533 + 2.93 dtemp + 4.83 rate
Predictor Coef SE Coef T P
Constant -533.33 61.49 -8.67 0.000
dtemp 2.9333 0.2565 11.44 0.000
rate 4.8333 0.6412 7.54 0.001
S = 10.88 R-Sq = 97.4% R-Sq(adj) = 96.4%
Analysis of Variance
Source DF SS MS F P
Regression 2 22216 11108 93.82 0.000
Residual Error 5 592 118
Lack of Fit 1 200 200 2.04 0.226
Pure Error 4 392 98
Total 7 22808
Por Qu Usar Variables
No Correlacionadas
Observa que x
1
, x
2
, x
3
R
2
-aj = 96.2%; y con x
1
, x
2
solamente arroja
96.4%, no hay una diferencia real.
En ambos casos la prueba de error puro por falta de ajuste no
descarta los modelos.
El anlisis de residuos y las pruebas de normalidad (que no
aparecen aqu) no muestran problemas en ninguno de los modelos.
Con las variables correlacionadas, el intervalo de confianza es
de un ancho de 49 unidades; slo con las variables no
correlacionadas, x
1
, x
2
, es de 35, mucha mayor precisin.
1.) Concentra todas las variables cuantitativas: x = x x, o
estandarzalas. Esto reduce las correlaciones entre los
elementos x, x
2
, x
3
, etc.
Mtodo para Construccin
de Modelos
Debido a la complejidad que implica construir un modelo con
mltiples variables, posiblemente muy correlacionadas,
proponemos un modelo ms sencillo.
2.) Introduce modelos cuadrticos completos al Procedimiento de
Regresin Stepwise de Minitab. Este es un procedimiento que
toma un grupo de variables de entrada y, con base en pruebas
estadsticas, produce un modelo con la R
2
-aj mxima (o lo ms
prximo a ella).
3.) Verifica la adecuacin del modelo de la seleccin stepwise.
Por qu Concentrar las
Variables Cuantitativas?
Para reducir la correlacin entre los elementos
de 1
er
orden y de orden superior.
1 2 3
correlacin lineal
ms fuerte
-1 0 1
sin correlacin
lineal
x
2
x
2
x
x
Qu es la Regresin Stepwise?
La Regresin Stepwise es un enfoque donde las
variables y otros elementos (cuadrticos, interacciones,
ect.) se
Agregan al modelo uno a la vez
y
Eliminan del modelo uno a la vez.
Minitab corre esta rutina para encontrar el mejor modelo.
La regresin stepwise soluciona el problema de las
variables correlacionadas. Sin embargo, todava debes
concentrar las variables para reducir la correlacin entre
una variable determinada y sus elementos de orden
superior.
Ejemplo de Regresin Mltiple
Para ilustrar este modelo de mtodo de construccin de modelos,
vamos a usar los datos en el archivo JC5:
y = Millas
X
1
= octano
X
2
= velocidad
X
3
= carga
Primero generamos columnas para:
Las variables concentradas
Elementos cuadrticos
Elementos de interaccin
Adicin de Columnas para
Variables Concentradas
Titula tres columnas en blanco como, Coctane, Cspeed, Cload
Selecciona Calc > Standardize
Y luego...
Despus OK.
Adicin de Columnas para
Elementos Cuadrticos
Titula tres columnas en blanco como Coctane2, Cspeed2, Cload2
Selecciona Calc > Calculator
Y luego...
Despus OK y repite
los mismos pasos para
Cspeed2 y Cload2.
Adicin de Columnas para
Elementos de Interaccin
Titula tres columnas en blanco como Coct*Cspe, Coct*Clo, Cspe*Clo
Seleccin Calc > Calculator
Y luego...
Despus OK y repite
los mismos pasos para
Coct*Clo y Cspe*Clo.
La Hoja de Trabajo Completa
Regresin Stepwise
Stepwise Regression: mile versus Coctane, Cspeed, ...
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15
Response is mile on 9 predictors, with N = 20
Step 1 2 3
Constant 30.23 30.23 30.23
Coctane 0.900 0.878 1.210
T-Value 4.67 5.94 13.73
P-Value 0.000 0.000 0.000
Cload -0.0086 -0.0098
T-Value -3.70 -8.26
P-Value 0.002 0.000
Cspeed -0.297
T-Value -7.10
P-Value 0.000
S 1.90 1.45 0.735
R-Sq 54.79 74.95 93.97
R-Sq(adj) 52.28 72.00 92.84
C-p 79.5 38.9 0.7
Ahora correremos el programa de regresin para verificar la validez de este
modelo.
El procedimiento stepwise seleccion
octano (x
1
), carga (x
2
), y velocidad (x
3
)
as que el modelo seleccionado es
(Se eliminan todos los elementos
cuadrticos.)
3 3 2 2 1 1 0
x x x y + + + =
La regresin stepwise se detiene en el
Paso 3.
Las variables seleccionadas se indican
sealando sus coeficientes y valores T.
Regresin con Elementos
Seleccionados
Regression Analysis: mile versus Coctane, Cspeed, Cload
The regression equation is
mile = 30.2 + 1.21 Coctane - 0.297 Cspeed - 0.00983 Cload
Predictor Coef SE Coef T P
Constant 30.2250 0.1643 183.93 0.000
Coctane 1.20973 0.08812 13.73 0.000
Cspeed -0.29697 0.04182 -7.10 0.000
Cload -0.009833 0.001191 -8.26 0.000
S = 0.7349 R-Sq = 94.0% R-Sq(adj) = 92.8%
Analysis of Variance
Source DF SS MS F P
Regression 3 134.596 44.865 83.07 0.000
Residual Error 16 8.641 0.540
Total 19 143.238
Source DF Seq SS
Coctane 1 78.476
Cspeed 1 19.306
Cload 1 36.815
R
2
(aj) = 92.8%
tiene significancia
La Ecuacin de Regresin
La ecuacin es: y = 30.2 + 1.21 x
1
- .297x
2
- .00983x
3
.
Como las variables estn concentradas, la ecuacin real
es:
y = 30.2 + 1.21(x
1
90.25) - .297(x
2
54.4) - .00983(x
3

471).
Anlisis Residual
35 34 33 32 31 30 29 28 27 26 25
1
0
-1
Fitted Value
R
e
s
i
d
u
a
l
Residuals Versus the Fitted Values
(response is mile)
10 0 -10
1
0
-1
Cspeed
R
e
s
i
d
u
a
l
Residuals Versus Cspeed
(response is mile)
4 3 2 1 0 -1 -2 -3 -4
1
0
-1
Coctane
R
e
s
i
d
u
a
l
Residuals Versus Coctane
(response is mile)
200 100 0 -100 -200 -300
1
0
-1
Cload
R
e
s
i
d
u
a
l
Residuals Versus Cload
(response is mile)
Todos los residuos estn razonablemente al azar, as que no se
detectaron problemas en el modelo.
Prueba de Normalidad
Valor P: 0.487
A Cuadrada: 0.330
Prueba de Normalidad Anderson-Darling
N: 20
Desv Est: 0.674399
Promedio: -0.0000000
1 0 -1
.999
.99
.95
.80
.50
.20
.05
.01
.001
P
r
o
b
a
b
i
l
i
d
a
d
RESI1
La grfica normal y la prueba no muestran problemas con la
suposicin de normalidad.
Ejercicio en Grupo 1.4
Regresin Stepwise
Consulta tu cuaderno de trabajo.
Construye un modelo matemtico con el
mtodo que se explic en este mdulo para el
ejemplo que se asign a tu equipo.

Anda mungkin juga menyukai