4/25/2007
Regresin No Lineal
Resumen
El procedimiento Regresin No Lineal ajusta una funcin especificada por el usuario
relacionando una sola variable dependiente Y con una o ms variables independientes X. El
modelo se estima usando cuadrados mnimos no lineales. Se puede graficar el modelo ajustado,
generar predicciones a partir del mismo e identificar residuos atpicos.
Chlorine
(Cloro)
0.49
0.49
0.48
0.47
0.48
0.47
0.46
0.46
0.45
0.43
0.45
0.43
0.43
(1)
Este modelo, sugerido por un experto en el rea, contiene dos incgnitas: a, el valor asinttico
basal que se alcanza con valores grandes de weeks, y b, la tasa exponencial de decaimiento.
Regresin No Lineal - 1
Ingreso de Datos
La primera de dos cajas de dilogo pide el nombre de la variable dependiente y el modelo a
ajustar:
Peso: una columna numrica opcional que contiene los pesos o ponderadores que se
aplicarn al cuadrado de los residuos cuando se realice un ajuste por mnimos cuadrados
ponderados.
Regresin No Lineal - 2
Ingrese una estimacin inicial para cada parmetro. El programa comenzar con los estimados
iniciales y realizar una bsqueda numrica para encontrar estimaciones que minimicen la suma
de cuadrados de los residuos.
Dependiendo de la complejidad del modelo, estimaciones pobres podrn o no conducir a una
solucin ptima. En todos los casos, con excepcin de los simples, la seleccin inteligente de las
estimaciones iniciales puede aumentar mucho las probabilidades de obtener una buena solucin.
Tpicamente, es importante dar al menos estimaciones con el signo correcto (positivo o
negativo), ya que el procedimiento de bsqueda podra de otra forma dirigirse en la direccin
contraria.
Regresin No Lineal - 3
Parmetro
a
b
Estimado
0.390144
0.101644
Error Estndar
Asinttico
0.00501534
0.0133628
Anlisis de Varianza
Fuente
Suma de Cuadrados
Modelo
7.982
Residuo
0.00500168
Total
7.987
Total (Corr.)
0.0395
Gl
2
42
44
43
Intervalo Confianza a
Asinttico
Inferior
0.380022
0.0746763
95.0%
Superior
0.400265
0.128611
Cuadrado Medio
3.991
0.000119088
Validacin
En la salida se incluyen:
Regresin No Lineal - 4
(2)
Se incluyen el cuadrado medio del error (CME), el error absoluto medio (MAE), el error
porcentual absoluto medio (MAPE), el error medio (ME), y el error porcentual medio (MPE).
Estas estadsticas de validacin pueden ser comparadas con las estadsticas del modelo
ajustado para determinar qu tan bien el modelo predice las observaciones fuera de los datos
usados para ajustarlo.
Para los datos del ejemplo, el modelo ajustado es
chlorine = 0.390144 + (0.49-0.390144)exp(-0.101644(weeks-8))
2006 by StatPoint, Inc.
(3)
Regresin No Lineal - 5
chlorine
0.46
0.44
0.42
0.4
0.38
0
10
20
30
40
50
weeks
Regresin No Lineal - 6
Seleccione cualquier variable, junto con su rango, para graficarla en el eje horizontal. Para las
otras variables, escriba los valores con los que se sustituirn en el modelo ajustado.
1
1
Y = exp 1 X 1 exp 2
X
620
(4)
Regresin No Lineal - 7
1
material
0.8
0.6
0.4
0.2
0
0
30
60
90
120
640
630
620
610
600
temperature
150
time
640
temperature
630
620
610
600
0
30
60
90
120
150
time
Regresin No Lineal - 8
Tipo: escoja entre un Grfico de Superficie 3-D, donde la altura de la superficie representa el
valor de Y versus dos variables independientes cualesquiera; un Grfico de Contorno 2-D,
donde las lneas o regiones de color representan el valor de Y como una funcin de dos
variables independientes cualesquiera; un Grfico Cuadrado 2-D, donde el valor predicho de
Y se muestra a diferentes combinaciones de 2 variables independientes; o un Grfico Cbico
3-D, en el cual el valor predicho de Y se muestra a diferentes combinaciones de 3 variables
independientes.
Contornos: los lmites y espaciamiento de las lneas de contorno o regiones. Los contornos
puedes dibujarse como Lneas slidas representando un solo valor de Y, Regiones
Coloreadas representando intervalos, o usando un rango Continuo de colores.
Resolucin: el nmero de divisiones a lo largo de cada eje sobre los cuales se grafica el valor
de Y. Se puede mejorar la calidad del grfico aumentando la resolucin, pero tambin puede
aumentar el tiempo requerido para dibujarlo.
Superficie: para un grfico de superficie, el nmero de divisiones a lo largo de cada eje entre
las lneas empleadas para dibujar la superficie. La superficie puede dibujarse como un
Armazn de Alambre (malla transparente), como una superficie coloreada slida, o de
contorno (coloreada de acuerdo a los valores de Y). Contornos Debajo coloca un grfico de
contorno en la base del cubo. Mostrar Puntos grafica las observaciones con lneas dibujadas
hacia la superficie.
Regresin No Lineal - 9
640
temperature
630
620
610
600
0
30
60
90
120
150
time
1
material
0.8
0.6
0.4
0.2
0
0
30
60
90
120
150
material
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
640
630
620
610
temperature
600
time
Regresin No Lineal - 10
Opciones de Anlisis
La caja de dilogo Opciones de Anlisis controla el algoritmo usado para ajustar el modelo:
Mtodo: mtodo usado para estimar los parmetros del modelo. El mtodo Gauss-Newton
usa una tcnica de linealizacin que ajusta una secuencia de modelos de regresin lineal para
localizar la mnima suma de cuadrados de los residuos. El mtodo Descenso de Mayor
Pendiente sigue el gradiente de la superficie de la suma de cuadrados de los residuos. El
mtodo de Marquardt, seleccin por omisin, es un rpido y confiable trmino medio entre
los otros dos.
Nivel de Confianza: el porcentaje usado para calcular los intervalos de confianza asintticos
para los coeficientes del modelo.
Regresin No Lineal - 11
Reportes
La ventana Reportes crea predicciones usando el modelo ajustado. Por omisin, la tabla incluye
una lnea por cada fila en la hoja de datos que tenga informacin completa en las variables X y
un valor faltante para la variable Y. Esto le permite agregar columnas al final de la hoja de datos
correspondientes a los niveles en los que quiera tener predicciones sin afectar el modelo
ajustado.
Por ejemplo, suponga que se desea una prediccin en Weeks = 50 (por cierto una extrapolacin
del modelo). En la fila #45 de la hoja de datos, se agregara el valor 50 a la columna Weeks pero
la columna Chlorine se dejara en blanco. La tabla resultante se muestra a continuacin:
Resultados de la Regresin para chlorine
Ajustado
Error Estnd.
LC Inferior 95.0%
Fila
para Pronstico para Pronstico
45
0.391541 0.0117214
0.367886
LC Superior 95.0%
para Pronstico
0.415196
LC Inferior 95.0%
para Media
0.382907
LC Superior 95.0%
para Media
0.400175
Se incluye en la tabla:
Fila el nmero de la fila en la hoja de datos que contiene los valores de las variables
independientes.
Error Estndar para Pronstico el error estndar estimado para predecir una sola
observacin nueva.
Para la fila #45, el nivel predicho de cloro es aproximadamente 0.392 Una nueva muestra a
Weeks = 50 se esperara fuera entre 0.369 y 0.416 con un 95% de confianza (dado que valga la
extrapolacin). El nivel medio de cloro a la semana 50 se estima est entre 0.385 y 0.400.
Se puede incluir en la tabla informacin adicional sobre los valores predichos y residuos para los
datos usados para ajustar el modelo, usando Opciones de Ventana.
Regresin No Lineal - 12
Matriz de Correlacin
La Matriz de Correlacin presenta estimaciones de la correlacin entre los coeficientes
estimados.
Matriz de correlacin asinttica para los coeficientes estimados
a
b
a 1.0000 0.8864
b 0.8864 1.0000
Esta tabla puede ser til para determinar qu tan bien se han separado unos de otros los efectos
de diferentes variables independientes.
Regresin No Lineal - 13
observado
0.48
0.46
0.44
0.42
0.4
0.38
0.38
0.4
0.42
0.44
predicho
0.46
0.48
0.5
Si el modelo ajusta bien, los puntos debieran estar dispersos aleatoriamente alrededor de la lnea
diagonal. A veces es posible apreciar curvatura en este grfico, lo que indicara la necesidad de
un modelo curvilneo ms que uno lineal. Cualquier cambio en variabilidad de valores bajos de
Y a valores altos de Y podra indicar la necesidad de transformar la variable dependiente antes de
ajustar un modelo a los datos.
Grficas de Residuos
Al igual que con todos los modelos estadsticos, es una buena prctica examinar los residuos. En
una regresin, los residuos se definen por
ei = y i y i
(5)
i.e., los residuos son las diferencias entre los valores de los datos observados y el modelo
ajustado.
El procedimiento Regresin No Lineal crea varios tipos de grficos de residuos, dependiendo de
las Opciones de Ventana.
Regresin No Lineal - 14
Residuo Estudentizado
4.4
2.4
0.4
-1.6
-3.6
0
10
20
30
40
50
weeks
porcentaje
95
80
50
20
5
1
0.1
-2.7
-0.7
1.3
3.3
Residuo Estudentizado
5.3
Si las desviaciones siguen una distribucin normal, deben caer aproximadamente a lo largo de
una lnea recta. En el grfico anterior, los datos se desvan bastante de la lnea recta, indicando
que las desviaciones siguen una distribucin con colas ms largas que las de una distribucin
normal.
Regresin No Lineal - 15
autocorrelacin
0.6
0.2
-0.2
-0.6
-1
0
6
retraso
10
12
Regresin No Lineal - 16
Tipo: el tipo de grfico a crear. Se usa un Diagrama de Dispersin para probar curvatura. Se
emplea un Grfica de Probabilidad Normal para determinar si los residuos del modelo
provienen de una distribucin normal. Se usa una Funcin de Autocorrelacin para probar
dependencia entre residuos consecutivos.
Nivel de Confianza: para una Funcin de Autocorrelacin, el nivel usado para crear los
lmites de probabilidad.
Residuos Atpicos
Una vez que el modelo ha sido ajustado, es til estudiar los residuos para determinar si existe
algn valor atpico que debiera ser removido de los datos. La ventana Residuos Atpicos lista
todas las observaciones que tienen residuos Estudentizados de 2.0 o mayores en valor absoluto.
Residuos Atpicos para chlorine
Y
Fila Y
Predicha
Residuo
10
0.43 0.456641
-0.0266407
17
0.46 0.42628
0.0337201
18
0.45 0.42628
0.0237201
35
0.38 0.400815
-0.0208151
Residuo
Estudentizado
-2.67
3.59
2.35
-2.02
Regresin No Lineal - 17
Puntos Influyentes
Cuando se ajusta un modelo de regresin, no todas las observaciones tienen la misma influencia
en la estimacin de los parmetros del modelo ajustado. En una regresin simple, los puntos
localizados a valores de X muy bajos o muy altos tienen mayor influencia que los localizados
ms cerca de la media de X. La ventana Puntos Influyentes presenta cualquier observacin que
tenga gran influencia en el modelo ajustado:
Puntos Influyentes para chlorine
Distancia de
Fila Leverage
Mahalanobis DFITS
10
0.0407876
0.80918
-0.550164
17
0.051007
1.2807
0.833184
18
0.051007
1.2807
0.544379
40
0.0752918
2.44299
-0.440596
Leverage promedio de un solo punto = 0.0454545
Distancia
de Cook
0.132097
0.270387
0.133796
0.0939656
Punto Leverage mide cun distante est una observacin de la media de las n
observaciones en el espacio de las variables independientes. Entre ms grande el punto
nivelador, mayor el impacto del punto en los valore ajustados y . Los puntos son colocados
en la lista si el punto nivelados es mayor de tres veces el de un punto promedio.
DFITS mide la diferencia entre los valores predichos y i cuando el modelo se ajusta con y
sin el i-simo dato. Los puntos se colocan en la lista si el valor absoluto de las DFITS excede
2 p / n , donde p es el nmero de coeficientes en el modelo ajustado.
Salvar Resultados
Se pueden salvar los siguientes resultados en la hoja de datos:
1. Valores Predichos los valores predichos de Y correspondientes a cada una de las n
observaciones.
2. Errores Estndar para los Pronsticos los errores estndar de los n valores predichos.
3. Lmites Inferiores para Pronsticos los lmites inferiores de prediccin para cada valor
predicho.
4. Lmites Superiores para Pronsticos los lmites superiores de prediccin para cada
valor predicho.
5. Errores Estndar de Medias - los errores estndar de los valores medios de Y para cada
uno de los n valores de X.
6. Lmites Inferiores para las Medias Pronosticadas los lmites inferiores de confianza
para el valor medio de Y en cada uno de los n valores de X.
7. Lmites Superiores para las Medias Pronosticadas los lmites superiores de confianza
para el valor medio de Y en cada uno de los n valores de X.
8. Residuos los n residuos.
2006 by StatPoint, Inc.
Regresin No Lineal - 18
Clculos
Las estimaciones de los parmetros se encuentran minimizando numricamente la suma de
cuadrados de los residuos. La matriz de varianzas-covarianzas de los coeficientes se estima a
partir de las derivadas parciales en la vecindad de la solucin de mnimos cuadrados.
Regresin No Lineal - 19