4/25/2007
Regresin Poisson
Resumen
El procedimiento Regresin Poisson est diseado para ajustar un modelo de regresin en el
cual la variable dependiente Y consiste de conteos. El modelo de regresin ajustado relaciona Y
con una o ms variables predictoras X, que pueden ser cuantitativas o categricas. El
procedimiento ajusta un modelo usando mxima verosimilitud o mnimos cuadrados ponderados.
La seleccin de variables por pasos es una opcin. Se realizan pruebas de razn de verosimilitud
para probar la significancia de los coeficientes del modelo. El modelo ajustado puede graficarse
y generarse predicciones a partir del mismo. Se identifican y grafican residuos atpicos.
Thickness
(grosor)
50
230
125
75
70
65
65
350
350
160
Extraction
(extraccin)
70
65
70
65
65
70
60
60
90
80
Height
(altura)
52
42
45
68
53
46
62
54
54
38
Years
(aos)
1
6
1
0.5
0.5
3
1
0.5
0.5
0
La variable dependiente es Fractures (fracturas), que tabula el nmero de lesiones en cada mina.
Las otras 4 columnas son variables predictoras potenciales que cuantifican diversos atributos de
cada mina.
Regresin Poisson - 1
Ingreso de Datos
La caja de dilogo del ingreso de datos solicita informacin sobre las variables de entrada:
Regresin Poisson - 2
Modelo Estadstico
El modelo estadstico asumido para los datos es que los valores de la variable dependiente Y
siguen una distribucin Poisson de la forma
p(Yi ) =
e iti (i t i )
Yi !
(1)
(2)
Valor-P
0.0752
0.0000
0.6760
0.0484
Validacin
Regresin Poisson - 3
( )
(3)
( 1 , 2 ,..., k | 0 )
( 0 )
(4)
( 1 , 2 ,..., k | 0 ) 2 p
( 0 )
(5)
Regresin Poisson - 4
(6)
Se incluyen el cuadrado medio del error (CME), el error absoluto medio (MAEA), el error
porcentual absoluto medio (MAPE), el error medio (ME), y el error porcentual medio (MPE).
Estas estadsticas de validacin pueden ser comparadas con las estadsticas del modelo
ajustado para determinar qu tan bien el modelo predice las observaciones fuera de los datos
usados para ajustarlo.
El modelo ajustado para los datos del ejemplo es
Regresin Poisson - 5
Opciones de Anlisis
Modelo: orden del modelo a ser ajustado. Los modelos de primer orden incluyen solo efectos
principales. Los modelos de segundo orden incluyen efectos cuadrticos para los factores
cuantitativos e interacciones de dos factores entre todas las variables.
Incluir Constante: Si no se marca esta opcin, el trmino constante 0 ser omitido del
modelo.
Ajustar: especifica si todas las variables independientes especificadas en caja de dilogo del
ingreso de datos deben ser incluidas en el modelo final, o si se debe aplicar una seleccin por
pasos de las variables. La seleccin por pasos intenta encontrar un modelo parsimonioso que
contenga slo variables significativas estadsticamente. Un ajuste por Seleccin Hacia
Adelante comienza sin variables en el modelo. Un ajuste por Seleccin Hacia Atrs comienza
con todas las variables en el modelo.
P-para-Eliminar - En un ajuste por pasos, las variables sern removidas del modelo en un
paso dado si sus valores de P son mayores que el valor especificado de P-para-Eliminar.
Pasos Max.: mximo nmero de pasos permitidos cuando se lleva a cabo un ajuste por
pasos.
Mostrar: si se muestran los resultados en cada paso cuando se lleva a cabo un ajuste por
pasos.
Excluir: Presione este botn para excluir efectos del modelo. Se mostrar una caja de
dilogo:
Regresin Poisson - 6
Haga doble clic sobre un efecto para moverlo del campo Incluir al campo Excluir o para
regresarlo.
Seleccin hacia adelante Comienza con un modelo con slo un trmino constante
y mete una variable a la vez con base en su significancia estadstica si entrara al
modelo actual. En cada paso, el algoritmo pone en el modelo la variable que tendra
la mayor significancia estadstica si entrara. Siempre que la variable ms significativa
tenga un valor de P menor o igual al especificado en la caja de dilogo Opciones del
Anlisis, ser introducida al modelo. Cuando ninguna variable tenga un valor de P lo
suficientemente pequeo, se detiene la seleccin de variables. Adems, las variables
introducidas al modelo al principio del procedimiento pueden ser removidas despus
si su valor de P cae dentro del criterio P-para-Eliminar.
Seleccin hacia atrs Comienza con un modelo con todas las variables
especificadas en la caja de dilogo del ingreso de datos y quita una variable a la vez
con base en su significancia estadstica en el modelo actual. En cada paso, el
algoritmo saca del modelo la variable que es la menos significativa estadsticamente.
Si la variable menos significativa tiene un valor de P mayor al especificado en la caja
de dilogo Opciones del Anlisis, ser removida del modelo. Cuando todas las
variables restantes tengan valores pequeos de P, se detiene el procedimiento.
Adems, las variables removidas del modelo al principio del procedimiento pueden
ser reintroducidas despus si su valor de P alcanza el criterio P-para-Introducir.
Regresin Poisson - 7
Regresin Poisson - 8
Paso 1:
Eliminando factor Years with P-para-eliminar = 0.931068
13 factores en el modelo. 30 g.l. para el error.
Porcentaje de desviacin explicada = 68.74% Porcentaje ajustado = 31.40%
Paso 2:
Eliminando factor Height*Height with P-para-eliminar = 0.667761
12 factores en el modelo. 31 g.l. para el error.
Porcentaje de desviacin explicada = 68.49% Porcentaje ajustado = 33.82%
Paso 3:
Eliminando factor Thickness*Thickness with P-para-eliminar = 0.785169
11 factores en el modelo. 32 g.l. para el error.
Porcentaje de desviacin explicada = 68.39% Porcentaje ajustado = 36.39%
Paso 4:
Eliminando factor Thickness*Years with P-para-eliminar = 0.847819
10 factores en el modelo. 33 g.l. para el error.
Porcentaje de desviacin explicada = 68.35% Porcentaje ajustado = 39.01%
Paso 5:
Eliminando factor Extraction*Years with P-para-eliminar = 0.688459
9 factores en el modelo. 34 g.l. para el error.
Porcentaje de desviacin explicada = 68.13% Porcentaje ajustado = 41.46%
Paso 6:
Eliminando factor Height with P-para-eliminar = 0.529659
8 factores en el modelo. 35 g.l. para el error.
Porcentaje de desviacin explicada = 67.60% Porcentaje ajustado = 43.60%
Paso 7:
Eliminando factor Extraction*Height with P-para-eliminar = 0.957829
7 factores en el modelo. 36 g.l. para el error.
Porcentaje de desviacin explicada = 67.60% Porcentaje ajustado = 46.26%
Paso 8:
Eliminando factor Years*Years with P-para-eliminar = 0.402248
6 factores en el modelo. 37 g.l. para el error.
Porcentaje de desviacin explicada = 66.66% Porcentaje ajustado = 47.99%
Paso 9:
Eliminando factor Thickness*Height with P-para-eliminar = 0.39377
5 factores en el modelo. 38 g.l. para el error.
Porcentaje de desviacin explicada = 65.69% Porcentaje ajustado = 49.69%
Paso 10:
Eliminando factor Height*Years with P-para-eliminar = 0.0852434
4 factores en el modelo. 39 g.l. para el error.
Porcentaje de desviacin explicada = 61.74% Porcentaje ajustado = 48.41%
Modelo final seleccionado.
Gl
4
39
43
Razn de Momios
Estimada
0.973819
2.21677
1.00029
0.995001
Valor-P
0.0000
0.8874
Gl
1
1
1
1
Valor-P
0.0172
0.0018
0.0221
0.0025
El modelo final involucra slo 2 variables: Thickness y Extraction. Contiene efectos principales
para ambas variables, una interaccin entre las 2 variables, y un efecto cuadrtico para
Extraction. El porcentaje de desviacin explicada por el modelo ha aumentado a
aproximadamente 61.7%.
Regresin Poisson - 10
Fractures
4
3
2
1
0
0
200
400
600
Thickness
800
1000
Opciones de Ventana
Regresin Poisson - 11
Nivel de Confianza: porcentaje usado para los lmites de confianza. Poner en 0 para omitir
los lmites.
Siguiente y Atrs: usado para mostrar otros factores cuando hay presentes ms de 16.
La tasa estimada de fracturas disminuye de una alta de casi 4.5 a una baja de casi 0 conforme el
grosor (Thickness) de la mina aumenta, en Extraction = 75, Height = 50, y Years = 7.
observado
4
3
2
1
0
0
predicho
Si el modelo ajusta bien, los puntos deben estar esparcidos aleatoriamente alrededor de la lnea
diagonal.
Predicciones
El modelo de regresin ajustado puede usarse para predecir el resultado de nuevas muestras
cuyas variables predictoras son dadas. Por ejemplo, suponga que se desea una prediccin para
una mina con Thickness = 100, Extraction = 70, Height = 50, y Years = 10. Se puede agregar una
nueva columna a la hoja de datos con estos valores para las variables predictoras, pero se dejara
en blanco la entrada para Fractures. Entonces la ventana Predicciones presentara:
Predicciones para Fractures
Observado
Fila
45
Ajustado
1.24396
LC Inferior 95.0%
para Prediccin
0.846319
LC Superior 95.0%
para Prediccin
1.82844
La tabla muestra el valor ajustado i t i , junto con intervalos de confianza aproximados del 95%.
Regresin Poisson - 12
Mostrar: muestra Todos los Valores (predicciones para todas las filas en la hoja de datos), o
Slo Pronsticos (predicciones para las filas con valores faltantes para Y).
Intervalos de Confianza
La ventana Intervalos de Confianza muestra el error de estimacin potencial asociado con cada
coeficiente en el modelo, as como para las razones de tasas.
Intervalos de confianza del 95.0% para los estimados de los coeficientes
Error
Parmetro
Estimado
Estndar
Lmite Inferior
Lmite Superior
CONSTANTE
-3.59309
1.02567
-5.60336
-1.58282
Thickness
-0.00140659
0.000835807
-0.00304474
0.000231567
Extraction
0.0623458
0.012286
0.0382655
0.086426
Height
-0.00208034
0.00506612
-0.0120098
0.00784909
Years
-0.0308135
0.0162647
-0.0626918
0.00106482
Intervalos de confianza del 95.0% para la razn de tasas
Parmetro Estimado
Lmite Inferior
Lmite Superior
Thickness
0.998594
0.99696
1.00023
Extraction 1.06433
1.03901
1.09027
Height
0.997922
0.988062
1.00788
Years
0.969656
0.939233
1.00107
Opciones de Ventana
Regresin Poisson - 13
Matriz de Correlacin
La Matriz de Correlacin muestra estimaciones de la correlacin entre los coeficientes
estimados.
Matriz de correlacin para los coeficientes estimados
CONSTANTE
Thickness
Extraction
Height
Years
CONSTANTE
1.0000
0.1136
-0.9574
-0.3001
0.1207
Thickness
0.1136
1.0000
-0.1719
-0.1968
-0.0934
Extraction
-0.9574
-0.1719
1.0000
0.0674
-0.1758
Height
-0.3001
-0.1968
0.0674
1.0000
-0.1201
Years
0.1207
-0.0934
-0.1758
-0.1201
1.0000
Esta tabla puede ser til para determinar que tan bien se han separado unos de otros los efectos
de las variables independientes.
Residuos Atpicos
Una vez que el modelo ha sido ajustado, es til estudiar los residuos para determinar si existe
algn valor atpico que debiera ser removido de los datos. La ventana Residuos Atpicos lista
todas las observaciones que tienen residuos grandes atpicos.
Residuos Atpicos para
Y
Fila Y
Predicha
4
4.0 1.21777
29
5.0 1.58135
Fractures
Residuo
2.78223
3.41865
Residuo
Pearson
2.52
2.72
Residuo de
Desviacin
1.99
2.16
La tabla muestra:
Y el valor observado de Y.
(7)
ri =
ei
t
(8)
i i
Regresin Poisson - 14
y
d i = sgn(ri ) 2 y i ln i
t
ii
y i + i t i
(9)
Grficas de Residuos
Al igual que con todos los modelos estadsticos, es una buena prctica examinar los residuos. El
procedimiento Regresin Poisson incluye varios tipos de grficas de residuos, dependiendo de
las Opciones de Ventana.
Diagrama de Dispersin versus Valor Predicho
Este grfico es til para visualizar si la variabilidad de los residuos es constante o depende de las
variables predictoras.
Grfica de Residuos
Residuos de desviacin
2.8
1.8
0.8
-0.2
-1.2
-2.2
0
2
3
predicho Fractures
Regresin Poisson - 15
autocorrelacin
0.6
0.2
-0.2
-0.6
-1
0
6
retraso
10
12
Esto slo es relevante si los datos se colectaron secuencialmente. Cualquier barra extendindose
ms all de los lmites de probabilidad indicara dependencia significativa entre residuos
separados por el retraso indicado.
Opciones de Ventana
Regresin Poisson - 16
Nivel de Confianza: para una Funcin de Autocorrelacin, el nivel usado para crear los
lmites de probabilidad.
Puntos Influyentes
Cuando se ajusta un modelo de regresin, no todas las observaciones tienen la misma influencia
en la estimacin de los parmetros del modelo ajustado. Aquellos con valores atpicos de las
variables independientes tienden a tener mayor influencia que los otros. La ventana Puntos
Influyentes presenta cualquier observacin que tenga gran influencia en el modelo ajustado:
Puntos Influyentes para Fractures
Fila Leverage
25
0.437161
30
0.367098
Leverage promedio de un solo punto = 0.113636
La tabla muestra todos las observaciones con leverage alto. El punto leverage es una estadstica
que mide cun distante est una observacin de la media de las n observaciones en el espacio de
las variables independientes. Entre ms grande el leverage, mayor el impacto del punto en los
valore ajustados y . Los puntos son colocados en la lista si el leverage es mayor de tres veces el
de un punto promedio
La observacin con el punto leverage mayor en los datos de la muestra es la fila #25, aunque es
slo alrededor de 4 veces el punto leverage promedio.
Salvar Resultados
Se pueden salvar en la hoja de datos los siguientes resultados:
1. Valores Predichos los valores ajustados i t i correspondientes a cada fila de la hoja de
datos.
2. Lmites Inferiores los lmites inferiores de confianza para i t i .
3. Lmites Superiores los lmites superiores de confianza para t .
i i
4.
5.
6.
7.
Regresin Poisson - 17
Clculos
Sea i = la tasa estimada en los valores de las variables predictoras en la fila i.
Funcin de Verosimilitud
n
L=
[i t i ]y
i =1
exp( i t i )
yi !
(10)
Desviacin
( ) =
i =1
L( )
y
y i i exp( y i )
yi !
(11)
Punto Leverage
hi = diag X i( X WX ) X i wi
h=
p
n
(12)
(13)
Regresin Poisson - 18