Anda di halaman 1dari 14

CAPTULO 11

MODELOS DE RESPUESTA PROBIT


Ph.D. Guillermo Tern Acosta
Universidad Central de Ecuador UCE
Compilacin de Mtodos Avanzados del profesor
Profesora. Magdalena Ferrn Aranaz
Universidad Complutense de Madrid
Madrid - Espaa

Dada una variable dependiente dicotmica, cuyos valores corresponden a la presencia o


ausencia de respuestas frente a uno ms estmulos, y una o ms variables independientes
cuantitativas, o estmulo, el modelo de respuesta probit consiste en obtener una
combinacin lineal de las variables independientes que permita calcular la probabilidad
de que haya respuestas para los distintos niveles o dosis de los estmulos.
Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

1
Supongamos que se sospecha que, en los pacientes con lcera pptica que han
seguido un tratamiento, el que la sintomatologa ulcerosa reaparezca o no en un plazo de
tiempo inferior o igual a ocho meses desde la respuesta al tratamiento depende de la
cantidad de alcohol que consume la paciente. Para comprobarlo, se somete al tratamiento
a un conjunto de pacientes con lcera pptica, siendo todos ellos fumadores. Al cabo de
los ocho meses de la desaparicin de la sintomatologa para cada paciente, se comprueba
si ha reaparecido o no. Antes de comenzar el tratamiento algunos de los pacientes han
decidido abandonar el hbito de fumar, por lo que se sospecha que en la reaparicin de
los sntomas, adems del consumo del alcohol puede influir el abandono del tabaco. Es
decir, para un mismo consumo de alcohol se espera que si el paciente deja de fumar la
sintomatologa ulcerosa tarde ms en reaparecer. Para estimar la probabilidad de que la
sintomatologa ulcerosa no reaparezca antes de los ocho meses en funcin de los distintos
niveles de consumo de alcohol se aplicar el modelo de respuesta probit en cada uno de
los dos grupos de pacientes, los que han abandonado el hbito de fumar y los que no.

1. FORMULACIN DEL PROBLEMA

A partir de una muestra de n observaciones de las variables independientes cuantitativas


o estmulos 1 , , , en los dos grupos establecidos por los dos valores de la variable
dependiente Y, se trata de obtener una combinacin lineal de las variables independientes
que proporcione la probabilidad de que la variable dependiente Y tome el valor
correspondiente a la presencia de respuestas en funcin de los distintos niveles o dosis de
los estmulos.

El modelo que se postula es:

() = 0 + 1 1 + . . . +

Donde p es la probabilidad de que haya respuestas para cada combinacin de los niveles
1 , , de los estmulos 1,..., , respectivamente, 0 , , son parmetros
desconocidos a estimar y T es la transformacin probit:

T (p) = z (p)

Siendo z (p) el valor de la curva N (0,1) por debajo del cual se encuentra una proporcin
de rea igual a la proporcin de respuesta.

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

2
En el caso particular de un nico estmulo X, el modelo que se postula es el modelo
de respuesta simple:

() = 0 + 1

Supongamos que dentro de la muestra se distinguen varios grupos de individuos.

Si, para cada nivel de X, se espera que la probabilidad de que haya respuesta aumente o
disminuya, dependiendo del grupo, en una misma proporcin para cualquiera que sea el
nivel, se postular un modelo por cada grupo. La diferencia entre los distintos modelos
radicar en el trmino independiente. Es decir, si k es el nmero de grupos, el modelo de
respuesta para el grupo j-simo ser:

() = + 1 = 1, ,
0

En este caso, los parmetros desconocidos a estimar sern, 01 , , 0 1 .

En nuestro ejemplo se dispone de una muestra de 152 observaciones de las


variables:

REAPARIC Reaparicin de la sintomatologa ulcerosa en un plazo de tiempo inferior o


igual a ocho meses desde la respuesta al tratamiento.

Valores: S y No.

ALCOHOL Nivel de consumo de alcohol (gramos diarios).

TABACO El paciente ha dejado de fumar durante el tratamiento.

Valores: S y No, codificados numricamente como 1 y 2, respectivamente.

Pero, para realizar el anlisis, la informacin de la muestra se resumir en los siguientes


datos: dentro de cada uno de los dos grupos establecidos por los valores de la variable
TABACO, por cada nivel de consumo de alcohol (por cada valor), la informacin
necesaria para estimar el modelo ser:

NPACIENT Nmero total de pacientes observados.

REAPARIC Nmero de pacientes para los que, pasados ocho meses desde la respuesta al
tratamiento, la sintomatologa ulcerosa an no ha reaparecido o, lo que es equivalente,
nmero de pacientes que originalmente presentaban en esta misma variable el valor No.

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

3
A partir de esta informacin, se trata de obtener, en cada uno de los dos grupos
establecidos por los valores de la variable TABACO, una funcin lineal de la variable
independiente ALCOHOL que permita estimar la probabilidad de que la sintomatologa
ulcerosa no reaparezca hasta pasado ocho meses desde la respuesta al tratamiento. Dicha
probabilidad, supuesto que el paciente ha dejado de fumar, vendr dada por el modelo de
respuesta simple:

() = 01 + 1

Mientras que, si no ha dejado de fumar, vendr dada por:

() = 02 + 1

Donde 01 , 02 1 son parmetros desconocidos a estimar.

2. ESTIMACIN DE LOS PARMETROS

El criterio para obtener los coeficientes 0 , , 9 , estimaciones de los parmetros


desconocidos 0 , , , es el de mxima verosimilitud. A partir de estos coeficientes, la
proporcin estimada de respuesta para las combinaciones de los niveles 1 , , de los
estmulos 1 , , , respectivamente, vendr dada por:

( ) = 0 + 1 1 + 2 2 + . . .

En particular, para el caso de un nico estmulo X, y supuesto que se distingan k


grupos de individuos, la proporcin estimada de respuesta para los niveles 1 de X en
cada uno de los grupos vendr dada por:


( ) = 0 + 1 = 1, ,

El modelo de respuesta probit sobre la variable independiente ALCOHOL, en cada


uno de los grupos establecidos por los valores de la variable TABACO, se solicita en el
Cuadro de dilogo 11.1. Los resultados se disponen en las Figuras 11.1a y 11.1b. Los
modelos estimados a partir de los valores ALCOHOL (Figura 11.1a, Regresin Coeff
e Intercept), uno por cada uno de los dos grupos establecidos por valores de TABACO,
son:

( ) = 3,559 0,047

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

4
Si el paciente ha dejado de fumar (TABACO = S), y en caso contrario (TABACO =
No):

( ) = 2,083 0,047

En la Figura 11.1a se dispone de los resultados para cada uno de los dos grupos
(Observed and Expected Frequencies), distinguiendo los distintos niveles de alcohol

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

5
PROCEDIMIENTO 1
Modelo de repuesta Probit

Abrir la Data [Figura 11.1.sav]

1. Clic en [Analizar]

2. Clic en [Regresin]

3. Clic en [Probit]

Ubicar la variable reaparic [reaparic] en la ventana Frecuencia de

respuestas; Ubicar la variable npaciente en la ventana Total Observado; Ubicar

la variable tabaco en la ventana Factor; Definir Grupo1 [1], Grupo2 [2]; Ubicar

la variable Alcohol en la ventana Covariables; Seleccionar Opciones;


Seguidamente seleccionar la opcin [Continuar] [Aceptar].

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

6
0. Ubicar variable en ventana
[Frecuencia de respuestas]

1. Ubicar variable en ventana


[Total Observado]

2. Ubicar variable en ventana [Factor]

3. Clic en [Definir grupos]

3.1. Digitar
[1,2]

3.2. Clic en [Continuar]

4. Ubicar variable en ventana [Covariables]

5. Clic en [Opciones]

6. Clic en [Aceptar]

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

7
RESULTADO 1.a

Estimaciones de parmetro
Intervalo de confianza de 95
%
Error Lmite Lmite
Parmetro Estimacin estndar Z Sig. inferior superior
PROBITa Consumo de -
-,047 ,015 ,002 -,077 -,018
Alcohol 3,143
Interseccinb Si 3,559 ,886 4,017 ,000 2,673 4,445
No 2,083 ,904 2,303 ,021 1,178 2,987
a. Modelo PROBIT: PROBIT(p) = Interseccin + BX
b. Se corresponde a la variable de agrupacin tabaco.

Pruebas de chi-cuadrado

Chi-cuadrado glb Sig.

PROBIT Prueba de bondad de ajuste


2,522 5 ,773a
de Pearson

Prueba de paralelismo 1,195 1 ,274

a. Puesto que el nivel de significacin es mayor que, 150, no se utiliza el factor de


heterogeneidad en el clculo de los lmites de confianza.
b. Las estadsticas basadas en casos individuales difieren de las estadsticas basadas en
casos agregados.

Recuentos de casilla y residuos


Nmero
Consumo de Respuestas Respuestas
Nmero tabaco de Alcohol sujetos observadas esperadas Residuo Probabilidad
PROBIT 1 1 50,000 28 24 24,725 -,725 ,883
2 1 60,000 34 26 25,949 ,051 ,763
3 1 70,000 3 2 1,788 ,212 ,596
4 1 80,000 1 1 ,409 ,591 ,409
5 2 50,000 25 10 9,690 ,310 ,388
6 2 60,000 27 7 6,043 ,957 ,224
7 2 70,000 24 2 2,611 -,611 ,109
8 2 80,000 10 0 ,439 -,439 ,044

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

8
Figura 11.1a. Modelo de respuesta probit

Sintaxis
DATASET NAME ConjuntoDatos1 WINDOW=FRONT.
PROBIT reaparic OF npacient BY tabaco (1 2) WITH alcohol
/LOG NONE
/MODEL PROBIT
/PRINT FREQ CI RMP
/CRITERIA P (.15) ITERATE (20) STEPLIMIT (.1).

Observados en cada uno de ellos. En el grupo de pacientes que ha dejado di fumar


(TABACO=1), de los 28 con un consumo de alcohol de 50 gramos diarios (Number
of Subjects), en 24 casos la sintomatologa ulcerosa no ha reaparecido hasta pasados
ocho meses desde la respuesta al tratamiento (Observed reponses), lo que supone una
de las distintas situaciones, la probabilidad de que, para que este grupo de pacientes, la
sintomatologa ulcerosa no reaparezca hasta pasados ocho meses (Prob) es igual a
0,88304, lo que implica un nmero esperado muy parecido al observado (Expected
Responses = 24,725). Si para cada una de las restantes situaciones la diferencia entre el
nmero de pacientes observado y esperado (Residual) fuera muy pequea, el modelo
reproducira con bastante exactitud lo observado en la muestra.

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

9
3. PRUEBA DE BONDAD DE AJUSTE JI-CUADRADO

La prueba de bondad de ajuste Ji-cuadrado se utiliza para contestar la hiptesis nula de


que la relacin entre los niveles de las variables independientes y la proporcin de
respuestas es lineal. El estadstico de contraste compara, para cada combinacin de
niveles de las variables independientes, la frecuencia de respuesta observada y la
frecuencia estimada mediante el modelo, que bajo la hiptesis nula, deberan coincidir.
Si el p-valor asociado al estadstico de contraste es menor que , se rechazar la hiptesis
nula al nivel de significacin .
Siguiendo con nuestro ejemplo (Figura 11.1. ), el p-valor asociado al estadstico
Bondad de ajuste Ji-cuadrado (P =0,773) es mayor que 0,05 luego al nivel de
significacin 0,05 la hiptesis nula no puede ser rechazada y por tanto, se puede
considerar que el modelo es adecuado.
En consecuencia, los elementos de la columna Prob de la tabla Observed and
Expected Frequencies pueden ser considerados como estimaciones adecuadas de la
probabilidad de que, para el nivel de ALCOHOL correspondiente, la sintomatologa
ulcerosa no reaparezca hasta pasados ocho meses desde la respuesta al tratamiento.
Teniendo en cuenta este resultado, puede observarse que, comparando las probabilidades
dentro de cada uno de los grupos establecidos por los valores de TABACO, a mayor
consumo de alcohol menor es la probabilidad, y menor an si el paciente no ha dejado de
fumar.
El resultado anterior es consecuencia directa de que, por un lado la pendiente comn
a los dos modelos (Regress Coeff. -0,04737), es negativa y por otro el valor estimado
del trmino independiente correspondiente al segundo (TABACO =Si: Intercep
=3,55883) es mayor que el correspondiente al segundo (TABACO =No: Intercep
=2,08287). Luego para un mismo nivel de ALCOHOL la probabilidad estimada ser
mayor en el primer grupo y en ambos, a mayor nivel menor ser dicha probabilidad.
Obsrvese entonces que, en el caso de distinguir grupos de individuos en la
poblacin objeto de estudio, la restriccin del modelo probit a que la pendiente de los
distintos modelos es comn juega un papel determinante en los resultados. Es decir, se
est suponiendo que los distintos grupos presentan un paralelismo respecto a la
dependencia existente entre la probabilidad de que haya respuesta al estmulo y los niveles
de la variable independiente y que encada nivel, dicha probabilidad aumenta o disminuye

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

10
en una cantidad que depende del grupo, mantenindose el aumento o la disminucin
constante a lo largo de los distintos niveles. En consecuencia, sera conveniente
comprobar que este supuesto se verifica en los datos objeto de anlisis.

4. PRUEBA DE PARALELISMO PARA GRUPOS

Si al representar las proporciones de respuesta observadas en la muestra de cada grupo


frente a los distintos niveles o dosis del estmulo se detecta no slo la relacin lineal
dentro de cada grupo, sino que las rectas que pasan por las nubes de puntos
correspondientes a cada grupo son paralelas, la proporcin de respuesta para cada dosis
depender no slo de la dosis, sino del grupo al que se aplique. En tal caso, como
consecuencia de lo expuesto en el apartado anterior, ser adecuado ajustar un modelo
probit por cada grupo, con pendiente comn para todos ellos. La prueba de paralelismo
se utiliza para contrastar la hiptesis nula de que las rectas mencionadas tienen la misma
pendiente. Si el p-valor asociado al estadstico de contraste es menor que , se rechazar
la hiptesis nula al nivel de significacin .
En la Figura 11.1a se representa, para cada uno de los dos grupos establecidos por
los valores de la variable TABACO, la proporcin de pacientes tales que la
sintomatologa ulcerosa no ha reaparecido hasta pasados los ocho meses desde la
respuesta al tratamiento (transformada mediante la funcin probit) frente a los distintos
niveles de consumo de alcohol. Por un lado, la relacin entre ambos aspectos es lineal en
los dos grupos, y por otro, la distancia entre los puntos correspondientes a cada uno de
los grupos para un mismo nivel de alcohol se mantiene relativamente constante a lo largo
de los distintos niveles. Luego parece que, efectivamente, es adecuado ajustar un modelo
lineal por cada grupo, con pendiente comn. Para confirmar esta impresin aplicaremos
la prueba de paralelismo.

El resultado de la prueba de paralelismo (Parallelism Test) se ofrece a


continuacin del resultado de la prueba de Bondad de ajuste. El p-valor asociado al
estadstico de contraste (P = 0,274) es mayor que 0,05, luego, al nivel de significacin
0,05, la hiptesis nula de que las rectas que pasan por las dos nubes de puntos son
paralelas no puede ser rechazada. Por tanto, es correcto suponer que la pendiente de los
dos modelos es la misma.

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

11
5. ESTIMACIN DE LA DOSIS NECESARIA PARA OBTENER UNA
DETERMINADA PROPORCIN DE RESPUESTA

A partir de la expresin del modelo de respuestas simples, la dosis necesaria para obtener
una proporcin de respuesta p vendr dada por:

( ) 0
=
1

En particular, si la muestra est dividida en k grupos de individuos, la dosis


necesaria para obtener una proporcin de respuestas p en el grupo j vendr dada por:

( )
0
= = 1, . ,
1

La Figura 11.1b proporciona dos listados, uno por cada posible valor de la variable
TABACO. Cada listado contiene la cantidad de alcohol (ALCOHOL) que

RESULTADO 1.b

Lmites de confianza
95% de lmites de confianza para Consumo de Alcohol
Paciente ha dejado de fumar Probabilidad Estimacin Lmite inferior Lmite superior
PROBIT Si ,010 124,238 97,973 235,387
,020 118,483 94,367 220,156
,030 114,832 92,073 210,500
,040 112,086 90,344 203,239
,050 109,852 88,934 197,336
,060 107,950 87,732 192,314
,070 106,283 86,676 187,913
,080 104,790 85,729 183,974
,090 103,432 84,866 180,392
,100 102,182 84,070 177,097
,150 97,008 80,759 163,472
,200 92,895 78,102 152,668
,250 89,367 75,799 143,423
,300 86,198 73,705 135,147
,350 83,262 71,735 127,506
,400 80,476 69,832 120,291
,450 77,781 67,947 113,353
,500 75,128 66,035 106,582
,550 72,475 64,044 99,891
,600 69,780 61,901 93,211
,650 66,994 59,496 86,497
,700 64,058 56,635 79,748
Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

12
,750 60,889 52,949 73,063
,800 57,361 47,763 66,702
,850 53,249 40,060 60,943
,900 48,074 28,489 55,577
,910 46,824 25,504 54,472
,920 45,467 22,207 53,325
,930 43,974 18,529 52,117
,940 42,306 14,370 50,819
,950 40,405 9,573 49,391
,960 38,171 3,884 47,767
,970 35,424 -3,170 45,831
,980 31,773 -12,619 43,330
,990 26,018 -27,623 39,498
No ,010 93,080 79,017 150,439
,020 87,326 75,276 135,344
,030 83,674 72,858 125,811
,040 80,928 71,005 118,674
,050 78,694 69,468 112,898
,060 76,792 68,132 108,010
,070 75,125 66,933 103,752
,080 73,632 65,832 99,967
,090 72,274 64,802 96,553
,100 71,024 63,824 93,440
,150 65,850 59,285 81,042
,200 61,737 54,608 72,258
,250 58,209 49,217 66,101
,300 55,040 43,124 61,824
,350 52,104 36,666 58,672
,400 49,318 30,086 56,133
,450 46,623 23,468 53,928
,500 43,970 16,804 51,909
,550 41,317 10,043 49,988
,600 38,622 3,106 48,103
,650 35,836 -4,114 46,204
,700 32,900 -11,762 44,241
,750 29,731 -20,048 42,156
,800 26,203 -29,303 39,863
,850 22,091 -40,118 37,218
,900 16,916 -53,757 33,920
,910 15,666 -57,055 33,128
,920 14,309 -60,640 32,268
,930 12,816 -64,582 31,324
,940 11,148 -68,987 30,272
,950 9,247 -74,013 29,074
,960 7,013 -79,921 27,669
,970 4,266 -87,187 25,944
,980 ,615 -96,850 23,657
,990 -5,140 -112,089 20,060
Figura 11.1b Modelo de respuesta probit

Sintaxis
DATASET NAME ConjuntoDatos1 WINDOW=FRONT.
PROBIT reaparic OF npacient BY tabaco (1 2) WITH alcohol
Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

13
/LOG NONE
/MODEL PROBIT
/PRINT FREQ CI RMP
/CRITERIA P (.15) ITERATE (20) STEPLIMIT (.1).

Hay que consumir para que la probabilidad de que la sintomatologa ulcerosa no


reaparezca hasta pasados ocho meses desde la respuesta al tratamiento sea igual al valor
correspondiente en la columna Prob. Si, por ejemplo, un paciente hubiera dejado de
fumar y su consumo de alcohol fuera de 46 gramos, la probabilidad correspondiente sera
muy alta (Prob = 0,91), mientras que si no hubiera dejado de fumar se reducira a la
mitad (Prob = 0,45). Observando los restantes elementos de los dos listados, resulta
bastante evidente que, para un mismo consumo de alcohol, la probabilidad de que la
sintomatologa no reaparezca hasta pasados los ocho meses desde la respuesta al
tratamiento sera mucho mayor si el paciente dejara de fumar.

Ph.D. Guillermo Tern Acosta Mtodos Avanzados de Anlisis de Datos Cuantitativos

14