Anda di halaman 1dari 8

BREVE NOTA Y EJEMPLO SOBRE LOS MODELOS LOGIT

Econometra de la Empresa
Rafael de Arce
-

Funcin acotada entre cero y uno y, frecuentemente soluciones de esquina.


Funcin no lineal en las variables
No imponer normalidad
La interpretacin de los parmetros es algo ms compleja

1
0.8

Pi

0.6
0.4

1
1 e 1 2 X i

0.2
0

Ejemplos de utilizacin:
-

Estimacin del porcentaje de usuarios de un producto (por ejemplo, internet) a


lo largo del tiempo (Logit agrupado para datos anuales).
Estimacin de actitud favorable (1) no favorable (0) respecto a mi marca (por
ejemplo, comprar el usuario un coche: s (1) o no (0)). Logit para variable
dicotmica.
Proporcin de hogares con acceso a red de gas natural a lo largo del tiempo
(Logit agrupado).
ser una empresa absorbida por otra? Logit para variable dicotmica.
Condicionantes para que una mujer trabaje fuera de casa (1) o no (0). Logit
para variable dicotmica.

LINEALIZACIN:
Para simplificar, rescribimos

z 1 2 X i
Pi

1
eZ

1 e Z 1 e Z

Y la probabilidad del suceso contrario como:

(1 Pi ) 1

eZ
1 eZ eZ
1

Z
Z
1 e
1 e
1 eZ

Usando estas expresiones, se llega a que la razn de probabilidades (u Odds ratio


o funcin de riesgo) es:

eZ
Z
Pi
1 e eZ
1
(1 Pi )
1 eZ
Lo anterior (la razn de probabilidades) se puede convertir en una funcin lineal
simplemente tomando logaritmos:

Pi
Ln(e Z ) 1 2 X i
Ln
(1 Pi )
ESTIMACIN:
A) Endgena es una proporcin o, directamente, una probabilidad: LOGIT
AGRUPADO
a. Se puede estimar directamente (es una funcin lineal),
b. pero heterocedstica: estimar por MCG
B) ndogena es una variable dicotmica (solo toma valores cero o uno), al definir
el odds ratio:LOGIT PARA RESPUESTAS DICOTMICAS

1
1
Ln
0
(1 1)

a. Si Y=1, Ln

0
0
Ln
1
(1 0)

b. Si Y=0, Ln

c. Luego la funcin no est definida de este modo. Hay que recurrir a


maximizar la funcin de verosimilitud
La probabilidad sigue definida como:

Pi

1
1 e

1 2 X i

, donde es fcil calcular que, entonces, (1 Pi )

Pero, cada valor de Y es un suceso de Bernoulli del tipo:

Pr(Y 1 | X ) Pi
Pr(Y 0 | X ) 1 Pi

Luego su funcin de densidad conjunta se puede escribir como:


n

f (Y1 , Y2 , Y3 ,...Yn ) ( pi i (1 pi ) (1Yi ) )


i 1

1
1 e 11X i

De forma equivalente, ms simple, se pueden tomar logaritmos de esta funcin de


densidad conjunta y tendramos:
n

ln( f (Y1 , Y2 , Y3 ,...Yn )) Yi Ln( pi ) (1 Yi ) Ln(1 pi )


i 1

Yi Ln( pi ) Ln(1 pi ) Yi Ln(1 pi )


i 1

pi
Ln(1 pi )
Yi Ln
i 1
(1 pi )

De las expresiones halladas anteriormente para la funcin de probabilidad de una


funcin LOGIT:

Pi
1 2 X i
Ln
(1 Pi )

Ln((1 Pi ))

1
1 e 11X i

Luego, sustituyendo en el logaritmo de la funcin de densidad conjunta de la binomial


tenemos:

ln( f (Y1 , Y2 , Y3 ,...Yn ))


n

Yi ( 1 2 X i ) Ln
X
1 e 1 2 i
i 1
n

Yi ( 1 2 X i ) Ln(1 e 1 2 X i )

n
X
Yi ( 1 2 X i ) Ln(1) Ln(1 e 1 2 i )
i1

i 1

Ahora, solo habra que buscar los parmetros que maximizan esta funcin de
densidad conjunta:

Max Yi ( 1 2 X i ) Ln(1 e 1 2 X i )
i1

L
0
1
L
0
2
Esta derivacin implica el empleo de mtodos no lineales que pueden consultarse en
el captulo 15 del libro de Damodar Gujarati, Econometra, Ed. Mac Graw Hill, ao
2003. Puede consultarse tambin J. Wooldridge (2006) Introduccin a la econometra:
un enfoque moderno. Ed. Paraninfo

EJEMPLO DE ESTIMACIN EN EVIEWS


Datos tomados de Wooldrige (2006) para Logit
Para estimar el modelo Logit en E-views, basta con pulsar en el workfile
correspondiente quick, estimate equation y, en esa pantalla, seleccionar el mtodo
de estimacin de regresin binaria. Con ello, se abrir la ventana habitual de
especificacin en la que, adems de escribir la ecuacin, habr que seleccionar Logit
entre las tres posibilidades que aparecen en el centro (tambin est disponible la
estimacin con un probit o con un modelo de valores extremos).
La primera salida obtenida (la endgena es una variable dicotmica con valor cero si la
mujer no trabaja fuera de casa y uno si s lo hace) es la siguiente:
Dependent Variable: INLF
Method: ML - Binary Logit (Quadratic hill climbing)
Date: 05/08/12 Time: 08:58
Sample: 1 753
Included observations: 753
Convergence achieved after 5 iterations
Covariance matrix computed using second derivatives

C
NWIFEINC
EDUC
EXPER
EXPER^2
AGE
KIDSLT6
KIDSGE6

Coefficient

Std. Error

z-Statistic

Prob.

0.425453
-0.021345
0.221170
0.205870
-0.003154
-0.088024
-1.443354
0.060112

0.860370
0.008421
0.043440
0.032057
0.001016
0.014573
0.203585
0.074790

0.494500
-2.534620
5.091442
6.422001
-3.104093
-6.040232
-7.089692
0.803749

0.6210
0.0113
0.0000
0.0000
0.0019
0.0000
0.0000
0.4215

McFadden R-squared
S.D. dependent var
Akaike info criterion
Schwarz criterion
Hannan-Quinn criter.
LR statistic
Prob(LR statistic)

0.219681
0.495630
1.088354
1.137481
1.107280
226.2161
0.000000

Obs with Dep=0


Obs with Dep=1

325
428

Mean dependent var


S.E. of regression
Sum squared resid
Log likelihood
Restr. log likelihood
Avg. log likelihood

0.568393
0.425963
135.1762
-401.7652
-514.8732
-0.533553

Total obs

753

Dependent Variable Frequencies


Date: 05/08/12 Time: 09:25

Dep. Value

Count

Percent

Cumulative
Count

Percent

0
1

325
428

43.00
56.00

325
753

43.16
100.00

A partir de los parmetros estimados (coefficients) se puede comprobar la coherencia


del modelo obtenido en cuanto al efecto que un incremento/reduccin en cada variable
explicativa produce sobre la endgena del modelo. Es decir, se puede realizar un
anlisis de signos.
Recurdese que la variable endgena empleada en la estimacin es el logaritmo del
ratio de probabilidades. Como informacin adicional, podemos calcular cual es este
ratio para el total de la muestra. Dado que hay un 56,6% de mujeres trabajadoras y un
43,4% amas de casa, el ratio medio tendra un valor de 1,27 (56,3/43,4), para la
muestra empleada en este ejercicio. Es decir, es 1,27 veces ms probable encontrar a
una mujer que trabaja fuera de casa que a una que no lo hace.
Observando los signos de los coeficientes obtenidos, su carcter positivo en el caso
de EDUC (aos de educacin recibida), EXPER (aos de experiencia laboral) y
KIDSGE6 (hijos mayores de 6 aos) querr decir que un aumento en el valor de estas
variables producir un incremento en el ratio (ser mayor que 1,27). Para las otras
variables, el signo negativo de NWIFEINC (renta familiar), EXPER^2 (valor de la
experiencia al cuadrado), AGE (edad de la mujer) y KIDSLT6 (hijos menores de 6
aos), habra que interpretar que un aumento en valor de estas variables llevara a una
reduccin en el ratio de probabilidades.
Como es habitual, la variable EXPER en niveles y al cuadrado, recoge la influencia de
una circunstancia que va reduciendo su impacto segn va creciendo. Se est
escribiendo una forma de parbola, donde, al comienzo, el impacto de tener
experiencia genera un cambio alto respecto a no tenerla, pero, su efecto diferencial
entre valores altos de la misma es pequeo.
Para poder interpretar en qu cuanta se incrementa o se reduce el ratio de
probabilidades a aumentar el valor de la explicativa, habitualmente se deshace el valor
del logaritmo en la endgena escribiendo el exponencial del parmetro (2):
Coefficient Exp(coeff.)
(1)
(2)
NWIFEINC -0.021345 0.978881
EDUC
0.221170 1.247535
EXPER
0.205870 1.228593
EXPER^2 -0.003154 0.996851
AGE
-0.088024 0.915739
KIDSLT6 -1.443354 0.236134
KIDSGE6 0.060112 1.061955

Mod Ratio
(2)*1,27
1.24317911
1.58437008
1.56031372
1.26600073
1.1629884
0.29989073
1.34868346

(eviews no genera esta tabla, hay que hacerla en Excel)

Dicho valor ser menor que uno cuando la variable supone una reduccin del ratio y
mayor que uno cuando supone un aumento. Por ejemplo, un incremento unitario en el
nmero de aos de educacin medio, produce un incremento en el ratio de
probabilidades de 1,24 veces; es decir, este ratio pasara de 1,27 a 1,58. A sensu
contrario, un incremento de un ao en la edad media de una mujer producira una
reduccin del ratio de 0,91; es decir, pasara de 1,27 a 1,16.
En el prrafo anterior se ha repetido la palabra media, porque es importante recordar
aqu nuevamente que una de las bondades del modelo logit es que la incidencia de los

incrementos en las exgenas no son iguales en todo el recorrido de su muestra (es un


modelo no lineal). Quiero decir con ello que tanto para los primeros como para los
ltimos valores de cambio relativo, el efecto sobre la endgena seran inferiores a este
valor medio estimado; mientras que en los extremos el cambio sera ms abrupto
(observar nuevamente la forma de la curva en ese al comienzo de este documento).
En cuanto a la valoracin conjunta del modelo, hay que decir que el carcter
dicotmico de las variables no hace recomendable el clculo de la varianza de la
endgena, por lo que tampoco se puede calcular una R cuadrado habitual en el MBRL.
Mac Fadden propuso un clculo conocido como la pseudo-R cuadrado comparando la
mejora en la maximizacin del logaritmo de verosimilitud al explicar la variable con las
exgenas elegidas frente a la opcin de explicarlo slo en funcin de una constante.
Esta pseudo-R tericamente puede variar entre 0 y 1, pero es raro que alcance valores
elevados (suele estar en torno a 0,35 para modelos aceptables).
Para valorar el modelo de un modo ms aplicado y atendiendo a su utilidad real (un
buen modelo nos debera servir para saber si la mujer trabaja o no conociendo el valor
de las variables explicativas para su caso) habitualmente se realiza un anlisis de la
capacidad de asignacin al caso cero o uno que se produce con el modelo.
La variable endgena que realmente se est modelizando es una probabilidad y, el
usuario, debe elegir a partir de que valor de probabilidad obtenida con el modelo
asignar que la mujer trabaja y para qu valor no. A este valor se le conoce con el
nombre de punto de corte (cutoff). Se puede demostrar que el modelo tendr un
mejor ratio global de acierto (asignacin correcta) cuando dicho punto de corte se
establece en el porcentaje de unos en la muestra (en nuestro ejemplo, 0,56).
El e-views nos ofrece la siguiente informacin (en la ventana de la regresin, views y
expectation-prediction evaluation):
Expectation-Prediction Evaluation for Binary Specification
Equation: UNTITLED
Date: 05/08/12 Time: 09:25
Success cutoff: C = 0.56
Estimated Equation
Dep=0
Dep=1
P(Dep=1)<=C
P(Dep=1)>C
Total
Correct
% Correct
% Incorrect
Total Gain*
Percent Gain**

232
93
325
232
71.38
28.62
71.38
71.38

100
328
428
328
76.64
23.36
-23.36
NA

Total
332
421
753
560
74.37
25.63
17.53
40.62

Constant Probability
Dep=0
Dep=1
Total
0
325
325
0
0.00
100.00

0
428
428
428
100.00
0.00

0
753
753
428
56.84
43.16

*Change in "% Correct" from default (constant probability) specification

En esta subtabla de la derecha, estamos asignado el valor 1 a todos los casos si el punto de corte es menor que la
media real, por lo que acertamos siempre cuando efectivamente el caso real es uno y fallamos siempre cuando el
caso real es cero).

**Percent of incorrect (default) prediction corrected by equation

En el marco superior izquierdo, se puede observar una tabla de contingencia en la


que, en filas, se sita los valores estimados del modelo y, en columnas, los valores
reales. Por ejemplo, el primer valor (232) significa que para ese nmero de casos, en
la realidad la mujer no trabaja y el modelo ha estimado que efectivamente no lo haca.
En el segundo valor abajo, para 93 mujeres que NO trabajan el modelo ha dicho que s
lo hacen. Para 100 mujeres que S trabajan, el modelo dijo que no lo hacan y,
finalmente, para 328 mujeres que S trabajan, el modelo estim que efectivamente
trabajan.
A continuacin, se presentan una serie de clculos porcentuales sencillos:
-

Porcentaje de valores cero (no trabaja) correctos en la asignacin:


232/325=71,38% (cuando el modelo afirma que la mujer no trabaja, en qu
porcentaje acierta).
Porcentaje de valores uno (trabaja) correctos en la asignacin:
328/428=76,64% (cuando el modelo afirma que la mujer trabaja, en qu
porcentaje acierta).
Porcentaje global de aciertos: (232+328)/753=74,37%.

En ltimo apartado de la tabla nos muestra cul es la ganancia de emplear un


modelo con estas variables explicativas sobre el haber realizado una asignacin
simplemente con una constante (que sera la media de la endgena, es decir 0,56 y,
como es ligeramente ms probable en la muestra encontrar mujeres trabajando que no
trabajando, todos los casos habran sido asignados a mujer trabajadora). En este
caso, el modelo habra asignado correctamente a las trabajadoras (de hecho, dira que
todas las mujeres trabajan), pero fallara en las que no trabajan. Nuestro modelo con
variables explicativas acertara un 71,38% de casos de no trabajadoras frente al 0%
del caso del modelo slo con la constante (la media), siendo esta la ganancia.
Evidentemente, si se va reduciendo el punto de corte se obtendr un mayor nmero de
aciertos en la asignacin de mujeres que s trabajan; a costa de tener un mayor
porcentaje de errores en la asignacin de las que no trabajan. En algunas ocasiones
tiene inters modificar este punto de corte porque se requiere tener una mayor
seguridad del modelo en alguna de las dos alternativas. Cuando se busca tener un
mayor acierto en la asignacin de unos se habla de mejorar la sensibilidad del
modelo, mientras que cuando se busca tener un mejor nmero de aciertos en la
asignacin de ceros se habla de precisin del modelo. El modelizador ha de decidir
que coste est dispuesto a correr modificando el valor del punto de corte.
E-views ofrece una tabla adicional en la parte inferior de la anterior que sera de
utilidad para comprobar en qu medida estoy distorsionando los valores iniciales al
elegir un punto de corte u otro y, as, poder realizar un anlisis coste/beneficio a la
hora de tomar mis decisiones. La tabla inferior presentara los resultados del modelo
funcionando por s solo, o asignando los casos en funcin de las probabilidades
estimadas (sumadas) sin establecer el usuario un punto de corte ms o menos
arbitrario.

Estimated Equation
Dep=0
Dep=1
E(# of Dep=0)
E(# of Dep=1)
Total
Correct
% Correct
% Incorrect
Total Gain*
Percent Gain**

190.18
134.82
325.00
190.18
58.52
41.48
15.36
27.02

134.82
293.18
428.00
293.18
68.50
31.50
11.66
27.02

Total
325.00
428.00
753.00
483.35
64.19
35.81
13.25
27.02

Constant Probability
Dep=0
Dep=1
Total
140.27
184.73
325.00
140.27
43.16
56.84

184.73
243.27
428.00
243.27
56.84
43.16

325.00
428.00
753.00
383.54
50.94
49.06

*Change in "% Correct" from default (constant probability) specification


**Percent of incorrect (default) prediction corrected by equation

La utilidad de esta segunda tabla podra ser la de comparar entre distintos modelos
para endgenas diferentes (con distinto nmero de unos).

Anda mungkin juga menyukai