Anda di halaman 1dari 13

Model Limited Dependent Variable (Aplikasi STATA)

Joan marta

Pada contoh aplikasi ini yang kita gunakan adalah data mroz.dta, untuk mengetahui
data kita tersebut seperti apa maka kita perlu mengenal data itu tersebut. Data ini
dapat di import ke stata dengan menuliskan perintah: (harus terkoneksi ke internet)
use http://www.stata.com/data/jwooldridge/eacsap/mroz

Mengenal data
Untuk mengetahui jenis data, variabel name, value label, format serta varabel label
kita dapat melakukannya sebagai berikut:

describe
Contains data from http://www.stata.com/data/jwooldridge/eacsap/mroz.dta
obs: 753
vars: 22 2 Sep 1996 16:04
size: 36,897

storage display value


variable name type format label variable label

inlf byte %9.0g =1 if in lab frce, 1975


hours int %9.0g hours worked, 1975
kidslt6 byte %9.0g # kids < 6 years
kidsge6 byte %9.0g # kids 6-18
age byte %9.0g woman's age in yrs
educ byte %9.0g years of schooling
wage float %9.0g est. wage from earn, hrs
repwage float %9.0g rep. wage at interview in 1976
hushrs int %9.0g hours worked by husband, 1975
husage byte %9.0g husband's age
huseduc byte %9.0g husband's years of schooling
huswage float %9.0g husband's hourly wage, 1975
faminc float %9.0g family income, 1975
mtr float %9.0g fed. marg. tax rte facing woman
motheduc byte %9.0g mother's years of schooling
fatheduc byte %9.0g father's years of schooling
unem float %9.0g unem. rate in county of resid.
city byte %9.0g =1 if live in SMSA
exper byte %9.0g actual labor mkt exper
nwifeinc float %9.0g (faminc - wage*hours)/1000
lwage float %9.0g log(wage)
expersq int %9.0g exper^2

Untuk mengetahui berapa jumlah observasi, mean, std.deviasi, nilai max dan nilai
minimum kita dapat melakukannya sebagai berikut:
sum

1
Variable Obs Mean Std. Dev. Min Max

inlf 753 .5683931 .4956295 0 1


hours 753 740.5764 871.3142 0 4950
kidslt6 753 .2377158 .523959 0 3
kidsge6 753 1.353254 1.319874 0 8
age 753 42.53785 8.072574 30 60

educ 753 12.28685 2.280246 5 17


wage 753 2.374565 3.241829 0 25
repwage 753 1.849734 2.419887 0 9.98
hushrs 753 2267.271 595.5666 175 5010
husage 753 45.12085 8.058793 30 60

huseduc 753 12.49137 3.020804 3 17


huswage 753 7.482179 4.230559 .4121 40.509
faminc 753 23080.59 12190.2 1500 96000
mtr 753 .6788632 .0834955 .4415 .9415
motheduc 753 9.250996 3.367468 0 17

fatheduc 753 8.808765 3.57229 0 17


unem 753 8.623506 3.114934 3 14
city 753 .6427623 .4795042 0 1
exper 753 10.63081 8.06913 0 45
nwifeinc 753 20.12896 11.6348 -.0290575 96

lwage 428 1.190173 .7231978 -2.054164 3.218876


expersq 753 178.0385 249.6308 0 2025

Untuk mengetahui suatu komposisi nilai dari suatu nilai dummy, kita dapat
melakukannya sebagai berikut: (misal variabel yang kita ingin tahu adalah inlf)
inspect inlf
inlf: =1 if in lab frce, 1975 Number of Observations

Total Integers Nonintegers


# Negative - - -
# Zero 325 325 -
# # Positive 428 428 -
# #
# # Total 753 753 -
# # Missing -

0 1 753
(2 unique values)

histogram inlf
15
10
Density

5
0

0 .2 .4 .6 .8 1
=1 if in lab frce, 1975

Untuk membuat lebih mudah dalam simulasi model logit dan probit didalam modul
ini, kita akan membuat variabel baru yaitu variabel individu awal. Dengan cara:
gen idawal = _n

2
Model yang digunakan
Misalnya kita ingin mengestimasi kemungkinan/peluang seseorang wanita yang telah
menikah untuk bekerja atau berada pada angkatan kerja (inlf) berdasarkan
serangkaian variabel (nwifeinc, educ, exper, exper2, age, kidslt6 dan kidsge6). Dengan
menggunakan data Mroz.raw dengan model sbb:
P(infl =1) = α + β1kidsge6 + β2kidslt6 + β3age + β4educ + β5nwifeinc + β6exper + ε
Dimana,
inlf =1 if in lab force in 1975,
kidsge6 = number of kids aged 6-18
kidslt6 = number of kids aged < 6 years
age = woman's age in years
educ = years of schooling
nwifeinc = (faminc - wage*hours)/1000
exper = actual labor market experience

1. LPM
reg inlf kidslt6 kidsge6 age educ nwifeinc exper

Source SS df MS Number of obs = 753


F(6, 746) = 42.32
Model 46.9082358 6 7.8180393 Prob > F = 0.0000
Residual 137.81952 746 .184744665 R-squared = 0.2539
Adj R-squared = 0.2479
Total 184.727756 752 .245648611 Root MSE = .42982

inlf Coef. Std. Err. t P>|t| [95% Conf. Interval]

kidslt6 -.2718291 .0335715 -8.10 0.000 -.3377348 -.2059233


kidsge6 .0125301 .0132781 0.94 0.346 -.0135368 .038597
age -.017712 .0024487 -7.23 0.000 -.0225191 -.0129049
educ .0398189 .0074006 5.38 0.000 .0252905 .0543474
nwifeinc -.0033265 .0014574 -2.28 0.023 -.0061876 -.0004654
exper .0225725 .0021786 10.36 0.000 .0182956 .0268493
_cons .7072318 .1504335 4.70 0.000 .4119083 1.002555

Karena kita melakukan data menggunakan LPM dimana berdasarkan OLS, maka dari
hasil diatas kita dapat membuat model menjadi seperti berikut: (yaitu dengan
memasukan koefisient ke model awal)
P(infl =1) = 0.707 – 0.272kidslt6 + 0.013kidsge6 – 0.017age + 0.039educ –
0.003nwifeinc + 0.023exper

3
Melihat nilai prediksi dan error dari estimasi menggunakan LPM
reg inlf kidslt6 kidsge6 age educ nwifeinc exper

(omitted)
predict lpminlfhat → (untuk mendapatkan nilai inlf estimasi)
predict erlpm, resid → (untuk mendapatkan nilai error dari inlf estimasi
(lpminlfhat))

list inlf lpminlfhat erlpm in 26/35

inlf lpminl~t erlpm Nilai Prediksi dengan


LPM
26. 1 1.030639 -.030639
27. 1 .7865728 .2134272
28. 1 .8024666 .1975335
29. 1 .6710289 .3289711 Terlihat bahwa estimasi yang
30. 1 .5469357 .4530643 kita peroleh bisa lebih dari 1,
padahal data sebenarnya data
31. 1 .9649304 .0350696 kita hanya antara 0 dan 1.
32. 1 .4919043 .5080957
33. 1 .9282249 .0717751
34. 1 .5534077 .4465922
35. 1 1.138675 -.1386752

list inlf kidslt6 kidsge6 age educ nwifeinc exper lpminlfhat


erlpm in 26

inlf kidslt6 kidsge6 age educ nwifeinc exper lpminl~t erlpm

26. 1 0 2 43 17 27.34999 21 1.030639 -.030639

Dimana dari nilai variabel tersebut kita masukkan kedalam model LPM yang telah kita
dapatkan koefisiennya dari hasil estimasi di atas. Terlihat bahwa estimasi yang kita
peroleh bisa lebih dari 1, padahal data sebenarnya data kita hanya antara 0 dan 1. Oleh
karena itu, permasalahan tersebut merupakan salah satu kelemahan dari LPM.

Grafik scatterplot
Untuk memperjelas hasil dari estimasi menggunakan LPM (lpminlfhat) maka nilainya
dapat kita gambarkan menggunakan scatter plot, dengan cara seperti berikut:

4
Membuat Scatter Plot berdasarkan Fitted Values
scatter inlf lpminlfhat || lfit inlf lpminlfhat

1.5
1
.5
0
-.5

-.5 0 .5 1 1.5
Fitted values

=1 if in lab frce, 1975 Fitted values

5
2. Logit
logit inlf kidslt6 kidsge6 age educ nwifeinc exper

Iteration 0: log likelihood = -514.8732


Iteration 1: log likelihood = -406.91038
Iteration 2: log likelihood = -406.14404
Iteration 3: log likelihood = -406.14318
Iteration 4: log likelihood = -406.14318

Logistic regression Number of obs = 753


LR chi2(6) = 217.46
Prob > chi2 = 0.0000
Log likelihood = -406.14318 Pseudo R2 = 0.2112

inlf Coef. Std. Err. z P>|z| [95% Conf. Interval]

kidslt6 -1.439393 .2014989 -7.14 0.000 -1.834324 -1.044462


kidsge6 .0581735 .07338 0.79 0.428 -.0856487 .2019957
age -.0910884 .0143207 -6.36 0.000 -.1191564 -.0630204
educ .2269766 .0432954 5.24 0.000 .1421191 .3118341
nwifeinc -.0202165 .0082637 -2.45 0.014 -.036413 -.0040199
exper .1197458 .0136264 8.79 0.000 .0930385 .146453
_cons .8379088 .8409368 1.00 0.319 -.810297 2.486115

Dari hasil regress kita menggunakan logit maka kita mendapatkan koefisient untuk
dimasukan kedalam rumus logistik, yakni

𝟏 𝒆𝒛
𝑷𝒊 = =
𝟏 + 𝒆−𝒛 𝟏 + 𝒆𝒛

menjadi seperti berikut:

Contoh, misalkan kita ingin melihat data kita pada baris satu dari stata dan melihat
berapa nilai probabilitas prediksi dengan logit, maka dapat dilakukan dengan
seperti berikut:

logit inlf kidslt6 kidsge6 age educ nwifeinc exper

predict lgtinlfhat →(untuk mendapatkan nilai probabilitas inlf estimasi)

list inlf kidslt6 kidsge6 age educ nwifeinc exper lgtinlfhat


in 1

inlf kidslt6 kidsge6 age educ nwifeinc exper lgtinl~t


Nilai Probabilitas
1. 1 1 0 32 12 10.91006 14 .6599977 inlf=1 dengan Logit

6
Dengan memasukan rumus yang telah memiliki keofisien kita akan mendapatkan
nilai inlf estimasi (lgtinlfhat), atau nilai Probabilitas prediksi dengan rumus seperti
ini:

Menggunakan odds ratio

logit inlf kidslt6 kidsge6 age educ nwifeinc exper, or


Iteration 0: log likelihood = -514.8732
Iteration 1: log likelihood = -406.91038
Iteration 2: log likelihood = -406.14404
Iteration 3: log likelihood = -406.14318
Iteration 4: log likelihood = -406.14318

Logistic regression Number of obs = 753


LR chi2(6) = 217.46
Prob > chi2 = 0.0000
Log likelihood = -406.14318 Pseudo R2 = 0.2112

inlf Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

kidslt6 .2370717 .0477697 -7.14 0.000 .1597215 .351881


kidsge6 1.059899 .0777754 0.79 0.428 .9179166 1.223843
age .912937 .0130739 -6.36 0.000 .8876689 .9389243
educ 1.254801 .0543271 5.24 0.000 1.152714 1.365928
nwifeinc .9799865 .0080983 -2.45 0.014 .964242 .9959881
exper 1.12721 .0153598 8.79 0.000 1.097504 1.157721
_cons 2.311528 1.943849 1.00 0.319 .4447259 12.01451

Nilai Odds Ratio mewakili kemungkinan untuk inlf = 1 (bekerja) ketika variabel
tersebut meningkat sebesar 1 unit. Nilai ini adalah exp (logit coeff).
Jika nilai Odds Ratio > dari 1 maka kemungkinan inlf = 1 akan meningkat, namun
jika nilai Odds Ratio < dari 1 maka kemungkinan inlf = 1 menurun. Lihatlah tanda
koefisien logit

Contoh interpretasi var kidslt6:


Setiap penambahan 1 orang anak yang berusia <6 tahun akan menyebabkan
kemungkinan seorang wanita yang telah menikah untuk bekerja mengalami
penurunan dengan nilai odds ratio sebesar 0.23

Melihat Odds ratio pada different levels di setiap variable


logit inlf kidslt6 kidsge6 age educ nwifeinc exper
(omitted)
adjust, by (kidslt6) exp

7
Dependent variable: inlf Equation: inlf Command: logit
Variables left as is: kidsge6, age, educ, exper, nwifeinc

# kids <
6 years exp(xb)

0 1.85037
1 .589443
2 .289553
3 .023302

Key: exp(xb) = exp(xb)

Interpretasi:
ketika kids<6 years = 0 (perempuan tidak memiliki anak dibawah 6 tahun) maka
kemungkinan (the odds of) inlf=1 (bekerja) akan meningkat dengan odds ratio sebesar
1.85037 (controlling by the other variables). Misalnya contoh lain, ketika kids<6 years
= 3 (perempuan memiliki anak dibawah 6 tahun sebanyak 3 orang) maka
kemungkinan (the odds of) inlf=1 (bekerja) akan menurun dengan odds ratio sebesar
0.023302 (controlling by the other variables).

Memprediksi probabilitas pada different levels di setiap variable di


Model Logit

logit inlf kidslt6 kidsge6 age educ nwifeinc exper


(omitted)
adjust, by (kidslt6) pr

Dependent variable: inlf Equation: inlf Command: logit


Variables left as is: kidsge6, age, educ, exper, nwifeinc

# kids <
6 years pr

0 .649168
1 .370849
2 .224538
3 .022772

Key: pr = Probability

Penjelasannya: ketika kids<6 years = 0 (perempuan tidak memiliki anak dibawah 6


tahun) maka probabilita inlf=1 (bekerja) adalah .649168 atau 64.91%. (controlling by
the other variables). ketika kids<6 years = 2 (perempuan memiliki anak dibawah 6
tahun sebanyak 2 orang) maka probabilita inlf=1 (bekerja) adalah .224538 atau
22.45%. (controlling by the other variables). Hasil dari Probabilitas tersebut berasal
dari persamaan logit diatas.

8
Efek marginal rata-rata dari setiap variabel peubah (multiplier) Model
Logit

logit inlf kidslt6 kidsge6 age educ nwifeinc exper


(omitted)
mfx
Marginal effects after logit
y = Pr(inlf) (predict)
= .58774394

variable dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

kidslt6 -.3487663 .04902 -7.12 0.000 -.444839 -.252694 .237716


kidsge6 .0140955 .01778 0.79 0.428 -.020758 .048949 1.35325
age -.0220708 .00347 -6.35 0.000 -.028879 -.015263 42.5378
educ .0549967 .01049 5.24 0.000 .034435 .075559 12.2869
nwifeinc -.0048985 .002 -2.45 0.014 -.008823 -.000973 20.129
exper .0290145 .00327 8.88 0.000 .022611 .035418 10.6308

Penjelasan untuk marginal tiap variable, misal untuk variabel kidslt6, secara rata-
rata ketika nilai kidslt6 naik satu satuan maka kemungkinan perempuan untuk infl=1
(bekerja) akan turun sebesar 0.3487663 point atau 34.88%. contoh lain, misal untuk
variabel educ, secara rata-rata ketika nilai educ naik satu satuan maka kemungkinan
perempuan untuk infl=1 (bekerja) akan naik sebesar 0.0549967 point atau sebesar
5.5%.

Pengujian Goodness of Fit

Pengujian ini perlu dilakukan karena hasil Pseudo R2 hasil dari persamaan diragukan
untuk di analisa, karena hasil yang cukup lemah. Untuk itu kita perlu mencari R2 lain
misalnya dengan McFadden’s R2, Efron’s R2 dll. Selain itu pengujian ini
menampilkan nilai aic & bic, hasil ini bisa kita bandingkan dengan persamaan lain
yang kita buat, semakin kecil aic & bic semakin baik. Pengujian Goodness of Fit dapat
dilakukan dengan cara:

logit inlf kidslt6 kidsge6 age educ nwifeinc exper


(omitted)
fitstat
Measures of Fit for logit of inlf

Log-Lik Intercept Only: -514.873 Log-Lik Full Model: -406.143


D(746): 812.286 LR(6): 217.460
Prob > LR: 0.000
McFadden's R2: 0.211 McFadden's Adj R2: 0.198
Maximum Likelihood R2: 0.251 Cragg & Uhler's R2: 0.337
McKelvey and Zavoina's R2: 0.354 Efron's R2: 0.261
Variance of y*: 5.090 Variance of error: 3.290
Count R2: 0.742 Adj Count R2: 0.403
AIC: 1.097 AIC*n: 826.286
BIC: -4129.266 BIC': -177.716

9
Hasil diatas menyatakan bahwa McFadden's Adj R2 = 0.198, yang dapat diartikan
sebagai berikut garis regresi mampu menjelaskan variasi penyebaran dependen
dengan menggunakan kurva sigmoid sebesar 19.8%.

Pengujian Goodness of Fit Hosmer-Lemeshow

Pengujian Hosmer-Lemeshow (2000) menyajikan Pearson X2 goodness-of-fit test


untuk the fitted model atau pengujian ini mirip dengan uji global pada OLS. Pengujian
Pearson X2 goodness-of-fit adalah sebuah test terhadap hasil data yang observed
terhadap expected number of responses dimana menggunakan covariate patterns
(Manual Stata11). Pengujian Hosmer-Lemeshow dapat dilakukan dengan cara seperti
berikut:

logit inlf kidslt6 kidsge6 age educ nwifeinc exper


(omitted)
estat gof

Logistic model for inlf, goodness-of-fit test

number of observations = 753


number of covariate patterns = 753
Pearson chi2(746) = 753.63
Prob > chi2 = 0.4152

Pada hasil model kita, model fits hasilnya sangat baik. Dimana, nilai number of
covariate patterns saama dengan number of observations yaitu 753, sedangkan nilai
dari (Prob>chi2) lebih besar dari α atau terima H0. Dimana memilki hipotesisi seperti
berikut:
H0 : 𝒚 = 𝒚̅ ∶ Tidak Tolak Model
H1 : 𝒚 ≠ 𝒚̅ ∶ Tolak Model

Grafik scatterplot

Untuk memperjelas hasil dari estimasi menggunakan Logit maka nilainya dapat kita
gambarkan menggunakan scatter plot, dengan cara seperti berikut:
Membuat grafik Scatter Plot Transformasi logit
Kita harus membuat variable baru, yaitu berisi ln dari (probabilitas/(1-
probabilitas)), seperti yang tertera dalam grafik dalam membuat kurva
transformasi logit. Dengan cara:

gen lnlgtinlfhat = ln(lgtinlfhat/(1-lgtinlfhat))


scatter lgtinlfhat inlf lnlgtinlfhat

10
1
.8
.6
.4
.2
0

-4 -2 0 2 4
lnlgtinlfhat

Pr(inlf) =1 if in lab frce, 1975

11
3. Probit
probit inlf kidslt6 kidsge6 age educ nwifeinc exper

Iteration 0: log likelihood = -514.8732


Iteration 1: log likelihood = -407.11545
Iteration 2: log likelihood = -406.21971
Iteration 3: log likelihood = -406.21886
Iteration 4: log likelihood = -406.21886

Probit regression Number of obs = 753


LR chi2(6) = 217.31
Prob > chi2 = 0.0000
Log likelihood = -406.21886 Pseudo R2 = 0.2110

inlf Coef. Std. Err. z P>|z| [95% Conf. Interval]

kidslt6 -.8742923 .1175098 -7.44 0.000 -1.104607 -.6439773


kidsge6 .0345459 .0429862 0.80 0.422 -.0497055 .1187974
age -.0555548 .0083447 -6.66 0.000 -.0719101 -.0391995
educ .1336902 .0251346 5.32 0.000 .0844273 .1829531
nwifeinc -.0115648 .0047942 -2.41 0.016 -.0209613 -.0021684
exper .0702165 .007571 9.27 0.000 .0553775 .0850555
_cons .5795817 .496205 1.17 0.243 -.3929623 1.552126

(Tahapan interpretasi model probit dan pengujian Goodness of Fit sama dengan
yang sebelumnya dilakukan pada model logit)
Contoh, misalkan kita ingin melihat data kita pada baris satu dari stata dan melihat
berapa Nilai Probabilitas Prediksi dengan probit, maka dapat dilakukan dengan
seperti berikut:
probit inlf kidslt6 kidsge6 age educ nwifeinc exper
predict prinlfhat → (untuk mendapatkan nilai probabilitas inlf estimasi)

inlf kidslt6 kidsge6 age educ nwifeinc exper prinlf~t Nilai Probabilitas
1. 1 1 0 32 12 10.91006 14 .6512424 inlf=1 dengan Probit

Grafik scatterplot

Membandingkan scatter plot model Probit dan Logit

Membuat grafik Scatter Plot Transformasi Probit

gen lnprinlfhat = ln(prinlfhat/(1-prinlfhat))


scatter prinlfhat inlf lnprinlfhat

12
1
1

.8
.8

.6
.6

.4
.4

.2
.2

0
0

-6 -4 -2 0 2 4 -4 -2 0 2 4
lnprinlfhat lnlgtinlfhat

Pr(inlf) =1 if in lab frce, 1975 Pr(inlf) =1 if in lab frce, 1975

Scatter Plot Probit Scatter Plot Logit

*Pada dasarnya perbedaan logit dan probit adalah Jika Logit –


Cumulative standard logistic distribution (F), sedangkan Probit –
Cumulative standard normal distribution (Φ). Namun Pada akhirnya
dari dua model tersebut memiliki hasil yang persis sama.(Oscar Torres,
Princeton University)

13

Anda mungkin juga menyukai