Anda di halaman 1dari 61

BAB 10

MODEL VARIABEL TERIKAT YANG TERBATAS

Tujuan Pembelajaran : Mahasiswa dapat menerapkan berbagai model regresi


Umum dengan variabel terikat yang terbatas (limited dependent
variable model)

Tujuan Pembelajaran : Mahasiswa diharapkan dapat


Khusus
1. Menjelaskan latar belakang penerapan model regresi
dengan variabel terikat yang terbatas
2. Menggunakan model Probit (LPM)
3. Menggunakan model Binary Logit
4. Menggunakan model Multinomial Logit (MLM)
5. Menggunakan model Ordered Response Logit (OLM)
6. Menggunakan model Regresi Poisson (PRM)
7. Menggunakan model Regresi yang Disensor

Lembar Informasi:

10.1 PENGANTAR
Model linir yang telah dibahas sebelumnya menggunakan variabel terikat yang bersifat
numerik dan diasumsikan dapat mengambil sebarang nilai (unbounded). Asumsi yang terakhir
pada beberapa penelitian dapat bersifat kurang realistis dan tidak dapat ditterapkan.
Penelitian dengan variabel terikat yang bersifat kualitatif (nominal/kategorik)
misalnya adalah; keputusan membeli atau tidak membeli suatu produk yang dikaitkan dengan
sejumlah variabel penjelas seperti demografi, daya beli, dan psikologis. Dalam hal ini, nilai
variabel terikat diberi kode 1 (jika beli) dan 0 (jika tidak beli). Model regresi yang digunakan
untuk data semacam ini disebut model binary response, diantaranya adalah model
probabilitas linir, logit dan probit.
Selanjutnya jika variabel terikat memiliki multi kategori maka sifat pilihan dapat
berupa nominal (klasifikasi tidak memiliki arti urutan/rangking) dan ordinal (klasifikasi
memiliki arti urutan/rangking). Untuk variabel yang bersifat nominal, model multinomial
logit dapat digunakan. Sedangkan untuk variabel yang bersifat ordinal, seseorang bisa
menggunakan model ordered response.
Sifat variabel terikat lain yang memberikan hambatan bagi penerapan OLS adalah
count data. Di sini, nilai variabel terikat harus bersifat integer dan non-negatif. Variabel
semacam ini misalnya adalah; frekuensi kunjungan (antrian) ke suatu tempat, jumlah anak,

1
pembelian kendaraan bermotor dan sebagainya. Regresi Poisson dapat mengakomodasi
variabel semacam ini.
Jika nilai variabel terikat adalah kontinyu tetapi hanya terbatas pada kisaran nilai
tertentu juga merupakan hambatan bagi penerapan OLS secara langsung. Variabel semacam
ini misalnya indeks prestasi, persentase kepesertaan pensiun, nilai TOEFL, dan lainnya. Data
yang dimiliki disebut censored jika nilai variabel terikat dibatasi. Model untuk mengatasi
masalah semacam ini disebut censored regression.
Seluruh teknik yang digunakan untuk mengatasi permasalahan yang disebut di atas
termasuk pada kelas model regresi dengan variabel terikat yang terbatas (limited dependent
variable model)

10.2 MODEL LOGIT DAN PROBIT (Gujarati, 2011)


Variabel terikat dalam model regresi kebanyakan bersifat numerik, biasanya diukur
dalam skala rasio (interval dan rasio). Namun, dalam banyak penerapan, variabel terikat
diukur dalam skala nominal yang mengungkap suatu kategorisasi seperti pria atau wanita,
menikah atau tidak menikah, bekerja atau tidak bekerja, dan banyak lagi contoh lainnya yang
dapat diungkap dari berbagai cabang ilmu, termasuk akuntansi dan keuangan.
Model-model regresi yang menyertakan variabel terikat berskala nominal adalah
merupakan sebuah contoh dari suatu kelompok luas model-model yang dikenal sebagai
model-model regresi dengan respons kualitatif (qualitative response regresion models).
Terdapat beberapa variasi model-model seperti itu, yang paling sederhana adalah regresi
dengan variabel terikat biner (binary) atau dikotomi atau dummy.
Model-model tersebut biasanya ditaksir dengan beberapa metoda khusus seperti logit
dan probit. Pertama, kita akan tunjukkan bahwa metoda kuadrat terkecil (OLS) tidak cocok
digunakan dan kemudian kita pertimbangkan model-model logit dan probit. Kita mulai
dengan sebuah contoh.

10.3 SEBUAH CONTOH ILUSTRASI: MEROKOK ATAU TIDAK MEROKOK

Berikut dalam Tabel 10.1 berisi data sampel acak yang terdiri dari 1196 pria di US,
dipinjam dari Gujarati (2011). Variabel-variabel yang digunakan dalam analisis adalah:

Smoker = 1 untuk para perokok dan 0 untuk bukan para perokok


Age = usia dalam tahun
Education = jumlah tahun (lama) pendidikan
Income = pendapatan keluarga
Pcigs = harga rokok di tiap negara bagian US tahun 1979

10.4 THE LINEAR PROBABILITY MODEL (LPM)

Karena variabel terikat, perokok, adalah variabel berskala nominal, sebab itu
mengambil nilai 1 (untuk perokok) dan 0 (untuk bukan perokok). Umpama, metoda ordinary
least-squares (OLS) digunakan untuk menaksir perilaku merokok yang terkait dengan

2
beberapa variabel penjelas seperti; usia (age), pendidikan (education), pendapatan keluarga
(family income), dan harga rokok (price of cigarettes). Model dapat dinyatakan sebagai

𝑌𝑖 = 𝐵1 + 𝐵2 𝐴𝑔𝑒𝑖 + 𝐵3 𝐸𝑑𝑢𝑐𝑖 + 𝐵4 𝐼𝑛𝑐𝑜𝑚𝑒𝑖 + 𝐵5 𝑃𝑐𝑖𝑔𝑠 + 𝑢𝑖 (10.1)

atau secara ringkas,

𝑌𝑖 = 𝐵𝑋 + 𝑢𝑖 (10.2)

dimana BX mewakili pernyataan sisi kanan persamaan (10.1).

Model (10.2) disebut sebagai Linear Probability Model (LPM) karena nilai ekspektasi
bersyarat (conditional expectation) dari variabel terikat (status merokok), pada nilai-nilai
variabel penjelas tertentu dapat diinterpretasikan sebagai probabilitas bersyarat (conditional
probability) bahwa suatu peristiwa (yaitu, merokok) akan terjadi. Beberapa langkah perintah
EViews memberikan hasil penaksiran yang dilaporkan pada Tabel 1.

3
1

 Sambil menekan
tombol “ctrl”, pilih
secara berurutan
variabel-variabel:
smoker, age, educ,
income, dan pcigs79,
5
 Klik kanan mouse,
 Pilih: open, as eqation

4
6

5
Tabel 1. Model LPM tentang Keputusan Merokok atau Tidak Merokok
(Tabel 8.2 dalam Gujarati (2011))

Dependent Variable: SMOKER


Method: Least Squares
Date: 04/19/21 Time: 21:14
Sample: 1 1196
Included observations: 1196

Variable Coefficient Std. Error t-Statistic Prob.

C 1.123089 0.188356 5.962576 0.0000


AGE -0.004726 0.000829 -5.700952 0.0000
EDUC -0.020613 0.004616 -4.465272 0.0000
INCOME 1.03E-06 1.63E-06 0.628522 0.5298
PCIGS79 -0.005132 0.002852 -1.799076 0.0723

R-squared 0.038770 Mean dependent var 0.380435


Adjusted R-squared 0.035541 S.D. dependent var 0.485697
S.E. of regression 0.476988 Akaike info criterion 1.361519
Sum squared resid 270.9729 Schwarz criterion 1.382785
Log likelihood -809.1885 Hannan-Quinn criter. 1.369531
F-statistic 12.00927 Durbin-Watson stat 1.943548
Prob(F-statistic) 0.000000

Keterangan Tabel 1.

Semua variabel, kecuali pendapatan, secara statistik signifikan, setidaknya pada


tingkat signifikansi 10%. Umur, pendidikan, dan harga rokok bertanda negatif, dengan kata
lain peningkatan masing-masing nilai dari ketiga variabel tersebut mengurangi perilaku
merokok. Secara kolektif semua variabel penjelas secara statistik signifikan, untuk estimasi
nilai F ≈ 12 yang memiliki nilai p hampir nol. Ingat bahwa nilai F menguji hipotesis bahwa
semua koefisien slope sama dengan nol.
Karena kita mengestimasi LPM, interpretasi untuk koefisien-koefisien regresi adalah
sebagai berikut. Probabilitas untuk merokok turun sebesar 0.005 karena usia, ceteris paribus,
mungkin karena dampak merokok akan merugikan kesehatan. Serupa itu, jika harga rokok
naik 1 dollar, maka probabilitas untuk merokok turun sebesar 0.005, ceteris paribus, hal itu
mungkin karena porsi pengeluaran rokok terhadap pendapatan adalah relatif tinggi. Nilai R2
adalah sebesar ≈ 0.038, nampak sangat rendah, namun itu tidak penting karena variabel terikat
berskala nominal yang hanya mengambil nilai 1 dan nol.

6
Kita dapat memperbaiki model ini dengan memperkenalkan komponen interaksi,
semisal age dikalikan dengan education (educ), atau education dikalikan dengan income, atau
memperkenalkan nilai kuadrat age untuk mengetahui apakah terdapat pengaruh non-linir
variabel-variabel penjelas tersebut terhadap merokok. Namun tidak berguna untuk melakukan
itu karena LPM mengandung beberapa kelemahan.
Pertama, LPM mengasumsikan bahwa probabilitas untuk merokok berubah secara
linir mengikuti nilai-nilai variabel penjelas dengan tanpa ada batasan nilai, kecil ataupun
besar. Kedua, secara logis, nilai probabilitas harus terletak antara nilai 0 dan 1. Namun tidak
ada jaminan bahwa nilai probabilitas yang ditaksir oleh LPM akan terletak antara nilai 0 dan
1. Ketiga, asumsi yang biasa yaitu bahwa unsur error terdistribusi secara normal tidak berlaku
ketika variabel terikat hanya mengambil nilai 0 dan 1. Akhirnya, unsur error dalam LPM
adalah heteroskedastik sehingga uji signifikansi tradisional diragukan.
Untuk semua alasan tersebut, LPM bukan pilihan yang dianjurkan untuk pemodelan
variabel-variabel terikat dikotomi. Dua alternatif yang didiskusikan dalam literatur adalah
model logit dan probit.

10.5 BYNARY LOGIT

Dalam contoh perokok, tujuan utama adalah menaksir probabilitas merokok


berdasarkan informasi beberapa nilai-nilai sejumlah variabel penjelas. Dalam
mengembangkan suatu fungsi probabilitas, kita perlu perhatikan dua syarat:

1) Jika Xi, nilai dari variabel-variabel penjelas berubah, nilai probabilitas penaksir selalu
bernilai antara interval 0-1, dan .
2) Hubungan antara Pi dan Xi adalah non-linir, yaitu, nilainya mendekati nol dengan
pertumbuhan yang menurun mengikuti peningkatan Xi.

Model-model logit dan probit memenuhi kedua syarat tersebut. Pertama-tama kita
akan membahas model logit karena kesederhanaan pernyataan matematisnya.
Asumsikan bahwa dalam contoh di atas, keputusan seorang individu untuk merokok
atau tidak merokok tergantung pada suatu indeks utility yang tidak terobservasi, 𝐼𝑖∗ , yang
tergantung pada beberapa variabel seperti, usia, pendidikan, pendapatan keluarga dan harga
rokok. Kita nyatakan indeks tersebut sebagai,

𝐼𝑖∗ = 𝐵𝑋 + 𝑢𝑖 (10.3)

dimana i = individu ke i, u = komponen error, dan BX terdefinisikan seperti pada persamaan


(10.2).
Namun, bagaimana bahwa angka indeks yang tak terobservasi berkaitan dengan
keputusan nyata untuk merokok atau tidak merokok? Untuk memulai penjelasan, masuk akal
untuk mengasumsikan bahwa:

7
Yi = 1 (seseorang merokok) jika 𝐼𝑖∗ ≥ 0
𝑌𝑖 = 0 (seseirang tidak merokok) jika 𝐼𝑖∗ < 0

Yaitu bahwa, jika indeks utility seseorang I lebih besar dari nilai ambang 𝐼𝑖∗ , maka ia
akan merokok, dan sebaliknya. Sebagai catatan bahwa, disini kita tidak berdebat tentang
merokok itu baik atau buruk bagi kesehatan, meskipun demikian, memang ada bukti riset yang
kuat bahwa merokok mungkin buruk bagi kesehatan.
Agar pilihan perilaku merokok dalam contoh tersebut operasional, kita dapat
mempertimbangkannya sebagai suatu probabilitas pembuatan suatu pilihan, sebut saja pilihan
untuk merokok (Y = 1) adalah:

Pr(𝑌𝑖 = 1) = Pr(𝐼 ∗ ≥ 0)
= Pr(𝐵𝑋 + 𝑢𝑖 ) ≥ 0) (10.4)
= Pr(𝑢𝑖 ) ≥ −𝐵𝑋)

Persamaan (8.4) menyatakan bahwa probabilitas seseorang untuk merokok tergantung


pada suatu distribusi probabilitas dari komponen residu (error), ui.1 Jika distribusi probabilitas
ini simetris sekitar nilai (nol) rata-rata, maka persamaan (8.4) capat dituliskan sebagai:

Pr(𝑢𝑖 ≥ −𝐵𝑋) = Pr(𝑢𝑖 ≤ 𝐵𝑋) (10.5)

Oleh karena itu,

𝑃𝑖 = Pr(𝑌𝑖 = 1) = Pr(𝑢𝑖 ≤ 𝐵𝑋) (10.6)

Menjadi jelas bahwa Pi tergantung pada distribusi probabilitas tertentu dari ui.
Ingat, probabilitas bahwa suatu variabel random (acak) mengambil suatu nilai yang kurang
dari nilai tertentu yang diberikan oleh fungsi distribusi kumulatif (CDF) dari variabel
tersebut.2
Model logit mengasumsikan bahwa distribusi probabilitas ui mengikuti distribusi
probabilitas logistik, dituliskan sebagai:

1 𝑒𝑍
𝑃𝑖 = = (10.7)
1 + 𝑒 −𝑍𝑖 1 + 𝑒 𝑍

dimana Pi = probabilitas merokok (Yi = 1), e adalah bilangan Euler sebagai basis dari logaritma
natural dengan nilai sebesar e = 2,71828183, dan

1
Catatan bahwa B adalah fixed atau non-random (tidak acak) dan nilai-nilai X given. Oleh karena itu, variasi
dalam Yi berasal dari variasi dalam ui.
2
Mengingat kembali dari pelajaran statistika dasar bahwa, fungsi distribusi kumulatif dari suatu variabel acak,
X, F(X) didefinisikan sebagai: F(X) ≈ Pr(X≤x), dimana x adalah sebuah nilai tertentu dari X. juga ingat bahwa
jika kita menggambarkan CDF, ia akan membentuk sebuah kurva berbentuk huruf S yang memanjang.

8
Zi = BX + ui (10.8)

Probabilitas bahwa Y = 0, seseorang bukan perokok, dinyatakan sebagai

1 𝑒 −𝑍
1 − 𝑃𝑖 = = (10.9)
1 + 𝑒 𝑍𝑖 1 + 𝑒 −𝑍𝑖

Catatan: tanda-tanda Zi dalam persamaan (10.7) dan (10.9) adalah berbeda.

Dapat diperiksa dari persamaan (10.7) bahwa jika Zi mengambil nilai dari -∞ sampai
+∞, maka Pi mengambil nilai antara 0 hingga 1 dan bahwa Pi terkait secara non-linir terhadap
Zi (dalam hal ini Xi), sehingga memenuhi kedua syarat yang telah disebutkan di atas.3 Gambar
1 mengilustrasikan suatu fungsi logistik.

Gambar 1. Fungsi Logistik

0.5 𝑒∞
𝑒 −∞ 𝑃= ≈1
𝑃= ≈0 1 + 𝑒∞
1 + 𝑒 −∞

Z
-∞ 0 +∞

𝑒𝑍
𝐶𝑎𝑡𝑎𝑡𝑎𝑛: 𝑃 =
1 + 𝑒𝑍

Sekarang, bagaimana cara menaksir model (10.7) padahal bentuknya masih non-
linir, bukan saja pada variabel X, tetapi juga pada nilai-nilai parameternya, B? Untuk itu dapat
dilakukan dua langkah transformasi sederhada agar model (10.7) menjadi bentuk linir dalam
X maupun koefisien-koefisien B. Pertama, ambil rasio persamaan (10.7) terhadap persamaan

3
Alasan mengapa Pi secara nonlinier terkait dengan, katakanlah pendapatan, adalah bahwa jika pendapatan
meningkat, para perokok akan meningkatkan konsumsi rokok pada tingkat yang menurun karena berlakunya
hukum keuntungan yang semakin berkurang (the law of diminishing returns). Ini berlaku (ingat pelajaran
ekonomi mikro) untuk hampir semua barang normal (normal goods).

9
(10.9), yaitu rasio probabilitas seseorang adalah perokok terhadap probabilitas seseorang
bukan perokok, maka kita peroleh:

𝑃𝑖 1 + 𝑒 𝑍𝑖
= = 𝑒 𝑍𝑖 (10.10)
1 − 𝑃𝑖 1 + 𝑒 −𝑍𝑖

𝑃𝑖 ⁄(1 − 𝑃𝑖 ) disebut sebagai odds ratio untuk merokok – yaitu rasio atau perbandingan
probabilitas bahwa seseorang adalah perokok terhadap probabilitas bahwa seseorang bukan
perokok.

Kedua, mengambil logaritma natural terhadap persamaan (10.10) akan diperoleh:

𝑃𝑖
𝐿𝑖 = 𝑙𝑛 ( ) = 𝑍𝑖 = 𝐵𝑋𝑖 + 𝑢𝑖
1 − 𝑃𝑖 (8.11)

Dengan kata lain, persamaan (10.11) menunjukkan bahwa log dari odd ratio
merupakan sebuah fungsi linir dari koefisien-koefisien B dan variabel-variabel penjelas X.
Li disebut logit (log dari rasio odds) dan karena itu model-model seperti (10.11) disebut
model logit.
Sangat menarik untuk mengamati bahwa model probabilitas linier (LPM) yang telah
dibahas sebelumnya mengasumsikan bahwa, Pi berhubungan linier dengan Xi, sedangkan
model logit mengasumsikan bahwa log rasio odds berhubungan linier dengan Xi. Berikut
adalah beberapa karakteristik dari model logit:

1. Sementara Pi, probabilitas bernilai antara 0 dan 1, logit Li berkisar antara nilai -∞ dan
+∞. Dengan kata lain, sementara nilai probabilitas berkisar antara 0 dan 1, logit
bernilai tidak terbatas.
2. Meskipun Li adalah linir dalam Xi, probabilitas adalah non-linir. Hal ini kontras
dengan LPM dimana probabilitas meningkat secara linir terhadap Xi.
3. Jika Li, logit, positif, ini berarti bahwa jika nilai variabel-variabel penjelas meningkat,
maka odds merokok meningkat, dan jika logit negatif, odds merokok menurun.
4. Interpretasi dari model logit (8.11) adalah sebagai berikut: tiap koefisien slope
memperlihatkan bagaimana log dari odd terkait merokok berubah jika nilai variabel X
berubah sebesar 1 unit.
5. Jika koefisien-koefisien model logit sudah ditaksir, maka dengan mudah kita bisa
menghitung nilai probabilitas merokok, bukan saja hanya nilai odd merokok, dari
persamaan (8.7).
6. Dalam LPM, koefisien slope mengukur efek marjinal dari setiap unit perubahan dalam
variabel penjelas pada probabilitas merokok, ceteris paribus (variabel-variabel lain
dianggap konstan). Hal itu tidak berlaku untuk kasus model logit bahwa, efek marjinal
dari satu unit perubahan dalam suatu variabel penjelas bukan saja tergantung pada
koefisien dari koefisien variabel penjelas tersebut, tetapi juga tergantung pada tingkat

10
probabilitas dari semua variabel penjelas yang terdapat dalam model. 4 Paket statistik
seperti Eviews dan Stata dapat menghitung efek marjinal dengan instruksi sederhana.

Cara Menaksir Model Logit

Penaksiran model logit tergantung pada jenis data yang tersedia untuk analisis.
Terdapat dua jenis data yang tersedia: data tingkat individual, atau mikro seperti dalam contoh
perokok di atas, dan data tingkat grup. Disini hanya akan dibahas data tingkat individual.

Menakir Model Logit Untuk Data Tingkat Individual

Untuk contoh data perokok, kita mempunyai data yang terdiri dari 1196 individu. Oleh
karena itu, meskipun model logit adalah linir, ia tidak dapat ditaksir dengan menggunakan
metoda OLS. Untuk memahami alasannya, perhatikan bahwa Pi = 1 jika seseorang adalah
merokok, dan Pi = 0 jika seseorang tidak merokok. Namun, jika kita masukkan nilai-nilai ini
secara langsung dalam logit Li, akan kita peroleh Li = ln(1/0) jika seseorang adalah perokok
dan Li = ln(0/1) jika seseorang bukan perokok. Hasil-hasil tersebut merupakan ekpresi yang
tak terdefinisikan. Oleh karena itu, untuk menaksir model logit kita harus beberapa metoda
alternatif. Metoda yang paling populer yang mempunyai properti yang menarik adalah metoda
maximum likelihood (ML). Kebanyakan paket-paket statistika modern mempunyai fasilitas
penaksiran dengan metoda ML.
Menggunakan EViews, lakukan langkah yang sama 1 sampai 5 seperti dalam LPM.
Setelah itu, pada langkah ke 6: pada Estimation settings - Method, pilih ‘Binary - Binary
Choice (Logit, Probit, Extreme Value)’ seperti nampak dalam gambar berikut,

4
Para pembaca yang sudah mempelajari kalkulus dapat memeriksa hal tersebut dengan cara mengambil
turunan dari persamaan (8.7) terhadap variabel-variabel yang relevan, dengan merujuk bahwa Zi = BX.
Catatan: gunakan aturan rantai 𝜕Pi /𝜕Xi = 𝜕Pi/𝜕Zi . 𝜕Zi/𝜕Xi.

11
6

Dan setelah itu, pada langkah ke 7 pilih ‘logit’ sebagai metoda penaksiran biner seperti
nampak pada gambar berikut, dan kemudian pilih ‘ok’. Hasil penasiran dilaporkan dalam
Tabel 2 (Tabel 10.3. dalam Gujarati (2011))

12
Tabel 2 Model Logit Untuk Merokok atau Tidak Merokok
(Tabel 10.3 dalam Gujarati, (2011))

Dependent Variable: SMOKER


Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Date: 05/05/21 Time: 05:26
Sample: 1 1196
Included observations: 1196
Convergence achieved after 2 iterations
Coefficient covariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

C 2.745082 0.829196 3.310534 0.0009


AGE -0.020853 0.003739 -5.577288 0.0000
EDUC -0.090973 0.020666 -4.402099 0.0000
INCOME 4.72E-06 7.17E-06 0.658283 0.5104
PCIGS79 -0.022319 0.012472 -1.789475 0.0735

McFadden R-squared 0.029748 Mean dependent var 0.380435


S.D. dependent var 0.485697 S.E. of regression 0.477407
Akaike info criterion 1.297393 Sum squared resid 271.4495
Schwarz criterion 1.318658 Log likelihood -770.8409
Hannan-Quinn criter. 1.305405 Deviance 1541.682
Restr. deviance 1588.950 Restr. log likelihood -794.4748
LR statistic 47.26785 Avg. log likelihood -0.644516
Prob(LR statistic) 0.000000

Obs with Dep=0 741 Total obs 1196


Obs with Dep=1 455

Sumber: Tabel 10.1.xls_Gujarati (2011)

Untuk keperluan analisis lebih lanjut, jangan lupa untuk menyimpan hasil penaksiran dengan
cara pilih ‘Name’, dan ketikkan sebuah nama sesuai selera (dalam contoh ini diberi nama
sebagai ‘eq01_smoker_logit_biner’). Model regreso logistik penaksir dapat dinyatakan
sebagai,

𝑃̂𝑖
𝐿𝑖 = ln ( ) = 𝑍̂ = 2.745082 − 0.020853 Age − 0.090973 Educ
1 − 𝑃̂𝑖

13
+4.72E − 06 Income − 0.022319 Pcigs79

Interpretasi Nilai-Nilai Koefisien Regresi Logit

 Koefisien untuk Age → β1 = - 0.020853.


Untuk setiap 1 unit (tahun) pertambahan usia (age), nilai rata-rata logit turun sebesar ≈
0.02; bahwa log odds merokok, yaitu ln(P/(1-P) turun sebesar 0.02, ceteris paribus
(variabel lainnya diasumsikan konstan).
 Koefisien untuk Educ → β2 = - 0.090973.
Untuk setiap 1 unit (tahun) peningkatan pendidikan (educ), nilai rata-rata logit turun
sebesar ≈ 0.09, bahwa; log odds merokok yaitu ln(P/(1-P) turun sekitar 0.09.
 Untuk koefisien-koefisien lain sisanya dapat diinterpretasikan secara serupa.
 Perhatian: ln(P/(1-P) adalah log rasio odds, bukan nilai probabilitas. Untuk alasan ini,
lazimnya kita cukup hanya menginterpretasikan TANDA, dan bukan besaran koefisien-
koefisien model logit. Tanda positif suatu koefisien menunjukkan pengaruh positif
terhadap log odds ratio; dan sebaliknya.
 Dengan demikian, tanda negatif β1 menunjukkan bahwa pertambahan usia menurunkan
peluang bahwa seseorang adalah perokok, ceteris paribus.
 Juga, tanda negatif β2, menunjukkan bahwa meningkatnya pendidikan menurunkan
peluang bahwa seseorang adalah perokok, ceteris paribus.

Nilai-Nilai Probabilitas Peristiwa Sukses5 & Rasio Odds Berdasarkan Informasi Yang
Diberikan Oleh Variabel-Variabel Penjelas

Terminologi logit bukanlah bahasa sehari-hari. Apa yang ingin kita ketahui dalam
contoh kita adalah probabilitas merokok berdasarkan nilai-nilai dari beberapa variabel
penjelasnya. Hal itu dapat dihitung dengan menggunakan rumus (10.7). Sebagai ilustrasi,
ambil informasi perokok pada observasi kedua dari Tabel 8.1 (Gujarati, 2011). Perokok pada
observasi kedua ini berusia (age) 28 tahun, lama pendidikan (educ) 15 tahun, pendapatan
keluarga (income) 12500, dan harga rokok (pcigs79) 60. Mensubstitusikan nilai-nilai variabel
tersebut ke dalam persamaan (10.7) akan kita peroleh nilai probabilitas seseorang adalah
seorang perokok:

1
𝑃𝑖 = ≈ 0.3782
1+ 𝑒 (−0.4935)

Yaitu bahwa, probabilitas bahwa seseorang dengan karakteristik-karakteristik yang


diberikan adalah seorang perokok kira-kira sebesar 38%. Berdasarkan informasi beberapa

5
Kata ‘sukses’ disini adalah peristiwa/kejadian yang menjadi pertanyaan penelitian, dalam contoh adalah
probabilitas seseorang adalah perokok berdasarkan beberapa karakteristik informasi yang tersedia dari sejumlah
variabel penjelasnya (usia, pendidikan, pendapatan dan harga rokok).

14
variabel penjelas yang sama, maka nilai probabilitas seseorang adalah bukan seorang perokok
adalah,
1 – Pi ≈ 0.6218

Diperiksa dari data Tabel 8.1 (Gujarati, 2011) kita tahu bahwa orang ini adalah
memang seorang perokok. Dan rasio odds, yaitu perbandingan probabilitas sukses (perokok)
terhadap probabilitas tidak sukses (bukan perokok),

𝑃𝑖 0.3782
= = 0.6084 < 1
1 − 𝑃𝑖 0.6218

Sekarang ambil kasus orang dengan usia, pendidikan, income dan pcigs79 masing-
masing 63, 10, 20000 dan 60.8. Untuk orang ini, probabilitas merokok adalah

1
𝑃𝑖 = ≈ 0.3227
1+ 𝑒 (−0.4935)

Yaitu, probabilitas bahwa orang tersebut (dengan karakteristik-karakteristik tertentu


yang diberikan) adalah seorang perokok adalah sebesar 32%. Berdasarkan informasi beberapa
variabel penjelas yang sama, maka nilai probabilitas seseorang adalah bukan seorang perokok
adalah,

1 – Pi ≈ 0.6772

Dalam sampel data Tabel 8.1 (Gujarati, 2011), orang tersebut ternyata bukan perokok.
Dan rasio odds

𝑃𝑖 0.322789
= = 0.4766 < 1
1 − 𝑃𝑖 0.677211

Berikut dalam Tabel 3 adalah hasil simulasi untuk uraian perhitungan di atas.

15
Tabel 3. Simulasi Nilai-Nilai Koefsien Regresi Logit
Untuk Data Mentah Pada Observasi ke 2 dan 23

SIMULASI
Observasi
Variable Coefficient 2 23
C 2.745082 1 1
AGE -0.02085 28 63
EDUC -0.09097 15 10
INCOME 4.72E-06 12500 20000
PCIGS79 -0.02232 60.6 60.8

ln(odds) = ln (p/(1-p)) -0.49693 -0.74098


p 0.378263 0.322789
odds ratio 0.608397 0.476646

Efek marjinal suatu variabel penjelas terhadap peluang untuk merokok

Umpama kita ingin mengetahui 𝜕𝑃𝑖 ⁄𝜕𝐴𝑔𝑒𝑖 , pengaruh satu unit perubahan dalam usia
terhadap probabilitas merokok, ceteris paribus. Dalam LPM hal itu dapat dihitung langsung,
namun tidak mudah dihitung dalam model logit dan probit. Hal itu karena perubahan
probabilitas merokok jika usia berubah I unit (misal, satu tahun) tergantung bukan saja pada
koefisien variabel usia tetapi juga pada tingkat probabilitas dari mana perubahan tersebut
diukur. Namun yang terakhir disebut tegantung pada nilai-nilai dari semua variabel penjelas.

Uji Signifikansi Secara Individual

Dari Tabel 2 (kolom Prob.) kita lihat bahwa, kecuali koefisien pendapatan (income),
semua koefisien secara individual signifikan secara statistik, paling tidak pada tingkat 10%.
Variabel age dan education sangat signifikan secara statistik dan memberikan tanda sesuai
harapan. Jika age meningkat, maka nilai logit menurun, barangkali karena pertimbangan
kesehatan – bahwa, semakin berumur seseorang, maka kemungkinan untuk merokok
berkurang. Serupa itu, semakin berpendidikan seseorang, maka berkurang peluang orang
untuk merokok, mungkin karena kesadaran tentang efek sakit dari merokok. Harga rokok
mempunyai tanda sesuai ekspektasi, negatif, dan signifikan pada tingkat ∝ = 7%. Ceteris
paribus, semakin tinggi harga rokok, semakin kecil probabilitas merokok. Pendapatan tidak

16
memiliki dampak yang nampak secara statistik pada merokok, mungkin karena pengeluaran
untuk rokok mengambil porsi yang kecil dari pendapatan keluarga.

Goodness of Fit Tests (Uji Kelayakan/Kecocokan Model)

Perlu diperhatikan sebelumnya bahwa, dalam model-model regresi biner, ukuran-


ukuran goodness of fit mempunyai kepentingan yang sekunder. Yang terpenting adalah
ekspektasi tanda-tanda koefisien regresi dan signifikansi praktisnya. Seperti sudah disebut di
atas, dari Tabel 2 (Tabel 8.3 dalam Gujarati (2011)) kita lihat bahwa, kecuali koefisien
pendapatan, semua koefisien secara individual signifikan secara statistik, paling tidak pada
tingkat 10%.

 McFaden R2 : Pengaruh Bersama

Ukuran konvensional tentang goodness of fit, R2 yang biasa digunakan dalam regresi
linir sangat tidak bermakna untuk variabel terikat yang mengambil nilai-nilai 1 atau 0.
Untuk itu sebagai alternatif, beberapa ukuran yang serupa R2, disebut sebagai pseudo
R2 banyak didiskusikan dalam literatur. Salah satu ukuran tersebut adalah McFaden
R2, diringkas R2McF yang berkisar antara nilai 0 dan 1. Formula R2McF yang digunakan
adalah,

2
𝐿𝐿𝑈𝑅
𝑅𝑀𝑐𝐹 = 1−
𝐿𝐿𝑅𝐸𝑆𝑇𝑅𝐼𝐶𝑇𝐸𝐷

Untuk contoh kita bernilai 0.0927. Namun ukuran pseudo R2 ini tidak memiliki arti
sebagai persentase variasi variabel terikat yang dapat dijelaskan oleh variabel
penjelasnya. Dengan demikian, sekali lagi, meski memberikan nilai yang tinggi
(apalagi jika rendah), manfaat dari statistik ini untuk mengevaluasi goodness of fit dari
berbagai pilihan model adalah terbatas.

 Count R2 : Ketepatan Prediksi

Ukuran goodness of fit lainnya adalah count R2, yaitu jumlah pengamatan yang
diprediksi model secara benar dibagi oleh jumlah pengamatan. Ini mengukur seberapa
baik model memprediksi nilai yang benar dari variabel dependen, menggunakan nilai
yang diketahui. Dinyatakan secara matematis,

jumlah prediksi yang benar


Count R2 =
jumlah total observasi (10.12)

17
Karena variabel terikat mengambil sebuah nilai antara 1 atau 0, maka jika probabilitas
yang diprediksi untuk suatu observasi lebih besar dari 0.5 kita klasifikasikan observasi
tersebut sebagai 1, namun jika kurang dari 0.5 kita klasifikasikan sebagai 0. Kemudian
kita menghitung jumlah prediksi yang benar dan count R2 seperti yang didefinisikan
di atas. Berikut adalah langkah-langkah untuk menghitung count R2,
1

18
3

19
Tabel 4. Goodness of Fit Menggunakan Statistik Count R2

Expectation-Prediction Evaluation for Binary Specification


Equation: EQ01_SMOKER_LOGIT_BINER
Date: 05/09/21 Time: 03:43
Success cutoff: C = 0.5

Estimated Equation Constant Probability


Dep=0 Dep=1 Total Dep=0 Dep=1 Total

P(Dep=1)<=C 669 394 1063 741 455 1196


P(Dep=1)>C 72 61 133 0 0 0
Total 741 455 1196 741 455 1196
Correct 669 61 730 741 0 741
% Correct 90.28 13.41 61.04 100.00 0.00 61.96
% Incorrect 9.72 86.59 38.96 0.00 100.00 38.04
Total Gain* -9.72 13.41 -0.92
Percent
Gain** NA 13.41 -2.42

Estimated Equation Constant Probability


Dep=0 Dep=1 Total Dep=0 Dep=1 Total

E(# of Dep=0) 469.81 271.19 741.00 459.10 281.90 741.00


E(# of Dep=1) 271.19 183.81 455.00 281.90 173.10 455.00
Total 741.00 455.00 1196.00 741.00 455.00 1196.00
Correct 469.81 183.81 653.62 459.10 173.10 632.20
% Correct 63.40 40.40 54.65 61.96 38.04 52.86
% Incorrect 36.60 59.60 45.35 38.04 61.96 47.14
Total Gain* 1.45 2.35 1.79
Percent
Gain** 3.80 3.80 3.80

*Change in "% Correct" from default (constant probability) specification


**Percent of incorrect (default) prediction corrected by equation

EViews memberikan hasil count R2 sebesar 61.04% (yaitu 730/1196 = 61.04%); yang
berarti bahwa dari total observasi, terdapat 61,04% jumlah pengamatan yang
diprediksi oleh model dengan benar, suatu hasil prediksi model yang cukup baik.

 Statistik likelihood ratio (LR): Kemampuan Prediksi

Serupa dengan uji F dalam model regresi linir, statistik LR dapat digunakan untuk
menguji hipotesis nol bahwa semua koefisien variabel penjelas pada regresi logit

20
secara simultan bernilai nol. Berdasarkan hipotesis nol tersebut, statistik LR
mengikuti distribusi chi-square dengan derajat bebas sama dengan jumlah variabel
penjelas; adalah 4 (empat) dalam contoh kita. Statistik LR dihitung sebagai berrikut,

LR = 2(LLur – LLrestricted)

Seperti nampak dalam Tabel 2 (Tabel 8.3 dalam Gujarati (2011)) di atas, nilai hitung
statistik LR adalah 47.26 [yaitu, 2(-770.8409+794.4748) = 47.26], sedangkan nilai
chi-square tabel untuk df = 4 (jumlah parameter diluar konstanta, atau jumlah variabel
bebas) pada taraf signifikansi 0.05 adalah sebesar 9.488.

Karena nilai hitung statistik LR = 47.26 > chi-square tabel = 9.488, maka tingkat
siginifkansi 5% menolak hipotesis nol. Kesimpulan serupa juga dapat dilihat dari nilai
p value sebesar nol. Oleh karena itu, bersarkan uji statistik LR dapat dikatakan
bahwa, keempat variabel penjelas dalam model logit merupakan faktor-faktor
penting yang menentukan kebiasaan merokok.

 Uji Hosmer-Lemeshow (H-L): Kelayakan Model

Uji H-L adalah uji untuk menentukan apakah model yang dibentuk sudah tepat
atau tidak. Suatu model dikatakan tepat apabila tidak ada perbedaan signifikan antara
model dengan nilai observasinya; adalah pernyataan hipotesis nol dalam uji H-L.
Statistik H-L mengikuti distribusi chi-square dengan derajat bebas df = jumlah
variabel bebas; dan, hipotesis nol ditolak jika nilai hitung chi-square H-L lebih besar
dari nilai chi-square tabel, atau jika p-value (Prob.) kurang dari taraf signifikansi yang
ditentukan (misal 10%, 5% atau 1%). Memanfaatkan EViews, statistik HL dihitung
dengan beberapa langkah berikut yang hasil akhirnya dilaporkan dalam Tabel 5.

21
1

2
2

22
3
2

23
Tabel 5. Goodness of Fit Menggunakan Statistik H-L

Goodness-of-Fit Evaluation for Binary Specification


Andrews and Hosmer-Lemeshow
Tests
Equation:
EQ01_SMOKER_LOGIT_BINER
Date: 05/09/21 Time: 13:39
Grouping based upon predicted risk (randomize ties)

Quantile of Risk Dep=0 Dep=1 Total H-L


Low High Actual Expect Actual Expect Obs Value

1 0.1388 0.2587 99 92.1272 20 26.8728 119 2.27046


2 0.2591 0.2911 86 86.8340 34 33.1660 120 0.02898
3 0.2912 0.3198 89 82.5187 30 36.4813 119 1.66053
4 0.3199 0.3471 76 80.1451 44 39.8549 120 0.64549
5 0.3480 0.3775 76 76.3662 44 43.6338 120 0.00483
6 0.3777 0.4060 60 72.3284 59 46.6716 119 5.35797
7 0.4061 0.4357 66 69.4652 54 50.5348 120 0.41048
8 0.4358 0.4696 58 65.3115 61 53.6885 119 1.81421
9 0.4700 0.5078 66 61.7218 54 58.2782 120 0.61059
10 0.5083 0.6902 65 54.1819 55 65.8181 120 3.93810

Total 741 741.000 455 455.000 1196 16.7417

H-L Statistic 16.7417 Prob. Chi-Sq(8) 0.0329


Andrews Statistic 16.9491 Prob. Chi-Sq(10) 0.0755

Nilai Chi Square tabel untuk derajat bebas (df) senilai 4 (jumlah variabel independen)
pada taraf signifikansi 0,05 adalah sebesar 9.488. Karena dalam contoh kita, nilai Chi
Square H-L hitung senilai 16.7417 > Chi Square table senilai 9.488 atau, nilai
signifikansi sebesar 0.0329 < 0,05, maka hipotesis nol ditolak; menunjukkan bahwa
model tidak dapat diterima dan pengujian hipotesis tidak dapat dilakukan,
karena ada perbedaan signifikan antara model dengan nilai observasinya.

Upaya Perbaikan Model

Karena berdasarkan uji H-L model tidak dapat diterima, maka model logit yang
diberikan pada Tabel 2 (Tabel 8.3 dalam Gujarati (2011)) dapat disempurnakan. Misalnya, ke
dalam model dapat ditambabahkan interaksi efek antar variabel penjelas. Secara parsial,
pendidikan memiliki pengaruh negatif dan pendapatan berpengaruh positif terhadap
kemungkinan merokok, meskipun efek pendapatan tidak signifikan secara statistik. Tetapi,

24
bisa dipertanyakan lebih lanjut, bagaimana pengaruh gabungan dari pendidikan dan
pendapatan terhadap kemungkinan merokok?
Apakah orang dengan tingkat pendidikan dan tingkat pendapatan yang lebih tinggi
merokok lebih sedikit atau lebih banyak daripada orang dengan karakteristik lain? Untuk
memungkinkan hal ini, kita dapat memperkenalkan efek perkalian atau interaktif dari kedua
variabel pendidikan (educ) dan pendapatan (income) sebagai variabel penjelas tambahan.
Hasilnya diberikan pada Tabel 6 (Tabel 8.4.dalam Gujarati (2011)). Langkah-langkah
penaksiran model logit sebelumnya dengan tambahan variabel interaksi pendidikan dan
pendapatan adalah sebagai berikut.

1
2

25
2
2

3
2

26
Tabel 6. Model Logit Untuk Smoking Dengan Variabel Interaksi
(Tabel 8.4 dalam Gujarati (2011))
Dependent Variable: SMOKER
Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Date: 05/10/21 Time: 03:37
Sample: 1 1196
Included observations: 1196
Convergence achieved after 3 iterations
Coefficient covariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

C 1.093186 0.955676 1.143887 0.2527


AGE -0.018254 0.003794 -4.811285 0.0000
EDUC 0.039456 0.042511 0.928140 0.3533
INCOME 9.50E-05 2.69E-05 3.535155 0.0004
PCIGS79 -0.021707 0.012530 -1.732484 0.0832
EDUCINCOME -7.45E-06 2.13E-06 -3.489706 0.0005

McFadden R-squared 0.037738 Mean dependent var 0.380435


S.D. dependent var 0.485697 S.E. of regression 0.475290
Akaike info criterion 1.288449 Sum squared resid 268.8219
Schwarz criterion 1.313968 Log likelihood -764.4926
Hannan-Quinn criter. 1.298063 Deviance 1528.985
Restr. deviance 1588.950 Restr. log likelihood -794.4748
LR statistic 59.96443 Avg. log likelihood -0.639208
Prob(LR statistic) 0.000000

Obs with Dep=0 741 Total obs 1196


Obs with Dep=1 455

27
4
2

28
Tabel 7. Godness of Fit Evaluation_H_L

Goodness-of-Fit Evaluation for Binary Specification


Andrews and Hosmer-Lemeshow
Tests
Equation:
EQ02_SMOKER_LOGIT_BINER_VARINTERA
SI
Date: 05/10/21 Time: 04:13
Grouping based upon predicted risk (randomize ties)

Quantile of Risk Dep=0 Dep=1 Total H-L


Low High Actual Expect Actual Expect Obs Value

1 0.1015 0.2366 101 95.6281 18 23.3719 119 1.53648


2 0.2368 0.2804 96 88.6508 24 31.3492 120 2.33212
3 0.2806 0.3133 88 83.6174 31 35.3826 119 0.77254
4 0.3134 0.3494 77 80.2208 43 39.7792 120 0.39009
5 0.3498 0.3889 65 75.6052 55 44.3948 120 4.02103
6 0.3897 0.4190 62 70.7643 57 48.2357 119 2.67792
7 0.4191 0.4454 62 68.0872 58 51.9128 120 1.25799
8 0.4458 0.4755 57 64.3540 62 54.6460 119 1.83004
9 0.4755 0.5089 65 61.0637 55 58.9363 120 0.51664
10 0.5092 0.7941 68 53.0085 52 66.9915 120 7.59467

Total 741 741.000 455 455.000 1196 22.9295

H-L Statistic 22.9295 Prob. Chi-Sq(8) 0.0035


Andrews Statistic 23.9127 Prob. Chi-Sq(10) 0.0078

Hasil ini menarik. Pada Tabel 2 (Tabel 8.3 dalam Gujarati (2011)), masing-masing,
pendidikan memiliki pengaruh yang signifikan negatif terhadap logit (dan karena itu pada
probabilitas merokok) dan pendapatan tidak memiliki pengaruh yang signifikan secara
statistik. Sekarang dalam Tabel 7, pendidikan dengan sendirinya tidak berdampak signifikan
secara statistik pada logit, tetapi pendapatan memiliki dampak positif yang sangat signifikan.
Tapi jika kita perhatikan komponen interaktif, perkalian pendidikan dengan
pendapatan, ia berpengaruh signifikan negatif pada logit. Artinya, orang dengan pendidikan
tinggi dan juga punya pendapatan yang lebih tinggi cenderung menjadi perokok dibandingkan
dengan mereka yang hanya berpendidikan atau berpendapatan yang lebih tinggi saja. Ini
menunjukkan bahwa dampak dari satu variabel terhadap probabilitas merokok dapat
dilemahkan atau diperkuat oleh kehadiran dari variabel lain.

29
Nilai Chi Square tabel untuk derajat bebas (df) senilai 5 (jumlah variabel independen) pada
taraf signifikansi 0,05 adalah sebesar 11.0705. Karena dalam contoh kita, nilai Chi Square
H-L hitung senilai 22.9295 > Chi Square table senilai 11.0705 atau, nilai signifikansi
sebesar 0.0035 < 0,05, maka hipotesis nol ditolak; menunjukkan bahwa model tidak dapat
diterima dan pengujian hipotesis tidak dapat dilakukan, karena ada perbedaan
signifikan antara model dengan nilai observasinya. Ternyata, menambahkan variabel
interaksi berupa perkalian antara variabel pendikan dengan pendapatan tidak memperbaiki
model. Dengan demikian perlu dicari hubungan interaksi antar variabel penjelas yang lain
sedemikian rupa sehingga statistik H-L menjadi signifikan.

10.6 MULTINOMIAL LOGIT MODEL (MLM)

Untuk mengilustrasikan aplikasi MLM, umpama akan dianalisis hubungan kategori


profesi seseorang (kat_prof) berdasarkan karakteristik pendidikan (didik) dan jenis kelamin
(jns_klmn) pada suatu perusahaan. Data yang akan digunakan adalah pada file KAT_PROF.
Profesi dikategorikan dalam 3 klasifikasi: klerikal administratif, klerikal non-administratif
dan manajerial. Variabel penjelas pendidikan diukur dalam skala rasio yaitu jumlah tahun
menempuh pendidikan, sedangkan variabel penjelas jns_kelamin adalah diukur dengan skala
nominal biner: kode 1 untuk laki-laki dan kode 0 wanita. Data terdiri dari 450 observasi. Untuk
kebutuhan penaksiran, sebelumnya telah dibuat variabel dummy untuk setiap kategori profesi
(pada tiap kategori: 1 jika seseorang memiliki profesi tertentu, dan 0 jika tidak).
Kemudian, pertanyaan yang relevan mungkin adalah bagaimana seorang karyawan
dapat memilih salah satu dari ketiga pilihan profesi tersebut? Secara intuitif, dapat dikatakan
bahwa pilihan akan tergantung pada kepuasan (utility) yang dapat diperoleh karyawan dari
profesi tertentu. Menurut teori, seseorang akan berusaha memperoleh kepuasan tertinggi, dan
karena itu pilihan yang diambil mencerminkan probabilitas tertinggi yang akan diambil.
Penjelasan diberikan berikut, umpama

Yij = 1, jika individu i memilih alternatif j (j = 1, 2 dan 3 dalam contoh kita)


= 0, jika tidak

Kemudian, umpama

𝑃𝑖𝑗 = Pr(𝑌𝑖𝑗 = 1)

dimana Pr singkatan dari probabilitas.

Dengan demikian 𝑃𝑖1 , 𝑃𝑖2 , 𝑃𝑖3 masing-masing menunjukkan probabilitas bahwa


individu i memilih pilihan 1, 2, dan 3 – yaitu pilihan profesi klerikal administratif, klerikal
non-administratif dan manajerial. Jika tiga pilihan profesi tersebut adalah total pilihan yang
tersedia bagi tiap individu, maka jelas bahwa,

30
𝑃𝑖1 + 𝑃𝑖2 + 𝑃𝑖3 = 1 (8.13)

Hal itu karena, seperti dimaklum, bahwa jumlah probabilitas dari peristiwa mutually exclusive
dan exhaustive harus 1. Kita menyebut P sebagai response probabilities.
Ini berarti bahwa dalam contoh tersaji, jika kita menentukan dua probabilitas, maka
probabilitas ketiga dapat diperoleh secara otomatis. Dengan kata lain, kita TIDAK dapat
menaksir ketiga probabilitas secara terpisah.
Sekarang kita dapat bertanya tentang faktor-faktor atau variabel-variabel apa saja yang
menentukan probabilitas seseorang memilih salah satu kategori profesi tersebut di atas?
Dalam contoh kita, jenjang atau lama pendidikan (didik) dan jender (jns_klmn) adalah dua
variabel penjelas yang dianggap menentukan probabilitas seseorang memililih salah satu
kategori profesi tersebut di atas. Generalisasi model logit bivariat sebelumnya, MLM dapat
dinyatakan sebagai,

𝑒 𝑋𝑖 𝛽𝑗
𝑃𝑖𝑗 = ′ (8.13)
∑𝑚 𝑋𝑖 𝛽𝑗
𝑗=1 𝑒

Catatan: 𝑋𝑖′ 𝛽𝑗 = 𝛽𝑗0 + 𝛽𝑗1 𝑋1 + 𝛽𝑗2 𝑋2 + ⋯ + 𝛽𝑚𝑘 𝑋𝑘

Subscript j pada intersep dan koefisien slope menunjukkan bahwa nilai-nilai koefisien
ini dapat berbeda dari satu pilihan ke pilihan lainnya. Dengan kata lain, seorang responden
sebagai subjek penelitian ke i yang menentukan pilihan kategori j = 1 (klerikal administratif)
akan memberikan bobot yang berbeda-beda untuk pilihan-pilihan lainnya selain j = 1.
Untuk sejumlah kategori pilihan m = 3 misalnya, akan diperoleh 3 (tiga) probabilitas
yang dapat ditaksir dari persamaan (8.13) yang mempunyai nilai-nilai koefisien yang bebeda
dengan akibat akan kita taksir 3 (tiga) buah regresi.
Namun, tita tidak dapat menaksir ketiga probabilitas secara independen. Praktek
umum dalam MLM adalah memilih sebuah kategori atau memilih sebagai basis, acuan atau
kategori pembanding dan tetapkan nilai-nilai koefisiennya sama dengan nol. Dari contoh
yang diajukan disini, kita akan menaksir hubungan antara suatu variabel terikat kualitatif Y
(profesi) dengan m = 3 kategori, dan dua buah variabel penjelas didik (X1) dan jenis kelamin
(X2). Jika kategori 1 (klerikal administratif) sebagai acuan, dan menetapkan 𝛽10 = 0, 𝛽11 =
0, 𝑑𝑎𝑛 𝛽12 = 0, maka kita peroleh probabilitas untuk ketiga pilihan kategori profesi:

1
𝑃𝑖1 =
1 + 𝑒𝛽20 +𝛽21 𝑋1 +𝛽22 𝑋2 + 𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2
(8.14)

𝑒 𝛽20 +𝛽21 𝑋1 +𝛽22 𝑋2


𝑃𝑖2 =
1 + 𝑒𝛽20 +𝛽21 𝑋1 +𝛽22 𝑋2 + 𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2
(8.15)

31
𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2
𝑃𝑖3 = (8.16)
1 + 𝑒𝛽20 +𝛽21 𝑋1 +𝛽22 𝑋2 + 𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2

Harap diperhatikan bahwa meskipun kedua variabel penjelas (X1 dan X2) muncul di
ketiga persamaan probabilitas, namun nilai-nilai koefisiennya tidak harus bernilai sama.
Jika kita menjumlahkan nilai-nilai probabilitas (8.14), (8.15) dan (8.16) akan kita
peroleh nilai 1, karena seperti disebut sebelumnya (lihat 8.13) disini kita memiliki tiga pilihan
yang mutually exclusive. Juga, pernyataan probabilitas (8.14), (8.15) dan (8.16) ketiganya non
linir. Namun, sekarang kita perhatikan pernyataan berikut:

𝑃𝑖2 (8.17)
𝑙𝑛 ( ) = 𝛽20 + 𝛽21 𝑋1 + 𝛽22 𝑋2
𝑃𝑖1

𝑃𝑖3 (8.18)
𝑙𝑛 ( ) = 𝛽30 + 𝛽31 𝑋1 + 𝛽32 𝑋2
𝑃𝑖1

𝑃𝑖1 = 1 − 𝑃𝑖2 − 𝑃𝑖3 (8.19)

Catatan:

Dari pernyataan (8.17) ln 𝑃𝑖2 − 𝑙𝑛𝑃𝑖1 = 𝛽20 + 𝛽21 𝑋1 + 𝛽22 𝑋2 dan dari pernyataan (8.18) 𝑙𝑛𝑃𝑖3 − 𝑙𝑛𝑃𝑖1 =
𝛽30 + 𝛽31 𝑋1 + 𝛽32 𝑋2 . Karena itu, 𝑙𝑛𝑃𝑖2 − 𝑙𝑛𝑃𝑖3 = (𝛽20 − 𝛽30 ) + (𝛽21 − 𝛽31 )𝑋1 + (𝛽22 − 𝛽32 ) 𝑋2 atau
ln(𝑃𝑖2 /𝑙𝑛𝑃𝑖3 ) = (𝛽20 − 𝛽30 ) + (𝛽21 − 𝛽31 )𝑋1 + (𝛽22 − 𝛽32 ) 𝑋2 yang memberikan log odds memilih
kategori 2 dibanding kategori 1.

Pernyataan (8.17) dan (8.18) serupa dengan pernyataan dalam model model logit biner
sebelumnya. Yaitu bahwa, kedua buah logit merupakan fungsi linir dari variabel penjelas X1
dan X2. Ingat bahwa, logit adalah log dari rasio odds. Dan, odds menjelaskan berapa besar
alternatif j lebih disukai dibanding dari alternatif acuannya.
Selanjutnya dampak marjinal sebuah variabel penjelas harus dihitung secara tersendiri
karena parameter variabel pada suatu model logit bivariat tidak lagi dapat diinterpretasikan
secara individual, namun harus mempertimbangkan parameter yang diperoleh pada model
bivariat lainnya. Secara formal hal itu dapat dirumuskan sebagai berikut,
𝑚

𝜕𝑃(𝑌𝑖 = 𝑗)/𝜕𝑋𝑗 = 𝑃𝑖𝑗 (𝛽𝑗 − ∑ 𝑃𝑖ℎ 𝛽𝑘 ) (8.17)


ℎ=2

32
Penaksiran model multinomial logit dilakukan dengan menggunakan teknik maximum
likelihood dengan mengasumsikan bahwa residual antara model model logit bivariat adalah
terdistribusi secara independen dan identik. Disamping itu, dalam menggunakan model logit
multinomial maka digunakan asumsi “independence of irrelevant alternatives”. Dengan
perkataan lain, setiap kategori pada variabel terikat adalah unik dan tidak memiliki korelasi
dengan kategori lainnya. Pelanggaran asumsi klasik ini akan menimbulkan bias pada hasil
penaksiran.

Contoh:

Misal akan dianalisis hubungan profesi seseorang (kat_prof) dengan pendidikan (didik) dan
jenis kelamin (jns_klmn) pada suatu perusahaan. Data yang akan digunakan adalah pada file
KAT_PROF. Profesi dikategorikan dalam 3 klasifikasi: klerikal administratif, klerikal non-
administratif dan manajerial. Variabel penjelas pendidikan memiliki karakteristik rasio yaitu
jumlah tahun menempuh pendidikan, sedangkan variabel penjelas jns_kelamin adalah bersifat
nominal biner: kode 1 untuk laki-laki dan kode 0 wanita. Data terdiri dari 450 observasi.
Sebelum melakukan penaksiran harus terlebih dahulu membuat variabel dummy untuk setiap
kategori profesi (pada tiap kategori: 1 jika seseorang memiliki profesi tertentu, dan 0 jika
tidak), yaitu:

- kat_prof1 : klerikal administratif


- kat_prof2 : klerikal non-administratif
- kat_prof3 : manajerial

Cara Menaksir Regresi Multinomial Logit

Berdasarkan informasi yang diberikan dalam contoh, kita menggunakan klerikal administratif
sebagai acuan. Dengan kata lain, probabilitas kategori klerikal non-administratif dan
manajerial dibandingkan dengan klerikal administratif. Sebagai variabel terikat adalah
variabel dummy kat_prof2 dan kat_prof3. Buka file KAT_PROF dengan EViews, dan
dengan beberapa langkah perintah hasil akhir dilaporkan dalam Tabel 8,

33
1
2

2
2

34
3
2

35
Tabel 8. Kat_Prof2_Multinomial Logit

Dependent Variable: KAT_PROF2


Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Date: 05/12/21 Time: 21:11
Sample: 1 450
Included observations: 450
Convergence achieved after 8 iterations
Coefficient covariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

C 1.318431 0.932965 1.413162 0.1576


DIDIK -0.356938 0.079580 -4.485251 0.0000
JNS_KLMN 1.220276 0.422219 2.890145 0.0039

McFadden R-squared 0.160229 Mean dependent var 0.060000


S.D. dependent var 0.237751 S.E. of regression 0.226912
Akaike info criterion 0.394535 Sum squared resid 23.01564
Schwarz criterion 0.421930 Log likelihood -85.77038
Hannan-Quinn criter. 0.405332 Deviance 171.5408
Restr. deviance 204.2708 Restr. log likelihood -102.1354
LR statistic 32.73002 Avg. log likelihood -0.190601
Prob(LR statistic) 0.000000

Obs with Dep=0 423 Total obs 450


Obs with Dep=1 27

Lakukan cara yang sama, estimasi kat_prof3 terhadap variabel-variabel penjelas didik dan
jns_klmn dengan hasil akhir dalam Tabel 9 berikut

36
Tabel 9. Kat_Prof3_Multinomial Logit

Dependent Variable: KAT_PROF3


Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Date: 05/12/21 Time: 21:11
Sample: 1 450
Included observations: 450
Convergence achieved after 9 iterations
Coefficient covariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

C -26.42528 3.859795 -6.846291 0.0000


DIDIK 1.566625 0.235301 6.657958 0.0000
JNS_KLMN -2.232639 0.764600 -2.920008 0.0035

McFadden R-squared 0.610670 Mean dependent var 0.171111


S.D. dependent var 0.377025 S.E. of regression 0.224009
Akaike info criterion 0.369682 Sum squared resid 22.43039
Schwarz criterion 0.397077 Log likelihood -80.17850
Hannan-Quinn criter. 0.380480 Deviance 160.3570
Restr. deviance 411.8793 Restr. log likelihood -205.9396
LR statistic 251.5223 Avg. log likelihood -0.178174
Prob(LR statistic) 0.000000

Obs with Dep=0 373 Total obs 450


Obs with Dep=1 77

Interpretasi Koefisien Regresi

Beberapa hal yang dapat dikomentari terkait dengan hasil estimasi diantaranya adalah:

Nilai koefisien didik dan jns_klmn sebesar -0.36 dan 1.22 (pada regresi kat_prof2) dan 1.57
dan -2.23 (pada kat_prof3) tidak dapat diinterpretasikan secara standar bahkan untuk tanda
aljabarnya

Untuk menginterpretasikan koefisien yang diperoleh dalam artian marjinal, perlu diakukan
transformasi dengan menggunakan formula (5) di atas. Misal kita ingin mengetahui dampak
marjinal pendidikan, maka

37
𝜕𝑃(𝑘𝑎𝑡𝑝𝑟𝑜𝑓 = 1)
= 𝑃̂𝑖1 (−0.35𝑃̂𝑖2 − 1.57𝑃̂𝑖3 ) < 0 (10.18)
𝜕𝐷𝑖𝑑𝑖𝑘

𝜕𝑃(𝑘𝑎𝑡𝑝𝑟𝑜𝑓 = 2)
= 𝑃̂𝑖2 (0.35(1 − 𝑃̂𝑖2 ) − 1.57𝑃̂𝑖3 ); (10..19)
𝜕𝐷𝑖𝑑𝑖𝑘

𝜕𝑃(𝑘𝑎𝑡𝑝𝑟𝑜𝑓 = 3)
= 𝑃̂𝑖3 (0.35𝑃̂𝑖2 + 1.57(1 − 𝑃̂𝑖3 )) > 0 (10.20)
𝜕𝐷𝑖𝑑𝑖𝑘

Interpretasi:

(10.18): semakin lama pendidikan yang diperoleh seseorang, semakin kecil probabilitas
ia memperoleh pekerjaan pada kategori klerikal administratif
(10.19): hasil ambigu
(10.20): semakin lama pendidikan yang diperoleh seseorang, semakin besar ia
probabilitas ia memperoleh pekerjaan manajerial

Goddness of Fit Test: Uji LR

Untuk memeriksa kelayakan model regresi multinomial dilakukan dengan


mengevaluasi nilai log likelihood regresi terestriksi. Regresi terestriksi adalah regesi dengan
hanya menggunakan konstanta sebagai variabel penjelas. Jika memang variabel didik dan
jenis kelamin memberikan nilai penjelas tambahan terhadap probabilitas profesi, maka nilai
peningkatannya harus signifikan. Signifikansi dapat dievaluasi dengan menggunakan statistik
chi-square (ꭓ2) dengan derajat bebas (df) sebesar hasil kali dari jumlah variabel bebas dengan
jumlah regresi logit bivariat; dalam contoh kita adalah 4. Rumus statistik LR dan cara
pengambilan keputusannya adalah sebagai berikut,

Jika LR = 2(LRur – LRrest) > ꭓ2 → semua variabel bebas memberikan nilai penjelas
utk reg logit

Memanfaatkan informasi dari Tabel 8 dan 9, statistik LR (tersedia sebagai output


EViews) adalah,

a. Kat_Prof2, LR = 2(-85.77 + 102.13) = 32.72


b. Kat_Prof3, LR = 2(-80.18 + 205.94) = 251.52

38
Nilai hitung statistik chi-square pada α = 5% dan df = 4 adalah sebesar ꭓ2 = 9.49. Karena
hasil (a) dan (b) lebih besar dari ꭓ2 = 9.49, maka dapat disimpulkan bahwa semua variabel
(didik dan jns_klmn) memberikan nilai tambah penjelas bagi regresi logit.

10.7 ORDERED (RESPONSE) LOGIT MODEL (OLM)

Umpama kita memiliki model berikut:

𝑌𝑖∗ = 𝛽1 𝑋𝑖1 + 𝛽2 𝑋𝑖2 + ⋯ + 𝛽𝑘 𝑋𝑖𝑘 + 𝜀𝑖

atau diringkas,

𝑌𝑖∗ = 𝑋𝑖′ 𝛽 + 𝜀𝑖 (10.21)

Dimana 𝑌𝑖∗ tidak terobservasi, X vektor variabel penjelas dan 𝜀𝑖 komponen error dan 𝐸 (𝜀𝑖 ) =
0.
𝑌𝑖∗ sering disebut sebagai suatu variabel laten atau indeks. Misal, ia bisa merujuk pada
kelayakan kredit dari sebuah perusahaan, rating obligasi, indeks kebahagiaan seseorang dan
banyak contoh lain yang terkait dengan suatu variabel terikat yang diukur dengan skala
ordinal. Meskipun kita tidak dapat mengobservasi secara langsung, namun variabel laten
akan bergantung pada satu atau lebih variabel penjelas seperti kinerja keuangan untuk
kelayakan kredit perusahaan dan rating obligasi, pendapatan untuk indeks kebahagiaan, dan
sebagainya. 6
Umpamakan selanjutnya terdapat n observasi dari sejumlah individu dan mereka
dihadapkan pada sejumlah J pilihan yang dirangking, sedemikian rupa sehingga

𝑌𝑖 = 1, 𝑗𝑖𝑘𝑎 𝑌𝑖∗ ≤ 𝑎1
𝑌𝑖 = 2, 𝑗𝑖𝑘𝑎 𝑎1 ≤ 𝑌𝑖∗ ≤ 𝑎2
𝑌𝑖 = 3, 𝑗𝑖𝑘𝑎 𝑎2 ≤ 𝑌𝑖∗ ≤ 𝑎3 (10.22)
.
.
.
𝑌𝑖 = 𝐽, 𝑗𝑖𝑘𝑎 𝑎𝑗−1 ≤ 𝑌𝑖∗

dimana a1 < a2 < a3 … < a J-1.

Yaitu bahwa, kita mengobservasi individu Yi dalam satu dari J kategori yang
dirangking, kategori-kategori ini dipisahkan oleh threshold parameters atau cutoffs (ambang

6
Variabel laten diperlakukan sebagai kontinu dan respons yang teramati mewakili pengukuran kasar
variabel itu. Meskipun kita mengklasifikasikan seseorang berfaham liberal atau konservatif, mungkin ada
kontinum dari ideologi konservatif atau liberal.

39
batas), yaitu ai. Dengan kata lain nilai-nilai ambang batas sesuai namanya memilah batas-
batas berbagai kategori. Rating obligasi misalnya, selembar surat obligasi dengan rating B
mempunyai kategori yang lebih rendah dibanding dengan rating B+.

Gambar 1 menunjukkan skala indeks dan distribusi bagi suatu variabel laten dengan kategori
(m) sebanyak 3. Batas pertama senilai 𝜏1 = 2.5 dan batas kedua senilai 𝜏2 = 8.5. Dengan
demikian jika: (1) variabel laten bernilai sama dengan atau kurang dari 2.5 maka variabel
terikat cenderung bernilai 1, (2) variabel laten bernilai antara 2.5 dan 8.5, variabel terikat
cenderung bernilai 2, (3) variabel laten bernilai lebih dari 8.5, variabel terikat cenderung
bernilai 3.

Kurva yang berwarna coklat agak tua menunjukkan fungsi densitas untuk 𝑋𝑖′ 𝛽 = 5. Terlihat
bahwa jika indeks variabel laten sama dengan 5, maka probabilitas memberikan respons 1
maupun 3 sangatlah kecil. Jika 𝑋𝑖′ 𝛽 = 7 maka probabilitas respons Y = 1 nyaris nol,
sedangkan probabilitas memberikan respons Y =2 adalah tertinggi dan memberikan respons
Y = 3 sudah meningkat.

Gambar 1. Ordered Logit Model (OLM)

𝑋𝑖′ 𝛽 = 5 𝑋𝑖′ 𝛽 = 7
𝑓(𝑌𝑖∗ )

𝑎1 = 2.5 𝑎2 = 8.5

Y=1 Y=2 Y=3

OLM menaksir bukan hanya koefisien-koefisien variabel-variabel penjelas X, tetapi juga


nilai-nilai ambang batas. Namun harap diperhatikan bahwa koefisien-koefisien slope untuk

40
semua variabel penjelas adalah sama untuk setiap kategori; koefisien intersep-intersepnya
(nilai-nilai ambang batas) saja yang berbeda. Dengan kata lain, kita akan mempunyai beberapa
garis regresi yang paralel, namun mereka mempunyai intersep yang berbeda. Itu menjadi
alasan mengapa OLM disebut sebagai proportional odds models.

Penaksiran OLM

Seperti dalam multinomial logit model (MLM), OLM ditaksir dengan method of maximum
likelihood. Prinsip penaksiran adalah sederhana: kita ingin menaksir

Pr(𝑌𝑖 ≤ 𝑗) = Pr(𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖 ≤ 𝑎𝑗 )


= Pr(𝜀𝑖 ≤ 𝑎𝑗 − 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 ) (10.23)

Yaitu bahwa, persamaan (10.23) memberikan probabilitas kumulatif bahwa Yi akan terletak
pada suatu kategori j dan dibawahnya (yaitu dalam kategori 1, 2, …., atau j)

Sebagai catatan, untuk menghitung probabilitas bahwa suatu variabel acak mengambil sebuah
nilai sama dengan atau kurang dari suatu nilai tertentu, kita gunakan fungsi distribusi
kumulatif (CDF) dari suatu distribusi probabilitas. Pertanyaan utamanya adalah distribusi
probabilitas yang mana? Seperti disebut di atas, jika komponen error εj diasumsikan
mengikuti distribusi logistik, kita dapatkan model logit yang dirangking (OLM), tetapi jika
mengikuti distribusi normal, kita dapatkan model probit yang dirangking (OPM). Untuk
alasan yang disebutkan sebelumnya, kita akan menaksir OLM.

Model untuk variabel terikat (respons) yang dirangking menggunakan probabilitas kumulatif
seperti yang ditunjukkan pada Persamaan. (8.24). Sekarang untuk menghitung probabilitas
seperti itu, kita menggunakan

exp(𝑎𝑗 − 𝛽𝑋)
1 + (𝑎𝑗 − 𝛽𝑋) (10.24)

Yaitu CDF dari distribusi probabilitas logistik. Catata bahwa 𝛽𝑋 adalah ringkasan untuk
∑𝑘1 𝛽𝑘 𝑋𝑘 .

Sekarang pengaruh sebuah variabel penjelas terhadap variabel terikat yang dirangking
adalah non-linir, karea ia terhubung melalui CDF yang non-linir (logit dalam kasus ini). Ini
menyebabkan interpretasi OLM agak rumit. Agar interpretasi menjadi lebih mudah, kita dapat
memanfaatkan rasio odds.
Karena hasil pada sisi kiri persamaan (10.22) mencerminkan ranking dari skala
respons, maka adalah umum untuk mempertimbangkan rasio odds yang didefinisikan oleh

41
𝑃𝑟[𝑌𝑖 ≤ 𝑗|𝑋] 𝑃𝑟[𝑌𝑖 ≤ 𝑗|𝑋]
= (10.25)
𝑃𝑟[𝑌𝑖 > 𝑗|𝑋] 𝑃𝑟[1 − Pr(𝑌𝑖 ≤ 𝑗|𝑋]

dimana

𝑃𝑟[𝑌𝑖 ≤ 𝑗|𝑋] = ∑ 𝑃𝑟[𝑌𝑖 = 𝑚|𝑋] (10.26)


𝑚=1

Yang menggambarkan probabilitas kumulatif bahwa hasil (outcome) kurang atau sama
dengan j.

Sekarang jika kita mengunakan CDF logistik yang diberikan oleh persamaan (10.24) untuk
menghitung rasio odds dalam persamaan (10.25) dan mengambil nilai log dari rasio odds ini
(yaitu logit), kita peroleh (setelah penyederhanaan),

𝑃𝑟[𝑌𝑖 ≤ 𝑗] 𝑃𝑟 [𝑌𝑖 ≤ 𝑗] (10.27)


𝑙𝑜𝑔𝑖𝑡[𝑃𝑟[𝑌𝑖 ≤ 𝑗] = ln = ln
𝑃𝑟[𝑌𝑖 > 𝑗] 𝑃𝑟[1 − Pr(𝑌𝑖 ≤ 𝑗]

= 𝑎𝑗 − ∑𝐾
𝑛=1 𝛽𝑛 𝑋𝑖𝑛 𝑗 = 1,2, … , (𝐽 − 1)

Jadi persamaan (10.27) memberikan urutan logit (atau log odds; tiga logit seperti itu dalam
contoh yang akan dibahas di bawah), yang semuanya memiliki variabel-variabel penjelas yang
sama dan koefisien-koefisien slope yang sama tetapi koefisien-koefisien intersep yang
berbeda. Sangat menarik untuk diamati bahwa logit dalm persamaan (10.27) adalah linier
dalam a juga dalam β.

Hal ini juga jelas dari persamaan. (10.27) mengapa OLM disebut sebagai model odds
proporsional karena untuk nilai-nilai X yang diberikan, setiap dua log odds kumulatif (yaitu
logit) katakanlah, pada kategori l dan m hanya berbeda dalam konstanta (al - am). Oleh karena
itu, odds adalah proporsional, maka disebut sebagai model odds proporsional.

42
Contoh:

Masih menggunakan file kat_prof, umpama kita menentukan pengurutan dimana


profesi klerikal administratif dimasukkan pada urutan terbawah, kelrikal non-administratif
pada urutan keuda dan manajerial pada urutan ketiga urutan ini diberikan oleh variabel
bernama kat_profesi.
Estimasi model regresi ordered response dapat dilakukan dengan memilih metode
ordered-ordered choice pada equation window. Selanjutnya kita akan memiliki tiga pilihan
teknik estimasi: normal, logistic dan extreme value. Pada bagian options dapat dipilih beragai
alternatif algoritma optimisasi: Quadratic Hill Climbing, Newton Rhapson dan Berndt Hall,
Hall Hausman.
Kita akan menggunakan estimasi dengan distribusi logistik (ordered logit). Setelah
memasukkan syntax kat_profesi didik jns_klmn maka diperoleh hasil seperti diperlihatkan
pada Tabel 10.

43
44
Tabel 10. Ordered Logit
Dependent Variable: KAT_PROFESI
Method: ML - Ordered Logit (Newton-Raphson / Marquardt steps)
Date: 05/11/21 Time: 17:23
Sample: 1 450
Included observations: 450
Number of ordered indicator values: 3
Convergence achieved after 6 iterations
Coefficient covariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

DIDIK 0.452036 0.051679 8.747064 0.0000


JNS_KLMN -0.308630 0.318910 -0.967765 0.3332

Limit Points

LIMIT_2:C(3) 7.771691 0.815473 9.530291 0.0000


LIMIT_3:C(4) 8.294649 0.835927 9.922698 0.0000

Pseudo R-squared 0.185670 Akaike info criterion 1.113805


Schwarz criterion 1.150332 Log likelihood -246.6061
Hannan-Quinn criter. 1.128202 Restr. log likelihood -302.8330
LR statistic 112.4537 Avg. log likelihood -0.548014
Prob(LR statistic) 0.000000

45
Terlihat dari tabel 10, dampak lama pendidikan adalah positif dan signifikan terhadap
peningkatan kategori kerja. Sedangkan jenis kelamin nampak tidak memiliki dampak yang
signifikan. Nilai statistik likelihood ratio (LR) sebesar 112.45 (dan signifikan sebesar 0.000)
menunjukkan bahwa variabel didik dan jns_klmn memiliki nilai tambah yang signifikan untuk
menjelaskan perubahan variabel laten (kat_prof).

Interpreasi Koefisien-Koefisien Regresi

Koefisien-koefisien regresi yang diberikan dalam Tabel 10 adalah koefisien-koefisien


ordered log odds (yaitu logit). Apa maknanya? Ambil contoh koefisien untuk didik sebesar
0.45; itu berarti jika kita meningkatkan tingkat pendidikan sebesar 1 unit (sebut 1 tahun), maka
ordered log-odds untuk memilih kategori profesi yang lebih tinggi meningkat sebesar 0.45,
ceteris paribus.
Dalam praktek, sering berguna untuk menghitung rasio-rasio odds untuk
menginterpretasikan berbagai nilai koefisien. Ini dapat dilakukan dengan mudah dengan
mengambil nilai eksponensial dari koefisien-koefisien regresi yang telah ditaksir. Sebagai
ilustrasi, untuk koefisien regresi didik sebesar 0.45. Nilai eksponensialnya adalah e 0.45 ≈
1.57; yang berarti bahwa jika pendidikan bertambah 1 unit (sebut 1 tahun), maka nilai odds
dari kategori profesi yang lebih tinggi dibanding dengan kategori profesi yang lebih rendah
adalah lebih besar dari 1.

Dampak Marjinal Variabel Penjelas

Dampak marjinal dari perubahan variabel penjelas ke i dapat diberikan dengan


formula berikut,

𝜕𝑃(𝑌𝑖 = 𝑗) (8.23)
= [𝑓(𝜏𝑗−1 − 𝑋𝑖′ 𝛽) − 𝑓(𝜏𝑗 − 𝑋𝑖′ 𝛽)]𝛽
𝜕𝑋𝑖

dimana f adalah fungsi densitas dari εi.


Ketika nilai 𝑋𝑖′ 𝛽 meningkat, maka nilai indeks 𝑌𝑖∗ akan meningkat. Setelah
melampaui batas nilai tertentu, maka nilai probabilitas Yi = 1 akan menurun; sedangkan
probabilitas Yi = m akan meningkat. Probabilitas Yi = j dapat meningkat atau menurun,
tergantung dari posisi distribusi.

10.8 POISSON REGRESSION MODEL (PRM)

Poisson Regression digunakan ketika variabel terikat acak memiliki sifat count data.
Regresi Poisson hanya dapat mengambil nilai non-negative integer untuk variabel terikat (0,
1, 2, …); dengan kata lain, mengambil nilai-nilai non-negatif dan diskrit (tidak bisa
menerima nilai koma atau pecahan). Teknik ini bermanfaat untuk mengevaluasi jumlah suatu

46
kejadian dalam suatu periode waktu tertentu; populer antara terutama dalam teori antrian.
Banyak contoh variabel semacam ini seperti jumlah anak terlahir selama 10 tahun dari seorang
wanita, berapa kali seseorang ditahan dalam setahun, jumlah paten yang diajukan dalam
setahun, jumlah orang yang mengantri selama 1 jam di suatu anjungan tunai mandiri (ATM),
jumlah dokumen akuntansi yang dapat diproses per jam, dan banyak contoh lainnya.
Jika suatu variabel acak diskrit Y mengikuti distribusi Poisson, maka fungsi
densitas probabilitas (PDF) diberikan oleh

𝑒 −𝜆𝑖 𝜆𝑖 𝑦𝑖
𝑓 (𝑌|𝑦𝑖 ) = Pr(𝑌 = 𝑦𝑖 ) = , 𝑦𝑖 = 0, 1, 2, … … (10.24)
𝑦𝑖 !

dimana f(Y|yi) adalah probabilitas bahwa variabel acak diskrit Y mengambil nilai integer
non-negatif yi, dan dimana yi! (yi faktorial) y! = y x (y-1) x (y-2) x …x 2 x 1 dengan 0! = 1
dan dimana 𝜆 adalah parameter dari distribusi Poisson. Perhatikan bahwa distribusi Poisson
memiliki parameter tunggal, 𝜆, tidak seperti distribusi normal yang mempunyai dua
parameter, nilai rata-rata dan varians.

Dapat dibuktikan bahwa

E(yi) = 𝜆i (10.25)
var(yi) = 𝜆i (10.26)

sebuah ciri unik distribusi Poisson adalah bahwa nilai rata-rata dan varians dari sebuah
variabel yang berdistribusi Poisson adalah sama. Properti ini, yang disebut sebagai
equidispersion, merupakan sebuah karakter pembatas dari distribusi Poisson, dimana dalam
prakteknya varians dari count variable seringkali lebih besar dari nilai rata-ratanya. Properti
terakhir disebut sebagai overdispersion.

Model regresi Poisson dapat ditulis sebagai:

yi = E(yi) + εi = 𝜆i + εi (10.27)

dimana y terdistribusi secara independen sebagai variabel-variabel acak Poisson dengan nilai
rata-rata 𝜆i untuk tiap individu, dinyatakan sebagai

𝜆i = E(yi|Xi) = exp[β1 + β1 X2i + …+ βk Xki ] = exp(βX) (10.28)

Dimana exp(βX) berarti e diberi pangkat dengan βX (kependekan dari regresi ganda yang
diperlihatkan dalam tanda kurung persamaan 10.28).

47
Variabel-variabel X adalah penjelas yang mungkin menentukan nilai rata-rata variabel
terikat. Oleh karena itu, berdasarkan fakta, ia juga menentukan nilai varians jika model
Poisson layak. Misal, jika count variable adalah jumlah kunjungan ke suatu tempat wisata di
tahun tertentu, angka ini akan tergantung pada sejumlah variabel seperti pendapatan
pengunjung, harga tiket masuk, jarak tempuh, dan biaya parkir.
Dengan mengambil nilai eksponensial βX akan menjamin bahwa nilai rata-rata dari
count variabel 𝜆 akan bernilai positif.

Untuk maksud penaksiran, pertama model (10.24) di atas dapat ditulis kembali sebagai

𝑒 −𝜆𝑖 𝜆𝑖 𝑦𝑖
Pr(𝑌 = 𝑦𝑖 |𝑋) =
𝑦𝑖 !

𝑒 −𝛽𝑋 𝜆𝑖 𝑦𝑖
= , 𝑦𝑖 = 0, 1, 2, … (10.29)
𝑦𝑖 !

Namun, kedua, karena model (8.29) masih non-linir dalam parameter-parameternya, maka
terhadapnya perlu dibuat linir. Itu dapat dilakukan dengan metoda maximum likelihood
(ML).

Interpretasi Hasil

Model persamaan (10.24) adalah non-linir. Kemudian, distribusi variabel terikat Y


adalan non-normal, yaitu distribusi Poisson. Oleh karena itu penaksiran tidak dapat
menggunakan teknik OLS, namun menggunakan Quasi Maximum Likelihood Estimation
(QMLE), dan EViews melakukannya untuk kita

Dengan mengambil nilai log terhadap sisi kanan dan kiri persamaan (10.28), diperoleh

ln𝜆𝑖 = ln[𝐸(𝑌|𝑋1 , … , 𝑋𝑘 )] = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + ⋯ + 𝛽𝑘 𝑋𝑘 (10.30)

dan

%∆𝐸 (𝑌|𝑋) = (100𝛽𝑗 )∆𝑋𝑗 (10.31)

Dengan kata lain, koefisien regresi akan diinterpretasikan sebagai persentase perubahan
variabel terikat akibat dari perubahan 1 unit variabel penjelas.

48
Contoh:

Berikut file dengan nama Crime1, adalah data yang dipinjam dari Wooldridge (2003).
Disini akan dilakukan estimasi hubungan frekuensi seseorang ditahan dalam setahun (number
of arrested, narr86) dengan variabel rata-rata vonis (average sentence, avgsen), masa dalam
penjara sejak usia 18 (time in prison since 18, tottime), penghasilan (income, inc86), ras
(hitam: black, hispanik: hispan kaukasian: white kaukasian sebagai acuan), dan lama
menganggur (durat).
Secara keseluruhan terdapat 2725 observasi (laik-laki) pada sampel, 1970 diantaranya
memiliki nilai narr nol dan hanya 5 observasi yang memiliki nilai narr lebih dari 5. Berikut
adalah langkah-langkah penaksiran menggunakan EViews dimulai dengan membuka file
Crime1; semua variabel yang diperlukan dibuka (open) sebagai persamaan (as equation),
dan hasil akhirnya dilaporkan dalam Tabel 11.

1
2

49
2
2

50
3
2

51
4
2

52
Tabel 11. Poisson Regression

Dependent Variable: NARR86


Method: ML/QML - Poisson Count (Newton-Raphson / Marquardt steps)
Date: 05/11/21 Time: 20:02
Sample: 1 2725
Included observations: 2725
Convergence achieved after 8 iterations
Coefficient covariance computed using observed Hessian
GLM adjusted covariance (variance factor =1.52827561002)

Variable Coefficient Std. Error z-Statistic Prob.

C -0.823127 0.070131 -11.73694 0.0000


AVGSEN -0.014530 0.024035 -0.604547 0.5455
TOTTIME 0.007555 0.017626 0.428619 0.6682
INC86 -0.008539 0.000928 -9.196406 0.0000
BLACK 0.674657 0.091250 7.393516 0.0000
HISPAN 0.466876 0.091180 5.120365 0.0000
DURAT -0.000195 0.007629 -0.025529 0.9796

R-squared 0.069069 Mean dependent var 0.404404


Adjusted R-squared 0.067014 S.D. dependent var 0.859077
S.E. of regression 0.829793 Akaike info criterion 1.676919
Sum squared resid 1871.495 Schwarz criterion 1.692101
Log likelihood -2277.802 Hannan-Quinn criter. 1.682406
Restr. log likelihood -2441.921 LR statistic 328.2384
Avg. log likelihood -0.835891 Prob(LR statistic) 0.000000

Hasil penaksiran (10.28) adalah,

𝜆̂𝑖 = 𝑒 𝛽𝑋 = exp(-0.823127- 0.014530 avgseni + 0.007555 tottimei - 0.008539 inc86i


+ 0.674657 blacki + 0.466876 hispani – 0.000195 durati) (10.32)

Transformasi log adalah,

𝑙𝑛𝜆̂𝑖 = 𝛽̂ 𝑋 =-0.823127- 0.014530 avgseni + 0.007555 tottimei - 0.008539 inc86i


+ 0.674657 blacki + 0.466876 hispani – 0.000195 durati (10.33)

53
Pertama, perlu digarisbawahi bahwa, dalam model-model non-linir seperti PRM, R2
tidak begitu penting. Namun, statistik likelihood ratio (LR) adalah penting. Dalam contoh
kita, nilai statistik LR adalah sebesar 328.24, sangat signifikan karena p-value [Prob(LR
statistic)] adalah sama dengan 0. Ini berarti bahwa semua variabel penjelas secara kolektif
adalah penting dalam menjelaskan nilai rata-rata bersyarat (conditional mean) narr86, yaitu
𝜆i.
Cara lain menyatakan ini adalah dengan membandingkan nilai restricted log-
likelihood (LLr) dengan nilai unrestricted log-likelihood function (LLur). Yang pertama
ditaksir dengan hipotesis bahwa tidak terdapat variabel penjelas kecuali konstanta, sedangkan
yang kedua konstanta dan semua variabel penjelas. Karena LLr = -24.42 dan LLur = - 22.79,
maka LL ur > LLr. Karena tujuan ML adalah untuk memaksimumkan fungsi likelihood, maka
kita harus memilih unrestricted model, yaitu model yang menyertakan seluruh variabel
penjelas seperti yang tercantum dalam Tabel 11.
Secara individual, masing-masing variabel penjelas avsgen, tottime dan durat tidak
signifikan mempengaruhi narr86. Menggunakan formula (10.31) terhadap (10.33) dapat kita
simpulkan bahwa kenaikan USD $1 variabel penghasilan (inc86) berdampak mengurangi
frekuensi penahanan (narr86) sebesar 0.8% [yaitu, (100 x -0.008539 x 1) = 0.8 %]. Juga
terlihat dampak ras terhadap frekuensi penahanan. Lelaki dari ras kulit hitam dan hispanik
memiliki frekuensi penahanan yang lebih tinggi, masing-masing sebesar 67% dan 47%
dibandingkan dengan ras kaukasian (kulit putih).

Pengaruh Marjinal Suatu Variabel Penjelas

Cara lain untuk menginterpretasikan hasil di atas adalah menghitung pengaruh


marjinal dari suatu variabel penjelas terhadap count variable (narr86). Dapat diperlihatkan
bahwa pengaruh marjinal dari suatu variabel penjelas yang berskala kontinyu, misal Xk,
terhadap nilai rata-rata adalah

𝜕𝐸(𝑦𝑖 |𝑋𝑘 ) (10.34)


= 𝑒 𝛽𝑋 𝛽𝑘 = 𝐸(𝑦𝑖 |𝑋𝑘 )𝛽𝑘
𝜕𝑋𝑘

Seperti nampak dalam persamaan (10.34), pengaruh marjinal variabel penjelas Xk


tidak hanya tergantung pada koefisien βk, tetapi juga pada nilai harapan dari Y (narr86) yang
tergantung pada nilai-nilai semua variabel penjelas dalam model. Karena data terdiri dari 2725
observasi, maka kita harus menghitung untuk tiap observasi. Ini tentu menjadi pekerjaan yang
sangat mahal. Dalam praktek, pengaruh marjinal dihitung pada nilai-nilai mean dari variabel-
variabel penjelas. Berbagai paket statistik menyediakan perhitungan pengarahu marjinal
untuk variabel-variabel kontinyu.
Karena variabel dummy mengambil nilai 1 dan nol, kita tidak dapat mengambil
derivatif 𝜆i terhadap variabel dummy. Namun, kita dapat menghitung persentase perubahan
rata-rata narr86 yang diperoleh dengan mempertimbangkan model saat variabel dummy
mengambil nilai 1 dan saat mengambil nilai 0.

54
Menghitung Probabilitas

Bagaimana kita menghitung probabilitas, misal m narr86, berdasarkan beberapa


variabel penjelasnya? Ini dapat dihitung dengan memanfaatkan persamaan (10.29) sebagai

exp(−𝜆̂𝑖 )𝜆̂𝑚
𝑖
Pr(𝑌𝑖 = 𝑚|𝑋 ) = , 𝑚 = 0, 1, 2, …. (10.35)
𝑚!

dimana 𝜆̂ = 𝛽̂ 𝑋

Secara prinsip kita dapat menghitung probabilitas untuk tiap observasi untuk tiap nilai
m atau untuk suatu m tertentu sesuai kebutuha. Namun ini merupakan perhitungan yang
melelahkan. Beberapa software statistika seperti EViews dapat menghitung probabilitas
secara relatif mudah.

10.9 CENSORED REGRESSION

Model censored regression dilakukan apabila karena satu hal kita harus membatasi
nilai yang dapat diambil oleh suatu variabel terikat. Misalnya dalam penelitian yang bersifat
survey terhadap variabel pengeluaran per bulan dimana variabel ini bersifat kategorik.
Kuesioner tentunya tidak akan mencantumkan setiap pilihan jumlah pengeluaran yang eksak.
Praktik yang umum dilakukan adalah membuat batas atas dan batas bawah.
Batas atas terjadi misalnya dalam kuesioner terdapat pilihan lebih dari 5 juta per bulan
(right censoring) dan di bawah 1 juta per bulan (left censoring). Ketika seorang responden
memilih opsi ini kita tidak akan mengetahui dengan akurasi yang baik pengeluaran yang
sebenarnya, ia mungkin memiliki pengeluaran 5.5 juta tetapi bisa juga 100 juta. Tentu saja
implikasi analisis dari dua data semacam ini sangat berbeda tetapi kita telah mengabaikannya.

Suatu right cencored regression dapat dimodelkan sebagai,


𝐾

𝑌𝑖 = 𝛽0 + ∑ 𝛽𝑖 𝑋𝑖 + 𝑢𝑖 ; 𝑢𝑖 ~𝑁(0, 𝜎 2 )
𝑖=1

𝑌𝑖 = min(𝑌𝑖 , 𝑐𝑖 ) (10.36)

Dimana ci adalah batas atas. Dengan demikian nilai variabel Y i adalah mana yanglebih kecil,
Yi atau ci.

55
Parameter regresi dapat diestimasi dengan menggunakan teknik MLE, dimana observasi yang
disensor diharapkan memiliki probabilitas sebagai berikut,

𝑐𝑖 − 𝑋𝑖 𝛽
𝑓(𝑊|𝑋𝑖, 𝑐𝑖 ) = 1 − ∅ [ ] ; 𝑊 = 𝑐𝑖
𝜎

1
= ∅[(𝑊 − 𝑋𝑖 𝛽 )/𝜎] ; 𝑊 < 𝑐𝑖 (10.37)
𝜎

Contoh

Meminjam data dari Wooldridge (2003) dengan file Recid.wf1 kita akan melakukan
estimasi durasi (dalam bulan) seorang narapidana yang telah bebas namun tertangkap
kembali (residivis). Durasi tentu saja tidak mungkin negatif. Dengan demikian, ia adalah left
censored di titik nol sedangkan durasi ditangkap kembali dapat mencapai beberapa tahun
kemudian sehingga perlu suatu batas atas (di sini digunakan 70 bulan).
Berbagai variabel digunakan untuk menjelaskan durasi, diantaranya lama kepesertaan
perlatihan kerja di penjara (wrkprg), sudah berapa kali masuk penjara (priors), total waktu
di penjara (tserved), dan sebagainya.
Terdapat 1445 observasi pada sampel. Berikut adalah langkah-langkah penaksiran
menggunakan EViews dimulai dengan membuka file Recid; semua variabel yang diperlukan
dibuka (open) sebagai persamaan (as equation), dan hasil akhirnya dilaporkan dalam Tabel
12.

56
1
2

57
2
2

58
3
2

59
Tabel 12. Censored Regression

Dependent Variable: LOG(DURAT)


Method: ML - Censored Normal (TOBIT) (Newton-Raphson / Marquardt
steps)
Date: 05/12/21 Time: 01:02
Sample: 1 1445
Included observations: 1445
Left censoring (value) at zero
Convergence achieved after 2 iterations
Coefficient covariance computed using observed Hessian

Variable Coefficient Std. Error z-Statistic Prob.

C 3.567525 0.138174 25.81901 0.0000


WORKPRG 0.007993 0.049024 0.163040 0.8705
PRIORS -0.060028 0.009208 -6.518902 0.0000
TSERVED -0.009377 0.001303 -7.197627 0.0000
FELON 0.178753 0.058497 3.055778 0.0022
ALCOHOL -0.263500 0.059903 -4.398816 0.0000
DRUGS -0.089668 0.055023 -1.629647 0.1032
BLACK -0.179162 0.047511 -3.770965 0.0002
MARRIED 0.135223 0.055522 2.435496 0.0149
EDUC 0.005333 0.009941 0.536425 0.5917
AGE 0.001332 0.000225 5.912596 0.0000

Error Distribution

SCALE:C(12) 0.877626 0.016408 53.48774 0.0000

Mean dependent var 3.745150 S.D. dependent var 0.925045


S.E. of regression 0.876645 Akaike info criterion 2.600005
Sum squared resid 1101.269 Schwarz criterion 2.643818
Log likelihood -1866.503 Hannan-Quinn criter. 2.616357
Avg. log likelihood -1.291698

Left censored obs 8 Right censored obs 0


Uncensored obs 1437 Total obs 1445

Setelah memasukkan variabel yang relevan, nilai yang disensor (yakni 0 dan 70) dapat
dinyatakan pada batas bawah (left) dan atas (right). Parameter lain dapat dibiarkan pada
default.

60
Variabel terikat ditransformasikan dalam bentuk log natural. Dengan demikian setiap
parameter estimasi sekarang dapat diinterpretasikan sebagai semilog. Setiap satu unit
kenaikan variabel bebas akan menyebabkan X% perubahan pada variabel terikat.
Dapat dilihat disini, variabel pelatihan dalam penjara (wrkprg), keterlibatan dalam
kejahatan narkotika dan pendidikan tidak memiliki dampak yang signifikan terhadap durasi.
Residivis terkait dengan kejahatan kekerasan (felony) memiliki durasi penangkapan kembali
yang lebih tinggi daripada kejahatan acuan: property sebesar 17.9%. Pernikahan memiliki
dampak yang positif terhadap durasi, residivis yang menikah memiliki durasi penangkapan
kembali 13.5% lebih lama (dibandingkan yang tidak menikah).

61

Anda mungkin juga menyukai