Lembar Informasi:
10.1 PENGANTAR
Model linir yang telah dibahas sebelumnya menggunakan variabel terikat yang bersifat
numerik dan diasumsikan dapat mengambil sebarang nilai (unbounded). Asumsi yang terakhir
pada beberapa penelitian dapat bersifat kurang realistis dan tidak dapat ditterapkan.
Penelitian dengan variabel terikat yang bersifat kualitatif (nominal/kategorik)
misalnya adalah; keputusan membeli atau tidak membeli suatu produk yang dikaitkan dengan
sejumlah variabel penjelas seperti demografi, daya beli, dan psikologis. Dalam hal ini, nilai
variabel terikat diberi kode 1 (jika beli) dan 0 (jika tidak beli). Model regresi yang digunakan
untuk data semacam ini disebut model binary response, diantaranya adalah model
probabilitas linir, logit dan probit.
Selanjutnya jika variabel terikat memiliki multi kategori maka sifat pilihan dapat
berupa nominal (klasifikasi tidak memiliki arti urutan/rangking) dan ordinal (klasifikasi
memiliki arti urutan/rangking). Untuk variabel yang bersifat nominal, model multinomial
logit dapat digunakan. Sedangkan untuk variabel yang bersifat ordinal, seseorang bisa
menggunakan model ordered response.
Sifat variabel terikat lain yang memberikan hambatan bagi penerapan OLS adalah
count data. Di sini, nilai variabel terikat harus bersifat integer dan non-negatif. Variabel
semacam ini misalnya adalah; frekuensi kunjungan (antrian) ke suatu tempat, jumlah anak,
1
pembelian kendaraan bermotor dan sebagainya. Regresi Poisson dapat mengakomodasi
variabel semacam ini.
Jika nilai variabel terikat adalah kontinyu tetapi hanya terbatas pada kisaran nilai
tertentu juga merupakan hambatan bagi penerapan OLS secara langsung. Variabel semacam
ini misalnya indeks prestasi, persentase kepesertaan pensiun, nilai TOEFL, dan lainnya. Data
yang dimiliki disebut censored jika nilai variabel terikat dibatasi. Model untuk mengatasi
masalah semacam ini disebut censored regression.
Seluruh teknik yang digunakan untuk mengatasi permasalahan yang disebut di atas
termasuk pada kelas model regresi dengan variabel terikat yang terbatas (limited dependent
variable model)
Berikut dalam Tabel 10.1 berisi data sampel acak yang terdiri dari 1196 pria di US,
dipinjam dari Gujarati (2011). Variabel-variabel yang digunakan dalam analisis adalah:
Karena variabel terikat, perokok, adalah variabel berskala nominal, sebab itu
mengambil nilai 1 (untuk perokok) dan 0 (untuk bukan perokok). Umpama, metoda ordinary
least-squares (OLS) digunakan untuk menaksir perilaku merokok yang terkait dengan
2
beberapa variabel penjelas seperti; usia (age), pendidikan (education), pendapatan keluarga
(family income), dan harga rokok (price of cigarettes). Model dapat dinyatakan sebagai
𝑌𝑖 = 𝐵𝑋 + 𝑢𝑖 (10.2)
Model (10.2) disebut sebagai Linear Probability Model (LPM) karena nilai ekspektasi
bersyarat (conditional expectation) dari variabel terikat (status merokok), pada nilai-nilai
variabel penjelas tertentu dapat diinterpretasikan sebagai probabilitas bersyarat (conditional
probability) bahwa suatu peristiwa (yaitu, merokok) akan terjadi. Beberapa langkah perintah
EViews memberikan hasil penaksiran yang dilaporkan pada Tabel 1.
3
1
Sambil menekan
tombol “ctrl”, pilih
secara berurutan
variabel-variabel:
smoker, age, educ,
income, dan pcigs79,
5
Klik kanan mouse,
Pilih: open, as eqation
4
6
5
Tabel 1. Model LPM tentang Keputusan Merokok atau Tidak Merokok
(Tabel 8.2 dalam Gujarati (2011))
Keterangan Tabel 1.
6
Kita dapat memperbaiki model ini dengan memperkenalkan komponen interaksi,
semisal age dikalikan dengan education (educ), atau education dikalikan dengan income, atau
memperkenalkan nilai kuadrat age untuk mengetahui apakah terdapat pengaruh non-linir
variabel-variabel penjelas tersebut terhadap merokok. Namun tidak berguna untuk melakukan
itu karena LPM mengandung beberapa kelemahan.
Pertama, LPM mengasumsikan bahwa probabilitas untuk merokok berubah secara
linir mengikuti nilai-nilai variabel penjelas dengan tanpa ada batasan nilai, kecil ataupun
besar. Kedua, secara logis, nilai probabilitas harus terletak antara nilai 0 dan 1. Namun tidak
ada jaminan bahwa nilai probabilitas yang ditaksir oleh LPM akan terletak antara nilai 0 dan
1. Ketiga, asumsi yang biasa yaitu bahwa unsur error terdistribusi secara normal tidak berlaku
ketika variabel terikat hanya mengambil nilai 0 dan 1. Akhirnya, unsur error dalam LPM
adalah heteroskedastik sehingga uji signifikansi tradisional diragukan.
Untuk semua alasan tersebut, LPM bukan pilihan yang dianjurkan untuk pemodelan
variabel-variabel terikat dikotomi. Dua alternatif yang didiskusikan dalam literatur adalah
model logit dan probit.
1) Jika Xi, nilai dari variabel-variabel penjelas berubah, nilai probabilitas penaksir selalu
bernilai antara interval 0-1, dan .
2) Hubungan antara Pi dan Xi adalah non-linir, yaitu, nilainya mendekati nol dengan
pertumbuhan yang menurun mengikuti peningkatan Xi.
Model-model logit dan probit memenuhi kedua syarat tersebut. Pertama-tama kita
akan membahas model logit karena kesederhanaan pernyataan matematisnya.
Asumsikan bahwa dalam contoh di atas, keputusan seorang individu untuk merokok
atau tidak merokok tergantung pada suatu indeks utility yang tidak terobservasi, 𝐼𝑖∗ , yang
tergantung pada beberapa variabel seperti, usia, pendidikan, pendapatan keluarga dan harga
rokok. Kita nyatakan indeks tersebut sebagai,
𝐼𝑖∗ = 𝐵𝑋 + 𝑢𝑖 (10.3)
7
Yi = 1 (seseorang merokok) jika 𝐼𝑖∗ ≥ 0
𝑌𝑖 = 0 (seseirang tidak merokok) jika 𝐼𝑖∗ < 0
Yaitu bahwa, jika indeks utility seseorang I lebih besar dari nilai ambang 𝐼𝑖∗ , maka ia
akan merokok, dan sebaliknya. Sebagai catatan bahwa, disini kita tidak berdebat tentang
merokok itu baik atau buruk bagi kesehatan, meskipun demikian, memang ada bukti riset yang
kuat bahwa merokok mungkin buruk bagi kesehatan.
Agar pilihan perilaku merokok dalam contoh tersebut operasional, kita dapat
mempertimbangkannya sebagai suatu probabilitas pembuatan suatu pilihan, sebut saja pilihan
untuk merokok (Y = 1) adalah:
Pr(𝑌𝑖 = 1) = Pr(𝐼 ∗ ≥ 0)
= Pr(𝐵𝑋 + 𝑢𝑖 ) ≥ 0) (10.4)
= Pr(𝑢𝑖 ) ≥ −𝐵𝑋)
Menjadi jelas bahwa Pi tergantung pada distribusi probabilitas tertentu dari ui.
Ingat, probabilitas bahwa suatu variabel random (acak) mengambil suatu nilai yang kurang
dari nilai tertentu yang diberikan oleh fungsi distribusi kumulatif (CDF) dari variabel
tersebut.2
Model logit mengasumsikan bahwa distribusi probabilitas ui mengikuti distribusi
probabilitas logistik, dituliskan sebagai:
1 𝑒𝑍
𝑃𝑖 = = (10.7)
1 + 𝑒 −𝑍𝑖 1 + 𝑒 𝑍
dimana Pi = probabilitas merokok (Yi = 1), e adalah bilangan Euler sebagai basis dari logaritma
natural dengan nilai sebesar e = 2,71828183, dan
1
Catatan bahwa B adalah fixed atau non-random (tidak acak) dan nilai-nilai X given. Oleh karena itu, variasi
dalam Yi berasal dari variasi dalam ui.
2
Mengingat kembali dari pelajaran statistika dasar bahwa, fungsi distribusi kumulatif dari suatu variabel acak,
X, F(X) didefinisikan sebagai: F(X) ≈ Pr(X≤x), dimana x adalah sebuah nilai tertentu dari X. juga ingat bahwa
jika kita menggambarkan CDF, ia akan membentuk sebuah kurva berbentuk huruf S yang memanjang.
8
Zi = BX + ui (10.8)
1 𝑒 −𝑍
1 − 𝑃𝑖 = = (10.9)
1 + 𝑒 𝑍𝑖 1 + 𝑒 −𝑍𝑖
Dapat diperiksa dari persamaan (10.7) bahwa jika Zi mengambil nilai dari -∞ sampai
+∞, maka Pi mengambil nilai antara 0 hingga 1 dan bahwa Pi terkait secara non-linir terhadap
Zi (dalam hal ini Xi), sehingga memenuhi kedua syarat yang telah disebutkan di atas.3 Gambar
1 mengilustrasikan suatu fungsi logistik.
0.5 𝑒∞
𝑒 −∞ 𝑃= ≈1
𝑃= ≈0 1 + 𝑒∞
1 + 𝑒 −∞
Z
-∞ 0 +∞
𝑒𝑍
𝐶𝑎𝑡𝑎𝑡𝑎𝑛: 𝑃 =
1 + 𝑒𝑍
Sekarang, bagaimana cara menaksir model (10.7) padahal bentuknya masih non-
linir, bukan saja pada variabel X, tetapi juga pada nilai-nilai parameternya, B? Untuk itu dapat
dilakukan dua langkah transformasi sederhada agar model (10.7) menjadi bentuk linir dalam
X maupun koefisien-koefisien B. Pertama, ambil rasio persamaan (10.7) terhadap persamaan
3
Alasan mengapa Pi secara nonlinier terkait dengan, katakanlah pendapatan, adalah bahwa jika pendapatan
meningkat, para perokok akan meningkatkan konsumsi rokok pada tingkat yang menurun karena berlakunya
hukum keuntungan yang semakin berkurang (the law of diminishing returns). Ini berlaku (ingat pelajaran
ekonomi mikro) untuk hampir semua barang normal (normal goods).
9
(10.9), yaitu rasio probabilitas seseorang adalah perokok terhadap probabilitas seseorang
bukan perokok, maka kita peroleh:
𝑃𝑖 1 + 𝑒 𝑍𝑖
= = 𝑒 𝑍𝑖 (10.10)
1 − 𝑃𝑖 1 + 𝑒 −𝑍𝑖
𝑃𝑖 ⁄(1 − 𝑃𝑖 ) disebut sebagai odds ratio untuk merokok – yaitu rasio atau perbandingan
probabilitas bahwa seseorang adalah perokok terhadap probabilitas bahwa seseorang bukan
perokok.
𝑃𝑖
𝐿𝑖 = 𝑙𝑛 ( ) = 𝑍𝑖 = 𝐵𝑋𝑖 + 𝑢𝑖
1 − 𝑃𝑖 (8.11)
Dengan kata lain, persamaan (10.11) menunjukkan bahwa log dari odd ratio
merupakan sebuah fungsi linir dari koefisien-koefisien B dan variabel-variabel penjelas X.
Li disebut logit (log dari rasio odds) dan karena itu model-model seperti (10.11) disebut
model logit.
Sangat menarik untuk mengamati bahwa model probabilitas linier (LPM) yang telah
dibahas sebelumnya mengasumsikan bahwa, Pi berhubungan linier dengan Xi, sedangkan
model logit mengasumsikan bahwa log rasio odds berhubungan linier dengan Xi. Berikut
adalah beberapa karakteristik dari model logit:
1. Sementara Pi, probabilitas bernilai antara 0 dan 1, logit Li berkisar antara nilai -∞ dan
+∞. Dengan kata lain, sementara nilai probabilitas berkisar antara 0 dan 1, logit
bernilai tidak terbatas.
2. Meskipun Li adalah linir dalam Xi, probabilitas adalah non-linir. Hal ini kontras
dengan LPM dimana probabilitas meningkat secara linir terhadap Xi.
3. Jika Li, logit, positif, ini berarti bahwa jika nilai variabel-variabel penjelas meningkat,
maka odds merokok meningkat, dan jika logit negatif, odds merokok menurun.
4. Interpretasi dari model logit (8.11) adalah sebagai berikut: tiap koefisien slope
memperlihatkan bagaimana log dari odd terkait merokok berubah jika nilai variabel X
berubah sebesar 1 unit.
5. Jika koefisien-koefisien model logit sudah ditaksir, maka dengan mudah kita bisa
menghitung nilai probabilitas merokok, bukan saja hanya nilai odd merokok, dari
persamaan (8.7).
6. Dalam LPM, koefisien slope mengukur efek marjinal dari setiap unit perubahan dalam
variabel penjelas pada probabilitas merokok, ceteris paribus (variabel-variabel lain
dianggap konstan). Hal itu tidak berlaku untuk kasus model logit bahwa, efek marjinal
dari satu unit perubahan dalam suatu variabel penjelas bukan saja tergantung pada
koefisien dari koefisien variabel penjelas tersebut, tetapi juga tergantung pada tingkat
10
probabilitas dari semua variabel penjelas yang terdapat dalam model. 4 Paket statistik
seperti Eviews dan Stata dapat menghitung efek marjinal dengan instruksi sederhana.
Penaksiran model logit tergantung pada jenis data yang tersedia untuk analisis.
Terdapat dua jenis data yang tersedia: data tingkat individual, atau mikro seperti dalam contoh
perokok di atas, dan data tingkat grup. Disini hanya akan dibahas data tingkat individual.
Untuk contoh data perokok, kita mempunyai data yang terdiri dari 1196 individu. Oleh
karena itu, meskipun model logit adalah linir, ia tidak dapat ditaksir dengan menggunakan
metoda OLS. Untuk memahami alasannya, perhatikan bahwa Pi = 1 jika seseorang adalah
merokok, dan Pi = 0 jika seseorang tidak merokok. Namun, jika kita masukkan nilai-nilai ini
secara langsung dalam logit Li, akan kita peroleh Li = ln(1/0) jika seseorang adalah perokok
dan Li = ln(0/1) jika seseorang bukan perokok. Hasil-hasil tersebut merupakan ekpresi yang
tak terdefinisikan. Oleh karena itu, untuk menaksir model logit kita harus beberapa metoda
alternatif. Metoda yang paling populer yang mempunyai properti yang menarik adalah metoda
maximum likelihood (ML). Kebanyakan paket-paket statistika modern mempunyai fasilitas
penaksiran dengan metoda ML.
Menggunakan EViews, lakukan langkah yang sama 1 sampai 5 seperti dalam LPM.
Setelah itu, pada langkah ke 6: pada Estimation settings - Method, pilih ‘Binary - Binary
Choice (Logit, Probit, Extreme Value)’ seperti nampak dalam gambar berikut,
4
Para pembaca yang sudah mempelajari kalkulus dapat memeriksa hal tersebut dengan cara mengambil
turunan dari persamaan (8.7) terhadap variabel-variabel yang relevan, dengan merujuk bahwa Zi = BX.
Catatan: gunakan aturan rantai 𝜕Pi /𝜕Xi = 𝜕Pi/𝜕Zi . 𝜕Zi/𝜕Xi.
11
6
Dan setelah itu, pada langkah ke 7 pilih ‘logit’ sebagai metoda penaksiran biner seperti
nampak pada gambar berikut, dan kemudian pilih ‘ok’. Hasil penasiran dilaporkan dalam
Tabel 2 (Tabel 10.3. dalam Gujarati (2011))
12
Tabel 2 Model Logit Untuk Merokok atau Tidak Merokok
(Tabel 10.3 dalam Gujarati, (2011))
Untuk keperluan analisis lebih lanjut, jangan lupa untuk menyimpan hasil penaksiran dengan
cara pilih ‘Name’, dan ketikkan sebuah nama sesuai selera (dalam contoh ini diberi nama
sebagai ‘eq01_smoker_logit_biner’). Model regreso logistik penaksir dapat dinyatakan
sebagai,
𝑃̂𝑖
𝐿𝑖 = ln ( ) = 𝑍̂ = 2.745082 − 0.020853 Age − 0.090973 Educ
1 − 𝑃̂𝑖
13
+4.72E − 06 Income − 0.022319 Pcigs79
Nilai-Nilai Probabilitas Peristiwa Sukses5 & Rasio Odds Berdasarkan Informasi Yang
Diberikan Oleh Variabel-Variabel Penjelas
Terminologi logit bukanlah bahasa sehari-hari. Apa yang ingin kita ketahui dalam
contoh kita adalah probabilitas merokok berdasarkan nilai-nilai dari beberapa variabel
penjelasnya. Hal itu dapat dihitung dengan menggunakan rumus (10.7). Sebagai ilustrasi,
ambil informasi perokok pada observasi kedua dari Tabel 8.1 (Gujarati, 2011). Perokok pada
observasi kedua ini berusia (age) 28 tahun, lama pendidikan (educ) 15 tahun, pendapatan
keluarga (income) 12500, dan harga rokok (pcigs79) 60. Mensubstitusikan nilai-nilai variabel
tersebut ke dalam persamaan (10.7) akan kita peroleh nilai probabilitas seseorang adalah
seorang perokok:
1
𝑃𝑖 = ≈ 0.3782
1+ 𝑒 (−0.4935)
5
Kata ‘sukses’ disini adalah peristiwa/kejadian yang menjadi pertanyaan penelitian, dalam contoh adalah
probabilitas seseorang adalah perokok berdasarkan beberapa karakteristik informasi yang tersedia dari sejumlah
variabel penjelasnya (usia, pendidikan, pendapatan dan harga rokok).
14
variabel penjelas yang sama, maka nilai probabilitas seseorang adalah bukan seorang perokok
adalah,
1 – Pi ≈ 0.6218
Diperiksa dari data Tabel 8.1 (Gujarati, 2011) kita tahu bahwa orang ini adalah
memang seorang perokok. Dan rasio odds, yaitu perbandingan probabilitas sukses (perokok)
terhadap probabilitas tidak sukses (bukan perokok),
𝑃𝑖 0.3782
= = 0.6084 < 1
1 − 𝑃𝑖 0.6218
Sekarang ambil kasus orang dengan usia, pendidikan, income dan pcigs79 masing-
masing 63, 10, 20000 dan 60.8. Untuk orang ini, probabilitas merokok adalah
1
𝑃𝑖 = ≈ 0.3227
1+ 𝑒 (−0.4935)
1 – Pi ≈ 0.6772
Dalam sampel data Tabel 8.1 (Gujarati, 2011), orang tersebut ternyata bukan perokok.
Dan rasio odds
𝑃𝑖 0.322789
= = 0.4766 < 1
1 − 𝑃𝑖 0.677211
Berikut dalam Tabel 3 adalah hasil simulasi untuk uraian perhitungan di atas.
15
Tabel 3. Simulasi Nilai-Nilai Koefsien Regresi Logit
Untuk Data Mentah Pada Observasi ke 2 dan 23
SIMULASI
Observasi
Variable Coefficient 2 23
C 2.745082 1 1
AGE -0.02085 28 63
EDUC -0.09097 15 10
INCOME 4.72E-06 12500 20000
PCIGS79 -0.02232 60.6 60.8
Umpama kita ingin mengetahui 𝜕𝑃𝑖 ⁄𝜕𝐴𝑔𝑒𝑖 , pengaruh satu unit perubahan dalam usia
terhadap probabilitas merokok, ceteris paribus. Dalam LPM hal itu dapat dihitung langsung,
namun tidak mudah dihitung dalam model logit dan probit. Hal itu karena perubahan
probabilitas merokok jika usia berubah I unit (misal, satu tahun) tergantung bukan saja pada
koefisien variabel usia tetapi juga pada tingkat probabilitas dari mana perubahan tersebut
diukur. Namun yang terakhir disebut tegantung pada nilai-nilai dari semua variabel penjelas.
Dari Tabel 2 (kolom Prob.) kita lihat bahwa, kecuali koefisien pendapatan (income),
semua koefisien secara individual signifikan secara statistik, paling tidak pada tingkat 10%.
Variabel age dan education sangat signifikan secara statistik dan memberikan tanda sesuai
harapan. Jika age meningkat, maka nilai logit menurun, barangkali karena pertimbangan
kesehatan – bahwa, semakin berumur seseorang, maka kemungkinan untuk merokok
berkurang. Serupa itu, semakin berpendidikan seseorang, maka berkurang peluang orang
untuk merokok, mungkin karena kesadaran tentang efek sakit dari merokok. Harga rokok
mempunyai tanda sesuai ekspektasi, negatif, dan signifikan pada tingkat ∝ = 7%. Ceteris
paribus, semakin tinggi harga rokok, semakin kecil probabilitas merokok. Pendapatan tidak
16
memiliki dampak yang nampak secara statistik pada merokok, mungkin karena pengeluaran
untuk rokok mengambil porsi yang kecil dari pendapatan keluarga.
Ukuran konvensional tentang goodness of fit, R2 yang biasa digunakan dalam regresi
linir sangat tidak bermakna untuk variabel terikat yang mengambil nilai-nilai 1 atau 0.
Untuk itu sebagai alternatif, beberapa ukuran yang serupa R2, disebut sebagai pseudo
R2 banyak didiskusikan dalam literatur. Salah satu ukuran tersebut adalah McFaden
R2, diringkas R2McF yang berkisar antara nilai 0 dan 1. Formula R2McF yang digunakan
adalah,
2
𝐿𝐿𝑈𝑅
𝑅𝑀𝑐𝐹 = 1−
𝐿𝐿𝑅𝐸𝑆𝑇𝑅𝐼𝐶𝑇𝐸𝐷
Untuk contoh kita bernilai 0.0927. Namun ukuran pseudo R2 ini tidak memiliki arti
sebagai persentase variasi variabel terikat yang dapat dijelaskan oleh variabel
penjelasnya. Dengan demikian, sekali lagi, meski memberikan nilai yang tinggi
(apalagi jika rendah), manfaat dari statistik ini untuk mengevaluasi goodness of fit dari
berbagai pilihan model adalah terbatas.
Ukuran goodness of fit lainnya adalah count R2, yaitu jumlah pengamatan yang
diprediksi model secara benar dibagi oleh jumlah pengamatan. Ini mengukur seberapa
baik model memprediksi nilai yang benar dari variabel dependen, menggunakan nilai
yang diketahui. Dinyatakan secara matematis,
17
Karena variabel terikat mengambil sebuah nilai antara 1 atau 0, maka jika probabilitas
yang diprediksi untuk suatu observasi lebih besar dari 0.5 kita klasifikasikan observasi
tersebut sebagai 1, namun jika kurang dari 0.5 kita klasifikasikan sebagai 0. Kemudian
kita menghitung jumlah prediksi yang benar dan count R2 seperti yang didefinisikan
di atas. Berikut adalah langkah-langkah untuk menghitung count R2,
1
18
3
19
Tabel 4. Goodness of Fit Menggunakan Statistik Count R2
EViews memberikan hasil count R2 sebesar 61.04% (yaitu 730/1196 = 61.04%); yang
berarti bahwa dari total observasi, terdapat 61,04% jumlah pengamatan yang
diprediksi oleh model dengan benar, suatu hasil prediksi model yang cukup baik.
Serupa dengan uji F dalam model regresi linir, statistik LR dapat digunakan untuk
menguji hipotesis nol bahwa semua koefisien variabel penjelas pada regresi logit
20
secara simultan bernilai nol. Berdasarkan hipotesis nol tersebut, statistik LR
mengikuti distribusi chi-square dengan derajat bebas sama dengan jumlah variabel
penjelas; adalah 4 (empat) dalam contoh kita. Statistik LR dihitung sebagai berrikut,
LR = 2(LLur – LLrestricted)
Seperti nampak dalam Tabel 2 (Tabel 8.3 dalam Gujarati (2011)) di atas, nilai hitung
statistik LR adalah 47.26 [yaitu, 2(-770.8409+794.4748) = 47.26], sedangkan nilai
chi-square tabel untuk df = 4 (jumlah parameter diluar konstanta, atau jumlah variabel
bebas) pada taraf signifikansi 0.05 adalah sebesar 9.488.
Karena nilai hitung statistik LR = 47.26 > chi-square tabel = 9.488, maka tingkat
siginifkansi 5% menolak hipotesis nol. Kesimpulan serupa juga dapat dilihat dari nilai
p value sebesar nol. Oleh karena itu, bersarkan uji statistik LR dapat dikatakan
bahwa, keempat variabel penjelas dalam model logit merupakan faktor-faktor
penting yang menentukan kebiasaan merokok.
Uji H-L adalah uji untuk menentukan apakah model yang dibentuk sudah tepat
atau tidak. Suatu model dikatakan tepat apabila tidak ada perbedaan signifikan antara
model dengan nilai observasinya; adalah pernyataan hipotesis nol dalam uji H-L.
Statistik H-L mengikuti distribusi chi-square dengan derajat bebas df = jumlah
variabel bebas; dan, hipotesis nol ditolak jika nilai hitung chi-square H-L lebih besar
dari nilai chi-square tabel, atau jika p-value (Prob.) kurang dari taraf signifikansi yang
ditentukan (misal 10%, 5% atau 1%). Memanfaatkan EViews, statistik HL dihitung
dengan beberapa langkah berikut yang hasil akhirnya dilaporkan dalam Tabel 5.
21
1
2
2
22
3
2
23
Tabel 5. Goodness of Fit Menggunakan Statistik H-L
Nilai Chi Square tabel untuk derajat bebas (df) senilai 4 (jumlah variabel independen)
pada taraf signifikansi 0,05 adalah sebesar 9.488. Karena dalam contoh kita, nilai Chi
Square H-L hitung senilai 16.7417 > Chi Square table senilai 9.488 atau, nilai
signifikansi sebesar 0.0329 < 0,05, maka hipotesis nol ditolak; menunjukkan bahwa
model tidak dapat diterima dan pengujian hipotesis tidak dapat dilakukan,
karena ada perbedaan signifikan antara model dengan nilai observasinya.
Karena berdasarkan uji H-L model tidak dapat diterima, maka model logit yang
diberikan pada Tabel 2 (Tabel 8.3 dalam Gujarati (2011)) dapat disempurnakan. Misalnya, ke
dalam model dapat ditambabahkan interaksi efek antar variabel penjelas. Secara parsial,
pendidikan memiliki pengaruh negatif dan pendapatan berpengaruh positif terhadap
kemungkinan merokok, meskipun efek pendapatan tidak signifikan secara statistik. Tetapi,
24
bisa dipertanyakan lebih lanjut, bagaimana pengaruh gabungan dari pendidikan dan
pendapatan terhadap kemungkinan merokok?
Apakah orang dengan tingkat pendidikan dan tingkat pendapatan yang lebih tinggi
merokok lebih sedikit atau lebih banyak daripada orang dengan karakteristik lain? Untuk
memungkinkan hal ini, kita dapat memperkenalkan efek perkalian atau interaktif dari kedua
variabel pendidikan (educ) dan pendapatan (income) sebagai variabel penjelas tambahan.
Hasilnya diberikan pada Tabel 6 (Tabel 8.4.dalam Gujarati (2011)). Langkah-langkah
penaksiran model logit sebelumnya dengan tambahan variabel interaksi pendidikan dan
pendapatan adalah sebagai berikut.
1
2
25
2
2
3
2
26
Tabel 6. Model Logit Untuk Smoking Dengan Variabel Interaksi
(Tabel 8.4 dalam Gujarati (2011))
Dependent Variable: SMOKER
Method: ML - Binary Logit (Newton-Raphson / Marquardt steps)
Date: 05/10/21 Time: 03:37
Sample: 1 1196
Included observations: 1196
Convergence achieved after 3 iterations
Coefficient covariance computed using observed Hessian
27
4
2
28
Tabel 7. Godness of Fit Evaluation_H_L
Hasil ini menarik. Pada Tabel 2 (Tabel 8.3 dalam Gujarati (2011)), masing-masing,
pendidikan memiliki pengaruh yang signifikan negatif terhadap logit (dan karena itu pada
probabilitas merokok) dan pendapatan tidak memiliki pengaruh yang signifikan secara
statistik. Sekarang dalam Tabel 7, pendidikan dengan sendirinya tidak berdampak signifikan
secara statistik pada logit, tetapi pendapatan memiliki dampak positif yang sangat signifikan.
Tapi jika kita perhatikan komponen interaktif, perkalian pendidikan dengan
pendapatan, ia berpengaruh signifikan negatif pada logit. Artinya, orang dengan pendidikan
tinggi dan juga punya pendapatan yang lebih tinggi cenderung menjadi perokok dibandingkan
dengan mereka yang hanya berpendidikan atau berpendapatan yang lebih tinggi saja. Ini
menunjukkan bahwa dampak dari satu variabel terhadap probabilitas merokok dapat
dilemahkan atau diperkuat oleh kehadiran dari variabel lain.
29
Nilai Chi Square tabel untuk derajat bebas (df) senilai 5 (jumlah variabel independen) pada
taraf signifikansi 0,05 adalah sebesar 11.0705. Karena dalam contoh kita, nilai Chi Square
H-L hitung senilai 22.9295 > Chi Square table senilai 11.0705 atau, nilai signifikansi
sebesar 0.0035 < 0,05, maka hipotesis nol ditolak; menunjukkan bahwa model tidak dapat
diterima dan pengujian hipotesis tidak dapat dilakukan, karena ada perbedaan
signifikan antara model dengan nilai observasinya. Ternyata, menambahkan variabel
interaksi berupa perkalian antara variabel pendikan dengan pendapatan tidak memperbaiki
model. Dengan demikian perlu dicari hubungan interaksi antar variabel penjelas yang lain
sedemikian rupa sehingga statistik H-L menjadi signifikan.
Kemudian, umpama
𝑃𝑖𝑗 = Pr(𝑌𝑖𝑗 = 1)
30
𝑃𝑖1 + 𝑃𝑖2 + 𝑃𝑖3 = 1 (8.13)
Hal itu karena, seperti dimaklum, bahwa jumlah probabilitas dari peristiwa mutually exclusive
dan exhaustive harus 1. Kita menyebut P sebagai response probabilities.
Ini berarti bahwa dalam contoh tersaji, jika kita menentukan dua probabilitas, maka
probabilitas ketiga dapat diperoleh secara otomatis. Dengan kata lain, kita TIDAK dapat
menaksir ketiga probabilitas secara terpisah.
Sekarang kita dapat bertanya tentang faktor-faktor atau variabel-variabel apa saja yang
menentukan probabilitas seseorang memilih salah satu kategori profesi tersebut di atas?
Dalam contoh kita, jenjang atau lama pendidikan (didik) dan jender (jns_klmn) adalah dua
variabel penjelas yang dianggap menentukan probabilitas seseorang memililih salah satu
kategori profesi tersebut di atas. Generalisasi model logit bivariat sebelumnya, MLM dapat
dinyatakan sebagai,
′
𝑒 𝑋𝑖 𝛽𝑗
𝑃𝑖𝑗 = ′ (8.13)
∑𝑚 𝑋𝑖 𝛽𝑗
𝑗=1 𝑒
Subscript j pada intersep dan koefisien slope menunjukkan bahwa nilai-nilai koefisien
ini dapat berbeda dari satu pilihan ke pilihan lainnya. Dengan kata lain, seorang responden
sebagai subjek penelitian ke i yang menentukan pilihan kategori j = 1 (klerikal administratif)
akan memberikan bobot yang berbeda-beda untuk pilihan-pilihan lainnya selain j = 1.
Untuk sejumlah kategori pilihan m = 3 misalnya, akan diperoleh 3 (tiga) probabilitas
yang dapat ditaksir dari persamaan (8.13) yang mempunyai nilai-nilai koefisien yang bebeda
dengan akibat akan kita taksir 3 (tiga) buah regresi.
Namun, tita tidak dapat menaksir ketiga probabilitas secara independen. Praktek
umum dalam MLM adalah memilih sebuah kategori atau memilih sebagai basis, acuan atau
kategori pembanding dan tetapkan nilai-nilai koefisiennya sama dengan nol. Dari contoh
yang diajukan disini, kita akan menaksir hubungan antara suatu variabel terikat kualitatif Y
(profesi) dengan m = 3 kategori, dan dua buah variabel penjelas didik (X1) dan jenis kelamin
(X2). Jika kategori 1 (klerikal administratif) sebagai acuan, dan menetapkan 𝛽10 = 0, 𝛽11 =
0, 𝑑𝑎𝑛 𝛽12 = 0, maka kita peroleh probabilitas untuk ketiga pilihan kategori profesi:
1
𝑃𝑖1 =
1 + 𝑒𝛽20 +𝛽21 𝑋1 +𝛽22 𝑋2 + 𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2
(8.14)
31
𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2
𝑃𝑖3 = (8.16)
1 + 𝑒𝛽20 +𝛽21 𝑋1 +𝛽22 𝑋2 + 𝑒 𝛽30 +𝛽31 𝑋1 +𝛽32 𝑋2
Harap diperhatikan bahwa meskipun kedua variabel penjelas (X1 dan X2) muncul di
ketiga persamaan probabilitas, namun nilai-nilai koefisiennya tidak harus bernilai sama.
Jika kita menjumlahkan nilai-nilai probabilitas (8.14), (8.15) dan (8.16) akan kita
peroleh nilai 1, karena seperti disebut sebelumnya (lihat 8.13) disini kita memiliki tiga pilihan
yang mutually exclusive. Juga, pernyataan probabilitas (8.14), (8.15) dan (8.16) ketiganya non
linir. Namun, sekarang kita perhatikan pernyataan berikut:
𝑃𝑖2 (8.17)
𝑙𝑛 ( ) = 𝛽20 + 𝛽21 𝑋1 + 𝛽22 𝑋2
𝑃𝑖1
𝑃𝑖3 (8.18)
𝑙𝑛 ( ) = 𝛽30 + 𝛽31 𝑋1 + 𝛽32 𝑋2
𝑃𝑖1
Catatan:
Dari pernyataan (8.17) ln 𝑃𝑖2 − 𝑙𝑛𝑃𝑖1 = 𝛽20 + 𝛽21 𝑋1 + 𝛽22 𝑋2 dan dari pernyataan (8.18) 𝑙𝑛𝑃𝑖3 − 𝑙𝑛𝑃𝑖1 =
𝛽30 + 𝛽31 𝑋1 + 𝛽32 𝑋2 . Karena itu, 𝑙𝑛𝑃𝑖2 − 𝑙𝑛𝑃𝑖3 = (𝛽20 − 𝛽30 ) + (𝛽21 − 𝛽31 )𝑋1 + (𝛽22 − 𝛽32 ) 𝑋2 atau
ln(𝑃𝑖2 /𝑙𝑛𝑃𝑖3 ) = (𝛽20 − 𝛽30 ) + (𝛽21 − 𝛽31 )𝑋1 + (𝛽22 − 𝛽32 ) 𝑋2 yang memberikan log odds memilih
kategori 2 dibanding kategori 1.
Pernyataan (8.17) dan (8.18) serupa dengan pernyataan dalam model model logit biner
sebelumnya. Yaitu bahwa, kedua buah logit merupakan fungsi linir dari variabel penjelas X1
dan X2. Ingat bahwa, logit adalah log dari rasio odds. Dan, odds menjelaskan berapa besar
alternatif j lebih disukai dibanding dari alternatif acuannya.
Selanjutnya dampak marjinal sebuah variabel penjelas harus dihitung secara tersendiri
karena parameter variabel pada suatu model logit bivariat tidak lagi dapat diinterpretasikan
secara individual, namun harus mempertimbangkan parameter yang diperoleh pada model
bivariat lainnya. Secara formal hal itu dapat dirumuskan sebagai berikut,
𝑚
32
Penaksiran model multinomial logit dilakukan dengan menggunakan teknik maximum
likelihood dengan mengasumsikan bahwa residual antara model model logit bivariat adalah
terdistribusi secara independen dan identik. Disamping itu, dalam menggunakan model logit
multinomial maka digunakan asumsi “independence of irrelevant alternatives”. Dengan
perkataan lain, setiap kategori pada variabel terikat adalah unik dan tidak memiliki korelasi
dengan kategori lainnya. Pelanggaran asumsi klasik ini akan menimbulkan bias pada hasil
penaksiran.
Contoh:
Misal akan dianalisis hubungan profesi seseorang (kat_prof) dengan pendidikan (didik) dan
jenis kelamin (jns_klmn) pada suatu perusahaan. Data yang akan digunakan adalah pada file
KAT_PROF. Profesi dikategorikan dalam 3 klasifikasi: klerikal administratif, klerikal non-
administratif dan manajerial. Variabel penjelas pendidikan memiliki karakteristik rasio yaitu
jumlah tahun menempuh pendidikan, sedangkan variabel penjelas jns_kelamin adalah bersifat
nominal biner: kode 1 untuk laki-laki dan kode 0 wanita. Data terdiri dari 450 observasi.
Sebelum melakukan penaksiran harus terlebih dahulu membuat variabel dummy untuk setiap
kategori profesi (pada tiap kategori: 1 jika seseorang memiliki profesi tertentu, dan 0 jika
tidak), yaitu:
Berdasarkan informasi yang diberikan dalam contoh, kita menggunakan klerikal administratif
sebagai acuan. Dengan kata lain, probabilitas kategori klerikal non-administratif dan
manajerial dibandingkan dengan klerikal administratif. Sebagai variabel terikat adalah
variabel dummy kat_prof2 dan kat_prof3. Buka file KAT_PROF dengan EViews, dan
dengan beberapa langkah perintah hasil akhir dilaporkan dalam Tabel 8,
33
1
2
2
2
34
3
2
35
Tabel 8. Kat_Prof2_Multinomial Logit
Lakukan cara yang sama, estimasi kat_prof3 terhadap variabel-variabel penjelas didik dan
jns_klmn dengan hasil akhir dalam Tabel 9 berikut
36
Tabel 9. Kat_Prof3_Multinomial Logit
Beberapa hal yang dapat dikomentari terkait dengan hasil estimasi diantaranya adalah:
Nilai koefisien didik dan jns_klmn sebesar -0.36 dan 1.22 (pada regresi kat_prof2) dan 1.57
dan -2.23 (pada kat_prof3) tidak dapat diinterpretasikan secara standar bahkan untuk tanda
aljabarnya
Untuk menginterpretasikan koefisien yang diperoleh dalam artian marjinal, perlu diakukan
transformasi dengan menggunakan formula (5) di atas. Misal kita ingin mengetahui dampak
marjinal pendidikan, maka
37
𝜕𝑃(𝑘𝑎𝑡𝑝𝑟𝑜𝑓 = 1)
= 𝑃̂𝑖1 (−0.35𝑃̂𝑖2 − 1.57𝑃̂𝑖3 ) < 0 (10.18)
𝜕𝐷𝑖𝑑𝑖𝑘
𝜕𝑃(𝑘𝑎𝑡𝑝𝑟𝑜𝑓 = 2)
= 𝑃̂𝑖2 (0.35(1 − 𝑃̂𝑖2 ) − 1.57𝑃̂𝑖3 ); (10..19)
𝜕𝐷𝑖𝑑𝑖𝑘
𝜕𝑃(𝑘𝑎𝑡𝑝𝑟𝑜𝑓 = 3)
= 𝑃̂𝑖3 (0.35𝑃̂𝑖2 + 1.57(1 − 𝑃̂𝑖3 )) > 0 (10.20)
𝜕𝐷𝑖𝑑𝑖𝑘
Interpretasi:
(10.18): semakin lama pendidikan yang diperoleh seseorang, semakin kecil probabilitas
ia memperoleh pekerjaan pada kategori klerikal administratif
(10.19): hasil ambigu
(10.20): semakin lama pendidikan yang diperoleh seseorang, semakin besar ia
probabilitas ia memperoleh pekerjaan manajerial
Jika LR = 2(LRur – LRrest) > ꭓ2 → semua variabel bebas memberikan nilai penjelas
utk reg logit
38
Nilai hitung statistik chi-square pada α = 5% dan df = 4 adalah sebesar ꭓ2 = 9.49. Karena
hasil (a) dan (b) lebih besar dari ꭓ2 = 9.49, maka dapat disimpulkan bahwa semua variabel
(didik dan jns_klmn) memberikan nilai tambah penjelas bagi regresi logit.
atau diringkas,
Dimana 𝑌𝑖∗ tidak terobservasi, X vektor variabel penjelas dan 𝜀𝑖 komponen error dan 𝐸 (𝜀𝑖 ) =
0.
𝑌𝑖∗ sering disebut sebagai suatu variabel laten atau indeks. Misal, ia bisa merujuk pada
kelayakan kredit dari sebuah perusahaan, rating obligasi, indeks kebahagiaan seseorang dan
banyak contoh lain yang terkait dengan suatu variabel terikat yang diukur dengan skala
ordinal. Meskipun kita tidak dapat mengobservasi secara langsung, namun variabel laten
akan bergantung pada satu atau lebih variabel penjelas seperti kinerja keuangan untuk
kelayakan kredit perusahaan dan rating obligasi, pendapatan untuk indeks kebahagiaan, dan
sebagainya. 6
Umpamakan selanjutnya terdapat n observasi dari sejumlah individu dan mereka
dihadapkan pada sejumlah J pilihan yang dirangking, sedemikian rupa sehingga
𝑌𝑖 = 1, 𝑗𝑖𝑘𝑎 𝑌𝑖∗ ≤ 𝑎1
𝑌𝑖 = 2, 𝑗𝑖𝑘𝑎 𝑎1 ≤ 𝑌𝑖∗ ≤ 𝑎2
𝑌𝑖 = 3, 𝑗𝑖𝑘𝑎 𝑎2 ≤ 𝑌𝑖∗ ≤ 𝑎3 (10.22)
.
.
.
𝑌𝑖 = 𝐽, 𝑗𝑖𝑘𝑎 𝑎𝑗−1 ≤ 𝑌𝑖∗
Yaitu bahwa, kita mengobservasi individu Yi dalam satu dari J kategori yang
dirangking, kategori-kategori ini dipisahkan oleh threshold parameters atau cutoffs (ambang
6
Variabel laten diperlakukan sebagai kontinu dan respons yang teramati mewakili pengukuran kasar
variabel itu. Meskipun kita mengklasifikasikan seseorang berfaham liberal atau konservatif, mungkin ada
kontinum dari ideologi konservatif atau liberal.
39
batas), yaitu ai. Dengan kata lain nilai-nilai ambang batas sesuai namanya memilah batas-
batas berbagai kategori. Rating obligasi misalnya, selembar surat obligasi dengan rating B
mempunyai kategori yang lebih rendah dibanding dengan rating B+.
Gambar 1 menunjukkan skala indeks dan distribusi bagi suatu variabel laten dengan kategori
(m) sebanyak 3. Batas pertama senilai 𝜏1 = 2.5 dan batas kedua senilai 𝜏2 = 8.5. Dengan
demikian jika: (1) variabel laten bernilai sama dengan atau kurang dari 2.5 maka variabel
terikat cenderung bernilai 1, (2) variabel laten bernilai antara 2.5 dan 8.5, variabel terikat
cenderung bernilai 2, (3) variabel laten bernilai lebih dari 8.5, variabel terikat cenderung
bernilai 3.
Kurva yang berwarna coklat agak tua menunjukkan fungsi densitas untuk 𝑋𝑖′ 𝛽 = 5. Terlihat
bahwa jika indeks variabel laten sama dengan 5, maka probabilitas memberikan respons 1
maupun 3 sangatlah kecil. Jika 𝑋𝑖′ 𝛽 = 7 maka probabilitas respons Y = 1 nyaris nol,
sedangkan probabilitas memberikan respons Y =2 adalah tertinggi dan memberikan respons
Y = 3 sudah meningkat.
𝑋𝑖′ 𝛽 = 5 𝑋𝑖′ 𝛽 = 7
𝑓(𝑌𝑖∗ )
𝑎1 = 2.5 𝑎2 = 8.5
40
semua variabel penjelas adalah sama untuk setiap kategori; koefisien intersep-intersepnya
(nilai-nilai ambang batas) saja yang berbeda. Dengan kata lain, kita akan mempunyai beberapa
garis regresi yang paralel, namun mereka mempunyai intersep yang berbeda. Itu menjadi
alasan mengapa OLM disebut sebagai proportional odds models.
Penaksiran OLM
Seperti dalam multinomial logit model (MLM), OLM ditaksir dengan method of maximum
likelihood. Prinsip penaksiran adalah sederhana: kita ingin menaksir
Yaitu bahwa, persamaan (10.23) memberikan probabilitas kumulatif bahwa Yi akan terletak
pada suatu kategori j dan dibawahnya (yaitu dalam kategori 1, 2, …., atau j)
Sebagai catatan, untuk menghitung probabilitas bahwa suatu variabel acak mengambil sebuah
nilai sama dengan atau kurang dari suatu nilai tertentu, kita gunakan fungsi distribusi
kumulatif (CDF) dari suatu distribusi probabilitas. Pertanyaan utamanya adalah distribusi
probabilitas yang mana? Seperti disebut di atas, jika komponen error εj diasumsikan
mengikuti distribusi logistik, kita dapatkan model logit yang dirangking (OLM), tetapi jika
mengikuti distribusi normal, kita dapatkan model probit yang dirangking (OPM). Untuk
alasan yang disebutkan sebelumnya, kita akan menaksir OLM.
Model untuk variabel terikat (respons) yang dirangking menggunakan probabilitas kumulatif
seperti yang ditunjukkan pada Persamaan. (8.24). Sekarang untuk menghitung probabilitas
seperti itu, kita menggunakan
exp(𝑎𝑗 − 𝛽𝑋)
1 + (𝑎𝑗 − 𝛽𝑋) (10.24)
Yaitu CDF dari distribusi probabilitas logistik. Catata bahwa 𝛽𝑋 adalah ringkasan untuk
∑𝑘1 𝛽𝑘 𝑋𝑘 .
Sekarang pengaruh sebuah variabel penjelas terhadap variabel terikat yang dirangking
adalah non-linir, karea ia terhubung melalui CDF yang non-linir (logit dalam kasus ini). Ini
menyebabkan interpretasi OLM agak rumit. Agar interpretasi menjadi lebih mudah, kita dapat
memanfaatkan rasio odds.
Karena hasil pada sisi kiri persamaan (10.22) mencerminkan ranking dari skala
respons, maka adalah umum untuk mempertimbangkan rasio odds yang didefinisikan oleh
41
𝑃𝑟[𝑌𝑖 ≤ 𝑗|𝑋] 𝑃𝑟[𝑌𝑖 ≤ 𝑗|𝑋]
= (10.25)
𝑃𝑟[𝑌𝑖 > 𝑗|𝑋] 𝑃𝑟[1 − Pr(𝑌𝑖 ≤ 𝑗|𝑋]
dimana
Yang menggambarkan probabilitas kumulatif bahwa hasil (outcome) kurang atau sama
dengan j.
Sekarang jika kita mengunakan CDF logistik yang diberikan oleh persamaan (10.24) untuk
menghitung rasio odds dalam persamaan (10.25) dan mengambil nilai log dari rasio odds ini
(yaitu logit), kita peroleh (setelah penyederhanaan),
= 𝑎𝑗 − ∑𝐾
𝑛=1 𝛽𝑛 𝑋𝑖𝑛 𝑗 = 1,2, … , (𝐽 − 1)
Jadi persamaan (10.27) memberikan urutan logit (atau log odds; tiga logit seperti itu dalam
contoh yang akan dibahas di bawah), yang semuanya memiliki variabel-variabel penjelas yang
sama dan koefisien-koefisien slope yang sama tetapi koefisien-koefisien intersep yang
berbeda. Sangat menarik untuk diamati bahwa logit dalm persamaan (10.27) adalah linier
dalam a juga dalam β.
Hal ini juga jelas dari persamaan. (10.27) mengapa OLM disebut sebagai model odds
proporsional karena untuk nilai-nilai X yang diberikan, setiap dua log odds kumulatif (yaitu
logit) katakanlah, pada kategori l dan m hanya berbeda dalam konstanta (al - am). Oleh karena
itu, odds adalah proporsional, maka disebut sebagai model odds proporsional.
42
Contoh:
43
44
Tabel 10. Ordered Logit
Dependent Variable: KAT_PROFESI
Method: ML - Ordered Logit (Newton-Raphson / Marquardt steps)
Date: 05/11/21 Time: 17:23
Sample: 1 450
Included observations: 450
Number of ordered indicator values: 3
Convergence achieved after 6 iterations
Coefficient covariance computed using observed Hessian
Limit Points
45
Terlihat dari tabel 10, dampak lama pendidikan adalah positif dan signifikan terhadap
peningkatan kategori kerja. Sedangkan jenis kelamin nampak tidak memiliki dampak yang
signifikan. Nilai statistik likelihood ratio (LR) sebesar 112.45 (dan signifikan sebesar 0.000)
menunjukkan bahwa variabel didik dan jns_klmn memiliki nilai tambah yang signifikan untuk
menjelaskan perubahan variabel laten (kat_prof).
𝜕𝑃(𝑌𝑖 = 𝑗) (8.23)
= [𝑓(𝜏𝑗−1 − 𝑋𝑖′ 𝛽) − 𝑓(𝜏𝑗 − 𝑋𝑖′ 𝛽)]𝛽
𝜕𝑋𝑖
Poisson Regression digunakan ketika variabel terikat acak memiliki sifat count data.
Regresi Poisson hanya dapat mengambil nilai non-negative integer untuk variabel terikat (0,
1, 2, …); dengan kata lain, mengambil nilai-nilai non-negatif dan diskrit (tidak bisa
menerima nilai koma atau pecahan). Teknik ini bermanfaat untuk mengevaluasi jumlah suatu
46
kejadian dalam suatu periode waktu tertentu; populer antara terutama dalam teori antrian.
Banyak contoh variabel semacam ini seperti jumlah anak terlahir selama 10 tahun dari seorang
wanita, berapa kali seseorang ditahan dalam setahun, jumlah paten yang diajukan dalam
setahun, jumlah orang yang mengantri selama 1 jam di suatu anjungan tunai mandiri (ATM),
jumlah dokumen akuntansi yang dapat diproses per jam, dan banyak contoh lainnya.
Jika suatu variabel acak diskrit Y mengikuti distribusi Poisson, maka fungsi
densitas probabilitas (PDF) diberikan oleh
𝑒 −𝜆𝑖 𝜆𝑖 𝑦𝑖
𝑓 (𝑌|𝑦𝑖 ) = Pr(𝑌 = 𝑦𝑖 ) = , 𝑦𝑖 = 0, 1, 2, … … (10.24)
𝑦𝑖 !
dimana f(Y|yi) adalah probabilitas bahwa variabel acak diskrit Y mengambil nilai integer
non-negatif yi, dan dimana yi! (yi faktorial) y! = y x (y-1) x (y-2) x …x 2 x 1 dengan 0! = 1
dan dimana 𝜆 adalah parameter dari distribusi Poisson. Perhatikan bahwa distribusi Poisson
memiliki parameter tunggal, 𝜆, tidak seperti distribusi normal yang mempunyai dua
parameter, nilai rata-rata dan varians.
E(yi) = 𝜆i (10.25)
var(yi) = 𝜆i (10.26)
sebuah ciri unik distribusi Poisson adalah bahwa nilai rata-rata dan varians dari sebuah
variabel yang berdistribusi Poisson adalah sama. Properti ini, yang disebut sebagai
equidispersion, merupakan sebuah karakter pembatas dari distribusi Poisson, dimana dalam
prakteknya varians dari count variable seringkali lebih besar dari nilai rata-ratanya. Properti
terakhir disebut sebagai overdispersion.
yi = E(yi) + εi = 𝜆i + εi (10.27)
dimana y terdistribusi secara independen sebagai variabel-variabel acak Poisson dengan nilai
rata-rata 𝜆i untuk tiap individu, dinyatakan sebagai
Dimana exp(βX) berarti e diberi pangkat dengan βX (kependekan dari regresi ganda yang
diperlihatkan dalam tanda kurung persamaan 10.28).
47
Variabel-variabel X adalah penjelas yang mungkin menentukan nilai rata-rata variabel
terikat. Oleh karena itu, berdasarkan fakta, ia juga menentukan nilai varians jika model
Poisson layak. Misal, jika count variable adalah jumlah kunjungan ke suatu tempat wisata di
tahun tertentu, angka ini akan tergantung pada sejumlah variabel seperti pendapatan
pengunjung, harga tiket masuk, jarak tempuh, dan biaya parkir.
Dengan mengambil nilai eksponensial βX akan menjamin bahwa nilai rata-rata dari
count variabel 𝜆 akan bernilai positif.
Untuk maksud penaksiran, pertama model (10.24) di atas dapat ditulis kembali sebagai
𝑒 −𝜆𝑖 𝜆𝑖 𝑦𝑖
Pr(𝑌 = 𝑦𝑖 |𝑋) =
𝑦𝑖 !
𝑒 −𝛽𝑋 𝜆𝑖 𝑦𝑖
= , 𝑦𝑖 = 0, 1, 2, … (10.29)
𝑦𝑖 !
Namun, kedua, karena model (8.29) masih non-linir dalam parameter-parameternya, maka
terhadapnya perlu dibuat linir. Itu dapat dilakukan dengan metoda maximum likelihood
(ML).
Interpretasi Hasil
Dengan mengambil nilai log terhadap sisi kanan dan kiri persamaan (10.28), diperoleh
dan
Dengan kata lain, koefisien regresi akan diinterpretasikan sebagai persentase perubahan
variabel terikat akibat dari perubahan 1 unit variabel penjelas.
48
Contoh:
Berikut file dengan nama Crime1, adalah data yang dipinjam dari Wooldridge (2003).
Disini akan dilakukan estimasi hubungan frekuensi seseorang ditahan dalam setahun (number
of arrested, narr86) dengan variabel rata-rata vonis (average sentence, avgsen), masa dalam
penjara sejak usia 18 (time in prison since 18, tottime), penghasilan (income, inc86), ras
(hitam: black, hispanik: hispan kaukasian: white kaukasian sebagai acuan), dan lama
menganggur (durat).
Secara keseluruhan terdapat 2725 observasi (laik-laki) pada sampel, 1970 diantaranya
memiliki nilai narr nol dan hanya 5 observasi yang memiliki nilai narr lebih dari 5. Berikut
adalah langkah-langkah penaksiran menggunakan EViews dimulai dengan membuka file
Crime1; semua variabel yang diperlukan dibuka (open) sebagai persamaan (as equation),
dan hasil akhirnya dilaporkan dalam Tabel 11.
1
2
49
2
2
50
3
2
51
4
2
52
Tabel 11. Poisson Regression
53
Pertama, perlu digarisbawahi bahwa, dalam model-model non-linir seperti PRM, R2
tidak begitu penting. Namun, statistik likelihood ratio (LR) adalah penting. Dalam contoh
kita, nilai statistik LR adalah sebesar 328.24, sangat signifikan karena p-value [Prob(LR
statistic)] adalah sama dengan 0. Ini berarti bahwa semua variabel penjelas secara kolektif
adalah penting dalam menjelaskan nilai rata-rata bersyarat (conditional mean) narr86, yaitu
𝜆i.
Cara lain menyatakan ini adalah dengan membandingkan nilai restricted log-
likelihood (LLr) dengan nilai unrestricted log-likelihood function (LLur). Yang pertama
ditaksir dengan hipotesis bahwa tidak terdapat variabel penjelas kecuali konstanta, sedangkan
yang kedua konstanta dan semua variabel penjelas. Karena LLr = -24.42 dan LLur = - 22.79,
maka LL ur > LLr. Karena tujuan ML adalah untuk memaksimumkan fungsi likelihood, maka
kita harus memilih unrestricted model, yaitu model yang menyertakan seluruh variabel
penjelas seperti yang tercantum dalam Tabel 11.
Secara individual, masing-masing variabel penjelas avsgen, tottime dan durat tidak
signifikan mempengaruhi narr86. Menggunakan formula (10.31) terhadap (10.33) dapat kita
simpulkan bahwa kenaikan USD $1 variabel penghasilan (inc86) berdampak mengurangi
frekuensi penahanan (narr86) sebesar 0.8% [yaitu, (100 x -0.008539 x 1) = 0.8 %]. Juga
terlihat dampak ras terhadap frekuensi penahanan. Lelaki dari ras kulit hitam dan hispanik
memiliki frekuensi penahanan yang lebih tinggi, masing-masing sebesar 67% dan 47%
dibandingkan dengan ras kaukasian (kulit putih).
54
Menghitung Probabilitas
exp(−𝜆̂𝑖 )𝜆̂𝑚
𝑖
Pr(𝑌𝑖 = 𝑚|𝑋 ) = , 𝑚 = 0, 1, 2, …. (10.35)
𝑚!
dimana 𝜆̂ = 𝛽̂ 𝑋
Secara prinsip kita dapat menghitung probabilitas untuk tiap observasi untuk tiap nilai
m atau untuk suatu m tertentu sesuai kebutuha. Namun ini merupakan perhitungan yang
melelahkan. Beberapa software statistika seperti EViews dapat menghitung probabilitas
secara relatif mudah.
Model censored regression dilakukan apabila karena satu hal kita harus membatasi
nilai yang dapat diambil oleh suatu variabel terikat. Misalnya dalam penelitian yang bersifat
survey terhadap variabel pengeluaran per bulan dimana variabel ini bersifat kategorik.
Kuesioner tentunya tidak akan mencantumkan setiap pilihan jumlah pengeluaran yang eksak.
Praktik yang umum dilakukan adalah membuat batas atas dan batas bawah.
Batas atas terjadi misalnya dalam kuesioner terdapat pilihan lebih dari 5 juta per bulan
(right censoring) dan di bawah 1 juta per bulan (left censoring). Ketika seorang responden
memilih opsi ini kita tidak akan mengetahui dengan akurasi yang baik pengeluaran yang
sebenarnya, ia mungkin memiliki pengeluaran 5.5 juta tetapi bisa juga 100 juta. Tentu saja
implikasi analisis dari dua data semacam ini sangat berbeda tetapi kita telah mengabaikannya.
𝑌𝑖 = 𝛽0 + ∑ 𝛽𝑖 𝑋𝑖 + 𝑢𝑖 ; 𝑢𝑖 ~𝑁(0, 𝜎 2 )
𝑖=1
𝑌𝑖 = min(𝑌𝑖 , 𝑐𝑖 ) (10.36)
Dimana ci adalah batas atas. Dengan demikian nilai variabel Y i adalah mana yanglebih kecil,
Yi atau ci.
55
Parameter regresi dapat diestimasi dengan menggunakan teknik MLE, dimana observasi yang
disensor diharapkan memiliki probabilitas sebagai berikut,
𝑐𝑖 − 𝑋𝑖 𝛽
𝑓(𝑊|𝑋𝑖, 𝑐𝑖 ) = 1 − ∅ [ ] ; 𝑊 = 𝑐𝑖
𝜎
1
= ∅[(𝑊 − 𝑋𝑖 𝛽 )/𝜎] ; 𝑊 < 𝑐𝑖 (10.37)
𝜎
Contoh
Meminjam data dari Wooldridge (2003) dengan file Recid.wf1 kita akan melakukan
estimasi durasi (dalam bulan) seorang narapidana yang telah bebas namun tertangkap
kembali (residivis). Durasi tentu saja tidak mungkin negatif. Dengan demikian, ia adalah left
censored di titik nol sedangkan durasi ditangkap kembali dapat mencapai beberapa tahun
kemudian sehingga perlu suatu batas atas (di sini digunakan 70 bulan).
Berbagai variabel digunakan untuk menjelaskan durasi, diantaranya lama kepesertaan
perlatihan kerja di penjara (wrkprg), sudah berapa kali masuk penjara (priors), total waktu
di penjara (tserved), dan sebagainya.
Terdapat 1445 observasi pada sampel. Berikut adalah langkah-langkah penaksiran
menggunakan EViews dimulai dengan membuka file Recid; semua variabel yang diperlukan
dibuka (open) sebagai persamaan (as equation), dan hasil akhirnya dilaporkan dalam Tabel
12.
56
1
2
57
2
2
58
3
2
59
Tabel 12. Censored Regression
Error Distribution
Setelah memasukkan variabel yang relevan, nilai yang disensor (yakni 0 dan 70) dapat
dinyatakan pada batas bawah (left) dan atas (right). Parameter lain dapat dibiarkan pada
default.
60
Variabel terikat ditransformasikan dalam bentuk log natural. Dengan demikian setiap
parameter estimasi sekarang dapat diinterpretasikan sebagai semilog. Setiap satu unit
kenaikan variabel bebas akan menyebabkan X% perubahan pada variabel terikat.
Dapat dilihat disini, variabel pelatihan dalam penjara (wrkprg), keterlibatan dalam
kejahatan narkotika dan pendidikan tidak memiliki dampak yang signifikan terhadap durasi.
Residivis terkait dengan kejahatan kekerasan (felony) memiliki durasi penangkapan kembali
yang lebih tinggi daripada kejahatan acuan: property sebesar 17.9%. Pernikahan memiliki
dampak yang positif terhadap durasi, residivis yang menikah memiliki durasi penangkapan
kembali 13.5% lebih lama (dibandingkan yang tidak menikah).
61