Anda di halaman 1dari 4

PERMODELAN REGRESI LOGISTIK DAN REGRESI PROBIT PADA PEUBAH RESPON MULTINOMIAL

Lia Kurniasari, Eni Sumarminingsih, Solimun Jurusan Matematika, F.MIPA, Universitas Brawijaya, Malang, Indonesia Email : liakurniasari15@yahoo.com
Abstrak. Regresi logistik merupakan sebuah metode analisis statistik untuk menggambarkan hubungan antara peubah prediktor dengan peubah respon yang mempunyai dua atau lebih kategori dengan peubah prediktor yang menggunakan skala kategorik maupun interval. Berbeda dengan regresi logistik yang menggunakan fungsi logit, metode analisis regresi probit menggunakan fungsi distribusi normal (Normal Distribution Function). Kedua model hampir tidak dapat dibedakan penggunaannya. Namun, hingga saat ini belum ada penelitian yang membandingkan kedua model dengan peubah respon bersifat multinomial. Oleh karena itu perlu dilakukan perbandingan antara model logistik dan probit dengan peubah respon multinomial, menggunakan peubah prediktor bersifat diskrit dengan ukuran sampel yang berbeda. Tujuan penelitian ini adalah pembentukan model regresi logistik dan probit dengan peubah respon multinomial serta membandingkan keduanya berdasarkan nilai R2 Mc.Fadden. Perhitungan nilai R2 Mc.Fadden pada 10 data menunjukkan 7 data lebih baik menggunakan analisis probit multinomial, 1 data lebih baik menggunakan analisis logistik multinomial dan 2 data yang sama baiknya menggunakan analisis regresi logistik multinomial maupun probit multinomial walaupun dalam selisih yang relatif kecil. Sehingga secara keseluruhan analisis regresi probit multinomial lebih baik daripada analisis logistik multinomial yang digunakan untuk data dengan peubah respon berskala nominal dengan peubah prediktor berskala nominal maupun ordinal. Kata Kunci: Logistik, Probit, Multinomial, R2 Mc.Fadden.

1. PENDAHULUAN Regresi logistik merupakan sebuah metode analisis statistik untuk menggambarkan hubungan antara peubah prediktor dengan peubah respon yang mempunyai dua atau lebih kategori dengan peubah prediktor yang menggunakan skala kategorik maupun interval (Hosmer dan Lemeshow, 1989). Regresi logistik dengan peubah respon lebih dari dua kategori yang berskala nominal disebut juga regresi logistik multinomial. Berbeda dengan regresi logistik yang menggunakan fungsi logit, metode analisis regresi probit menggunakan fungsi distribusi normal (Normal Distribution Function). Model logistik dan probit dapat digunakan pada peubah prediktor kategorial (diskrit) atau kontinyu. Namun, hingga saat ini belum ada penelitian yang membandingkan kedua model dengan peubah respon bersifat multinomial. Oleh karena itu perlu dilakukan perbandingan antara model logistik dan probit dengan peubah respon multinomial, menggunakan peubah prediktor bersifat diskrit dengan ukuran sampel yang berbeda. Pendugaan parameter model regresi logistik dan probit dapat dilakukan dengan menggunakan metode Maximum Likelihood Estimation (MLE). Tujuan penelitian ini adalah pembentukan model regresi logistik dan probit dengan peubah respon multinomial serta membandingkan keduanya berdasarkan nilai R2 Mc.Fadden. 2. TINJAUAN PUSTAKA 2.1 Distribusi Multinomial Distribusi multinomial merupakan suatu distribusi yang sering digunakan dalam analisis data kategori. Misalnya terdapat j kategori pada peubah respon. Peluangnya dinotasikan { } dengan . Untuk n sampel, peluang multinomial bahwa termasuk kategori 1, termasuk kategori 2, , menjelaskan pada kategori j dengan adalah (Agresti, 1990) : ( 2.2 Regresi Logistik Multinomial Regresi logistik multinomial adalah regresi logistik yang menggunakan peubah respon dengan lebih dari dua kategori berskala nominal. Data berskala nominal merupakan data dengan angka yang diberikan kepada objek mempunyai arti sebagai label dan tidak menunjukkan tingkatan apapun. Apabila terdapat j yang berarti banyaknya kategori pada peubah respon maka model logistik yang ) ( )

309

akan terbentuk sebanyak . Menurut Agresti (1990), model umum regresi logistik multinomial untuk p banyaknya peubah prediktor yang dinyatakan dalam vektor serta probabilitas kategori respon ke-j sebagai berikut : ( ( )) ( ) ( | ) ( ( )) 2.3 Pendugaan Parameter Regresi Logistik Multinomial Parameter dari model diduga dari vektor ( ) . Dimisalkan terdapat peubah respon berskala nominal dengan tiga kategori, maka didapatkan fungsi likelihood untuk n pengamatan yang saling bebas adalah sebagai berikut : ( ) ( [ ( ) ( ) ( ) ]) Turunan kedua dari fungsi log likelihood merupakan elemen dari matriks Hessian. Turunan parsial pertama dari fungsi log likelihood terhadap parameter yang akan diduga merupakan fungsi nonlinear (tidak dapat diturunkan secara parsial). Oleh karena itu, diperlukan metode iterasi Newton Raphson. Persamaan yang dipergunakan metode iterasi Newton Raphson adalah sebagai berikut :
( ) ( )

( )

( )

2.4 Nilai Odds Ratio Menurut Agresti (2007), Odds Ratio (OR) pada kategori merupakan perbandingan antara dan , di mana P( ) adalah peluang sukses dan P( ) adalah peluang kejadian gagal. ( 2.5 Regresi Probit Model regresi probit merupakan metode analisis yang digunakan untuk menggambarkan hubungan antara peubah prediktor dan peubah respon lebih dari 1 kategori. Regresi probit yang merupakan kependekan dari Probability Unit berdasarkan fungsi sebaran peluang normal kumulatif baku yang dikenal juga sebagai model Normit singkatan dari Normal Probability Unit. Bentuk model probit adalah : ( ) Metode pendugaan parameter yang digunakan untuk analisis regresi probit sama dengan yang digunakan analisis regresi logistik yaitu metode MLE dan iterasi Newton Raphson. 2.6 Interpretasi Probit Koefisien probit ( ) merupakan pengaruh perubahan satu unit peubah prediktor ( ) pada peluang normal kumulatif (z) dari peubah respon (y). Pengaruh dari perubahan satu unit x pada peluang y tergantung pada kategori peubah prediktor. Sehingga perlu dipilih salah satu kategori peubah prediktor untuk dijadikan titik acuan atau pembanding. Interpretasi koefisien model probit dilakukan dengan melihat tanda dari koefisien probit ( ). 2.7 P-value Dalam sebuah penelitian, seorang peneliti harus memutuskan menerima atau menolak Untuk itu diperlukan adanya kriteria uji. Kriteria uji yang paling sering digunakan yakni p-value. P-value adalah peluang terkecil sehingga nilai suatu uji statistik yang sedang diamati masih mempunyai arti. P-value lebih banyak digunakan daripada kriteria uji lain seperti tabel distribusi. 2.8 Nonmultikolinearitas Nonmultikolinearitas merupakan asumsi dalam regresi yang berarti antara peubah prediktor tidak terjadi hubungan mendekati sempurna atau hubungan sempurna. Untuk mengetahui ada tidaknya multikolinearitas menggunakan uji Pearson. )
( ( | | ) ) ( ( | | ) )

310

Jika nilai [ nonmultikolinearitas. 2.9 Uji Signifikansi Model ]

(|

|)

menunjukkan

bahwa

antar

peubah

prediktor

terdapat

1. Pengujian signifikansi secara serentak (overall) Hipotesis : H0 : 1 = 2 = = p = 0 H1 : minimal ada satu k 0; k = 1, 2, , p p = banyak peubah prediktor dalam model. ( )) ( ( ) Tolak H0 bila ( ) dimana p adalah jumlah peubah prediktor dalam model atau pvalue kurang dari . Hal ini berarti peubah prediktor di dalam model secara serentak berpengaruh terhadap peubah respon. 2. Pengujian signifikansi secara parsial H0 : k = 0; (tidak ada pengaruh antara peubah prediktor ke-p dengan peubah respon). H1 : k 0; (ada pengaruh antara peubah prediktor ke-p dengan peubah respon). | | ( ) Statistik mengikuti sebaran dengan derajat bebas satu. H0 ditolak jika atau pvalue < , sehingga disimpulkan bahwa peubah prediktor secara parsial (berdiri sendiri) berpengaruh pada peubah respon. 2.10 Uji Kelayakan Model (Goodness Of Fit) Statistik uji yang digunakan untuk melihat goodness of fit dalam analisis regresi logstik dan probit Uji Pearson, dengan hipotesis : : model sesuai dengan data : model tidak sesuai dengan data Apabila H0 benar :
( ) ( )

Jika nilai statistik uji kurang dari dan sama dengan nilai kritis khi-kuadrat keputusan yang akan diambil adalah menerima atau berarti model yang digunakan telah sesuai (Hosmer dan Lemeshow, 2000). 2.11 Kriteria Model Terbaik R2 Mc.Fadden adalah indikator model terbaik yang digunakan untuk mengetahui nilai likelihood-ratio yang didasarkan pada nilai likelihood model penuh yang mengandung semua parameter (L1) dengan model yang hanya memuat intersep (L0) : =1 di mana p adalah banyaknya peubah prediktor (Fujimoto, 2003). Model terbaik memiliki nilai R2 Mc.Fadden terbesar. Semakin besar nilai R2 Mc.Fadden maka semakin baik model menjelaskan data. 2.12 Uji t Berpasangan Uji t berpasangan merupakan metode untuk menguji perbedaan rata-rata antara dua kelompok data yang dependen. Rumus yang digunakan, sebagai berikut : Jika nilai statistik uji lebih dari sama dengan nilai ( ) atau kurang dari sama dengan 0,05 maka keputusan yang akan diambil adalah tolak atau berarti (Hosmer dan Lemeshow, 2000).
( )

311

3. HASIL DAN PEMBAHASAN Model terbaik dipilih berdasarkan nilai R2 Mc.Fadden terbesar, dapat dilihat pada Tabel berikut : Tabel 1. Nilai R2 Mc.Fadden Data Data 1 Data 2 Data 3 Data 4 Data 5 Data 6 Data 7 Data 8 Data 9 Data 10 Logit Probit Logit Probit Logit Probit Logit Probit Logit Probit Logit Probit Logit Probit Logit Probit Logit Probit Logit Probit L0 -123,282 -123,282 -302,220 -302,220 -168,793 -168,793 -72,677 -72,677 -104,028 -104,028 -43,771 -43,771 -40,522 -40,522 -95,995 -95,995 -34,431 -34,431 -50,715 -50,715 L1 -107,233 -106,725 -288,142 -288,205 -47,524 -47,934 -49,737 -49,487 -87,056 -86,418 -30,296 -30,306 -16,257 -15,862 -75,244 -74,950 -5,981 -5,551 -20,303 -20,286 R2 Mc. Fadden 0,130 0,134 0,100 0,099 0,719 0,716 0,316 0,319 0,163 0,169 0,308 0,308 0,599 0,609 0,216 0,219 0,826 0,839 0,589 0,600 Pilihan terbaik Probit Logistik Probit Probit Probit Probit Probit Probit

Hasil uji t berpasangan menunjukkan P-value 0,024<, dapat dikatakan bahwa nilai 12 sehingga terdapat perbedaan yang nyata antar dua kelompok data. Artinya, nilai R2 Mc.Fadden analisis regresi logistik multinomial tidak samadengan nilai R2 Mc.Fadden analisis regresi probit multinomial walaupun dengan selisih nilai R2 Mc.Fadden yang relatif kecil. Kesimpulan perhitungan nilai R2 Mc.Fadden Tabel 1 didapatkan 7 data lebih baik dianalisis menggunakan analisis probit multinomial, 1 data lebih baik dianalisis menggunakan analisis logistik multinomial dan 2 data yang sama baiknya dianalisis menggunakan analisis regresi logistik multinomial maupun probit multinomial. 4. KESIMPULAN Berdasarkan nilai R2 Mc.Fadden didapatkan 7 data lebih baik menggunakan analisis probit multinomial, 1 data lebih baik dianalisis menggunakan analisis logistik multinomial dan 2 data yang sama baiknya dianalisis menggunakan regresi logistik multinomial maupun probit multinomial. Sehingga dapat disimpulkan bahwa analisis regresi probit multinomial lebih baik daripada analisis logistik multinomal yang digunakan untuk data dengan peubah respon berskala nominal dengan peubah prediktor berskala nominal maupun ordinal. DAFTAR PUSTAKA Agresti, A., (2007), An Introduction to Categorical Data Analysis Second Edition, John Willey & Sons,Inc, Canada. Aldrich, J.H. dan Nelson, F.D., (1984), Linier Probability, Logit dan Probit Models, Series Quantitative Applications in the Sosial Sciences, Sage Publication, California. Fujimoto, K., (2003), Application of Multinomial and Ordinal Regression to Data Of The Japanese Female Labor Market, Journal Of The Japanese Statistik University Of Pittsburgh, Faculty Of Arts and Science. Hosmer, D.W dan Lemeshow S., (1989), Applied Logistic Regression, John Wiley and Sons, New York.

312