Anda di halaman 1dari 4

KETEPATAN KLASIFIKASI DENGAN ANALISIS REGRESI LOGISTIK DAN MULTIVARIATE ADAPTIVE REGRESSION SPLINES (MARS) PADA DATA DENGAN

PEUBAH RESPON BINER


Delbra Andhini Fitrianty, Ni Wayan S. Wardhani, Loekito A. Soehono Jurusan Matematika, F.MIPA, Universitas Brawijaya, Malang, Indonesia Email: delbra.andhini@gmail.com
Abstrak. Klasifikasi merupakan penggolongan individu atau objek ke dalam anggota suatu kelompok sehingga dapat diketahui suatu individu berasal dari populasi tertentu. Metode klasifikasi yang baik akan menghasilkan sedikit kesalahan klasifikasi. Jika peubah respon bersifat biner dan terdapat banyak peubah prediktor berupa gabungan kategorik dan kontinyu metode klasifikasi yang digunakan adalah analisis regresi logistik atau Multivariate Adaptive Regression Spline (MARS). Penelitian ini bertujuan mengetahui hasil penerapan klasifikasi suatu objek menggunakan tiga jenis data sekunder yang akan diklasifikasi dengan regresi logistik dan MARS. Pengujian ketepatan klasifikasi dilakukan menggunakan uji PressQ dan APER. Dari hasil analisis diperoleh nilai PressQ kedua metode menunjukkan konsistensi dalam proses klasifikasi, dan metode MARS menghasilkan nilai APER lebih kecil dibanding regresi logistik. Kata Kunci : Klasifikasi, Ketepatan, Regresi Logistik, Multivariate Adaptive Regression Spline (MARS), PressQ, APER.

1.

PENDAHULUAN

Metode klasifikasi merupakan bagian dari analisis statistika yang bertujuan memisahkan individu atau objek ke dalam suatu kelompok sehingga dapat diketahui suatu individu berada pada kelompok tertentu Metode klasifikasi yang baik akan menghasilkan sedikit kesalahan klasifikasi atau akan menghasilkan peluang kesalahan alokasi yang kecil (Johnson dan Dean, 2007). Analisis regresi logistik digunakan untuk menganalisis data dengan peubah respon kategorik (nominal atau ordinal) dengan peubah prediktor kontinyu dan kategorik. Metode dengan pendekatan regresi logistik memiliki syarat pemenuhan beberapa asumsi sehingga dalam penggunaannya kurang fleksibel. Sebagai alternatif perlu kajian metode yang lebih tepat. Beberapa penelitian terdahulu menunjukkan metode klasifikasi yang sering digunakan adalah Multivariate Adaptive Regression Splines (MARS). MARS merupakan kombinasi yang kompleks dari spline dan Recursive Partitioning Regression (RPR). Proses pembentukan model MARS tidak mengasumsikan bentuk hubungan fungsional antara peubah respon dengan peubah prediktor, dan mempunyai bentuk fungsional yang fleksibel, sehingga mampu memberikan hasil klasifikasi yang akurat (Friedman, 1991). 2. 2.1 TINJAUAN PUSTAKA Regresi Logistik

Regresi logistik adalah salah satu model untuk menduga hubungan antara peubah respon kategori dengan satu atau lebih peubah prediktor yang kontinyu ataupun kategori. Peubah respon yang terdiri dari dua kategori yaitu ya (sukses) dan tidak (gagal), dan dinotasikan 1=sukses dan 0=gagal, maka akan mengikuti sebaran Bernoulli. Agresti (2002), menyatakan model regresi logistik :

Proses pendugaan parameter dari regresi logistik menggunakan metode MLE. Menurut Agresti (2002), metode MLE memberikan nilai duga bagi dengan cara memaksimumkan fungsi likelihood dan mensyaratkan bahwa data mengikuti sebaran Bernoulli. Fungsi likelihood untuk model regresi logistik dikotomus adalah:

Agar nilai fungsi mencapai maksimum maka turunan parsial pertama terhadap disamadengankan nol. Persamaan hasil turunan masih nonlinier, maka dibutuhkan metode iterasi Newton-Raphson (Agresti, 2002). Pengujian signifikansi parameter model regresi logistik dilakukan secara simultan dan secara parsial.

Pengujian secara simultan dilandaskan pada hipotesis: H0 : (tidak ada pengaruh antara peubah prediktor terhadap peubah respon) H1 : paling sedikit ada satu (ada pengaruh antara peubah prediktor terhadap peubah respon) dengan statistik uji G adalah:
-2 ln [ ] ~

Statistik uji-G mengikuti sebaran dengan derajat bebas sama dengan banyaknya parameter , di mana H0 akan ditolak jika nilai statistik uji G dengan tingkat kepercayaan (1-)100. Sedangkan pengujian secara parsial dilandaskan pada hipotesis: H0 : (tidak ada pengaruh antara masing-masing peubah prediktor terhadap peubah respon) H1 : (ada pengaruh antara masing-masing peubah prediktor terhadap peubah respon) Rumus statistik uji Wald adalah : [

]~Z

; j = 0, 1, 2, ......, p

Hipotesis nol ditolak jika |W| > Z/2 artinya peubah prediktor berpengaruh nyata terhadap peubah respon (Hosmer dan Stanley, 2000). Hosmer dan Stanley (2000) menyatakan bahwa peubah respon dengan dua kategori (biner) dengan ketentuan jika maka hasil prediksi adalah 1, jika maka hasil prediksi adalah 0. Klasifikasi menggunakan model peluang dengan persamaan sebagai berikut :
( )

2.2

Multivariate Adaptive Regression Splines (MARS)

Multivariate Adaptive Regression Splines (MARS) merupakan salah satu regresi nonparametrik yang pertama kali diperkenalkan oleh Jerome Friedman pada tahun 1991. MARS merupakan kombinasi yang kompleks dari spline dan Recursive Partitioning Regression (RPR). Metode MARS mampu mengatasi kelemahan RPR dan regresi spline yaitu mampu menghasilkan model yang kontinyu pada knot dan secara otomatis mampu menentukan banyaknya knot sekaligus. Friedman (1991) menyatakan model MARS sebagai:
( )

Pendugaan parameter model MARS dengan peubah respon biner dilakukan melalui metode maximum likelihood. Menurut Kriner (2007) MARS dengan peubah respon biner dan nilai peluang peubah responnya P(Yi = 1)= dan P(Yi=0)=1- , maka fungsi kemungkinan yang akan dimaksimalkan adalah:
L()= = [

Kedua ruas harus dilogaritmakan, dapat dimaksimalkan sehingga diperoleh :


[ ][ ]

Agar nilai persamaan (1) mencapai maksimal, turunan parsial pertama terhadap disamakan dengan nol. Diperlukan metode iterasi Newton-Raphson karena bersifat nonlinier. Selanjutnya dilakukan pengujian signifikansi parameter model MARS, baik secara simultan maupun parsial. Pengujian secara simultan dilandaskan pada hipotesis: H0 : = = ... = =0 H1 : minimal terdapat satu

270

Rumus statistik uji F adalah: ~ Hipotesis nol ditolak jika nilai statistik uji F . Pengujian secara parsial dilandaskan pada hipotesis: H0 : =0 H1 : Rumus statistik uji t sebagai:

artinya minimal terdapat satu

Hipotesis nol ditolak jika nilai statistik uji t artinya fungsi basis berpengaruh nyata terhadap peubah respon (Neter et al., 1983). Pada model MARS klasifikasi didasarkan pada pendekatan analisis regresi logistik, model MARS adalah sebagai berikut: ( ) [ ]

Apabila peubah respon memiliki dua kategori (biner), maka digunakan titik potong sebesar 0,5 dengan ketentuan jika maka hasil prediksi adalah 1, jika maka hasil prediksi adalah 0. 2.3 Evaluasi Ketepatan Klasifikasi

PressQ adalah ukuran yang digunakan untuk mengetahui kestabilan dalam pengklasifikasian atau sejauh mana kelompok-kelompok tersebut dapat dipisahkan. Uji statistik PressQ dituliskan sebagai: ~ dimana: N : banyaknya total pengamatan n : banyaknya individu yang tepat diklasifikasikan K : banyaknya kelompok APER (Apparent Error Rate) merupakan suatu nilai yang digunakan untuk melihat peluang kesalahan dalam mengklasifikasi objek. Perhitungan nilai APER adalah: (Johnson dan Dean, 2007) di mana: n11 : banyaknya kejadian gagal dari hasil amatan yang tepat diprediksikan sebagai kejadian gagal n12 : banyaknya kejadian gagal dari hasil amatan yang tepat diprediksikan sebagai kejadian sukses n21 : banyaknya kejadian sukses dari hasil amatan yang tepat diprediksikan sebagai kejadian gagal n22 : banyaknya kejadian sukses dari hasil amatan yang tepat diprediksikan sebagai kejadian sukses 3. 3.1 HASIL DAN PEMBAHASAN Metode Regresi Logistik

Langkah awal analisis yaitu pemeriksaan terjadinya multikolinieritas. Diantara peubah prediktor dari ketiga data memiliki nilai VIF lebih kecil dari 10, sehingga disimpulkan pada ketiga data tidak terdapat multikolinieritas diantara peubah prediktor. Hasil pengujian signifikansi koefisien regresi secara simultan didasarkan pada statistik uji G. Statistik uji G pada ketiga data secara simultan, peubah prediktor memberikan pengaruh signifikan terhadap peubah respon. Statistik uji Wald pada data 1 untuk peubah prediktor X2, X5, X6 dan X7(1) secara parsial memberikan pengaruh signifikan terhadap peubah respon Pada data 2 secara parsial peubah prediktor X1 dan X3 memberikan pengaruh signifikan terhadap peubah respon. Peubah 271

prediktor X2, X3, X4 dan X5 pada data 3 secara parsial memberikan pengaruh signifikan terhadap peubah respon. Hasil klasifikasi menunjukkan nilai statistik uji PressQ dari ketiga data lebih besar dari nilai = 3.84, maka dapat dikatakan regresi logistik mengklasifikasi objek secara konsisten. Adapun peluang kesalahan dalam mengklasifikasi berturut-turut untuk data1, data 2, dan data 3 sebesar 27.77%; 5.63% dan 5.62%. 3.2 Metode MARS Dari hasil pengujian parameter bahwa parameter yang terbentuk baik secara simultan maupun parsial dari 18 model dari kombinasi di setiap data telah signifikan pada = 0,05. Hal tersebut dapat ditinjau dari nilai-P kurang dari = 0,05. Dari 18 model yang telah dibentuk, model MARS dengan GCV minimal dipilih sebagai model yang terbaik. Pada data 1 pada kombinasi BF=18, MI=3, MO=1 dengan nilai GCV sebesar 0.212, data 2 model terbaik dengan BF=24, MI=3, dan MO=1 didapatkan nilai GCV sebesar 0.053 dan data 3 model terbaik dengan BF=36, MI=3, dan MO=1 dengan nilai GCV sebesar 0.023. Nilai kritis = 3.84, maka nilai statistik uji PressQ dari ketiga data menunjukkan nilai yang lebih besar dari nilai kritis, sehingga dalam mengklasifikasi objek menggunakan MARS adalah konsisten. Peluang kesalahan dalam mengklasifikasi pada data 1 sebesar 24.44%, data 2 sebesar 2.82% dan pada data 3 sebesar 0%. 3.3 Perbandingan Regresi Logistik dan MARS

Tabel 1. Nilai APER Metode Regresi Logistik dan MARS Data 1 2 3 Regresi Logistik PressQ APER 17.77 (konsisten) 27.77% 55.90 (konsisten) 5.63% 70.12 (konsisten) 5.62% MARS PressQ APER 23.51(konsisten) 24.44% 63.22(konsisten) 2.82% 89 (konsisten) 0%

Hasil dari metode regresi logistik dan MARS bersifat konsisten dalam mengklasifikasi. Pada ketiga data yang digunakan metode MARS menghasilkan nilai APER lebih kecil daripada regresi logistik. Selisih nilai APER dari metode MARS dan regresi logistik tidak lebih dari 10%. Dari model metode regresi logistik dan MARS, selanjutnya dapat dijadikan sebagai acuan pengambilan keputusan pada masalah yang serupa dengan data dalam penelitian ini. 4. 1. KESIMPULAN Berdasarkan hasil analisis dapat disimpulkan: Peubah prediktor yang mempunyai pengaruh secara signifikan terhadap peubah respon dari model regresi logistik dan MARS mempengaruhi hasil klasifikasi. Nilai uji PressQ menunjukkan bahwa kedua metode konsisten dalam mengklasifikasi. Metode MARS menghasilkan nilai APER lebih kecil dibanding regresi logistik. Hal tersebut menunjukkan model MARS lebih baik digunakan untuk proses klasifikasi sehingga diperoleh keputusan yang tepat. DAFTAR PUSTAKA

2.

5.

Agresti, A, (2002), Categorical Data Analysis 2nd edition, John Wiley and Sons, New York. Friedman, J.H, (1991), Multivariate Adaptive Regression Splines, The Annals of Statistics 1991, 19(1), hal. 1-14 Hosmer, D.W and Stanley, L., (2000), Applied Logistic Regressin 2nd Edition, John Wiley & Sons, Inc, New York. Johnson, R.A and Dean W.W, (2007), Applied Multivariate Statistical Analysis Sixth Edition, Prentice Hall International Inc, New Jersey Kriner, M, (2007), Survival Analysis with Multivariate Adaptive Regression Splines, Disertasi, Universitas Munchen, Munich. Jerman. http://edoc.ub.uni-muenchen.de/7369/1/Kriner_ Monika.pdf. Tanggal akses: 1 Maret 2013 Neter, J., William, W and Michael, H.K, (1983), Applied Linear Regression Models, Richard D. Irwin., Inc, USA. 272