Anda di halaman 1dari 4

PERBANDINGAN METODE STEPWISE DAN RIDGE REGRESSION

DALAM MENENTUKAN MODEL REGRESI BERGANDA TERBAIK


PADA KASUS MULTIKOLINIERITAS
Diana Elfa Pusparani

Jurusan Matematika, F.MIPA, Universitas Brawijaya


Email:deefae@gmail.com

Abstrak Analisis regresi linier berganda digunakan untuk mengetahui hubungan antara dua atau lebih peubah penjelas dan
peubah respon. Salah satu asumsi yang mendasari analisis regresi berganda adalah asumsi nonmultikolinieritas, yaitu tidak
terdapat hubungan linier antar peubah penjelas dalam model regresi. Jika terdapat multikolinieritas maka kesimpulan yang
dihasilkan akan tidak tepat, jadi masalah multikolinieritas harus dihindari. Model regresi terbaik adalah model yang dapat
menjelaskan perilaku peubah respon dengan memilih peubah penjelas yang berpengaruhpada data. Pada penelitian ini metode
yang digunakan dalam mengatasi multikolinieritas adalah metode stepwise dan ridge regression dengan menggunakan
pembanding R2adj dan Cp Mallow. Penelitian dilakukanmenggunakan dua data dengan tingkat multikolinieritas sedang dan
sangat kuat. Hasil penelitian menunjukkan bahwa pada data tingkat multikolinieritas sedang, untuk menangani
multikolinieritas lebih baik dilakukan dengan regresi ridge, sedangkan data dengan tingkat multikolinieritas sangat kuat dapat
diatasi dengan baik menggunakan metode stepwise.
Kata Kunci : Regresi Stepwise, Ridge Regression, Multikolinieritas

1. PENDAHULUAN
Metode yang biasa digunakan dalam mengatasi pemilihan model regresi terbaik antara lain
adalah metode stepwise danridge regression. Metode stepwise memilih peubah berdasarkan korelasi
terbesar dengan peubah yang sudah terdapat pada model (Hanum, 2011). Metode ridge regression
(regresi gulud) dapat mengatasi multikolinieritas dengan cara memodifikasi metode kuadrat terkecil
dengan penambahan suatu nilai tetapan bias tertentu yang relatif kecil pada diagonal matriks XX.
Pemilihan metode terbaik ini didasarkan pada nilai R2adj dan Cp mallow dari kedua metode.

2. TINJAUAN PUSTAKA
Menutut Gujarati (2006) model regresi berganda adalah model yang mempelajari tentang
ketergantungan peubah respon terhadap dua atau lebih peubah penjelas, sehingga nilai peubah respon
dapat diprediksi pada nilai-nilai tertentu dari peubah penjelas. Model regresi berganda menurut Draper
dan Smith (1992) didefinisikan sebagai:
untuk i = 1,2,n
di mana:
Yi : nilai pengamatan ke-i peubah respon Y
Xki : peubah penjelas ke-k nilai pengamatan ke-i
0 : intersep
k : koefisien regresi parsial untuk setiap peubah penjelas ke-k
i : galat ke-i
n : banyak pengamatan
k : banyak peubah penjelas.
Salah satu asumsi regresi linier berganda adalah tidak boleh ada multikolinieritas antar peubah
penjelas, artinyaantar peubah penjelasnya harus saling bebas.Ada beberapa metode yang dapat
digunakan untuk mendeteksi multikolinieritas, antara lain:
1. Koefisien Korelasi Antar Peubah Penjelas
Kolinieritas sering kali diduga ketika nilai koefisien korelasi antar peubah penjelas (r) cukup
besar, yakni berada pada selang -1 r -0,5 atau 0,5 r 1 (Gujarati, 2006).
2. Bilangan Kondisi K
Nilai eigen atau sifat akar matriks korelasi dapat memberikan informasi tentang pengukuran
tingkat multikolinieritas.Jika maks dan min menyatakan nilai eigen yang terbesar dan terkecil dari
korelasi, maka bilangan kondisi dapat didefinisika sebagai berikut:

329
Nilai K yang diperoleh dapat digunakan untuk menentukan tingkat multikolinieritas dengan
kriteria:
1. Jika nilai K adalah 5 K 30 maka dapat dinyatakan bahwa multikolinieritas lemah
2. Jika nilai K adalah 30 K 70 maka dapat dinyatakan bahwa tingkat multikolinieritas
sedang
3. Jika nilai K adalah 70 K 100 maka dapat dinyatakan bahwa tingkat multikolinieritas kuat
4. Jika nilai K adalah 100 maka tingkat multikolinieritasnya sangat kuat.
Semakin besar nilai K maka semakin besar pula masalah multikolinieritas yang terjadi
(Sembiring, 1995).

2.1 Metode Stepwise


Metode stepwise memilih peubah berdasarkan korelasi parsial terbesar dengan peubah yang
sudah masuk dalam model. Peubah penjelas yang sudah masuk dalam model dapat saja dikeluarkan
lagi, sehingga langkah yang diperlukan menjadi banyak (Hanum, 2011).Apabila salah satu peubah
telah dimasukkan ke dalam model regresi, maka peubah lainnya tidak perlu dimasukkan lagi ke dalam
model regresi karena pengaruhnya telah diwakili oleh peubah yang sudah masuk di dalam model
regresi. Sehingga tidak terdapat multikolinieritas pada model regresi yang dihasilkan (Sembiring,
1995).
Koefisien korelasi antara dua peubah didefinnisikan sebagai berikut:



2.2 Ridge Regression


Ridge regression ditujukan untuk mengatasi kondisi buruk (ill conditioned) yang diakibatkan
oleh korelasi yang tinggi antara beberapa peubah penjelas di dalam model. Hal ini menyebabkan
matriks XX hampir singular, sehingga menghasilkan nilai dugaan parameter model yang tidak stabil
(Draper dan Smith, 1992).
Koefisien regresi gulud diperoleh dengan menyesuaikan persamaan bz () = (ZZ + I)-1 ZY
di mana Z merupakan peubah baru yang berasal dari pembakuan peubah X, sedangkan merupakan
konstanta positif yang terletak pada selang tertutup [0,1].
Pemusatan dan penskalaan data merupakan bagian dari pembakuan (standardize) peubah.
Pemusatan merupakan perbedaan antara masing-masing pengamatan dan rata-rata dari semua
pengamatan untuk peubah, sedangkan penskalaan meliputi gambaran pengamatan pada kesatuan (unit)
standar deviasi dari pengamatan untuk peubah (Kutner, et al., 2005). Berikut ini merupakan
pembakuan peubah respon dan peubah penjelas X1, X2, , Xk

di mana , di mana

di mana:
: rata-rata dari Y SY: standart deviasi dari Y
j: rata-rata dari pengamatan Xj SXj: standart deviasi dari Xj

2.3 PendeteksianKelayakan Model Regresi


Suatu model regresi dikatakan layak dan terbaik apabila model tersebut memenuhi
kriteriaberikut ini:
1. R2 terkoreksi (R2adj)
R2adj lebih memperhitungkan banyaknya peubah penjelas dalam model. Koefisien determinasi ini
telah disesuaikan terhadap derajat bebas masing-masing jumlah kuadrat. Nilai R2adj ditentukan
dengan rumus:
dimana , n adalah banyaknya amatan (Sembiring, 1995).

330
2. Statistik Cp Mallow
Statistik Cp Mallow didasarkan atas jumlah kuadrat galat dari model regresi yang mengukur ada
tidaknya bias dalam model regresi (Seber, 1977). Nilai Cp Mallow dapat ditentukan dengan rumus
di mana p adalah banyaknya parameter dalam model.
Pemilihan model terbaik berdasarkan Cp mallow adalah model yang memiliki nilai Cp mallow
terdekat dengan banyaknya peubah dalam model (Hanum, 2011).

3. METODE PENELITIAN

3.1 Sumber Data


Pada penelitian ini data yang digunakan ada tiga data. Data pertama tentang ekspor kopi
Indonesia periode 1975-1990 (Suwarto, 2004). Data kedua tentang kekuatan tekan semen PT. Semen
Gresik (Persero) Tbk. Periode Januari-Februari 1999 (Siswondo, 2000). Data ketiga tentang hasil
produksi padi dan variabel yang mempengaruhinya (Kariyam, 2000).

3.2 Metode Analisis


Masing-masing data dilakukan dua pengujian metode yaitu dengan menggunakan metode
stepwise dan ridge regression. Sebelum dilakukan kedua metode analisis tersebut, terlebih dahulu data
diuji tingkat multikolinieritasnya. Data yang akan digunakan pada penelitian ini adalah data dengan
tingkat multikolinieritas yang berbeda-beda. Apabila tingkat multikolinieritas masing-masing data
telah diketahui, maka langkah selanjutnya adalah dengan menguji masing-masing data dengan metode
stepwise dan ridge regression. Untuk membandingkan kedua metode analisis ini digunakan alat
pembanding yaitu R2adj dan Cp mallow. Setelah membandingkan kedua metode dengan alat
pembanding yang digunakan, maka akan diketahui metode manakah yang paling baik untuk mengatasi
masalah multikolinieritas.

4. HASIL DAN PEMBAHASAN


Penelitian ini dilakukan dengan menggunakan 3 data yang memiliki tingkat multikolinieritas
yang berbeda. Data 1 dandata 3 memiliki tingkat multikolinieritassangatkuat, sedangkan data 2
memiliki tingkat multikolinieritas sedang.
Salah cara yang dilakukan dalam metode stepwise adalah dengan menguji secara parsial peubah
yang masuk kedalam model regresi. Peubah pertama yang masuk kedalam model regresi stepwise
merupakan peubah penjelas yang memiliki nilai korelasi yang paling besar dengan peubah respon.
Pada data 1 peubah X1 merupakan peubah pertama yang masuk dalam model regresi. Sedangkan untuk
data 2 peubah X6 dan untuk data 3 adalah peubah X2 yang pertama masuk kedalam model regresi.
Sehingga model yang terbentuk adalah sebagai berikut:
Data 1: Y = -39110 + 0,885 X1
Data 2: Y = 12,8 + 4,33 X6
Data 3: Y = 2334,6 +12,1 X2
Langkah selanjutnya adalah melakukan uji F parsial. Uji F parsial dilakukan antara peubah
penjelas yang telah masuk kedalam model dengan peubah penjelas lain yang belum masuk model.
Pengujian F parsial dilakukan dengan cara sebagai berikut:
( | ( )
( | )
di mana:
p : Peubah penjelas yang telah masuk kedalam model regresi
q : Peubah penjelas lain yang belum masuk kedalam model regresi
Berdasarkan analisis tersebut maka didapatkan model II sebagai berikut:
Data 1: Y = 8634 + 0,594 X1 + 46,2 X4
Data 2: Y = -74,2 + 0,569 X4 + 2,55 X6
Data 3: Y = 2265,6 + 8,019 X2 + 0,018 X4
Sebelum memasukkan peubah lain ke dalam model regresi maka dilakukan pengecekan
terhadap peubah penjelas yang telah masuk ke dalam model. Jika F(Xp|Xq) > Ftabel maka peubah
penjelas pertama yang telah masuk kedalam model tidak dikeluarkan dari model. Jika (X p|Xq) < Ftabel

331
maka peubah penjelas tersebut harus dikeluarkan dari model.Berikut ini merupakan model akhir yang
didapatkan pada analisis regresi stepwise:
Data 1: Y = -137483 + 0,424 X1 + 2,73 X2 + 45,8 X4
Data 2: Y = 29,3 + 0,523 X4 - 1,24 X5 + 1,4 X6
Data 3: Y = 2265,6 + 8,019 X2 + 0,018 X4
Berdasarkan hasil analisis diatas untuk data 1 dan data 2 dilakukan 3 langkah iterasi sehingga
terbentuk model terbaik dengan 3 peubah penjelas yang masuk ke dalam model dan memiliki R 2adj
sebesar 92,71% untuk data 1 dan 86,22% untuk data 2. Pada data 1 nilai Cp mallow yang dihasilkan
adalah 2,3, sedangkan untuk data 2 nilai Cp Mallow 3,9. Pada data 3 terdapat 2 langkah pemilihan
model dengan 2 peubah penjelas yang akan masuk ke dalam model. Pada data 3 nilai R2adj yang
dihasilkan adalah sebesar 83,26% dan Cp mallow sebesar 5,8 dengan melakukan 2 langkah pemilihan
model sehingga terbentuk 2 peubah penjelas yang masuk ke dalam model.
Pada regresi ridge ini langkah yang harus dilakukan adalah melakukan pembakuan pada peubah
respon dan peubah penjelas dengan menggunakan pembakuan centering dan scalling. Langkah
selanjutnya yang dilakukan untuk pengujian dengan regresi ridge adalah menentukan nilai . Nilai
didapatkan berdasarkan pendekatan nilai VIF dan ridge trace. Pada data 1 dan data 2 nilai VIF
cenderung turun pada saat nilai = 0,005, sedangkan pada data 3 nilai VIF cenderung turun pada saat
nilai = 0,05. Sehingga persamaan regresi yang diperoleh pada data 1, data 2 dan data 3 setelah
dikembalikan kebentuk persamaan semula adalah sebagai berikut:
1. Data 1: Y= 360123.46 X1 + 75418X2 + 1717150.9 X3 + 1279.2 X4 11728 X5
dengan R2 = 94,07% R2adj = 92,59 % Cp Mallow = 4,004
2. Data 2: Y = 5,754 X1 + 21,228 X2 + 65,611 X3 + 335,73 X4 + 17,791 X5 + 56,195 X6
dengan R2 = 88,33% R2adj = 86,45% Cp Mallow = 5,01
3. Data 3: Y = 1,641 X1 + 164,272 X2 + 17527.084 X3 + 41301,364 X4 + 29081,275 X5 + 16635,5 X6
dengan R2 = 85,70% R2adj = 81,49% Cp Mallow = 4,9
Pada metode stepwise jumlah peubah penjelas yang masuk ke dalam model regresi untuk data 1
dan data 2 adalah 3 peubah, sedangkan untuk data 3 terdapat 2 peubah penjelas. Pada regresi ridge
peubah penjelas yang masuk ke dalam model sama dengan peubah asli, yaitu 5 peubah penjelas untuk
data 1 dan 6 peubah penjelas untuk data 2 dan data 3.

5. KESIMPULAN
Berdasarkan hasil perbandingan antara regresi ridge dan regresi stepwise, data yang memiliki
tingkat multikolinieritas sedang dalam menangani masalah multikolinieritas lebih baik menggunakan
regresi ridge. Sedangkan data yang memiliki tingkat multikolinieritas sangat kuat dalam menangani
masalah multikolinieritas lebih baik menggunakan regresi stepwise.

DAFTAR PUSTAKA
Draper, N. dan Smith, H., (1992), Analisis Regresi Terapan Edisi Kedua, Alih Bahasa : Bambang-
Sumantri, PT Gramedia Pustaka Utama, Jakarta.
Gujarati, D.,(2006), Ekonometrika Dasar, Diterjemahkan oleh Sumarto Zain, Erlangga, Jakarta.
Hanum, H., (2011), Perbandingan Metode Stepwise, Best Subset Regression, dan Fraksi dalam
Pemilihan Model Regresi Berganda Terbaik, Jurnal Penelitian Sains, 14 (2A) 14201, hal. 1-6.
Kariyam, (2000), Studi Penanganan Kasus Multikolinieritas dengan Pendekatan Analisis Regresi
Faktor, Logika, 4(5), hal. 3-24.
Siswondo, (2000), Penentuan Model Regresi Linier Berganda Terbaik Pada Proses Produksi Semen
Menggunakan Analisa Komponen Utama, Skripsi, Universitas Brawijaya, Malang, Indonesia.
Suwarto, Eko Adi, (2004), Kajian Regresi Komponen Utama dan Regresi New Stepwise dalam
Memilih Model Regresi Linier Berganda, Skripsi, Universitas Brawijaya, Malang, Indonesia.
Sembiring, R. K., (1995), Analisis Regresi, ITB, Bandung.
Tayeb, T., (2012), Efektivitas Metode New Stepwise dalam Pemilihan Variabel Pada Regresi Ganda,
Lentera Pendidikan, 15(2), hal. 161-174.

332

Anda mungkin juga menyukai