12314-Article Text-35931-1-10-20160616
12314-Article Text-35931-1-10-20160616
Lasso: :0853-8115
ISSN Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
journal.ipb.ac.id/index.php/statistika
Koefisien
Vol. Model
18 No.1, Regresi
April 2013, Linier
p: 21-27 Vol. 18 No. 1
Abstract
A new method, known as LASSO, has recently developed for selections and shrinkage
linear regression methods. The method gives an alternative solution on high correlated
data between independent variables, where the least squares produces high variance.
Based on simulation this method is not better than forward selection (in the case the
parameters contains many zero values) and ridge regression (in the case all parameter
values close to zero). Unknowing the true parameter and consistency estimates for all
conditions that put the LASSO is better than ridge or forward selection.
21
Lasso : Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
Koefisien Model Regresi Linier Vol. 18 No. 1
sisaan dalam menduga koefisien β (Hastie et al, Penduga koefisien yang diperoleh
2008), yaitu dengan meminimumkan persamaan: menggunakan regresi gulud adalah tidak
𝑁 equivariant (Hastie et al., 2008), artinya penduga
2
𝐽𝐾𝑆 (𝜷) = ∑(𝑦𝑖 − 𝑓 (𝑥𝑖 )) koefisien tersebut akan berbeda hasilnya jika
𝑖=1 peubah asal dibakukan dengan peubah asal tidak
𝑝 2
= ∑𝑁
𝑖=1(𝑦𝑖 − 𝛽0 − ∑𝑗=1 𝑥𝑖𝑗 𝛽𝑗 ) .
dibakukan. Oleh karena itu untuk pendugaan
𝛽̂ 𝑔𝑢𝑙𝑢𝑑 ini sebelumnya disarankan membakukan
Dalam catatan matriks, di mana X berukuran N skala dari peubah asal sehingga memiliki nilai
x (p+1) dan y adalah vektor-N, jumlah kuadrat harapan nol dan ragam satu.
sisaan dapat ditulis sebagai :
𝐽𝐾𝑆(𝛽 ) = (𝑦 − 𝑿𝛽 )𝑇 (𝑦 − 𝑿𝛽 ) Forward Selection
Dari kalkulus dengan menurunkan JKS(𝛽) Forward selection merupakan salah satu
terhadap 𝛽, diperoleh JKS(𝛽) minimum, yaitu metode untuk seleksi peubah dalam regresi linier,
dalam bentuk: yaitu teknik untuk mendapatkan model regresi
𝑿𝑇 𝑦 = 𝑿𝑇 𝑿𝜷 dengan cara menseleksi peubah yang memenuhi
yang disebut sebagai persamaan normal. kriteria tertentu. Teknik yang umum dalam seleksi
Jika XTX adalah matriks berpangkat penuh, peubah adalah “Semua Kemungkinan Regresi” (All
Possible Regression), Subset Terbaik (Best Subset)
maka β yang diduga oleh 𝛽̂ akan menghasilkan
dan Regresi Bertatar (Stepwise Regression). Pada
solusi unik, yaitu:
“Semua Kemungkinan Regresi” dipilih model
𝛽̂ = (𝑿𝑻 𝑿)−𝟏 𝑿𝑻 𝒚. dengan mencari kombinasi peubah dari seluruh
kemungkinan peubah sebanyak 2p (termasuk model
Regresi Gulud konstanta) oleh kriteria R2, JKS atau Cp (Draper &
Regresi gulud diperkenalkan oleh Hoerl dan Smith, 1998). Kelemahan metode ini adalah
Kennard (1970) (dalam Draper & Smith, 1998) semakin banyak peubah yang dievaluasi akan
yang diusulkan untuk menangani ketidakstabilan semakin banyak model yang harus dievaluasi. Oeh
penduga kuadrat terkecil. Regresi gulud mem- karena itu dikembangkan alternatif lain yaitu
penalti ukuran dari koefisien regresi pada norm L2 metode Subset Terbaik yang hanya menghitung
atau secara spesifik menduga 𝛽̂ dengan sebanyak K terbaik untuk model dengan satu, dua,
meminimumkan 𝐽𝐾𝑆 (𝛽 ) dengan kendala: tiga dan seterusnya peubah (Draper & Smith,
𝑝
1998). Beberapa paket perangkat lunak membatasi
∑ 𝛽𝑗2 ≤ 𝑡. penggunaan metode ini hanya untuk maksimum 20
𝑗=1 peubah.
Regresi bertatar menyeleksi peubah dengan
Masalah regresi gulud ini dapat ditulis dengan cara memasukkan atau membuang satu persatu
cara lain yaitu memiminumkan: peubah ke dalam model. Terdapat tiga teknik
𝑝 2 𝑝
𝑁 dalam regresi bertatar, yaitu: backward
∑ (𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 ) + 𝜆 ∑ 𝛽𝑗2 . elimination, forward selection dan stepwise
𝑖=1 𝑗=1 𝑗=1 (gabungan dari backward dan forward). Pada
Pada kedua persamaan di atas terdapat backward elimination model pertama diduga
korespondensi satu-ke-satu antara t dan λ ≥ 0. dengan memasukkan seluruh peubah. Selanjutnya
Solusi regresi gulud didapat dengan cara yang model dievaluasi dengan mengeluarkan satu
sama seperti kuadrat terkecil, yaitu dengan persatu peubah yang tidak memenuhi kriteria.
meminimumkan jumlah kuadrat sisaan (JKS): Forward selection berlaku kebalikan, model
dimulai dengan konstanta kemudian dievaluasi
𝐽𝐾𝑆 (𝛽, 𝜆) = (𝑦 − 𝑿𝛽 )𝑇 (𝑦 − 𝑿𝛽 ) + 𝝀𝛽 𝑻 𝛽 dengan memasukkan satu persatu peubah. Stepwise
yang memperoleh persamaan: menggabungkan keduanya dimulai dari forward
selection kemudian untuk setiap peubah yang
𝑿𝑇 𝑦 = (𝑿𝑇 𝑿 + 𝝀𝑰)𝛽. masuk dievaluasi dengan backward elimination.
Dengan cara seperti ini (𝑿𝑇 𝑿 + 𝝀𝑰) dapat Kriteria untuk memasukkan atau membuang
dijamin selalu berpangkat penuh walaupun 𝑿𝑇 𝑿 peubah didasarkan pada salah satu kriteria statistik
2
tidak berpangkat penuh dengan mengambil λ > 0. : R2, 𝑅𝑎𝑑𝑗 , JKS, F, Cp’s Mallows atau AIC (Draper
Untuk λ = 0 persamaan ini adalah persamaan & Smith (1998); Ryan (1997); Venables & Ripley
normal seperti yang diperoleh menggunakan (2002)).
kuadrat terkecil. Solusi yang unik dapat diperoleh
dalam bentuk tertutup: LASSO
Dalam regresi gulud, penduga koefisien
𝛽̂ 𝑔𝑢𝑙𝑢𝑑 = (𝑿𝑻 𝑿 + 𝜆𝑰)−𝟏 𝑿𝑻 𝑦. regresi disusutkan ke arah nol seiring dengan
peningkatan nilai λ. Satu hal yang tidak dapat
22
Lasso : Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
Koefisien Model Regresi Linier Vol. 18 No. 1
dilakukan oleh regresi gulud adalah melakukan Algoritma LAR asli adalah sebagai berikut
seleksi peubah secara otomatis dikarenakan secara (Hastie et al, 2008):
simultan koefisien yang diduga mungkin tidak 1. Bakukan prediktor sehingga memiliki nilai
bernilai nol. Perhatikan jika kendala seperti dalam tengah nol dan ragam satu. Mulai dengan
regresi gulud diubah menjadi (Thibsirani, 1996) sisaan 𝑟 = 𝑦 − 𝑦̅, 𝛽1 , 𝛽2 , ⋯ , 𝛽𝑝 = 0.
𝑝
2. Cari prediktor xj yang paling berkorelasi
∑ |𝛽𝑗 | ≤ 𝑡, dengan 𝑟.
𝑗=1 3. Ubah nilai 𝛽𝑗 dari 0 bergerak menuju koefisien
atau dalam bentuk persamaan lagrange ditulis: kuadrat terkecil 〈𝑥𝑗 , 𝑟〉, sampai kompetitor lain
𝑝 2 𝑝
𝑁 xk memiliki korelasi sebesar korelasi xj dengan
∑ (𝑦𝑖 − 𝛽0 − ∑ 𝑥𝑖𝑗 𝛽𝑗 ) + 𝜆 ∑|𝛽𝑗 |. sisaan sekarang.
𝑖=1 𝑗=1 𝑗=1 4. Ubah nilai 𝛽𝑗 dan 𝛽𝑘 bergerak dalam arah
yang didefinisikan oleh koefisien kuadrat
Untuk mendapatkan solusi penduga koefisien terkecil bersama dari sisaan sekarang dalam
tidak dapat diperoleh dalam bentuk tertutup, tetapi (xj, xk) sampai kompetitor xl lain memiliki
harus menggunakan pemrograman kuadratik korelasi dengan sisaan sekarang dengan
(Tibshirani, 1996). Dampak yang terjadi dari besaran yang sama.
pengubahan kendala ini sangat besar, yaitu 5. Teruskan cara ini sampai semua p prediktor
menyebabkan koefisien menyusut ke arah nol telah masuk. Setelah min(N-1, p) langkah,
seperti dalam regresi gulud dan beberapa koefisien solusi model penuh untuk kuadrat terkecil
menghasilkan nilai nol secara tepat. diperoleh.
Ide dasar LASSO berasal dari Non-negative Modifikasi algoritma LAR untuk mendapatkan
Garrotte (Breiman, 1995) yang meminimumkan, solusi LASSO adalah dengan memodifikasi
terhadap c = {cj}: langkah ke-4, yaitu dengan cara:
∑𝑁 𝑝 ̂ 2
𝑖=1(𝑦𝑖 − ∑𝑗=1 𝑐𝑗 𝑥𝑖𝑗 𝛽𝑗 ) dengan kendala 𝑐𝑗 ≥ 0,
4a. Jika koefisien bukan nol mencapai nilai nol,
keluarkan peubah tersebut dari gugus peubah
∑𝑝𝑗=1 𝑐𝑗 ≤ 𝑡,
aktif dan hitung kembali arah kuadrat
di mana 𝛽̂𝑗 adalah penduga kuadrat terkecil biasa. terkecil bersama.
NN-Garrotte ini tidak terdefinisikan ketika p > N LAR selalu mengambil p langkah untuk
(yang bukan merupakan topik panas pada tahun mendapatkan penduga kuadrat terkecil secara
1995) (Thibsirani, 2011). Pada sekitar tahun penuh, sedangkan modifikasi LAR untuk LASSO
tersebut, beberapa metode yang mirip dengan dapat memiliki lebih dari p langkah untuk
LASSO telah dikembangkan berdasarkan penalty- mendapatkannya. Algoritma LASSO dengan
l1, seperti ridge regression (Frank dan Friedman, memodifikasi LAR adalah suatu cara yang efisien
1993 dan basis pursuit (Chen et al. 1998 dalam dalam komputasi solusi masalah LASSO
Thibsirani ,2011). Setelah publikasi pertama tahun khususnya ketika p >> N (Hastie et al, 2008).
1996, makalah LASSO ini tidak mendapatkan
perhatian sampai tahun 2002 setelah Pemilihan Nilai Penalti dalam Gulud dan
berkembangkannya algoritma LAR (Least Angle LASSO
Regresion) oleh Hastie. Beberapa metode telah dikembangkan untuk
Hastie mengembangkan algoritma LAR yang memilih nilai penalti dalam regresi gulud dan
digunakan untuk menduga model regresi linier LASSO. Metode yang umum digunakan dalam
dalam bentuk model umum: pemilihan nilai penalti ini adalah validasi silang
𝐸 (𝑌|𝑿 = 𝒙) = 𝑓(𝑥) = 𝛽0 + 𝛽𝑀 𝜙1 (𝒙) + (Cross Validation/CV). Ide dari validasi silang
𝛽𝑀 𝜙2 (𝒙) + ⋯ + 𝛽𝑀 𝜙𝑀 (𝒙), adalah membagi data menjadi dua bagian, yaitu:
di mana 𝜙𝑀 adalah fungsi nonlinier dari prediktor data training dan data test. Data training digunakan
X asli (Hesterberg et al, 2008). Modifikasi dari untuk mengepas nilai 𝛽̂ dan data test digunakan
LAR untuk LASSO menghasilkan efisiensi untuk menguji kebaikan prediksi dari X𝛽̂ . Nilai
algoritma dalam menduga solusi penduga koefisien dari validasi silang ini merupakan penduga bagi
LASSO dengan komputasi yang lebih cepat galat prediksi (prediction error) (Izenman, 2008).
dibandingkan pemrograman kuadratik. Selain Terdapat beberapa tipe dari validasi silang
untuk menduga koefisien LAR dan LASSO, yang mengatur bagaimana data training dan data
algoritma LAR ini juga dimodifikasi untuk test. Tipe validasi silang yang umum adalah
digunakan dalam menduga koefisien regresi validasi silang leave-one-out (LOO) dan k-fold.
Forward Stepwise dan Forward Selection, Validasi silang LOO menggunakan satu observasi
sehingga kemudian namanya dikenal sebagai sebagai data test dan sisanya sebagai data training.
LARS (untuk LAR, LASSO, Stagewise dan Hal ini diulang sampai setiap observasi pernah
Forward Selection). menjadi data test. Dalam validasi silang k-fold,
semua observasi dipartisi secara acak ke dalam k
23
Lasso : Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
Koefisien Model Regresi Linier Vol. 18 No. 1
24
Lasso : Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
Koefisien Model Regresi Linier Vol. 18 No. 1
kecuali terhadap peubah yang memiliki kontribusi sebaran yang diperoleh oleh LASSO yang
yang sangat kecil. Pada peubah ini, forward cenderung menjulur ke kiri (median=7) dengan
selection menghasilkan dugaan yang sangat jauh keragaman yang lebih kecil. Pendugaan galat
dari nilai sebenarnya. prediksi dengan menggunakan nilai cv, kedua
Gambar 1 menyajikan sebaran banyaknya metode menghasilkan nilai dan keragaman yang
peubah yang terseleksi oleh metode LASSO dan relatif tidak berbeda seperti pada kondisi skenario
forward selection dan sebaran nilai cv-nya. Seleksi simulasi pertama.
peubah yang dilakukan metode LASSO lebih stabil
dibanding dengan seleksi peubah oleh forward
selection, hal ini terlihat dari kecenderungan
bentuk sebaran yang simetrik untuk LASSO
dibanding forward selection yang menjulur ke
kanan. Selain itu, LASSO memiliki kecenderungan
untuk melakukan over fitting (terlihat dari median
peubah yang terseleksi adalah 6), sedangkan
forward selection memiliki kecenderungan under
fitting dengan median peubah terseleksi bernilai 3.
Galat prediksi yang diduga menggunalan nilai cv, (a) (b)
kedua metode menunjukkan nilai yang relatif sama Gambar 2 Sebaran (a) banyaknya peubah yang
baiknya dalam pendugaan maupun dalam terseleksi, (b) nilai cv hasil simulasi
keragamannya. untuk metode LASSO dan forward
selection pada saat koefisien β = (0.7,
0.7, 0.7, 0.7, 0.7, 0.7, 0.7, 0.7)t.
Skenario simulasi terakhir, di mana parameter
koefisien β yang akan diduga adalah besar, metode
gulud masih merupakan metode yang lebih unggul
dibanding ketiga metode lainnya (Lampiran 3).
Metode kuadrat terkecil, LASSO dan forward
selection menghasilkan nilai pendugaan yang
sama.
(a) (b) pada kondisi skenario simulasi ketiga ini, tidak
Gambar 1 Sebaran (a) banyaknya peubah yang ada peubah yang tidak terseleksi. Banyaknya
terseleksi, (b) nilai cv validasi silang peubah yang terseleksi adalah sama dengan peubah
hasil simulasi untuk metode LASSO yang berpengaruh sebenarnya (Gambar 3).
dan forward selection pada saat Demikian juga dengan penduga untuk galat
koefisien β = (3, 2, 0, 2, 0, 0.7, 0, 0)t. prediksi menggunakan nilai cv yang tidak berbeda
Skenario simulasi kedua, di mana semua nyata, baik dalam hal bentuk maupun
koefisien β mendekati nilai nol, metode gulud penyebarannya.
merupakan metode yang unggul dibanding metode
lainnya. Terlihat pada Lampiran 2, pendugaan
menggunakan metode gulud konsisten
menghasilkan nilai dugaan yang biasnya kecil
secara empirik dengan keragaman yang paling
kecil di antara metode-metode lainnya. Metode
selanjutnya yang terbaik adalah LASSO yang
memberikan pendugaan lebih baik dengan
keragaman yang lebih kecil dibanding kuadrat (a) (b)
terkecil atau forward selection. Metode yang Gambar 3 Sebaran (a) banyaknya peubah yang
memberikan keragaman pendugaan parameter terseleksi, (b) nilai cv hasil simulasi
paling besar pada skenario ini adalah forward untuk metode LASSO dan forward
selection. selection pada saat koefisien β = (3, 3,
Pada kondisi skenario simulasi kedua ini, 3, 3, 3, 3, 3, 3)t.
forward selection cenderung untuk melakukan
under fitting, di mana peubah yang terseleksi
hampir setengahnya kurang (Gambar 2) dengan
keragaman yang sangat tinggi. Bentuk sebaran
yang diperoleh dari forward selection cenderung
menjulur ke kanan (median=4.5) dibanding bentuk
25
Lasso : Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
Koefisien Model Regresi Linier Vol. 18 No. 1
26
Lasso : Solusi Alternatif Seleksi Peubah Dan Penyusutan FSK : Indonesian Journal of Statistics
Koefisien Model Regresi Linier Vol. 18 No. 1
Lampiran 1. Plot hasil 100 kali simulasi pendugaan untuk koefisien regresi β = (3, 2, 0, 2, 0, 0.7, 0, 0)t.
Lampiran 2. Plot hasil 100 kali pendugaan untuk koefisien regresi β = (0.7, 0.7, 0.7, 0.7, 0.7, 0.7, 0.7, 0.7)t.
Lampiran 3. Plot hasil 100 kali pendugaan untuk koefisien regresi β = (3, 3, 3, 3, 3, 3, 3, 3)t dari 100 simulasi.
27