Anda di halaman 1dari 35

Best Subset

Stepwise
Backward
Forward

1
Tidak ada hubungan antara Peubah
X dan Y; Korelasi X & Y = 0
X Y

Ada hubungan yang kuat antara Peubah X dan Y; Korelasi


A X & Y besar; Daerah A: Informasi Y yang dapat
X Y
diterangkan oleh X

Ada hubungan yang kuat antara Peubah X dan Y; Korelasi


X & Y = 0.95; Daerah A: Informasi Y yang dapat
X A Y diterangkan oleh X

2
Gambar 1 Gambar 2

3
• Pada gambar 1, Peubah X1-X4 tidak saling berkorelasi. Jika
ada peubah X1 yang dibuang, maka informasi yang hilang
sebesar korelasi antara Y dg X1
• Gambar 2 menunjukkan regresi Y vs (X1-X4) di mana ada
korelasi diantara X1-X4

4
Regresi Y = b0 + b1X + b2W
Koef. Determinasi R2 ditunjukkan oleh daerah 1, 2 dan 3

5
Jika pubah W dibuang dari model, kita hanya kehilangan informasi
sebesar daerah 3. Hal ini disebabkan adanya korelasi antara X dengan W

6
• Jika kita berhadapan dengan peubah bebas yang sangat banyak,
bagaimana kita menentukan peubah mana yang seharusnya masuk ke
dalam model? Lihat gambar 2.

Peubah mana yang seharusnya


Gambar 2
dikeluarkan dari Model???

7
• Masalah utama adalah ketika kita berhadapan data
dengan peubah bebas yang sangat banyak misalkan
20-100 pubah (Pada contoh diatas, jumlah peubah
bebas sangat kecil).
• Tujuan :
• Memilih sebagian peubah bebas yang menghasilkan model
yang sederhana, tetapi mempunyai kemampuan prediksi yang
baik
• Memilih peubah bebas yang menghasilkan model regresi
terbaik.
• Menggambarkan teknik-teknik untuk maksud tersebut.
8
• Jika terlalu banyak peubah bebas dalam
model, termasuk didalamnya peubah bebas
yang tidak berkorelasi dengan peubah bebas,
ini disebut dengan overfitting. Akibat overfitting:
• Model yang diperoleh kurang baik dalam
meprediksi terhadap data baru, dimana galat
pendugaan terlalu kecil
• Ragam dari dugaan koefisien regresi terlalu besar

9
• Jika terlalu sedikit peubah bebas dalam model,
dimana membuang peubah bebas yang mungkin
dapat menjelaskan respon. Ini disebut dengan
underfitting. Akibat underfitting:
• Model yang diperoleh tidak bagus untuk prediksi data baru,
yaitu pendugaan bersifat bias
• Koefisien regresi bersifat bias
• Dugaan bagi ragam galat (S2) terlalu besar

10
Prosedur Pemilihan Peubah bebas
 Stepwise Regression Secara iteratif: pada setiap iterasi,
 Forward Selection satu peubah bebas dimasukkan atau
dikeluarkan dari model berdasarkan
 Backward Elimination statistik F
Setiap kombinasi peubah bebas,
 Best-Subsets Regression dievaluasi beberapa ukuran
kebaikan model

Tiga prosedur I adalah heuristik.


Tidak ada jaminan bahwa model
terbaik akan diperoleh

11
 Uji F
Untuk menguji apakah penambahan X2 ke model yang ada
X1 (atau membuang X1 dari model yang ada X1 dan X2)
adalah signifikan secara statistik.

Jika p-value pada uji F di atas signifikan (p-value < alpha),


maka penambahan X2 ke model (atau mengeluarkan X2
dari model) berpengaruh nyata.

12
• Ide dasarnya:
1. Mulai dengan model tanpa peubah bebas
2. Pada setiap langkah, masukkan atau keluarkan peubah bebas
berdasarkan uji F dan/atau p-value nya
3. Jika sudah tidak ada peubah bebas yang bisa masuk/keluar, maka
langkah berhenti/STOP
• Pada langkah 2 di atas, akan ada nilai F-in yaitu nilai F-stat
yang menjadikan peubah Xi masuk ke model. F-in ini setara
dengan Alpha to enter.
• Ada juga nilai F-out, yaitu nilia F-stat, yang menjadikan
peubah Xi harus dikeluarkan dari model
• Biasanya F-in > F-out. F-out ini setara dengan Alpha to
remove.
• Jika F-stat> F-in atau P-value (dari statistik F) < alpha to
enter, maka Xi masuk ke dalam model
• Jika F-stat< F-out atau P-value (dari statistik F) > alpha to
remove, maka Xi dikeluarkan dari model
13
Hitung F stat. and Peubah bebas dengan
p-value untuk setiap P-value terkecil
peubah bebas Masuk ke dalam model

Apakah ada Yes Peubah bebas dengan


p-value > alpha P-value terbesar
to remove Dikelurakan dari model
?
No Yes
Hitung F stat. And p-value Apakah Ada
untuk setiap peubah p-value < alpha
bebas yang tidak ada dalam to enter
model ?
No
Start Stop
14
• Dari Hasil akhir metode ini, Jangan langsung menyimpulkan
• Bahwa semua peubah bebas yang penting untuk menduhga Y telah masuk
ke model
• Bahwa peubah yang tidak penting telah dikeluarkan dari model
• Banyak melakukan pengujian βk = 0, oleh karena itu ada
peluang yang sangat tinggi untuk:
• Memasukkan peubah bebas yang tidak penting ke dalam model
• Mengeluarkan peubah bebas dari model, meskipun itu adalah peubah
yang berpengaruh
• Kelemahan stepwise regression
• Tidak ada jaminan bahwa Model akhir adalah yang terbaik.
• Prosedur hanya menghasilkan satu model akhir, meskipun mungkin ada
lebih dari satu model yang juga baik.
• Tidak mempertimbangkan aspek teoritis dari data
15
• Prosedur ini mirip dengan metode stepwise. Hanya saja
tidak memperbolehkan sebuah peubah bebas
dikeluarkan dari model
• Pada prosedur ini, hanya ada F-in atau alpha to enter
• Metode Forward dimulai dari model tanpa peubah bebas
• Satu peubah bebas ditambahkan selama ada pengurang-
an yang signifikan dari jumlah kuadrat sisaan (JKS atau
SSE). Yaitu jika ada F-stat > F-in atau p-value < alpha to
enter, dalam hal ini Yang dimasukkan adalah peubah
dengan F-stat terbesar atau peubah dengan p-value
terkecil.

16
Start

Mulai dengan Model tanpa


Peubah bebas

Hitung F-stat dan p-valuenya


Untuk peubah bebas yang
Tidak ada dalam model

Apakah ada Yes


p-value < alpha Peubah bebas dengan p-value
to enter Terkecil dimasukkan ke model
?

No

Stop 17
• Prosedur dimulai dengan semua peubah bebas dimasukkan ke
dalam model
• Pada prosedur ini, hanya ada F-out atau alpha to remove
• Pada setiap tahap akan diperiksa apakah ada peubah yang
F-stat < F-out atau p-value > alpha to remove. Jika ada,
keluarkan peubah yang paling tidak signifikan (p-valuenya
terbesar)
• Sekali suatu peubah dikeluarkan dari model, maka peubah
tersebut tidak bisa lagi dimasukkan ke model lagi

18
Mulai dengan model dengan
Semua peubah bebas

Hitung F stat. And p-value


Untuk setiap peubah bebas yang
Ada dalam model

Apakah ada Yes


p-value > alpha Keluarkan peubah bebas
to remove Dengan nilai p-value terbesar
?

No

Stop

19
• Misalkan kita hanya punya satu peubah bebas X, maka model
yang mungkin dibuat adalah y = b0+b1X
• Misalkan kita punya dua peubah bebas, X1 dan X2. Maka
model yang mungkinn dibuat:
1. M1: y = b0+b1x1;
2. M2: y = b0+b1x2; dan
3. M3: y = b0+b1x1+b2x2;
• Jika ada tiga peubah bebas, X1, X2, dan X3:
1. M1: y = b0+b1x1; 4. M4: y = b0+b1x1+b2x2;
2. M2: y = b0+b1x2; 5. M5: y = b0+b1x1+b2x3;
3. M3: y = b0+b1x3; 6. M6: y = b0+b1x2+b2x3;
7. M7: y = b0+b1x1+b2x2+b3x3;

20
• Ide dasarnya adalah dengan memeriksa semua model yang
mungkin dibuat
1. Semua kemungkinan model dengan satu peubah bebas
2. Semua kemungkinan model dengan dua peubah bebas
3. Semua kemungkinan model dengan tiga peubah bebas
4. Dst
• Pada semua model, beberapa ukuran akan dihitung, misalkan
R2, R2(adj), Cp, dll...
• Berdasarkan ukutran tersebut, dipilih model yang terbaik.

21
• Kelemahan: Jika kita tambahkan peubah baru ke dalam model,
Nilai koefisien determinasi R2 tidak pernah turun. Oleh karena,
untuk data y yang sama, model dengan dua peubah pasti akan
memiliki R2 yang lebih besar dari R2 dari model dengan satu
peubah.
• Oleh karena itu, R2 hanya cocok digunakan untuk membandingkan
model dengan banyaknya peubah bebas yang sama
• Disini digunakan notasi R2p; dimana p=k+1 dan k=# peubah
bebas.
ௌௌோ(௣) ௌௌா(௣)
ܴଶ = =1-
ௌௌ் ௌௌ்
• Semakin besar R2, semakin baik

22
• Untuk mengatasi kelemahan R2, dikenalkann konsep R2 terkoreksi
(adjusted R2) yang dinotasikan deng R2(adj).
• Ini adalah R2 yang dikoreksi dengan banyaknya peubah bebas.
• Dapat digunakan membandingkan model dengan banyaknya
peubah bebas yang berbeda
• Semakain besar R2(adj), model semakin baik.
ଶ ݊−1
ܴ௔ௗ௝ = 1 − (1 − ܴ௣ଶ )
݊−‫݌‬

23
• Misalkan banyaknya peubah bebas ada k
• Cp = (SSEk/MSEFull)-n+2k
• Pilih model dengan Cp paling dekat dengan (k+1)

24
• Stat>> Regression>>Stepwise
• Untuk Stepwise, forward & backward method
• Stat>> Regression>>Best Subsets
• Untuk Best subset regression

25
26
27
28
29
30
31
32
33
34
35

Anda mungkin juga menyukai