1. PENDAHULUAN
Analisis regresi adalah teknik analisis statistik yang mencirikan hubungan
antara dua atau lebih variabel untuk prediksi dan estimasi model matematika yang disebut model regresi. Manfaat suatu model regresi adalah memberikan analisis hubungan sebab akibat dari suatu persoalan yang riel sehingga menemukan taksiran terbaik. Tujuan membuat suatu model regresi
dari suatu persoalan adalah untuk memberikan analisis relatif sederhana
walaupun persoalannya kompleks, dimana kita menguji macam-macam hasil
akibat-akibat banyaknya kemungkinan variabl-variabel yang memberikan
Received 22-06-2010, Accepted 25-06-2011.
2010 Mathematics Subject Classification: 62F40, 62J05
Key words and Phrases: Bootstrap, resampling, regresi.
189
190
191
(1)
replikasi bootstrap ,
= s(x )
(2)
Kuantitas s(x ) adalah hasil mempergunakan fungsi yang sama s() untuk x
diaplikasikan pada x. Untuk contoh jika s(x) adalah P
sampel mean a
maka
n
(3)
(4)
192
se
B =
1/2
B h
i
X
(b) ()
b=1
(B 1)
(5)
Nilai limit se
B untuk B infinite adalah estimasi bootstrap ideal seF (),
lim se
B = seF = seF ( )
(6)
193
Kenyataan bahwa se
B menghampiri seF untuk B sejumlah infinit yang
mengatakan bahwa sebuah simpangan baku empirik menghampiri sebuah
simpangan baku populasi untuk sebanyak replikasi bertambah besar. Populasi dalam kasus ini adalah populasi nilai-nilai = s(x ), dimana F
B terkadang
(x1 , x2 , . . .0 xn ). Estimasi bootstrap ideal seF ( ) dan hampiran se
disebut estimasi bootstrap nonparametrik karena mereka didasari atas F ,
estimasi bootstrap nonparametrik populasi F .
3. KUADRAT TERKECIL
Misalkan himpunan data x untuk sebuah model regresi linier berisikan n
titik-titik x1 , x2 , . . . , xn dimana setiap xi adalah berpasangan, katakan
xi = (ci , yi )
(7)
Dalam hal ini ci adalah sebuah vektor 1 p, ci = (ci1 , ci2 , . . . , cip disebut
vektor covariate atau predictor, sedangkan yi disebut respon. Misalkan i
menunjukkan ekspektasi bersyarat ke i dari respon yi dengan syarat predictor ci ,
i = E(yi |ci ); (i = 1, 2, . . . , n)
(8)
Asumsinya bahwa i adalah sebuah kombinasi linier komponen-komponen
predictor ci ,
p
X
i = ci =
cij j
(9)
j=1
(10)
Bentuk error dalam (4) diasumsikan menjadi sampel random dari sebuah
distribusi error F yang tak diketahui, yang mempuyai ekspektasi 0.
F (1 , 2 , . . . , n ) = [EF () = 0].
Perhatikan bahwa (4), (5) mengakibatkan bahwa
(11)
194
(12)
= ci
yang merupakan asumsi linieritas (3). Disini telah digunakan fakta bahwa
ekspektasi besyarat E(i |ci ) sama dengan ekspektasi tak bersyarat E(i ) =
0, karena i dipilih secara bebas oleh ci . Ketika ingin mengestimasi vektor parameter regresi dari data pengamatan (c1 , y1 ), (c2 , y2 ), . . . , (cn , yn ).
Nilai percobaan , katakan b, memberikan residual squared error (Jumlah
Kuadrat Sisa).
RSE(b) =
n
X
(yi ci b)2
(13)
i=1
(15)
= (C T C)1 C T y
(16)
sehingga diperoleh
195
(17)
PB
() =
b=1
= b
(18)
(19)
\
bias
B = ()
(20)
(Lebih lanjut diuraikan Efron dan Tibshirani [3]). Variansi bootstrap dari
distribusi F adalah
B
X
T
b
var () =
() ()
(21)
b=1
(22)
196
(23)
dalam hal ini () adalah estimasi koefisien bootstrap terurut dari (18),
bawah = (/2)B, dan atas = (1 /2)B.
6. HASIL
Sebuah data sederhana diambil untuk menjustifikasi maksud kita diatas,
yang diambil dari [3] tentang alat medis yang digunakan untuk pemakain
hormon anti-inflammatory.
Tabel 1: Banyaknya hormon anti-inflammatory tersisa dari 27 alat medis
dari 3 manufaktur yang berbeda A, B dan C dalam pemakaian (jam).
Bagian
Jam
Jlh
Bagian
Jam
Jlh
Bagian
Jam
Jlh
99
25,8
376
16,3
119
28,8
152
20.5
385
11.6
188
22.0
293
14.3
402
11.8
115
29.7
155
23.2
29
32.5
88
28.9
196
20.6
76
32.0
58
32.8
53
31.1
296
18.0
49
32.5
184
20.9
151
24.1
150
25.4
171
20.9
177
26.5
107
31.7
52
30.4
209
25.8
125
28.5
Mean
150.6
23.1
233.4
22.1
111.0
28.9
197
(24)
(25)
dk
JK
RK
Hipotesis
nisbah F
Regresi
1.7394
1.7394
H0 : = 0
Freg = RK(Reg)/RKG
= 319.74
Error
25
141.4
Total
26
17535.4
5.44
Karena Freg > F0,05;1,25 = 4.24, pada taraf 0.05, maka H0 ditolak,
dan kesimpulannya ialah bahwa dalam model yang diusulkan E(yi |ci ) = ci
198
maka waktu pemakaian (jam) pada alat ke i yang telah dipakai berpengaruh
terhadap banyaknya sisa hormon pada alat ke i, sebesar rxy = 0.87.
Pada Tabel 3, 4,dan 5 dibawah ini, akan disajikan berturut-turut
ilustrasi estimasi parameter bootstrap b terhadap parameter regresi
pada struktur model (10). Dilakukaan pembootstrapan pasangan data pada
Tabel 1 berturut-turut sebanyak B = 1000, B = 2000, B = 10000. Selanjut
akan kita hitung ringkasan statistik yang terdiri dari standar error, bias,
interval kepercayaan dan interval persentil dari estimasi koefisien regresi
bootstrap untuk replikasi bootstrap B=1.000,B=2.000,B=1.0000, yang disajikan berturut-turut dalam Tabel.7,8 dan 9 sebagai berikut:
Tabel 3: Hasil pembootstrapan pasangan data sebanyak B = 1000
b
998
999
1000
0b
34.4
33.9
34.1
13.103
34.828
34.183
34.2573
1b
-0.06
-0.06
-0.05
-0.0504
-0.0632
-0.0616
-0.0582
Mean ()
1998
1999
2000
0b
32.84
34.36
34.04
33.1068
34.920
33.852
34.1905
1b
-0.052
-0.058
-0.058
-0.0519
-0.0601
-0.0552
-0.0579
Dari Tabel 6, 7 dan 8 dengan memperhatikan standar error masingmasing semakin lama menuju ke nol, dalam arti bahwa se
b B mengham-
199
Mean ()
1998
1999
2000
0b
35.48
33.58
33.01
34.6809
34.093
32.8690
34.2072
1b
-0.062
-0.051
-0.053
-0.0614
-0.0581
-0.0558
-0.0580
Kepercayaan
Persentil
0b
0.0007060
0.0202
(34.1809, 34.2614)
(37.7042, 31.6982)
1b
0.0000036
-0.0004
(0.0582, 0.0585)
(0.0859, 0.0513)
piri seF untuk B, sejumlah infinit untuk mengatakan bahwa sebuah simpangan baku empirik menghampiri sebuah simpangan baku populasi. Sehingga kondisi (6) sangat memungkinkan tercapai. Banyaknya replikasi
bootstrap yang digunakan untuk mengevaluasi se
b B tergantung kepada para
peneliti tidak ada kepastian, bila memungkin mendapat suatu program
statistik yang mana se
b tercapai, maka kondisi ini mendapat estimasi bootstrap ideal. Untuk B = 50 memberikan sebuah estimasi seF yang cukup,
(Efron,1993). Bias yang cukup kecil dan interval kepercayaan, interval
persentil yang menyakinkan maka tidak ada alasan untuk menolak masingmasing estimator parameter bootstrapnya, pada replikasi berturut-turut
berikut B = 1000, B = 2000, B = 10000. Bila dikatakan untuk B=1000,
kita anggap sudah cukup baik untuk model diatas (10) maka estimator parameter adalah () = (34.2573, 0, 0582)T yang merupakan estimator
parameter bootstrap. Sehingga (25),
Y = 34.2573 0.0582
(26)
Sepintas bahwa koefisien regresi tidak jauh berbeda yang diperoleh dari OLS
akan tetapi dalam hal desimal yang berbeda sedikit sangat berpengaruh nyata dari kejadian-kejadian riel yang krusial. Andaikanlah pada Tabel 1
200
Kepercayaan
Persentil
0b
0.0004521
0.0794
(34.1847, 34.2886)
(36.9346, 31.5923)
1b
0.0000023
-0.0006
(0.0582, 0.0578)
(0.0795, 0.0454)
Kepercayaan
Persentil
0b
0.0002382
0.0421
(34.1840, 34.2833)
(37.9312, 30.6481)
1b
0.0000012
-0.0004
(0.0583, 0.0577)
(0.0881, 0.0414)
mencermikan suatu hormon yang sangat mahal dalam bidang medis, maka
tiap cc dari hormon bernila jutaan maka kita mengharapkan suatu sisa kecil
dari alat. Pada tulisan ini kita tidaklah membahas yang mana manufaktur
yang terbaik dari A,B dan C. Akan tetapi kita hanya memprediksi sisa hormon yang tersisa dari alat selama pemakaian tertentu (jam). Data bayangan
(pseu-data) yang akan kita gunakan sebagai patokan ukuran adalah z b . Bila
B = 1000 maka z 1000 sebagai data bayangan kita, yang memungkin diperoleh dari program Matlab. Distribusi peluang F dari estimasi bootstrap
1 , 2 , . . . , b yang merupakan distribusi empirik F yang akhirnya dihampiri distribusi normal. Perhatikanlah gambar (2) dan (3) merupakan plot
1 , 2 , . . . , b terhadap masing-masing estimator koefisien regresi bootstrapnya pada replikasi bootstrap B = 1000.
7. KESIMPULAN
Gambar 3
201
Gambar 4
Distribusi peluang F dari estimasi bootstrap 1 , 2 , . . . , b yang merupakan distribusi empirik F yang akhirnya dihampiri distribusi normal. Permasalahan pada kasus ini akan menarik apabila seterusnya akan dikaji secara
matematisnya dan diterus dengan komparitif terhadap metode statistic non
parametric yang lain seperti Jackknife, JAB dan lain-lain. Bahas yang yang
tidak kalah menariknya mengenai rate ke konvergenan dari masing-masing
metode yang berbeda diatas.
Daftar Pustaka
[1] Dudewis, E. and Mishra, S, N., Statistika Matematika Modern, Penerbit
ITB Bandung, 1995.
[2] Efron, B., More Efficient Bootstrap Computations J. Amer. Statist.
Assoc. 89 (1990), 79-89.
[3] Efron, B. and Tibshirani, R, J., An Introduction to the Bootstrap, Chapman & Hall, New York, 1990.
[4] Efron, B. and Tibshirani, R, J., Bootstrap Methods for Standart Errors, Confidence Interval and Other Measure of Statistical Accuracy
J. Statistical Science. 1 (1986), 54-57.
[5] Martinez, L, W. and Martinez, A, R., Computational Statistics Handbook with Matlab., Chapman & Hall, New York, 2007.
[6] Marques de S
a, J., Applied Statistics Using SPSS, Statistica, Matlab
and R., Springer, Berlin Heidelberg, New York, 2002.
202
[7] Shao, J. and Tu, D., The Jackknife and Bootstrap. Springer, New York,
2007.
[8] Shao, J., Mathematical Statistics. Springer, New York, 2007.
[9] Shao, J., Bootstrap Model Selection, J. Amer. Statist. Assoc. 91
(1966), 655 - 655.
[10] Weisberg, S., Applied Linier Regression. Third Edition, John Wiley &
Sons, New York, 2005.
donesia.
E-mail: abilmansyur@gmail.com
Indonesia.
E-mail: syahrilkom1@yahoo.com
donesia.
E-mail: firmansyah149@yahoo.com
E-mail: togipanja@gmail.com