Anda di halaman 1dari 14

Bulletin of Mathematics

Vol. 03, No. 02 (2011), pp. 189202.

ESTIMATOR PARAMETER MODEL REGRESI


LINIER DENGAN METODE BOOTSTRAP

Abil Mansyur, Syahril Efendi, Firmansyah dan Togi


Abstract. One of the methods of building the regression model from the technique
resampling was the Bootstrap Method. The Bootstrap method was the technique
resampling that was relatively simple but had the level of the good accuracy. The
Bootstrap approach was based on observation and the mistake resampling. In this
article will be shown how the Method bootstrap expected the linear regression parameter without using certain assumptions. As for the aim pembootstrapan of the
technique resampling in the case here to reduce the estimation of the standard error and the interval conviction of the belief of the regression coefficient. Finally
will be simulated by a simple data used the Bootstrap Method with help of Software
MatLab.

1. PENDAHULUAN
Analisis regresi adalah teknik analisis statistik yang mencirikan hubungan
antara dua atau lebih variabel untuk prediksi dan estimasi model matematika yang disebut model regresi. Manfaat suatu model regresi adalah memberikan analisis hubungan sebab akibat dari suatu persoalan yang riel sehingga menemukan taksiran terbaik. Tujuan membuat suatu model regresi
dari suatu persoalan adalah untuk memberikan analisis relatif sederhana
walaupun persoalannya kompleks, dimana kita menguji macam-macam hasil
akibat-akibat banyaknya kemungkinan variabl-variabel yang memberikan
Received 22-06-2010, Accepted 25-06-2011.
2010 Mathematics Subject Classification: 62F40, 62J05
Key words and Phrases: Bootstrap, resampling, regresi.

189

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

190

penjelasan atas sebuah variable respon. Mendapatkan estimasi bias dan


variansi estimator dalam pengestimasian dan mengkontruksi interval
kepercayaan dan prediksi interval untuk pengamatan kedepan dengan
variabel penjelasnya xi . Estimator kuadrat terkecil = (C T C)1 C T y mem = 2 (C T C)1 dan dengan taraf
punyai matriks variansi kovariansi var()
F
100(1 )% selang interval j tnp, 2 se(j ). Pendekatan secara alamiah,
seperti kuadrat terkecil, kenyataannya mengandalkan beberapa asumsi kuat
untuk modelnya. Dan kesimpulannya didasarkan pada sifat asymptotical
atau sering dengan pendekatan. Keandalan analisis statistiknya bergantung
atas validitasi asumsi dan ukuran sampel. Ada beberapa yang bisa digunakan untuk menyelidiki dan memperbaiki kesalahan asumsi regresi. Seperti
strategi estimasi Robust dan penyelidikan sisa yang berfungsi memperbaiki
teknik samplingnya Data yang diamati dianggap sebagai representasi dari
populasi dalam metode resampling. Oleh sebab itu, gagasan utama untuk membuat statistik inferensi berdasarkan pada resample buatan (sampel
bootstrap), yang diambil dari himpunan data asli. Teknik sampling biasa
menggunakan beberapa asumsi yang berkaitan dengan bentuk estimator distribusi, namun metode resampling tidak perlu asumsi-asumsi distribusi yang
menguatkan, karena sampel adalah representasi atau cerminan dari populasi. Bootstrap adalah statistik non-parametrik dan spesifiknya merupakan
teknik resampling yang tujuan menurunkan estimasi standar error dan memberikan interval keyakinan yang lebih dari parameter populasi seperti, ratarata, proporsi, ratio,koefisien korelasi atau koefisien regresi yang terkadang
dinamakan kuantitas statistik. Penghitung tentang statistiknya tanpa membuat asumsi-asumsi distribusi ketika asumsi-asumsi dalam keraguan, atau
dimana inferensi parametrik tidak mungkin atau membutuhkan rumus yang
sangat rumit untuk perhitungan kesalahan standar error [3].
Dalam paper ini memfokuskan pada ilustrasi dan penerapan tekhnik
resampling analisa regresi. Beberapa hirarki algoritma tentang teknik analisis regresi disajikan. Dasar-dasar dari teknik resampling bootstrap diaplikasi dengan contoh sederhana yang dapat dijelaskan oleh model regresi
dan dibandingkan hasilnya dengan hasil diperoleh kuadrat terkecil.

2. ESTIMASI STANDAR ERROR BOOTSTRAP


Metode bootstrap bergantung atas dugaan sebuah sampel bootstrap. Misal
F distribusi empirik, mengatakan probabilitas 1/n atas masing-masing nilai xi dengan (i = 1, 2, . . . , n) yang diamati. Sebuah sampel bootstrap

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

191

didefenisikan menjadi sebuah sampel random berukuran n diambil dari F ,


katakan x = (x1 , x2 , . . . , xn ), dinotasikan sebagai berikut
F (x1 , x2 , . . . , xn )

(1)

Notasi bintang menunjukkan bahwa x tidaklah himpunan data yang


sesungguhnya x, tetapi agaknya sebuah proses random, atau resample dari
himpunan data asli x.
Bersesuaian untuk sebuah himpunan data bootstrap x adalah sebuah

replikasi bootstrap ,
= s(x )

(2)

Kuantitas s(x ) adalah hasil mempergunakan fungsi yang sama s() untuk x
diaplikasikan pada x. Untuk contoh jika s(x) adalah P
sampel mean a
maka
n

= i=1 xi /n. Estimasi


s(x ) adalah mean himpunan data bootstrap, x
standar error sebuah statistik ,
adalah sebuah estimasi
bootsrap seF (),
plugin yang menggunakan fungsi distribusi empirik F . Khusus, estimasi
didefenisikan dengan:
bootstrap seF ()
seF ( )

(3)

adalah standar error untuk


Dengan kata lain, estimasi bootstrap seF ()
himpunan-himpunan data berukuran n yang disampel secara random dari
Algoritma bootF . Rumus seF ( ) disebut estimasi standar error ideal .
strap , selanjutnya diuraikan, adalah sebuah cara komputasi memperoleh
sebuah pendekatan yang baik untuk nilai numerik seF ( ).
Algoritma bootstrap bekerja dengan pengambilan banyaknya sampel
bootstrap bebas, penghitungan berhubungan dengan replikasi bootstrap,
dan pengestimasian standar error oleh simpangan baku empirik replikasi.
Hasilnya disebutkan estimasi bootstrap standar error, dinyatakan dengan
se
B , dimana B adalah banyaknya sampel bootstrap digunakan. Algoritma
berikut adalah sebuah deskripsi lebih jelas prosedur bootstrap untuk pengestimasian standar error = s(x) dari data x yang diamati.
1. Seleksi B sampel-sampel bootstrap bebas x1 , x2 , . . . , xB , masingmasing berisikan n nilai data diambil dengan pengembalian dari x.
2. Hitung replikasi bootstrap berkaitan untuk setiap sampel bootstrap,
(b) = s(xb ); b = 1, 2, . . . , B

(4)

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

192

oleh simpangan baku B replikasi


3. Estimasi standar error seF ()

se
B =

1/2

B h
i
X

(b) ()

b=1

(B 1)

(5)

dalam hal ini () = B


b=1 (b)/B

Gambar 1: Skema Algoritma Standar Error Bootstrap

Nilai limit se
B untuk B infinite adalah estimasi bootstrap ideal seF (),
lim se
B = seF = seF ( )

(6)

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

193

Kenyataan bahwa se
B menghampiri seF untuk B sejumlah infinit yang
mengatakan bahwa sebuah simpangan baku empirik menghampiri sebuah
simpangan baku populasi untuk sebanyak replikasi bertambah besar. Populasi dalam kasus ini adalah populasi nilai-nilai = s(x ), dimana F
B terkadang
(x1 , x2 , . . .0 xn ). Estimasi bootstrap ideal seF ( ) dan hampiran se
disebut estimasi bootstrap nonparametrik karena mereka didasari atas F ,
estimasi bootstrap nonparametrik populasi F .

3. KUADRAT TERKECIL
Misalkan himpunan data x untuk sebuah model regresi linier berisikan n
titik-titik x1 , x2 , . . . , xn dimana setiap xi adalah berpasangan, katakan
xi = (ci , yi )

(7)

Dalam hal ini ci adalah sebuah vektor 1 p, ci = (ci1 , ci2 , . . . , cip disebut
vektor covariate atau predictor, sedangkan yi disebut respon. Misalkan i
menunjukkan ekspektasi bersyarat ke i dari respon yi dengan syarat predictor ci ,
i = E(yi |ci ); (i = 1, 2, . . . , n)
(8)
Asumsinya bahwa i adalah sebuah kombinasi linier komponen-komponen
predictor ci ,
p
X
i = ci =
cij j
(9)
j=1

Misalkan = (1 , 2 , . . . , p ) adalah vektor parameter atau sering disebut


parameter regresi yang tak diketahui. Biasanya tujuan analisis regresi untuk menyimpulkan dari data pengamatan x = (x1 , x2 , . . . xn ). Struktur
probabilitas model linier biasanya diungkapkan sebagai
yi = ci + i ; i = 1, 2, . . . , n

(10)

Bentuk error  dalam (4) diasumsikan menjadi sampel random dari sebuah
distribusi error F yang tak diketahui, yang mempuyai ekspektasi 0.
F (1 , 2 , . . . , n ) =  [EF () = 0].
Perhatikan bahwa (4), (5) mengakibatkan bahwa

(11)

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

194

E(yi |ci ) = E(ci + i |ci )


= E(ci |ci ) + (i |ci )

(12)

= ci
yang merupakan asumsi linieritas (3). Disini telah digunakan fakta bahwa
ekspektasi besyarat E(i |ci ) sama dengan ekspektasi tak bersyarat E(i ) =
0, karena i dipilih secara bebas oleh ci . Ketika ingin mengestimasi vektor parameter regresi dari data pengamatan (c1 , y1 ), (c2 , y2 ), . . . , (cn , yn ).
Nilai percobaan , katakan b, memberikan residual squared error (Jumlah
Kuadrat Sisa).
RSE(b) =

n
X

(yi ci b)2

(13)

i=1

Estimasi kuadrat terkecil adalah nilai oleh b yang meminimumkan


RSE(b),
= min[RSE(b)]
RSE()
(14)
b

Misalkan C matrik np dengan ci baris ke i (matrik design), dan misalkan y


adalah vektor (y1 , y2 , . . . , yn )T . Lalu estimasi kuadrat terkecil adalah solusi
yang dinamakan Persamaan Normal.
C T C = C T y

(15)

= (C T C)1 C T y

(16)

sehingga diperoleh

4. ALGORITMA PEMBOOTSTRAPAN REGRESI


Berdasarkan pembahasan terdahulu diperoleh algoritma pembootstrapan regresi sebagai berikut,
1. Seleksi B sampel-sampel bootstrap bebas x1 , x2 , . . . , xB , masingmasing berisikan n nilai data diambil dengan pengembalian dari x,
dimana x = {(c( i1 ), y( i1 )), (c( i2 ), y( i2 )), . . . , (c( in ), y( in ))} untuk
i1 , i2 , . . . , in sampel random dari bilangan bulat 1 sampai n.

195

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

2. Hitung koefisien regresi dengan kuadrat terkecil dari sampel bootstrap


T
T
b = (C b ) C b )1 C b y b b = 1, 2, . . . , B

(17)

3. Diperoleh distribusi peluang F dari estimasi bootstrap dan gunakan


1 , 1 , . . . , b dan gunakan F untuk estimasi koefisien regresi,
variansi dan interval kepercayaan. Estimasi koefisien regresi bootstrap
adalah mean distribusi F .

PB

() =

b=1

= b

(18)

4. Persamaan regresi bootstrap adalah


Y = C () + 

(19)

dalam hal ini () adalah estimator tak bias [7].


Pembootstrapan diatas menggunakan pembootstrapan pasangan dan dengan cara lain bisa kita lakukan pembootstrapan residual, dimana pada
dasarnya kedua cara itu tidak ada perbedaan sejauh mana model itu diterima [3].

5. BIAS BOOTSTRAP, VARIANSI, INTERVAL


KEPERCAYAAN DAN PERSENTIL
\
Estimasi bias bootstrap didasarkan atas replikasi B, dinotasikan bias
B,

\
bias
B = ()

(20)

(Lebih lanjut diuraikan Efron dan Tibshirani [3]). Variansi bootstrap dari
distribusi F adalah
B 
 X

T 
b

var () =
() ()

(21)

b=1

Sedangkan interval kepercayaan bootstrap dihampiri normal diperoleh,






() tnp,/2 seF () < < () + tnp,/2 seF ()

(22)

196

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

dimana tnp,/2 nilai kritis t dengan probabilitas /2 sebelah kanan untuk




derajat kebebasan n p; dan seF () standar error dari (). Jika
ukuran sampel adalah n 30, maka Z distribusi nilai-nilai yang digunakan
sebagai pengganti t dalam estimasi interval keyakinan [4].
Sebuah interval keyakinan statistik non-parametrik yang dinamakan
interval persentil dapat dibangun dari distribusi samping bootstrap ().
Untuk (/2)% dan (1 /2)% interval persentilnya adalah,
b
b
(bawah) < < (atas)

(23)

dalam hal ini () adalah estimasi koefisien bootstrap terurut dari (18),
bawah = (/2)B, dan atas = (1 /2)B.

6. HASIL
Sebuah data sederhana diambil untuk menjustifikasi maksud kita diatas,
yang diambil dari [3] tentang alat medis yang digunakan untuk pemakain
hormon anti-inflammatory.
Tabel 1: Banyaknya hormon anti-inflammatory tersisa dari 27 alat medis
dari 3 manufaktur yang berbeda A, B dan C dalam pemakaian (jam).
Bagian

Jam

Jlh

Bagian

Jam

Jlh

Bagian

Jam

Jlh

99

25,8

376

16,3

119

28,8

152

20.5

385

11.6

188

22.0

293

14.3

402

11.8

115

29.7

155

23.2

29

32.5

88

28.9

196

20.6

76

32.0

58

32.8

53

31.1

296

18.0

49

32.5

184

20.9

151

24.1

150

25.4

171

20.9

177

26.5

107

31.7

52

30.4

209

25.8

125

28.5

Mean

150.6

23.1

233.4

22.1

111.0

28.9

Terdapat dua variabel prediktor untuk menentukan banyaknya sisa


hormon pada alat ke i (yi ), yaitu waktu pemakaian pada alat ke i yang

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

197

Gambar 2: Sebaran data setelah diplot menggunakan program Matlab


telah dipakai (zi ) dan bagian manufaktur alat ke i. Data pada Tabel 1
diplot melalui program Matlab diperoleh sebaran sebagai berikut
Sebaran 27 titik titik (zi , yi ) dengan bagian simbol Li digunakan sebagai karakter plot. Menggunakan persamaan (16) diperoleh estimator
yaitu:
= (34.17, 0.574)T

(24)

Jadi persamaan penduga adalah


Y = 34.17, 0.574Z

(25)

Tabel 2: Analisa Variansi Regresi


Sumber

dk

JK

RK

Hipotesis

nisbah F

Regresi

1.7394

1.7394

H0 : = 0

Freg = RK(Reg)/RKG
= 319.74

Error

25

141.4

Total

26

17535.4

5.44

Karena Freg > F0,05;1,25 = 4.24, pada taraf 0.05, maka H0 ditolak,
dan kesimpulannya ialah bahwa dalam model yang diusulkan E(yi |ci ) = ci

198

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

maka waktu pemakaian (jam) pada alat ke i yang telah dipakai berpengaruh
terhadap banyaknya sisa hormon pada alat ke i, sebesar rxy = 0.87.
Pada Tabel 3, 4,dan 5 dibawah ini, akan disajikan berturut-turut
ilustrasi estimasi parameter bootstrap b terhadap parameter regresi
pada struktur model (10). Dilakukaan pembootstrapan pasangan data pada
Tabel 1 berturut-turut sebanyak B = 1000, B = 2000, B = 10000. Selanjut
akan kita hitung ringkasan statistik yang terdiri dari standar error, bias,
interval kepercayaan dan interval persentil dari estimasi koefisien regresi
bootstrap untuk replikasi bootstrap B=1.000,B=2.000,B=1.0000, yang disajikan berturut-turut dalam Tabel.7,8 dan 9 sebagai berikut:
Tabel 3: Hasil pembootstrapan pasangan data sebanyak B = 1000
b

Reflikasi Boostrap (B)


Mean ()
1

998

999

1000

0b

34.4

33.9

34.1

13.103

34.828

34.183

34.2573

1b

-0.06

-0.06

-0.05

-0.0504

-0.0632

-0.0616

-0.0582

Tabel 4: Hasil pembootstrapan pasangan data sebanyak B = 2000


b

Mean ()

Reflikasi Boostrap (B)


1

1998

1999

2000

0b

32.84

34.36

34.04

33.1068

34.920

33.852

34.1905

1b

-0.052

-0.058

-0.058

-0.0519

-0.0601

-0.0552

-0.0579

Dari Tabel 6, 7 dan 8 dengan memperhatikan standar error masingmasing semakin lama menuju ke nol, dalam arti bahwa se
b B mengham-

199

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

Tabel 5: Hasil pembootstrapan pasangan data sebanyak B = 10000


b

Mean ()

Reflikasi Boostrap (B)


1

1998

1999

2000

0b

35.48

33.58

33.01

34.6809

34.093

32.8690

34.2072

1b

-0.062

-0.051

-0.053

-0.0614

-0.0581

-0.0558

-0.0580

Tabel 6: Ringkasan statistik untuk reflikasi boostrap data sebanyak B =


1000
b Standar
Bias
Interval
Interval
Error

Kepercayaan

Persentil

0b

0.0007060

0.0202

(34.1809, 34.2614)

(37.7042, 31.6982)

1b

0.0000036

-0.0004

(0.0582, 0.0585)

(0.0859, 0.0513)

piri seF untuk B, sejumlah infinit untuk mengatakan bahwa sebuah simpangan baku empirik menghampiri sebuah simpangan baku populasi. Sehingga kondisi (6) sangat memungkinkan tercapai. Banyaknya replikasi
bootstrap yang digunakan untuk mengevaluasi se
b B tergantung kepada para
peneliti tidak ada kepastian, bila memungkin mendapat suatu program
statistik yang mana se
b tercapai, maka kondisi ini mendapat estimasi bootstrap ideal. Untuk B = 50 memberikan sebuah estimasi seF yang cukup,
(Efron,1993). Bias yang cukup kecil dan interval kepercayaan, interval
persentil yang menyakinkan maka tidak ada alasan untuk menolak masingmasing estimator parameter bootstrapnya, pada replikasi berturut-turut
berikut B = 1000, B = 2000, B = 10000. Bila dikatakan untuk B=1000,
kita anggap sudah cukup baik untuk model diatas (10) maka estimator parameter adalah () = (34.2573, 0, 0582)T yang merupakan estimator
parameter bootstrap. Sehingga (25),
Y = 34.2573 0.0582

(26)

Sepintas bahwa koefisien regresi tidak jauh berbeda yang diperoleh dari OLS
akan tetapi dalam hal desimal yang berbeda sedikit sangat berpengaruh nyata dari kejadian-kejadian riel yang krusial. Andaikanlah pada Tabel 1

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

200

Tabel 7: Ringkasan statistik untuk reflikasi boostrap data sebanyak B =


2000
b Standar
Bias
Interval
Interval
Error

Kepercayaan

Persentil

0b

0.0004521

0.0794

(34.1847, 34.2886)

(36.9346, 31.5923)

1b

0.0000023

-0.0006

(0.0582, 0.0578)

(0.0795, 0.0454)

Tabel 8: Ringkasan statistik untuk reflikasi boostrap data sebanyak B =


10000
b Standar
Bias
Interval
Interval
Error

Kepercayaan

Persentil

0b

0.0002382

0.0421

(34.1840, 34.2833)

(37.9312, 30.6481)

1b

0.0000012

-0.0004

(0.0583, 0.0577)

(0.0881, 0.0414)

mencermikan suatu hormon yang sangat mahal dalam bidang medis, maka
tiap cc dari hormon bernila jutaan maka kita mengharapkan suatu sisa kecil
dari alat. Pada tulisan ini kita tidaklah membahas yang mana manufaktur
yang terbaik dari A,B dan C. Akan tetapi kita hanya memprediksi sisa hormon yang tersisa dari alat selama pemakaian tertentu (jam). Data bayangan
(pseu-data) yang akan kita gunakan sebagai patokan ukuran adalah z b . Bila
B = 1000 maka z 1000 sebagai data bayangan kita, yang memungkin diperoleh dari program Matlab. Distribusi peluang F dari estimasi bootstrap
1 , 2 , . . . , b yang merupakan distribusi empirik F yang akhirnya dihampiri distribusi normal. Perhatikanlah gambar (2) dan (3) merupakan plot
1 , 2 , . . . , b terhadap masing-masing estimator koefisien regresi bootstrapnya pada replikasi bootstrap B = 1000.

7. KESIMPULAN

Berdasarkan hasil di atas ()


merupakan estimator parameter regresi
yang lebih baik dari pada estimator parameter OLS, yang bersifat tak bias.

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

Gambar 3

201

Gambar 4

Distribusi peluang F dari estimasi bootstrap 1 , 2 , . . . , b yang merupakan distribusi empirik F yang akhirnya dihampiri distribusi normal. Permasalahan pada kasus ini akan menarik apabila seterusnya akan dikaji secara
matematisnya dan diterus dengan komparitif terhadap metode statistic non
parametric yang lain seperti Jackknife, JAB dan lain-lain. Bahas yang yang
tidak kalah menariknya mengenai rate ke konvergenan dari masing-masing
metode yang berbeda diatas.

Daftar Pustaka
[1] Dudewis, E. and Mishra, S, N., Statistika Matematika Modern, Penerbit
ITB Bandung, 1995.
[2] Efron, B., More Efficient Bootstrap Computations J. Amer. Statist.
Assoc. 89 (1990), 79-89.
[3] Efron, B. and Tibshirani, R, J., An Introduction to the Bootstrap, Chapman & Hall, New York, 1990.
[4] Efron, B. and Tibshirani, R, J., Bootstrap Methods for Standart Errors, Confidence Interval and Other Measure of Statistical Accuracy
J. Statistical Science. 1 (1986), 54-57.
[5] Martinez, L, W. and Martinez, A, R., Computational Statistics Handbook with Matlab., Chapman & Hall, New York, 2007.
[6] Marques de S
a, J., Applied Statistics Using SPSS, Statistica, Matlab
and R., Springer, Berlin Heidelberg, New York, 2002.

Abil Mansyur, et al. Estimator Parameter Model Regresi Linier

202

[7] Shao, J. and Tu, D., The Jackknife and Bootstrap. Springer, New York,
2007.
[8] Shao, J., Mathematical Statistics. Springer, New York, 2007.
[9] Shao, J., Bootstrap Model Selection, J. Amer. Statist. Assoc. 91
(1966), 655 - 655.
[10] Weisberg, S., Applied Linier Regression. Third Edition, John Wiley &
Sons, New York, 2005.

Abil Mansyur: Departemen Matematika Universitas Negeri Medan, Medan, In-

donesia.

E-mail: abilmansyur@gmail.com

Syahril Efendi: Departemen Matematika Universitas Sumatera Utara, Medan,

Indonesia.

E-mail: syahrilkom1@yahoo.com

Firmansyah: Departemen Matematika Universitas Muslim Nusantara, Medan, In-

donesia.

E-mail: firmansyah149@yahoo.com

Togi: Departemen Matematika Universitas Negeri Medan, Medan, Indonesia.

E-mail: togipanja@gmail.com

Anda mungkin juga menyukai