Regresi Robust

1
REGRESI ROBUST

Regresi robust diperkenalkan oleh Andrews (1972) dan merupakan metode regresi
yang digunakan ketika distribusi dari error tidak normal dan atau adanya beberapa outlier
yang berpengaruh pada model (Ryan, 1997). Metode ini merupakan alat penting untuk
menganalisa data yang dipengaruhi oleh outlier sehingga dihasilkan model yang robust atau
resistance terhadap outlier. Suatu estimasi yang resistant adalah relatif tidak terpengaruh
oleh perubahan besar pada bagian kecil data atau perubahan kecil pada bagian besar data.
WRI Jan
L
P
-
1
140 120 100 80 60 40 20
350
300
250
200
150
100
50
0
15
14
13
12
11
10 9
8
7
6
5
4
3
2 1
Scatterplot of LP-1 vs WRI Jan

Gambar 1 Scaterplot WRI Januari dan Luas Panen Periode I.
Gambar 1 menunjukkan contoh pola hubungan Weighted Rainfall Index
Januari (WRI Jan) terhadap luas panen padi periode I (LP I). Diketahui pada
pengamatan ke-15 terletak lebih jauh dari pola pengamatan-pengamatan lainnya pada
umumnya. Melalui perbandingan nilai DFFITS dapat dikatakan pengamatan tersebut
sebagai outlier dikarenakan memiliki nilai DFFITS = 5.74699 lebih dari batas
DFFITS yaitu 15 / 2 2 = 0.730297. Pengamatan ke-11 juga merupakan outlier.
Prosedur robust ditujukan untuk mengakomodasi adanya keanehan data, sekaligus
meniadakan identifikasi adanya data outlier dan juga bersifat otomatis dalam menanggulangi
data outlier (Aunuddin, 1989). Beberapa metode estimasi dalam regresi robust diantaranya
M-Estimation, Least Trimmed Square (LTS), MM estimation, S estimation, Least Mean
Square (LMS).

2

Melalui estimasi OLS didapatkan model hubungan WRI Jan dan LP I seperti pada
Tabel 1. Tidak ada parameter yang nyata berpengaruh, nilai R square relatif kecil, yaitu
8,9% dan standard deviasi yang besar yaitu 69,41.

Tabel 1 Estimasi OLS WRI Jan dan LP I

M-Estimation
M-Estimation merupakan metode regresi robust yang sering digunakan. M-
Estimation dipandang dengan baik untuk mengestimasi parameter yang disebabkan oleh x-
outlier dan memiliki breakdown point 1/n. M-Estimation meminimumkan fungsi objektif :

= =
=
n
i
i
n
i
i
e e
1 1
*
) / ( ) ( o
=
=

n
i
i i
y
1
) / ) (( o b x
(1)
Nilai o diperoleh melalui iterasi (Chen, 2002) :

0
) 1 (
1
) (
/ | o

=
=
l
i i
n
i
l
y med b x (2)
Dengan l (l=0,1,) adalah iterasi dan
0
| = (0,75)
1
.
wri_jan dan lp1
The REG Procedure
Model: MODEL1
Dependent Variable: lp1

Analysis of Variance

Sum of Mean
Source DF Squares Square F Value Pr > F

Model 1 6123.30892 6123.30892 1.27 0.2800
Error 13 62631 4817.78869
Corrected Total 14 68755

Root MSE 69.41029 R-Square 0.0891
Dependent Mean 92.86040 Adj R-Sq 0.0190
Coeff Var 74.74692

Parameter Estimates

Parameter Standard
Variable DF Estimate Error t Value Pr > |t|

Intercept 1 44.10684 46.81160 0.94 0.3633
wri_jan 1 0.67929 0.60254 1.13 0.2800

3

) (
*
i
e adalah fungsi simetris dari residual atau fungsi yang memberikan kontribusi pada
masing-masing residual pada fungsi objektif. Dengan
'
= adalah derivative dari ,
maka untuk meminimumkan persamaan (1) :

0 ) / ) ((
1
=
=
i
n
i
i i
y x x o b
(3)
(.) merupakan fungsi influence yang digunakan dalam memperoleh bobot (weight).
Dengan fungsi pembobot
*
*
) (
i
i
i
e
e
w

=
maka persamaan (3) menjadi:

0 ) / ) ((
1
=
=
i
n
i
i i i
y w x x o b
(4)
Persamaan (4) dinotasikan ke dalam matrik :
y
T T
W X WX X = b (5)
Persamaan (5) disebut weighted least squares yang meminimumkan
=

n
i
i i i
y y w
1
2
) ( .
Regresi terboboti tersebut dapat diguanakan sebagai alat untuk mendapatkan M-estimation.
Sehingga estimasi parameter menjadi :
y
T T
W X WX X
1
) (

= b (6)
Pembobot dalam M-estimation bergantung pada residual dan koefisien. Prosedur
untuk mendapatkan estimasi parameter yaitu iterasi yang disebut dengan iteratively
reweighted least squares (IRLS), tahapanya :
1) Menaksir parameter regresi dan didapatkan residual e
i,0.

2) Menentukan
) (
o
o dan fungsi pembobot
0 , i
w
3) Mencari estimasi pada iterasi l ( l = 1, 2, ) dengan weighted least square.
y W X X W X b
l
T
l
T
l 1
1
1
) (

=
dengan
1 l
w merupakan matrik diagonal dengan elemen diagonalnya adalah
1 , l i
w . Sehingga estimasi parameter pada iterasi pertama ( l = 1 ) menggunakan
e
i,0
dan
0 , i
w .
4) Mengulang tahap 2 dan 3 hingga didapatkan penaksiran parameter yang
konvergen.

Tabel 1 Fungsi objektif, fungsi influence dan fungsi pembobot pada M-estimation
4

Metode Least Square Huber Tukey Bisquare
Fungsi
objektif
2 * *
) ( ) (
i LS
e e =
>
s
=
r e untuk r e r
r e untuk e
e
i i
i i
H
| | , 2 / | |
| | , 2 / ) (
) (
* 2 *
* 2 *
*

( )
>
s
(

=
r e untuk r
r e untuk
e
i
i r
e
k i
* 2
*
3
2
6
*
B
6 /
1 1
) (
*
2

Fungsi
influence
* *
) (
i LS
e e = ( )
<
>
s
=
r e untuk r
r e untuk r
r e untuk e
e
i
i
i i
*
*
* *
*
H

( )
( )
>
s
=
r e untuk
r e untuk e
e
i
i r
e
i
i
*
*
2
2
*
*
B
0
1
*

Fungsi
Pembobot
1 ) (
*
= e w
LS
( )
>
s
=
r e untuk e r
r e untuk
e w
i i
i
* *
*
*
H
/
1

( )
( )
>
s
=
r e untuk
r e untuk
e w
i
i r
e
i
*
*
2
2
*
B
0
1
*

Sumber : Fox (2002), Mongomery (1992)
M-estimation Leat Square dengan 1 ) ( = e w
LS
merupakan metode OLS. Nilai r pada
fungsi objektif, influence dan pembobot (Tabel 1) adalah tunning constant. Kuzmic et.al
(2004) menyebutkan M-estimation Huber efektif digunakan pada =5% dengan r=1.345,
sedangkan M-estimation Tukey Bisquare dengan r=4.685. Menurunkan tunning constant
akan menaikan pembobot terhadap residual yang besar. Menaikkan tunning constant akan
menurunkan pembobot terhadap residual yang besar. Semakin besar r maka estimasi robust
akan mendekati least square.

Tabel 2 M estimation Tukey Bisquare WRI Jan dan LP I

Tabel 2 menunjukkan hasil estimasi paramter melalui Tukey Bisquare dengan tunninng
constant 1 dan iterasi 100 kali. Didapatkan estimasi parameter yang signifikan berpengaruh,
R square 86,1 dan standard deviasi 4,13. Hasil tersebut lebih baik daripada dengan estimasi
OLS.

Least Trimmed Square(LTS) Estimation
Parameter Estimates

Standard 95% Confidence Chi-
Parameter DF Estimate Error Limits Square Pr > ChiSq

Intercept 1 47.4438 12.1595 23.6116 71.2759 15.22 <.0001
wri_jan 1 0.4761 0.1565 0.1693 0.7828 9.25 0.0024
Scale 1 17.3566

5

LTS merupakan suatu metode pendugaan parameter regresi robust untuk
meminimumkan jumlah kuadrat h residual (fungsi objektif).

=
h
i
n i
e
1
2
) : (
(7)
Dengan h = | | | | 2 / ) 2 ( 2 / + + k n (8)
Keterangan :

2
) (i
e : Kuadrat residual yang diurutkan dari terkecil ke terbesar.

2
) 1 (
e <
2
) 2 (
e <
2
) 3 (
e < . <
2
) (i
e < <
2
) (h
e < <
2
) (n
e
n : Banyaknya pengamatan
k : Parameter regresi
Jumlah h menunjukkan sejumlah subset data dengan kuadrat fungsi objektif terkecil.
Nilai h pada persamaan (8) akan membangun breakdown point yang besar sebanding dengan
50%. Algoritma LTS menurut Rousseeauw dan Van Driessen (1999) dalam Willems dan
Aels (2005) adalah gabungan FAST-LTS dan C-steps. Atau dapat juga hingga proses Final
Weighted Scale Estimator (FWLS). Fungsi pembobotnya yaitu :

>
=
ya , lainn
r /s e ,
w
LTS i
i
1
0
(9)
Dengan r=3 dan

=
=
n
i
i n h LTS
e
h
d s
1
2
) ( ,
1

) / 1 (
2
1
1
,
,
,
n h
n h
n h
c
hc
n
d
|
=

)) 2 / ) ((
1
1 ,
n n h
c
n h
+ u
=

Keterangan :
n = banyaknya pengamatan
u= fungsi komulatif normal standart
| = fungsi density normal standart
Tahapan algoritma yang digunakan FAST LTS, C-steps dan FWLS yaitu :
1) Menghitung estimasi parameter b
o

2) Menentukan n residual ( )
2
2
o i i i
b X y e = yang bersesuaian dengan (b
o
) kemudian
menghitung sejumlah 2 / ) 2 ( + + = k n h
o
pengamatan dengan nilai
2
) (i
e terkecil.
3) Menghitung
=
o
h
i
i
e
1
2
) (

6

4) Melakukan estimasi parameter b
new
dari h
o
pengamatan.
5) Menentukan n kuadrat residual ( )
2
2
new i i i
b X y e = yang bersesuaian dengan (b
new
)
kemudian menghitung sejumlah h
new
pengamatan dengan nilai
2
) (i
e terkecil.
6) Menghitung
=
new
h
i
i
e
1
2
) (

7) Melakukan C-steps yaitu tahap 4 sampai 6 untuk mendapatkan fungsi objektif yang
kecil dan konvergen.

Dengan metode LTS, model hubungan antara WRI Jan dan LP I diperoleh h = 9 subset data
dengan kuadrat fungsi objektif terkecil. Kemudian melalu FWLS didapatkan hanya variabel
intercept yang signifikan berpengaruh, R Square 18,19 % dan standard deviasi 12,38.

Tabel 3 LTS estimation WRI Jan dan LP I

Daftar Pustaka

Least Trimmed Squares (LTS) Method
Minimizing Sum of 9 Smallest Squared Residuals.
Highest Possible Breakdown Value = 46.67 %
Selection of All 105 Subsets of 2 Cases Out of 15
All 105 Subsets were Nonsingular
The best half of the entire data set obtained after full iteration consists of the cases:

1 2 3 5 6 8 9 10 14

Estimated Coefficients
VAR1 Intercep
0.185077954 71.338590984
LTS Objective Function = 5.9718260878
Preliminary LTS Scale = 12.891358639
Robust R Squared = 0.0400913358
Final LTS Scale = 14.320108054

RLS Parameter Estimates Based on LTS

Approx Pr >
Variable Estimate Std Err t Value |t| Lower WCI Upper WCI

VAR1 0.17271883 0.11043383 1.56 0.1461 -0.0437275 0.38916515
Intercep 65.5970978 8.49476655 7.72 <.0001 48.9476613 82.2465343

Weighted Sum of Squares = 1685.6196264
Degrees of Freedom = 11
RLS Scale Estimate = 12.37893969
Weighted R-squared = 0.1819192278
F(1,11) Statistic = 2.4461050469

7

Drapper, N. R.,& Smith, H. 1996. Applied Regression Analysis, 2nd edition. New York:
John Wiley & Sons. Chapman and Hall.
Fox, J. 2002. Robust Regression. Error! Hyperlink reference not valid.. [1 Oktober
2008]
Hendon, HH. 2003. Indonesian Rainfall Variability: Impacts of ENSO and Local Air
Sea Interaction. J.Climate16:1775-1790. 28-45.
Kuzmic, Petr, et al. 2004. Practical Robust Fit of Enzyme Inhibition Data. Methods in
Enzymology. 383:366-381.
Montgomery, D. C., & Peck, E. A. 1992. Introduction to Linear Regression Analysis.
New York : A Wiley-Interscience Publication.
Myers, R. H. 1990. Classical and Modern Regression With Applications. Boston : PWS.
Ryan, T. P. 1997. Modern Regression Methods. New York : A Wiley-Interscience Publi-
cation.
Willems, G., & Aelst, S.V. 2005. Fast and robust bootstrap for LTS. Journal of
Computa-tional Statistics&Data Analyst.48.703-715

8

LAMPIRAN

Syntax Regresi dengan OLS
data data1;
title 'wri_jan dan lp1';
input lp1 wri_jan;
datalines;
91.991 83.12
91.833 95.81
89.096 87.71
73.530 100.77
88.748 51.61
86.529 106.69
58.958 30.91
81.885 30.59
80.160 53.43
78.538 60.79
72.598 130.31
49.337 35.25
42.033 64.97
67.540 47.68
340.130 96.93
;
proc reg data=data1;
model lp1 = wri_jan;
run;

Syntax Regresi dengan Tukey Bisquare
data data1;
title 'wri_jan dan lp1';
input lp1 wri_jan;
datalines;
91.991 83.12
91.833 95.81
89.096 87.71
73.530 100.77
88.748 51.61
86.529 106.69
58.958 30.91
81.885 30.59
80.160 53.43
78.538 60.79
72.598 130.31
49.337 35.25
42.033 64.97
67.540 47.68
340.130 96.93
;
proc robustreg data=data1 method=m(wf=bisquare(c=1)maxiter=100
convergence=coef);
model lp1= wri_jan/dignostics leverage;
output out=c r=resid sr=stdres w=weighted;
run;
9

Syntax Regresi dengan LTS
title1 'LTS estimation';
proc iml;
print "LTS estimation";
data1=
{
1 91.991 83.12,
1 91.833 95.81,
1 89.096 87.71,
1 73.53 100.77,
1 88.748 51.61,
1 86.529 106.69,
1 58.958 30.91,
1 81.885 30.59,
1 80.16 53.43,
1 78.538 60.79,
1 72.598 130.31,
1 49.337 35.25,
1 42.033 64.97,
1 67.54 47.68,
1 340.13 96.93};

a = data1[,3:3]; b = data1[,2];
optn = j(8,1,.);
optn[2]= 2;
optn[3]= 3;
optn[5]= -1;
optn[8]= 3;
CALL LTS(sc,coef,wgt,optn,b,a);

Regresi Robust

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Regresi Robust

Diunggah oleh

Hak Cipta:

Format Tersedia

1

Anda mungkin juga menyukai