Anda di halaman 1dari 12

REGRESI ROBUST UNTUK MENGATASI OUTLIER

PADA REGRESI LINIER BERGANDA

Isma Hasanah

isma_semangat@yahoo.co.id

Agustini Tripena, Br. Sb

Universitas Jenderal Soedirman

ABSTRACT. Regression analysis is statistic analysis for building a relation model between dependent variable and independent variable. To get a fit regression model, a good data is needed. A good data is a data which is laid surrounding the regression line. Actually, sometimes there is data which is laid far from the regression line or all of data pattern. The data is known as outlier. This research use least square method to estimate parameter of multivariate regression model, while to solve outlier use M estimation. Procedure of M estimation is minimizing the objective function, so the estimation of parameter model is obtained.

Keywords : Outlier, M estimation and robust regression model.

ABSTRAK. Analisis regresi merupakan analisis statistik yang bertujuan untuk memodelkan hubungan antara variabel tak bebas dengan variabel bebas. Model regresi yang baik, memerlukan data yang baik pula, yaitu data yang berada disekitar garis regresi. Kenyataannya, terkadang terdapat data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data tersebut dikenal dengan istilah pencilan atau outlier. Pada penelitian ini, digunakan metode kuadrat terkecil untuk mengestimasi parameter model regresi linier berganda, sedangkan untuk mengatasi outlier digunakan estimasi M. Prosedur estimasi M adalah meminimalisasi fungsi obyektif, sehingga diperoleh persamaan estimasi parameter model regresi robust.

Kata Kunci: Outlier, estimasi M dan model regresi robust.

1. PENDAHULUAN

merupakan analisis statistik yang bertujuan untuk

memodelkan hubungan antara variabel tak bebas dengan variabel bebas. Model

regresi yang baik memerlukan data yang baik pula. Suatu data dikatakan baik

apabila data tersebut berada di sekitar garis regresi. Kenyataannya, terkadang

terdapat data yang terletak jauh dari garis regresi atau pola data keseluruhan. Data

tersebut dikenal dengan istilah pencilan atau outlier. Outlier merupakan suatu

keganjilan dan menandakan suatu titik data yang sama sekali tidak tipikal

dibanding data lainnya (Draper dan Smith,1992).

Analisis

regresi

Outlier tidak dapat dibuang atau dihapus begitu saja dari pengamatan. Menurut Draper dan Smith (1992), adakalanya outlier memberikan informasi yang tidak bisa diberikan oleh titik data lainnya, misalnya karena outlier timbul dari kombinasi keadaan yang tidak biasa yang mungkin saja sangat penting dan perlu diselidiki lebih jauh. Outlier dapat diabaikan apabila setelah ditelusuri ternyata merupakan akibat dari kesalahan mencatat amatan yang bersangkutan atau kesalahan ketika menyiapkan peralatan. Salah satu metode untuk mengatasi outlier adalah regresi robust. Regresi robust merupakan metode regresi yang digunakan ketika distribusi dari residual tidak normal dan atau mengandung beberapa outlier yang berpengaruh pada model (Ryan, 1997). Regresi robust digunakan dengan tujuan untuk memperoleh model terbaik yang robust atau kekar terhadap outlier. Teori mengenai regresi robust pernah dikaji oleh Fox pada tahun 2002. Chen (2002) mengaplikasikan metode-metode estimasi yang ada pada regresi robust dengan jenis data yang berbeda-beda. Momeni, dkk (2010) juga mengaplikasikan regresi robust pada analisis data finansial. Hal tersebut menggambarkan bahwa regresi robust dapat diterapkan diberbagai bidang, seperti bidang ekonomi, pertanian dan lain-lain. Artikel ini mengkaji regresi robust dalam mengatasi outlier pada model regresi berganda. Adapun studikasus yang digunakan adalah pengaruh banyaknya benih padi, pupuk organik dan pupuk kimia terhadap produksi padi.

2. METODE PENELITIAN Metode penelitian yang digunakan penulis dalam penelitian ini meliputi studi pustaka dan studi kasus. Data yang digunakan pada penelitian ini merupakan data produksi padi di kecamatan Purwodadi kabupaten Purworejo pada tahun 2011, yang diperoleh dari Widhyotami (2012). Adapun langkah-langkah yang dilakukan dalam analisis data adalah:

a. Mencari data sekunder.

b. Mengestimasi parameter model regresi menggunakan metode kuadrat terkecil.

c. Untuk masing-masing iterasi t, hitung , , , dan pembobot

Nilai ψ( dihitung sesuai fungsi Huber, dan ,

,

.

,

,

.

d. Mencari estimasi pada masing-masing iterasi dengan weighted least square,

yaitu (X T W t-1 X) -1 X T W t-1 Y.

e. Tahap (c) dan (d) diulang sampai diperoleh estimasi parameter model yang

konvergen, artinya selisih hasil iterasi t dengan iterasi 1 bernilai nol.

f. Perhitungan dilakukan menggunakan program komputer, yaitu Minitab 14

dan perhitungan secara manual.

3. HASIL DAN PEMBAHASAN

Bagian ini membahas estimasi M dan penerapannya dalam mengatasi

outlier pada suatu studi kasus. Studi kasus yang digunakan adalah pengaruh

banyaknya benih, pupuk organik dan pupuk kimia terhadap produksi padi.

3.1 Estimasi M

Estimasi parameter menggunakan jumlah kuadrat terkecil menjadi

kurang baik apabila distribusi residual-nya tidak normal dan mengandung outlier.

Salah satu solusinya adalah menggunakan regresi robust. Metode regresi robust

yang paling sering digunakan adalah estimasi M, yang diperkenalkan oleh Huber

pada tahun 1973 (Chen, 2002).

Secara umum, persamaan model regresi linier yaitu

untuk data ke-i dan n pengamatan. Taksiran modelnya adalah

.

3.1

Menurut Fox (2002), pada umumnya, estimasi M meminimalisasi fungsi obyektif

dengan persamaan

.

3.2

Kemudian, dicari turunan parsial pertama fungsi obyektif terhadap , j =

0,

persamaan estimasi sebagai berikut

1,

2,

,

k dan disamakan dengan nol. Hal

ini menghasilkan p =

k

+

1

,

3.3

dengan dan merupakan fungsi influence yang digunakan untuk

memperoleh bobot. Lalu, residual-nya distandardisasi, sehingga persamaan (3.3)

menjadi

/

.

3.4

Menurut Fox (2002), nilai

, dengan MAR merupakan Median

,

Absolute Residual, yang dapat dicari dengan rumus

Didefinisikan fungsi

pembobot

yang distandardisasi, sehingga . Persamaan (3.4) dapat ditulis menjadi

Persamaan (3.5) dapat ditulis sebagai berikut

.

, dengan merupakan residual

.

3.5

/

atau

.

W merupakan matriks diagonal berukuran , dengan sebagai elemen

diagonalnya. Persamaan (3.5) dikalikan dengan pada kedua ruas,

estimasi parameternya menjadi

.

3.6

3.2 Studi Kasus

Peneliti ingin mengetahui pengaruh banyaknya benih ( ), pupuk

organik ( ) dan pupuk kimia ( ),terhadap produksi padi (Y). Adapun data

tersebut sebagai berikut.

Tabel 1. Data Pengamatan Produksi Padi

No

Y (Kg)

(Kg)

(Kg)

(Kg)

1

2,5

320

5

280

2

10

1000

70

1100

3

15

1000

150

3000

4

2

1200

100

1200

5

7

1500

30

1700

6

5

2000

20

1000

7

15

2000

100

2800

8

30

2000

200

3600

9

5

570

55

2400

10

40

5000

350

6000

11

12

2500

20

2200

12

20

2500

100

3000

13

8

1500

15

1200

14

7

2000

20

1200

15

15

2500

50

1500

16

5

1000

10

1000

17

3,5

500

5

600

18

3

500

3

500

19

15

2000

100

3000

20

10

1500

15

1700

21

7

2000

10

1700

22

10

2500

20

2000

23

15

3000

100

3600

24

14

2500

55

2500

25

10

1500

90

2200

26

8

2000

45

2000

27

10

1000

40

2300

28

7

1000

5

1200

29

11

2000

10

1800

30

9

1500

15

1800

3.2.1 Estimasi Regresi Linier Berganda

Selanjutnya, data pada Tabel 1 diestimasi menggunakan metode kuadrat

terkecil untuk mendapatkan estimasi parameter model regresi linier berganda.

Rumus yang digunakan sebagai berikut

.

Hasil yang diperoleh sebagai berikut

551

53

0,274

6,48

,

sehingga, taksiran modelnya menjadi 551 53 0,274 6,48 .

3.2.1.1Identifikasi Outlier

a. Boxplot

Identifikasi outlier dapat menggunakan metode grafis, yaitu boxplot.

Adapun hasil yang diperoleh menggunakan Minitab 14 sebagai berikut:

Boxplot of Produksi 6000 5000 4000 3000 2000 1000 0 Produksi
Boxplot of Produksi
6000
5000
4000
3000
2000
1000
0
Produksi

Gambar 2.BoxplotVariabel Produksi Padi (Y).

Boxplot of Benih 40 30 20 10 0 Benih
Boxplot of Benih
40
30
20
10
0
Benih

Gambar 3. Boxplot Variabel Benih.

Boxplot of Pupuk organik 5000 4000 3000 2000 1000 0 Pupuk organik
Boxplot of Pupuk organik
5000
4000
3000
2000
1000
0
Pupuk organik

Gambar 4.Boxplot Variabel Pupuk Organik.

Boxplot of Pupukkimia 400 300 200 100 0 Pupuk kimia
Boxplot of Pupukkimia
400
300
200
100
0
Pupuk kimia

Gambar 5.Boxplot Variabel Pupuk Kimia.

Suatu data dikatakan outlier apabila data tersebut bernilai kurang dari 1,5 IQR terhadap kuartil 1, atau bernilai lebih dari 1,5 IQR terhadap kuartil 3. Oleh karena itu, diperlukan perhitungan nilai kuartil 1, kuartil 3 dan IQR agar dapat mengidentifikasi outlier menggunakan boxplot. Adapun perhitungan tersebut sebagai berikut.

Tabel 2. Perhitungan IQR

Variabel

Nilai Q 1

Nilai Q 3

Nilai IQR

X

1

6,5

15

8,5

X

2

1000

2125

1125

X

3

17,5

100

82,5

Y

1200

2575

1375

Berdasarkan Tabel 2, diketahui bahwa tidak terdapat data yang nilainya lebih dari 3 IQR terhadap Q 3 , atau nilainya kurang dari 3 IQR terhadap Q 1 , namun terdapat data yang nilainya lebih dari 1,5 IQR terhadap Q 3 . Oleh karena

itu, dapat disimpulkan bahwa titik yang terdapat di luar kotak boxplot merupakan outlier. Selanjutnya data keberapa saja yang merupakan outlier dapat diketahui menggunakan metode DfFITS.

b. Metode DfFITS Selain menggunakan metode grafis, untuk mengidentifikasi outlier dapat

menggunakan metode DfFITS. Data yang merupakan outlier merupakan data

yang nilai mutlak DfFITS-nya lebih besar dari 2 2 0,632

Tabel 3. Nilai DfFITS

Data

DfFITS

|DfFITS|

10 -1,53870

1,53870

21 0,10920

0,10920

ke-

11 0,16792

0,16792

22 0,08515

0,08515

1

-0,43283

0,43283

12 0,04277

0,04277

23 0,72951

0,72951

2

-0,47205

0,47205

13 -0,14258

0,14258

24 0,10491

0,10491

3

0,51878

0,51878

14 -0,26309

0,26309

25 0,07659

0,07659

4

-1,17832

1,17832

15 -0,67382

0,67382

26 0,11291

0,11291

5

0,07974

0,07974

16 -0,08323

0,08323

27 0,47854

0,47854

6

-0,42811

0,42811

17 -0,22045

0,22045

28 -0,01820

0,01820

7

0,11994

0,11994

18 -0,26448

0,26448

29 0,03946

0,03946

8

-1,01068

1,01068

19 0,21605

0,21605

30 0,14625

0,14625

9

1,05234

1,05234

20 0,07036

0,07036

Berdasarkan nilai DfFITS pada Tabel 3 di atas,terlihat bahwa ada beberapa data yang nilainya lebih besar dari 0,6325 (data yang dicetak tebal). Hal tersebut menunjukkan bahwa terdapat outlier pada data ke-4, ke-8, ke-9, ke-10, ke-15 dan data ke-23.

3.2.2Regresi Robust Estimasi M Dari hasil identifikasi outlier disimpulkan bahwa terdapat outlier pada data. Selanjutnya, untuk mengatasi hal tersebut digunakan regresi robust estimasi M. Adapun prosedur penyelesaiannya sebagai berikut:

a. Mengestimasi parameter model regresi menggunakan metode kuadrat terkecil, sehingga didapatkan , , dan menghitung ε i,0 = , , yang diperlakukan

sebagai nilai awal. Berdasarkan hasil estimasi regresi linier berganda, diperoleh nilai = 551, = 53, = 0,274, = 6,48, sehingga diperoleh estimasi model dan nilai residual sebagai berikut.

Tabel 6. Nilai Estimasi Model dan Nilai Residual

X

1

X

2

X

3

Y

,

2,5

320

5

280

803,58

-523,58

10

1000

70

1100

1808,6

-708,6

15

1000

150

3000

2592

408

2

1200

100

1200

1633,8

-433,8

7

1500

30

1700

1527,4

172,6

5

2000

20

1000

1493,6

-493,6

15

2000

100

2800

2542

258

30

2000

200

3600

3985

-385

5

570

55

2400

1328,58

1071,42

40

5000

350

6000

6309

-309

12

2500

20

2200

2001,6

198,4

20

2500

100

3000

2944

56

8

1500

15

1200

1483,2

-283,2

7

2000

20

1200

1599,6

-399,6

15

2500

50

1500

2355

-855

5

1000

10

1000

1154,8

-154,8

3,5

500

5

600

905,9

-305,9

3

500

3

500

866,44

-366,44

15

2000

100

3000

2542

458

10

1500

15

1700

1589,2

110,8

7

2000

10

1700

1534,8

165,2

10

2500

20

2000

1895,6

104,4

15

3000

100

3600

2816

784

14

2500

55

2500

2334,4

165,6

10

1500

90

2200

2075,2

124,8

8

2000

45

2000

1814,6

185,4

10

1000

40

2300

1614,2

685,8

7

1000

5

1200

1228,4

-28,4

11

2000

10

1800

1746,8

53,2

9

1500

15

1800

1536,2

263,8

b.

Menentukan dan pembobot awal , ,

,

, dengan ,

,

.

Nilai

diperoleh dengan menggunakan rumus

|

|

,

,

. Metode yang

digunakan untuk memperoleh fungsi pembobot adalah metode Huber, dengan koefisien r yang digunakan bernilai 1,345. Menggunakan nilai , pada Tabel

6 diperoleh nilai = 435,95. Hasil perhitungan pembobot , sebagai

berikut.

Tabel 7. Perhitungan ,

,

,

| ,

|

ψ(

,

-1,0078

1,0078

-1,0078

1

-1,3640

1,3640

-1,345

0,9861

0,7854

0,7854

0,7854

 

-0,8350

0,8350

-0,8350

 

0,3322

0,3322

0,3322

 

-0,9501

0,9501

-0,9501

 

0,4966

0,4966

0,4966

 

-0,7411

0,7411

-0,7411

 

2,0624

2,0624

1,345

0,6522

-0,5948

0,5948

-0,5948

1

0,3819

0,3819

0,3819

1

0,1078

0,1078

0,1078

1

-0,5451

0,5451

-0,5451

1

-0,7692

0,7692

-0,7692

1

-1,6458

1,6458

-1,345

0,8172

-0,2980

0,2980

-0,2980

1

-0,5888

0,5888

-0,5888

1

-0,7054

0,7054

-0,7054

1

 

0,8816

0,8816

1

 

0,2133

0,2133

1

 

0,3180

0,3180

1

 

0,2010

0,2010

1

 

1,5091

1,345

0,8913

 

0,3188

0,3188

1

0,2402

0,2402

0,2402

1

0,3569

0,3569

0,3569

1

1,3201

1,3201

1,3201

1

-0,0547

0,0547

-0,0547

1

0,1024

0,1024

0,1024

1

0,5078

0,5078

0,5078

1

1 0,8816

1 0,2133

1 0,3180

1 0,2010

1 1,5091

1 0,3188

c.

elemen

diagonalnya , , , , … , , . Kemudian menghitung penaksir koefisien

Menyusun

matriks

pembobot

berupa

matriks

diagonal

dengan

regresi , dengan menggunakan rumus

tersebut diperoleh nilai estimasi parameter yaitu

454,8963

42,6409

0,3855

6,6022

.

Hasil iterasi selengkapnya tersaji pada tabel berikut.

Tabel 8. Hasil Iterasi

Iterasi

b 0, robust

b 1, robust

b 2, robust

b 3, robust

 

1 454,8963

42,6409

0,3855

6,6022

 

2 437,3306

43,5426

0,3929

6,4829

 

3 434,8732

43,7432

0,3938

6,4589

 

4 434,4871

43,7777

0,3939

6,4547

 

5 434,4454

43,7832

0,3939

6,4541

 

6 434,4284

43,7839

0,3939

6,4540

 

7 434,4284

43,7839

0,3939

6,4540

Berdasarkan Tabel 8, terlihat bahwa selisih estimasi parameter pada iterasi ke-6

dan ke-7 sama dengan nol. Hal ini menunjukkan bahwa estimasi parameter telah

konvergen, sehingga diperoleh model regresi robust sebagai berikut

434,4284 43,7839 0,3939 6,4540 .

3.10

3.2.1.2Koefisien Determinasi (R 2 )

Berdasarkan nilai R 2 dapat diketahui tingkat signifikansi atau kesesuaian

hubungan antara variabel bebas dengan variabel tak bebas dalam model regresi

yang dihasilkan. Menggunakan rumus R 2

, diperoleh nilai R 2 untuk

model regresi linier berganda sebesar 0,837 = 83,7%, dan untuk model regresi

robust sebesar 0,8879 = 88,79%.

3.2.1.4Uji Signifikansi dan Kecocokan Model Regresi

a. Uji Individu

Hipotesis yang digunakan pada uji individu yaitu: H 0 : Koefisien

regresi tidak signifikan dan H 1 : Koefisien regresi signifikan. Taraf

signifikansi yang digunakan α = 0,05. Digunakan statistik uji yaitu nilai

untuk mengambil suatu kesimpulan, yang dapat dicari menggunakan

rumus

. Hasil yang diperoleh sebagai berikut.

Tabel 5. Nilai Model Regresi Linier Berganda

Tabel

Regresi Robust

9.

Nilai

Model

Variabel

Nilai

X

1

1,90

X

2

1,88

X

3

2,63

Variabel

Nilai

X

1

4,139

X

2

4,37

X

3

5,587

Berdasarkan tabel statistik, diperoleh nilai = 2,056. Variabel

X 1 dan X 2 pada model regresi berganda mempunyai nilai kurang dari

maka H 0 diterima, artinya koefisien regresi X 1 dan X 2 tidak signifikan.

Variabel X 3 mempunyai nilai lebih besar dari , maka H 0 ditolak,

artinya koefisien regresi X 3 signifikan. Variabel X 1 , X 2 , dan X 3 pada model

regresi robust mempunyai nilai lebih besar dari , maka H 0

ditolak, artinya koefisien model regresi robust X 1 , X 2 , dan X 3 signifikan.

b. Uji Serentak (Uji F)

Hipotesis yang digunakan pada uji serentak yaitu: H 0 : Variabel

bebas tidak berpengaruh pada variabel tak bebas, dan H 1 : Variabel bebas

berpengaruh pada variabel tak bebas. Taraf signifikansi yang digunakan α =

0,05. Digunakan statistik uji yaitu nilai , untuk mengambil suatu

kesimpulan. Nilai untuk model regresi linier berganda sebesar 50,63,

sedangkan untuk model regresi robust sebesar 231,1575. Berdasarkan

tabel statistik, diperoleh nilai = 2,98. Karena nilai model regresi

linier berganda dan regresi robust lebih besar dari , maka H 0 ditolak,

artinya variabel bebas berpengaruh terhadap variabel tak bebas.

4. KESIMPULAN DAN SARAN

4.1 KESIMPULAN

Berdasarkan hasil pembahasan dapat diambil kesimpulan bahwa koefisien determinasi model regresi menggunakan estimasi M lebih besar dibandingkan dengan koefisien determinasi model regresi menggunakan metode kuadrat terkecil, sehingga model regresi robust dikatakan lebih baik dibandingkan dengan model regresi menggunakan metode kuadrat terkecil.

4.2 SARAN

Penelitian ini hanya menggunakan estimasi M untuk mengatasi outlier,

sehingga untuk penelitian selanjutnya disarankan untuk menggunakan metode

estimasi robust yang lain, seperti estimasi S, LTS, LMS dan MM.

UCAPAN TERIMAKASIH

Penulis mengucapkan terimakasih kepada Ibu Rina Reorita, M.Si selaku

pembimbing II, beserta semua pihak yang telah membantu penulis dalam

menyelesaikan artikel ini.

DAFTAR PUSTAKA Chen, C .2002. The Robust Regression and Outlier Detection with the ROBUSTREG Procedure . SUGI Paper 265-267 .SAS Institute : Cary , NC Draper, N dan H. Smith. 1992. Analisis Regresi Terapan, Terjemahan Edisi Kedua. Jakarta: PT. GramediaPustakaUtama. Fox, J. 2002. Robust Regression. New York. Momeni, M, M. D. Neyeri, A. F. Ghayoumi dan H. Ghorbani. 2010. Robust Regression and its Application in Financial Data Analysis. World Academy of Science, Engineering and Technology. Ryan, T. P. 1997. Modern Regression Methods. New York : A Wiley-Interscience Publication. Widhyotami, T. P. 2012. Studi Komparatif Usaha Tani pada Pengguna Pupuk di Kecamatan Purwodadi Kabupaten Purworejo. Purwokerto: Unsoed.