Anda di halaman 1dari 47

Outlier Pada Analisis Regresi

By Eni Sumarminingsih, SSi, MM


Pendahuluan
Tujuan dari Analisis Regresi adalah mengepas
persamaan pada peubah yang terobservasi
Model regresi linier klasik mengasumsikan
hubungan berikut :

Dimana n adalah ukuran contoh


Variabel xi1, …, xip adalah variabel penjelas dan yi
adalah variabel respon
Pada theori klasik diasumsikan eror ei menyebar
normal dengan rata – rata nol dan ragam 2
Jadi dengan analisis regresi kita menduga
parameter

Dari data
Dengan menggunakan metode penduga regresi
pada data tersebut didapatkan

Dimana adalah koefisien regresi


adalah nilai duga y yang didapat dari
persamaan berikut
Residual ri dari amatan ke I adalah selisih antara
y observasi dan y dugaan

Metode Kuadrat Terkecil (MKT) atau Ordinary


Least Square (OLS) adalah metode paling
populer untuk menduga parameter model
regresi
Ide dasar metode OLS adalah mencari nilai duga
paramete yang meminimumkan Jumlah
Kuadrat Galat
Efek Outlier pada Regresi Linier
Sederhana
Model Regresi Linier Sederhana

Misal kita memiliki 5 observasi (x1,y1),…, (x5,y5)


yang jika diplotkan akan tampak seperti
berikut : setiap titik sangat dekat dengan garis
regresi
Misalkan terdapat kesalahan penulisan y4, maka
titik (x4,y4) akan terletak jauh dari garis
idealnya.
Titik ini dinamakan outlier dalam y, dan
mempengaruhi garis LS
Outlier juga dapat terjadi dalam X. Berikut
adalah plot dari 5 titik (x1,y1), … (x5,y5)
berikut garis LS-nya
Misalkan kita membuat kesalahan dalam
mencatat x1 sehingga maka kita dapatkan
gambar berikut
Titik (x1,y1) dinamakan outlier dalam arah x dan
efeknya pada penduga LS sangat besar karena
merubah garis LS.
Titik (x1,y1) disebut leverage point
Perhatikan bahwa (xk,yk) dalam gambar berikut
bukan leverage point. Mengapa?
Breakdown Point
Misalkan terdapat sample dengan n titik data

Dan misalkan T adalah penduga regresi sehingga

Misalkan Z’ adalah sample yang didapat dari Z


dimana m titik dalam Z diganti dengan titik –
titik yang sembarang (ada kemungkinan
outlier)
Notasikan bias(m; T, Z) adalah bias maksimum
yang dapat disebabkan oleh kontaminasi
tersebut

Jika bias (m;T, Z) infinite berarti m outlier dapat


memiliki efek yang besar pada T atau dapat
dikatakan bahwa estimator “breaks down”
Breakdown point dari estimator T pada sample Z
didefinisikan sebagai

Dengan kata lain, break down point adalah


proporsi kontaminasi terkecil yang dapat
menyebabkan estimator T menghasilkan
yang cukup jauh dari T(Z)
Breakdown point untuk MKT (OLS) adalah

Karena telah kita lihat bahwa satu outlier sudah


dapat merubah nilai koefisien regresi
Hal ini menunjukkan bahwa OLS sangat sensitif
terhadap outlier
Identifikasi Pencilan pada Y
Dalam beberapa analisis regresi seringkali
ditemukan adanya amatan ekstrem, yaitu bernilai
jauh dengan amatan yang lain dalam sampel
Adanya amatan ekstrem atau pencilan ini dapat
menyebabkan residual yang besar dan seringkali
memiliki efek yang besar pada dugaan fungsi
regresi yang menggunakan OLS sehingga penduga
koefisien regresi menjadi bias dan atau tidak
konsisten
Pencilan harus diteliti dengan hati – hati apakah
sebaiknya amatan ini dipertahankan atau
dihilangkan.
Jika dipertahankan, efek pencilan ini harus
dikurangi
Suatu amatan dapat menjadi pencilan pada Y
atau pada X atau pada keduanya
Pendeteksian Outlier

Untuk pendeteksian pencilan , diperlukan suatu


matriks yang dinamakan hat matrix yang
dilambangkan dengan H
Penduga Y dapat ditulis sebagai

Dengan
Elemen diagonal dari matriks H memberikan
informasi tentang data observasi yang
mempunyai nilai leverage yang besar
Elemen diagonal ke-i dari matriks H yang
dilambangkan dengan hii diperoleh dari:
Dengan adalah vektor baris yang berisi nilai-
nilai dari variabel bebas atau independen
dalam pengamatan ke-i.
Pada elemen diagonal matriks H, diperoleh
dimana p adalah banyaknya
peubah dalam model
Pendeteksian pencilan pada X

Jika nilai lebih besar dari 2(p+1)/n maka


pengamatan ke-i dikatakan sebagai outlier
pada X (leverage point).
Pendeteksian Pencilan pada Y
Hipotesis yang digunakan untuk menguji adalah:
H0 : Pengamatan ke-i bukan outlier
H1 : Pengamatan ke-i merupakan outlier
Statistik uji yang dapat digunakan untuk
menguji adalah studentized residual atau
studentized deleted residual yang
didefinisikan:
Pendeteksian Pencilan pada Y
Kriteria yang digunakan untuk menguji ada
tidaknya outlier adalah

di mana p adalah banyaknya variabel bebas


ditambah satu
Pendeteksian Pengamatan
Berpengaruh
Pengamatan berpengaruh
• merupakan pengamatan yang berpengaruh
besar dalam pendugaan koefisien regresi
• memiliki nilai galat atau sisaan yang besar
atau mungkin pula tidak, tergantung pada
model yang digunakan
Metode untuk mendeteksi
pengamatan berpengaruh
1. Cook’s Distance
Cook’s Distance merupakan jarak antara
pendugaan parameter dengan MKT yang
diperoleh dari n pengamatan atau observasi
yaitu dan pendugaan parameter yang
diperoleh dengan terlebih dahulu menghapus
pengamatan atau observasi ke-i yaitu
Jarak tersebut dapat dituliskan sebagai berikut:

dengan
Hipotesis untuk menguji adanya pengamatan
berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruh
H1 : Pengamatan ke-i berpengaruh
kriteria yang digunakan untuk menguji hipotesis
tersebut adalah sebagai berikut, alpha = 0.5:
2. The Difference In Fits Statistic (DFITS)
Hipotesis untuk menguji adanya pengamatan
berpengaruh adalah sebagai berikut:
H0 : Pengamatan ke-i tidak berpengaruh
H1 : Pengamatan ke-i berpengaruh
merupakan pengaruh pengamatan atau
observasi ke-i pada nilai duga yang
didefinisikan sebagai
Kriteria yang digunakan untuk menguji hipotesis
tersebut adalah
Metode untuk Penanganan Pencilan
1. Metode Theil
Merupakan metode regresi nonparametrik
Tidak terpengaruh terhadap adanya data outlier
atau pencilan
Asumsi:
• Contoh yang diambil bersifat acak dan kontinyu;
• Regresi bersifat linier;
• Data diasumsikan tidak berdistribusi normal.
Misalkan terdapat n pasangan pengamatan,
(X1, Y1), (X2, Y2), …, (Xn, Yn), persamaan regresi
linier sederhana adalah:

Theil (1950) dalam Sprent (1991, hal 179-180)


mengusulkan perkiraan slope garis regresi
sebagai median slope dari seluruh pasangan
garis dari titik-titik dengan nilai X yang
berbeda
Untuk satu pasangan (Xi, Yi) dan (Xj, Yj) slope-
nya adalah

untuk i < j
penduga dinotasikan dengan dinyatakan
sebagai median dari nilai-nilai sehingga
Penduga M (M-Estimator) dengan
Fungsi Huber
Penduga M adalah solusi

(1)
Dimana (.) adalah fungsi kriteria yang dapat
berubah-ubah
fungsi krtiteria (.) mempunyai beberapa sifat
sebagai berikut:
Untuk mendapatkan penduga koefisien regresi
maka fungsi kriteria diturunkan dan
disamakan dengan nol

Dimana adalah hasil diferensiasi dari fungsi


kriteria dan Xij adalah observasi ke-i pada
regressor ke-j
Bentuk umum dari persamaan (1) adalah

Dan bentuk umum persamaan (2) adalah


Fungsi kriteria Huber yang didefinisikan sebagai
berikut :
Dan fungsi pengaruhnya adalah

Dengan
Persamaan kedua dapat dituliskan

Dengan

Jika maka persamaan (2) menjadi


Untuk fungsi pengaruh Huber, diperloleh
pembobot sebagai berikut :
Langkah-langkah penghitungan penduga M:

Anda mungkin juga menyukai