Anda di halaman 1dari 23

1

PENCILAN (OUTLIER)



OLEH :
SOEMARTINI












JURUSAN STATISTIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS PADJADJARAN
JATINANGOR
2007
2
DAFTAR ISI
DAFTAR ISI .........................................................................................................i
BAB I : PENDAHULUAN....................................................................... 1
1.1. Latar Belakang...................................................................... 1
1.2. Tujuan................................................................................... 2
1.3. Manfaat................................................................................. 2
BAB II : TINJAUAN PUSTAKA............................................................. 3
2.1.Analisis Residual dan Defenisi ........................................ 3
2.2. Dampak Pencilan.................................................................. 4
2.3. Identifikasi Pencilan............................................................. 4
2.3.1. Metode Grafis (Scatter Plot)...................................... 4
2.3.2. Boxplot....................................................................... 6
2.3.3. Leverage Values, DfFITS, Cooks Distance, dan
DfBETA(s)................................................................. 6
2.3.4. Internal Studentization ( Residu yang distudentkan) 7
2.4.Tindakan terhadap Pencilan...................................... 8
2.4.1. Pemodelan Regresi Menggunakan Metode Least
Trimmed Square........................................................ 8
2.4.1.1. Residu Robust (RR) dan Jarak Robust ( RD) .... 10
BAB III : CONTOH APLIKASI............................................................. 13
3.1. Pengidentifikasian Pencilan............................................... 13
3.1.1. Metode Grafis (Scatter Plot).................................... 14
3.1.2. Boxplot......................................................................15
3
3.1.3. Leverage Values, DfFITS, Cooks Distance, dan
DfBETA(s).................................................................16
Penanggulangan Pencilan ..........................................17
BAB IV : KESIMPULAN DAN SARAN.................................... ............19
4.1. Kesimpulan..........................................................................19
4.2. Saran ................................................................18
DAFTAR PUSTAKA..........................................................................................20
















4


BAB I
PENDAHULUAN

1.1. Latar Belakang
Analisis regresi merupakan analisis yang mempelajari bagaimana
membangun sebuah model fungsional dari data untuk dapat menjelaskan ataupun
meramalkan suatu fenomena alami atas dasar fenomena yang lain. Untuk itu kita
membutuhkan sekumpulan data prediktor untuk dapat menjelaskan data respon.
Hal pertama yang dilakukan dalam setiap analisis data adalah tahap
persiapan data yang meliputi pengumpulan dan pemeriksaan data. Proses
pengumpulan data dapat dilakukan dengan cara sensus atau sampling. Untuk
kedua hal tersebut, langkah yang dapat ditempuh adalah :
a. Mengadakan penelitian langsung ke lapangan atau laboratorium terhadap
objek penelitian.
b. Mengambil atau menggunakan, sebagian atau seluruhnya, dari sekumpulan
data yang telah dicatat atau dilaporkan oleh pihak lain.
c. Mengadakan angket, yakni cara pengumpulan data dengan menggunakan
daftar isian atau daftar pertanyaan yang telah disiapkan dan disusun
sedemikian rupa sehingga calon responden tinggal mengisi atau menandainya
dengan mudah dan cepat.
5
Tahap selanjutnya adalah pemeriksaan data. Hal ini dilakukan untuk
menghindari hal-hal yang tidak diinginkan, misalnya kekeliruan atau
ketidakcocokan tentang data.
Pada data yang diperoleh bukan dari angket, tidak jarang ditemukan satu
atau beberapa data yang jauh dari pola kumpulan data keseluruhan, yang lazim
didefenisikan sebagai data pencilan (outlier). Karena dalam suatu pengamatan
terhadap suatu keadaan tidak menutup kemungkinan diperoleh suatu nilai
pengamatan yang berbeda dengan nilai pengamatan lainnya. Hal ini mungkin
disebabkan oleh kesalahan pada saat persiapan data atau terdapat peristiwa yang
ekstrim yang mempengaruhi data.

Tujuan
Adapun tujuan dari penulisan makalah ini adalah untuk :
a. Menjelaskan definisi pencilan.
b. Mengetahui dampak keberadaan pencilan dalam analisis data, dalam hal ini
analisis regresi.
c. Menjelaskan metode-metode yang dapat dipergunakan dalam
mengidentifikasi keberadaan pencilan.

1.2. Manfaat
Manfaat yang dapat diperoleh dari penyusunan makalah ini adalah kita
dapat memahami tindakan yang perlu dilakukan dalam mengidentifikasi serta
menanggulangi keberadaan pencilan dalam data yang akan dianalisis.
6



BAB II
TINJAUAN PUSTAKA

2.1. Analisis Residual dan Definisi
Metoda yang digunakan dalam hubungannya dengan outlier ( pencilan) ,
influential observations ( pengamatan berpengaruh) , dan high leverage ( pengaruh
tinggi) adalah analisis residual .
Residual banyak memegang peranan penting dalam pengujian untuk model regresi
karena residual itu sendiri merupakan sisa pada suatu pengamatan .
e
i
= Y
i

Umumnya pengamatan yang dicurigai sebagai outlier, influential observations ,
dan high leverage dikategorikan ke dalam pelanggaran asumsi. Maka lebih tepat
jika digunakan analisis residual.
Berikut ini adalah beberapa definisi outlier :
1. Ferguson ( 1961)
Outlier adalah suatu data yang menyimpang dari sekumpulan data yang lain.
2. Barnett (1981)
Outlier adalah pengamatan yang tidak mengikuti sebagian besar pola dan
terletak jauh dari pusat data.
3. R.K. Sembiring (1950)
7
Outlier adalah pengamatan yang jauh dari pusat data yang mungkin
berpengaruh besar terhadap koefesien regresi.

4. Weissberg (1985)
Jika terdapat masalah yang berkaitan dengan outlier , maka diperlukan alat
diagnosis yang dapat mengidentifikasi masalah outlier , salah satunya dengan
menyisihkan outlier dari kelompok data kemudian menganalisis data tanpa
outlier.

2.2 Dampak Pencilan
Keberadaan data pencilan akan mengganggu dalam proses analisis data
dan harus dihindari dalam banyak hal. Dalam kaitannya dengan analisis regresi,
pencilan dapat menyebabkan hal-hal berikut :
Residual yang besar dari model yang terbentuk atau E[e] 0
Varians pada data tersebut menjadi lebih besar
Taksiran interval memiliki rentang yang lebar

2.2. Identifikasi Pencilan
Dalam statistik ruang, data pencilan harus dilihat terhadap posisi dan
sebaran data yang lainnya sehingga akan dievaluasi apakah data pencilan tersebut
perlu dihilangkan atau tidak. Terdapat beberapa metode untuk menentukan
batasan pencilan dalam sebuah analisis, yaitu :
2.2.1. Metode Grafis
8
Untuk melihat apakah terdapat pencilan pada data, dapat dilakukan dengan
memplot antara data dengan observasi ke-i ( i = 1, 2, 3, ..., n ) seperti gambar
berikut :
Gambar 1. Contoh scatter-plot dari data dengan observasi ke-i


Dari contoh di atas terdapat salah satu data, yakni observasi ke-28 yang
mengindikasikan merupakan pencilan.
Selain melalui scatter-plot di atas, jika sudah didapatkan model regresi
maka dapat dilakukan dengan cara memplot antara residual (e) dengan nilai
prediksi Y ( ). Jika terdapat satu atau beberapa data yang terletak jauh dari pola
kumpulan data keseluruhan maka hal ini mengindikasikan adanya pencilan.
Kelemahan dari metode ini adalah keputusan bahwa suatu data merupakan
pencilan sangat bergantng pada judgement peneliti, karena hanya mengandalkan
visualisasi grafis, untuk itu dibutuhkan seseorang yang ahli dan berpengalaman
dalam menginterpretasikan plot tersebut.
9
Dalam rangka meminimumkan kesalahan teknis, maka pendeteksian
dilakukan melalui perhitungan statistis yang akan dijelaskan pada bagian
selanjutnya.

2.2.2. Boxplot
Metode ini merupakan yang paling umum yakni dengan mempergunakan
nilai kuartil dan jangkauan. Kuartil 1, 2, dan 3 akan membagi sebuah urutan data
menjadi empat bagian. Jangkauan (IQR, Interquartile Range) didefinisikan
sebagai selisih kuartil 1 terhadap kuartil 3, atau IQR = Q3 Q1.
Data-data pencilan dapat ditentukan yaitu nilai yang kurang dari 1.5*IQR
terhadap kuartil 1 dan nilai yang lebih dari 1.5*IQR terhadap kuartil 3.


Gambar 2. Skema identifikasi pencilan menggunakan IQR atau boxplot













Pencilan
Pencilan
Nilai Ekstrim
Nilai Ekstrim
Q3
Q2
Q1
1.5R
1.5R
*
*
*
*
R = Q3 Q1
Batas Bukan
Pencilan
3R
3R
10

2.2.3. Leverage Values, DfFITS, Cooks Distance, dan DfBETA(s)
Sebelum menjelaskan ketentuan untuk metode di atas, terlebih dahulu
didefinisikan arti dari masing-masing metode :
Leverage Values; menampilkan nilai leverage (pengaruh) terpusat.
DfFITS atau Standardized DfFIT; menampilkan nilai perubahan dalam harga
yang diprediksi bilamana case tertentu dikeluarkan, yang sudah distandarkan.
Cooks Distance; menampilkan nilai jarak Cook
DfBETA(s); menampilkan nilai perubahan koefisien regresi sebagai hasil
perubahan yang disebabkan oleh pengeluaran case tertentu. Digunakan untuk
mendeteksi pencilan pada variabel bebas.
Adapun ketentuan yang berlaku dalam pengambilan keputusan adanya
pencilan atau tidak adalah sebagai berikut :
Gambar 3. Kriteria pengambilan keputusan adanya pencilan atau tidak

Ket. : n = Jumlah observasi (sampel); p = Jumlah parameter

2.3.4. Internal Studenization ( Residu Yang Distudentkan)
Umumnya outlier memiliki nilai y yang ekstrim. Untuk mendeteksi apakah
terdapat outlier atau tidak , Internal Studenization ( Residu yang distudentkan )
Hipotesis :
11
H
O
:
i
= o ( tidak terdapat outlier )
H
1
:
i
o ( tidak terdapat outlier )
= taraf nyata
Statistik Uji :

ii
i
i
p s
e
r

=
1
~
1 p n
t
Dimana : p + 1 = banyaknya parameter
p= banyaknya variabel bebas
p
ii
= diagonal utama matriks prediksi
Kriteria uji : H
O
ditolak
Jika
i
r >
1 ; 2 / p n
t

, dan H
O
diterima jika
i
r <
1 ; 2 / p n
t

,

2.4. Tindakan terhadap Pencilan
Bila ternyata hasil identifikasi menunjukkan adanya pencilan, maka yang
dapat dilakukan adalah membuang/menghilangakan data pengamatan tersebut,
jika tidak memberikan pengaruh setelah dilakukan pengujian. Karena
bagaimanapun juga keberadaan data pencilan mengganggu proses analisis.
Sedangkan dalam upaya mengantisipasi kemungkinan data pencilan yang
disebabkan kekeliruan teknis, maka tahap persiapan data merupakan hal sangat
perlu diperhatikan.

2.4.1.Pemodelan Regresi Menggunakan Metode Least Trimmed Square
12
Metode Least Trimmed Squares sebagai salah satu metode penaksiran
parameter model regresi yang robust terhadap kehadiran nilai pencilan. Adapun
tujuan yang ingin dicapai adalah mendapatkan nilai parameter model regresi yang
robust terhadap kehadiran nilai pencilan.
Analisis regresi robust telah digunakan selama ratusan tahun (Stigler,
1973) tapi tidak dengan serius sampai akhir-akhir ini. Metode ini merupakan
metode alternatif yang sesuai untuk data yang terkontaminasi nilai pencilan,
bahkan bisa menyaingi prosedur biasa yang asumsi standarnya terpenuhi
(Wilcox; Wiggins 2000).
Metode ini di kembangkan oleh Rousseeuw dan Leroy (1987).
Ketika menggunakan alat alat analisis, biasanya langkah pertama
adalah mencoba adalah menghapus pencilan kemudian mencocokkan data yang
sudah bagus dengan menggunakan metode kuadrat terkecil, , tetapi analisis
robust mencocokkan model regresi dengan sebagian besar data dan kemudian
mengatasi titik titik pencilan yang memiliki nilai residu yang besar sebagai
solusi robust tersebut. ( Rousseeuw dan Leroy 1987)
Jadi metode ini tidak membuang bagian dari data melainkan menemukan
model fit dari mayoritas data.
Misalkan model regresi linear multipel adalah
0 1 1 2 2 i i i i
Y X X = + + +
Model taksirannya adalah
0 1 1 2 2

i i i
Y X X = + +
Dan nilai residunya adalah
13

0 1 1 2 2

( )
i i i i
r Y X X = + +
Prinsip dari metode ini adalah meminimumkan
2
: ,
1
h
i n
i
r
=

dari sebanyak
n
h
| |
|
\ .
kombinasi data kemudian, model dengan jumlah kuadrat residu yang
terkecil dijadikan sebagai model fit. Dimana h = coverage; n = banyaknya
pengamatan; r = residu
Nilai h berada antara
3 1
1
2 4
n n p
h
+ + ( (
+
( (

tapi biasanya untuk
mendapatkan nilai maksimum breakdown yaitu mencapai 50% maka
3 1
4
n p
h
+ + (
=
(

dengan p = banyaknya parameter
Nilai breakdown adalah proporsi minimal dari banyaknya pencilan
dibandingkan seluruh data pengamatan.

2.4.1.1.Residu Robust (RR) dan Jarak Robust (RD)
Sebuah alat baru dikembangkan, yaitu residu robust dan jarak robust. Hal
ini memiliki banyak keuntungan. Pertama, robust residual-RD (yang diperoleh
dari model fit Least trimmed squares) lebih baik menunjukkan pencilan pada
regresi dibandingkan dari pada residu kuadrat terkecil, yang dipengaruhi efek
ketertutupan.
Pada regresi linier, pencilan adalah pengamatan dengan nilai residu yang
besar, artinya pada pengamatan tersebut nilai variabel bebas tidak sesuai dengan
nilai yang diberikan oleh variabel tak bebas.
14
Titik pencilan dapat dideteksi dengan menggunakan nilai residualnya.
{
0 jika r 3
Titik Pencilan
1 untuk lainnya

=

Dimana
0 1 1 2 2

( ) , 1,...,
i i i i
r Y X X i n = + + =
Untuk alasan yang sama, jarak robust mendiagnosis titik leverage lebih
reliabel (dapat dipercaya) daripada Mahalanobis klasik atau Hat diagonal.
Leverage adalah pengamatan dengan nilai ekstrim pada variabel tak bebas atau
ukuran jauhnya variabel tak bebas menyimpang dari rata-ratanya.
Titik leverage dapat dideteksi dengan menggunakan jarak robust.
{
i
0 jika RD(X ) ( )
LEVERAGE
1 untuk lainnya
C p
=

Dengan cut value
2
;1
( )
p
c p


=

Jarak Robust
( ) ( ) ( ) ( ) ( )
1
( )
T
i i i
RD X X T X C X X T X

(
=


( ) ( ) dan T X C X adalah vektor rata-rata robust dan matriks kovarians
robust.
Dan terakhir plot antara residu robust dan jarak robust memungkinkan
pengguna untuk mencirikan/membedakan 4 model titik yaitu: observasi biasa,
pencilan vertikal, titik good leverage dan titik bad leverage.
1. Observasi regular yaitu suatu titik yang memiliki nilai residu robust dan nilai
jarak robust kecil.
2. Pencilan yaitu yaitu suatu titik yang memiliki nilai residu robust besar dan
nilai jarak robust kecil.
15
3. Good leverage yaitu suatu titik yang memiliki nilai residu robust kecil dan
nilai jarak robust besar. Ini berarti bahwa Xi menjauh tetapi Yi cocok dengan
garis linear.
4. Bad leverage yaitu suatu titik yang memiliki nilai residu robust dan nilai
jarak robust besar. Titik ini lebih berbahaya dari pada pencilan karena
memiliki pengaruh paling besar pada regresi linear klasik.
Tentu saja tidak selalu semua titik ini dimiliki oleh data.
Adapun langkah-langkah nya adalah sebagai berikut :
1. Tentukan nilai h, gunakan
3 1
4
n p
h
+ + (
=
(

.
2. Buat subset dari data yaitu sebanyak
n
h
| |
|
\ .
.
3. Gunakan metode kuadrat terkecil biasa untuk mendapatkan nilai parameter
dan residu dari tiap subset.
4. Tentukan model fit dengan mencari jumlah kuadrat residu yang terkecil dari
keseluruhan subset.
Setelah didapat model yang fit, kemudian
1. Hitung nilai residu robust untuk menentukan titik pencilan.
2. Hitung nilai jarak robust untuk menentukan titik leverage
3. Buatlah plot antara jarak robust vs residu robust.




16
BAB III
CONTOH APLIKASI

3.1 Pengidentifikasian Pencilan
Untuk lebih memperjelas pemahaman mengenai pencilan ini, teori-teori
yang telah diuraikan sebelumnya akan diterapkan pada contoh. Diketahui data
sebagai berikut :
Tabel 3.1 Data Penelitian

Ket. : X
1
= Blood Clotting Score; X
2
= Prognostic Index; X
3
= Enzyme Function Test;
Y = Suvival Time; X
3
= Enzyme Function Test; X
4
= Liver Function Test;

17
Berdasarkan data di atas, akan dilakukan pengidentifikasian keberadaan
pencilan melalui metode-metode yang telah diuraikan sebelumnya, yaitu :

3.1.1. Metode Grafis
Melalui metode grafis diperoleh gambar berikut :
Gambar 4. Scatter-plot

18
Kelima gambar di atas menunjukkan scatter-plot untuk semua variabel
penelitian. Pada masing-masing plot mengindikasikan adanya pencilan. Demi
memudahkan pembacaan gambar, penulis memberikan label nomor pada data
yang diduga merupakan pencilan.
Untuk lebih memberikan keyakinan atas keputusan dari hasil analisis
visual di atas, dilakukan analisis lainnya.

3.1.2. Boxplot
Untuk keperluan ini terlebih dahulu dihitung nilai kuartil (Q) 1, 2, dan 3
serta jangkauan (IQR, Interquartile Range) sehingga diperoleh tabel berikut :
Tabel 3.2 Ringkasan Hasil Perhitungan Kuartil
X1 X2 X3 X4 Y
Q1 5.025 52.500 67.250 2.020 110.500
Q2 5.800 63.000 79.000 2.595 155.500
Q3 6.500 76.000 89.500 3.275 216.500
IQR 1.475 23.500 22.250 1.255 106.000
1.5*IQR 2.213 35.250 33.375 1.883 159.000

Atau, bila disajikan dalam boxplot akan tampak seperti di bawah ini :
Gambar 5. Boxplot







19








Berdasarkan ketiga boxplot di atas, diketahui terdapat beberapa pencilan
pada masing-masing variabel, yaitu :
Data ke-28, 37, dan 43 pada variabel Blood Clotting (X
1
)
Data ke-38 pada variabel Prognostic (X
2
)
Data ke-16 dan 32 pada variabel Enzyme (X
3
)
Data ke-5; 21, 28 dan 43 pada variabel Liver (X
4
)

3.1.3. Leverage Values, DfFITS, Cooks Distance, dan DfBETA(s)
Dari perhitungan diperoleh nilai-nilai berikut :
Leverage Values = (2p 1)/n = (2*5-1)/54 = 0.1667
DfFITS = 2*sqrt(p/n) = 2*sqrt(5/54) = 0.6086
Cooks Distance = F(0.5;p,n-p) = F(0.5;5, 49) = 0.8824
DfBETA(s) = 2/sqrt(n) = 2/sqrt(54) = 0.2722
Dengan kriteria di atas, akan diidentifikasi keberadaan pencilan pada
masing-masing variabel (prediktor maupun respon).
20
Tabel 3.3. Case Summaries Identifikasi Pencilan

21
Pendeteksian pencilan pada data observasi Y menunjukkan terdapat
beberapa observasi yang merupakan pencilan (berdasarkan kriteria hat matrix)
yakni data ke-28, 32, dan 38.
Sedangkan pendeteksian outlier observasi variabel X
i
menunjukkan
terdapat beberapa observasi yang merupakan pencilan (berdasarkan kriteria
DfBETA(s)) yakni :
Data ke-21, 28, dan 50 pada variabel X
1
.
Data ke-21 pada variabel X
2
.
Data ke-21 pada variabel X
3
.
Data ke-17 pada variabel X
4
.

3.2. Penanggulangan Pencilan
Untuk menanggulangi pencilan pada data, yaitu dengan mengeluarkan atau
membuang observasi ke-i pada data yang diduga merupakan pencilan. Kemudian
dilakukan pengujian kembali untuk mendeteksi terdapat atau tidaknya pencilan
pada data sampai tidak terdapat lagi pencilan pada data tersebut.
Meskipun pencilan identik dengan data yang tidak bagus, akan tetapi ia
merupakan bagian terpenting dari data, karena menyimpan informasi tertentu.
Untuk itu, alternatif yang dapat diambil terhadap data yang terkontaminasi
pencilan adalah dengan menggunakan metode Least Trimmed Square dalam
penaksiran model regresi.


22
BAB IV
KESIMPULAN DAN SARAN

4.1. Kesimpulan
Pencilan (outlier) adalah suatu data yang jauh berbeda dibandingkan
terhadap keseluruhan data. Data yang jauh berbeda ini disebabkan oleh kesalahan
pada saat sampling, analisis, atau terjadi pada saat pemfilteran.
Pencilan dapat menyebabkan hal-hal berikut:
Residual yang besar dari model yang terbentuk atau E[e] 0
Varians pada data tersebut menjadi lebih besar
Taksiran interval memiliki rentang yang lebar
Pencilan dapat dideteksi dengan metode grafis, Boxplot, atau Leverage
Values, DfFITS, Cooks Distance, dan DfBETA(s). Pencilan dapat ditanggulangi
dengan membuang observasi ke-i yang dianggap pencilan. Adapun alternatif
lainnya adalah menggunakan metode Least Trimmed Square dalam penaksiran
model regresi, yang biasanya menggunakan OLS.

4.2. Saran
Saran untuk penelitian selanjutnya adalah supaya peneliti lebih banyak
mambaca dan mendapatkan bahan tentang pencilan, supaya mendapatkan lebih
banyak cara untuk mendeteksi dan menanggulangi pencilan pada data.


23
DAFTAR PUSTAKA

Atkinson A.C (1981). Two Graphical Display for Outlying and Influential
Observation in Regression. Technometricss
Chen , Colin .2002. The Robust Regression and Outlier Detection with the
ROBUSTREG
Procedure . SUGI Paper 265-267 .SAS Institute : Cary , NC
Dien Sukardinah , Soemartini , I.Gde Mindra . 2005. Bahan Kuliah Regresi
Lanjutan ,
Jurusan Statistika , UNPAD- Bandung .
Gujarati (1988). Basic Econometrics 2
nd
. Ed., Mc Graw-Hill Book. Co. New York
Hawkins ,D.M.,1994.The Feasible Solution Algorithm for Least Trimmed
Squares
Regression .Comput.Statst. Data Anal. 17,185-196
Imon, Rahmatullah. 2007, Robust Regression, Postgraduate Lecture Series 3.
Institute of Mathematical Sciences University of Malaya.
Lane, Ken. 2002. What is Robust Regression and How Do You Do it?
MathSoft (1999a), S-Plus 2000 Users Guide, Chapter 9. Data Analysis Produts
Division, MathSoft, Seattle, WA.
Rousseeuw, P.J. (1991), Diagnostic Plot for Regression Outlier and Leverage
Point, Statistical Software Newsletter, 127-129.
Rousseeuw, P.J. 1998. High Breakdown Value Estimation in SAS 9.0 Help and
Documentation.
Rousseeuw, P.J., and van Zomeren, B.C (19990), Unmasking Multivariate
Outliersand Leverage Points, Journal of the American Statistical
Association, 85, 633-651.
STATA 9 Reference Manual, Stata Data Analysis Exsample Robust Regression,
STATA Press, College Station, Tex., 249-254.