Anda di halaman 1dari 10

Penanganan Outlier

Oleh : Tessy Badriyah


Pengertian Outlier
Seringkali pada data set, terdapat suatu nilai yang
berbeda, lain dari biasanya dan tidak mencerminkan
karakteristik data secara umum.
Nilai yang tidak konsisten tersebut dinamakan
dengan outlier.
Berikut contoh dari outlier :
Umur seseorang pada database diisi dengan nilai -1,
kesalahan tersebut terjadi dikarenakan setting default dari
field yang tidak diisi sehingga otomatis akan diisi dengan
nilai -1.
Jumlah anak yang dimiliki oleh seseorang adalah 25, nilai ini
tidak umum dan perlu diperiksa kebenarannya, mungkin
terjadi kesalahan ketik pada saat mengentri data.
Deteksi Outlier Berdasar
Teknik Statistik
Cara paling sederhana untuk mendeteksi
outlier untuk sample satu dimensi adalah
berdasarkan statistic.
Perlu dilakukan perhitungan nilai rata-rata
(mean) dan standart deviasi.
Kemudian berdasarkan nilai tersebut dibentuk
fungsi threshold berdasarkan fungsi standart
deviasi.
Semua sample yang berada diluar nilai
threshold berpotensi untuk dinyatakan
sebagai outlier
Handling Outlier based on
Statistics
Dimisalkan terdapat data set yang merepresentasikan fitur Usia
yang memiliki 12 (dua belas) nilai sebagai berikut :
Usia = {3,56,23,39,156,+1,22,9,28,139,31,55,20,-67,
37,11,55,+5,37)
Kemudian dilakukan perhitungan terhadap nilai mean dan variance
Nean = 39.9
Standard deviation = +5.65
Jika kita nyatakan nilai threshold untuk distribusi normal dari data
sebagai berikut :
Threshold = Nean 2 Standard deviation
Naka semua data yang berada diluar range {-51.+, 131.2)
dinyatakan sebagai outliers.
Usia sendiri diketahui bahwa nilainya selalu lebih dari nol sehingga
nilai threshold dapat dinyatakan dengan {0,131.2).
Coba cari, yang mana outlier ?
Distance-based Outlier
Detection
Netode ini berusaha mengeliminasi keterbatasan dari
pendeteksian outlier berdasarkan teknik statistic.
Perbedaan paling penting diantara dua metode ini adalah bahwa
metode yang kedua ini cocok digunakan untuk data dengan
banyak dimensi (multidimensi).
Cara yang digunakan pada pendekatan yang kedua ini adalah
dengan mengevaluasi nilai jarak (distance) diantara semua
sample data set yang berukuran n-dimensi.
Dinyatakan bahwa sampel si pada data set S adalah outlier jika
nilai p dari sample S yang memiliki jarak lebih besar daripada d,
nilainya lebih besar daripada nilai threshold yang sudah
ditentukan.
Dengan kata lain, outlier berdasarkan jarak (distance based
outliers) disini mencari data-data yang memiliki jumlah tetangga
jauh paling banyak (p) dari jarak d yang sudah ditetapkan.
!lustrasi Distance-based
Outlier Detection (1)
data set S dua dimensi berikut ini
dengan parameter pa+ dan da3
S={s1,s2,s3,s+,s5,s6,s7)
={(2,+),(3,2),(1,1),(+,3),(1,6),(5,3), (+,2))
Digunakan jarak Euclidian,
d = [(x1-x2)2 + (y1-y2) 2|
!lustrasi Distance-based
Outlier Detection (2)
!lustrasi Distance-based
Outlier Detection (3)
Kemudian berdasarkan tabel jarak tersebut kita
hitung nilai untuk parameter p dengan jarak
threshold yang sudah ditetapkan (d=3) untuk setiap
sample data. Dari tabel, bisa kita lihat bahwa
samples S3 dan S5 adalah outliers
LATIHAN SOAL :
1. Diberikan sample empat dimensi dengan missing value sebagai berikut :
X1={0,1,2,2)
X2={2,1,_,1)
X3={_,2,_,_)
Jika domain untuk semua atribut [0,1,2| dan missing value dinterprestasikan
sebagai don't'care value" lengkapi data tersebut sehingga tidak terdapat
missing value.
2. Jumlah anak yang dimiliki oleh pasien pada database rumah sakit dinyatakan
dengan vector berikut : C = {2,1,0,3,1,5,6,+,-2,0,0,8,15,6)
Temukan outliers dalam himpunan C dengan menggunakan standard statistical
parameters mean dan variance
Jika nilai threshold diubah dari 3 standard deviations ke 2 standard
deviations, ada berapa tambahan data yang menjadi outlier ?
3. Diberikan data set X tiga dimensi sebagai berikut :
X=[{1,2,0),
{2,1,+),{2,1,+),{0,1,3),{2,1,3),{+,3,2),{5,2,1),{6,6,6),{0,0,0),{2,3,3)|.
Temukan outliers dengan menggunakan distance based technique jika:
threshold distance=+, dan threshold fraction p untuk non-neighbor samples=3.
Latihan Pemrograman
Buat Prosedur (dalam bahasa
pemrograman apapun) untuk
menghilangkan outlier pada dataset