Deteksi Outlier Berbasis Cluster

Vol. 5, No.
3, Januari 2010 ISSN 0216 - 0544
DETEKSI OUTLIER BERBASIS KLASTER PADA SET DATA

DENGAN ATRIBUT CAMPURAN NUMERIK DAN KATEGORIKAL
*
Dwi Maryono, **Arif Djunaidy
Program Magister Teknik Informatika, Fakultas Teknologi Informasi, ITS
Jl. Raya ITS, Kampus ITS, Sukolilo, Surabaya, 60111
E-Mail: *wimar@cs.its.ac.id, **adjunaidy@its.ac.id
Abstrak
Deteksi outlier merupakan salah satu bidang penelitian yang penting dalam topik data
mining. Penelitian ini bermanfaat untuk mendeteksi perilaku yang tidak normal seperti
deteksi intrusi jaringan, diagnosa medis, dan lain-lain. Banyak metode telah
dikembangkan untuk menyelesaikan masalah ini, namun kebanyakan hanya fokus
pada data dengan atribut yang seragam, yaitu data numerik atau data kategorikal saja.
Kenyataan di lapangan, set data seringkali merupakan gabungan dari dua nilai atribut
seperti ini. Dalam penelitian ini diajukan sebuah metode untuk mendeteksi outlier
pada set data campuran yaitu MixCBLOF. Algoritma ini merupakan gabungan dari
beberapa teknik, seperti klasterisasi subset data, deteksi outlier berbasis klaster, dan
penggunaan Multi-Atribute Decision Making (MADM). Uji coba dilakukan pada
beberapa set data dari UCI Machine Learning Repository. Evaluasi dilakukan dengan
membandingkan rata-rata pencapaian coverage untuk top ratio antara jumlah outlier
eksak dengan jumlah data. Dari uji coba yang dilakukan, diperoleh hasil bahwa
MixCBLOF cukup efektif untuk mendeteksi outlier pada set data campuran dengan
rata-rata pencapaian coverage 73,54%. Hasil ini lebih baik dibandingkan dengan
algoritma CBLOF yang diterapkan pada set data yang telah didiskritisasi dengan rata-
rata pencapaian coverage 67,98%, untuk diskritisasi dengan K-Means, dan 59,48%
untuk diskritisasi dengan equal width.
Kata kunci: data campuran, deteksi outlier, Outlier berbasis klaster, CBLOF,
MixCBLOF.
Abstract
Outlier detection is one of most the important research on mining data. This data is
useful to detect abnormal behaviour such as networking detection, medical diagnosis
and the others. Such methods have been developed to solve these problems, yet mostly
focus on the data in similar attribute like numerical and categorical. Set data, in fact,
is combination of the two attributes. This research purposes a method to detect the
outlier at mix data set, like Mix CBLOF. Furthermore, algorithm is combination of
several techniques such as subset cluster, outlier detection cluster based, and Multi-
attribute Decision Making (MADM). A test was done of a set of data from UCI
Machine Learning Repository. The Evaluation is conducted to compare the means of
coverage achieiving for top ratio between the amount of exact outlier and the amount
of data. From the test, it can be concluded that MixCBLOF is effective to detect
outlier at set of mix data of means of coverage achieiving 73.54%. This result is better
with CBLOF algorithm which is applied at the data set discridit with coverage
achieiving 67.98% for discreet with K-Means, and 59.48% for equal width discreet.
Key words: mix data, outlier detection, outlier cluster based, CBLOF, MixCBLOF
.
PENDAHULUAN
197
198 Jurnal Ilmiah KURSOR Vol. 5, No. 3, Januari 2010, hlm.197-204
Deteksi outlier pada sekumpulan data adalah penggabungan klasterisasi subset data juga
salah satu bidang penelitian yang terus digunakan untuk menemukan outlier pada data
berkembang dalam topik data mining. numerik dengan konsep cluster uncertainty [5].
Penelitian ini sangat bermanfaat untuk Dari beberapa penelitian yang disebutkan di
mendeteksi adanya perilaku atau kejadian yang atas, dimungkinkan untuk melakukan beberapa
tidak normal seperti deteksi penipuan pendekatan yang dapat diusulkan dalam
penggunaan kartu kredit, deteksi intrusi penelitian ini. Di antaranya adalah pembagian
jaringan, penggelapan asuransi, diagnosa set data menjadi numerik dan kategorikal,
medis, segmentasi pelanggan, dan sebagainya. deteksi outlier pada subset data, dan
Bermacam-macam metode telah pemanfaatan klasterisasi untuk untuk deteksi
dikembangkan baik berdasarkan teknik ataupun outlier. Untuk dapat menerapkan ide tersebut
jenis data yang dijadikan obyek. Untuk set data digunakan definisi outlier yang paling tepat.
numerik, ada banyak teknik yang telah Outlier didefinisikan berbasis klaster, dimana
dikembangkan seperti statistic-based, distance- sebuah outlier didefinisikan sebagai sembarang
based, density-based, clustering-based, obyek yang tidak berada pada klaster yang
subspace-based, dan lain-lain. Sedangkan cukup besar [6]. Meskipun konsep ini
untuk set data kategorikal teknik yang dapat diusulkan untuk data kategorikal, tapi sangat
digunakan di antaranya adalah CBLOF, FPOF memungkinkan untuk diterapkan dengan data
dan LSA. Namun demikian kebanyakan metode numerik dengan menggunakan konsep jarak.
tersebut hanya fokus pada set data yang Penelitian ini dilakukan untuk
seragam, yaitu hanya terdiri dari salah satu tipe menggabungkan beberapa pendekatan di atas
atribut saja. Adanya tipe atribut yang berbeda dengan langkah-langkah sebagai berikut.
biasanya diatasi dengan melakukan Pertama, bagi set data menjadi dua bagian,
transformasi dari salah satu tipe data menjadi yaitu subset data numerik dan kategorikal [2].
tipe data yang lain, seperti diskritisasi atribut Selanjutnya dilakukan teknik klasterisasi dan
numerik. Namun demikian metode diskritisasi deteksi outlier pada masing-masing partisi
atribut numerik ini terdapat kekurangan seperti secara terpisah. Untuk meningkatkan hasil
yang disebutkan Tan dkk [1]. Kekurangannya, deteksi outlier pada keseluruhan data,
antara lain adalah sulitnya menetapkan jumlah dilakukan teknik persilangan. Hasil klasterisasi
interval yang tepat sehingga dapat sub data numerik digunakan untuk menentukan
menyebabkan banyak pola yang redundant atau derajat outlier berbasis klaster dengan atribut
sebaliknya banyak pola yang hilang. Ini akan sub data kategorikal. Dan sebaliknya hasil
sangat berpengaruh jika atribut numerik cukup klasterisasi sub data kategorikal digunakan
banyak dalam set data. untuk menentukan derajat outlier dengan
Sejauh ini tidak banyak penelitian yang menggunakan atribut numerik. Selanjutnya,
bekerja pada data campuran seperti ini. He dkk untuk menggabungkan hasil langkah-langkah
[2] telah melakukan klasterisasi pada data ini dapat digunakan multi-atribut decision
campuran dengan pendekatan divide and making (MADM) yaitu dengan menggunakan
conquer. Ia membagi set data menjadi dua fungsi atau operator agregat tertentu [7].
subset data, yaitu numerik dan kategorikal.
Masing-masing subset data diklasterisasi,
DETEKSI OUTLIER BERBASIS
kemudian hasilnya digabungkan. Data hasil
penggabungan keduanya kemudian diklaster KLASTER
lagi untuk mendapatkan hasil akhir. Hasil
Metode yang diajukan dalam penelitian ini
eksperimen menunjukkan bahwa metode ini
adalah pengembangan dari konsep outlier
cukup efektif untuk melakukan klasterisasi.
berbasis klaster yaitu dengan mendefinisikan
Jika klasterisasi dapat dilakukan dengan
konsep baru mengenai deteksi outlier berbasis
partisi data numerik dan kategorikal [2], maka
klaster [6] (Gambar 1).
tentunya cara ini juga memungkinkan untuk
deteksi outlier.
Mengingat penelitian lain juga menunjukkan
bahwa deteksi outlier pada subset data tertentu
dapat digunakan untuk mendeteksi outlier dari
keseluruhan set data [3,4] Selain itu,
Maryono dan Djunaidy, Deteksi Outlier Berbasis Klaster 199
Gambar 1 memperlihatkan data dua dimensi

yang terdiri dari empat klaster C1, C2, C3, dan
C4. Dari sudut pandang klaster, obyek-obyek
data pada C1 dan C3 dapat dianggap sebagai
outlier karena tidak terdapat pada klaster yang
besar yaitu C2 dan C4. C2 dan C4 disebut klaster
besar karena C2 dan C4 merupakan klaster yang
dominan pada set data, yaitu memuat sebagian
besar obyek pada set data [9].
Konsep CBLOF digunakan untuk
menyelesaikan masalah deteksi outlier pada
data kategorikal [6]. Namun, dalam penelitian
ini dapat ditunjukkan bahwa konsep ini juga
dapat dikembangkan untuk data numerik juga.
CBLOF (Cluster-Based Outlier Factor)

Gambar 1. Set Data DS1 [8]. Untuk mengidentifikasi signifikansi fisik dari
definisi outlier, setiap obyek didefinisikan
dengan sebuah derajat yang disebut dengan
CBLOF (Cluster Based Local Outlier Factor)
yang diukur dengan ukuran klaster di mana ia
berada dan jaraknya terhadap klaster terdekat
(jika ia terdapat dalam obyek kecil) [6].
Definisi 1: Misalkan A1, A2, ..., Am adalah
himpunan atribut dengan domain D1, D2, ...,
Dm. Set data D terdiri dari record atau transaksi
t: tD1 D2 Dm. Hasil klasterisasi pada D
dinotasikan sebagai C= {C1, C2, , Ck}
dimana Ci Cj = dan C1 C2 Ck=D,
dengan k adalah jumlah klaster.
Masalah yang penting pada tahap selanjutnya
adalah pendefinisian klaster besar (large
Gambar 2. Jarak Obyek dari Centroid cluster) dan klaster kecil (small cluster).
Terdekat [10].
Definisi 2: Misalkan C= {C1, C2, , Ck}
adalah himpunan klaster pada set data dengan
urutan ukuran klaster adalah |C1| |C2 |
|Ck|. Diberikan dua parameter numerik dan
. Didefinisikan b sebagai batas antara klaster
besar dan kecil jika memenuhi formula pada
Persamaan (1) dan (9).
(|C1|+|C2|+...+|Cb|)|D|* (1)
|Cb|/|Cb+1| (2)
Didefinisikan himpunan klaster besar (large
cluster) sebagai LC = {Ci, / i b} dan klaster
kecil (small cluster) didefinisikan dengan SC =
{Ci, / i >b}.
Definisi 2 memberikan ukuran kuantitatif untuk
Gambar 3. Jarak Relatif Obyek dari Centroid membedakan klaster besar dan kecil.
Terdekat [10]. Persamaan (1) menunjukkan bahwa sebagian
besar data bukan outlier. Oleh karena itu
klaster besar mempunyai porsi yang jauh besar.
Sebagai contoh jika diberikan 90% maka berdasarkan jarak saja akan menyebabkan
artinya lebih klaster besar memuat lebih dari masalah jika set data mempunyai kerapatan
90% dari total obyek data pada set data. yang berbeda-beda. Pada Gambar 2, dengan
Persamaan (2) menunjukkan fakta bahwa menggunakan jarak saja, obyek D tidak
klaster besar dan kecil harus memiliki dianggap sebagai outlier, padahal obyek
perbedaan yang signifikan. Jika diberikan = tersebut cenderung sebagai outlier lokal dari
5, artinya setiap klaster besar minimal 5 kali klaster terdekatnya. Sedangkan pendekatan
lebih besar dari klaster kecil. pada Gambar 3, akan mengidentifikasikan A,
C, dan D sebagai outlier sebagaimana
Definisi 3: Misalkan C = {C1, C2, , Ck} Algoritma LOF [9].
adalah himpunan klaster dengan urutan ukuran Namun demikian jika sebuah obyek berada
|C1| |C2| |Ck|. Didefinisikan LC dan SC dalam klaster yang kecil, maka untuk
sebagaimana Definisi 2. Untuk sembarang perhitungan dengan jarak relatif seperti di atas
record t, didefinisikan cluster-based local ia tidak akan terdeteksi sebagai outlier. Oleh
outlier factor sebagaimana Persamaan (3). karena itu, pada penelitian ini digunakan
| C | * max(sim (C j , t ) untuk t Ci , Ci SC dan C j LC (3) pendekatan sebagaimana pada CBLOF yang
CBLOF(t ) i
| Ci | *(sim(Ci , t )) untuk t Ci , Ci LC menganggap obyek-obyek dalam klaster yang
kecil sebagai kandidat outlier. Deteksi outlier
Fungsi sim(C,t) pada Persamaan (3) adalah menggunakan konsep mengenai klaster besar
fungsi kemiripan transaksi t terhadap kelas C dan klaster kecil juga, dimana derajat outlier
sebagaimana dalam algoritma Squeezer [8]. dihitung sebagai Numerical Cluster-based
Meskipun CBLOF diperuntukkan untuk data Local Outlier Factor (NCBLOF).
kategorikal dan dapat dikembangkan untuk Dalam CBLOF ada dua komponen
data numerik. Ini dilakukan dengan pembentukan derajat outlier, yaitu jumlah
mendefinisikan CBLOF dengan perhitungan anggota klaster besar terdekat dan
derajat outlier sebagaimana Persamaan (3). kemiripannya terhadap klaster terdekat
tersebut. Dua komponen ini digunakan juga
NCBLOF (Implementasi CBLOF pada Data untuk mendefinisikan NCBLOF sebagaimana
Numerik) Persamaan (4).
1
Salah satu pendekatan deteksi outlier berbasis | C j | relatif distance(t , C ) untuk t Ci , Ci SC dan C j LC,
j

klaster adalah dengan mengesampingkan
NCBLOF(t )
C j arg min(t , centroid(C j )) (4)
klaster-klaster kecil yang jauh dari klaster yang
1
lain. Pendekatan ini dapat digunakan dengan | Ci |
relatif distance(t , Ci ))
untuk t Ci , Ci LC
menggunakan sembarang teknik klasterisasi,

namun memerlukan threshold berapa jumlah Rumus NCBLOF pada Persamaan (4)
minimum ukuran klaster dan jarak antara didefinisikan dengan menyesuaikan
klaster kecil dengan klaster yang lebih besar. interprestasi derajat outlier pada CBLOF pada
Pendekatan lain adalah dengan menentukan Persamaan (3).
derajat dimana sebuah obyek berada pada
sembarang klaster. Sebagai perwakilan klaster
dapat digunakan centroid untuk menghitung MULTI CRITERIA DECISION
jarak antara obyek dengan klaster. MAKING (MCDM)
Ada beberapa cara untuk mengukur jarak
sebuah obyek ke sebuah klaster, yaitu dengan MCDM adalah cabang dari masalah
mengukur jarak sebuah obyek terhadap pengambilan keputusan, yang berkaitan dengan
centroid terdekat, atau dapat juga dengan pengambilan keputusan, di bawah keberadaan
mengukur jarak relatif obyek dengan centroid sejumlah kriteria keputusan. Metode ini dibagi
terdekat. Jarak relatif adalah rasio jarak obyek menjadi Multi-objective Decision making
terhadap centroid dibagi dengan jarak rata-rata (MODM) dan Multi-attribute decision making
semua titik terhadap centroid klaster di mana ia (MADM). Metodologi ini mencakup adanya
berada. konflik antar kriteria, incomparable unts, dan
Hasil derajat outlier dapat dilihat kesulitan dalam pemilihan alternatif. Dalam
berdasarkan shading. Pendekatan hanya MODM, alternatif-alternatif solusi tidak
ditentukan lebih dahulu. Melainkan pada set data campuran. Misalkan diberikan
sekumpulan fungsi obyektif dioptimasi sebuah set data D yang terdiri dari n obyek
terhadap sekumpulan konstrain atau batasan. dengan atribut campuran numerik dan
Dalam MADM, alternatif dievaluasi dengan kategorikal. Langkah-langkah Algoritma
mengatasi sekumpulan kriteria atau atribut MixCBLOF adalah sebagai berikut:
yang saling konflik. Masalah penggabungan 1. Bagi set data campuran menjadi dua bagian,
outlier dalam permasalahan penelitian ini yaitu set data numerik, D1 dan set data
termasuk dalam kategori ini. Masing-masing kategorikal, D2.
sub data numerik dan kategorikal dianggap 2. Lakukan klasterisasi pada subset data
sebagai sebuat atribut dalam MADM. Teori numerik D1 sehingga diperoleh sejumlah
yang banyak digunakan dalam MADM adalah klaster C11, C12, ..., C1p dengan ukuran
multi-atribut value theory (MAVT), dimana berturut-turut:
perangkingan alternatif keputusan |C11| |C12| ... |C1p|
dibangkitkan. Dalam prakteknya, metode Tentukan klaster besar (LC) dan klaster
berbasis MAVT menggunakan operator kecil (SC) menggunakan Definisi 2.
agregasi yang dirasa cocok untuk mendapatkan 3. Terapkan deteksi outlier berbasis klaster
faktor outlier dari seluruh obyek. Operator menggunakan atribut numerik, NCBLOF,
tersebut di antaranya adalah operator product terhadap obyek-obyek dalam klaster pada
(kali), sum (tambah), dan operator S. langkah 2 sebagaimana Persamaan (4).
Berikut adalah macam-macam operator 4. Terapkan deteksi outlier berbasis klaster
agregat yang dapat digunakan dalam MAVT: menggunakan atribut kategorikal terhadap
1. Operator Perkalian obyek-obyek dalam klaster pada langkah 2
Operator perkalian juga dikenal sebagai dengan CBLOF pada Persamaan (3).
metode perkalian berbobot. Operator ini 5. Lakukan klasterisasi pada sub set data
menggunakan perkalian untuk kategorikal sehingga diperoleh sejumlah
menghubungkan rating dari atribut sebagai klaster C21, C22, ..., C2q dengan ukuran
berikut: berturut-turut:
( a1, a2, ..., am) = (a1w1, a2w2, ..., amwm) = |C21| |C22| ... |C2q|
a1w1 a2w2 ... amwm = ai wi Tentukan klaster besar (LC) dan klaster
2. Operator Penjumlahan kecil (SC) menggunakan Definisi 2.
Operator penjumlahan juga disebut dengan 6. Terapkan deteksi outlier berbasis klaster
metode penjumlahan berbobot. Operator ini menggunakan atribut kategorikal terhadap
menggunakan penambahan untuk obyek-obyek dalam klaster pada langkah 2
menghubungkan rating dari atribut sebagai dengan CBLOF pada Persamaan (3).
berikut: 7. Terapkan deteksi outlier berbasis klaster
( a1, a2, ..., am) = +(w1 a1, w2 a2, ..., wm am) menggunakan atribut numerik terhadap
= w1 a1+w2 a2, ... +wm am = wi ai obyek-obyek dalam klaster pada langkah 5
3. Operator S dengan NCBLOF pada Persamaan (4).
Operator S juga dikenal dengan operator 8. Susun derajat outlier pada langkah 3, 4, 6,
maksimum atau operator agregasi dasar. dan 7 dalam matrik keputusan A=[aij].
Operator ini memberikan nilai terbesar dari 9. Lakukan pembobotan secara default (bobot
sekumpulan nilai yang diberikan sebagai sama) atau dengan metode Entropy.
berikut: 10. Gabungkan bobot outlier tiap obyek t1, t2, ..,
tn pada langkah 9 dengan fungsi agregat
( a1, a2, ..., am) = S (w1 a1, w2 a2, ..., wm
untuk mendapatkan derajat outlier akhir OF
am) = max { wi ai}
dari sebuah obyek ti.
OF(ti ) = (a1i, a2i, a3i, a4i)
HASIL DAN PEMBAHASAN

ALGORITMA MIXCBLOF
Algoritma MixCBLOF diimplemetasikan pada
Penelitian ini mengusulkan metode MixCBLOF beberapa set data nyata yang diperoleh dari
untuk menyelesaikan masalah deteksi outlier UCI Machine Learning Repository dengan
beberapa karakteristik khusus. Set data uji coba lebih mudah dalam melakukan analisa hasil,
terdiri dari atribut campuran numerik dan evaluasi dilakukan dengan melihat rata-rata
kategorikal serta memiliki beberapa kelas atau pencapaian coverage untuk top ratio antara
klaster dimana sebagian di antaranya adalah jumlah outlier eksak dengan jumlah
kelas dengan ukuran yang relatif lebih kecil keseluruhan data.
sehingga dapat dianggap sebagai sekumpulan Hasil uji coba algoritma MixCBLOF dapat
outlier. Data yang digunakan pada uji coba ini dilihat pada Tabel 1. Pencapaian coverage
adalah Set data Cleveland (Heart Disease), terbaik untuk top ratio antara jumlah outlier
Hypothyroid, Hepatitis, dan Annealing. Dalam eksak dengan jumlah keseluruhan data dicetak
algoritma MixCBLOF ini melibatkan dengan huruf tebal. Jika dilakukan rata-rata,
Algoritma Squeezer dan CBLOF untuk sub algoritma MixCBLOF mencapai coverage
data kategorikal, sedangkan untuk data 73.54%. Dari Tabel 1 dapat dilihat bahwa di
numerik digunakan Algoritma CLUTO [10] antara operator yang ada, operator perkalian
dan NCBLOF. menghasilkan kinerja yang lebih baik jika
Uji coba dijalankan sesuai dengan skenario dibandingkan dengan dua operator lainnya,
yang telah dirancang, yaitu: yaitu penjumlahan dan maksimum. Selain itu,
1. Menentukan parameter yang tepat utuk pembobotan sama menghasilkan kinerja yang
Algoritma MixCBLOF meliputi penentuan lebih baik jika dibandingkan pembobotan
, , operator agregat, dan pembobotan dengan pembobotan berdasaran entropy.
yang tepat untuk masing-masing set data Salah satu parameter yang juga penting,
2. Membandingkan MixCBLOF dibandingkan selain operator agregat dan pembobotan,
dengan algoritma lain, yaitu algoritma adalah dan yang mempengaruhi
CBLOF yang diterapkan pada set data yang dipenuhinya konsep klaster besar dan kecil.
sudah didiskritisasi. Pada Tabel 2 dapat dilihat hasil pencapaian
coverage untuk dua kasus, yaitu dipenuhinya
Evaluasi dilakukan dengan menggunakan
konsep klaster besar dan kecil atau tidak.
top ratio dan coverage. Top ratio adalah
Berdasarkan hasil Tabel 2, tidak ada perbedaan
perbandingan antara jumlah k outlier yang
yang signifikan terhadap dipenuhinya konsep
dihasilkan oleh algoritma (n top ratio) dengan
klaster besar dan kecil. Namun demikian
jumlah keseluruhan obyek dalam data.
konsep ini tetap dibutuhkan berdasarkan
Sedangkan coverage adalah rasio antara jumlah
definisi CBLOF yang dijelaskan di awal.
outlier eksak yang terdeteksi dengan jumlah
keseluruhan outlier eksak yang dicari. Agar
Tabel 1. Pencapaian Coverage untuk n = Jumlah Outlier Eksak pada Keseluruhan Set Data
Berdasarkan Operator dan Pembobotan.
Coverage
Set data (+) S
wi=1 entropy wi=1 entropy wi=1 entropy
Sub data Cleveland I 76.90% 53.80% 92.30% 76.90% 53.80% 23.10%
Sub data Cleveland II 77.00% 77.00% 89.00% 86.00% 66.00% 66.00%
Dataset Cleveland 73.00% 74.00% 76.00% 75.00% 69.00% 68.00%
Hypothyroid 72.10% 73.00% 47.50% 63.90% 9.00% 54.90%
Hepatitis 52.40% 33.30% 66.70% 47.60% 33.30% 19.00%
Annealing 35.30% 32.40% 47.10% 47.10% 26.50% 26.50%
Rata-rata 64.45% 57.25% 69.77% 66.08% 42.93% 42.92%
Tabel 2. Perbandingan Kinerja MixCBLOF Besar/Kecil

Dilihat dari Pemenuhan Konsep Iya Tidak
Klaster Besar dan Kecil. Sub Cleveland I 61.50% 53.80%
Hypothyroid 67.20% 72.10%
Set data Dipenuhi Konsep Klaster Hepatitis 66.70% 66.7%
Annealing 47.10% 47.10% diskritisasi dengan K-Means dan 59.48% untuk

Rata-rata Coverage 60.63% 59.93% diskritisasi dengan equal width.
Tabel 4 menampilkan informasi mengenai
running time dari algoritma MixCBLOF jika
Tabel 3. Perbandingan Pencapaian Coverage
dilihat dari jumlah atribut dan record pada
Terbaik untuk Top Ratio, N=Jumlah
masing-masing kasus. Uji coba ini dilakukan
Outlier Eksak, Antara Mixcblof
pada lingkungan sebagai berikut.
dengan CBLOF Berbasis
1. Hardware:
Diskritisasi Set Data.
a. Processor: Dual Core Genuine Intel
(R) CPU T2080 @ 1.73 GHz
Best Coverage
b. Memory: DDR 512 MB
CBLOF
Set data c. Hard disk: 80 GB
Equal
MixCBLOF K-Means 2. Software:
Width
Sub data 92.30% 84.60% 92.30% a. Microsoft Windows XP Professional
Cleveland I Version 2002 Service Pack 2
b. MATLAB Versi 7.0
Sub data 88.60% 82.90% 88.60%
Cleveland II
Hypothyroid 73.00% 66.40% 16.40% SIMPULAN DAN SARAN
Hepatitis 66.70% 61.90% 61.90%
Dari uji coba dan pembahasan yang telah
Annealing 47.10% 44.10% 38.20% dilakukan dapat ditarik simpulan sebagai
Rata-rata 73.54% 67.98% 59.48% berikut:
1. Berkaitan dengan penggunaan parameter
Tabel 4. Running Time Algoritma Algoritma MixCBLOF:
MixCBLOF dilihat dari Jumlah a. Penetapan nilai dan yang tepat
Atribut dan Record. diperlukan untuk mendapatkan konsep
klaster besar dan kecil. Hal ini berguna
untuk mendapatkan definisi outlier yang
Running
Jumlah Jumlah sesungguhnya sesuai dengan konsep
Set data time
record atribut outlier berbasis klaster. Mengenai
(detik)
177 14 0.125 besaran nilai dan dapat ditentukan
Sub data dengan melihat hasil klasterisasi pada
Cleveland I
kedua subset data numerik dan
Sub data 199 14 0.1563
kategorikal.
Cleveland II b. Operator perkalian menghasilkan rata-
Hypothyroid 2000 17 0.4688 rata coverage lebih baik dibandingkan
Hepatitis 118 16 0.1406 dua operator penjumlahan dan
Annealing 535 6 0.1406 maksimum untuk top ratio sejumlah
outlier eksak.
Pada uji coba juga dilakukan perbandingan c. Pembobotan sama (wi=1) menghasilkan
MixCBLOF terhadap Algoritma CBLOF rata-rata coverage lebih baik daripada
dengan diskritisasi atribut numerik. Hasil dari pembobotan berdasarkan entropy untuk
keseluruhan uji coba dirangkum pada Tabel 3. top ratio sejumlah outlier eksak.
Dari Tabel 3 dapat dilihat bahwa Algoritma 2. Algoritma MixCBLOF dapat menyelesaikan
MixCBLOF dapat menyelesaikan masalah masalah deteksi outlier pada set data dengan
deteksi outlier pada set data campuran dengan atribut campuran dengan baik, yaitu dengan
cukup baik. Top ratio antara jumlah outlier rata-rata coverage 73.54%. Hasil ini lebih
eksak dengan jumlah keseluruhan data mampu baik daripada menggunakan metode
mencapai rata-rata coverage sebesar 73.54 %. diskritisasi atribut numerik yang hanya
Hasil ini lebih baik jika dibandingkan CBLOF mencapai coverage 67.98% dengan
dengan diskritisasi numerik yang hanya mampu menggunakan metode unsupervised seperti
mencapai rata-rata coverage 67.98% untuk K-Means dan 59.48% dengan menggunakan
equal width.
Untuk pengembangan lebih lanjut, dapat yang dapat digunakan adalah dengan
dilakukan dengan mencari sebuah metode yang mengoptimalkan hasil klasterisasi yang mampu
dapat secara otomatis menentukan parameter menghasilkan klaster-klaster besar dan kecil
treshold s dan k pada metode klasterisasi. Ide dengan ukuran yang jauh berbeda.
DAFTAR PUSTAKA
[1] Tan PN, Steinbach M, and Kumar V. of Noisy Data. Elvesier: Knowledge-
Introduction to Data Mining. Boston: Based System. 21: 612-616. 2008.
Pearson Addison Weisley. 2006. [6] He Z, Xu X and Deng S. Discovering
[2] He Z, Deng X, and Xu X. Clustering Cluster-based Local Outliers. Pattern
Mixed Numeric and Categorical Data: A Recognition Letter. 24: 1641-1650. 2003.
Cluster Ensemble Approach. eprint [7] Climaco J. Multicriteria analysis. New
arXiv:cs/0509011. 2005. URL: York: Springer-Verlag. 1997.
http://arxiv.org/ftp/cs/papers/0509/050901 [8] He Z, Xu X and Deng S. Squeezer: An
1.pdf, diakses tanggal 20 November 2009. Efficient Algorithm for Clustering
[3] Assent I, Krieger R, Muller E, and Seidl T. Categorical Data. Journal of Computer
Subspace Outlier Mining in Large Science and Technology. 17: 611-624.
Multimedia Databases. Dagstuhl Seminar 2002.
Proceedings 07181: Parallel Universes [9] Breunig M M. Kriegel. HP, Ng RT and
and Local Patterns. 2007. URL: Sander J. LOF: Identifying Density-based
http://citeseerx.ist.psu.edu/viewdoc/downl Local Outliers. Proceedings of the 2000
oad?doi=10.1.1.90.4039&rep=rep1&type= ACM SIGMOD International Conference
pdf, diakses tanggal 20 Nopember 2009. on Management of Data. 93-104. 2000.
[4] Aggarwal C and Yu P. An Effective and [10] Anonim. CLUTO 2.1.1. Software for
Efficient Algorithm for High-dimensional Clustering High-Dimensional Dataset.
Outlier Detection. VLDB Journal. 14: 211- URL: http://www.cs.umn.edu/~karpys,
221. 2005. diakses tanggal 20 November 2009.
[5] Hong Y, Kwong S, Chang Y and Ren Q.
Unsupervised Data Pruning for Clustering

Deteksi Outlier Berbasis Cluster

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Deteksi Outlier Berbasis Cluster

Diunggah oleh

Hak Cipta:

Format Tersedia

Vol. 5, No.

3, Januari 2010 ISSN 0216 - 0544

DETEKSI OUTLIER BERBASIS KLASTER PADA SET DATA

Gambar 1 memperlihatkan data dua dimensi

CBLOF (Cluster-Based Outlier Factor)

menggunakan sembarang teknik klasterisasi,

HASIL DAN PEMBAHASAN

Tabel 2. Perbandingan Kinerja MixCBLOF Besar/Kecil

Annealing 47.10% 47.10% diskritisasi dengan K-Means dan 59.48% untuk

Anda mungkin juga menyukai