Anda di halaman 1dari 6

Outlier didefinisikan sebagai observasi yang berisik, yang tidak sesuai dengan model yang

diasumsikan yang menghasilkan data. Dalam pengelompokan, pencilan dianggap sebagai


pengamatan yang harus dihapus untuk membuat pengelompokan lebih dapat diandalkan [5]. Dalam
metode deteksi outlier berdasarkan pengelompokan, outlier didefinisikan sebagai observasi yang
tidak sesuai dengan pola pengelompokan keseluruhan [6]. Kemampuan mendeteksi outlier dapat
ditingkatkan menggunakan perspektif gabungan deteksi dan pengelompokan outlier. Beberapa
algoritma pengelompokan, misalnya DBSCAN [7] dan ROCK [8], menangani outlier sebagai
pengamatan khusus, tetapi perhatian utama mereka adalah mengelompokkan dataset, tidak
mendeteksi pencilan. Deteksi Outlier menggunakan Indegree Number (ODIN) [9] adalah algoritma
deteksi outlier berbasis kepadatan lokal. Skema berbasis kepadatan lokal dapat digunakan dalam
penipisan cluster. Algoritma penghilangan eksposur dapat menghilangkan vektor dari daerah yang
tumpang tindih antar klaster, jika asumsi menyatakan bahwa daerah memiliki kepadatan yang relatif
rendah. Kepadatan yang lebih tinggi ditemukan di dekat pusat kelompok. Pendekatan yang jelas
untuk menggunakan penolakan outlier dalam penipisan cluster adalah sebagai berikut: (i)
menghilangkan pencilan (ii) mengelompokkan data menggunakan metode apa pun.

Dalam makalah ini, kami membandingkan metode yang diusulkan terhadap skema tersebut, di mana
metode penghapusan outlier adalah ODIN dan algoritma pengelompokan K-means. Dalam ODIN,
outlier didefinisikan menggunakan grafik k-nearest neighbor (kNN), di mana setiap vertex mewakili
vektor data, dan ujung-ujungnya adalah pointer ke vektor k yang berdekatan. Berat dari sebuah tepi

Metode
Tujuan dari algoritma yang diusulkan yang kita sebut outlier removal clustering (ORC), adalah
menghasilkan codebook sedekat mungkin dengan parameter vektor rata-rata yang menghasilkan
data asli. Ini terdiri dari dua tahap berturut-turut, yang diulang beberapa kali. Pada tahap pertama,
kami melakukan algoritma K-means hingga konvergensi, dan pada tahap kedua, kami menetapkan
faktor keterpencilan untuk masing-masing vektor. Faktor tergantung pada jaraknya dari pusat
klaster. Kemudian algoritma iterasi dimulai, dengan terlebih dahulu menemukan vektor dengan jarak
maksimum ke pusat partisi dmax:

Faktor kelengkapan untuk masing-masing vektor kemudian dihitung. Kami mendefinisikan


outlyingness dari vektor xi sebagai berikut:

Kami melihat bahwa semua faktor keluasan dari dataset dinormalkan ke skala [0, 1]. Semakin besar
nilainya, semakin besar kemungkinan vektornya adalah suatu outlier. Contoh dari kumpulan data
yang dikelompokkan dalam tiga kelompok dan faktor keterpencilan dihitung ditunjukkan pada
Gambar. 4.

Vektor yang oi> T, didefinisikan sebagai outlier dan dihapus dari dataset. Pada akhir setiap iterasi, K-
means dijalankan dengan huruf C sebelumnya sebagai buku kode awal, sehingga solusi baru akan
menjadi solusi fine-tuned untuk dataset berkurang. Dengan menetapkan ambang ke T <1, setidaknya
satu vektor dihapus. Dengan demikian, meningkatkan jumlah iterasi dan mengurangi ambang akan
berlaku menghapus lebih banyak vektor dari dataset, mungkin semua vektor.
Gambar. 5 menunjukkan contoh menjalankan metode yang diusulkan pada dataset dengan sangat
tumpang tindih klaster sehingga bahkan batas-batas cluster tidak mudah diamati. Titik-titik hitam
adalah centroid asli. Kami melihat bahwa dengan 40 iterasi klaster sedikit terpisah dan dengan 70
iterasi kluster benar-benar
dipisahkan.
Experiments
Eksperimen dijalankan pada tiga dataset sintetis yang dinotasikan sebagai A1, S3 dan S4 [10], yang
ditunjukkan pada Gambar 6 dan dirangkum dalam Tabel 1.Centroid klaster asli ditampilkan dalam
gambar yang sama. Vektor dalam dataset diambil dari distribusi multinormal. Dalam dataset A1,
cluster terbagi dengan cukup baik. Dalam dataset S3, klaster sedikit tumpang tindih, dan dalam
kumpulan data S4, kluster sangat tumpang tindih.
Dijalankan percobaan juga pada tiga peta gambar data (M1, M2 dan M3), yang ditunjukkan pada
Gambar. 7. Gambar peta terdistorsi dengan mengompresi mereka dengan metode kompresi lossy
JPEG. Tujuannya adalah untuk menggunakan kuantisasi warna untuk menemukan pendekatan
sedekat mungkin dengan warna aslinya. Kompresi JPEG dari gambar peta menciptakan apa yang
disebut dering di sekitar tepi karena kuantisasi koefisien fungsi kosinus. Dalam [11], metode
kuantisasi warna digunakan untuk menemukan warna asli. Kami menerapkan algoritma yang
diusulkan untuk masalah ini, dan kami berasumsi bahwa jumlah warna diketahui sebelumnya. Kami
menghitung mean absolute error (MAE) untuk mengukur perbedaan antara buku kode empiris dan
buku kode generatif. Untuk ODIN dengan K-means, kami memvariasikan ukuran lingkungan k dan
jumlah vektor yang dihapus. Untuk ORC, kami memvariasikan jumlah iterasi I dan ambang batas T.
Gambar 8 menunjukkan hasil untuk dataset A1. Kami mengamati bahwa meningkatkan parameter
dalam algoritma meningkatkan kesalahan. Gambar. 9 menunjukkan hasil untuk dataset S3. Situasi
tanpa ORC iterasi dan ambang ditampilkan di sudut belakang (berbeda dengan angka sebelumnya,
karena bentuk permukaan kesalahan). ODIN memiliki dua “lembah”, di mana nilai distorsi lebih
rendah, tetapi kesalahan secara konsisten menurun saat iterasi berjalan atau ambangnya menurun.
Gambar. 10 menunjukkan hasil untuk dataset S4. Sekali lagi, ODIN dengan K-means memiliki dua
“lembah” di mana kesalahannya lebih rendah. Mengenai jumlah vektor yang tersisa, kita melihat
bahwa semakin banyak vektor yang kita hapus dengan algoritme ORC, semakin baik keakuratannya.
Ini karena algoritme ORC berfungsi seperti yang dirancang untuk kumpulan data S4 dengan
menghapus vektor yang berada di antara kluster. Di sisi lain, ketika meningkatkan parameter dalam
algoritma ODIN pertama, kita mendapatkan kesalahan yang lebih rendah dan kemudian kesalahan
mulai meningkat. Hasil untuk dataset M1 - M3 menjalankan algoritma ORC disajikan dalam Gambar.
11 dan 12. Kami mencatat bahwa untuk semua kasus pengujian, ORC mencapai kesalahan yang lebih
rendah ketika jumlah iterasi cukup meningkat atau ambang batas menurun. Permukaan galat dari
dataset M1 memiliki perilaku yang menarik, di mana kesalahan pertama meningkat dan kemudian
mulai menurun. Permukaan error untuk ODIN dihilangkan karena dengan semua kombinasi
parameter, kesalahan meningkat sehubungan dengan standar K-means.
Pada Tabel 2, kami menunjukkan MAE terkecil antara codebook asli dan yang diperoleh dengan
menggunakan K-means, ODIN dengan K-means dan ORC. Hasilnya menunjukkan potensi metode
yang diusulkan. Algoritma ORC mengungguli K-means tradisional dan K-means yang didahului oleh
penghapusan outlier untuk ketiga set data. Untuk kumpulan data yang tidak tumpang tindih (A1),
hasilnya dekat satu sama lain. Namun, ketika tumpang tindih tumpang tindih meningkat, algoritme
yang diusulkan menunjukkan peningkatan kinerja yang jauh lebih besar daripada metode baseline.
Untuk set data yang paling sulit (S4), metode yang diusulkan memberikan kesalahan 1,5 - 2 kali lebih
kecil. Meskipun pengaturan parameter mungkin sulit tergantung pada dataset. Untuk dataset
gambar peta, ORC berkinerja secara sistematis lebih baik daripada K-means dalam semua kasus.
Dengan dataset M1 dan M3, ORC dan K-means saling berdekatan dalam kinerja, tetapi untuk M2
ORC lebih dari separuh kesalahan dalam kaitannya dengan K-means.
Kesimpulan
Dalam jurnal ini, terdapat pengusulkan untuk mengintegrasikan penghapusan pencilan ke K-means
lustering (ORC) untuk estimasi model nonparametrik. Metode yang diusulkan juga dibandingkan
dengan standar K-means tanpa penghapusan outlier, dan pendekatan sederhana di mana
penghapusan outlier mendahului pengelompokan yang sebenarnya. Metode yang diusulkan
dievaluasi pada tiga set data sintetis dengan parameter yang dikenal dari distribusi generatif dan tiga
peta gambar data dengan centroids cluster yang dikenal. Hasil pengujian menunjukkan bahwa
metode ini melebihi dua metode dasar, terutama dalam kasus gugus yang sangat tumpang tindih.
Kekurangannya adalah bahwa pengaturan parameter yang benar tampaknya bergantung pada
dataset. Dengan demikian, pengaturan parameter harus diotomatisasi di masa depan.

Anda mungkin juga menyukai