Anda di halaman 1dari 31

ALGORITMA INISIALISASI PUSAT KLASTER UNTUK PENGELOMPOKAN K-

MODES
Pramita Afrilia1, Billah Izzah A.2, Dinda Akda A.3, Wahyu Pringgodani A.4
1,2,3,4 Teknik Informatika, Universitas Negeri Surabaya
1 pramitaafrilia.21003@mhs.unesa.ac.id 2billah.21023@mhs.unesa.ac.id
3dinda.21046@mhs.unesa.ac.id 4wahyu.21049@mhs.unesa.ac.id

Abstrak
Penelitian ini berfokus pada pengelompokan data kategorikal menggunakan algoritma K-Modes, yang terbukti
efektif untuk dataset yang besar. Walaupun desain dan implementasi algoritma K-Modes sederhana dan efisien,
kekurangannya terletak pada pemilihan awal pusat cluster yang acak pada setiap eksekusi baru, menyebabkan
hasil pengelompokan yang tidak dapat diulang. Untuk mengatasi masalah ini, penelitian ini mengusulkan sebuah
algoritma inisialisasi pusat cluster yang deterministik. Algoritma yang diusulkan melakukan pengelompokan data
berulang berdasarkan nilai atribut di berbagai atribut, menghasilkan mode yang bersifat deterministik sebagai
pusat cluster awal. Dalam penelitian ini, kami memperkenalkan metode baru untuk memilih atribut yang paling
relevan, yaitu atribut yang menonjol, dan membandingkannya dengan metode yang sudah ada untuk menemukan
atribut yang signifikan dalam pembelajaran tanpa pengawasan. Algoritma yang diusulkan memastikan pusat
cluster awal yang tetap, sehingga hasil pengelompokan dapat diulang. Kompleksitas waktu terburuk dari algoritma
yang diusulkan adalah log-linear terhadap jumlah objek data. Evaluasi kinerja algoritma dilakukan pada beberapa
dataset kategorikal, dibandingkan dengan inisialisasi acak dan dua metode inisialisasi lainnya. Hasil eksperimen
menunjukkan bahwa metode yang diusulkan memberikan hasil yang lebih baik dalam hal akurasi dan
kompleksitas waktu. Pusat cluster awal yang dihitung menggunakan pendekatan yang diusulkan mendekati pusat
cluster aktual dari berbagai data yang diuji, mengakibatkan konvergensi lebih cepat dari algoritma K-Modes
clustering dan hasil pengelompokan yang lebih baik.

Kata Kunci:
Algoritma pengelompokan K-modes, Inisialisasi pusat klaster, Pengelompokan atribut ganda, Analisis data
kategorikal, Seleksi atribut untuk pengelompokan

PENDAHULUAN pembelajaran mesin, dan memiliki aplikasi


Analisis klaster merupakan suatu metode luas, termasuk dalam analisis gambar
pembelajaran tanpa supervisi yang (Matas & Kittler, 1995), bidang medis
bertujuan untuk mengidentifikasi struktur (Petrakis & Faloutsos, 1997), serta
yang tersembunyi dalam kumpulan data dokumentasi web (Boley et al., 1999).
yang tidak memiliki label. Algoritma Algoritma pengelompokan partisional
pengelompokan bertujuan membagi dataset seperti K-means (Anderberg, 1973) terbukti
dengan beberapa atribut menjadi kelompok sangat efisien dalam memproses dataset
homogen atau klaster, di mana objek data numerik yang berukuran besar. Dalam
dalam satu klaster memiliki kemiripan lebih aplikasi penambangan data, penting untuk
tinggi satu sama lain daripada dengan objek dapat mengelola dan mengeksplorasi data
data di klaster lainnya berdasarkan suatu yang mengandung atribut numerik,
pengukuran kemiripan. Pengelompokan kategorikal, atau kombinasi keduanya.
menjadi topik penelitian yang aktif dalam Namun, perlu dicatat bahwa algoritma
berbagai bidang seperti pengenalan pola, pengelompokan K-means menghadapi
penambangan data, statistik, dan kendala ketika menghadapi dataset yang
memiliki atribut kategorikal, karena means. Gowda dan Diday (1991)
fokusnya pada upaya meminimalkan biaya. menggunakan koefisien kesamaan dan
Algoritma pengelompokan partisional metrik ketidakseragaman lainnya untuk
seperti K-means (Anderberg, 1973) terbukti memproses data dengan atribut kategorikal.
sangat efisien dalam mengolah dataset CLARA (Clustering LARge Application)
numerik yang berskala besar. Dalam (Kaufman & Rousseeuw, 1990) merupakan
konteks aplikasi penambangan data, kombinasi dari prosedur pengambilan
pengolahan dan eksplorasi data yang sampel dan program pengelompokan
melibatkan atribut numerik, kategorikal, Partitioning Around Medoids (PAM).
atau kombinasi keduanya menjadi suatu Guha, Rastogi, dan Shim (1999)
kebutuhan. Sayangnya, algoritma memaparkan algoritma pengelompokan
pengelompokan K-means tidak dapat hierarkis yang kuat, ROCK, yang
menangani dataset yang memiliki atribut menggunakan tautan untuk mengukur
kategorikal karena fokusnya pada upaya kemiripan atau kedekatan antara sepasang
meminimalkan fungsi biaya melalui objek data dengan atribut kategorikal, yang
perhitungan rata-rata dan jarak. kemudian digunakan untuk
Pendekatan tradisional dalam menggabungkan klaster. Namun, perlu
memperlakukan atribut kategorikal sebagai dicatat bahwa algoritma ini memiliki
nilai numerik tidak selalu menghasilkan kompleksitas waktu yang buruk dalam
hasil yang signifikan karena umumnya kasus tertentu yang bersifat kuadratik.
domain kategorikal tidak memiliki urutan Huang (1997) memperkenalkan algoritma
tertentu. Sejumlah pendekatan telah pengelompokan K-modes dengan
dilaporkan untuk pengelompokan dataset mengenalkan pengukuran
kategorikal yang berbasis pada paradigma ketidakseragaman baru untuk
K-means. Ralambondrainy (1995) mengelompokkan data kategorikal.
mengusulkan pendekatan dengan Algoritma ini menggantikan rata-rata
menggunakan algoritma K-means untuk klaster dengan modus (nilai atribut paling
mengelompokkan data kategorikal dengan sering muncul dalam suatu atribut), dan
mengonversi atribut kategori ganda menggunakan metode berbasis frekuensi
menjadi atribut biner (menggunakan 0 dan untuk memperbarui modus dalam proses
1 untuk merepresentasikan keberadaan atau pengelompokan guna meminimalkan
ketiadaan suatu kategori) dan fungsi biaya. Algoritma ini terbukti
memperlakukan atribut biner tersebut mencapai konvergensi dengan
sebagai nilai numerik dalam algoritma K- kompleksitas waktu linear terhadap jumlah
objek data. Huang (1998) juga algoritma K-modes karena
menunjukkan bahwa secara umum, kesederhanaannya, namun ini dapat
algoritma K-modes lebih cepat menghasilkan hasil pengelompokan yang
dibandingkan algoritma K-means karena tidak dapat diulangi. Praktisi pembelajaran
memerlukan iterasi yang lebih sedikit untuk mesin menganggap sulit untuk
mencapai konvergensi. Pada dasarnya, mengandalkan hasil yang diperoleh dan
algoritma pengelompokan K-modes beberapa percobaan ulang algoritma K-
berfungsi mirip dengan algoritma modes mungkin diperlukan untuk mencapai
pengelompokan K-means kecuali untuk kesimpulan yang bermakna.
fungsi biaya yang diminimalkan, dan oleh Dalam makalah ini, kami memperluas
karena itu memiliki kelemahan yang sama. karya Neha Sharma ,dkk(2015) dan
Sama seperti algoritma pengelompokan K- mempersembahkan pendekatan
means, algoritma pengelompokan K-modes pengelompokan ganda yang menyimpulkan
mengasumsikan bahwa jumlah klaster, K, informasi struktur klaster dari beberapa
diketahui sebelumnya. Jumlah tetap K atribut dengan menggunakan nilai atribut
klaster dapat membuat sulit untuk yang ada dalam data untuk menghitung
memprediksi jumlah klaster sebenarnya pusat klaster awal. Pendekatan ini hanya
dalam data, yang dapat menyesatkan berfokus pada atribut yang menonjol
interpretasi hasil. Algoritma (dibahas di Bagian 4.2) yang penting untuk
pengelompokan K-means/K-modes menemukan struktur klaster. Kami juga
menghadapi masalah ketika klaster menggunakan metode pembelajaran tanpa
memiliki ukuran, kepadatan, dan bentuk pengawasan lainnya untuk menemukan
yang berbeda. Algoritma pengelompokan atribut yang signifikan (Ahmad & Dey,
K-means tidak menjamin pengelompokan 2007a, 2007b) dan membandingkannya
unik karena pemilihan acak pusat klaster dengan pendekatan yang diusulkan.
awal yang dapat menghasilkan Algoritma yang diusulkan melakukan
pengelompokan yang berbeda untuk pengelompokan ganda berdasarkan nilai
berbagai percobaan (Jain & Dubes, 1988). atribut yang berbeda dalam atribut yang
Demikian pula, algoritma K-modes juga berbeda untuk menghasilkan pandangan
sangat sensitif terhadap pilihan awal pusat pengelompokan ganda dari data yang
klaster, dan pilihan yang tidak tepat dapat digunakan untuk mendapatkan pusat klaster
menghasilkan struktur klaster yang sangat awal yang tetap (modus) untuk algoritma
tidak diinginkan. Inisialisasi acak pengelompokan K-modes. Algoritma yang
umumnya digunakan sebagai awal untuk diusulkan memiliki kompleksitas waktu
terburuk dalam kasus tertentu yang bersifat berbagai dataset kategorikal dan
log-linear terhadap jumlah objek data. membandingkannya dengan metode
Makalah ini memperluas pekerjaan inisialisasi pusat klaster lainnya. Bagian 6
sebelumnya dalam hal: mengakhiri tulisan ini dengan
1. Menggunakan metode tanpa pengawasan menyimpulkan dan memberikan arahan
untuk menghitung atribut yang signifikan untuk penelitian di masa mendatang.
dan membandingkan kinerja
pengelompokannya serta kualitas pusat TINJAUAN PUSTAKA
klaster awalnya dibandingkan dengan pusat Algoritma K-modes (Huang, 1997)
yang dihitung oleh atribut yang menonjol. memperluas paradigma K-means untuk
2. Membandingkan kualitas pusat klaster mengelompokkan data kategorikal dan
awal dengan menggunakan semua atribut memerlukan pemilihan acak pusat klaster
dan atribut yang menonjol. awal atau modus. Seperti yang dibahas
3. Menganalisis kedekatan pusat klaster sebelumnya, pemilihan acak pusat klaster
awal dengan pusat sebenarnya dengan awal menghasilkan hasil pengelompokan
menggunakan atribut yang menonjol, yang tidak dapat diulang dan mungkin sulit
atribut yang signifikan, dan semua atribut. dipahami. Inisialisasi acak pusat klaster
Bagian-bagian selanjutnya dari tulisan ini hanya dapat berhasil jika satu atau lebih
telah disusun dengan cara berikut. Di pusat klaster awal yang dipilih secara acak
Bagian 2, kami menyajikan tinjauan singkat mirip dengan pusat klaster aktual yang ada
mengenai karya penelitian tentang dalam data. Pada kasus paling sederhana,
inisialisasi pusat klaster untuk algoritma K- algoritma K-modes tidak mengontrol
modes. Bagian 3 memberikan gambaran pilihan pusat klaster awal dan oleh karena
singkat mengenai algoritma itu sulit untuk mencapai pengelompokan
pengelompokan K-modes. Pada Bagian 4, yang dapat diulang. Selain itu, pilihan yang
kami memperkenalkan pendekatan tidak tepat untuk pusat klaster awal dapat
pengelompokan atribut ganda yang menghasilkan hasil pengelompokan yang
diusulkan untuk menghitung pusat klaster tidak diinginkan. Hasil dari algoritma
awal bersama dengan tiga pendekatan pengelompokan partisional lebih baik
berbeda untuk memilih jumlah atribut yang ketika partisi awal dekat dengan solusi
berbeda guna menghasilkan pandangan akhir (Jain & Dubes, 1988). Oleh karena
pengelompokan ganda. Bagian 5 itu, penting untuk menggunakan
menampilkan analisis eksperimental pengelompokan K-modes dengan pusat
terperinci dari metode yang diusulkan pada klaster awal tetap yang mirip dengan pusat
representatif sebenarnya dari klaster aktual langkah komputasi dapat menyebabkan
untuk mendapatkan hasil yang lebih baik. hasil pengelompokan yang tidak konsisten
Terdapat beberapa makalah penelitian yang atau tidak dapat diulang. Metode-metode
melaporkan metode penghitungan pusat ini cenderung serupa dengan pendekatan
klaster awal untuk algoritma K-modes; inisialisasi acak, yang dapat menghasilkan
namun, sebagian besar dari metode-metode hasil pengelompokan yang bervariasi pada
tersebut mengalami salah satu dari dua setiap eksekusi. Ini dapat menjadi masalah
kelemahan berikut: karena pengulangan hasil yang konsisten
diperlukan dalam penelitian dan analisis
Beberapa penelitian telah dilaporkan data. Oleh karena itu, metode-metode
mengenai penghitungan pusat klaster awal semacam ini mungkin tidak memberikan
untuk algoritma K-modes, namun, keunggulan yang diharapkan terhadap
kebanyakan dari metode-metode ini metode inisialisasi acak.
memiliki salah satu dari dua kekurangan Gambaran singkat mengenai penelitian
berikut: yang telah dilakukan untuk menghitung
(a) Metode penghitungan pusat klaster awal pusat klaster awal pada algoritma
yang memiliki kompleksitas waktu pengelompokan K-modes sebagai berikut:
kuadratik dengan jumlah objek data
memiliki keterbatasan dalam hal Khan dan Ahmad (2003) mengadopsi
skalabilitas, terutama pada dataset yang pendekatan pemadatan data multiscale
besar. Artinya, semakin banyak data yang berbasis kepadatan (Mitra, Murthy, & Pal,
ada, semakin lambat pula waktu yang 2002) dengan jarak Hamming untuk
diperlukan untuk menghitung pusat klaster ekstraksi K pusat klaster awal dari dataset.
awal. Ini mengurangi keunggulan algoritma Namun, metode yang mereka gunakan
K-modes yang seharusnya memiliki memiliki kompleksitas kuadratik
kompleksitas waktu linear, yang berarti tergantung pada jumlah objek data.
waktu eksekusi seharusnya meningkat Sementara itu, Huang (1998)
secara proporsional dengan ukuran dataset. mengemukakan dua pendekatan untuk
Oleh karena itu, metode-metode semacam menginisialisasi pusat klaster pada
ini kurang efisien untuk dataset berskala algoritma K-modes. Pada pendekatan
besar. pertama, K objek data yang berbeda
pertama dipilih sebagai K-modes awal,
(b) Pusat klaster awal yang tidak tetap dan sementara pada pendekatan kedua,
mencakup unsur keacakan dalam langkah- frekuensi semua kategori dihitung untuk
semua atribut, dan kategori-kategori yang yang kurang rentan terhadap pilihan acak
paling sering ditemukan diberikan secara dari modus serta memilih kumpulan modus
merata pada K-modes awal. Meskipun yang paling beragam di antara mereka.
pendekatan pertama hanya efektif jika K Eksperimen mereka menyarankan bahwa
objek data teratas berasal dari K klaster pusat klaster awal yang dihitung melebihi
yang saling terpisah, pendekatan kedua pilihan acak, namun, metode ini tidak
bertujuan untuk memilih pusat klaster yang menjamin pilihan tetap dari pusat klaster
beragam untuk meningkatkan hasil awal.
pengelompokan, namun, kriteria seragam
untuk pemilihan K pusat klaster awal tidak He (2006) menyajikan dua heuristik titik
disediakan. terjauh untuk menghitung pusat klaster
Sun, Zhu, dan Chen (2002) menyajikan awal pada algoritma K-modes. Heuristik
sebuah studi eksperimental mengenai pertama setara dengan pemilihan acak dari
penerapan algoritma perbaikan titik awal pusat klaster awal, sedangkan heuristik
secara iteratif yang dikembangkan oleh kedua menggunakan metode deterministik
Bradley dan Fayyad (Bradley & Fayyad, berdasarkan fungsi skor yang
1998) pada pengelompokan K-modes untuk menjumlahkan hitungan frekuensi nilai
meningkatkan akurasi dan keterulangan atribut dari semua objek data. Heuristik ini
hasil pengelompokan. Eksperimen mereka tidak menjelaskan cara memilih suatu titik
menunjukkan bahwa penggunaan algoritma ketika beberapa objek data memiliki skor
pengelompokan K-modes dengan pusat yang sama, dan jika memutuskan secara
klaster awal yang diperbaiki menghasilkan acak, pusat tetap tidak dapat dijamin.
hasil yang lebih presisi dan lebih dapat Metode ini hanya mempertimbangkan jarak
diandalkan dibandingkan metode antara titik data, sehingga outliers dapat
pemilihan acak tanpa perbaikan. Metode ini terpilih sebagai pusat klaster.
sangat tergantung pada jumlah kasus Wu, Jiang, dan Huang (2007)
dengan perbaikan, dan nilai akurasi dapat mengembangkan metode berbasis
bervariasi. kerapatan untuk menghitung K pusat
klaster awal yang memiliki kompleksitas
Khan dan Kant (2007) mengusulkan suatu kuadrat. Untuk mengurangi kompleksitas
metode berdasarkan konsep akumulasi kasus terburuk menjadi O(n^1.5), mereka
bukti untuk menggabungkan hasil dari secara acak memilih akar kuadrat dari total
beberapa pengelompokan (Fred & Jain, titik sebagai sub-sampel data, namun,
2002) dan hanya berfokus pada objek data langkah ini memperkenalkan unsur
keacakan dalam hasil akhir dan dapat mempengaruhi hasil. Sebuah masalah
menghambat keterulangan hasil utama dalam penelitian ini terletak pada
pengelompokan. Cao, Liang, dan Bai evaluasi hasil. Untuk setidaknya dua
(2009) mempresentasikan metode dataset, nilai akurasi, presisi, dan recall
inisialisasi yang mempertimbangkan jarak dihitung dengan tidak benar. Dari matriks
antara objek dan kerapatan objek. Metode kebingungan yang disajikan dalam paper
mereka memilih objek dengan kerapatan tersebut, nilai akurasi, presisi, dan recall
rata-rata maksimum sebagai pusat klaster untuk
awal pertama. Untuk menghitung pusat • Data dermatologi seharusnya
klaster lainnya, jarak antara objek dan memiliki nilai 0,6584, 0,6969,
klaster yang sudah diketahui, serta 0,6841 dan bukan 0,7760, 0,8527,
kerapatan rata-rata objek, diperhitungkan. 0,7482.
Kekurangan metode ini adalah bahwa suatu • Data kebun binatang seharusnya
titik batas mungkin dipilih sebagai pusat memiliki nilai 0,7425, 0,7703,
pertama yang dapat memengaruhi kualitas 0,8654 dan bukan 0,9208, 0,8985,
pemilihan pusat klaster awal berikutnya. dan 0,8143.

Bai, Liang, Dang, dan Cao (2012) Matriks kebingungan salah


mengusulkan suatu metode untuk mengklasifikasikan hampir separuh objek
menghitung pusat klaster awal berdasarkan data dari klaster pertama, sehingga akurasi
fungsi kerapatan (ditentukan dengan tidak dapat mencapai nilai yang terindikasi
menggunakan jarak rata-rata dari semua dalam paper tersebut. Dibandingkan
titik lain dari suatu titik) dan fungsi jarak. dengan penelitian-penelitian di atas,
Pusat klaster pertama ditentukan oleh algoritma yang diusulkan (lihat Bagian 4
fungsi kerapatan. Pusat klaster yang tersisa untuk rincian lebih lanjut) untuk
dihitung dengan menggunakan fungsi menemukan pusat klaster awal pada dataset
kerapatan dan jarak antara pusat klaster kategorikal mengatasi kedua kekurangan
yang sudah dihitung dan pusat klaster baru yang telah dibahas sebelumnya, yaitu
yang mungkin. Untuk menghitung kompleksitas waktu kasus terburuknya
kerapatan suatu titik, mereka menghitung bersifat log-linear terhadap jumlah objek
ringkasan dari semua titik lainnya. Oleh data dan memberikan pusat klaster awal
karena itu, terdapat kehilangan informasi yang bersifat deterministik (tetap).
yang dapat menyebabkan perhitungan
kerapatan yang tidak tepat, yang dapat
ALGORITMA K-MODES UNTUK sesuai, semakin mirip kedua objek tersebut.
PENGELOMPOKAN DATA Secara matematis
KATEGORIKAL.
Dikarenakan keterbatasan pengukuran
ketidakmiripan yang digunakan oleh
algoritma K-means tradisional, algoritma
tersebut tidak dapat digunakan untuk
Dimana dan
mengelompokkan dataset kategorikal.
Algoritma pengelompokan K-modes
didasarkan pada paradigma K-means, tetapi
Memberikan bobot yang sama pada setiap
menghilangkan batasan data numerik
kategori dari suatu atribut. Biarkan N
sambil mempertahankan efisiensinya.
menjadi himpunan dari n objek data
Algoritma K-modes (Huang, 1998)
kategorikal yang dijelaskan oleh m atribut
memperluas paradigma K-means untuk
kategorikal, M1, M2, ..., Mm. Ketika fungsi
mengelompokkan data kategorikal dengan
jarak yang didefinisikan dalam Persamaan
menghapus hambatan yang diberlakukan
(1) digunakan sebagai pengukuran
oleh K-means melalui modifikasi berikut:
ketidakmiripan untuk objek data
kategorikal, fungsi menjadi
1. Menggunakan pengukuran
ketidakmiripan pencocokan sederhana atau
jarak Hamming untuk objek data
kategorikal. di mana Ni adalah elemen ke-i dan Qi
2. Menggantikan means dari klaster dengan
adalah pusat klaster terdekat dari Ni.
modes mereka (pusat klaster). Algoritma K-modes meminimalkan fungsi
biaya yang didefinisikan dalam Persamaan
Pengukuran ketidakmiripan pencocokan
(2). Algoritma K-modes mengasumsikan
sederhana (jarak Hamming) dapat bahwa pengetahuan tentang jumlah
didefinisikan sebagai berikut. Biarkan X pengelompokan alami data (yaitu K)
dan Y menjadi dua objek data kategorikal tersedia dan terdiri dari langkah-langkah
yang dijelaskan oleh m atribut kategorikal. berikut (diambil dari Huang (1997)):
Pengukuran ketidakmiripan d(X,Y) antara
X dan Y dapat didefinisikan oleh total tidak 1. Pilih K pusat klaster awal, satu untuk
sesuai dari kategori atribut yang sesuai dari setiap klaster.
dua objek. Semakin sedikit jumlah tidak
2. Alokasikan objek data ke klaster yang He, Xu, dan Deng (2005) menyajikan
pusat klaster-nya terdekat dengan objek pandangan yang terpadu tentang
tersebut sesuai dengan Persamaan (2). pengelompokan data kategorikal dan
Perbarui K klaster berdasarkan alokasi ensambel klaster untuk menciptakan
objek data dan hitung K mode baru dari algoritma pengelompokan baru untuk data
semua klaster. kategorikal. Intuisi mereka adalah bahwa
3. Ulangi uji ketidakmiripan objek terhadap atribut yang ada dalam data kategorikal
mode saat ini. Jika ditemukan objek memberikan kontribusi terhadap struktur
sedemikian rupa sehingga modus klaster final. Mereka mempertimbangkan
terdekatnya termasuk ke dalam klaster lain nilai atribut yang berbeda dari suatu atribut
daripada klaster saat ini, alokasikan ulang sebagai label klaster yang memberikan
objek ke klaster tersebut dan perbarui "pengelompokan terbaik" tanpa
modus dari kedua klaster. mempertimbangkan atribut lain dan
4. Ulangi langkah 3 sampai tidak ada objek membuat ensambel klaster.
data yang mengubah keanggotaan klaster.
Müller, Günnemann, Färber, dan Seidl
PENDEKATAN YANG DIUSULKAN (2010) mendefinisikan pengelompokan
UNTUK MENGHITUNG PUSAT ganda sebagai pengaturan beberapa set
KLASTER AWAL MENGGUNAKAN klaster untuk setiap objek data dalam
PENGELOMPOKAN ATRIBUT dataset dengan mempertimbangkan
GANDA berbagai pandangan pada data. Tujuan
dasar dari pengelompokan ganda adalah
Khan dan Ahmad (2004) menunjukkan merepresentasikan perspektif berbeda pada
bahwa untuk algoritma pengelompokan data dan memanfaatkan variasi di antara
partisional, seperti K-Means, hasil pengelompokan untuk mendapatkan
pengetahuan tambahan tentang struktur
1. Beberapa objek data sangat mirip satu dalam data. Mereka membahas beberapa
sama lain, itulah sebabnya mereka berbagi tantangan yang muncul akibat
keanggotaan klaster yang sama terlepas dari pengelompokan ganda data dan
pilihan pusat klaster awal, dan penggabungan hasil mereka. Salah satu
2. Sebuah atribut individual juga dapat tantangan utama terkait dengan deteksi
memberikan beberapa informasi tentang pengelompokan yang berbeda yang
pusat klaster awal... diungkapkan oleh pandangan ganda pada
data. Masalah pandangan ganda ini telah
diteliti dalam ruang data asli (Caruana, Pendekatan Vanilla adalah dengan
Elhawary, Nguyen, & Smith, 2006), ruang mempertimbangkan semua atribut (m) yang
ortogonal (Davidson & Qi, 2008), dan ada dalam data dan menghasilkan M
proyeksi subruang (Agrawal, Gehrke, pandangan pengelompokan yang dapat
Gunopulos, & Raghavan, 1998). Tantangan digunakan untuk analisis lebih lanjut (lihat
lain termasuk pengetahuan tentang rincian untuk langkah-langkah selanjutnya
pengelompokan yang diketahui, skema di Bagian 4.4).
pengolahan untuk pengelompokan, jumlah
pengelompokan ganda, dan fleksibilitas. 4.2 Atribut yang menonjol
Khan and Ahmad (2012) present that only
Motivasi dari karya penelitian ini dan few attributes may be useful to generate
mengusulkan algoritma inisialisasi klaster multiple clustering views that can help in
baru untuk dataset kategorikal yang computing initial cluster centers for K-
melakukan pengelompokan ganda pada modes algorithm. These rel- evant
atribut yang berbeda (di ruang data asli) dan attributes are extracted based on the
menggunakan nilai atribut yang berbeda following experimental observations:
dalam suatu atribut sebagai label klaster. 1. Mungkin ada beberapa atribut dalam
Pandangan ganda ini memberikan wawasan dataset yang jumlah nilai atributnya kurang
baru tentang struktur tersembunyi dalam dari atau sama dengan K. Karena nilai
data yang berfungsi sebagai petunjuk untuk atribut yang lebih sedikit per klaster,
menemukan struktur klaster yang konsisten atribut-atribut ini memiliki kekuatan
dan membantu dalam menghitung pusat diskriminatif yang lebih tinggi dan akan
klaster awal yang lebih baik. Pada memainkan peran penting dalam
subbagian berikutnya, kami akan menentukan pusat klaster awal serta
mempresentasikan tiga pendekatan untuk struktur klaster. Kumpulan dari atribut-
memilih ruang atribut yang berbeda yang atribut yang relevan ini disebut sebagai
dapat membantu dalam menghasilkan Atribut Menonjol (P).
pandangan pengelompokan yang berbeda
dari data. Perlu dicatat bahwa semua 2. Untuk atribut-atribut lain dalam dataset
pendekatan yang diusulkan yang jumlah nilai atributnya lebih besar
mengasumsikan bahwa jumlah klaster yang dari K, nilai atribut yang banyak pada
diinginkan, K, diketahui sebelumnya. atribut-atribut ini akan tersebar per klaster.
4.1 Pendekatan Vanila Atribut-atribut ini kurang berkontribusi
dalam menentukan struktur klaster yang
tepat dan memberikan kontribusi yang lebih Else
sedikit dalam menentukan mode gunakan atribut menonjol yang sudah

representatif awal dari klaster-klastr direduksi dan panggil

tersebut. computeInitialModes(Atribut P).


End if
Algoritma 1 menunjukkan langkah-langkah
untuk menghitung Atribut Menonjol dari
4.3 Atribute yang signifikan
suatu dataset. Jumlah atribut dalam
Seperti yang dibahas pada bagian
himpunan P didefinisikan sebagai p = |P|.
sebelumnya, kami memilih atribut
Dalam algoritma ini, p = 0 mengacu pada
menonjol karena kami mengharapkan
situasi ketika tidak ada atribut yang
bahwa atribut-atribut ini memainkan peran
menonjol dalam data, dan p = m berarti
penting dalam pengelompokan. Bagian
bahwa semua atribut adalah atribut yang
berikut diambil dari karya Ahmad dan Dey
menonjol. Dalam kedua skenario ini, semua
(2007a) yang membahas pendekatan untuk
atribut dalam data dianggap menonjol, atau
merangking atribut penting dalam suatu
jika tidak, satu set yang lebih kecil, P, dari
dataset. Kami menggunakan metode
atribut yang menonjol (sejumlah p) dipilih.
mereka untuk menemukan atribut yang
Algoritma 1. Perhitungan Prominent
signifikan dari dataset.
Attributes
Input : N = objek data, M = Himpunan
atribut dalam data, m = |M| = Jumlah atribut Ahmad dan Dey (2007a, 2007b)
dalam mengusulkan metode pembelajaran tanpa
data, p = 0 supervisi untuk menghitung signifikansi
Output: P = Set untuk Prominent Attributes atribut. Berdasarkan signifikansinya,
P=ɸ atribut penting dapat dipilih. Dalam metode
For i = 1 à m do ini, langkah paling penting adalah
If Jumlah nilai atribut yang berbeda dalam
menemukan jarak antara dua nilai
Mi > 1 && Mi ≤ K
kategorikal dari suatu atribut. Jarak antara
Then
dua nilai atribut yang berbeda dihitung
Tambahkan Mi ke P dan tingkatkan
sebagai fungsi dari distribusi keseluruhan
nilai p.
End if dan kemunculan bersama dengan atribut

End for lain. Jarak antara pasangan nilai x dan y dari


If p = 0 || p = m then atribut Mi dengan atribut Mj, untuk suatu
gunakan semua atribut dan panggil subset w dari nilai atribut Mj, didefinisikan
computeInitialModes(Atribut M). sebagai berikut:
For setiap attribut Mi do
For setiap pasangan atribut kategorikal
di mana p(w|x) menunjukkan probabilitas (x,y) do
bahwa elemen dataset dengan atribut Mi Sum = 0
sama dengan x memiliki nilai atribut Mj For setiap atribut Mj do
sedemikian rupa sehingga terdapat di dalam ɸj(x,y) = max (p(w|x) + piy(w|y) – 1
w, dan p(~wjy) menunjukkan probabilitas dimaa w adalah subset nilai dari

bahwa elemen dataset dengan atribut Mi atribut ke-j

sama dengan y memiliki nilai atribut Mj sum = sum + ɸj(x,y)


End for
sedemikian rupa sehingga tidak terdapat di
Jarak ɸj(x,y) diatara nilai kategori
dalam w. Jarak antara nilai atribut x dan y
untuk Mi dengan atribut Mj dilambangkan
dengan ɸj(x,y) dan diberikan oleh End for
Nilai rata-rata dari semua jarak pasangan
diambil sebagai signifikansi atribut.
End for
di mana W adalah subset dari nilai-nilai Mj
yang memaksimalkan kuantitas p(w|x) +
Kami memberikan contoh di bawah ini
p(~wjy). Jarak antara x dan y dihitung
untuk mengilustrasikan Algoritma 2.
dengan memperhatikan setiap atribut lain.
Pertimbangkan dataset kategorikal murni
Nilai rata-rata jarak akan menjadi jarak ɸj
dengan tiga atribut M1, M2, dan M3 seperti
(x, y) antara x dan y dalam dataset. Nilai
yang ditunjukkan dalam Tabel 1. Kami
rata-rata dari semua pasangan jarak nilai
menghitung signifikansi atribut M1 dengan
atribut diambil sebagai signifikansi atribut.
menghitung jarak setiap pasangan nilai
Algoritma 2 menunjukkan langkah-langkah
atribut terhadap setiap atribut lainnya.
untuk menghitung signifikansi atribut
Dalam hal ini, hanya ada satu pasangan (L,
dalam data.
T), oleh karena itu;
Algoritma 2. Perhitungan significance of
Jarak antara L dan T mengacu pada M2
attributes
Input : D = Dataset Kategorikal, N = objek adalah
data, M = Himpunan Atribut dalam data, m =
|M| = Jumlah atribut dalam data
Dimana W adalah subset nilai dari M2
Output: Himpunan atribut yang diurutkan
Demikian pula, jarak antara L dan T dengan
berdasarkan signifikansinya
mengacu pada M3 adalah:
P=ɸ
awal. Pendekatan Vanilla memilih semua
atribut, sementara pendekatan atribut
Rata rata jarak antara L dan T adalah menonjol (lihat Bagian 4.2) memiliki
kemampuan untuk memilih jumlah atribut
yang lebih sedikit tergantung pada
Karena hanya ada satu pasangan nilai distribusi nilai atribut dalam atribut yang
dalam atribut M1, signifikansi atribut M1 berbeda dalam data. Kami akan membahas
(yaitu rata-rata jarak dari semua pasangan) masalah potensial dari memilih semua
= 0,58. Metode ini untuk menghitung atribut pada Bagian 5.3. Metode untuk
signifikansi atribut telah digunakan dalam menghitung atribut signifikan (lihat Bagian
berbagai algoritma pengelompokan tipe K- 4.3) memberikan peringkat semua atribut
means untuk dataset numerik dan berdasarkan signifikansinya dalam dataset.
kategorikal campuran (Ahmad & Dey, Namun, tidak ada cara langsung untuk
2007a, 2007b, 2011). Umumnya, fungsi memilih atribut yang paling signifikan
biaya algoritma tipe K-means memberikan dalam data kecuali menggunakan nilai
bobot yang sama untuk semua atribut. ambang acak. Untuk eksperimen, kami
Ahmad dan Dey (2007a, 2007b, 2011) memilih jumlah atribut yang signifikan
menunjukkan bahwa dengan sama dengan atribut menonjol dan
menggabungkan signifikansi atribut ini membuang sisanya. Jika semua atribut
dalam fungsi biaya, hasil pengelompokan dalam dataset adalah atribut menonjol,
yang lebih baik dapat dicapai. Ji, Pang, maka semuanya dianggap signifikan. Ide
Zhou, Han, dan Wang (2012) menunjukkan utama dari algoritma yang diusulkan adalah
bahwa pendekatan ini juga berguna untuk mempartisi data ke dalam klaster yang
pengelompokan kabur dataset kategorikal. sesuai dengan jumlah nilai atribut yang
Dalam makalah ini, kami akan berbeda untuk atribut
menggunakan pendekatan ini untuk Vanilla/Menonjol/Signifikan, dan
memilih atribut yang signifikan dari menghasilkan label klaster untuk setiap
dataset. objek data yang ada dalam dataset.
Pemberian label klaster ini pada dasarnya
4.4 Perhitungan dari Kluster Pusat adalah tampilan pengelompokan data asli
Pada bagian sebelumnya, kami membahas dalam ruang asli. Mengulangi proses ini
tiga metode pemilihan atribut yang dapat untuk semua atribut
digunakan untuk perhitungan pusat klaster Vanilla/Menonjol/Signifikan menghasilkan
sejumlah label klaster yang mewakili
multiple tampilan partisi dari setiap objek Proses ini membantu menghindari
data. Label klaster yang diberikan kepada kontribusi outlier pada perhitungan pusat
suatu objek data dalam multiple klaster awal.
pengelompokan ini disebut sebagai string
klaster dan jumlah total string klaster sama
dengan jumlah objek data yang ada dalam
dataset. Seperti yang dicatat dalam Bagian
4, beberapa objek data tidak akan
terpengaruh oleh pemilihan pusat klaster
awal yang berbeda dan string klaster
mereka akan tetap sama. Jumlah string
klaster yang berbeda mewakili jumlah
klaster yang dapat dibedakan dalam data.
Algoritma ini mengasumsikan bahwa
pengetahuan tentang klaster alami dalam
Algoritma 3.
data, yaitu K, tersedia dan jika jumlah string
computeInitialModes(Attributes A)
klaster yang berbeda lebih dari K, maka
Input : Dataset N, n = |N| = jumlah objek
mereka digabungkan menjadi K klaster data, dan A adalah himpunan atribut
string, sehingga string klaster dalam suatu kategorikal dengan a = |A| = jumlah atribut.
klaster lebih mirip daripada yang lain. Jika semua atribut dipertimbangkan, maka A
Akhirnya, string klaster dalam setiap K = M dan a = m, Jika atribut
klaster diganti oleh objek data dan modus menonjol/signifikan dipertimbangkan, a 6 m

setiap K klaster dihitung yang berfungsi yaitu a = p. jaij adalah kardinalitas atribut ai

sebagai pusat klaster awal untuk algoritma dan K adalah jumlah yang ditentukan
pengguna yang mewakili jumlah klaster
K-modes. Secara keseluruhan, metode yang
dalam data.
diusulkan ini menemukan daerah
Output: K cluster centers
terlokalisasi yang padat dalam dataset
Generation of cluster strings
dalam bentuk klaster yang dapat dibedakan.
For i = 1 ... a do
Jika jumlahnya lebih besar dari K, maka 1. Bagi dataset menjadi |ai| klaster
mereka digabungkan menjadi K klaster berdasarkan nilai-nilai atribut jaij
(dan memiliki kemampuan untuk tersebut sehingga objek data dengan
mengabaikan klaster yang jarang) dan nilai yang berbeda (dari atribut ai ini)
menemukan modus grup mereka untuk jatuh ke dalam klaster yang berbeda.

digunakan sebagai pusat klaster awal.


Hitung pusat klaster dari klaster |ai| pendekatan yang diusulkan disajikan dalam
ini. Algoritma 3. Efisiensi komputasional
2. Partisi data dengan melakukan langkah 4 dari algoritma yang diusulkan
pengelompokan K-modes yang dapat ditingkatkan dengan menggunakan
menggunakan pusat klaster yang
pendekatan lain seperti pohon sufiks online
dihitung dalam langkah di atas
(Ukkonen, 1995) yang dapat melakukan
sebagai pusat klaster awal.
perbandingan string dalam waktu linear
3. Berikan label klaster untuk setiap
terhadap panjang string.
objek data. Sti menentukan label
klaster dari objek data ke-t yang Untuk mengilustrasikan Algoritma 3, kami

dihitung dengan menggunakan menyajikan contoh deskriptif. Misalkan


atribut ai, di mana t = 1,2,...n. kita memiliki 10 objek data D1, D2, ...,
End for D10, didefinisikan oleh 4 atribut
Label klaster yang diberikan kepada suatu kategorikal dengan K = 2. Biarkan
objek data dianggap sebagai string klaster, kardinalitas M1, M2, M3, dan M4 adalah 2,
menghasilkan pembentukan n string 2, 4, 2. Untuk pendekatan Vanilla, kita
pengelompokan.
pertimbangkan semua atribut dan pertama-
4. Temukan string klaster yang berbeda dari
tama membagi objek data berdasarkan
n string, hitung frekuensinya, dan urutkan
atribut M1 dan menghitung 2 pusat klaster
secara menurun. Jumlahnya, K0, adalah
karena kardinalitas M1 adalah 2. Kami
jumlah klaster yang dapat dibedakan.
menjalankan algoritma K-modes dengan
5. Jika K0 = K, dapatkan objek data yang
sesuai dengan K string klaster ini, dan hitung menggunakan pusat klaster awal ini. Setiap
pusat klaster dari K klaster ini. Ini akan objek data diberi label klaster (baik 1 atau
menjadi pusat klaster awal yang dibutuhkan. 2) dan proses yang sama diulangi untuk
6. Jika K0 > K, gabungkan string klaster yang semua atribut lainnya. Karena ada 4 atribut,
berbeda namun serupa dari K0 string menjadi setiap objek data akan memiliki string
K klaster (lebih rincian ada di Bagian 4.4.1) klaster yang terdiri dari 4 label. Sebagai
dan hitung pusat klaster. Pusat klaster ini
contoh, objek data D1 memiliki 1-2-2-1
akan menjadi pusat klaster yang dibutuhkan.
sebagai string klaster. Ini berarti bahwa
7. Jika K0 < K, kurangi nilai K dan ulangi
dalam run pertama (menggunakan M1
proses lengkap..
untuk membuat klaster awal), objek data
D1 ditempatkan di klaster 1, dalam run
kedua (menggunakan M2 untuk membuat
Langkah-langkah untuk menemukan pusat
klaster awal) objek data D1 ditempatkan di
klaster awal dengan menggunakan
klaster 2, dan seterusnya. Kami akan
mendapatkan 10 string klaster yang berbeda fitur prominent, atribut dengan nilai atribut
yang sesuai dengan setiap objek data. kurang dari atau sama dengan jumlah
Misalkan kita mendapatkan string klaster dipilih. Dalam contoh yang
pengelompokan berikut untuk objek data ditunjukkan, atribut M1, M2, dan M4
yang berbeda seperti yang ditunjukkan dipilih, dan prosedur yang sama diikuti
dalam Tabel 2. Kami menghitung frekuensi dengan tiga atribut ini untuk menghitung
semua string yang berbeda seperti yang pusat klaster awal.
ditunjukkan dalam Tabel 3.
Dalam pendekatan atribut signifikan,
pertama-tama atribut yang signifikan
dihitung, kemudian digunakan untuk
menghitung pusat klaster awal. Misalnya,
jika M1, M2, dan M3 adalah atribut yang
Kami mengambil 100,5 ≈ 3 string klaster
paling sering (rincian pada Bagian 4.4.1 paling signifikan, maka mereka digunakan

tentang langkah ini) dan untuk menghitung pusat klaster awal


mengikuti prosedur di atas. Algoritma 3
mengelompokkannya dengan
dapat menimbulkan kasus yang kurang
menggunakan pengelompokan hierarkis
dengan K = 2. String yang mirip 2-2-1-1 jelas di mana jumlah string klaster yang

dan 2-2-2-1 digabungkan dalam satu berbeda kurang dari K yang dipilih
(dianggap mewakili klaster alami dalam
klaster. Ini menghasilkan dua klaster yang
berisi string klaster 1-1-3-2 dan 2-2-1-1, 2- data). Hal ini dapat terjadi ketika partisi

2-2-1 dengan objek data yang sesuai, yaitu yang dibuat berdasarkan nilai atribut dari
atribut A mengelompokkan data hampir
dalam klaster yang sama setiap kali.
Skenario lain yang mungkin adalah ketika
Objek data yang termasuk dalam klaster ini
nilai atribut dari semua atribut mengikuti
akan digunakan untuk menghitung 2 pusat
distribusi yang hampir sama, yang biasanya
klaster yang diperlukan karena K = 2.
tidak terjadi dalam data nyata. Kasus ini
String klaster yang kurang umum dan objek
juga menunjukkan bahwa mungkin K yang
data yang sesuai dianggap sebagai outlier
dipilih tidak sesuai dengan pengelompokan
yang tidak berkontribusi dalam menghitung
alami dan seharusnya diubah menjadi nilai
pusat klaster awal. Pusat-pusat klaster ini
yang berbeda. Peran atribut dengan nilai
berfungsi sebagai pusat klaster awal untuk
atribut lebih besar dari K harus diselidiki
algoritma K-Modes. Untuk pendekatan
dalam kasus ini. Secara umum, dalam
pengelompokan K-modes, jumlah klaster Fakta ini juga diverifikasi secara
yang diinginkan (K) dipilih tanpa eksperimental dan terbukti benar.
pengetahuan tentang klaster alami dalam Dengan mempertimbangkan masalah ini,
data. Jumlah klaster alami mungkin lebih kami mengusulkan penggunaan metode
sedikit daripada jumlah klaster yang pengelompokan hierarki (Hall et al., 2009)
diinginkan. Jika jumlah string klaster (K0) untuk menggabungkan K’ string klaster
yang diperoleh kurang dari K, solusi yang yang berbeda menjadi K klaster. Metode
layak adalah mengurangi nilai K dan pengelompokan hierarki menghasilkan
kemudian menerapkan algoritma yang struktur klaster yang lebih informatif
diusulkan untuk menghitung pusat klaster daripada kumpulan klaster yang tidak
awal. Namun, kasus khusus ini di luar terstruktur yang dikembalikan oleh metode
lingkup makalah ini. pengelompokan non-hierarkis (Jain &
Dubes, 1988). Sebagian besar algoritma
4.4.1. Merging clusters pengelompokan hierarki bersifat
Seperti yang dibahas dalam langkah 6 deterministik dan stabil dibandingkan
Algoritma 3, mungkin muncul sebuah dengan rekan-rekan partisionalnya.
kasus di mana K0 > K, yang berarti bahwa Namun, pengelompokan hierarki memiliki
jumlah klaster yang dapat dibedakan yang kelemahan memiliki kompleksitas waktu
diperoleh oleh algoritma lebih banyak dari kuadratik terhadap jumlah objek data.
jumlah klaster yang diinginkan dalam data. Secara umum, jumlah string klaster K’ akan
Oleh karena itu, K0 klaster harus kurang dari n. Namun, untuk menghindari
digabungkan untuk mencapai K klaster. kasus ekstrem seperti ketika K’ ≈ n, kami
Karena klaster K0 ini mewakili klaster yang hanya memilih n0.5 string klaster yang
dapat dibedakan, pendekatan yang sepele paling sering muncul. Ini akan membuat
dapat menjadi dengan mengurutkannya algoritma hierarkis menjadi log-linear
berdasarkan frekuensi string klaster dan dengan jumlah objek data (K’ atau n0.5
memilih K string klaster teratas. Masalah string klaster terpisah di sini). Jarak
dengan metode ini adalah tidak dapat Hamming (yang didefinisikan di Bagian 3)
dipastikan bahwa K string klaster teratas digunakan untuk membandingkan string
yang paling sering mewakili K klaster. Jika klaster. Algoritma yang diusulkan
lebih dari satu string klaster berasal dari didasarkan pada pengamatan bahwa
klaster yang sama, maka algoritma K- beberapa objek data selalu termasuk dalam
modes akan memberikan hasil klaster yang sama terlepas dari pusat klaster
pengelompokan yang tidak diinginkan. awal. Algoritma yang diusulkan berusaha
untuk menangkap objek data yang menghasilkan dua klaster. Semua objek
direpresentasikan oleh string paling sering. data yang sesuai dengan string ini dalam
String klaster yang jarang dapat dianggap suatu klaster digunakan untuk menghitung
sebagai outlier atau kasus batas dan pusat klaster.
pengecualian mereka tidak memengaruhi
perhitungan pusat klaster awal. Dalam 4.4.2 pemilihan attributes
kasus terbaik, ketika K’ << n0.5, efek Algoritma yang diusulkan dimulai dengan
kompleksitas waktu dari pengelompokan asumsi bahwa ada atribut yang menonjol
hierarkis log-linear akan minimal. Proses dalam data yang dapat membantu
ini menghasilkan mode berdimensi K - M mendapatkan struktur klaster yang dapat
yang akan digunakan sebagai pusat klaster dibedakan yang dapat digunakan seperti
awal untuk algoritma pengelompokan K- adanya atau digabungkan untuk
modes. Untuk menggabungkan string mendapatkan pusat klaster awal. Dalam
klaster (di Bagian 5), kami menggunakan ketiadaan atribut yang menonjol (atau jika
pengelompokan hierarki 'single-linkage', semua atribut menonjol), pendekatan
namun opsi lain seperti 'average-linkage', Vanilla, semua atribut dipilih untuk
'complete-linkage', dll. juga dapat menemukan pusat klaster awal. Karena
digunakan. Melanjutkan dengan contoh atribut selain atribut yang menonjol
yang ditunjukkan di Bagian 4.4, kami mengandung nilai atribut lebih dari K, suatu
memulai dengan n0.5 string sebagai tingkat dampak yang mungkin adalah peningkatan
terendah pohon untuk pendekatan dari jumlah string klaster yang berbeda karena
bawah ke atas pengelompokan hierarki. ketersediaan lebih banyak label alokasi
String serupa digabungkan hingga klaster. Ini menyiratkan pengurangan
mencapai tingkat di mana jumlah klaster keseluruhan dalam jumlah individu string
sama dengan jumlah klaster yang klaster yang berbeda dan dapat
diinginkan, K. Objek data yang termasuk menghasilkan banyak klaster kecil. Dalam
dalam string dalam suatu klaster digunakan formulasi kami, pengelompokan hierarkis
untuk menghitung pusat klaster awal. memberlakukan batas n0.5 pada string
Dalam contoh yang ditunjukkan di bagian klaster teratas yang akan digabungkan, oleh
sebelumnya, ada tiga string, 1-1-3-2, 2-2-1- karena itu beberapa klaster yang relevan
1, dan 2-2-2-1, yang akan digunakan untuk bisa berada di luar batas selama
menghitung pusat klaster awal. Jumlah penggabungan. Hal ini dapat menyebabkan
klaster yang ditetapkan adalah 2. String kehilangan beberapa informasi saat
serupa 2-2-1-1 dan 2-2-2-1 digabungkan, menghitung pusat klaster awal. Kasus
terbaik terjadi ketika jumlah string klaster 1. Breast Cancer Data
yang berbeda kurang dari atau sama dengan Data ini memiliki 699 instansi
n0.5. dengan 9 atribut. Setiap objek data
diberi label sebagai jinak (458%)
ANALISIS PERCOBAAN atau ganas (241%), dengan 9
5.1 Datasets instansi pada atribut 6 dan 9 yang
Untuk mengevaluasi kinerja metode mengandung nilai atribut yang
inisialisasi yang diusulkan, kami hilang (tidak tersedia). Hasil
menggunakan beberapa kumpulan data pengelompokan data kanker
murni kategorikal dari UCI Machine payudara ditunjukkan dalam Tabel
Learning Repository (Batche & Lichman, 6.
2013). Deskripsi singkat untuk setiap
kumpulan data diberikan di bawah ini. 2. Zoo Data
Kumpulan data ini memiliki 101
1. Soybean Small instansi yang dijelaskan oleh 16
Kumpulan data ini terdiri dari 47 atribut dan terbagi menjadi 7
kasus penyakit kedelai, masing- kategori. Atribut pertama berisi
masing ditandai oleh 35 variabel nama hewan unik untuk setiap
kategorikal nilainya jamak. Kasus- instansi dan dihapus karena tidak
kasus ini berasal dari empat informatif. Semua atribut karakter
populasi, masing-masing mewakili lainnya bersifat Boolean kecuali
salah satu dari empat penyakit atribut karakter yang sesuai dengan
kedelai berikut: D1-Diaporthe stem jumlah kaki yang berada dalam
canker, D2-Charcoat rot, D3- himpunan 0, 2, 4, 5, 6, 8. Hasil
Rhizoctonia root rot, dan D4- pengelompokan data Zoo
Phytophthora rot. Idealnya, ditunjukkan dalam Tabel 7.
algoritma pengelompokan 3. Lung Cancer Data
seharusnya membagi kasus-casus Kumpulan data ini berisi 32 instansi
ini menjadi empat kelompok yang dijelaskan oleh 56 atribut yang
(klaster) yang sesuai dengan terdistribusi dalam 3 kelas dengan
penyakit-penyakit tersebut. Hasil nilai yang hilang pada atribut 5 dan
pengelompokan pada data Soybean 39. Hasil pengelompokan untuk
Small ditunjukkan dalam Tabel 5. data kanker paru-paru ditunjukkan
dalam Tabel 8.
4. Mushroom Data kami, kami diskritisasi atribut
Kumpulan data jamur terdiri dari numerik (mewakili usia pasien)
8124 objek data yang dijelaskan menjadi 10 kategori. Hasil
oleh 22 atribut kategorikal yang pengelompokan untuk data
terdistribusi dalam 2 kelas. Dua dermatologi disajikan dalam Tabel
kelas tersebut adalah dapat dimakan 11.
(4208 objek) dan beracun (3916 Kami menggunakan kerangka kerja WEKA
objek). Terdapat nilai yang hilang (Hall et al., 2009) untuk pra-pemrosesan
pada atribut 11. Hasil data dan mengimplementasikan algoritma
pengelompokan untuk data jamur yang diusulkan.
ditunjukkan dalam Tabel 9. 5.2 Perbandingan dan Matrik evaluasi
5. Congressional Vote Data kinerja
Kumpulan data ini mencakup suara Untuk mengevaluasi kualitas hasil
untuk setiap anggota Kongres AS pengelompokan dan membandingkannya
pada 16 pemungutan suara kunci. secara adil, kami menggunakan metrik
Setiap suara dapat menjadi ya, kinerja yang digunakan oleh Wu et al.
tidak, atau disposisi tidak diketahui. (2007) yang berasal dari temuan dalam
Data ini memiliki 2 kelas dengan pengambilan informasi. Dengan asumsi
267 instance demokrat dan 168 bahwa sebuah dataset memiliki K kelas,
instance republikan. Hasil untuk metode pengelompokan tertentu,
pengelompokan untuk data suara biarkan ei menjadi jumlah objek data yang
ditunjukkan dalam Tabel 10. teratribusi dengan benar ke kelas Ci, bi
6. Dermatology Data menjadi jumlah objek data yang teratribusi
Kumpulan data ini berisi enam jenis dengan salah ke kelas Ci, dan ci menjadi
penyakit kulit untuk 366 pasien objek data yang ditolak dengan salah dari
yang dievaluasi menggunakan 34 kelas Ci, maka presisi, recall, dan akurasi
atribut klinis, di antaranya 33 didefinisikan sebagai berikut:
bersifat kategorikal dan satu bersifat
numerik. Nilai atribut kategorikal
menunjukkan tingkat keparahan
dalam hal apakah fitur tersebut ada,
berisi jumlah terbesar yang
mungkin, atau nilai relatif
menengah. Dalam eksperimen
Jain dan Dubes (1988) mencatat bahwa atribut. Untuk menguji intuisi ini, kami
hasil dari algoritma pengelompokan melakukan analisis perbandingan terhadap
partisional meningkat ketika pusat-pusat efek jumlah atribut yang dipilih terhadap
pengelompokan awal berada dekat dengan jumlah string klaster yang berbeda
pusat-pusat pengelompokan aktual. Untuk (dihasilkan pada Langkah 6 Algoritma 3).
mengukur kedekatan antara pusat-pusat Dalam Tabel 4, m adalah total jumlah
pengelompokan awal yang dihitung oleh atribut dalam data, p adalah jumlah atribut
metode yang diusulkan dan modus aktual utama, s adalah jumlah atribut signifikan (s
dari pengelompokan dalam data, kami = |S| dan s = p), CSM, CSP, dan CSS adalah
mendefinisikan metrik kecocokan, jumlah string klaster yang berbeda yang
diperoleh menggunakan atribut Vanilla,
Prominent, dan Signifikan, dan n0.5 adalah
di mana initialij adalah nilai ke-j dari mode batas pada jumlah string klaster teratas
awal untuk pengelompokan ke-i, actualij yang akan digabungkan menggunakan
adalah nilai ke-j yang sesuai dari mode pengelompokan hierarki. Tabel ini
aktual untuk pengelompokan ke-i, dan d menunjukkan bahwa memilih pendekatan
didefinisikan sama seperti dalam Bagian 3. Vanilla (semua atribut) mengarah pada
Metrik kecocokan (matchMetric) akan jumlah string klaster yang lebih besar,
memberikan derajat kedekatan antara mode sedangkan dengan pendekatan yang
awal dan aktual dengan nilai 0 berarti tidak diusulkan (baik atribut prominent maupun
ada kecocokan dan 1 berarti kecocokan signifikan), jumlahnya relatif lebih kecil.
yang tepat di antara keduanya. Fakta ini dapat dilihat untuk data Soybean
Small, Mushroom, dan Dermatology.
Untuk data Lung Cancer, p ≈ m sehingga
jumlah string klaster setara. Untuk dataset
Soybean Small dan Mushroom, untuk
jumlah atribut Prominent dan Signifikan
yang sama, jumlah string klaster yang
5.3. Effect of number of attributes
sesuai berbeda (CSP ≠ CSS). Hal ini
disebabkan oleh kenyataan bahwa
Pada Bagian 4.4.2, kami membahas bahwa
himpunan p atribut prominent dan
pemilihan semua atribut dapat
signifikan berbeda karena kedua metode
menghasilkan sejumlah besar string klaster,
memilih atribut dengan menggunakan
terutama jika atribut memiliki banyak nilai
pendekatan yang berbeda. Sementara
pilihan atribut prominent (ketika mereka beberapa ketidakakuratan
kurang dari m) seharusnya mengurangi komputasi dalam karya Bai et al.
jumlah string klaster secara keseluruhan (2012), oleh karena itu kami
karena memilih atribut dengan lebih sedikit mengecualikan metode mereka dari
nilai atribut, atribut yang dipilih oleh perbandingan dengan pekerjaan
metode signifikan mungkin mengandung kami. Untuk inisialisasi acak, kami
atribut dengan lebih banyak nilai atribut secara acak mengelompokkan objek
yang menghasilkan lebih banyak string data menjadi K klaster dan
klaster. Untuk dataset Zoo, Vote, dan Breast menghitung modus mereka untuk
Cancer, semua atribut adalah prominent, digunakan sebagai pusat klaster
oleh karena itu p dan m sama, dan oleh awal.
karena itu CSP = CSA. Perlu dicatat bahwa 2. Eksperimen 2: Kami
jumlah string klaster yang berbeda membandingkan hasil clustering
menggunakan pendekatan yang diusulkan yang diperoleh dengan
untuk dataset Zoo dan Mushroom berada menggunakan atribut prominent
dalam batas n0.5. dan signifikan untuk menemukan
pusat klaster awal.
5.4 Hasil Klustering
Pada bagian ini, kami menyajikan hasil
clustering K-Modes yang menggunakan
pusat klaster awal yang dihitung dengan
metode yang diusulkan. Kami melakukan
lima set eksperimen, dengan rincian
sebagai berikut:
1. Eksperimen 1: Kami
membandingkan hasil clustering
yang diperoleh dengan
menggunakan atribut prominent
untuk menemukan pusat klaster
awal dengan metode pemilihan acak
pusat klaster awal dan metode yang
dijelaskan oleh Cao et al. (2009) dan
Wu et al. (2007). Seperti yang
disebutkan di Bagian 2, terdapat
kasus tersebut, kami
membandingkan hasil clustering
mereka.
4. Eksperimen 4: Untuk semua tiga
pendekatan dalam menghitung
pusat klaster awal yaitu Vanilla,
Prominent, dan Signifikan, kami
menghitung matchMetric untuk
mengukur kualitas pusat klaster
awal dalam hal kedekatan mereka
dengan mode sebenarnya atau pusat
klaster dari data.
5. Eksperimen 5: Kami melakukan uji
skalabilitas dengan meningkatkan
jumlah objek data menjadi 100.000
dan mencatat waktu yang
dihabiskan untuk menghitung pusat
klaster awal. Kami juga
membandingkan tingkat
kompleksitas waktu dari metode
yang diusulkan dengan dua metode
inisialisasi lainnya.

Eksperimen 1. Tabel 5–11 menunjukkan


hasil clustering, dengan matriks
kebingungan yang merepresentasikan
struktur klaster yang diperoleh oleh
algoritma K-modes dengan menggunakan
pusat klaster awal yang dihitung
menggunakan metode yang diusulkan.
Terlihat bahwa metode inisialisasi yang
3. Eksperimen 3: Untuk beberapa
dataset, atribut Vanilla berbeda dari diusulkan mengungguli inisialisasi klaster
acak ketika digunakan sebagai awal untuk
atribut prominent, untuk kasus-
algoritma clustering K-modes untuk data
kategorikal dalam akurasi, presisi, dan Hasil tersebut sangat memuaskan karena
recall. Metode inisialisasi acak memberikan metode yang diusulkan berusaha untuk
hasil yang tidak dapat diulang, sedangkan menemukan wilayah yang padat secara
metode yang diusulkan memberikan hasil lokal dan menolak kasus-kasus batas,
clustering yang tetap. Oleh karena itu, sehingga memastikan pemilihan pusat
struktur klaster yang dapat diulang dan klaster awal yang lebih baik dengan
lebih baik dapat diperoleh dengan kompleksitas waktu kasus terburuk log-
menggunakan metode yang diusulkan. linier. Metode dari Wu et al. menyebabkan
Dibandingkan dengan metode inisialisasi pemilihan acak objek data dan Cao et al.
Cao et al. dan Wu et al., kami mengevaluasi dapat memilih kasus batas sebagai pusat
hasil kami dalam hal: klaster awal yang dapat merugikan hasil
• Akurasi – Metode yang diusulkan clustering. Nilai akurasi metode yang
unggul atau setara dengan metode diusulkan lebih baik atau setara dengan
lain dalam 4 kasus dan tampil lebih metode lain. Satu-satunya kasus di mana
buruk dalam satu kasus. metode yang diusulkan tampil lebih buruk
• Presisi – Metode yang diusulkan dalam ketiga metrik kinerja adalah dataset
tampil baik atau setara dengan Soybean Small. Dataset ini hanya memiliki
metode lain dalam 2 kasus dan 47 objek data, algoritma kami tidak dapat
tampil lebih buruk dalam 3 kasus. mengelompokkan hanya 2 objek data
• Recall – Metode yang diusulkan dengan benar. Namun, karena ukuran kecil

unggul atau setara dengan metode dataset, kesalahan pengelompokan tampak


lain dalam 4 kasus dan tampil lebih besar.
buruk dalam 1 kasus. Kami melihat bahwa pada beberapa dataset,
metode yang diusulkan memberikan nilai
Hasil untuk data Congressional Vote dan presisi yang lebih buruk, yang berarti
Dermatology tidak tersedia dari makalah bahwa dalam kasus-kasus tersebut

Cao et al. dan Wu et al., oleh karena itu beberapa objek data dari non-kelas
kami membandingkan akurasi clustering dielompokkan dalam kelas yang diberikan.
metode yang diusulkan dengan metode Nilai recall metode yang diusulkan lebih
inisialisasi acak. Hasil clustering untuk data baik daripada metode lain, yang

Dermatology dengan inisialisasi acak lebih menunjukkan bahwa pendekatan yang


buruk karena pencampuran objek data di diusulkan secara ketat mengendalikan
antara berbagai klaster. objek data dari kelas yang diberikan untuk
tidak dielompokkan ke non-kelas. Data
Breast Cancer tidak memiliki atribut metode yang diusulkan dapat menghasilkan
prominent dalam data dan menggunakan tingkat presisi dan recall yang lebih baik
semua atribut dan menghasilkan hasil yang daripada metode lain. Juga diamati bahwa
dapat dibandingkan dengan metode lain. metode yang diusulkan berperforma
Data Lung Cancer, meskipun lebih kecil
ukurannya, memiliki dimensi tinggi dan

Eksperimen 3: Sebagian besar dataset


menunjukkan bahwa penggunaan atribut
prominent lebih baik daripada atribut
signifikan. Meskipun kami memilih jumlah
atribut prominent dan signifikan yang sama
(terutama ketika tidak semua atribut adalah
prominent), hasil clustering mereka
bervariasi karena kedua ruang atribut
mungkin berisi set atribut yang berbeda.
Hal ini disebabkan oleh definisi (lihat
Bagian 4), atribut prominent dan signifikan
menggunakan kriteria yang berbeda untuk
memilih atribut yang relevan untuk
menghitung pusat klaster awal. Selain itu,
menghasilkan peringkat atribut signifikan
lebih mahal dari segi kompleksitas waktu
dibandingkan dengan menghitung atribut
prominent (lihat Bagian 4.4.3 untuk menunjukkan kasus ketika atribut
rincian). Eksperimen 3. Sesuai dengan prominent kurang dari total jumlah atribut.
Algoritma 1, untuk data Zoo, Vote, dan Pusat klaster awal yang dipilih oleh atribut
Breast Cancer, semua atribut adalah prominent/signifikan selalu lebih dekat
prominent. Untuk sisa dataset, ini tidak dengan mode sebenarnya dari dataset dalam
terjadi dan atribut prominent lebih sedikit hal matchMetric, dan oleh karena itu
daripada jumlah total atribut. Kami algoritma K-modes konvergen dalam
melakukan eksperimen untuk menganalisis jumlah iterasi yang sangat sedikit dengan
skenario ketika ada lebih sedikit atribut struktur klaster yang baik (lihat diskusi
prominent dan dampaknya pada hasil hasil clustering pada Eksperimen 1). Hasil
clustering keseluruhan. Tabel 13 yang serupa diperoleh ketika semua atribut
menunjukkan bahwa untuk semua dataset dipilih sebagai atribut prominent dan
kecuali Soybean Small, memilih atribut digunakan untuk menghitung pusat klaster
prominent kurang dari jumlah total atribut awal (lihat Tabel 14(b)). Nilai matchMetric
meningkatkan kinerja clustering. Memilih yang tinggi menunjukkan bahwa pusat
semua atribut dibandingkan dengan klaster awal dekat dengan pusat klaster
menggunakan lebih sedikit atribut sebenarnya dan algoritma clustering K-
prominent menghasilkan lebih banyak modes dengan pusat klaster awal ini
string klaster (lihat Tabel 4). Jika string konvergen cepat dengan kinerja
klaster ini lebih dari n0.5, maka banyak pengelompokan yang baik. Alasan pusat
string klaster yang relevan mungkin tidak klaster awal menjadi dekat dengan pusat
dipilih, yang jika dimasukkan dapat klaster sebenarnya adalah bahwa metode
berkontribusi dalam perhitungan pusat yang diusulkan menemukan klaster yang
klaster awal. padat dan terlokalisasi, menggabungkannya
jika diperlukan, dan menolak klaster yang
Eksperimen 4. Untuk semua dataset tidak signifikan.
menggunakan tiga metode penghitungan
pusat klaster awal, kami menghitung
matchMetric (lihat Persamaan (8)), yang
mengukur derajat kedekatan pusat klaster
awal dan sebenarnya. Kami juga
mempelajari dampak kualitas pusat klaster
awal pada konvergensi algoritma K-modes
(dalam hal jumlah iterasi, #Itr). Tabel 14(a)
awal yang sesuai. Dapat diamati bahwa
biaya waktu metode yang diusulkan
tumbuh hampir linear dengan peningkatan
jumlah objek data. Hasil eksperimen
menunjukkan bahwa metode inisialisasi
pusat klaster yang diusulkan berskala linear
dan dapat diimplementasikan untuk dataset
besar.

Gambar 1. Konsumsi waktu dalam


menghitung pusat klaster awal untuk
berbagai ukuran data.
Eksperimen5. Skalabilitas Waktu
Tabel 15 membandingkan kompleksitas
Algoritma yang Diusulkan. Kami
waktu algoritma inisialisasi klaster yang
melakukan eksperimen untuk menguji
diusulkan dengan dua metode inisialisasi
skalabilitas metode yang diusulkan dalam
pesaing dari Cao et al. (2009) dan Wu et al.
menghitung pusat klaster awal untuk
(2007). Dalam algoritma yang diusulkan
dataset besar. Kami menggunakan dataset
(dengan atribut prominent), jika rKm2 lebih
Mushroom (lihat Bagian 5.1) yang terdiri
besar dari logn (yang kemungkinan besar
dari 8124 objek data yang dijelaskan oleh
benar untuk dataset berdimensi tinggi
22 atribut kategorikal dan 2 klaster. Kami
dengan jumlah klaster yang besar),
membuat salinan dataset ini dalam
kompleksitas ditentukan oleh term kedua,
kelipatan 2, 4, 6, 8, 10, dan 12 sehingga
rKm2n, yang bersifat linear terhadap
ukuran datanya bervariasi dari 8124 hingga
jumlah objek data dan mirip dengan metode
113.736. Kami menjalankan algoritma yang
Cao dan lebih baik daripada metode Wu
diusulkan untuk menghitung pusat klaster
(dengan memperhatikan jumlah objek
awal pada masing-masing salinan ini secara
data). Pola kompleksitas waktu linear ini
terpisah. Kami menjalankan eksperimen
juga diamati dalam eksperimen skalabilitas
pada mesin HP TouchSmart tm2 dengan
kami. Tantangan Klasterisasi dengan
prosesor Intel Pentium™ U4100 1,3 GHz,
Beberapa Atribut Pada Bagian 4, kami
cache L2 2048 KB, dan RAM 4 GB.
menyebutkan beberapa tantangan dalam
Gambar 1 menunjukkan plot antara ukuran
menggunakan pendekatan klasterisasi
data yang berbeda dan waktu yang
ganda (seperti yang didefinisikan oleh
digunakan dalam menghitung pusat klaster
Müller et al. (2010)). Metode yang menyebabkan hasil yang tidak dapat
diusulkan menggunakan pendekatan diulang dan menghasilkan struktur klaster
klasterisasi ganda untuk menemukan pusat yang tidak benar. Dalam makalah ini, kami
klaster awal untuk algoritma klasterisasi mengusulkan algoritma untuk menghitung
partisional. Pendekatan yang diusulkan pusat klaster awal untuk data kategorikal
berhasil menghasilkan dan mendeteksi dengan melakukan pengelompokan data
pandangan klaster ganda dari data dan berdasarkan nilai atribut yang hadir dalam
dapat memproses klaster yang berbeda berbagai atribut. Algoritma yang diusulkan
menjadi jumlah klaster yang sesuai dengan ini didasarkan pada fakta eksperimental
pendekatan pengelompokan hierarki yang bahwa objek data serupa membentuk inti
dimodifikasi atau menggunakannya tanpa dari klaster dan tidak dipengaruhi oleh
perubahan, sesuai kebutuhan (seperti yang pemilihan pusat klaster awal, dan bahwa
dibahas dalam Algoritma 3). Dalam kasus atribut individual juga memberikan
terburuk, algoritma yang diusulkan akan informasi yang berguna dalam
menghasilkan pandangan pengelompokan menghasilkan struktur klaster. Algoritma
yang sama dengan jumlah atribut total yang diusulkan terdiri dari dua bagian -
dalam data. Ini merupakan peningkatan pemilihan atribut yang relevan dan
signifikan dibandingkan dengan perhitungan pusat klaster awal. Untuk
pendekatan lain seperti yang dilakukan oleh memilih atribut yang relevan dari data,
Khan dan Kant (2007), yang dapat kami menyajikan dua metode bersaing.
dijalankan sejumlah kali untuk akumulasi Metode pertama memilih atribut yang
bukti. Metode yang diusulkan bersifat menonjol berdasarkan nilai atribut yang
fleksibel dan diuji pada berbagai dataset hadir dalam suatu atribut dan metode kedua
kategorikal, namun batasan yang diketahui menghitung peringkat atribut yang
adalah pengetahuan awal tentang jumlah signifikan dengan metode pembelajaran
klaster alami dalam data. tanpa pengawasan. Berdasarkan atribut
yang dipilih, algoritma yang diusulkan
KESIMPULAN membagi data beberapa kali untuk
Algoritma pengelompokan K-modes menghasilkan beberapa pandangan
digunakan untuk mempartisi data pengelompokan data. Multiplisitas
kategorikal menjadi K kelompok yang telah pandangan pengelompokan ditangkap
ditentukan sebelumnya. Namun, hasil dalam bentuk string klaster, yang
pengelompokan bergantung pada pemilihan menghasilkan klaster yang dapat dibedakan
pusat klaster awal secara acak, yang dapat yang berbeda dalam data yang mungkin
lebih besar dari, sama dengan, atau kurang signifikan dan memiliki keuntungan dalam
dari jumlah klaster yang diinginkan (K). kompleksitas komputasi yang lebih rendah.
Jika lebih besar dari K, maka Pusat klaster awal yang dihitung dengan
pengelompokan hirarkis yang dimodifikasi pendekatan yang diusulkan ditemukan
digunakan untuk menggabungkan string sangat mirip dengan pusat klaster aktual
klaster yang serupa menjadi K klaster. Jika dari data yang menyebabkan konvergensi
sama dengan K, maka objek data yang yang lebih cepat dari algoritma
sesuai dengan string klaster dapat langsung pengelompokan K-modes dan hasil
digunakan sebagai pusat klaster awal. pengelompokan yang lebih baik. Kinerja
Kemungkinan samar mungkin muncul metode yang diusulkan lebih baik daripada
ketika string klaster kurang dari K, dalam inisialisasi acak dan lebih baik atau setara
hal ini diasumsikan bahwa nilai K saat ini dengan dua metode lainnya yang
tidak mewakili jumlah klaster yang dibandingkan pada semua dataset kecuali
diinginkan. Dalam eksperimen kami, kami satu kasus. Keuntungan terbesar dari
tidak mendapatkan situasi seperti itu, metode yang diusulkan adalah
sebagian besar karena ini dapat terjadi kompleksitas waktu komputasi terburuk
dalam kejadian yang jarang, ketika semua dalam log-linear dan pilihan pusat klaster
nilai atribut dari berbagai atribut awal dari wilayah yang padat, sementara
mengelompokkan data dengan cara yang dua metode lainnya tidak memiliki salah
sama. Pusat klaster awal ini, ketika satu dari keduanya.
digunakan sebagai seed untuk algoritma Ketika jumlah klaster yang diinginkan tidak
pengelompokan K-modes, meningkatkan tersedia sebelumnya, kami ingin
akurasi algoritma pengelompokan K- memperluas pendekatan multi-
modes tradisional yang menggunakan pusat pengelompokan yang diusulkan untuk data
klaster acak sebagai titik awal. Karena kategorikal untuk menemukan jumlah
metode yang diusulkan menyediakan klaster alami yang ada dalam data, selain
pilihan pusat klaster awal yang definitif menghitung pusat klaster awal untuk kasus-
(nol deviasi standar), hasil pengelompokan kasus seperti itu. Algoritma saat ini untuk
yang konsisten dan dapat diulang dapat menghitung atribut yang menonjol
diperoleh. Kami juga menunjukkan bahwa terkadang memilih semua atribut dalam
pusat klaster awal yang dihitung dengan data, namun eksperimen kami
menggunakan atribut yang menonjol menunjukkan bahwa pertimbangan atribut
berperforma lebih baik daripada yang lebih relevan adalah pilihan yang
pendekatan pemilihan atribut yang lebih baik daripada memilih semua atribut.
Kami ingin menyelidiki lebih lanjut kasus- Cao, F., Liang, J., & Bai, L. (2009). A new
initialization method for categorical data clustering.
kasus seperti itu di masa depan. Kami ingin Expert Systems and Applications, 36, 10223–10228.
Caruana, R., Elhawary, M. F., Nguyen, N., & Smith,
memperluas pendekatan atribut yang C. (2006). Meta clustering. In ICDM (pp. 107–118).
IEEE Computer Society.
signifikan dengan memberi peringkat Davidson, I., & Qi, Z. (2008). Finding alternative
clusterings using constraints. In ICDM (pp. 773–
berdasarkan signifikansinya dalam
778). IEEE Computer Society.
pembentukan konsensus akhir daripada Bache, K., & Lichman, M., (2013). UCI machine
learning repository, http:// archive.ics.uci.edu/ml.
mengambil jumlah atribut yang tetap. Fred, A. L. N., & Jain, A. K. (2002). Data clustering
using evidence accumulation. In ICPR (4) (pp. 276–
Dengan kata lain, saat menghitung 280).
Gowda, K. C., & Diday, E. (1991). Symbolic
kesamaan string klaster dalam algoritma clustering using a new dissimilarity measure. Pattern
penggabungan, akan diberikan lebih Recognition, 24, 567–578.
Guha, S., Rastogi, R., & Shim, K. (1999). Rock: a
banyak bobot pada hasil pengelompokan robust clustering algorithm for categorical attributes.
In Proceedings of the 15th international conference
yang dihitung dengan menggunakan atribut on data engineering, 23–26 March 1999, Sydney,
Austrialia (pp. 512–521). IEEE Computer Society.
yang lebih signifikan. Hall, M., Frank, E., Holmes, G., Pfahringer, B.,
Reutemann, P., & Witten, I. H. (2009). The weka
data mining software: an update. In SIGKDD
Explorations: Vol. 11 of 1.
DAFTAR PUSTAKA
He, Z. (2006). Farthest-point heuristic based
Agrawal, R., Gehrke, J., Gunopulos, D., & initialization methods for k-modes clustering.
Raghavan, P. (1998). Automatic subspace clustering CoRR, abs/cs/0610043.
of high dimensional data for data mining He, Z., Xu, X., & Deng, S. (2005). A cluster
applications. In L. M. Haas & A. Tiwary (Eds.), ensemble method for clustering categorical data.
SIGMOD conference (pp. 94–105). ACM Press. Information Fusion, 6, 143–151.
Ahmad, A., & Dey, L. (2007a). A k-mean clustering Huang, Z. (1997). A fast clustering algorithm to
algorithm for mixed numeric and categorical data. cluster very large categorical datasets in data
Data Knowledge Engineering, 63. mining. In Research issues on data mining and
Ahmad, A., & Dey, L. (2007b). A method to knowledge discovery.
compute distance between two categorical values of Huang, Z. (1998). Extensions to the k-means
same attribute in unsupervised learning for algorithm for clustering large data sets with
categorical data set. Pattern Recognition Letters, 28, categorical values. Data Mining and Knowledge
110–118. Discovery, 2, 283–304.
Ahmad, A., & Dey, L. (2011). A k-means type Jain, A. K., & Dubes, R. C. (1988). Algorithms for
clustering algorithm for subspace clustering of clustering data. Upper Saddle River, NJ, USA:
mixed numeric and categorical datasets. Pattern Prentice-Hall, Inc.
Recognition Letters, 32, 1062–1069. Ji, J., Pang, W., Zhou, C., Han, X., & Wang, Z.
Anderberg, M. R. (1973). Cluster analysis for (2012). A fuzzy k-prototype clustering algorithm for
applications. New York: Academic Press. Bai, L., mixed numeric and categorical data. Knowledge-
Liang, J., Dang, C., & Cao, F. (2012). A cluster Based Systems, 30, 129–135.
centers initialization method for clustering Kaufman, L., & Rousseeuw, P. J. (1990). Finding
categorical data. Expert Systems with Applications, groups in data: an introduction to cluster analysis.
39, 8022–8029. John Wiley.
Boley, D., Gini, M., Gross, R., Han, E.-H., Karypis, Khan, S. S., & Ahmad, A. (2004). Cluster center
G., Kumar, V., et al. (1999). initialization algorithm for k-means clustering.
Partitioning-based clustering for web document Pattern Recognition Letters, 25, 1293–1302.
categorization. Decision Support Systems, 27, 329– Khan, S. S., & Ahmad, A. (2003). Computing initial
341. points using density based multiscale data
Bradley, P. S., & Fayyad, U. M. (1998). Refining condensation for clustering categorical data. In
initial points for k-means clustering. In J. W. Shavlik Proceedings of 2nd international conference on
(Ed.), ICML (pp. 91–99). Morgan Kaufman. applied artificial intelligence.
Khan, S. S., & Ahmad, A. (2012). Cluster center
initialization for categorical data using multiple
attribute clustering. In E. Mülle, T. Seidl, S.
Venkatasubramanian, & A. Zimek (Vol. Eds.),
Workshop proceedings of the 3rd multiclust
workshop: discovering, summarizing and using
multiple clusterings, USA (pp. 3–10).
Khan, S. S., & Kant, S. (2007). Computation of
initial modes for k-modes clustering algorithm using
evidence accumulation. In Proceedings of the 20th
international joint conference on artificial
intelligence (IJCAI) (pp. 2784–2789).
Matas, J., & Kittler, J. (1995). Spatial and feature
space clustering: applications in image analysis. In
CAIP (pp. 162–173).
Mitra, P., Murthy, C. A., & Pal, S. K. (2002).
Density-based multiscale data condensation. IEEE
Transactions on Pattern Analysis and Machine
Intelligence, 24, 734–747.
Müller, E., Günnemann, S., Färber, I., & Seidl, T.
(2010). Discovering multiple clustering solutions:
grouping objects in different views of the data. In G.
I. Webb, B. Liu, C. Zhang, D. Gunopulos, & X. Wu
(Eds.), ICDM (pp. 1220). IEEE Computer Society.
Petrakis, E. G. M., & Faloutsos, C. (1997).
Similarity searching in medical image databases.
IEEE Transactions on Knowledge Data
Engineering, 9, 435–447.
Ralambondrainy, H. (1995). A conceptual version of
the k-means algorithm. Pattern Recognition Letters,
16, 1147–1157.
Sun, Y., Zhu, Q., & Chen, Z. (2002). An iterative
initial-points refinement algorithm for categorical
data clustering. Pattern Recognition Letters, 23,
875–884.
Ukkonen, E. (1995). On-line construction of suffix
trees. Algorithmica, 14, 249–260.
Wu, S., Jiang, Q., & Huang, J. Z. (2007). A new
initialization method for clustering categorical data.
In Proceedings of the 11th Pacific-Asia conference
on advances in knowledge discovery and data
mining PAKDD’07 (pp. 972–980). Berlin,
Heidelberg: Springer-Verlag.

Anda mungkin juga menyukai