Anda di halaman 1dari 13

Data Mining

Clustering
Citramai Zahrani
20104410030
Pengertian

● Clustering adalah metode untuk menganalisis data yang sering digunakan sebagai salah satu metode data
mining. 
● Tujuan dari clustering adalah untuk mengelompokkan data dengan karakteristik yang sama ke satu wilayah
yang sama dan data dengan karakteristik yang berbeda ke wilayah yang lain. Manfaat clustering sebagai
segmentasi data yang berguna untuk memprediksi dan menganalisa masalah bisnis, serta mengidentifikasi
obyek dalam berbagai bidang (computer vision dan image processing). 
Runtutan Algoritma
1. Clustering dengan pendekatan Partisi  

Clustering pendekatan partisi atau biasanya disebut dengan partition based


clustering. Mengelompokkan data ke dalam beberapa cluster atau kelompok sehingga
data di dalam satu cluster memiliki tingkat kemiripan yang maksimum dan data antar
cluster juga memiliki kemiripan yang minimum. Salah satu metode yang banyak
digunakan dalam clustering ini adalah metode K-means, metode ini melakukan
pengelompokkan dengan prosedur :  
• menentukan jumlah cluster. 
• mengalokasikan data secara acak ke cluster yang ada. 
• menghitung rata – rata setiap cluster dari data yang sudah tergabung. 
• alokasikan kembali semua data ke cluster yang terdekat. 
• Menghitung kembali rata – rata setiap cluster sampai tidak ada perubahan.  
Metode K-means juga mempunyai kelemahan, yaitu : semua variabel memiliki
varians yang sama, K-means mengasumsikan varian dari distribusi setiap atribut dan
probabilitas sebelumnya untuk semua cluster adalah sama.  
2. Clustering dengan pendekatan Hirarki 

Mengelompokkan data dengan dua atau lebih objek yang mempunyai


kesamaan paling dekat, kemudian diteruskan ke objek lain yang mempunyai
kedekatan kedua. Terdapat dua metode yang sering digunakan yaitu Agglomerative
hieararchical clustering (pemusatan) dan divisive
hieararchical clustering (penyebaran). Agglomerative melakukan proses clustering
dari jumlah data cluster menjadi satu kesatuan cluster. Divisive melakukan proses
clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster (jumlah data).
Beberapa metode yang sering digunakan oleh hieararchical clustering dibedakan
menurut cara menghitung tingkat kemiripan. Ada yang menggunakan  Single
Linkage, Complete Linkage, Average Linkage, Average Group Linkage.  Seperti juga
halnya dengan partition-based clustering, kita dapat memilih jenis jarak yang
digunakan untuk menghitung tingkat kemiripan antar data. Tingkat kemiripan bisa
dihitung dengan berbagai macam cara seperti Euclidean Distance Space.
3. Clustering dengan Pendekatan Automatic Mapping  
Self Organising Map (SOM) adalah suatu tipe Artifical Neural Network. SOM menghasilkan map yang terdiri dari output
2 atau 3 dimensi. Map berusaha untuk mencari property dari input data. Proses learning yang dilakukan mirip dengan Artifical
Neural Network, tetapi proses untuk mengassign input data ke map lebih mirip dengan K-means dan KNN Algorithm. Prosedur
dalam melakukan clustering dengan SOM adalah :  
• Menentukan weight dari input data secara random 
• Memilih salah satu input data
• Menghitung tingkat kesamaan (eucledian) antara input data dan weight dari input data tersebut lalu pilih input data
yang memiliki kesamaan dengan weight yang ada. 
• Memperbaharui weight dari input data dengan mendekatkan weight ke BMU. Rumus nya adalah : Wv(t+1) = Wv(t) +
Theta(v, t) x Alpha(t) x (D(t) – Wv(t))  
 
Keterangan :  
• Wv(t): Weight pada saat ke-t 
• Theta (v, t): Fungsi neighbourhood yang tergantung pada Lattice distance antara BMU dengan neuron v. Umumnya
bernilai 1 untuk neuron yang cukup dekat dengan BMU, dan 0 untuk yang sebaliknya. Penggunaan fungsi Gaussian juga
memungkinkan. 
• Alpha (t): Learning Coefficient yang berkurang secara monotonic 
• D(t): Input data. Tambah nilai t, sampai t < Lambda, dimana Lambda adalah jumlah iterasi 
Contoh Studi Kasus dan Pembahasan

Contoh penerapan K-Means menggunakan contoh studi kasus pada penjualan kartu
telkomsel pada setiap kota. berikut ini Langkah penerapan metode clustering K-
Means pada penjualan kartu telkomsel dibeberapa daerah. Pada tahap ini dilakukan
data yang didapatkan sesuai dengan sistem yang akan digunakan dalam analisis data
mining. Transformasi ini dilakukan dengan cara memasukkan data-data transaksi
penjualan ke dalam aplikasi data mining.
1. Menetapkan jumlah cluster. Jumlah cluster ditetapkan berdasarkan hasil transaksi
penjualan yaitu C1, C2, dan C3. Oleh karena itu jumlah cluster yang ditetapkan adalah 3
cluster.
2. Inisialisasi pusat cluster (centroid) secara acak berdasarkan data skor hasil survei lapangan.
Nilai pusat cluster dapat dilihat pada table berikut:
Tabel Inisialisasi Cluster
3. Hitung jarak setiap data terhadap pusat cluster. Misalnya untuk menghitung jarak instance pertama
dengan pusat cluster pertama adalah:
Berikut adalah hasil perhitungan lengkap dari perhitungan clustering:
4. Mengklasifikasi setiap data berdasarkan kedekatannya dengan titik pusat data atau centroid diambil berdasarkan tingkat
penjualan rendah, sedang, dan tinggi dari sampel data penjualan Telkomsel.
5. Memperbaharui nilai centroid. Sebagai contoh untuk cluster pertama (C1) terdapat 6
instance yaitu instance ke 1, 2, 6, 7, 8, dan 10 dengan catatan jika
semua instance ditampilkan maka C1 akan memiliki jumlah instance( anggota cluster)
yang Berikut contoh perhitungan untuk memperbaharui centroid dari 13 instance.
6. Ulangi langkah 3 hingga 4,sampai anggota tiap cluster tidak ada yang berubah.
THANK YOU!

Anda mungkin juga menyukai