Anda di halaman 1dari 58

CLUSTERING

Pengantar
Supervised dan Unsupervised Learning
Machine Learning sendiri secara umum terbagi menjadi
Supervised Learning dan Unsupervised Learning
Perbedaan SUP dan UNS
• Supervised Learning merupakan proses pengelompokan data yang telah memiliki
label dan akan dikelompokkan berdasarkan labelnya. Untuk mendapatkan label
tentunya harus melakukan proses training terlebih dahulu. Contohnya, kita
memiliki 3 kriteria dengan skalanya masing masing. Misalkan Suhu tinggi (1), batuk
(0), sesak napas (0) maka corona (0), dimana angka 1 menunjukkan "ya" dan angka
0 menujukkan "tidak".

• Unsupervised Learning merupakan proses pengelompokan data yang tidak


memiliki label. Sehingga kita bebas menentukan berapa jumlah kelompok data
yang akan dibuat, misalnya menjadi 2, 3 atau seterusnya. Tentunya dalam
pengelompokan ini juga berdasarkan karakteristiknya yang sama. Nah, untuk
outputnya sendiri tentunya akan berbeda dengan supervised learning. Karena
outputnya belum diketahui, maka kita dapat membuatnya sendiri dengan
mengelompokkannya
Supervised Learning
Supervised Learning
• Supervised-learning merupakan jenis yang populer untuk melakukan operasi
machine learning dan banyak digunakan untuk data di mana ada pemetaan yang
tepat antara data input-output. Kumpulan data, dalam hal ini, diberi label, artinya
algoritma mengidentifikasi fitur secara eksplisit dan melakukan prediksi atau
klasifikasi yang sesuai.

• Kata “supervised” menunjukkan bahwa “kontrol” terhadap algoritma sangat


berpengaruh pada pembentukan model. Kontrol algoritma dilakukan dengan cara
memberikan data set (D) yang didefinisikan sebagai:

• Dimana x adalah input dan y adalah output. Setiap x akan mengendalikan y. Data
semacam ini disebut dengan data berlabel (labeled data). Input dan output ini
disebut juga input variabel dan output variabel
Algoritme Supervised Learning
Seiring dengan berjalannya periode pelatihan, algoritma dapat mengidentifikasi hubungan antara
dua variabel sehingga supervised learning dapat memprediksi hasil yang baru. Algoritma
supervised learning digunakan untuk menyelesaikan berbagai persoalan yang terkait dengan:
• Classification (klasifikasi)
• Regression (regresi)
• Ensemble (gabungan)

Algoritma supervised learning berorientasi pada tugas. Dengan semakin banyaknya sampel data
set yang berikan, ia dapat belajar dengan lebih baik sehingga dapat melaksanakan komputasi dan
menghasilkan output yang lebih akurat
Penerapan supervised learning
• Jaringan Syaraf Tiruan (JST). Convolutional Neural Networks
(CNN) adalah jenis JST yang digunakan untuk mengidentifikasi
wajah orang.
Unsupervised Learning
• Pada algoritma unsupervised-learning, data tidak secara eksplisit diberi label ke
dalam kelas yang berbeda (tidak ada label pada data). Model mampu belajar dari
data dengan menemukan pola implisit. Algoritma unsupervised learning
mengidentifikasi data berdasarkan kepadatan, struktur, segmen serupa, dan fitur
serupa lainnya.

• Pembelajaran unsupervised learning diibaratkan sebagai cara bayi menemukan


dunia. Dia belajar tentang jenis objek di dunia, bagaimana bentuk dan
perasaannya. Dia mempelajari jenis suara apa yang ada disekitarnya, mempelajari
jenis suara yang dibuat orang, bagaimana mereka terhubung dengan kata-kata,
bagaimana kata-kata terhubung ke dalam kalimat. Tidak ada nilai tertinggi di sini.
Unsupervised Learning
Unsupervised Learning
• Algoritma unsupervised learning akan mencari pola tersembuyi (pola
eksplisit) dari data set yang diberikan. Pembelajaran unsupervised-
learning bekerja dengan menganalisis data tinak berlabel untuk
menemukan struktur tersembunyi di dalamnya, dan dengan menentukan
korelasi, dan untuk fitur yang benar-benar menghubungkan dua item data.

• Algoritma supervised learning membuat komputer akan “dituntun” untuk


belajar dari data. Sedangkan pada algoritma unsupervised-learning
komputer “dibiarkan” belajar sendiri dari data
Kategori UN
Pengelompokan atau clustering, juga dikenal sebagai
Cluster Analysis yaitu teknik pengelompokan kumpulan
objek serupa dalam grup yang sama yang berbeda dari
objek di grup lain.
Kategori UN
Clustering
Pengelompokan atau clustering, juga dikenal sebagai Cluster Analysis yaitu
teknik pengelompokan kumpulan objek serupa dalam grup yang sama yang
berbeda dari objek di grup lain:
- K-Means
- DBSCAN
Hierarchical Clustering
Anomaly Detection
Autoencoder
Principal Component Analysis (PCA)
Contoh Penerapan UN
• Perusahaan bisnis dapat menangkap segmen
pelanggan potensial untuk menjual produk mereka.
• Clustering titik panas kebakaran hutan
• Clustering area pertanian
• Clutering dalam dunia kesehatan
KEMAMPUAN AKHIR YANG DIHARAPKAN

Dapat menjelaskan konsep dasar cluster dan penerapannya pada data.


Cluster
• Suatu cluster merupakan sekelompok entitas
yang memiliki kesamaan dan memiliki
perbedaan dengan entitas dari kelompok
lain(Everitt,1980).
Clustering
• Algoritma Clustering bekerja dengan
mengelompokkan obyek-obyek data (pola,
entitas, kejadian, unit,hasil observasi) ke
dalam sejumlah cluster tertentu (Xu and
Wunsch,2009).
• Dengan kata lain algoritma Clustering
melakukan pemisahan/ pemecahan/
segmentasi data ke dalam sejumlah kelompok
(cluster) menurut karakteristik tertentu
CLUSTERING
❖ Cluster
Suatu cluster merupakan sekelompok entitas yang memiliki kesamaan dan
memiliki perbedaan dengan entitas dari kelompok lain(Everitt,1980).
Cluster berguna untuk mengelompokkan objek-objek data yang
memiliki kemiripan ke dalam satu grup dan yang berbeda
dikelompokkan ke dalam grup lainnya
❖ Semakin besar tingkat kemiripan/similarity (atau homogenitas) di dalam
satu grup dan semakin besar tingkat perbedaan diantara grup, maka
semakin baik (atau lebih berbeda) clustering tersebut.
Tujuan Pengelompokan
• Tujuan clustering (pengelompokan) data dapat dibedakan menjadi dua,
yaitu pengelompokan untuk pemahaman dan clustering untuk
penggunaan (Prasetyo,2012).

• Biasanya proses pengelompokan untuk tujuan pemahaman hanya sebagai


proses awal untuk kemudian dilanjutkan dengan pekerjaan seperti
summarization (rata-rata, standar deviasi), pelabelan kelas untuk setiap
kelompok sehingga dapat digunakan sebagai data training dalam klasifikasi
supervised.
• Sementara jika untuk penggunaan, tujuan utama clustering biasanya
adalah mencari prototipe kelompok yang paling representatif terhadap
data, memberikan abstraksi dari setiap obyek data dalam kelompok
dimana sebuah data terletak didalamnya
clustering untuk pemahaman
• Contoh tujuan clustering untuk pemahaman
diantaranya: dibidang Biologi (pengelompokan
berdasarkan karakter tertentu secara hirarkis) ,
pengelompokan gen yang memiliki fungsi sama.
• Dibidang information retrieval (web search),bidang
klimatologi (pengelompokam pola tekanan udara
yang berpengaruh pada cuaca), bidang bisnis
(pengelompokan konsumen yang berpotensi untuk
analisa dan strategi pemasaran).
clustering untuk penggunaan
• Contoh tujuan clustering untuk penggunaan dibidang
summarization, dengan semakin besarnya jumlah data maka
ongkos melakukan peringkasan semakin mahal
(berat&kompleks), maka perlu diterapkan pengelompokan
data untuk membuat prototipe yang dapat mewakili
keseluruhan data yang akan digunakan.
• Kompresi , data yang terletak dalam satu cluster dapat
dikompresi dengan diwakili oleh indeks prototipe yang
dikaitkan dengan kelompok , teknik kompresi ini dikenal
sebagai quantization vector.
Aplikasi Teknik Clustering
Clustering telah diterapkan diberbagai bidang seperti di jelaskan
sebagai berikut:
• 1. Teknik
• Digunakan dalam bidang biometric recognition & speech
recognition, analisa sinyal radar, Information
Compression,dan noise removal.

• 2. Ilmu Komputer
• Web mining,analisa database spatial,information
retrieval,textual document collection,dan image
segmentation.
Aplikasi Teknik Clustering
• 3. Medis
• Digunakan dalam mendefinisikan taxonomi dalam bidang
biologi, identifikasi fungsi protein dan gen, diagnosa penyakit
dan penanganannya.

• 4. Astronomy
• Digunakan untuk mengelompokkan bintang dan planet,
menginvestigasi formasi tanah, mengelompokkan wilayah
/kota, digunakan dalam studi tentang sistem pada sungai dan
gunung.
Aplikasi Teknik Clustering
• 5. Sosial
• Digunakan pada analisa pola perilaku,identifikasi hubungan
diantara budaya yang berbeda, pembentukan sejarah evolusi
bahasa, dan studi psikologi criminal.

• 6. Ekonomi
• Penerapan pada pengenalan pola pembelian& karakteristik
konsumen, pengelompokan perusahaan, analisa trend stok.
TIPE-TIPE CLUSTERING
❑ Partitional clustering adalah himpunan obyek data ke
dalam sub-himpunan (cluster) yang tidak overlap,
sehingga setiap obyek data berada dalam tepat satu
cluster.

❑ Hierarchical clustering adalah cluster yang memiliki


subcluster. Himpunan cluster besarang yang diatur
dalam tree.
PARTITIONAL CLUSTERING
HIERARCHICAL CLUSTERING
ALGORITMA CLUSTERING

• K-Means
• K-Medoids
• Hierarchical Clustering
K-MEANS CLUSTERING
• K‐Means clustering adalah metode untuk
mengelompokkan item ke dalam kelompok (dimana k
adalah jumlah kelompok yang diinginkan).

• Kelompok/cluster dibentuk dengan meminimalkan jumlah


dari Euclidean distances) diantara data dengan titik pusat
(centroid) yang berkorespondensi.

• Centroid adalah titik pusat data, dalam hal ini kita


mengasumsikan rata‐rata vector sebagai centroid.
K-MEANS CLUSTERING

❑ Pendekatan partitional clustering


❑ Setiap cluster diasosiasikan dengan sentroid
❑ Setiap titik di tandai ke cluster dengan sentroid terdekat
❑ K menandakan jumlah cluster yang akan terbentuk
❑ Algoritma Clustering:
1. Menentukan jumlah cluster
2. Menentukan nilai centroid biasanya dilakukan secara random atau
biasanya menggunakan rumus rata-rata
3. Menghitung jarak antara titik centroid dengan titik tiap objek.
Biasanya menggunakna jarak Euclidean distance.
4. Mengelompokkan objek berdasarkan jarak terdekat
5. Kembali ke tahap ke 2 dan lakukan perulangan hingga nilai
centroid yang dihasilkan tetap dan anggota cluster tidak berpindah
ke cluster lain.
Ilustrasi K‐Means

• Titik hitam menyatakan data. Garis merah menyatakan partisi/pemisah.


Titik biru merepresentasikan titik pusat (centroid) yang mendefinisikan
suatu partisi
Inisialisasi titik pusat (centroid)
• Inisialisasi centroid dapat dilakukan dengan beberapa cara, contohnya 3
cara berikut:
– Dipilih secara dinamik: Metode ini tepat digunakan jika data baru
ditambahkan secara cepat dan banyak. Untuk menyederhanakan
persoalan, inisial cluster dipilih dari beberapa data baru, misal jika data
dikelompokkan menjadi 3 clusters, maka inisial cluster berarti 3 item
pertama dari data.
– Dipilih secara random: Paling banyak digunakan, dimana inisial cluster
dipilih secara random dengan range data antara nilai terendah sampai nilai
tertinggi.
– Memilih dari batasan nilai tinggi dan rendah: tergantung pada tipe
datanya, nilai data tertinggi dan terendah dipilih sebagai inisial cluster.
Contoh berikut menggunakan metode ini.
K-Means
• Dalam machine-learning dan statistic K-Means
merupakan metode analisis kelompok yang
mengarah pada pembagian N obyek
pengamatan ke dalam K kelompok (cluster),
dimana setiap obyek dimiliki oleh sebuah
kelompok dengan mean (rata-rata) dan
metode ini mencoba untuk menemukan pusat
dari kelompok (centroid) dalam data sebanyak
iterasi perbaikan yang dilakukan.
Algoritma K-Means
1. Tentukan jumlah cluster
2. Alokasikan data ke dalam kelompok secara acak
3. Hitung pusat cluster (centroid) menggunakan
mean utk masing-masing kelompok
4. Alokasikan masing-masing data ke centroid
terdekat
5. Kembali ke langkah 3, jika masih ada data yang
berpindah cluster atau jika nilai centroid diatas
nilai ambang, atau jika nilai pada fungsi obyektif
yang digunakan masih diatas ambang
Studi kasus
Tabel Data nasabah
Nasabah Jumlah Jumlah Mobil
Rumah
A 1 3
B 3 3
C 4 3
D 5 3
E 1 2
F 4 2
G 1 1
H 2 1

• Nasabah yang memiliki jumlah rumah dan mobil hampir sama akan
berada pada kelompok nasabah yang sama.
• Nasabah yang memiliki jumlah rumah dan mobil yang berbeda akan
berada pada kelompok nasabah yang berbeda
Studi kasus k-means
Iterasi 1
• Langkah 1: Tentukan jumlah cluster yang
diinginkan (misl:k=3)
• Langkah 2: Pilih centroid awal secara acak :
Pada langkah ini secara acak akan dipilih 3
Nasabah Jumlah Jumlah
buah data sebagai centroid, Rumah Mobil
misalnya: A 1 3
B 3 3
data {B,E,F} C 4 3
D 5 3
M1=(3,3) ,M2=(1,2),M3=(4,2) E 1 2
F 4 2
G 1 1
H 2 1
Studi kasus k-means
Langkah 3:
• Pada langkah ini setiap data akan ditentukan centroid
terdekatnya, dan data tersebut akan ditetapkan
sebagai anggota kelompok yang terdekat dengan
centroid.
Data A: ( X1= 1,Y1= 3) , centroid M1: X2,Y2(3,3), centroid M2:
(1,2), centroid M3: (4,2)
Langkah 3:
Tabel hasil perhitungan jarak
Nasabah Jarak ke centroid Jarak ke centroid Jarak ke centroid Jarak terdekat
cluster1 cluster2 cluster3

A 2 1 3.162 C2
B 0 2.236 1.414 C1
C 1 3.162 1 C3
D 2 4.123 1.414 C3
E 2.236 0 3 C2
F 1.414 3 0 C3
G 2.828 1 3.162 C2
H 2.236 1.414 2.236 C2
Langkah 3:
Nasabah Jarak ke centroid Jarak ke centroid Jarak ke centroid Jarak terdekat
cluster1 cluster2 cluster3

A 2 1 3.162 C2
B 0 2.236 1.414 C1
C 1 3.162 1 C3
D 2 4.123 1.414 C3
E 2.236 0 3 C2
F 1.414 3 0 C3
G 2.828 1 3.162 C2
H 2.236 1.414 2.236 C2

Dari tabel diatas didapatkan keanggotaan nasabah sbb:


Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}
Langkah 3:
Menghitung BCV (Between Cluster Variation)
Pada langkah ini dihitung pula rasio antara besaran BCV (Between
Cluster Variation) dengan WCV (Within Cluster Variation) :
M1=(3,3) ,M2=(1,2),M3=(4,2)

BCV=d(m1,m2)+d(m1,m3)+d(m2,m3)
= 2.236+1.414+3
= 6,650
Dalam hal ini d(mi,mj) menyatakan jarak Euclidean dari mi ke mj
Langkah 3:
WCV (Within Cluster Variation)
memilih jarak terkecil antara data dengan centroid pada
masing-masing cluster
Nasabah Jarak ke Jarak ke Jarak ke Jarak terdekat
centroid centroid centroid
cluster1 cluster2 cluster3 nasabah Jarak ke
centroid
terkecil
A 1
A 2 1 3.162 C2
B 0
B 0 2.236 1.414 C1
C 1
C 1 3.162 1 C3
D 2 4.123 1.414 C3 D 1.414
E 2.236 0 3 C2 E 0
F 1.414 3 0 C3 F 0
G 2.828 1 3.162 C2 G 1
H 2.236 1.414 2.236 C2 H 1.414
Langkah 3:
WCV (Within Cluster Variation)
nasabah Jarak ke
centroid
terkecil
A 1
B 0
C 1
D 1.414
E 0
F 0
G 1
H 1.414

WCV=12+02+12+1. 4142+02+02+12+1.4142=7
Sehingga Besar Rasio = BCV/WCV = 6.650 / 7 = 0.950
Karena langkah ini merupakan iterasi 1 maka lanjutkan ke
langkah berikutnya
Langkah 4:
Pembaruan centroid dengan menghitung rata-rata nilai
pada masing-masing cluster
Cluster 1 = {B},cluster 2 ={A,E,G,H},cluster 3= {C,D,F}
Cluster 1
Nasabah Jml Rumah Jml Mobil
B 3 3
Mean 3 3
Cluster 2
Nasabah Jml Rumah Jml Mobil
A 1 3
E 1 2
G 1 1
H 2 1
Mean 1.25 1.75
Cluster 3
Nasabah Jml Rumah Jml Mobil
C 4 3
D 5 3
F 4 2
Mean 4.33 2.67

Sehingga didapatkan centroid baru yaitu :


m1=(3,3),m2=(1.25,1.75),m3=(4.33,2.67)
Iterasi Selanjutnya
Kembali Langkah 3:
• jika masih ada data yang berpindah cluster
• atau jika nilai centroid diatas nilai ambang,
• atau jika nilai pada fungsi obyektif yang
digunakan masih diatas ambang (Rasio
BCV/WCV lebih > dari Rasio Iterasi
sebelumnya).
• Selanjutnya pada langkah ini dilakukan
penempatan lagi data dalam centroid terdekat
sama seperti yang dilakukan dilangkah-3
State of the art Clustering
• Algoritma K-Means merupakan bagian dari
algoritma partitioning clustering, algoritma
partitional clustering yang lain diantaranya:
Mixture-Based Density,Graph Theory-Based
Clustering,Fuzzy Clustering.
• Sementara Metode Clustering yang lain selain
partitional diantaranya: Hierarchical Clustering,
Neural Network-Based Clustering, Kernel-based
Clustering, dan Sequential Data Clustering (Xu
and Wunsch,2009).
HIERARCHICAL CLUSTERING
Strategi pengelompokkannya umumnya ada dua jenis, yaitu:
• Agglomerative (Bottom-Up)
• Devisive (Top-Down)

Algoritma Agglomerative Hierarchical Clustering :


1. Hitung Matrik Jarak antar data.
2. Ulangi langkah 3 dan 4 hingga hanya satu kelompok yang
tersisa.
3. Gabungkan dua kelompok terdekat berdasarkan metode
pengelompokan ( Single Linkage, Complete Linkage, Average
Linkage)
4. Perbarui Matrik Jarak antar data untuk merepresentasikan
kedekatan diantara kelompok baru dan kelompok yang masih
tersisa.
5. Selesai
Metode Pengelompokan Hierarki
Aglomeratif
Beberapa metode pengelompokan secara hierarki Aglomeratif:
❑ Single Linkage (Jarak Terdekat)

❑ Complete Linkage (Jarak Terjauh)

❑ Average Linkage (Jarak rata-rata)


CONTOH STUDI KASUS

Kelompokkan dataset tersebut dengan menggunakan metode AHC


(Single Linkage) menggunakan jarak Manhattan!
CONTOH STUDI KASUS
CONTOH STUDI KASUS

• Menghitung jarak antar kelompok (1 dan 3) dengan kelompok lain yang
tersisa, yaitu 2, 4 dan 5.

• Dengan menghapus baris-baris dan kolom-kolom matrik


jarak yang bersesuaian dengan kelompok 1 dan 3, serta
menambahkan baris dan kolom untuk kelompok (13)

Selanjuttnya dipilih jarak dua kelompok yang terkecil.





• Menghapus baris dan kolom matrik yang bersesuaian dengan kelompok
(13) dan 2, serta menambahkan baris dan kolom untuk kelompok (132).


• Jadi kelompok (132) dan (45) digabung untuk menjadi kelompok tunggal dari
lima data, yaitu kelompok (13245) dengan jarak terdekat 4. Berikut
Dendogram Hasil Metode Single Linkage :
Latihan: Gunakan metode K-means untuk mengelompokkan
mahasiswa berdasarkan tinggi & berat badan:
No Nama Tinggi Berat Badan
Badan (Kg)
(Cm)
1 Geo 160 70
2 Narrel 165 75
3 Jharna 170 80
4 Langi 160 60
5 Emily 155 65
7 Tsabani 180 55
8 Sydney 190 70
9 Ramadhan 177 60
10 Amber 155 50

Clustering yang diharapkan mampu menghasilkan kelompok mahasiswa yang


memenuhi sifat berikut :
1. Mahasiswa yang memiliki berat dan tinggi badan yang hampir sama akan berada
pada kelompok yang sama.
2. Mahasiswa yang yang memiliki berat dan tinggi badan yang berbeda akan berada
pada kelompok yang berbeda.
TERIMA KASIH

Anda mungkin juga menyukai