Anda di halaman 1dari 33

Session 32

Unsupervised Learning
Table of Content
What will We Learn Today?

1. Unsupervised Learning
2. Clustering
3. K-Means
4. Hierarchical Clustering

© Copyright by Digital Skola 2020


Unsupervised
Learning

© Copyright by Digital Skola 2020


Unsupervised Learning
• Pada machine learning dengan metode unsupervised learning, data tidak memiliki
label secara eksplisit dan model mampu belajar dari data dengan menemukan pola
yang implisit. Tujuan dari Machine Learning ini adalah untuk memodelkan struktur
data dan menyimpulkan fungsi yang mendeskripsikan data tersebut.

• Metode unsupervised learning yang paling umum adalah analisis cluster, yang
digunakan pada analisa data untuk mencari pola-pola tersembunyi atau
pengelompokan dalam data.

© Copyright by Digital Skola 2020


Unsupervised Learning

Tujuan dari Algoritma Machine Learning pada Unsupervised


Learning ini adalah untuk memodelkan struktur data dan
menyimpulkan fungsi yang mendeskripsikan data tersebut

© Copyright by Digital Skola 2020


Unsupervised Learning
Beberapa algoritma yang termasuk kedalam Unsupervised learning adalah sebagai
berikut:

• Clustering

• Anomaly Detection

• Autoencoder

• Deep Belief Network

• Principal Component Analysis (PCA)

• Association

© Copyright by Digital Skola 2020


Unsupervised Learning

Salah satu cara untuk menghitung kedekatan


antar object didalam data berdasarkan
featurenya adalah dengan menggunakan
konsep jarak. Sehingga object berada didalam
satu cluster, berarti jarak dari sekumpulan
feature object didalamnya berdekatan
dibandingkan dengan object dicluster lain.

© Copyright by Digital Skola 2020


Clustering

© Copyright by Digital Skola 2020


Clustering
• Salah satu contoh implementasi unsupervised learning adalah clustering. Dengan
teknologi clustering, sebuah perusahaan dapat mengidentifikasi customer
segmen yang berpotensial untuk menjual produk mereka.

• Clustering digunakan untuk pengelompokan object-object data kedalam


kelompok atau cluster yang tiap cluster memiliki object-object dengan tingkat
kesamaan feature antar object yang tinggi.

• Algoritma clustering dapat digunakan untuk analisis cluster yang mempunyai


tujuan utama untuk mengelompokan objek-objek berdasarkan karakteristik yang
dimilikinya.

• Analisis cluster mengklasifikasikan objek sehingga setiap objek yang paling dekat
kesamaannya dengan objek lain berada dalam cluster yang sama.

© Copyright by Digital Skola 2020


Clustering
Ada beberapa pendekatan yang digunakan algoritma clustering untuk
mengelompokkan object-object kedalam tiap cluster:

1. Pendekatan Partisi

Clustering dengan pendekatan partisi atau sering disebut dengan partition-


based clustering mengelompokkan data dengan memilah-milah data yang
dianalisa ke dalam cluster-cluster yang ada.

contoh : K-Means

2. Pendekatan Hirarki

Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical


clustering mengelompokkan data dengan membuat suatu hirarki berupa
dendogram dimana data yang mirip akan ditempatkan pada hirarki yang
berdekatan dan yang tidak pada hirarki yang berjauhan.

contoh : Agglomerative Hierarchical Clustering


© Copyright by Digital Skola 2020
K-Means

© Copyright by Digital Skola 2020


K-Means

• K-means Clustering adalah salah satu “Unsupervised machine learning algorithms”


yang paling sederhana dan populer. K-Means Clustering adalah salah satu metode
cluster analysis non hierarki yang berusaha untuk mempartisi objek yang ada
kedalam satu atau lebih cluster atau kelompok objek berdasarkan karakteristiknya,
sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam
satu cluster yang sama dan objek yang mempunyai karakteristik yang berbeda
dikelompokan kedalam cluster yang lain.

© Copyright by Digital Skola 2020


K-Means

© Copyright by Digital Skola 2020


K-Means

Algoritma dari K-means bisa disederhanakan sebagai berikut:

Ini adalah sebuah


dataset

1. Tentukan jumlah cluster (K, Misalkan K adalah 3)

2. Pilih 3 centroid dari data secara random

© Copyright by Digital Skola 2020


K-Means

3. Hitung jarak centroid/rata-rata dengan data yang ada di masing-masing cluster

4. Alokasikan masing-masing data ke centroid/rata-rata terdekat

© Copyright by Digital Skola 2020


K-Means

5. Lakukan terhadap data yang lain sampai kita dapat cluster seperti ini.

6. Hitung mean/rata-rata dari setiap cluster sebagai centroid baru.

© Copyright by Digital Skola 2020


K-Means

7. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila ada
perubahan nilai centroid dan sudah maximum iteration.

8. Jika sudah tidak ada perubahan maka ini adalah hasil akhir.

Tapi apakah proses ini sudah selesai?

Not yet...... © Copyright by Digital Skola 2020


K-Means

Karena K-Means tidak bisa melihat hasil clustering mana yang terbaik. Maka, kita harus
memperhatikan cluster-cluster ini dan total variance mereka. Kemudian
melakukannya berulang kali dengan starting point yang berbeda-beda untuk
mendapat hasil terbaik.

Contoh:

1. Melakukan K-Means lagi dengan centroid yang berbeda.

© Copyright by Digital Skola 2020


K-Means

Karena K-Means tidak bisa melihat hasil clustering mana yang terbaik. Maka, kita harus
memperhatikan cluster-cluster ini dan total variance mereka. Kemudian
melakukannya berulang kali dengan starting point yang berbeda-beda untuk
mendapat hasil terbaik.

Contoh:

1. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 2)

© Copyright by Digital Skola 2020


K-Means

1. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 2)

2. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 3)

© Copyright by Digital Skola 2020


K-Means

• Membandingkan Total Variance dari ketiga hasil cluster dan mengambil hasil
cluster dengan sum of variance terendah.

© Copyright by Digital Skola 2020


K-Means

© Copyright by Digital Skola 2020


Hierarchical
Clustering

© Copyright by Digital Skola 2020


Hierarchical Clustering

Hierarchical clustering methods adalah teknik clustering membentuk hirarki atau


berdasarkan tingkatan tertentu sehingga menyerupai struktur pohon. Dengan
demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap.
Biasanya, metode ini digunakan pada data yang jumlahnya tidak terlalu banyak dan
jumlah cluster yang akan dibentuk belum diketahui.

Ada 2 tipe dalam hierarchical Clustering:

1. Agglomerative

2. Divisive

© Copyright by Digital Skola 2020


Hierarchical Clustering

a) Agglomerative

Agglomerative (metode penggabungan) adalah strategi pengelompokan hirarki


yang dimulai dengan setiap objek dalam satu cluster yang terpisah kemudian
membentuk cluster yang semakin membesar. Jadi, banyaknya cluster awal adalah
sama dengan banyaknya objek.

b) Divisive

Divisive (metode pembagian) adalah strategi pengelompokan hirarki yang dimulai


dari semua objek dikelompokkan menjadi cluster tunggal kemudian dipisah sampai
setiap objek berada dalam cluster yang terpisah.

© Copyright by Digital Skola 2020


Hierarchical Clustering

a) Single linkage (jarak terdekat atau tautan tunggal)

Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-


anggota terdekat di antara dua cluster.

b) Average linkage (jarak rata-rata atau tautan rata-rata)

Teknik yang menggabungkan cluster-cluster menurut jarak rata-rata pasangan


anggota masing-masing pada himpunan antara dua cluster.

c) Complete linkage (jarak terjauh atau tautan lengkap)

Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-


anggota terjauh di antara dua cluster.

© Copyright by Digital Skola 2020


Hierarchical Clustering

Algoritma Agglomerative

1. Hitung jarak euclidean dengan rumus berikut.

© Copyright by Digital Skola 2020


Hierarchical Clustering

Algoritma Agglomerative

Jarak dari A ke E bisa digambarkan sebagai tabel berikut. Kemudian diulang untuk
objek lainnya.

2. Gabungkan dua cluster terdekat

Jika jarak objek a dengan b memiliki nilai jarak paling kecil dibandingkan jarak antar
objek lainnya dalam matriks jarak Euclidean, maka gabungan dua cluster terdekat
yaitu cluster B dengan E karena nilai jaraknya adalah 1.118 yang paling kecil
dibandingkan yang lainnya.

© Copyright by Digital Skola 2020


Hierarchical Clustering

Algoritma Agglomerative

3. Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative method

Contoh: Complete Linkage

Perhitungan Tahap 1

Perhitungan diatas untuk mendapatkan jarak maksimum untuk matriks tahap 1.


Kemudian, gabungan dua cluster terdekat dari matriks tahap 1 adalah A dengan D.

© Copyright by Digital Skola 2020


Hierarchical Clustering

Algoritma Agglomerative

3. Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative method

Perhitungan tahap 2

Perhitungan diatas untuk mendapatkan jarak maksimum untuk matriks tahap 2.


Kemudian, gabungan dua cluster terdekat dari matriks tahap 2 adalah C dengan BE.

© Copyright by Digital Skola 2020


Hierarchical Clustering

Algoritma Agglomerative

3. Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative method

Perhitungan tahap 3

Perhitungan diatas untuk mendapatkan jarak maksimum untuk matriks tahap 2.

Proses pembaruan matriks jarak dengan teknik complete linkage telah selesai karena
cluster yang tersisa pada matriks tahap 3 hanyalah satu. Sehingga tahap 4 memiliki satu
cluster yang beranggotakan semua cluster-cluster awal.

© Copyright by Digital Skola 2020


Hierarchical Clustering

Algoritma Agglomerative

4. Buat dendrogram

© Copyright by Digital Skola 2020


Thank
YOU

© Copyright by Digital Skola 2020

Anda mungkin juga menyukai