Session 32 Unsupervised Learning

Session 32
Unsupervised Learning
Table of Content
What will We Learn Today?
1. Unsupervised Learning
2. Clustering
3. K-Means
4. Hierarchical Clustering
© Copyright by Digital Skola 2020

Unsupervised
Learning

• Pada machine learning dengan metode unsupervised learning, data tidak memiliki
label secara eksplisit dan model mampu belajar dari data dengan menemukan pola
yang implisit. Tujuan dari Machine Learning ini adalah untuk memodelkan struktur
data dan menyimpulkan fungsi yang mendeskripsikan data tersebut.
• Metode unsupervised learning yang paling umum adalah analisis cluster, yang
digunakan pada analisa data untuk mencari pola-pola tersembunyi atau
pengelompokan dalam data.

Tujuan dari Algoritma Machine Learning pada Unsupervised

Learning ini adalah untuk memodelkan struktur data dan
menyimpulkan fungsi yang mendeskripsikan data tersebut

Beberapa algoritma yang termasuk kedalam Unsupervised learning adalah sebagai
berikut:
• Clustering
• Anomaly Detection
• Autoencoder
• Deep Belief Network
• Principal Component Analysis (PCA)
• Association

Salah satu cara untuk menghitung kedekatan

antar object didalam data berdasarkan
featurenya adalah dengan menggunakan
konsep jarak. Sehingga object berada didalam
satu cluster, berarti jarak dari sekumpulan
feature object didalamnya berdekatan
dibandingkan dengan object dicluster lain.

Clustering

Clustering
• Salah satu contoh implementasi unsupervised learning adalah clustering. Dengan
teknologi clustering, sebuah perusahaan dapat mengidentifikasi customer
segmen yang berpotensial untuk menjual produk mereka.
• Clustering digunakan untuk pengelompokan object-object data kedalam

kelompok atau cluster yang tiap cluster memiliki object-object dengan tingkat
kesamaan feature antar object yang tinggi.
• Algoritma clustering dapat digunakan untuk analisis cluster yang mempunyai

tujuan utama untuk mengelompokan objek-objek berdasarkan karakteristik yang
dimilikinya.
• Analisis cluster mengklasifikasikan objek sehingga setiap objek yang paling dekat
kesamaannya dengan objek lain berada dalam cluster yang sama.

Clustering
Ada beberapa pendekatan yang digunakan algoritma clustering untuk
mengelompokkan object-object kedalam tiap cluster:
1. Pendekatan Partisi
Clustering dengan pendekatan partisi atau sering disebut dengan partition-

based clustering mengelompokkan data dengan memilah-milah data yang
dianalisa ke dalam cluster-cluster yang ada.
contoh : K-Means
2. Pendekatan Hirarki
Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical

clustering mengelompokkan data dengan membuat suatu hirarki berupa
dendogram dimana data yang mirip akan ditempatkan pada hirarki yang
berdekatan dan yang tidak pada hirarki yang berjauhan.
contoh : Agglomerative Hierarchical Clustering

K-Means

K-Means
• K-means Clustering adalah salah satu “Unsupervised machine learning algorithms”

yang paling sederhana dan populer. K-Means Clustering adalah salah satu metode
cluster analysis non hierarki yang berusaha untuk mempartisi objek yang ada
kedalam satu atau lebih cluster atau kelompok objek berdasarkan karakteristiknya,
sehingga objek yang mempunyai karakteristik yang sama dikelompokan dalam
satu cluster yang sama dan objek yang mempunyai karakteristik yang berbeda
dikelompokan kedalam cluster yang lain.

K-Means

K-Means
Algoritma dari K-means bisa disederhanakan sebagai berikut:
Ini adalah sebuah

dataset
1. Tentukan jumlah cluster (K, Misalkan K adalah 3)
2. Pilih 3 centroid dari data secara random

K-Means
3. Hitung jarak centroid/rata-rata dengan data yang ada di masing-masing cluster
4. Alokasikan masing-masing data ke centroid/rata-rata terdekat

K-Means
5. Lakukan terhadap data yang lain sampai kita dapat cluster seperti ini.
6. Hitung mean/rata-rata dari setiap cluster sebagai centroid baru.

K-Means
7. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila ada
perubahan nilai centroid dan sudah maximum iteration.
8. Jika sudah tidak ada perubahan maka ini adalah hasil akhir.
Tapi apakah proses ini sudah selesai?
Not yet...... © Copyright by Digital Skola 2020

K-Means
Karena K-Means tidak bisa melihat hasil clustering mana yang terbaik. Maka, kita harus
memperhatikan cluster-cluster ini dan total variance mereka. Kemudian
melakukannya berulang kali dengan starting point yang berbeda-beda untuk
mendapat hasil terbaik.
Contoh:
1. Melakukan K-Means lagi dengan centroid yang berbeda.

K-Means
Karena K-Means tidak bisa melihat hasil clustering mana yang terbaik. Maka, kita harus
memperhatikan cluster-cluster ini dan total variance mereka. Kemudian
melakukannya berulang kali dengan starting point yang berbeda-beda untuk
mendapat hasil terbaik.
Contoh:
1. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 2)

K-Means

K-Means
• Membandingkan Total Variance dari ketiga hasil cluster dan mengambil hasil
cluster dengan sum of variance terendah.

K-Means

Hierarchical
Clustering

Hierarchical Clustering
Hierarchical clustering methods adalah teknik clustering membentuk hirarki atau

berdasarkan tingkatan tertentu sehingga menyerupai struktur pohon. Dengan
demikian proses pengelompokannya dilakukan secara bertingkat atau bertahap.
Biasanya, metode ini digunakan pada data yang jumlahnya tidak terlalu banyak dan
jumlah cluster yang akan dibentuk belum diketahui.
Ada 2 tipe dalam hierarchical Clustering:
1. Agglomerative
2. Divisive

a) Agglomerative
Agglomerative (metode penggabungan) adalah strategi pengelompokan hirarki

yang dimulai dengan setiap objek dalam satu cluster yang terpisah kemudian
membentuk cluster yang semakin membesar. Jadi, banyaknya cluster awal adalah
sama dengan banyaknya objek.
b) Divisive
Divisive (metode pembagian) adalah strategi pengelompokan hirarki yang dimulai

dari semua objek dikelompokkan menjadi cluster tunggal kemudian dipisah sampai
setiap objek berada dalam cluster yang terpisah.

a) Single linkage (jarak terdekat atau tautan tunggal)
Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-

anggota terdekat di antara dua cluster.
b) Average linkage (jarak rata-rata atau tautan rata-rata)
Teknik yang menggabungkan cluster-cluster menurut jarak rata-rata pasangan

anggota masing-masing pada himpunan antara dua cluster.
c) Complete linkage (jarak terjauh atau tautan lengkap)
Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-

anggota terjauh di antara dua cluster.

Algoritma Agglomerative
1. Hitung jarak euclidean dengan rumus berikut.

Jarak dari A ke E bisa digambarkan sebagai tabel berikut. Kemudian diulang untuk
objek lainnya.
2. Gabungkan dua cluster terdekat
Jika jarak objek a dengan b memiliki nilai jarak paling kecil dibandingkan jarak antar
objek lainnya dalam matriks jarak Euclidean, maka gabungan dua cluster terdekat
yaitu cluster B dengan E karena nilai jaraknya adalah 1.118 yang paling kecil
dibandingkan yang lainnya.

3. Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative method
Contoh: Complete Linkage
Perhitungan Tahap 1
Perhitungan diatas untuk mendapatkan jarak maksimum untuk matriks tahap 1.

Kemudian, gabungan dua cluster terdekat dari matriks tahap 1 adalah A dengan D.

Perhitungan tahap 2

Kemudian, gabungan dua cluster terdekat dari matriks tahap 2 adalah C dengan BE.

Perhitungan tahap 3
Proses pembaruan matriks jarak dengan teknik complete linkage telah selesai karena
cluster yang tersisa pada matriks tahap 3 hanyalah satu. Sehingga tahap 4 memiliki satu
cluster yang beranggotakan semua cluster-cluster awal.

4. Buat dendrogram

Thank
YOU

Session 32 Unsupervised Learning

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Session 32 Unsupervised Learning

Diunggah oleh

Hak Cipta:

Format Tersedia

Session 32

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

Tujuan dari Algoritma Machine Learning pada Unsupervised

© Copyright by Digital Skola 2020

• Deep Belief Network

• Principal Component Analysis (PCA)

© Copyright by Digital Skola 2020

Salah satu cara untuk menghitung kedekatan

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

• Clustering digunakan untuk pengelompokan object-object data kedalam

• Algoritma clustering dapat digunakan untuk analisis cluster yang mempunyai

© Copyright by Digital Skola 2020

Clustering dengan pendekatan partisi atau sering disebut dengan partition-

Clustering dengan pendekatan hirarki atau sering disebut dengan hierarchical

contoh : Agglomerative Hierarchical Clustering

© Copyright by Digital Skola 2020

• K-means Clustering adalah salah satu “Unsupervised machine learning algorithms”

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

Algoritma dari K-means bisa disederhanakan sebagai berikut:

Ini adalah sebuah

1. Tentukan jumlah cluster (K, Misalkan K adalah 3)

2. Pilih 3 centroid dari data secara random

© Copyright by Digital Skola 2020

3. Hitung jarak centroid/rata-rata dengan data yang ada di masing-masing cluster

4. Alokasikan masing-masing data ke centroid/rata-rata terdekat

© Copyright by Digital Skola 2020

6. Hitung mean/rata-rata dari setiap cluster sebagai centroid baru.

© Copyright by Digital Skola 2020

Tapi apakah proses ini sudah selesai?

Not yet...... © Copyright by Digital Skola 2020

1. Melakukan K-Means lagi dengan centroid yang berbeda.

© Copyright by Digital Skola 2020

1. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 2)

© Copyright by Digital Skola 2020

1. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 2)

2. Melakukan K-Means lagi dengan centroid yang berbeda. (Contoh 3)

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

© Copyright by Digital Skola 2020

Hierarchical clustering methods adalah teknik clustering membentuk hirarki atau

Ada 2 tipe dalam hierarchical Clustering:

© Copyright by Digital Skola 2020

Agglomerative (metode penggabungan) adalah strategi pengelompokan hirarki

Divisive (metode pembagian) adalah strategi pengelompokan hirarki yang dimulai

© Copyright by Digital Skola 2020

a) Single linkage (jarak terdekat atau tautan tunggal)

Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-

b) Average linkage (jarak rata-rata atau tautan rata-rata)

Teknik yang menggabungkan cluster-cluster menurut jarak rata-rata pasangan

c) Complete linkage (jarak terjauh atau tautan lengkap)

Teknik yang menggabungkan cluster-cluster menurut jarak antara anggota-

© Copyright by Digital Skola 2020

1. Hitung jarak euclidean dengan rumus berikut.

© Copyright by Digital Skola 2020

2. Gabungkan dua cluster terdekat

© Copyright by Digital Skola 2020

3. Perbarui matriks jarak sesuai dengan teknik pengelompokan agglomerative method

Contoh: Complete Linkage