Anda di halaman 1dari 20

UNSUPERVISED

LEARNING

HARAPAN BANGSA
CENTER FOR DATA SCIENCE 2021

INTRO TO AI/ML CONCEPT MAP


HOW MACHINE LEARNS
INTRODUCTION Minggu 3 Minggu 4 LIFE APPLICATIONS
Supervised Supervised Minggu 11
Minggu 1
Learning I Learning II
Business
Lahirnya AI dan ML
• Perbedaan supervised vs. • Supervised learning
• Automated
“AI is everywhere” Machine unsupervised untuk prediksi
Responders (Chatbot)
Learning • Klasifikasi dan prediksi • Klasifikasi dan Prediksi
• AI vs Sistem kontrol • Credit scoring
• Data label dengan Neural Network
konvensional • Predictive marketing
• Teknik klasifikasi: Decision Tree
• Contoh penerapan AI dan • Intelligent store
& Naïve Bayes
ML (Amazon Go)
• Taksonomi AI dan ML
• Etika dan Filosofi dalam AI Minggu 5 Minggu 6 Minggu 12
dan ML
Unsupervised Recommender Engineering
Learning System
Minggu 2 • Internet of Things (IoT)
• Data non-label • Sistem rekomendasi • Predictive
Statistical Analysis & • Clustering • SVD untuk rekomendasi: Maintenance
Computing • Teknik clustering: K-meansi, Netflix, Amazon • Manufacturing Process
hierarchical clustering Automation
“Regression is the
granddaddy of • Robotics
• Autonomous Vehicle
Supervised AI” HUMAN-LIKE MACHINES
• Peran statistik dalam Ai Minggu 8 Minggu 9 Minggu 10
dan ML Minggu 13
• Statistik deskriptif Natural Language Speech Computer
Design
• Regresi linier dan logit Processing Recognition Vision
• Jenis dan karakteristik • Design ideas
data • AI & ML dalam komunikasi • AI & ML dalam • AI dan ML dalam • Auto-retouch in selfie
• Data preparation bahasa manusia mengenali speech computer vision • Smart video making
• AI runs on Top of Cloud • NLP untuk summarization manusia • Matriks dan pixel • Personalized UI/UX
• NLP untuk analisis sentimen • Contoh implementasi • Deteksi obyek di • Deep fakes video
speech recognition CCTV
• Teknikfor
Harapan Bangsa Center speech-to-text
Data Science © 2
ARTIFICIAL INTELLIGENCE FOR VISA

Harapan Bangsa Center for Data Science © 3

TUJUAN PEMBELAJARAN
Setelah mengikuti perkuliahan ini, mahasiswa diharapkan mampu:
1. Menyebutkan contoh-contoh penggunaan unsupervised learning: clustering,
deteksi anomali, dan analisis asosiasi
2. Membedakan ML untuk klasifikasi dibandingkan dengan clustering
3. Menyebutkan teknik-teknik yang digunakan dalam unsupervised learning
4. Menyebutkan konsep dan gambaran teknik unsupervised: K-means,
Hierarchical Clustering
5. Menyebutkan kondisi ketika hierarchical atau k-means tepat digunakan
dalam clustering

IMPORTANT!
Harapan Bangsa Center for Data Science © 4
OUTLINE

Unsupervised Learning

K-Means Clustering

Hierarchical Clustering

Harapan Bangsa Center for Data Science © 5

ILUSTRASI UNSUPERVISED LEARNING:


SEGMENTASI CUSTOMER
Tujuan: menentukan segmen-segmen customer yang sudah pernah
membeli produk kita
Fitur yang diperhatikan: Usia dan Jumlah Pembelian

_______ _______ _______ _______ _______ _______ _______ _______


_______ _______ _______ _______ _______ _______ _______ _______

Harapan Bangsa Center for Data Science © 6


Jumlah Pembelian SEGMENTASI
7 CUSTOMER
Usia: 37 Usia: 42
TOB: 7 TOB: 7
6

Usia: 40 o Ada berapa


5 _________ TOB: 6
segmen?
_________ • _________
4
Usia: 20
3 Usia: 18
TOB: 4

TOB: 3
________
2
Usia: 23
TOB: 2
1
Usia: 49 Usia: 51
TOB: 1 TOB: 1
20 30 40 50 Usia (tahun)

Harapan Bangsa Center for Data Science © 7

UNSUPERVISED LEARNING: CLUSTERING

o Pembagian segmen yang barusan kita lihat adalah __________


__________, yaitu salah satu kegunaan dari Unsupervised Learning.
o Berarti mudah dong, mengapa perlu Machine Learning?
o Bayangkan bila kita menambah banyak fitur baru, seperti jenis
kelamin, alamat tempat tinggal, tingkat penghasilan, dsb. Lalu kita
tambahkan datanya sampai 1000 atau 10000 orang. Bagaimana
cara memvisualisasikannya?
o Untuk itulah _______________ membantu kita, ketika data yang
__________________________ dengan _____________________.

Harapan Bangsa Center for Data Science © 8


KLASIFIKASI VS CLUSTERING IMPORTANT!

Perhatian: Clustering sekilas mirip


dengan klasifikasi, tapi keduanya
berbeda.
Dalam klasifikasi kita _________
____________ atau output yang
diharapkan. Sedangkan, dalam
clustering kita ______________
_________.
Tampak pada gambar di
samping, kita menggunakan data
yang sama (berbeda nilai target)
dengan tujuan berbeda.

Harapan Bangsa Center for Data Science © 9

UNSUPERVISED LEARNING: DETEKSI ANOMALI


Kita akan melihat kegunaan lain dari Unsupervised Learning, yaitu
__________________.
Anomali = suatu _________________ atau _____________ dari
keadaan biasa/normal.

Ini telur yang


berbeda.
____________________________
IMPORTANT!
Harapan Bangsa Center for Data Science © 10
UNSUPERVISED LEARNING: DETEKSI ANOMALI
Manakah data transaksi berikut yang berbeda dari kebanyakan
transaksi?
31 Fitur

> 100ribu
______________________________________________________ transaksi
________________________________________
https://www.kaggle.com/mlg-ulb/creditcardfraud
Harapan Bangsa Center for Data Science © 11

UNSUPERVISED LEARNING: DETEKSI ANOMALI


Unsupervised learning bisa digunakan untuk ______________ (kasus)
yang _______________________________ dengan sebagian besar
data (kasus) yang pada umumnya.

Harapan Bangsa Center for Data Science © 12


UNSUPERVISED LEARNING: ASOSIASI IMPORTANT!

Salah satu kegunaan Unsupervised Learning adalah ____________


_______________ atau _____________________. Pola yang sering
bersamaan muncul ini disebut _____________.
Contoh:
Anda adalah pemilik supermarket dan
Anda berusaha untuk memaksimalkan
penjualan item yang ada.
Salah satu caranya adalah mendekatkan
tipe-tipe barang yang sering dibeli
bersamaan.
Misalnya, tepat di sebelah rak pasta gigi
kita taruh rak sikat gigi.

Harapan Bangsa Center for Data Science © 13

UNSUPERVISED LEARNING: ASOSIASI IMPORTANT!

Penggunaan Unsupervised Learning untuk asosiasi sudah lama


digunakan di ___________, seperti ______________.
Contoh hasil dari pembelajaran mesin menemukan bahwa pria yang
berbelanja popok (diapers atau nappies) juga akan membeli bir.
Oleh karena itu, rak popok bayi diletakkan dekat dengan posisi
lemari bir dan sering ada bundling produk antara popok dengan bir.

1. https://canworksmart.com/diapers-beer-retail-predictive-analytics/
2. https://www.theregister.com/2006/08/15/beer_diapers/

Harapan Bangsa Center for Data Science © 14


UNSUPERVISED LEARNING: ASOSIASI
o Contoh transaksi di samping bisa
digunakan untuk menemukan asosiasi
barang-barang dalam keranjang
belanja.
o Dari nomor transaksi 5-8, kita bisa
melihat bahwa ketika seseorang
membeli susu bayi, ada kemungkinan
(3 dari 4 transaksi) dia juga membeli
bir. Ada kemungkinan (2 dari 4
transaksi) dia membeli juga beras.
o ML membantu kita ____________
_________ dari __________ bahkan
ratusan ribu transaksi yang terjadi
setiap bulannya.

Harapan Bangsa Center for Data Science © 15

UNSUPERVISED LEARNING

Unsupervised learning adalah tipe machine learning yang tidak


memerlukan supervisi manusia (nilai target atau output).
Sebaliknya dengan Unsupervised Learning, __________________
_____________________________________________________
________________________.
Unsupervised learning bisa digunakan dalam hal clustering, deteksi
anomali, dan asosiasi.

Harapan Bangsa Center for Data Science © 16


TEKNIK UNSUPERVISED LEARNING IMPORTANT!

MACHINE
LEARNING
Dalam kuliah Intro ini, kita akan
hanya berfokus pada ____________
_________________________. UNSUPERVISED
Beberapa teknik ML yang digunakan LEARNING
untuk clustering, adalah K-Means
clustering, Hierarchical clustering, dan
Gaussian Mixtures. CLUSTERING
Yang akan kita pelajari gambaran
tekniknya adalah ___________ dan K-Means
______________.
Hierarchical

Gaussian Mixtures

Harapan Bangsa Center for Data Science © 17

OUTLINE

Unsupervised Learning

K-Means Clustering

Hierarchical Clustering

Harapan Bangsa Center for Data Science © 18


TUJUAN CLUSTERING IMPORTANT!

Memaksimalkan pola kemiripan (keseragaman,


homogenitas) antardata dalam satu cluster dan
memaksimalkan pola __________ (heterogenitas)
__________________

Harapan Bangsa Center for Data Science © 19

Jumlah Pembelian SEGMENTASI


7 CUSTOMER
Usia: 37 Usia: 42
TOB: 7 TOB: 7
6
________
Usia: 40
5 TOB: 6 ____________
____________
4 ____________
Usia: 20
_________ ____________
3 Usia: 18
TOB: 4

TOB: 3
________
2
Usia: 23
TOB: 2
1
Usia: 49 Usia: 51
TOB: 1 TOB: 1
20 30 40 50 Usia (tahun)

Harapan Bangsa Center for Data Science © 20


K-MEANS CLUSTERING IMPORTANT!

K-Means clustering menganggap


cluster bisa direpresentasikan oleh
sebuah titik yang disebut _________.
Centroid dihitung dengan cara
__________________________ yang
berada di ___________.
Batas sebuah cluster ditentukan dari
data poin _______________ dalam
sebuah cluster.

Harapan Bangsa Center for Data Science © 21

JUMLAH CLUSTER = JUMLAH CENTROID IMPORTANT!

Bila kita akan menentukan jumlah cluster, maka yang kita tentukan
sebenarnya adalah ___________________________.
Dengan data yang sama kita bisa memiliki jumlah cluster berbeda-beda
sesuai dengan _______________ dan ________________.

Cluster 1 Cluster 2

Cluster 2 Cluster 1
Cluster 3

Harapan Bangsa Center for Data Science © 22


LANGKAH-LANGKAH DALAM K-MEANS
Manusia menentukan __________________ Cluster = 2
__________________
 selanjutnya mesin akan melakukan secara
otomatis:
1. _______________ (__________) sebagai
centroid secara random
2. _____________ masing-masing titik ke titik
awal
3. _______________ setiap titik ke centroid
terdekat
4. _____________________________ dan
ulangi langkah ke-2, 3, dan 4 sampai posisi
centroid tidak berubah lagi.

Harapan Bangsa Center for Data Science © 23

LANGKAH-LANGKAH DALAM _______


Manusia menentukan jumlah cluster yang akan Cluster = 2
dibuat
 selanjutnya mesin akan melakukan secara
otomatis:
1. Menentukan seed (titik awal) sebagai
centroid secara random
2. Mengitung jarak masing-masing titik ke titik
awal
3. Mengelompokkan setiap titik ke centroid
terdekat
4. Menghitung kembali posisi centroid dan
ulangi langkah ke-2, 3, dan 4 sampai posisi
centroid tidak berubah lagi.

Harapan Bangsa Center for Data Science © 24


LANGKAH-LANGKAH DALAM K-MEANS
Manusia menentukan jumlah cluster yang akan Cluster = 2
dibuat
 selanjutnya _________________________
_____________:
1. Menentukan seed (titik awal) sebagai
centroid secara random
2. Mengitung jarak masing-masing titik ke titik
awal
3. Mengelompokkan setiap titik ke centroid
terdekat
4. Menghitung kembali posisi centroid dan
ulangi langkah ke-2, 3, dan 4 sampai posisi
centroid tidak berubah lagi.

Harapan Bangsa Center for Data Science © 25

KELEMAHAN K-MEANS IMPORTANT!

1. K-Means sangat sensitif terhadap ________ / ________ yang


digunakan. Hasil clustering bisa _____________________
__________________.
Berat (kg) Berat (kg)

Tinggi (m) Tinggi (cm)

Harapan Bangsa Center for Data Science © 26


KELEMAHAN K-MEANS IMPORTANT!

2. K-Means sensitif terhadap data _____. Dengan adanya outliers,


_________________ bisa berbeda juga.

Berat (kg)

________

Tinggi (cm)

Harapan Bangsa Center for Data Science © 27

KEUNGGULAN K-MEANS IMPORTANT!

1. Algoritmanya cepat dalam ____________________________


(____________).
2. Dapat mengelompokkan data yang memiliki fitur banyak. Fitur
banyak berarti lebih dari 3 dimensi dan tidak bisa ____________.

Harapan Bangsa Center for Data Science © 28


OUTLINE

Unsupervised Learning

K-Means Clustering

Hierarchical Clustering

Harapan Bangsa Center for Data Science © 29

HIERARCHICAL CLUSTERING

Contoh ______________ cukup tepat dilakukan dengan __________


_______________.
Namun, ada beberapa kasus ketika cluster yang diinginkan
sebenarnya ______________ / ______________.

Harapan Bangsa Center for Data Science © 30


CONTOH HIERARCHICAL CLUSTERING DALAM
_________________
IMPORTANT!

Harapan Bangsa Center for Data Science © 31

LANGKAH-LANGKAH DALAM HIERARCHICAL


CLUSTERING
1. ________________________ terhadap data lainnya.
2. Dua data atau cluster yang paling dekat __________________. Hitung
centroid cluster tersebut
3. Hitung kembali jarak setiap data/cluster terhadap data/cluster lainnya.
Kembali ke langkah 2. Lakukan sampai semua data menjadi ___________
_____________.

Harapan Bangsa Center for Data Science © 32


Jumlah Pembelian __________
7 __________
Usia: 37 Usia: 42
TOB: 7 TOB: 7
6
Langkah-langkah hierarchical:
Usia: 40
5 1. Hitung jarak setiap data
TOB: 6
terhadap semua data
lainnya
4
Usia: 20
3 Usia: 18
TOB: 4

TOB: 3

2
Usia: 23
TOB: 2
1
Usia: 49 Usia: 51
TOB: 1 TOB: 1
20 30 40 50 Usia (tahun)

Harapan Bangsa Center for Data Science © 33

Jumlah Pembelian SEGMENTASI


7 CUSTOMER
Usia: 37 Usia: 42
TOB: 7 TOB: 7
6
Langkah-langkah hierarchical:
Usia: 40
5 2. Dua data atau cluster
TOB: 6
yang paling dekat
dijadikan satu cluster.
4 __________________
________________
Usia: 20
3 Usia: 18
TOB: 4

TOB: 3
________
2
Usia: 23
TOB: 2
1
Usia: 49 Usia: 51
TOB: 1 TOB: 1
20 30 40 50 Usia (tahun)

Harapan Bangsa Center for Data Science © 34


Jumlah Pembelian SEGMENTASI
7 CUSTOMER
Usia: 37 Usia: 42
TOB: 7 TOB: 7
6
Langkah-langkah hierarchical:
________ Usia: 40 3. Hitung kembali jarak
5 TOB: 6 setiap data/cluster
terhadap data/cluster
lainnya. Kembali ke
4 langkah 2. Lakukan
sampai semua data
Usia: 20
menjadi satu cluster besar.
3 Usia: 18
TOB: 4

TOB: 3
________
2
Usia: 23 Cluster
TOB: 2
1
Usia: 49 Usia: 51
TOB: 1 TOB: 1
20 30 40 50 Usia (tahun)

Harapan Bangsa Center for Data Science © 35

HIERARCHICAL CLUSTERING DIGAMBARKAN


DALAM BENTUK DENDOGRAM IMPORTANT!

Dendogram adalah _______________ dari langkah-langkah dalam


analisis cluster yang menunjukkan bagaimana _______________ dan
nilai koefisien jarak pada setiap langkah

Cluster dan data


berdekatan  dijadikan
satu cluster

Berdekatan
membentuk cluster

Harapan Bangsa Center for Data Science © 36


HIERARCHICAL CLUSTERING UNTUK
SEGMENTASI CUSTOMER SMARTPHONE
Hierarchical clustering berguna untuk segmentasi customer dalam konteks
untuk __________________.
Ilustrasi: 1 juta customer akan kita segmentasi untuk menentukan berapa
macam produk baru yang akan diluncurkan.

Berapa kali hierarchical


clustering terjadi?
Untung mesin membantu.

……………………………………..

1 juta customer
Harapan Bangsa Center for Data Science © 37

APLIKASI CLUSTERING DALAM KEHIDUPAN


Clustering banyak digunakan dalam __________________________.
Data customer yang digunakan bisa berdasarkan berbagai aspek.

Harapan Bangsa Center for Data Science © 38


K-MEANS VS HIERARCHICAL IMPORTANT!

Dalam memilih metode hierarchical vs. non-hierarchical perlu


diperhatikan bahwa:
Hierarchical clustering lebih tepat digunakan bila:
o _________________________________________ yang akan dipelajari
o Sample size berukuran ________________ (300-400, <1000)
K-Means clustering lebih tepat bila:
o _________________________ dan ________________ dapat ditentukan
berdasarkan alasan praktikal, objective, atau teoretikal.
o Terdapat concern terhadap outlier karena pendekatan ini tidak terlalu
rentan terhadap outliers.

Pendekatan kombinasi ________________________ seringkali


disarankan.

Harapan Bangsa Center for Data Science © 39

KOMBINASI KMEANS & HIERARCHICAL


CLUSTERING IMPORTANT!

Pendekatan kombinasi hierarchical dan K-Means seringkali


disarankan.
1. Hierarchical clustering digunakan untuk menentukan jumlah cluster
dan menghasilkan _______________ yang akan menjadi ______
__________ di tahap prosedur non-hierarchical.
2. K-Means kemudian dilakukan untuk mengelompokkan seluruh
_________ (______) menggunakan seeds tahap sebelumnya untuk
menghasilkan membership cluster yang ______________.

Harapan Bangsa Center for Data Science © 40

Anda mungkin juga menyukai