Anda di halaman 1dari 15

KLASIFIKASI

VS
KLUSTERING Machine Learning
E. Ardhianto
Clustering vs Classification, apa
bedanya?
Clustering

• Di sekolah saya dulu ada yang namanya sistem pembagian kelas


berdasarkan nilai rapor.
• Jadi, kalau murid yang nilainya di atas 85 dia bakal masuk ke kelas A
(perkumpulan orang-orang pinter),
• kalau nilainya di bawah 85 dia masuk ke kelas B,
• kalau di bawah 70 masuk kelas C, dan seterusnya.
• Jadi, bisa dibilang sistem pembagian kelas berdasarkan nilai itu
sama halnya seperti metode clustering, hanya saja
dalam clustering kita tidak sekedar melihat nilai rapor sebagai
parameter melainkan kita juga punya variabel-variabel lainnya
yang bisa dijadikan parameter/rujukan untuk membentuk suatu
klaster.
• Makin bingung? 😄
• misalkan aja kita sebagai kepala sekolah SMP Keripik Kentang
90 pengin buat sistem pembagian kelas supaya anak-anak yang
pinter bisa bersaing dengan kelasnya yang sesama pinter.
• Tapi di sini kita gak mau bagi tiap kelasnya hanya berdasarkan
nilai rapor, karena kita pengin yang ribet (biar antimainstream),
kita akan bagi tiap kelasnya berdasarkan 4 faktor atau variabel,
yaitu:
• nilai rapor,
• jarak rumah dari sekolah,
• tahun lahir (si kepsek pengin mastiin sio)
• dan penghasilan orang tua.
• Contoh tabelnya seperti ini:
• Nah, dari data di atas itu kita akan bagi setiap anak ke dalam kelas
yang sesuai.
• Bagaimana caranya? 
• Tentu saja pakai rumus!
• Algoritmanya apa? Banyak! Ada K-Means, DBSCAN, Mean-Shift,
OPTICS, Affinity Propagation, Spectral Clustering, Mixture of
Gaussians, dll.
Kita pilih saja misal K-Means

• Lewat salah satu algoritma di atas, kita bisa tentuin tuh murid
mana yang masuk ke kelas A, B, C, D, dst. Caranya yah
setiap data di tabel itu dimasukkin ke dalam rumus dan
dihitung buat cari persamaan, similaritas, jarak, dan lain-
lainnya yang bisa dijadikan validasi untuk sebuah klaster itu
terbentuk.
• Satu hal yang kamu perlu ketahui dan ingat adalah metode
*clustering itu datanya tidak punya label*.
• Maksudnya apa? Maksudnya, lihat tuh tabel pertama kita tadi
hanya punya 4 faktor tanpa ada kolom ‘Kelas’ jadi selain
untuk membuat klasterisasi atau kelompok-kelompok,
metode clustering juga berguna untuk membuat label, seperti
pada tabel kedua di mana dari 4 faktor itu setiap data sudah
ada labelnya (kelas A, B, C, dst).
• Makanya, clustering juga disebut sebagai
metode unsupervised learning di mana data inputannya
tanpa ada label/kategori/kelas.
Classification
• Kalau tadi clustering kan data inputannya tidak
ada label/kategori/kelas. Hanya faktor-faktor saja
(biasanya kita sebutnya atribut).
• Kalau di classification data inputannya itu malah
ada label/kategori/kelasnya atau juga disebut
sebagai supervised learning.
• classification bertolak belakang
sama clustering (kayak Sasuke dan Naruto).

• Lalu kalian bertanya dalam hati: lah kalo udah


ada labelnya terus ngapain lagi diklasifikasi?
napa gak pake countif di excel aja dah?
• Tidak secepat itu, Ferguso. 🤣
• Kegunaan metode classification bukan untuk mengklasifikasi
data inputan yang ada saat ini, melainkan untuk
mengklasifikasi data baru yang mungkin akan tercipta di
masa mendatang.
• Saya tahu kamu pasti bingung, tidak perlu bohong. 😄
• Jadi gini, misalkan aja kamu sekarang adalah seorang dokter
jantung (sebelumnya kepsek). Lalu kamu ingin memprediksi
apakah seseorang (entah itu siapa) punya penyakit jantung
lewat riwayat data pasien-pasien yang ada. Riwayat datanya
seperti:
• Dari tabel di atas bisa kelihatan kan kalau data tersebut sudah
ada labelnya, yaitu kolom Penyakit Jantung. Labelnya ada
dua kategori, YES dan NO biasa ini disebut sebagai binary
classification karena hanya terdiri dari dua output.
• Lewat data tersebut kamu ingin memprediksi apakah
seseorang punya penyakit jantung jika dia punya beberapa
faktor sebagai berikut:

Penyakit Jantung
YES / NO
• Lalu cara prediksinya bagaimana? Pake cocoklogi. Ya tentu
saja enggaklah, masa penyakit jantung diagnosanya pake
cocoklogi sih. Hehehe.
• Pertama kita harus buat dulu model machine learning kita
menggunakan data yang sudah ada labelnya. Ibaratnya di sini
kita mau bikin mesin robot canggih yang nantinya bakal bisa
prediksiin diagnosa penyakit jantung seseorang.
• Membuat model classfication bisa menggunakan beberapa
algoritma, seperti Naive Bayes, KNN, Random Forest,
Decision Tree, SVM, ANN, dsb. Kita harus tahu algoritma
mana yang cocok sesuai dengan data dan studi kasus kita.
Kita pilih saja pakai KNN

• Lihat rumus (yang bikin pusing) di atas itu? Nah, lewat rumus itu kita bakal
hitung data riwayat pasien yang kita punya untuk dicari similaritas,
persamaan, bla, bla, bla. Intinya mesin robot yang kita buat bakal cari pola-
pola tertentu dalam data tersebut, dia juga bakal pelajari bagaimana sih
labelnya bisa terbentuk, apakah ada persamaan terkait data 1 dan data 2 dan
data-data lainnya dalam tabel (dataset) tersebut.
• Setelah model jadi, sekarang tinggal tahapan prediksi di mana kita
memasukkan data pasien baru yang ingin kita prediksi apakah punya diagnosa
penyakit jantung atau tidak.
• Selanjutnya, selesai.
Simpulan

• Apa yang sudah kita pelajari dari penjelasan di atas?


Klasifikasi Klustering
 bukan untuk mengklasifikasi data bertujuan untuk mengelompokkan
inputan yang sudah ada, melainkan data yang memiliki
membuat model dari data inputan similaritas/persamaan berdasarkan
yang ada untuk kemudian dipakai atribut-atributnya (faktor-faktor).
untuk memprediksi data yang
belum ada labelnya
merupakan metode supervised merupakan metode unsupervised
learning di mana data inputannnya learning, di mana data inputannya
memiliki label. tidak memiliki label.
membuat prediksi terhadap label. membuat kelompok-kelompok
label
• Untuk penjelasan lebih lengkapnya dan terperinci mengenai
metode classification, kamu bisa baca di sini: 
https://towardsdatascience.com/machine-learning-classifiers-
a5cc4e1b0623

Anda mungkin juga menyukai