Klasifikasi Vs Klustering
Klasifikasi Vs Klustering
VS
KLUSTERING Machine Learning
E. Ardhianto
Clustering vs Classification, apa
bedanya?
Clustering
• Lewat salah satu algoritma di atas, kita bisa tentuin tuh murid
mana yang masuk ke kelas A, B, C, D, dst. Caranya yah
setiap data di tabel itu dimasukkin ke dalam rumus dan
dihitung buat cari persamaan, similaritas, jarak, dan lain-
lainnya yang bisa dijadikan validasi untuk sebuah klaster itu
terbentuk.
• Satu hal yang kamu perlu ketahui dan ingat adalah metode
*clustering itu datanya tidak punya label*.
• Maksudnya apa? Maksudnya, lihat tuh tabel pertama kita tadi
hanya punya 4 faktor tanpa ada kolom ‘Kelas’ jadi selain
untuk membuat klasterisasi atau kelompok-kelompok,
metode clustering juga berguna untuk membuat label, seperti
pada tabel kedua di mana dari 4 faktor itu setiap data sudah
ada labelnya (kelas A, B, C, dst).
• Makanya, clustering juga disebut sebagai
metode unsupervised learning di mana data inputannya
tanpa ada label/kategori/kelas.
Classification
• Kalau tadi clustering kan data inputannya tidak
ada label/kategori/kelas. Hanya faktor-faktor saja
(biasanya kita sebutnya atribut).
• Kalau di classification data inputannya itu malah
ada label/kategori/kelasnya atau juga disebut
sebagai supervised learning.
• classification bertolak belakang
sama clustering (kayak Sasuke dan Naruto).
Penyakit Jantung
YES / NO
• Lalu cara prediksinya bagaimana? Pake cocoklogi. Ya tentu
saja enggaklah, masa penyakit jantung diagnosanya pake
cocoklogi sih. Hehehe.
• Pertama kita harus buat dulu model machine learning kita
menggunakan data yang sudah ada labelnya. Ibaratnya di sini
kita mau bikin mesin robot canggih yang nantinya bakal bisa
prediksiin diagnosa penyakit jantung seseorang.
• Membuat model classfication bisa menggunakan beberapa
algoritma, seperti Naive Bayes, KNN, Random Forest,
Decision Tree, SVM, ANN, dsb. Kita harus tahu algoritma
mana yang cocok sesuai dengan data dan studi kasus kita.
Kita pilih saja pakai KNN
• Lihat rumus (yang bikin pusing) di atas itu? Nah, lewat rumus itu kita bakal
hitung data riwayat pasien yang kita punya untuk dicari similaritas,
persamaan, bla, bla, bla. Intinya mesin robot yang kita buat bakal cari pola-
pola tertentu dalam data tersebut, dia juga bakal pelajari bagaimana sih
labelnya bisa terbentuk, apakah ada persamaan terkait data 1 dan data 2 dan
data-data lainnya dalam tabel (dataset) tersebut.
• Setelah model jadi, sekarang tinggal tahapan prediksi di mana kita
memasukkan data pasien baru yang ingin kita prediksi apakah punya diagnosa
penyakit jantung atau tidak.
• Selanjutnya, selesai.
Simpulan