Anda di halaman 1dari 1

NAMA : NADYA AULYA PUTRI

NPM : 2209020054
KELAS : D1 21 (B1 22)
MK : DATA MINING

RANGKUMAN MATERI
“CLUSTERING”
Dr. Taufik Susanto, MscTech
Clustering adalah salah satu metode tertua yang ada di data science. Clustering termasuk yg
paling sering digunakan untuk mendapatkan berbagai insight dari data di dunia nyata. Karna
label jarang ditemukan. Dasar dasar clustering, clustering secara teori mudah namun agak
tricky dalam penggunaan,
untuk menghasilkan pengelompokan nya menggunakan sklearn. Random state adalah satu hal
yg penting. Kalau nilai seed tidak di tetapkan maka hasilnya nanti akan berbeda beda. Otak
manusia secara otomatis juga melakukan clustering. Otak kita tidak bisa mengingat setiap
detail dari objek yang kita kenali. Otak manusia sulit membedakan orang secara unik.
pengelompokan atau clustering analisis adalah usaha untuk menemukan suatu struktur didata
sehingga objek objek didalam satu kelompok semirip mungkin. Intra cluster jarak nya
minimal inter cluster jarak nya maksimal.
konsepsi Miller yaitu bisa didefinisikan bermacam macam. klastering ini biasanya itu dia
suatu algoritma clustering hanya cocok untuk aplikasi-aplikasi tertentu. aplikasi dari
clastering cukup banyak, di sini dibagi dua secara umum yang pertama adalah klastering
untuk diteliti contohnya untuk kompresi data ada juga klastering untuk menemukan Insight.
clustering banyak digunakan di social network analysis. bisa juga kemudian digunakan untuk
mentransfer hasil search itu nanti ada ilmunya lagi sering juga dipakai di medical imaging.
Untuk melakukan k-means clustering, kita perlu menentukan beberapa hal, yaitu:
1. Jumlah klaster yang ingin kita buat, misalnya k.
2. Titik pusat dari setiap klaster, yang disebut centroid.
3. Cara menghitung jarak antara data dan centroid, yang biasanya menggunakan rumus
jarak Euclidean.
Langkah-langkah k-means clustering:
1. Pilih secara acak k titik sebagai centroid awal.
2. Hitung jarak antara setiap data dengan centroid menggunakan rumus jarak Euclidean.
3. Masukkan data ke dalam klaster yang memiliki jarak terdekat dengan centroidnya.
4. Hitung rata-rata dari data yang ada di setiap klaster dan perbarui centroidnya.
5. Ulangi langkah 2 sampai 4 sampai centroid tidak berubah lagi atau mencapai batas
yang ditentukan.

Anda mungkin juga menyukai