Anda di halaman 1dari 20

ANALISIS CLUSTERING INDEKS

TINGKAT KEMISKINAN MENGGUNAKAN


ALGORITMA K-MEANS

KELOMPOK 4 :
• 2113025 - Maulawi Rofiulloh M
• 2113034 - Tanri Abeng
• 2113037 – Tiara Putri Adelina
• 2113043 - Kania Salsabila

DATA MINING
Table Of Content

01 Clustering dalam Data Mining

02 Algoritma K-Means

03 Tahapan Proses

04 Studi Kasus
Clustering
Clustering dalam data mining adalah salah satu teknik analisis data yang
digunakan untuk mengelompokkan objek atau data ke dalam kelompok-
kelompok yang memiliki kesamaan berdasarkan fitur atau karakteristik
tertentu.

Tujuan dari clustering adalah untuk mengidentifikasi struktur tersembunyi


dalam data tanpa adanya label atau pengawasan sebelumnya.
Manfaat
Clustering
Identifikasi Pola atau Pemahaman
Segmen Karakteristik Data

Segmentasi Penemuan Informasi


Pasar Baru
Algoritma K-Means
K-means adalah salah satu algoritma clustering yang digunakan untuk
mengelompokkan data ke dalam kelompok-kelompok atau cluster
berdasarkan kesamaan fitur. Fungsi utama K-means adalah mengurutkan
objek data ke dalam kelompok-kelompok yang memiliki karakteristik yang
serupa.
Analisis Cluster K-Means adalah teknik statistika yang
berguna untuk mengelompokkan objek ke dalam K cluster
yang telah ditentukan di awal dimana setiap objek:

Mempunyai tingkat
01 Mempunyai tingkat
homogenitas yang
02 heterogenitas yang tinggi
tinggi dalam satu antar kelompok
kelompok

Gambar 1.Plot awal Gambar 1.Plot setelah cluster


DATA MINING KELOMPOK 4

Tahapan Proses Clustering


menggunakan algoritma K-Means
STUDI KASUS
Tabel di bawah berisi tentang indeks tingkat kemiskinan 6
wilayah. Seorang peneliti ingin mengelompokkan wilayah
tersebut menjadi 2 kelompok berdasarkan indeks kedalaman
kemiskinan (X) dan indeks keparahan (Y).
Perhitungan 01
Pertama kita akan menghitung centroid. Kita ambil data ke-1 dan ke-2 sebagai
perhitungan pertama. Kita menggunakan rumus Euclidean Distance untuk mendapatkan
jarak minimum data terhadap centroid.

menentukan jarak dari data 1 ke data 1, data 1 ke data 2, data 2


ke data 1 dan data 2 ke data 2.
Rumus Euclidean Distance :
hasil pengelompokan cluster data ke-1 masuk K1 dan data ke-2 masuk K2

Dari tabel diatas, kita lihat jarak minimum dari data 1 ke data 1 adalah 0 dan
jarak minimum dari data 2 ke data 2 yaitu 0. Sehingga yang menjadi centroid K1
adalah data 1 dan data 2 menjadi centroid K2.
Perhitungan 02
Semuanya dihitung dengan Euclidean Distance dan hasilnya kita masukkan dalam tabel berikut.

hasil perhitungan data ke-2

Dilihat dari jarak minimum data terhadap centroid, data ke-3 lebih dekat ke K2 dengan nilai 14.14.
Selanjutnya kita meng-UPDATE nilai Centroid. Karena data masuk ke K2, maka centroid K2 diupdate dengan cara :
Sehingga centroid yang baru kita dapatkan , pada garis merah adalah
persamaan perhitungannya dan pada kotak merah adalah hasilnya.
Perhitungan 03
Lanjut ke data ke-4 yaitu (90, 10), kita mulai menghitung jarak antar dataset dan
Centroid K1, sama seperti langkah di perhitungan kedua.

Kemudian kita hitung jarak antar dataset dan Centroid K2.

Dataset ke-4 masuk dalam kelompok


cluster 1 , karena jarak minimum /
terdekat dataset adalah terhadap cluster
1 yaitu 41.23.
Perhitungan 04
Kita lanjutkan kembali menghitung dataset ke-5 yaitu (80, 40). Kita mulai menghitung jarak dataset terhadap cluster 1.
Perhatikan kembali, centroid 1 yang digunakan adalah yang telah terupdate yaitu (95, 30).

Dataset ke-5 masuk dalam kelompok


cluster 1 , karena jarak minimum /
terdekat dataset adalah terhadap
cluster 1 yaitu 31.62.
Perhitungan 05
Kita lanjutkan kembali menghitung dataset terakhir yaitu (25, 35). Kita mulai menghitung jarak dataset terhadap cluster 1.
Perhatikan kembali, centroid 1 yang digunakan adalah yan gtelah terupdate yaitu (80, 35).
Hasil Pengelompokkan
Akhir
Semua data telah kita dapatkan, dan masing-masing data sudah terkelompokkan
berdasarkan cluster 1 dan cluster 2. Selanjutnya kita input hasil pengelompokkanya
pada table pertama. Jadi hasilnya seperti berikut :
Thank You

Anda mungkin juga menyukai