dalam
studi
simulasi.
Yang
sulit
adalah
untuk
memilih
pengaturan
1.
Metodelogi
a. Membangun algoritma k-means clustering
Diberikan dataset dengan n data poin X1, X2,.,Xn seperti masing-masing data poin
ada dalam Rd, masalah untuk menemukan perbedaan minimum clustering dari
data set sampai cluster k dari poin k {mj}(j=1,2,k) dalam Rd, seperti :
(Persamaan 1)
Dapat diminimalkan, dimana d(Xi, Mj) menunjukkan jarak Euclidean antara Xi
dan Mj. Poin {Mj} (j=1,2,.,k) dikenal dengan centroid cluster. Masalah dari rumus
diatas (persamaan 1) adalah untuk menemukan centroid cluster k, sehingga rata-rata
jarak kuadrat Euclidean antara titik data centroid cluster terdekat dapat diminimalkan.
Algoritma k-means menyediakan cara mudah untuk mengimplementasikan
solusi dari persamaan 1 diatas. Alasannya karena k-means memiliki kemudahan,
kesederhanaan, skalabilitas, kecepatan konvergensi dan kemampuan beradaptasi
untuk konservasi data.
Algoritma k-means dapat dianggap sebagai prosedur turunan gradient, yang
dimulai pada awal centroid cluster dan pembaruan centroid iterative untuk
mengurangi fungsi objektif dalam persamaan 1. K-means selalu dikumpulkan sampai
nilai minimum lokalnya. Minimum local tertentu yang ditemukan tergantung pada
cluster centroid. Pembaruan algoritma k-means cluster sampai mencapai minimum
lokalnya ditemukan, Gambar 1 menunjukkan pseudocodes umum dari algoritma kmeans dan algoritma k-means tradisional disajikan pada gambar 2.
Sebelum algoritma k-means disatukan, perhitungan jarak dan massa dilakukan
saat sejumlah perulangan dijalankan. Ketika integer I positif dikenal sebagai iterasi kmeans. Nilai yang tepat dari I bervariasi tergantung cluster awal centroids dalam
dataset yang sama. Jadi kompleksitas waktu komputasi dari algoritma adalah O(n),
dimana n adalah jumlah objek dalam dataset, k adalah jumlah yang diperlukan untuk
mengidentifikasi dan I adalah jumlah iterasi, k n, l n.
Langkah 1. Masukkan nomor dari cluster ke dalam kelompok data dan dataset ke
dalam cluster sebagai nilai input.
Langkah 2. Inisiasi cluster K pertama.
-
Hasil
Dalam jurnal ini diterapkan model kumpulan data dari sebuah Universitas di Nigeria.
Hasil ditunjukkan pada tabel 2,3 dan 4. Pada tabel 2 untuk k = 3, dalam cluster 1, ukuran
cluster adalah 25 dan keseluruhan kinerja adalah 62,22. Juga, ukuran cluster dan secara
keseluruhan untuk nomor cluster 2 dan 3 adalah 15,29 dan 45,73 dan 53,03. Analisis berlaku
tabel 3 dan 4. Grafik yang dihasilkan dalam angka 3,4 dan 5 dimana kinerja keseluruhan
diplot sesuai ukuran cluster.
Tabel 5 menunjukkan dimensi dari data set dalam form N oleh matriks M dimana N
adalah baris dan M adalah kolom yang ditawarkan oleh masing-masing siswa. Kinerja
keseluruhan dievaluasi dengan menerapkan model deterministic dalam persamaan 2 dimana
penilaian kelompok untuk setiap cluster dievaluasi dengan menjumlahkan rata-rata dari nilai
individu dalam setiap kelompok.
Persamaan 2
Dimana,
N = total nomor dari setiap cluster siswa
n= dimensi data
analisis kinerja menunjukkan bahwa, 19 siswa menyeberang untuk "Baik" kinerja daerah
(49,85%), sedangkan 17 siswa telah "Sangat Bagus" hasil kinerja (60,97%). 9 siswa jatuh di
wilayah "Adil" indeks kinerja (43,65%), 14 siswa di wilayah "Sangat Bagus" kinerja
(64,93%) dan sisanya 20 siswa memiliki "Baik" kinerja (55,79%).