Anda di halaman 1dari 8

Review Jurnal Penerapan Metode K-Means Clustering pada

Prediksi Prestasi Akademik Siswa

Data Mining [A]


Nama:
Ni Kadek Rahayu Widya Utami
1204505043

JURUSAN TEKNOLOGI INFORMASI


UNIVERSITAS UDAYANA - FAKULTAS TEKNIK
2015

Sumber Review Jurnal : http://arxiv.org/ftp/arxiv/papers/1002/1002.2425.pdf


Dalam jurnal penerapan algoritma K-means clustering pada prestasi akademik siswa
dijelaskan Graded Point Average (GPA) atau Indeks Prestasi Kumulatif (IPK) biasa
digunakan sebagai indikator dalam penentuan prestasi siswa. Dalam beberapa universitas,
syarat IPK minimum yang ditetapkan adalah 1.5 dan beberapa lagi memiliki syarat IPK 3.0.
Oleh karena itu, IPK masih digunakan sebagai faktor umum oleh perencana akademik untuk
mengevaluasi kemajuan dalam lingkungan akademik. Banyak faktor yang menjadi hambatan
siswa untuk mempertahankan IPKnya tetap tinggi selama masa pendidikan. Faktor tersebut
menjadi target fakultas untuk dapat mengembangkan strategi peningkatan pembelajaran siswa
dan meningkatkan kinerja akademik mereka dengan memantau perkembangan kinerja siswa.
Oleh karena itu, evaluasi prestasi adalah salah satu dasar untuk memantau gerak
prestasi siswa pada lembaga pembelajaran yang lebih tinggi. Dengan bantuan metode data
mining, seperti algoritma clustering, yang mungkin dapat digunakan untuk menemukan
karakteristik kunci dari prestasi siswa dan menggunakan karakteristik tersebut untuk prediksi
selanjutnya. Beberapa hal yang diharapkan dari penerapan algoritma k-means clustering
dengan ukuran jarak Euclidean, dimana jarak dihitung dengan mencari kuadrat jarak antara
nilai masing-masing, menjumlahkan kotak dan menemukan akar kuadrat dari jumlahnya.
Jurnal ini menyajikan algoritma k-means clustering dengan simple dan efisien untuk
memantau perkembangan prestasi siswa dalam perguruan tinggi.
Analisis clustering dapat dibagi menjadi teknik clustering hirarkiral dan clustering
non-hirarkiral. Contoh dari teknik hirarkiral seperti single linkage, complete linkage, average
linkage, median dan ward. Teknik non-hirarkiral seperti k-means, k-means adaktif, k-medois
dan fuzzy clustering. Untuk menentukan algoritma mana yang baik digunakan sesuai fungsi
tipe data yang tersedia, tujuan analisis fakta. Dapat digunakan cara menyelidiki stabilitas
cluster

dalam

studi

simulasi.

Yang

sulit

adalah

untuk

memilih

pengaturan

algoritma/parameter terbaik. Algoritma pengelompokan yang ideal menghasilkan kelompok


dengan batas yang tidak tumpang tindih, meskipun tidak dapat dicapai pemisahan yang
sempurna. Indeks seperti lebar bayangan dan indeks homogenitas dapat digunakan untuk
mengevaluasi pemisahan menggunakan algoritma clustering. Konsep stabilitas clustering
dianggap ada didalamnya. Ide di balik pendekatan validasi adalah membuat algoritma
menjadi konsisten, Dalam jurnal ini, penulis menerapkan algoritma k-means clustering
tradisional dan pengukuran jarak Euclidean untuk analisis nilai siswa.

1.

Metodelogi
a. Membangun algoritma k-means clustering
Diberikan dataset dengan n data poin X1, X2,.,Xn seperti masing-masing data poin
ada dalam Rd, masalah untuk menemukan perbedaan minimum clustering dari
data set sampai cluster k dari poin k {mj}(j=1,2,k) dalam Rd, seperti :
(Persamaan 1)
Dapat diminimalkan, dimana d(Xi, Mj) menunjukkan jarak Euclidean antara Xi
dan Mj. Poin {Mj} (j=1,2,.,k) dikenal dengan centroid cluster. Masalah dari rumus
diatas (persamaan 1) adalah untuk menemukan centroid cluster k, sehingga rata-rata
jarak kuadrat Euclidean antara titik data centroid cluster terdekat dapat diminimalkan.
Algoritma k-means menyediakan cara mudah untuk mengimplementasikan
solusi dari persamaan 1 diatas. Alasannya karena k-means memiliki kemudahan,
kesederhanaan, skalabilitas, kecepatan konvergensi dan kemampuan beradaptasi
untuk konservasi data.
Algoritma k-means dapat dianggap sebagai prosedur turunan gradient, yang
dimulai pada awal centroid cluster dan pembaruan centroid iterative untuk
mengurangi fungsi objektif dalam persamaan 1. K-means selalu dikumpulkan sampai
nilai minimum lokalnya. Minimum local tertentu yang ditemukan tergantung pada
cluster centroid. Pembaruan algoritma k-means cluster sampai mencapai minimum
lokalnya ditemukan, Gambar 1 menunjukkan pseudocodes umum dari algoritma kmeans dan algoritma k-means tradisional disajikan pada gambar 2.
Sebelum algoritma k-means disatukan, perhitungan jarak dan massa dilakukan
saat sejumlah perulangan dijalankan. Ketika integer I positif dikenal sebagai iterasi kmeans. Nilai yang tepat dari I bervariasi tergantung cluster awal centroids dalam
dataset yang sama. Jadi kompleksitas waktu komputasi dari algoritma adalah O(n),
dimana n adalah jumlah objek dalam dataset, k adalah jumlah yang diperlukan untuk
mengidentifikasi dan I adalah jumlah iterasi, k n, l n.
Langkah 1. Masukkan nomor dari cluster ke dalam kelompok data dan dataset ke
dalam cluster sebagai nilai input.
Langkah 2. Inisiasi cluster K pertama.
-

Ambil contoh pertama dari K atau

Ambil element K sebagai sampling acak.

Langkah 3. Hitung nilai tengah dari masing-masing cluster dalam dataset.


Langkah 4. K-means akan memberikan laporan dalam dataset hanya untuk cluster
awal.
- Setiap laporan memberikan cluster paling dekat menggunakan pengukuran
dari jarak.
Langkah 5. K-means memberikan tiap record dalam dataset untuk cluster yang mirip
dan menghitung aritmatika dari semua cluster dalam dataset.

Hasil
Dalam jurnal ini diterapkan model kumpulan data dari sebuah Universitas di Nigeria.
Hasil ditunjukkan pada tabel 2,3 dan 4. Pada tabel 2 untuk k = 3, dalam cluster 1, ukuran
cluster adalah 25 dan keseluruhan kinerja adalah 62,22. Juga, ukuran cluster dan secara
keseluruhan untuk nomor cluster 2 dan 3 adalah 15,29 dan 45,73 dan 53,03. Analisis berlaku
tabel 3 dan 4. Grafik yang dihasilkan dalam angka 3,4 dan 5 dimana kinerja keseluruhan
diplot sesuai ukuran cluster.
Tabel 5 menunjukkan dimensi dari data set dalam form N oleh matriks M dimana N
adalah baris dan M adalah kolom yang ditawarkan oleh masing-masing siswa. Kinerja
keseluruhan dievaluasi dengan menerapkan model deterministic dalam persamaan 2 dimana

penilaian kelompok untuk setiap cluster dievaluasi dengan menjumlahkan rata-rata dari nilai
individu dalam setiap kelompok.

Persamaan 2
Dimana,
N = total nomor dari setiap cluster siswa
n= dimensi data

Gambar 3, prestasi secara keseluruhan untuk ukuran cluster 25 adalah 62,22%


sedangkan kinerja secara keseluruhan untuk ukuran cluster 15 adalah 45,73% dan kelompok
ukuran 29 memiliki 53,03%. Analisis ini menunjukkan bahwa 25 dari 79 siswa memiliki nilai
Very Good dengan persentase 62,22%, sedangkan 15 dari 79 siswa memiliki kinerja di
wilayah yang sangat Fair dengan persentase (45,73%) dan 29 siswa yang tersisa memiliki
peringkat Good dengan persentase (53,03%) seperti yang digambarkan pada tabel 1.
Gambar 4 menunjukkan tren dalam analisis prestasi sebagai berikut dengan prestasi
secara keseluruhan untuk ukuran cluster 24 adalah 50,08% sedangkan prestasi secara
keseluruhan untuk cluster 16 adalah 65,00%. Ukuran cluster 30 memiliki prestasi
keseluruhan 58,89% sedangkan cluster 09 adalah 43,65%. Tren dalam analisis ini
menunjukkan bahwa 24 siswa dengan indeks Good. Sedangkan 16 siswa menunjukkan
Very Good kinerja 65,00% dan 30 siswa memiliki Good dengan persentase 58,89% dan 9
siswa memiliki kinerja Fair dengan hasil 43,65%.
Pada gambar 5, prestasi secara keseluruhan untuk ukuran cluster 19 adalah 49,85%,
sedangkan kinerja secara keseluruhan untuk ukuran cluster 17 adalah 60,97%. Ukuran cluster
9 memiliki kinerja keseluruhan 43,65%, sedangkan ukuran cluster 14 memiliki kinerja
keseluruhan 64,93% dan dan ukuran cluster 20 memiliki kinerja keseluruhan 55,79%. Ini

analisis kinerja menunjukkan bahwa, 19 siswa menyeberang untuk "Baik" kinerja daerah
(49,85%), sedangkan 17 siswa telah "Sangat Bagus" hasil kinerja (60,97%). 9 siswa jatuh di
wilayah "Adil" indeks kinerja (43,65%), 14 siswa di wilayah "Sangat Bagus" kinerja
(64,93%) dan sisanya 20 siswa memiliki "Baik" kinerja (55,79%).

Dalam jurnal ini, dijelaskan secara sederhana metodelogi untuk membandingkan


kekuatan prediksi algoritma clustering dan jarak Euclidean sebagai ukuran jarak kesamaan.
Dijelaskan pula mengenai teknik algoritma pengelompokan k-means dan kombinasi dari
model deterministic pada satu set data sekolah swasta. Hasil yang didapatkan untuk
mahasiswa sejumlah 79 siswa dan menghasilkan interpretasi numeric untuk evaluasi kerja.
Model ini meningkatkan keterbatasan metode yang ada. Model ini menerapkan model
fuzzy untuk memprediksi prestasi akademik siswa. Penelitian ini juga berdasarkan kerangka
data mining untuk prestasi akademik siswa. Oleh karena itu, algoritma clustering berfungsi
sebagai patokan untuk memantau perkembangan kinerja siswa pada perguruan tinggi. Hal ini
juga meningkatkan keputusan perencana akademik untuk memantau peningkatan hasil
akademik di masa depan.

Anda mungkin juga menyukai