1
Alfiyani Rindyyatul Jannah(1210651237),2Deni Arifianto,M.Kom
Jurusan Teknik Informatika Fakultas TeknikUnivertas Muhammadiyah Jember
Email : alfiyanirindi11@gmail.com
Abstrak
Kelulusan mahasiswa yang tepat waktu akan menguntungkan pihak mahasiswa dan
perguruan tinggi. Ada beberapa faktor yang mempangaruhi prediksi kelulusan mahasiswa
yang sesuai dengan waktu studi, diantaranya : rata-rata IPK terakhir, jumlah SKS, keaktifan
di organisasi, beasiswa, dan asal daerah.(Kondo, Ferry.2015)
Clustering merupakan suatu metode untuk pengelompokan dokumen dimana dokumen
dikelompokan dengan konten untuk mengurangi ruang pencarian yang diperlukan dalam
merespon suatu query (Natalius, 2010). Dalam penelitian ini menggunakan tiga kategori
kelulusan yaitu lulus cepat, tepat , dan lambat.
Hasil perhitungan dataset dengan metode K-Means didapatkan hasil Accuracy 60%,
hal ini menunjukkan bahwa sistem dapat mengklasifikasikan data secara benar, namun dalam
pengelompokkannya belum optimal, karena terdapat data yang terklasifikasi benar masuk ke
klasifikasi salah dan data terklasifikasi salah masuk ke klasifikasi benar.
Kata Kunci : Kelulusan, Clustering, K-Means
1
pemanfatan algoritma K-Means Clustering. Informatika di Universitas
Algoritma K-Means adalah algoritma Muhammadiyah Jember, apakah bernilai
klastering yang paling sederhana dibanding lulus cepat, lulus tepat dan lulus
algoritma klastering yang lain. Algoritma terlambat.
ini mempunyai kelebihan mudah diterapkan 2. Mengetahui tingkat akurasi algoritma K-
dan dijalankan, relatif cepat, mudah untuk Means dalam memprediksi ketepatan
diadaptasi, dan paling banyak dipraktekkan kelulusan mahasiswa di Universitas
dalam tugas data mining. Muhammadiyah Jember.
Clustering merupakan suatu metode
untuk pengelompokan dokumen dimana
dokumen dikelompokan dengan konten 2. TINJAUAN PUSTAKA
untuk mengurangi ruang pencarian yang 2.1 Data Mining
diperlukan dalam merespon suatu query Data mining adalah suatu istilah
(Natalius, 2010). yang digunakan untuk menguraikan
Algoritma K-Means merupakan penemuan pengetahuan di dalam
algoritma yang membutuhkan parameter database. Data mining adalah proses
input sebanyak k dan membagi sekumpulan yang menggunakan teknik statistik,
n objek kedalam cluster sehingga tingkat matematika, kecerdasan buatan, dan
kemiripan antar anggota dalam satu cluster machine learning untuk mengekstraksi dan
tinggi sedangkan tingkat kemiripan dengan mengidentifikasi informasi yang
anggota pada cluster lain sangat rendah. bermanfaat dan pengetahuan yang terkait
Kemiripan anggota terhadap cluster diukur dari berbagai database besar (Turban et al,
dengan kedekatan objek terhadap nilai 2005).
mean pada cluster atau disebut sebagai Data mining merupakan bidang dari
centroid cluster (Rismawan dan beberapa bidang keilmuan yang
Kusumadewi, 2008). Data nilai mahasiswa menyatukan teknik dari pembelajaran
hanya akan menjadi sekumpulan data yang mesin, pengenalan pola, statistik, database,
tidak berguna jika tidak dilakukan dan visualisasi untuk penanganan
penggalian data terhadapnya. Banyak permasalahan pengambilan informasi dari
informasi terpendam yang dapat diambil database yang besar (Larose, 2005). Tan
dari sekumpulan data tersebut sehingga et al, (2006) mendefinisikan data mining
dapat memberikan suatu pengetahuan untuk sebagai proses untuk medapatkan informasi
penentuan kebijakan. Penggalian data dapat yang berguna dari gudang basis data yang
dilakukan dengan cara pengelompokan data besar. Data mining juga dapat diartikan
nilai mahasiswa menjadi beberapa sebagai pengekstrakan informasi baru
kelompok, kelompok nilai baik dan nilai yang diambil dari bongkahan data besar
buruk. yang membantu dalam pengambilan
Karena itu, pada penelitian ini akan keputusan. Istilah data mining kadang
dikembangkan suatu sistem yang dapat disebut juga knowledge discovery.
mengklastering kelulusan mahasiswa
menggunakan algoritma K-Means dengan 2.2 Clustering
melihat pola kelulusan mahasiswa beberapa Clustering adalah suatu metode
periode sebelumnya. pengelompokan berdasarkan ukuran
kedekatan. Perbedaan Clustering dengan
1.2 Tujuan grup, kalau grup berarti kelompok yang
Adapaun manfaat dalam penelitian sama kondisinya kalau tidak ya pasti bukan
yaitu : kelompoknya. Tetapi kalau cluster tidak
1. Mampu memprediksi sistem mengenai harus sama akan tetapi pengelompokannya
kelulusan mahasiswa Jurusan Teknik berdasarkan kedekatan dari suatu
2
karaktteristik sample yang ada,salah 3. Tidak pernah mengetahui real
satunya dengan menggunakan rumuh jarak cluster dengan menggunakan data
euclidean. Aplikasi cluster ini sangat yang sama, namun jika dimasukkan
banyak,karena hampir banyak dalam dengan cara yang berbeda mungkin
mengidentifikasi permasalahan atau dapat memproduksi cluster yang
pengambilan keputusan selalu tidak sama berbeda jika jumlah datanya sedikit.
persis akan tetapi cenderung memiliki 4. Tidak tahu kontribusi dari atribut
kemiripan saja. dalam proses pengelompokan
karena dianggap bahwa setiap
2.3 K-Means atribut memiliki bobot yang sama.
K-Means merupakan algoritma untuk Langkah-langkah dalam Algoritma
cluster objek berdasarkan atribut menjadi k K-Means Clustering :
partisi, dimana k < n. Secara Umum K- 1. Menentukan jumlah cluster .
Means Clustering merupakan salah satu 2. Menentukan nilai centroid. Dalam
metode data Clustering non-hirarki yang menentukan nilai centroid untuk
mengelompokan data dalam bentuk satu awal iterasi, nilai awal centroid
atau lebih cluster atau kelompok. dilakukan secara acak. Sedangkan
Metode ini mempartisi data ke dalam jika menentukan nilai centroid yang
cluster sehingga data yang memiliki merupakan tahap dari iterasi, maka
karakteristik yang sama dikelompokkan ke digunakan rumus sebagai berikut :
dalam satu cluster yang sama dan data yang a. Menghitung jarak antara titik
mempunyai karateristik yang berbeda di centroid dengan titik tiap objek
kelompokan ke dalam cluster yang lain. b. Pengelompokan objek untuk
Istilah-istilah dalam K-Means : menentukan anggota cluster adalah
1. N data : data set yang akan diolah dengan memperhitungkan jarak
sebanyak N data dimana N data minimum objek.
tersebut terdiri dari atribut- c. Kembali ke tahap 2, lakukan
atributnya perulangan hingga nilai centroid
2. K centroid : Inisialisasi dari pusat yang dihasilkan tetap dan anggota
cluster data adalah sebanyak K cluster tidak berpindah ke cluster
dimana pusat-pusat awal tersebut lain.
digunakan sebagai banyaknya kelas
yang akan tercipta. Centroid 3. METODOLOGI PENELITIAN
didapatkan secara random dari N 3.1 Studi Kasus
data set yang ada. Berikut ini merupakan simulasi dari
3. Euclidian Distance: merupakan proses perhitungan K-Means terhadap data.
jarak yang didapat dari perhitungan Dalam perhitungan yang dilakukan,
antara semua N data dengan K menggunakan data testing dan training,
centroid dimana akan memperoleh penggunaan data testing dan trainning
tingkat kedekatan dengan kelas bertujuan agar model yang diperoleh
yang terdekat dengan populasi data nantinya memiliki kemampuan generalisasi
tersebut. yang baik dalam melakukan klasifikasi
Kelemahan K-Means : data. Data trainning sebagai data sampel
1. Bila jumlah data tidak terlalu sedangkan data testing dipergunakan
banyak, mudah untuk menentukan sebagai pembanding dalam menghitung
cluster awal. data traning.
2. Jumlah cluster, sebanyak K, harus Diketahui dari 10 (sepuluh) data
ditentukan sebelum dilakukan berikut terdapat 7(tujuh) data testing dan 3
perhitungan. (tiga) data trainning yang terdiri dari Lulus
3
Cepat (L.Cepat), Lulus Tepat (L.Tepat),
dan Lulus Terlambat (L.Terlambat). Berikut
ini adalah kesepuluh data tersebut :
4
Sehingga dapat dikelompokkan
sebagai berikut berdasarkan data training
yang telah ada adalah sebagai berikut :
=
= 0,71428 * 100 %
= 71.428 %.
Dari perhitungan akurasi di dapatkan
nilai TP yaitu data benar yang
terklasifikasikan menjadi data benar sebesar
5, nilai FP yaitu data benar terklasifikasi
salah sebesar 2, nilai FN data salah tidak di
klasifikasikan salah sebesar 0 dan nilai TN
adalah data yang tidak di klasifikasikan
benar sebesar 0, sehingga menghasilkan
nilai Accuracy sebesar 71.428 %.
3.2 Analisa
Berdasarkan hasil pembahasan
tentang penerapan algoritma K-Means dapat
mengelompokkan mahasiswa yang 4.2 Proses K-Means pada Aplikasi
mendapat nilai rata-rata yang bagus dan Aplikasi dibuat berdasarkan kasus
yang kurang bagus. Namun, dari nilai yang yang ada, sehingga untuk setiap data yang
6
diinputkan akan dilakukan proses kriteria. Kriteria tersebut terdiri dari
perhitungan untuk mengetahui klasifikasi IPK, SKS, Beasiswa, dan
kelulusan. Berikut ini dalah penerapan K- Organisasi. Kriteria yang digunakan
Means pada aplikasi : penulis adalah IPK dan SKS. Pada
1. Inputan Data Mahasiswa menu kriteria, penulis menyediakan
Inputan data mahasiswa berisikan sebuah mekanisme on dan off
tentang data mahasiswa seperti nim, dimana keempat kriteria dapat
nama, dan prediksi kelulusan yang diaktifkan ataupun dapat di non
ditunjukkan pada gambar 4.7 aktifkan. Berikut adalah tampilan
sebagai berikut : dari kriteria :
10