Implementasi Algoritma K-Means Untuk Klasterisasi Kinerja Akademik Mahasiswa

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X
Vol. 2, No. 6, Juni 2018, hlm. 2243-2251 http://j-ptiik.ub.ac.id
Implementasi Algoritma K-Means untuk Klasterisasi Kinerja Akademik

Mahasiswa
Fajar Nur Rohmat Fauzan Jaya Aziz1, Budi Darma Setiawan2, Issa Arwani3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

Email: 1boonksoow@gmail.com, 2s.budidarma@ub.ac.id, 3issa.arwani@ub.ac.id
Abstrak
Seleksi penerimaan mahasiswa dalam sebuah perguruan tinggi menghasilkan data yang melimpah dan
dapat dimanfaatkan untuk memperoleh informasi yang berguna bagi perguruan tinggi. Dalam penelitian
ini, data mahasiswa yang diambil oleh penulis adalah nomor induk mahasiswa, jalur masuk perguruan
tinggi, pendapatan orang tua dan indeks prestasi komulatif. Penggalian informasi pada sebuah data
berukuran besar tidak dapat dilakukan dengan mudah dan hal ini bisa dilakukan dengan teknologi data
mining. Data mining yang disebut juga dengan Knowledge Discovery in Database adalah sebuah proses
secara otomatis atas pencarian data didalam sebuah memori yang amat besar dari data untuk mengetahui
pola dengan menggunakan alat seperti klasifikasi hubungan (association) atau pengelompokan
(clustering). Dengan menggunakan metode k-means clustering, peneliti mencoba untuk mengekstrak
pengetahuan yang bisa menggambarkan kinerja prestasi akademik mahasiswa pada akhir semester dan
hasil dari penelitian tersebut menunjukkan bahwa dari semua jumlah cluster yang dimasukkan, untuk
cluster yang berjumlah 3 memiliki nilai silhouette coefficient yang paling mendekati nilai Si = 1, yaitu
dengan nilai 0,108690751. Selain itu pendapatan orang tua tidak mempengaruhi tingkat kinerja
akademik mahasiswa dan nilai akademis mahasiswa yang masuk melalui jalur reguler & jalur prestasi
akademik mempunyai nilai IPK rata-rata tertinggi. Sehingga, pihak fakultas dapat mempertimbangkan
untuk lebih memprioritaskan penerimaan mahasiswa baru melalui jalur reguler & prestasi akademik.
Kata Kunci : data mahasiswa, data mining, k-means clustering, jalur penerimaan mahasiswa
Abstract
Selection of student acceptance in a college produces abundant data and can be utilized to obtain useful
information for the college. In this study, student data taken by the authors are Student ID Number,
University Entrance Path, Parent Revenue and Student Achievement Index. Excavation of information
on a large data could not be done easily and this can be done with data mining technology. Data mining
also known as Knowledge Discovery in Database is an automated process of searching data in a very
large memory of data to know patterns by using tools such as association or clustering. By using k-
means clustering method, the researcher tries to extract the knowledge which can depict the
performance of student achievement at the end of semester and the result of the research indicates that
of all cluster quantities inserted, for clusters amounting to 3 (three) has the value of silhouette coefficient
closest to the value of 𝑆𝑖 = 1, that is with the value of 0.108690751. In addition, parental income does
not affect the level of academic performance of students and the academic value of students who enter
through the regular path & achievement paths have the value of the highest average GPA. Thus, the
faculty can consider to prioritize the acceptance of new students through regular channels &
achievement contract.
Keywords : student data, data mining, k-means clustering, student admission path
mulai dari bidang industri, kesehatan, ekonomi,

1. PENDAHULUAN pendidikan, ilmu dan teknologi serta berbagai
Dalam berbagai bidang kehidupan saat ini, bidang kehidupan lainnya.
banyak sekali data yang dihasilkan oleh Seperti halnya seleksi penerimaan
teknologi informasi yang semakin canggih, mahasiswa dalam sebuah perguruan tinggi,
Fakultas Ilmu Komputer

Universitas Brawijaya 2243
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 2244
pada umumnya perguruan tinggi akan merupakan proses pengekstrakan informasi dari
memberikan soal-soal test yang harus calon jumlah kumpulan data yang besar dengan
mahasiswa selesaikan, yang bertujuan untuk menggunakan algoritma dan teknik gambar
mengetahui kemampuan dan pengetahuan statistic, mesin pembelajaran dan sistem
mereka. Setelah tahap seleksi selesai dan calon manajemen database (HAN, J & Kamber, M.
mahasiswa diterima dan mengalami proses 2001).
belajar mengajar, maka akan diketahui prestasi Data mining yang disebut juga dengan
mahasiswa disetiap akhir semester. Hal ini akan Knowledge Discovery in Database (KDD)
terjadi secara berulang pada sebuah perguruan adalah sebuah proses secara otomatis atas
tinggi setiap tahunnya, sehingga akan pencarian data didalam sebuah memori yang
menghasilkan banyak sekali data mahasiswa amat besar dari data untuk mengetahui pola
yang apabila diolah akan dapat memberikan dengan menggunakan alat seperti klasifikasi
informasi yang bermanfaat bagi pihak hubungan (association) atau pengelompokan
perguruan tinggi. (clustering). Untuk itu data mining dapat
Institusi pendidikan adalah bagian penting digunakan untuk mengevaluasi kinerja siswa.
dalam masyarakat dan memainkan peranan Dengan menggunakan algoritma yang ada
yang penting dalam pertumbuhan dan dalam data mining, dicoba untuk mengekstrak
pembangunan suatu bangsa. Selain itu institusi pengetahuan yang bisa menggambarkan kinerja
pendidikan juga berperan untuk mengontrol dan siswa pada akhir semester. Hasil ekstraksi ini
melakukan evaluasi serta prediksi prestasi dapat digunakan untuk membantu dalam
akademik siswanya. Prestasi akademik siswa mengidentifikasi siswa yang mungkin akan
dapat didasarkan pada berbagai faktor seperti putus sekolah dan membantu siswa yang
kepribadian, lingkungan sosial serta psikologi membutuhkan perhatian khusus serta
dari siswa tersebut. Educational data mining mengantisipasi keadaan tersebut dengan
mengimplementasikan algoritma data mining memberikan seorang profesor yang tepat untuk
untuk menemukan pengetahuan dari data yang membantu menasehati dan membimbing para
berasal dari domain pendidikan. Hasil siswa (Chuchra, R. 2012).
penelitian ini menyebutkan bahwa data mining Pada penelitian ini analisa data mining
dapat digunakan sebagai tool pengambilan dilakukan dengan menggunakan metode k-
suatu keputusan yang dapat menemukan suatu means clustering. Adapun alasan penggunaan
pengetahuan dari sejumlah besar data yang bisa metode k-means clustering adalah karena
digunakan dalam menilai prestasi siswa metode k-means clustering mampu
(Tiwari, M. Singh, R. Vimal, N. 2013). Dalam mengelompokkan data mahasiswa dengan
penelitian ini, data mahasiswa yang diambil kriteria yang bisa menjadi acuan untuk
oleh penulis adalah jenis kelamin, angkatan, mengetahui bagaimana kinerja akademik
asal sekolah (SMA / Sederajat), jalur masuk mahasiswa tersebut. K-means clustering juga
perguruan tinggi, pekerjaan orang tua, mampu mengelompokkan data dengan
penghasilan orang tua, penghasilan tambhan memaksimalkan kemiripan data antar cluster
orangtua, asal daerah, jumlah mata kuliah yang dan meminimalkan kemiripan data antar
diulang, jumlah mata kuliah semester pendek cluster, dimana ukuran kemiripan yang
yang diambil mahasiswa, indeks prestasi lulus digunakan dalam cluster adalah fungsi jarak,
dan beban per semster, jumlah SKS lulus dan sehingga pemaksimalan kemiripan data
beban per semester, jumlah mata kuliah lulus didapatkan berdasarkan jarak terpendek antara
dan beban per semester, Indeks prestasi data terhadap titik pusat. Dengan menggunakan
komulatif lulus dan beban per semester, jumlah metode ini, data-data yang telah didapatkan
SKS komulatif lulus dan beban per semester, dapat dikelompokkan kedalam beberapa cluster
jumlah mata kuliah komulatif lulus dan beban berdasarkan kemiripan dari data-data tersebut,
per semester, jumlah kehadiran mahasiswa per sehingga data-data yang memiliki karakteristik
semester. yang sama akan dikelompokkan dalam satu
Penggalian informasi pada sebuah data cluster dan yang memiliki karakteristik yang
berukuran besar tidak dapat dilakukan dengan berbeda akan dikelompokkan dalam cluster lain
mudah dan salah satu alat bantu yang dapat yang memiliki karakteristik yang sama (Ong, J
digunakan untuk menemukan pengetahuan / O. 2013).
informasi yang tersembunyi dalam database Dengan adanya pengelompokan data
adalah teknologi data mining. Data mining tersebut diharapkan dapat mengetahui kinerja
Fakultas Ilmu Komputer, Universitas Brawijaya

akademik mahasiswa berdasarkan latar dengan perguruan tinggi. Seorang mahasiswa

belakang pendapatan orang tua dan jalur masuk dinilai mempunyai kepandaian dalam berpikir,
perguruan tinggi. tingkat intelektualitas yang tinggi dan
mempunyai persiapan yang matang dalam
2. LANDASAN KEPUSTAKAAN melakukan sesuatu. Setiap mahasiswa
cenderung memiliki sifat berpikir secara kritis
2.1 Kajian Pustaka dan bertindak dengan cepat dan tepat,
Berikut beberapa penelitian yang merupakan suatu prinsip yang saling
digunakan penulis sebagai bahan referensi melengkapi satu sama lain (Santoso, B. 2007).
dalam melakukan penelitian. Mahasiswa digolongkan dalam tingkatan
Penelitian O. J et al., (2010), Shovon & perkembangan pada usia 18 sampai dengan 25
Haque, (2012) yang berjudul “Application of k- tahun. Tingkatan tersebut dikelompokkan pada
Means Clustering algorithm for prediction of masa remaja akhir sampai dengan masa dewasa
Students’ Academic Performance” dan awal serta dapat diamati dari segi
“Prediction of Student Academic Performance perkembangan, pemantapan pendirian hidup
by an Application of K-Means Clustering merupakan tugas perkembangan pada usia
Algorithm” menunjukkan bahwa clustering mahasiswa (Yusuf, S. 2012).
dapat digunakan untuk memonitor kinerja Berdasarkan uraian tersebut penulis dapat
mahasiswa di suatu universitas. Metode ini juga menyimpulkan bahwa mahasiswa adalah
dapat digunakan untuk memonitor kinerja per seseorang yang sedang menimba ilmu dan
semester dalam meningkatkan prestasi masih berusia 18 sampai dengan 25 tahun serta
akademik. Penelitian yang dilakukan O. J et al., terdaftar dan menjalani pendidikannnya di
(2010) menggunakan 79 data mahasiswa untuk perguruan tinggi baik dari universitas,
uji coba clustering pada Universitas Nigeria, politeknik, akademik, institut dan sekolah
sedangkan penelitian Shovon & Haque, (2012) tinggi. Sedangkan untuk subyek dalam
menggunakan 60 data mahasiswa untuk uji penelitian ini adalah menggunakan mahasiswa
coba penelitiannya. yang masih aktif dan tercatat sebagai
Penelitian Arora & Badal, (2013) yang mahasiswa aktif dan berusia sekitar 23 tahun.
berjudul “Evaluating Student’s Performance
Using K-Means Clustering”, menggunakan 2.3 Pendapatan
algoritma k-means karena dinilai dapat dengan Pendapatan adalah segala penerimaan setiap
cepat dan efisien membantu memantau orang dalam bentuk apapun sebagai imbalan
perkembangan kinerja mahasiswa di suatu jasanya didalam suatu proses produksi. Imbalan
instansi pendidikan. Jumlah data yang dianalisis jasa tersebut dapat berupa bunga, laba, upah
adalah 118 data siswa untuk mendapatkan nilai serta hasil sewa sesuai dengan faktor produksi
rata-rata mahasiswa tiap semester. Metode ini pada yang dilibatkan dalam suatu proses
dapat memainkan peran penting bagi analisis produksi (Yuliana, S. 2007).
akademik untuk menentukan alasan penurunan Pendapatan merupakan sejumlah dana yang
kinerja mahasiswa selama semester tertentu didapatkan melalui pemanfaatan faktor
sehingga dapat diambil tindakan untuk produksi yang dimiliki. Meliputi : (Suyanto.
meningkatkan kinerja tersebut di semester 2000)
berikutnya. 1. Menyewakan sesuatu terhadap orang lain,
seperti menyewakan alat transportasi, ruko,
2.2 Mahasiswa kebun, dsb.
Mahasiswa adalah seseorang yang sedang 2. Hasil gaji atau upah dari hasil bekerja
dalam proses menimba ilmu ataupun belajar terhadap orang lain atau bekerja sebagai
dan terdaftar sedang menjalani pendidikan pada pegawai negeri.
salah satu bentuk perguruan tinggi yang terdiri 3. Hasil dari bunga dari hasil membeli saham
dari akademik, politeknik, sekolah tinggi, atau mendapatkan bunga dari bank.
institut dan universitas (Hartaji, D A. 2012). 4. Hasil usaha sebagai wiraswasta dapat
Seorang mahasiswa bisa diartikan sebagai berupa menjadi pedagang, petani maupun
seorang individual yang sedang menimba ilmu pengusaha.
pada tingkatan perguruan tinggi negeri maupun Dari semua uraian di atas dapat diketahui
swasta ataupun lembaga yang lain yang setara bahwa pendapatan adalah suatu gaji, upah,

tunjangan, baik kesehatan maupun pensiunan clustering dan non-hierarchical data

yang diterima selama kurun waktu tertentu yang clustering. Algoritma k-means merupakan
diperoleh dari imbalan jasa dari suatu bagian dari metode non-hierarchical data
perusahaan. clustering.
2.4 Clustering 2.5 Algoritma K-Means

Clustering pada suatu data pada dasarnya Algoritma k-means adalah bagian dari
adalah suatu tahapan untuk menggolongkan metode non-hierarchical data clustering yang
suatu himpunan data yang atribut kelas belum bertujuan untuk membagi-bagi data ke dalam
dideskripsikan, berdasarkan kosepnya prinsip bentuk satu atau lebih kelompok. Metode ini
clustering adalah untuk memaksimalkan dan membagi-bagi data ke dalam kelompok dengan
meminimalkan kemiripan intra kelas. Misalnya, pemahaman setiap data yang mempunyai
ada suatu himpunan obyek, langkah pertama karakteristik yang sama dikelompokkan ke
dapat di klasterisasi menjadi beberapa dalam satu kelompok yang sama dan begitu
himpunan kelas kemudian menjadi sebuah pula terhadap setiap data yang sifat
himpunan beraturan sehingga dapat diturunkan karakteristiknya berbeda akan dikelompokkan
berdasarkan klasifikasi tertentu. ke dalam kelompok yang lain.
Cluster dapat juga diartikan sebagai Data clustering yang menggunakan metode
kelompok atau himpunan atau bagian atau k-means ini secara umum dilakukan dengan
golongan. Oleh hal itu analisa clustering pada algoritma dasar sebagai berikut:
dasarnya akan menghasilkan sejumlah cluster 1. Menentukan jumlah cluster.
(kelompok / golongan / himpunan). Sebelum 2. Mengasumsikan pusat cluster.
melakukan analisa perlu diterapkan 3. Menghitung jarak objek pada centroid.
pemahaman bahwa suatu himpunan data 4. Mengalokasikan objek dengan patokan
tertentu sebenarnya memiliki kemiripan di jarak terkecil.
antara anggotanya tersebut. Oleh karena itu, 5. Menghitung titik pusat baru.
setiap anggota-anggota yang memiliki 6. Menghitung kembali jarak objek pada
kemiripan karasteristik dapat untuk centroid sampai objek tidak perpindah-
dikelompokkan di dalam satu atau lebih dari pindah cluster.
suatu kelompok (Santoso, B. 2007).
2.5.1 Perkembangan Penerapan K-Means
Analisa clustering adalah salah satu dari
teknik multivariat metode interdependensi Perkembangan metode k-means meliputi:
(saling ketergantungan). Oleh sebab itu dalam 1. Metode distance space digunakan sebagai
analisa clustering antara variabel bebas perhitungan jarak antara suatu data dengan
(independent variable) dan variabel terikat centroid.
(dependent variable) tidak ada pembedaan satu Metode distance space telah
dengan yang lain (Nuningsih, S. 2010). Analisa diimplementasikan dalam menghitung
clustering merupakan suatu proses yang jarak (distance) antara suatu data dengan
digunakan sebagai metode penggabungan titik pusat. termasuk di antaranya L1 Norm
observasi ke dalam kelompok, sehingga : (Manhattan distance), L2 Norm (Euclidean
a. Setiap himpunan homogen akan memiliki distance) dan Lp (Minkowski distance).
karakteristik tertentu. Dengan demikian Penghitungan jarak di antara dua titik
observasi di dalam setiap kelompok sama
𝑥1 dan 𝑥2 pada manhattan distance space
dengan observasi lain di dalam satu
adalah sebagai berikut:
kelompok yang sama.
b. Setiap himpunan seharusnya berbeda dari 𝐷𝑖1 (𝑥2 , 𝑥1 ) = ||𝑥1 − 𝑥2 ||1
himpunan lain. Dengan demikian observasi ⍴
dalam himpunan satu seharusnya berbeda =∑ |𝑥2𝑗 − 𝑥1𝑗 | (1)
dari observasi dalam himpunan lain. 𝑗=1
Data clustering merupakan bagian dari dimana:
metode data mining yang mempunyai sifat tidak 𝐷𝑖1 : jarak data i pertama
berarahan (unsupervised). Dalam
𝑥1 : nilai data pertama
pengelompokan data ada dua jenis metode yang
𝑥2 : nilai data kedua
sering digunakan yaitu hierarchical data
p : dimensi data

| . | : nilai absolut 2.6 Silhouette Coefficient

Sedangkan untuk perhitungan jarak di Metode silhouette coefficient berfungsi
antara dua titik 𝑥1 dan 𝑥2 pada L2 untuk menguji kualitas dari cluster yang
Euclidean distance space, adalah sebagai dihasilkan serta sebagai metode untuk
berikut: pengesahan suatu cluster yang menggabungkan
antara metode cohesion dan metode separation.
𝐷𝑖1 (𝑥2 , 𝑥1 ) = ||𝑥1 − 𝑥2 ||1 Untuk perhitungan nilai silhoutte coefisient
dibutuhkan nilai jarak antar objek dengan
⍴ 2 menggunakan metode euclidean distance.
= √∑ (𝑋2𝑗 − 𝑋1𝑗 ) (2) Tahapan-tahapan dalam menentukan nilai
𝑗=1
silhoutte coeffisien adalah sebagai berikut :
dimana: 1. Pada setiap objek 𝑖 dihitung nilai rata-rata
𝐷𝑖1 : jarak data i pertama titik satu dengan semua objek yang berada
𝑥1 : nilai data pertama dalam satu cluster. Maka akan diperoleh
𝑥2 : nilai data kedua nilai rata-rata yang disebut dengan ai .
p : dimensi data 2. Pada setiap objek 𝑖 dihitung nilai minimal
|.| : nilai absolut jarak rata-rata dari titik satu ke titik yang
lain yang berbeda cluster. Maka akan
Dari beberapa jenis metode pengukuran diperoleh nilai rata-rata minimum yang
jarak metode Euclidean sering disebut dengan bi .
dipergunakan karena dalam perhitungan 3. Kemudian setelah semua nilai diketahui
pada metode tersebut jarak terpendek antara maka nilai silhoutte coefisien dapat
dua titik yang diperhitungkan, sedangkan ditentukan dengan menggunakan rumus
untuk metode pengukuran jarak dengan sebagai berikut:
menggunakan metode manhattan sering 𝑏 −𝑎
digunakan karena kemampuannya dalam Si = max 𝑖{𝑎 −𝑏
𝑖
}
(4)
𝑖 𝑖
mendeteksi keberadaan objek yang
memiliki karakteristik yang unik dengan dimana :
lebih baik. Si : nilai silhoutte coefisien.
𝑎𝑖 : rata-rata jarak titik satu dengan
2. Metode pengelomokan data kembali ke
semua data yang berada dalam satu
dalam setiap kelompok.
cluster.
Pada dasarnya terdapat dua cara 𝑏𝑖 : minimal jarak rata-rata dari titik satu
pengelompokan data kembali ke dalam ke titik yang lain yang berbeda
masing-masing kelompok pada saat proses cluster.
iterasi clustering. Cara tersebut adalah Hasil perhitungan nilai silhoutte coeffisien
dengan menggunakan metode hard k- memiliki range antara -1 hingga 1. Hasil dapat
means dan fuzzy k-means. Perbedaan kedua dikatakan baik apabila bernilai positif, hal ini
metode ini adalah terletak pada asumsi yang berarti titik sudah berada di dalam cluster yang
digunakan sebagai dasar tepat. Sedangkan jika nilainya negative ini
pendistribusiannya. Pengalokasian data menandakan terjadinya overlapping sehingga
dalam metode hard k-means didasarkan titik berada di antara dua cluster. Nilai silhoutte
pada perbandingan jarak antar data dan titik berdasarkan teori Kaufman dan Rousseeuw :
pusat pada setiap kelompok yang ada. Data 1. Strong Stucture
didistribusikan berulang-ulang secara tegas
ke dalam kelompok yang memiliki titik 0,7 < 𝑆𝐶 ≤ 1 (5)
pusat terdekat dengan data tersebut. 2. Medium Structure
Pengalokasian data pada setiap kelompok
dapat dirumuskan menjadi: 0,5 < 𝑆𝐶 ≤ 0,7 (6)
𝑎𝑖𝑘 = {10 d = min{D(𝑥𝑘 , V𝑖 ) (3) 3. Weak Structure
dimana: 0,25 < 𝑆𝐶 ≤ 0,5 (7)

𝑎𝑖𝑘 : Keanggotaan data ke-k ke 4. Nostructure
kelompok ke-i
𝑆𝐶 ≤ 0,25 (8)
V𝑖 : Nilai titik pusat kelompok ke-i

3. METODOLOGI d. Mengalokasikan objek dengan patokan

jarak terkecil.
Metodologi penelitian ini membahas
e. Menghitung titik pusat baru.
tentang metode dan alur penelitian yang
f. Menghitung kembali jarak objek pada
diterapkan dan yang menjadi dasar pada
centroid sampai objek tidak perpindah-
tahapan implementasi dan pengujian sistem.
pindah cluster.
Berikut dijelaskan mengenai uraian tentang
penelitian dalam bentuk diagram alir seperti
3.4 Evaluasi
ditunjukkan pada Gambar 1.
Tahap evaluasi ini menunjukkan ketepatan
Mulai
sebuah pengelompokkan, seberapa baik proses
pengelompokkan dan kualitas kelompok yang
Pengumpulan Data
terbentuk. Terdapat beberapa macam ukuran
Cleaning data &
ketepatan untuk mengetahui kualitas suatu
Praproses
Konversi Data
pengelompokkan. Salah satu ukuran ketepatan
yang dapat digunakan dalam menentukan
Clustering (Algoritma K-Means)
ketepatan pengelompokkan deret waktu adalah
dengan metode silhouette coefficient.
Silhouette Coefficient Evaluasi
4. IMPLEMENTASI
Selesai
Gambar 1. Diagram Alir Penelitian 4.1 Spesifikasi Software & Hardware

Kriteria software atau perangkat lunak yang
3.1 Pengumpulan Data digunakan untuk mengimplementasikan
Data yang dibutuhkan untuk penelitian algoritma k-means ditunjukkan pada Tabel 1.
yaitu data mahasiswa dan data dasar. Untuk Tabel 1. Spesifikasi Software
data mahasiswa menggunakan data mahasiswa
tahun masuk ajaran 2012 selama lima semester Nama Software Spesifikasi
dengan jumlah data sebanyak 90. Windows 7 Professional
Sistem Operasi
Sembilan puluh data mahasiswa ini terdiri 32-bit
dari data dasar dan data akademik, dimana Bahasa
Java
kedua jenis data ini akan menjadi fitur untuk Pemrograman
proses pengklasifikasian kinerja akademik Tools NetBeans IDE 7.3.1
mahasiswa. Server XAMPP 2.5
DBMS MySQL
3.2 Praproses Kriteria hardware atau perangkat keras
Pada tahapan ini untuk mendapatkan suatu yang digunakan untuk mengimplementasikan
data yang baik maka dilakukan tahapan seleksi algoritma k-means ditunjukkan pada Tabel 2.
data. Seleksi data yang dilakukan yaitu merubah Tabel 2. Spesifikasi Hardware
beberapa data yang bertujuan memudahkan
pemahaman dengan mengacu pada kesetabilan Nama
Spesifikasi
data, data yang hilang dan pengulangan pada Hardware
data. Sedangkan data nominal dirubah kedalam Intel® Core™ i3-2348M (2.3ghz,
Processor
bentuk angka dengan beberapa tahapan supaya 3MB L3 cache)
dapat diolah. Memory RAM 2 GB
Hardisk 300 GB
3.3 Clustering (Algoritma K-Means) Display Intel® HD Graphics 3000
Berikut adalah alur tahapan dari metode 4.2 Implementasi Algoritma

Algoritma k-means dalam menentukan
klasterisasi kinerja mahasiswa yang terbagi atas Implementasi algoritma yang digunakan
beberapa tahapan, yaitu : dalam penentuan klasterisasi kinerja akademik
a. Menentukan jumlah cluster. mahasiswa, yang meliputi hal berikut :
b. Mengasumsikan pusat cluster.
c. Menghitung jarak objek pada centroid.

a. Implementasi Algoritma Proses clustering dilakukan. Didalam halaman ini

Pengolahan Data terdapat fitur form input jumlah cluster, fitur
b. Implementasi Algoritma K-Means tabel yang menampilkan jumlah titik pusat
c. Implementasi Algoritma Proses Clustering beserta data titik pusat tersebut dan fitur
d. Implementasi Algoritma Proses Pengujian tampilan hasil proses clustering. Pada halaman
ini terdapat 2 tombol, yaitu tombol proses yang
4.3 Implementasi Antarmuka berfungsi sebagai tombol eksekusi perhitungan
Implementasi antarmuka sistem mengacu dan tombol clear yang berfungsi menghapus
pada perancangan yang telah dilakukan pada atau membersihkan field form input jumlah
bab sebelumnya. Tampilan antarmuka sistem cluster. Berikut adalah implementasi dari
yang diimplementasikan meliputi tampilan antarmuka halaman Proses Clustering seperti
halaman home, halaman algoritma, halaman yang ditunjukkan pada Gambar 4.
proses clustering, dan halaman proses
pengujian.
4.3.1 Halaman Home
Antarmuka halaman home merupakan antar
muka yang menampilkan data mahasiswa
sekaligus pengolahan data terhadap data
mahasiswa. Berikut adalah implementasi dari
antarmuka halaman Home seperti yang
ditunjukkan pada Gambar 2. Gambar 4. Implementasi Halaman Proses
Clustering
4.3.4 Halaman Proses Pengujian
Antarmuka halaman proses Pengujian
merupakan halaman dimana pemprosesan
Pengujian dilakukan. Didalam halaman ini
terdapat fitur form input jumlah cluster dan fitur
tabel hasil pengujian terhadap jumlah cluster
dengan nilai silhouette. Berikut adalah
implementasi dari antarmuka halaman Proses
Gambar 2. Implementasi Halaman Home
Pengujian seperti ditunjukkan pada Gambar 5.
4.3.2 Halaman Algoritma
Antarmuka halaman algoritma merupakan
antar muka yang menampilkan diagram alir
algoritma k-means. Berikut adalah
implementasi dari antarmuka halaman
algoritma seperti yang ditunjukkan pada
Gambar 3.
Gambar 5. Implementasi Halaman Proses

Pengujian
5 PENGUJIAN DAN ANALISIS
5.1 Pengujian
Pengujian dilakukan terhadap semua data
Gambar 3. Implementasi Halaman Algoritma mahasiswa dengan memasukkan beberapa titik
pusat yang kemudian dihitung nilai silhouette
4.3.3 Halaman Proses Clustering coefficien dari setiap titik pusat yang
Antarmuka halaman proses clustering dimasukkan tersebut. Berikut adalah tabel
merupakan halaman dimana pemprosesan proses pengujian terhadap data mahasiswa

dengan memasukkan tujuh cluster yang Cluster 1 terdiri dari 21 mahasiswa, dengan
berbeda seperti yang ditunjukkan pada Tabel 3. deskripsi sebagai berikut :
Tabel 3. Hasil Pengujian
a. Jalur masuk perguruan tinggi :
1) Minat dan kemampuan : 9
Jumlah Cluster Silhouette Coefficient mahasiswa
3 0,108690751 2) UB IV : 7 mahasiswa
4 -0,06494322 3) Jalur Prestasi Non Akademik : 5
5 -0,079308 mahasiswa
6 -0,08930547 b. Pendapatan orang tua :
7 -0,06812677 1) ≤1jt : 2 mhs
8 -0,07658779 2) >1jt s/d ≤2jt : 2 mhs
9 -0,10394574 3) >2jt s/d ≤3jt : 3 mhs
Dari tabel data hasil pengujian diatas 4) >3t s/d ≤4jt : 2 mhs
dapat dipetakan menjadi grafik hasil pengujian 5) >4jt s/d ≤5jt : 2 mhs
seperti ditunjukkan pada gambar 6. 6) >6jt s/d ≤7jt : 2 mhs
7) >7jt s/d ≤8jt : 2 mhs
8) >8jt s/d ≤9jt : 1 mhs
Grafik Hasil 9) >10jt : 5 mhs
c. Dengan rata-rata nilai IPK : 2.731
Pengujian 2. Pada hasil perhitungan di cluster 2, terlihat
0,10869
- - - - - - bahwa karakteristik mahasiswa pada cluster
0751
0,06494
0,07930 0,06812
0,08930 0,07658
0,10394 2 tidak ada jalur masuk perguruan tinggi
3 32174 5 6 7 8 9 yang mendominasi.
8003 547 6768 7792 5736
Cluster 2 terdiri dari 7 mahasiswa, dengan
Nilai Si deskripsi sebagai berikut :
1) Kemitraan Instansi : 2 mhs
Gambar 6. Grafik Hasil Pengujian
2) Kemitraan Daerah : 2 mhs
3) Alih Program : 2 mhs
5.2 Analisis
4) Program Khusus Penyandang
Analisa yang dilakuan adalah dengan Disabilitas : 1 mhs
memilih salah satu dari ketujuh inputan yang b. Dari pendapatan orang tua :
dimasukkan tersebut dengan melihat nilai 1) ≤1jt : 1 mhs
silhouette coefficien yang terbaik. Nilai 2) >1jt s/d ≤2jt : 1 mhs
silhoutte dapat dikatakan baik apabila bernilai 3) >2jt s/d ≤3jt : 1 mhs
positif, hal ini berarti titik sudah berada di 4) >3t s/d ≤4jt : 1 mhs
dalam cluster yang tepat. Sedangkan jika 5) >10jt : 3 mhs
nilainya negative ini menandakan terjadinya c. Dengan rata-rata nilai IPK : 2.8775
overlapping sehingga titik berada di antara dua 3. Pada hasil perhitungan di cluster 3, terlihat
cluster. bahwa karakteristik mahasiswa pada cluster
Pada pengujian diatas bisa dilihat dan 3 terdiri dari mahasiswa yang masuk
diamati bahwa dari semua jumlah cluster yang melalui jalur Reguler dan Jalur Prestasi
dimasukkan untuk cluster yang berjumlah 3 Akademik.
(tiga) memiliki nilai silhouette coefficien yang
Cluster 3 terdiri dari 40 mahasiswa, dengan
paling mendekati nilai Si = 1, yaitu dengan nilai
deskripsi sebagai berikut :
0,108690751.
Pada saat cluster terbagi menjadi 3 titik
1) Jalur Prestasi Akademik: 20 mhs
pusat diketahui bahawa:
2) Reguler : 20 mhs
1. Pada hasil perhitungan di cluster 1, terlihat b. Dari pendapatan orang tua :
bahwa karakteristik mahasiswa pada cluster 1) ≤1jt : 8 mhs
1 didominasi oleh mahasiswa dengan jalur 2) >1jt s/d ≤2jt : 5 mhs
masuk perguruan tinggi melalui Minat dan 3) >2jt s/d ≤3jt : 6 mhs
Kemampuan. 4) >3t s/d ≤4jt : 4 mhs
5) >4jt s/d ≤5jt : 4 mhs

6) >5jt s/d ≤6jt : 1 mhs Santoso, Budi. 2007. Data Mining: Teknik
7) >6jt s/d ≤7jt : 3 mhs Pemanfaatan Data untuk Keperluan
8) >7jt s/d ≤8jt : 3 mhs Bisnis. Graha Ilmu, Yogyakarta.
9) >8jt s/d ≤9jt : 1 mhs
Suyanto. 2000. IPS Ekonomi I. Gelora Aksara
10) >9jt s/d ≤10jt : 2 mhs
Pratama. Jakarta.
11) >10jt : 3 mhs
c. Dengan rata-rata nilai IPK : 3.471 Tiwari, M. Singh, R. Vimal, N. 2013. An
Empirical Study of Data Mining
6 KESIMPULAN Techniques for Predicting Student
Performance in Higher Education,
Kesimpulan yang dapat diambil dari
IJCSMC, Vol. 2, Issue 2.
penelitian tentang implementasi algoritma k-
means dalam menentukan klasterisasi kinerja Yuliana, Sudremi. 2007. Pengetahuan Sosial
akademik mahasiswa adalah sebagai berikut: Ekonomi Kelas X. BumiAksara. Jakarta.
1. Dari hasil 7 kali pengujian terhadap jumlah
Yusuf, S. 2012. Psikologi Perkembangan Anak
titik pusat dengan nilai 3, 4, 5, 6, 7, 8 dan 9
dan Remaja. Remaja Rosdakarya.
titik pusat, yang berjumlah 3 memiliki nilai
Bandung.
silhouette coefficien yang paling mendekati
nilai Si = 1, yaitu dengan nilai 0,108690751.
2. Setelah proses pengolahan data, hasil
clustering menunjukkan bahwa pendapatan
orang tua tidak mempengaruhi tingkat
kinerja akademik mahasiswa.
3. Nilai akademis mahasiswa yang masuk
perguruan tinggi melalui jalur reguler dan
jalur prestasi akademik mempunyai nilai
IPK rata-rata tertinggi
DAFTAR PUSTAKA
Chuchra, Rimmy. 2012, Use of Data Mining
Techniques for The Evaluation of
Student Performance : A Case Study,
International Journal of Computer
Science and Management Research, Vol
1.
Han, Jiawei; & Kamber, Micheline. 2001. Data
Mining Concepts and Techniques Second
Edition. San Francisco: Morgan
Kauffman
Hartaji, Damar Adi. 2012. Motivasi Berprestasi
Pada Mahasiswa yang Berkuliah Dengan
Jurusan Pilihan Orang tua. Fakultas
Psikologi Universitas Gunadarma.
Nuningsih, S. 2010. K-Means Clustering (Studi
Kasus Pada Data Pengujian Kualitas
Susu di Koperasi Peternakan Bandung
Selatan. Skripsi FPMIPA UPI, Bandung.
Ong, Johan Oscar. 2013. Implementasi
Algoritma K-Means Clustering Untuk
Menentukan Strategi Marketing
President University(12):10-20.

Implementasi Algoritma K-Means Untuk Klasterisasi Kinerja Akademik Mahasiswa

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Implementasi Algoritma K-Means Untuk Klasterisasi Kinerja Akademik Mahasiswa

Diunggah oleh

Hak Cipta:

Format Tersedia

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 2, No. 6, Juni 2018, hlm. 2243-2251 http://j-ptiik.ub.ac.id

Implementasi Algoritma K-Means untuk Klasterisasi Kinerja Akademik

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya

mulai dari bidang industri, kesehatan, ekonomi,

Fakultas Ilmu Komputer

Fakultas Ilmu Komputer, Universitas Brawijaya

akademik mahasiswa berdasarkan latar dengan perguruan tinggi. Seorang mahasiswa

Fakultas Ilmu Komputer, Universitas Brawijaya

tunjangan, baik kesehatan maupun pensiunan clustering dan non-hierarchical data

2.4 Clustering 2.5 Algoritma K-Means

Fakultas Ilmu Komputer, Universitas Brawijaya

| . | : nilai absolut 2.6 Silhouette Coefficient

𝑎𝑖𝑘 = {10 d = min{D(𝑥𝑘 , V𝑖 ) (3) 3. Weak Structure

dimana: 0,25 < 𝑆𝐶 ≤ 0,5 (7)

Fakultas Ilmu Komputer, Universitas Brawijaya

3. METODOLOGI d. Mengalokasikan objek dengan patokan

Gambar 1. Diagram Alir Penelitian 4.1 Spesifikasi Software & Hardware

Berikut adalah alur tahapan dari metode 4.2 Implementasi Algoritma

Fakultas Ilmu Komputer, Universitas Brawijaya

a. Implementasi Algoritma Proses clustering dilakukan. Didalam halaman ini

Gambar 5. Implementasi Halaman Proses

5 PENGUJIAN DAN ANALISIS

Fakultas Ilmu Komputer, Universitas Brawijaya

Fakultas Ilmu Komputer, Universitas Brawijaya

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai