Paper M0508059

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penerima Beasiswa
Noor Fitriana Hastuti Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta fitriana.noor@gmail.com Ristu Saptono Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta r_saptono@uns.ac.id Esti Suryani Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta suryapalapa@yahoo.com
ABSTRAK
Pengelompokkan data mahasiswa berdasarkan kriteria Indeks Prestasi Kumulatif (IPK), penghasilan total orang tua, dan jumlah tanggungan keluarga dapat membantu dalam proses penerimaan beasiswa. Metode yang bisa digunakan untuk pengelompokkan data mahasiswa ini adalah K-Means Clustering. Metode K-Means Clustering berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama. Data mahasiswa dikelompokkan menjadi tiga cluster yaitu menerima, dipertimbangkan, dan tidak berhak menerima beasiswa. Kemudian setiap cluster diklasifikasikan berdasarkan kriteria mana yang lebih diprioritaskan. Cluster dengan nilai terbesar pada centroid akhir merupakan cluster yang direkomendasikan menerima beasiswa, sedangkan cluster dengan nilai terkecil pada centroid akhir merupakan cluster yang tidak berhak menerima beasiswa. Pengujian sistem dilakukan sebanyak 40 kali percobaan terhadap 48 data mahasiswa untuk mendapatkan presisi hasil implementasi metode K-Means Clustering. Nilai presisi dihitung dengan Error Presisi, dengan membandingkan data hasil clustering dari 40 percobaan. Hasil perhitungan Error Presisi pada hasil klasifikasi berdasarkan IPK adalah 0,118 dan berdasarkan penghasilan orang tua adalah 0,076. Nilai Error Presisi yang rendah menunjukkan bahwa nilai presisinya tinggi. Nilai presisi tinggi menunjukkan ketetapan data pada setiap percobaan dengan menggunakan tiga cluster juga tinggi. Kata Kunci: Beasiswa, Centroid, Clustering, Indeks Prestasi Kumulatif, K-Means, Penghasilan Total Orang Tua
1. PENDAHULUAN
Beasiswa adalah pemberian berupa bantuan keuangan yang diberikan kepada perorangan yang bertujuan untuk digunakan demi keberlangsungan pendidikan yang ditempuh [1]. Pemberian beasiswa kepada mahasiswa dilakukan secara selektif sesuai dengan jenis beasiswa yang diadakan. Universitas Sebelas Maret menyediakan beberapa program beasiswa, sebagai contoh yaitu beasiswa Peningkatan Prestasi Akademik (PPA), Beasiswa Bantuan Belajar Mahasiswa (BBM), Beasiswa Astra, dan lain sebagainya. Indeks Prestasi Kumulatif (IPK), jumlah tanggungan keluarga, penghasilan total orang tua (penghasilan ayah ditambah penghasilan ibu), pajak listrik, dan pekerjaan orang tua menjadi kriteria dalam proses rekruitmen beasiswa. Proses seleksi penerimaan beasiswa secara manual yaitu dengan menginputkan satu persatu data mahasiswa ke dalam file excel kemudian melakukan sorting data mahasiswa seringkali menimbulkan beberapa permasalahan, antara lain membutuhkan
waktu yang lama dan ketelitian yang tinggi. Selain itu, transparansi serta ketidakjelasan metodologi yang digunakan dalam proses komputasi penerimaan beasiswa juga menjadi salah satu permasalahan. Salah satu cara untuk mempermudah penentuan penerima beasiswa adalah dengan mengelompokkan data mahasiswa berdasarkan perhitungan validasi cluster optimal, yaitu 3 kelompok antara lain mahasiswa yang direkomendasikan menerima beasiswa, dipertimbangakan, dan tidak berhak menerima beasiswa. Nanjaya [2] pada penelitian sebelumnya, melakukan pembahasan mengenai penggunaan metode K-means pada suatu clustering data non-numerik (categorical) untuk studi kasus biro jodoh. Dari penelitian tersebut didapatkan bahwa clustering dapat dilakukan pada atribut-atribut kategorikal yang ditransformasikan terlebih dahulu ke dalam bentuk numerik. Penelitian selanjutnya mengenai perbandingan performa antara algoritma K-Means Clustering dengan algoritma Fuzzy CMeans Clustering [3]. Dalam penelitian ini, kedua algoritma tersebut diimplementasikan dan dianalisis kinerjanya berdasarkan pada kualitas hasil clustering dan waktu eksekusi. Kedua algoritma menghasilkan hasil clustering yang hampir sama, namun algoritma K-Means Clustering memiliki waktu komputasi yang lebih unggul, dengan kata lain kinerja dari algoritma KMeans lebih baik dibandingkan dengan Fuzzy C-Means. Berdasarkan penelitian tersebut, dalam penelitian ini akan dibahas mengenai penerapan metode K-Means pada clustering data categorical untuk kasus penentuan penerima beasiswa. Yang menjadi rumusan masalah disini adalah bagaimana mengelompokkan data mahasiswa untuk mendukung keputusan penetuan penerima beasiswa dengan metode K-Means Clustering. Pengelompokkan data mahasiswa dengan K-Means Clustering dibatasi oleh hal-hal sebagai berikut: 1. Kriteria yang digunakan dalam clustering antara lain IPK, jumlah tanggungan keluarga, dan penghasilan total orang tua. 2. Sistem bersifat general (tidak mengacu pada satu jenis beasiswa) dan hanya melakukan clustering data mahasiswa berdasarkan kriteria-kriteria yang telah disebutkan pada poin pertama, sedangkan keputusan penerima beasiswa tergantung pada salah satu kriteria yang lebih diprioritaskan pada beasiswa tersebut, yaitu salah satu dari prioritas kriteria IPK dan prioritas kriteria penghasilan total orang tua dibagi dengan jumlah tanggungan keluarga. 3. Jumlah cluster yang akan digunakan pada kasus ini adalah tiga (3) berdasarkan perhitungan validasi cluster optimal, yaitu mahasiswa yang direkomendasikan menerima, dipertimbangkan, dan tidak berhak menerima beasiswa.
4. Quota penerima beasiswa dan pendanaan tidak termasuk dalam pengklasteran. Tujuan yang ingin dicapai dalam penelitian ini adalah mengelompokan data mahasiswa untuk mendukung keputusan penetuan penerima beasiswa dengan metode K-Means Clustering.
Start
Banyaknya cluster k
2. DASAR TEORI
2.1 Clustering Clustering adalah mengelompokkan item data ke dalam sejumlah kecil grup sedemikian sehingga masing-masing grup mempunyai sesuatu persamaan yang esensial [4]. 2.2 K-Means K-Means merupakan salah satu metode yang melakukan pengelompokan data dengan sistem partisi. Metode K-Means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya [5]. Menurut Nuningsih [6], Metode K-Means memerlukan 3 komponen, yaitu: 1. Jumlah cluster K-Means merupakan bagian dari metode non-hirarki sehingga dalam metode ini jumlah k harus ditentukan terlebih dahulu. Tidak terdapat aturan khusus dalam menentukan jumlah cluster k, terkadang jumlah cluster yang diiinginkan tergantung pada subyektif seseorang. 2. Cluster awal Cluster awal yang dipilih berkaitan dengan penentuan pusat cluster awal (centroid awal). Dalam hal ini, terdapat beberapa pendapat dalam memilih cluster awal untuk metode K-Means sebagai berikut: a. Berdasarkan Hartigan [7], pemilihan cluster awal dapat ditentukan berdasarkan interval dari jumlah setiap observasi b. Berdasarkan Rencher [8], pemilihan cluster awal dapat ditentukan melalui pendekatan salah satu metode hirarki. c. Berdasarkan Teknomo [9], pemilihan cluster awal dapat secara acak dari semua observasi. Oleh karena adanya pemilihan cluster awal yang berbeda ini maka kemungkinan besar solusi cluster yang dihasilkan akan berbeda pula. 3. Pengukuran jarak Metode K-means dimulai dengan pembentukan prototype cluster di awal kemudian secara iteratif prototype cluster ini diperbaiki hingga konvergen (tidak terjadi perubahan yang signifikan pada prototype cluster). Perubahan ini diukur dengan ukuran jarak Euclidean. Ukuran jarak ini digunakan untuk menempatkan observasi ke dalam cluster berdasarkan centroid terdekat. Diagram alir dari algoritma K-Means ditunjukkan pada Gambar 1.
Tentukan pusat
Hitung jarak obyek ke pusat
Kelompokkan obyek berdasarkan jarak minimum
Ada obyek yang harus dipindah?
Ya
Tidak
End
Gambar 1. Flowchart algoritma K-Means Secara lebih detail, algoritma K-Means adalah sebagai berikut [10]: 1. Menentukan k sebagai jumlah cluster yang ingin dibentuk. 2. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak k. 3. Menghitung jarak setiap data input terhadap masing-masing centroid menggunakan rumus jarak Eucledian (Eucledian Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance: d(xi , j) = ( ) .......... (1) dimana: xi : data kriteria j : centroid pada cluster ke-j Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil). Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan dengan menggunakan rumus: ) ( .......... (2) dimana: j (t+1) : centroid baru pada iterasi ke (t+1), Nsj : banyak data pada cluster Sj Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster tidak ada yang berubah. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (j) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data.
4. 5.
6. 7.
2.2.1
Jumlah Cluster Optimal Jumlah cluster optimal ditentukan dengan validitas indeks cluster melalui perbandingan nilai indeks pada berbagai validity measure. Perhitungan nilai indeks dengan berbagai validity measure dilakukan dengan parameter yang telah ditentukan, yaitu: m = 2, = 10-3 dan c [2 ... 10]. Salah satu perhitungan validitas indeks yaitu menggunakan Xie and Beni Index (XB) dan Dunns Index (DI).
Sedangkan penentukan mahasiswa penerima beasiswa BBM sesuai dengan urutan prioritas sebagai berikut [8]: 1. Mahasiswa yang (orang tuanya) paling tidak mampu. 2. Mahasiswa yang memiliki prestasi di kegiatan ko/ekstra kurikuler (olahraga, teknologi, seni/budaya tingkat internasional/dunia, regional/Asia/Asean dan nasional). 3. Mahasiswa yang mempunyai IPK paling tinggi. 4. Mahasiswa yang mempunyai SKS paling banyak (jumlah semester paling sedikit).
3. METODOLOGI PENELITIAN
Metodologi pada penelitian ini dapat dilihat pada Gambar 4. Gambar 2. Xie and Beni Index (XB)
Gambar 3. Dunn Index (DI) Hasil perhitungan validitas indeks menggunakan XB menunjukkan bahwa indeks mencapai nilai minimum pada c (jumlah cluster optimal) = 3 (Gambar 2). Sedangkan nilai Dunns Index mengalami perubahan signifikan dan mencapai nilai minimum di lembah pertama pada c = 3 (Gambar 3). Hal tesebut menunjukkan bahwa jumlah cluster optimal berada pada c = 3. 2.3 Beasiswa Beasiswa adalah pemberian berupa bantuan keuangan yang diberikan kepada perorangan yang bertujuan untuk digunakan demi keberlangsungan pendidikan yang ditempuh [1]. Pemberian beasiswa kepada mahasiswa dilakukan secara selektif sesuai dengan jenis beasiswa yang diadakan. Tujuan diselenggarakan beasiswa antara lain [11]: 1. Meningkatkan akses dan pemerataan kesempatan belajar di perguruan tinggi bagi rakyat Indonesia. 2. Mengurangi jumlah mahasiswa yang putus kuliah, karena tidak mampu membiayai pendidikan. 3. Meningkatkan prestasi dan motivasi mahasiswa, baik pada bidang akademik/kurikuler, ko-kurikuler, maupun ekstrakurikuler. Sasaran mahasiswa penerima beasiswa antara lain [11]: 1. Mahasiswa berprestasi (baik pada bidang akademik/kurikuler, ko-kurikuler maupun ekstra kurikuler). 2. Mahasiswa dengan prestasi minimal yang orang tua/walinya tidak mampu membiayai pendidikannya. Adapun urutan prioritas kriteria yang digunakan untuk penetapan mahasiswa penerima beasiswa adalah tidak sama untuk setiap jenis beasiswa. Sebagai contoh urutan prioritas kriteria penerima beasiswa PPA dan BBM adalah berbeda . Penentukan mahasiswa penerima beasiswa PPA sesuai dengan urutan prioritas sebagai berikut [8]: 1. Mahasiswa yang mempunyai IPK paling tinggi. 2. Mahasiswa yang mempunyai SKS paling banyak (jumlah semester paling sedikit) 3. Mahasiswa yang memiliki prestasi di kegiatan ko/ekstra kurikuler (olahraga, teknologi, seni/budaya tingkat internasional/dunia, regional/Asia/Asean dan nasional). 4. Mahasiswa yang (orang tuanya) paling tidak mampu.
Gambar 4. Metodologi penelitian 3.1 Pengumpulan Data Pengumpulan data digunakan untuk mengumpulkan datadata dan informasi-informasi yang diperlukan dalam pembuatan sistem pendukung keputusan. Pengumpulan data pada penelitian ini menggunakan metode pengumpulan data study literature dan telaah dokumen. a. Study Literature Study literature dilakukan dengan cara mencari bahan materi yang berhubungan dengan permasalahan, perancangan, metode K-Means Clustering, sistem pendukung keputusan dan beasiswa, guna mempermudah proses implementasi sistem. Pencarian materi dilakukan melalui pencarian di buku panduan dan internet. b. Telaah Dokumen Telaah dokumen adalah pengumpulan data dengan cara mengumpulkan dan mempelajari dokumen-dokumen yang didapatkan dari pihak Jurusan Informatika FMIPA UNS. Dari metode pengumpulan data ini diperoleh 48 data mahasiswa. 3.2 Pemodelan Data Proses clustering menggunakan data kriteria IPK dan PO (penghasilan total orang tua dibagi jumlah tanggungan keluarga). Oleh karena data IPK dan data PO memiliki perbedaan nilai yang cukup jauh, maka kriteria PO di kategorikan. Proses pengategorian adalah sebagai berikut: 1. Hitung mean (nilai rata-rata) dari seluruh data PO dengan rumus: Dengan: : mean
..........(3)
: hasil penjumlahan nilai PO n 2. : jumlah data mahasiswa

( )
6. 7.
Hitung standart deviasi dari seluruh data PO dengan rumus: S= Dengan: S x n : standart deviasi : nilai individu data PO mahasiswa : nilai rata-rata/mean : jumlah data mahasiswa Tabel 1. Pengategorian PO
Kategori Kategori 4 Kategori 3 Kategori 2 Kategori 1 Kualifikasi PO S S < PO < PO < PO Kodifikasi 4 3 2 1
Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster tidak ada yang berubah. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (j) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data mahasiswa.
..........(4) 3.4 Klasifikasi Hasil Clustering Setelah proses clustering, tahap selanjutnya adalah proses klasifikasi. Di sini akan ditentukan cluster mana yang lebih berhak untuk menerima beasiswa. 3.5 Implementasi Sistem Tahap implementasi bertujuan menghasilkan prototype program yang sesuai dengan hasil perancangan yang telah ditentukan sebelumnya, yaitu penulisan kode program (coding) menggunakan lingkungan bahasa pemrograman PHP. Data yang digunakan akan disimpan dalam database. Debugging dilakukan untuk menguji aplikasi serta mencari error yang masih terdapat pada program untuk diperbaiki. Perangkat keras yang digunakan adalah perangkat komputer dengan spesifikasi: 1. Prosesor Intel Core(TM) i3-2330M CPU @ 2.20GHz 2.20GHz 32-bit operating system 2. VGA Intel HD Graphics 300 3. Memory 2 GB 4. Harddisk 500 GB 5. Monitor 14 Bahasa pemrograman yang digunakan adalah PHP. Sedangkan perangkat lunak yang digunakan satu paket dalam WamppServer versi 2.2, antara lain: 1. Web server Apache versi 2.2.21 2. PHP versi 5.3.10 3. Database server MySQL versi 5.5.20 4. Database manager phpMyAdmin 3.4.10.1 5. Browser yang digunakan dalah Google Chrome 3.6 Pengujian Clustering Pengujian dilakukan untuk mengetahui keakuratan yang dihasilkan dalam penerapan metode K-Means Clustering sebagai model untuk menentukan penerima beasiswa. Pengujian dilakukan terhadap presisi hasil cluster dengan data testing yang digunakan. Presisi adalah ukuran yang menunjukkan derajat kesesuaian antara hasil uji individual yang diukur melalui penyebaran hasil individual dari rata-rata secara berulang pada sampel-sampel yang diambil. Presisi dapat dihitung dengan rumus: | | .......... (7) Dengan ei : hasil data cluster yang berbeda n : jumlah percobaan/testing Percobaan/testing dilakukan sebanyak 40 kali. Nilai Error Presisi tergantung pada ketetapan data pada cluster untuk setiap percobaan. Kemudian dilakukan penentuan klasifikasi prioritas penerima beasiswa.
3.
Membuat kategori PO:
3.3 Proses Clustering Tahap ini akan diterapkan metode K-Means untuk mengelompokkan data. Hasil pengelompokkan ini kemudian akan digunakan untuk pertimbangan menentukan mahasiswa yang berhak menerima beasiswa. Adapun algorima K-Means Clustering pada penerimaan beasiswa adalah sebagai berikut: 1. Jumlah cluster yang dibentuk sebagai nilai k adalah tiga. 2. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak 3 dari data yang telah diinputkan. Centroid kriteria 1 adalah IPK dan centroid kriteria 2 adalah PO. 3. Menghitung jarak setiap data mahasiswa yang telah diinputkan terhadap masing-masing centroid menggunakan rumus jarak Eucledian Distance hingga ditemukan jarak paling dekat dari setiap data dengan centroid. Berikut adalah persamaan Eucledian Distance: d(xi , j) = ( )
2
) .......... (5)
4. 5.
dimana: xi : data mahasiswa j : centroid pada cluster ke-j xia : IPK mahasiswa xib : penghasilan total orang tua dibagi jumlah tanggungan keluarga ja : nilai kriteria 1 dari centroid pada cluster ke-j, merupakan nilai random dari inputan data IPK mahasiswa. jb : nilai kriteria 2 dari centroid pada cluster ke-j, merupakan nilai random dari inputan data penghasilan total orang tua dibagi jumlah tanggungan keluarga. Mengklasifikasikan setiap data mahasiswa berdasarkan kedekatannya dengan centroid (jarak terkecil). Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan dengan menggunakan rumus: ) ( .......... (6) dimana: j (t+1) Nsj
4. PEMBAHASAN
4.1 Pemodelan Data Sejumlah 48 data mahasiswa kemudian dikategorikan dengan terlebih dahulu menghitung mean dan standart deviasi PO
: centroid baru pada iterasi ke (t+1), : banyak data mahasiswa pada cluster Sj
(penghasilan total orang tua dibagi jumlah tanggungan keluarga). Berikut adalah hasil perhitungannya: Mean PO : 672870,141 Standart Deviasi PO : 484555,170 Pengategorian data PO berdasarkan Tabel 1 adalah sebagai berikut: Kategori 4 : PO 188314,971 Kategori 3 : 188314,971 < PO < 672870,141 Kategori 2 : 672870,141 PO < 1157425,311 Kategori 1 : PO 1157425,311 4.2 Proses Clustering Proses clustering dengan menggunakan metode K-Means akan dilakukan terhadap 48 sampel data mahasiswa. Hasil clustering akan diperoleh kelompok data mahasiswa yang akan digunakan untuk proses klasifikasi penentuan cluster (kelompok data) yang direkomendasikan menerima beasiswa. Adapun langkah-langkah proses clustering adalah sebagai berikut: 1. Mula-mula sistem akan mengambil pusat cluster (centroid) awal. Pusat cluster (centroid) awal yang digunakan untuk memulai proses clustering dengan metode K-Means diperoleh dengan pembangkitan secara random dari data yang telah diinputkan. Karena pusat cluster (centroid) awal dibangkitkan secara random, maka hasil centroid awal berubah setiap kali melakukan percobaan proses clustering. Hal ini akan menyebabkan setiap dilakukan proses clustering anggota cluster yang dihasilkan juga akan berbeda. Selain itu, ada kemungkinan centroid awal yang dihasilkan pusat jauh berbeda dengan cluster yang terbaik, sehingga kemungkinan akan terjadi proses iterasi yang banyak untuk mencapai konvergensinya. Pada pembahasan ini diambil contoh satu percobaan. Dari hasil pengambilan secara random, diperoleh centroid untuk masing-masing cluster. Centroid kriteria 1 adalah IPK dan centroid kriteria 2 adalah PO: C1 = (3.45, 1) C2 = (3.39, 2) C3 = (3.88, 3) 2. Kemudian akan dihitung jarak dari setiap data yang ada terhadap setiap pusat cluster awal. Jarak inilah yang akan menjadi penentu termasuk ke dalam cluster mana data tersebut. Misalkan untuk menghitung jarak data mahasiswa pertama (IPK 2,87; PO kategori 3) dan dengan pusat cluster pertama adalah : d11 = ( , ) ( ) = 2,084001 Jarak data mahasiswa pertama dengan pusat cluster kedua: d12 = ( , ) ( ) = 1,169767 Jarak data mahasiswa pertama dengan pusat cluster ketiga: d13 = ( , ) ( ) = 0,599219 Hasil perhitungan jarak awal pada iterasi-1 untuk contoh 25 data dapat dilihat pada Tabel 2.
Tabel 2. Hasil perhitungan jarak awal pada iterasi-1

NIM M0508041 M0509004 M0509007 M0509010 M0509019 M0509023 M0509025 M0509033 M0509040 M0509044 M0509048 M0509051 M0509069 M0509073 M0509081 M0510005 M0510011 M0510013 M0510014 M0510016 M0510017 M0510023 M0510024 M0510027 M0510030 C1 2,084001 2,034984 2,021744 3,023435 2,006854 2,002792 1,022702 3,010879 0,144286 3,000213 2,010552 2,044509 2,00758 1,000638 2,000737 2,004599 2,001379 3,001224 1,002157 1,000016 3,009134 0,065714 1,000638 3,011744 1,009167 C2 1,169767 1,075894 1,049019 2,039007 1,01732 1,008023 0,193077 2,019081 1,007545 2,00081 1,025424 1,078179 1,011648 0,056923 1,000547 1,012238 1,001408 2,002856 0,086923 0,026923 2,011318 1,003771 0,056923 2,020476 0,156923 C3 0,599219 0,436765 0,387103 0,740207 0,332661 0,322456 1,353801 0,700953 2,332238 0,680015 0,345138 0,598014 0,409851 1,32217 0,348352 0,326221 0,356539 0,678595 1,321506 1,323515 0,74782 2,321473 1,32217 0,703526 1,322603
3. Berdasarkan hasil perhitungan jarak pada Tabel 2, setiap data akan menjadi anggota suatu cluster yang memiliki jarak terdekat (hasil nilai terkecil) dari pusat clusternya. Misalkan untuk data mahasiswa pertama diperoleh hasil jarak terdekat dengan pusat cluster ketiga, maka data mahasiswa tersebut akan masuk menjadi anggota cluster ketiga. Perolehan hasil cluster untuk contoh 25 data dapat dilihat pada Tabel 3. Tabel 3. Hasil cluster iterasi-1
NIM M0508041 M0509004 M0509007 M0509010 M0509019 M0509023 M0509025 M0509033 M0509040 M0509044 M0509048 M0509051 M0509069 M0509073 M0509081 M0510005 M0510011 M0510013 M0510014 M0510016 M0510017 M0510023 M0510024 M0510027 M0510030 C1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 C2 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 1 1 0 0 1 0 1 C3 1 1 1 1 1 1 0 1 0 1 1 1 1 0 1 1 1 1 0 0 1 0 0 1 0
Keterangan: Angk 1 menun ukk n cluster dimana data tersebut berada, contoh: data mahasiswa M0508041 masuk pada cluster 3. 4. Hitung pusat cluster baru. Perhitugan pusat cluster baru ini dilakukan dengan menghitung nilai rata-rata masing-masing kriteria dari seluruh anggota yang menjadi anggota masingmasing cluster (dapat dilihat pada Tabel 3). Misalkan untuk cluster pertama, ada 7 data. Sehingga pusat cluster baru: , C11 = ,
C12 = Untuk cluster kedua ada 13 data, sehingga pusat cluster baru: , C21 = , C22 = Untuk cluster ketiga ada 28 data, sehingga pusat cluster baru: , C31 = , C32 = 3,321 5. Proses 2 sampai 4 akan terus berulang hingga posisi data sudah tidak mengalami perubahan dan nilai pusat cluster sama. Dalam percobaan kali ini, proses berhenti pada iterasi ke-2. Perbandingan antara centroid di dua iterasi terakhir dapat dilihat pada Tabel 4. Tabel 4. Hasil dua centroid akhir
Centroid c11 c12 Centroid c21 c22 Centroid c31 c32 Cluster 1 Iterasi 1 3,456 1 Cluster 2 Iterasi 1 3,477 2 Cluster 3 Iterasi 1 3,376 3,321 Iterasi 2 3,456 1 Iterasi 2 3,477 2 Iterasi 2 3,376 3,321
Hasil klasifikasi mahasiswa berdasarkan Tabel 5 untuk 25 data dapat dilihat pada Tabel 6. Tabel 6. Hasil klasifikasi mahasiswa
NIM M0508041 M0509004 M0509007 M0509010 M0509019 M0509023 M0509025 M0509033 M0509040 M0509044 M0509048 M0509051 M0509069 M0509073 M0509081 M0510005 M0510011 M0510013 M0510014 M0510016 M0510017 M0510023 M0510024 M0510027 M0510030 IPK 2,87 3,08 3,16 3,08 3,29 3,35 3,67 3,2 3,6 3,42 3,25 3,88 3,63 3,42 3,51 3,32 3,53 3,37 3,39 3,45 3,69 3,39 3,42 3,19 3,32 PO 250000 195.833.333 544100 187.500 200000 196250 1078589 166.666.666 1553350 160.000 225000 450000 400000 984050 218750 644280 463381.25 137.642.857 750000 1.000.000 163600 2021400 777880 187500 888975 Cluster 3 3 3 3 3 3 2 3 1 3 3 3 3 2 3 3 3 3 2 2 3 1 2 3 2 Prioritas IPK TM TM TM TM TM TM M TM DP TM TM TM TM M TM TM TM TM M M TM DP M TM M Prioritas PO M M M M M M DP M TM M M M M DP M M M M DP DP M TM DP M DP
Keterangan: c11: centroid krtieria 1 cluster 1 c12: centroid krtieria 2 cluster 1 c21: centroid krtieria 1 cluster 2 c22: centroid krtieria 2 cluster 2 c31: centroid krtieria 1 cluster 3 c32: centroid krtieria 2 cluster 3 4.3 Klasifikasi Hasil Clustering Proses klasifikasi memerlukan adanya suatu aturan untuk menentukan kelompok (cluster) mana yang berhak untuk menerima beasiswa. Dalam penelitian ini, sistem akan mengelompokkan mahasiswa menjadi tiga (3) cluster yaitu: 1. Cluster yang direkomendasikan menerima beasiswa 2. Cluster yang dipertimbangkan menerima beasiswa 3. Cluster yang tidak berhak menerima beasiswa Kemudian setiap cluster dibagi berdasarkan kriteria mana yang lebih diprioritaskan (berdasarkan IPK atau PO (penghasilan orang tua dibagi jumlah tanggungan keluarga)). Iterasi pada percobaan ini berhenti pada iterasi ke-2. Hasil akhir clustering yang diperoleh adalah: 1) Cluster pertama memiliki pusat cluster (3,456; 1) 2) Cluster kedua memiliki pusat cluster (3,477; 2) 3) Cluster ketiga memiliki pusat cluster (3,376; 3,321) Hasil klasifikasi clustering dapat dilihat pada Tabel 5. Tabel 5. Hasil klasifikasi
Dipertimbangkan Cluster 1 3,456 Dipertimbangkan Cluster 2 2 Prioritas IPK Dipertimbangkan Cluster 1 3,456 Prioritas PO Dipertimbangkan Cluster 2 2 Tidak Berhak Cluster Pertama 3,09 Tidak Berhak Cluster pertama 1
Keterangan: M : menerima DP : dipertimbangkan TM : tidak menerima 4.4 Pengujian Clustering Pengujian dilakukan untuk mengetahui keakuratan yang dihasilkan dalam penerapan metode K-Means Clustering sebagai model untuk menentukan penerima beasiswa. Pengujian dilakukan pada 48 data mahasiswa dengan pengukuran presisi pada 40 kali percobaan. Data mahasiswa yang digunakan sama tetapi dengan centroid awal berbeda akibat pembangkitan secara random. Dari 40 percobaan tersebut, diperoleh nilai minimum, maksimum, rata-rata, standart deviasi, dan Error Presisi. Perhitungan Errror Presisi dihitung dari hasil klasifikasi berdasarkan IPK dan berdasarkan PO. Hasil perhitungan Errror Presisi berdasarkan klasifikasi IPK adalah sebagai berikut: Min Error : 0 Max Error : 0,667 Standart Deviasi : 0,236 Error Presisi : 0,118 Hasil perhitungan Errror Presisi berdasarkan klasifikasi PO adalah sebagai berikut: Min Error : 0 Max Error : 0,667 Standart Deviasi : 0,170 Error Presisi : 0,076 Nilai Error Presisi pada hasil klasifikasi berdasarkan ipk adalah 0,118 dan nilai Error Presisi pada hasil klasifikasi berdasarkan penghasilan orang tua adalah 0,076. Nilai Error Presisi rendah, sehingga menunjukkan bahwa nilai presisinya tinggi. Nilai presisi yang tinggi menunjukkan ketetapan data pada setiap percobaan dengan menggunakan 3 cluster juga tinggi.
5. KESIMPULAN DAN SARAN

5.1 Kesimpulan Kesimpulan yang dapat diambil berdasarkan hasil pembahasan adalah: 1. Algortima K-Means Clustering dapat digunakan untuk mengelompokkan data mahasiswa sebagai pendukung keputusan penentuan penerimaan beasiswa. 2. Data mahasiswa dikelompokkan menjadi tiga cluster (menerima, dipertimbangkan, dan tidak berhak menerima beasiswa). Kemudian setiap cluster diklasifikasikan berdasarkan kriteria mana yang lebih diprioritaskan yaitu salah satu dari kriteria IPK dan penghasilan orang tua. Cluster dengan nilai terbesar pada centroid akhir merupakan cluster yang direkomendasikan menerima beasiswa, sedangkan cluster dengan nilai terkecil merupakan cluster yang tidak berhak menerima beasiswa. 3. Pengujian clustering dilakukan sebanyak 40 kali percobaan untuk mendapatkan nilai presisi hasil implementasi metode K-Means. Nilai Error Presisi pada hasil klasifikasi berdasarkan ipk adalah 0,118 dan nilai Error Presisi pada hasil klasifikasi berdasarkan penghasilan orang tua adalah 0,076. Nilai Error Presisi yang rendah menunjukkan bahwa nilai presisinya tinggi. Nilai presisi yang tinggi menunjukkan ketetapan data pada setiap percobaan dengan menggunakan 3 cluster juga tinggi. Namun demikian, clustering data mahasiswa berdasarkan klasifikasi IPK memiliki hasil yang tidak bagus (dapat dilihat pada Tabel 6, IPK tinggi seharusnya lebih berpeluang untuk menerima beasiswa), sehingga tidak dapat dipakai untuk mendukung keputusan penerimaan beasiswa dengan prioritas kriteria IPK. 5.2 Saran Saran yang dapat digunakan untuk pengembangan penelitian selanjutnya yaitu melakukan clustering dengan menambahkan kriteria lain dari Dikti yang tidak digunakan pada penelitian ini seperti jumlah sks dan prestasi ko/ekstra kurikuler.
6. DAFTAR PUSTAKA
[1]. Putranto, D. F. (2011). Implementasi Sistem Perekomendasian Penerima Beasiswa dengan Analytical Hierarchy Process. Skripsi. Institut Teknologi Sepuluh Nopember. Surabaya. [2]. Nanjaya, D. (2005). Clustering Data Non-Numerik dengan Pendekatan Algoritma K-Means dan Hamming Distance Studi Kasus Biro Jodoh. Jurnal Ilmiah Teknologi Informasi , 46-53. [3]. Santhanam, T, Velmurugan, T. (2010). Performance Evaluation of K-Means and Fuzzy C-Means Clustering Algorithms for Statistical Distributions of Input Data Points . European Journal of Scientific Research , 320330. [4]. Andayani, S. 2007. Pembentukan Cluster dalam Knowledge Discovery in Database dengan Algoritma KMeans. Seminar Nasional Matematika dan Pendidikan Matematika 2007. Universitas Negeri Yogyakarta. Yogyakarta. [5]. Agusta, Y. (2007). K-Means-Penerapan, Permasalahan dan Metode Terkait. Jurnal Sistem dan Informatika Vol.3 , 47-60. [6]. Nuningsih, S. (2010). K-Means Clustering: Studi Kasus Pada Data Pengujian Kualitas Susu di Koperasi Peternakan Bandung Selatan. Skripsi. Universitas Pendidikan Indonesia. Bandung. [7]. Hartigan, J. A. 1975. Clustering Algorithms. New York: John Wiley ans Sons. [8]. Rencher, A. C. 2002. Methods of Multivariate Analysis. Canada: John Wiley. [9]. Teknomo, K. 2007. K-Means Clustering Tutorial. http://people.revoledu.com/kardi/tutorial/kMean/. 28 Januari 2013 [10]. Sarwono, Y. T. (2011). Aplikasi Model Jaringan Syaraf Tiruan dengan Radial Basis Function untuk Mendeteksi Kelainan Otak (Stroke Infark). Sekolah Tinggi Manajemen Informatika dan Teknik Komputer. Surabaya. [11]. Dikti. (2011). Beasiswa PPA dan Bantuan Belajar Mahasiswa (BBM). http://www.dikti.go.id. Diakses pada 5 Oktober 2012.

Paper M0508059

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Paper M0508059

Diunggah oleh

Hak Cipta:

Format Tersedia

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penerima Beasiswa

Hitung jarak obyek ke pusat

Kelompokkan obyek berdasarkan jarak minimum

Ada obyek yang harus dipindah?

: hasil penjumlahan nilai PO n 2. : jumlah data mahasiswa

Membuat kategori PO:

Tabel 2. Hasil perhitungan jarak awal pada iterasi-1

5. KESIMPULAN DAN SARAN

Anda mungkin juga menyukai