ABSTRAK
Ilmu pengetahuan dan teknologi akan mempermudah pekerjaan manusia. Namun,
disisi lain akan meningkatkan persaingan. Dalam menghadapi ketatnya persaingan,
perlu dipersiapkan sumber daya manusia yang kompeten. Mahasiswa diharapkan
siap secara akademik, berupa kesiapan pengetahuan maupun keterampilan untuk
menghadapi persaingan yang semakin ketat. Salah satu cara untuk melihat
kompetensi mahasiswa adalah dengan melihat hasil belajar yang dapat
direpresentasikan dengan nilai ujian yang ditempuh. Ujian tengah semester (UTS)
merupakan salah satu bentuk ujian yang menjadi komponen penilaian. Dengan
mengetahui nilai UTS, dosen mengetahui sebaran mahasiswa dalam hal
kompetensi akademik. Untuk itulah, diperlukan pengelompokan (clustering)
menggunakan algoritma k-means sebagai pertimbangan dosen dalam membentuk
kelompok belajar mahasiswa berdasarkan cluster nilai UTS.
Kata kunci: UTS, Kompetensi, Clustering, K-means
71
Ginanjar Abdurrahman, Clustering Data Ujian… hlm 71-79
data berukuran besar dan sangat efisien selama ini tidak diketahui secara manual.
(Tan, Steinbech, & Kumar, 2006:510). Masih menurut Pramudiono (Kusrini &
Pada Penelitian ini, dataset berupa hasil Luthfi, 2009:6) menyatakan bahwa Data
UTS mata kuliah Data Mining yang akan Mining diidentikkan dengan knowledge
dikelompokkan dengan metode clustering discovery in database (KDD) yang
menggunakan algoritma k-means dengan mempunyai definisi proses penggalian
bantuan program aplikasi WEKA 3.6. informasi tersembunyi dalam suatu basis
data yang besar.
2. TINJAUAN PUSTAKA Dari beberapa pengertian di atas,
2.1 Data Mining dapat disimpulkan bahwa Data Mining
Data mining merupakan proses merupakan serangkaian proses dalam
dalam menemukan hubungan yang pencarian pola, hubungan, penggalian
berarti, pola dan tren dengan memeriksa nilai tambah dari data dan informasi yang
data berukuran besar dalam suatu berukuran besar berupa pengetahuan
penyimpanan dengan menggunakan dengan tujuan menemukan hubungan
teknologi pengenalan pola, misalnya dan menyederhanakan data agar
statistik dan matematika. Hal ini sesuai diperoleh informasi yang dapat dipahami
dengan definisi yang dikemukakan oleh dan bermanfaat dengan bantuan ilmu
Gartner Group dalam Larose (2005:2) statistik dan matematika.
yaitu “Data mining is the process of Secara garis besar tahap-tahap Data
discovering meaningful new correlations, Mining terdiri dari selection,
patterns and trends by sifting through preprocessing, transformation, data
large amounts of data stored in mining, interpretation/evaluation (Fayyad
repositories, using pattern recognition dalam Kusrini & Luthfi, 2009: 3). Dalam
technologies as well as statistical and Data Mining, umumnya metode penelitian
mathematical techniques”. berkaitan dengan klasifikasi, clustering,
Data mining juga dapat diartikan dan Asosiasi. Metode klasifikasi adalah
sebagai proses menemukan pola dalam metode yang melibatkan variabel kategori
data. Hal ini dikemukakan oleh Witten, (Larose, 2005:14) yang artinya suatu
Frank, & Hall (2011:5) yaitu “Data mining objek dinyatakan ke salah satu kategori
is defined as the process of discovering atau kategori yang lain. Metode dalam
patterns in data”. Sedangkan menurut Data Mining yang merupakan klasifikasi
Hand et al dalam (Larose, 2005:2) yaitu diantaranya adalah C.4.5, Nearest
“Data mining is the analysis of (often Neighbor, Naïve bayesian, back
large) data sets to find unsuspected propagation. Metode clustering
relationships and to summarize the data merupakan metode pengelompokan data,
that are both understandable and useful”. observasi, atau kasus menjadi kelas
Hal ini berarti bahwa data mining objek-objek yang serupa. Sedangkan
merupakan analisis dari data berukuran cluster didefinisikan sebagai kumpulan
besar untuk menemukan hubungan tak data yang sama satu sama lain, dan tidak
terduga dan meringkas data agar dapat sama dengan data di lain cluster. Metode
dipahami dan dapat digunakan. Menurut clustering mencari segmen keseluruhan
Pramudiono (Kusrini & Luthfi, 2009: 3) data menjadi subgrup-subgrup yang
Data Mining adalah serangkaian proses relatif homogen atau biasa disebut
untuk menggali nilai tambah dari suatu sebagai cluster (Larose, 2005: 16).
kumpulan data berupa pengetahuan yang Menurut Wu & Kumar (2009:33) algoritma
72
JUSTINDO, Jurnal Sistem & Teknologi Informasi Indonesia, Vol. 1, No. 2, Agustus 2016
73
Ginanjar Abdurrahman, Clustering Data Ujian… hlm 71-79
cara perhitungan jarak tersebut dijelaskan memberikan informasi yang terbaik bagi
sebagai berikut ini. guru dan siswa untuk bisa mendapatkan
1. Euclidean Distance informasi tentang keberhasilan upaya
Formula untuk menghitung jarak mereka setelah mengajar dan belajar.
antar dengan Euclidean Distance untuk Ebel & Frisbie (1986: 20-21)
dua titik dalam satu, dua dan tiga dimensi menambahkan bahwa fungsi utama dari
secara berurutan ditunjukan pada tes adalah untuk mengukur prestasi siswa
persamaan (2.2), (2.3), dan (2.4) sebagai dan kontribusinya terhadap evaluasi dan
berikut. pencapaian proses pendidikan, tes juga
membantu guru dalam menentukan nilai
( x y )2 | x y | .... (2.2) yang valid dan level yang reliabel bagi
siswa.
Nitko & Brookhart (2011:5)
d ( p, q) ( p1 q1 )2 ( p2 q2 )2 ...(2.3)
menyatakan “test is defined as an
instrument or systematic procedure for
( p1 q1 )2 ( p2 q2 ) 2 observing and describing one or more
d ( p, q ) ...(2.4)
characteristics of a student using either a
( p3 q3 )2
numerical scale or a classification
scheme.” Hal ini berarti tes merupakan
2. Manhattan Distance (Taxicab distance)
suatu instrumen atau prosedur sistematik
n
untuk mengobservasi atau
d1( p, q) p q 1 pi qi ...(2.5)
i 1 mendeskripsikan satu atau lebih
karakteristik siswa dengan menggunakan
3. Chebisev Distance (Maximum Metric) skala numerik atau skala
Untuk menentukan jarak dengan pengklasifikasian. Menurut Muijs &
menggunakan Chebisev Distance Reynolds (2005: 232) tes prestasi
dilakukan dengan cara mengambil nilai mengukur kinerja siswa dalam satu mata
maksimum dari setiap koordinat pelajaran dalam waktu tertentu.
dimensinya. Jika dinyatakan dalam Berdasarkan Permendiknas nomor 66
persamaan matematika, maka Chebisev tahun 2013 tentang Standar Penilaian
Distance dapat dilihat pada persamaan Pendidikan disebutkan bahwa penilaian
(2.6) adalah proses pengumpulan dan
pengolahan informasi untuk mengukur
Dcheb ( p, q) max pi qi ....(2.6) pencapaian hasil belajar siswa. Prestasi
belajar siswa akan diketahui melalui
penilaian yang dilakukan guru melalui
Dalam penelitian ini, formula yang akan suatu evaluasi belajar yang biasanya
digunakan untuk menentukan jarak berupa tes tertulis.
adalah formula Euclidean Distance pada Menurut Miller, Linn, & Gronlund
persamaan (2.2), (2.3), dan (2.4) (2009:140-142) pemberian tes dapat
dilakukan berdasarkan tujuan
2.3 Ujian/Tes pembelajaran dan penilaian yang
Tes digunakan untuk mengukur berbeda-beda, antara lain : (a) sebelum
tingkat keberhasilan prosedur pengujian, diawal suatu pembelajaran
pembelajaran (Gronlund, 1977:1). Ebel & bertujuan untuk menentukan apakah
Frisbie (1991:30) menyatakan bahwa tes siswa memiliki keterampilan prasyarat
74
JUSTINDO, Jurnal Sistem & Teknologi Informasi Indonesia, Vol. 1, No. 2, Agustus 2016
75
Ginanjar Abdurrahman, Clustering Data Ujian… hlm 71-79
C1=(C11,C12)=(2,1.5215)
C2=(C21,C22)=(4,2.863)
C3=(C31,C32)=(3,1.261)
dan seterusnya, sehingga diperoleh jarak
antara data dengan centroid awal seperti
Dengan menggunakan centroid baru,
pada Tabel 2.
ditentukan kembali jarak setiap item
terhadap centroid baru tersebut, sehingga
Tabel 2. Jarak Euclidean
diperoleh data jarak terhadap centroid
C1 C2 C3 baru seperti terlihat pada Tabel 4.
1 2.361149085 0.745 1.032000484
Tabel 4. Jarak Euclidean
2 0.788 2.338577 1.022225024
3 0.255 2.654247 1.247006415 C1 C2 C3
4 3.064585453 0.322 1.657613948 1 2.130263423 0.608 1.409977305
5 2.836925096 0.012 1.422724148 2 0.2665 2.2706 1.130366755
6 1.033499395 2.006021 0.739 3 0.2665 2.566255 1.000018
4 2.691059317 0.459 2.290790475
5 2.494311578 0.149 2.016432741
Dari Tabel 2 dipilih jarak Euclidean
6 1.033373238 1.888493 0
terkecil, sehingga diperoleh matriks
penempatan cluster seperti tampak pada
Dari Tabel 4 dipilih jarak Euclidean
Tabel 3 berikut ini.
terkecil sehingga diperoleh matriks
Tabel 3. Matriks Penempatan Cluster penempatan cluster seperti tampak pada
Tabel 5.
C1 C2 C3
1 * Tabel 5. Matriks Penempatan Cluster
2 *
3 * C1 C2 C3
4 * 1 *
5 * 2 *
6 * 3 *
4 *
5 *
Ditentukan centroid baru yakni
6 *
(C1=(C11,C12), C2=(C21,C22),
76
JUSTINDO, Jurnal Sistem & Teknologi Informasi Indonesia, Vol. 1, No. 2, Agustus 2016
77
Ginanjar Abdurrahman, Clustering Data Ujian… hlm 71-79
Hasil clustering kedua untuk kelas nilai UTS termasuk dalam cluster nilai
Teknik Informatika-B dari output weka 3.6 rendah, sebanyak 17 (33%) nilai UTS
menunjukkan sebanyak 12 (24%) nilai mahasiswa termasuk dalam cluster nilai
UTS termasuk dalam cluster nilai rendah, sedang, dan sebanyak 30 (58%) nilai
sebanyak 24 (49%) nilai UTS mahasiswa UTS mahasiswa termasuk dalam cluster
termasuk dalam cluster nilai sedang, dan nilai tinggi. Sedangkan untuk Teknik
sebanyak 13 (27%) nilai UTS termasuk Informatika-B, sebanyak 12 (24%) nilai
dalam cluster nilai tinggi. Selengkapnya, UTS termasuk dalam cluster nilai rendah,
hasil clustering untuk nilai UTS Data sebanyak 24 (49%) nilai UTS mahasiswa
Mining kelas Teknik Informatika-B dapat termasuk dalam cluster nilai sedang, dan
dilihat pada Gambar 3. sebanyak 13 (27%) nilai UTS termasuk
dalam cluster nilai tinggi.
5. KESIMPULAN DAN SARAN Saran pengembangan dapat
Berdasarkan hasil dan pembahasan dilakukan perbandingan dengan algoritma
output dari aplikasi weka, maka dapat clustering yang lain untuk data UTS
diambil dua kesimpulan. Pertama, sebagai perbandingan validitas clustering
clustering yang terbentuk adalah tiga yang terbentuk. Disamping itu, penelitian
cluster, yakni cluster nilai UTS tinggi, ini dapat dijadikan sebagai salah satu
cluster nilai UTS sedang, dan cluster nilai referensi untuk dosen pengampu dalam
UTS rendah. Kedua, dari clustering yang pembentukan kelompok belajar
terbentuk dari masing-masing kelas, mahasiswa, dan sebagai referensi untuk
dapat dijabarkan bahwa untuk kelas penelitian selanjutnya yang serumpun.
Teknik Informatika-A, sebanyak 5 (10%)
78
JUSTINDO, Jurnal Sistem & Teknologi Informasi Indonesia, Vol. 1, No. 2, Agustus 2016
79