Anda di halaman 1dari 8

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 6, No. 1, Januari 2022, hlm. 58-65 http://j-ptiik.ub.ac.id

Pengelompokan Topik Skripsi Mahasiswa Fakultas Ilmu Komputer


Universitas Brawijaya berdasarkan Judul pada Periode 2015-2019
menggunakan Metode Semi Supervised K-Means
Mochammad Ilman Asnada1, Bayu Rahayudi2, Achmad Ridok3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1ilmanasnada28@student.ub.ac.id, 2ubay1@ub.ac.id, 3acridokb@ub.ac.id

Abstrak
Judul skripsi merupakan sebuah kalimat yang secara singkat menyampaikan sebagian isi dalam skripsi
itu sendiri. Pada setiap tahun penelitian atau tugas akhir selalu bertambah, dari sekian banyaknya judul
yang digunakan sebagai skripsi memungkinkan topik yang dibahas hampir sama atau bahkan sama.
Berdasarkan hal tersebut, pada penelitian ini melakukan pengelompokan judul skripsi yang
diimplementasikan pada sebuah program. Hasil pengelompokan judul ditampilkan per-tahun (2015
sampai 2019) dalam bentuk bar chart kemudian akan terlihat banyaknya kelompok data berdasarkan
topik atau kategori yang sudah ditentukan. Melakukan ekstraksi pada kumpulan judul skripsi dengan
menggunakan alur dari text mining yang akan digunakan sebagai dataset. Kemudian dataset tersebut
dikelompokkan menggunakan metode semi supervised k-means, metode tersebut pengembangan dari k-
means. Setelah itu kumpulan judul skripsi dilakukan preprocessing dengan metode text mining di
dalamnya terdapat beberapa tahap, yakni tokenisasi, filtering, stemming, term weighting. Tahap awal
metode semi supervised k-means yaitu dengan melakukan pelabelan pada beberapa dataset untuk
menentukan centroid awal, setelah itu dilakukan proses pengelompokan data. Berdasarkan hasil
pengujian yang dilakukan dengan menggunakan jumlah data uji yang bervariasi pada setiap tahun. Dari
hasil pengujian pada setiap tahun (2015 sampai 2019) nilai silhoutte berbeda-beda dan silhoutte terbesar
terdapat pada tahun 2016 menggunakan jumlah data uji 30% dengan silhoutte sebesar 0,0274024334,
sedangkan nilai Davies Bouldin Index (DBI) optimal pada pengujian 30% data uji di tahun 2015 sebesar
0,345362812. Hasil pengelompokkan dengan jumlah data latih sama pada tiap label juga memiliiki nilai
silhoutte lebih baik dari pada jumlah data latih pada tiap label tidak sama.
Kata kunci: semi supervised k-means, text mining, clustering, judul skripsi.
Abstract
The title of the thesis is a sentence that briefly conveys some of the contents of the thesis itself. Every
year the research or final project is always increasing, from the many titles used as the thesis it is
possible that the topics discussed are almost the same or even the same. Based on this, in this study
grouping the title of the thesis which is implemented in a program. The results of title grouping are
displayed annually (2015 to 2019) in the form of a bar chart and then the number of data groups based
on a predetermined topic or category will be seen. Extracting a collection of thesis titles using the flow
of text mining which will be used as a dataset. Then the datasets are grouped using the semi-supervised
k-means method, the method is the development of k-means. After that, the collection of thesis titles is
preprocessed with the text mining method in which there are several stages, namely tokenization,
filtering, stemming, term weighting. The initial stage of the semi-supervised k-means method is to label
several datasets to determine the initial centroid, after which the data grouping process is carried out.
Based on the results of tests carried out using the amount of test data that varies each year. From the
test results every year (2015 to 2019) the silhoutte value is different and the largest silhoutte is in 2016
using the amount of 30% test data with a silhoutte of 0.0274024334, while the Davies Bouldin Index
(DBI) value is optimal for testing 30% of the data. test in 2015 was 0.345362812. The results of grouping
with the same amount of training data on each label also have a better silhouette value than the number
of training data on each label that is not the same.
Keywords: semi supervised k-means, text mining, clustering, thesis title.

Fakultas Ilmu Komputer


Universitas Brawijaya 58
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 59

yang ada pada k-means tradisional. Hasil dari


1. PENDAHULUAN penelitian tersebut dengan menggunakan metode
Dalam beberapa tahun terakhir ini terdapat semi-supervised k-means dapat menghasilkan
beragam judul skripsi serta topik-topik skripsi titik klaster yang lebih optimal dari pada
yang digunakan, dari sekian banyaknya judul menggunakan metode k-means tradisional.
yang digunakan memungkinkan adanya (Hanmin, et al., 2016).
kesamaan dalam topik bahasannya. Tugas akhir Penelitian dilakukan oleh (Gu, et al., 2019)
skripsi biasanya digunakan untuk melengkapi menggunakan algoritma Semi-Supervised K-
salah satu syarat mendapatkan gelar sarjana atau Means sebagai gabungan dari algortima lain,
diploma. pada penelitian tersebut algortima semi
Topik skripsi menjadi bagian penting dalam supervised k-means digunakan untuk membantu
penelitian karena merupakan dasar pemikiran pengelompokan dari mendeteksi serangan
untuk melakukan tindakan selanjutnya, selain itu DDOS serta digabung dengan algoritma Hybrid
dapat menjadi cermin atau identitas dari Feature Selection. Semi supervised k-means
pemikiran yang diimplementasikan dalam digunakan untuk pemilihan fitur hybrid untuk
bentuk tulisan (Pendit, 2003), topik merupakan mendeteksi serangan, dari hasil percobaan
gambaran isi atau tulisan, meskipun kadang- penelitian tersebut disimpulkan bahwa dengan
kadang penulis mengubah judul setelah tulisan menggabungkan algoritma semi supervised k-
selesai, untuk menyesuaikan dengan means pada permasalahan tersebut dapat
perkembangan isi (Etty, 2002). memberikan solusi yang diinginkan penulis dan
Judul merupakan gambaran dari topik, lebih juga lebih ideal.
spesifik dan dapat menyiratkan permasalahan Berdasarkan penjelasan dari permasalahan
atau inti pokok yang akan dibahas, Judul juga tersebut pada penelitian ini bertujuan untuk
merupakan nama yang dipakai untuk buku, bab mengetahui penggunaan topik skripsi pada
dalam buku, kepala berita, dan lain-lain, judul mahasiswa Fakultas Ilmu Komputer Universitas
bisa menjadi cerminan diri atau identitas dari Brawijaya pada periode 2015-2019. Fokus
sebuah karya tulis (Purwati & Kurniawan, pembahasan dari penelitian ini yaitu untuk
2015). Judul skripsi adalah nama yang mengetahui kelompok-kelompok topik skripsi
digunakan untuk karya ilmiah skripsi dan dapat dalam jangka waktu lima tahun. Menggunakan
menyampaikan secara singkat isi atau maksud metode clustering yaitu semi supervised k-
dari skripsi yang ditulis. Skripsi adalah karya means. Dari penelitian ini dengan menggunakan
tulis ilmiah yang mengemukakan pendapat metode diatas diharapkan dapat memberikan
penulis berdasarkan pendapat orang lain. hasil yang lebih baik.
(Setiawan, 2017).
2. TEXT MINING
Penelitian sebelumnya yang menggunakan
metode Semi supervised k-means sudah Text Mining adalah salah satu langkah dari
dilakukan oleh beberapa para ahli dan pakar analisis teks yang dilakukan secara otomatis oleh
pada bidang tersebut. Menurut (Paramartha, et komputer untuk menggali informasi yang
al., 2017) dengan menggunakan metode semi berkualitas dari suatu rangkaian teks yang
supervised pada K-Means perlu melakukan terangkum dalam sebuah dokumen. (Han, et al.,
pelabelan pada beberapa data, kemudian data 2006).
berlabel tersebut digunakan untuk mencari nilai Prosedur utama dalam text mining dengan
pusat klaster awal dan nilai K yang optimal. menggunakan kata-kata yang dapat mewakili isi
Penelitiannya tersebut bertujuan untuk dari dokumen, selanjutnya dilakukan
membandingkan metode K-Means tradisional analisis keterkaitan antar dokumen dengan
dengan metode improve Semi supervised k- menggunakan metode statistik tertentu
means pada data indeks pembangunan manusia seperti analisis kelompok, klasifikasi dan
(IPM). Hasil dari pengujian dua metode tersebut asosiasi. Tahapan dalam Text Mining secara
yaitu metode improve Semi supervised k-means
umum adalah case folding, tokenizing, filtering,
memberikan akurasi 90.3% sedangkan metode
stemming.
K-Means tradisional memberikan akurasi
73.7%. 3. SEMI SUPERVISED K-MEANS
Penggunaan metode semi-supervised k-
means clustering sebagai solusi permasalahan Pada dasarnya metode semi supervised k-
means merupakan metode pengembangan dari k-
Fakultas Ilmu Komputer, Universitas Brawijaya
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 60

means sebelumnya, dengan mengkombinasikan 3. K=DL, jumlah K sama dengan jumlah data
teori supervised dan unsupervised. K-Means berlabel yang berbeda.
merupakan metode yang digunakan untuk 4. Melakukan proses normalisasi.
mendapatkan deskripsi dari sekumpulan data 5. Melakukan inisialisasi centroid awal dengan
dengan cara mengungkapkan kecenderungan jumlah centroid awal sama dengan K.
setiap individu data untuk berkelompok dengan 6. Melakukan proses cosine similarity untuk
individu-individu data lainnya. Kecenderungan mencari jarak dokumen dengan centroid.
pengelompokan tersebut didasarkan pada 7. Melakukan pengelompokan berdasarkan
kemiripan karakteristik individu-individu data label yang sudah ditentukan.
yang ada. Ide dasar dari teknik ini adalah 8. Seleksi kondisi, jika hasil cluster baru
menemukan pusat dari setiap kelompok data berdeda dengan sebelumnya maka kembali
yang mungkin ada untuk kemudian ke tahap 6.
mengelompokkan setiap data individul kedalam
salah satu dari kelompok-kelompok tersebut.
(Prilianti & Wijaya, 2014) Mulai
metode semi supervised k-means diciptakan
untuk meminimalisir masalah yang terdapat
pada k-means tradisional dalam pengelompokan Input dataset: melakukan
data. Karena pada dasarnya k-means sendiri pelabelan beberapa data
termasuk metode yang unsupervised dimana
penentuan titik pusatnya ditentukan secara Inisialisasi data berlabel
beda (DL)
random, untuk mengatasi masalah tersebut
akhirnya muncul pengembangan dengan semi
supervised sehingga penentuan titik pusat pada K = DL
k-means bisa lebih optimal. (Paramartha, et al.,
2017) Proses Normalisasi

4. METODE
Inisialisasi centroid awal
centroid = K
4.1. Sumber Data
Dalam penelitian ini data yang digunakan
Proses hitung jarak dokumen Update
adalah bersumber dari website repository dengan centroid centroid
Universitas Brawijaya, data yang digunakan tiap
tahunn yaitu sebanyak 220 dokumen, dalam
kurun waktu 2015-2019 di mana nanti terdapat Proses Clustering
1100 dokumen skripsi dari website repository
Universitas Brawijaya. Data yang diproses
hanya kalimat yang terdapat pada judul dan data
akan berupa tiap-tiap kata dari seluruh dokumen Ada yes
yang dikumpulkan. perubahan
cluster
4.2. Perancangan Algoritma
no
Proses pengelompokan topik skripsi
berdasarkan judul menggunakan Metode Semi Cluster
Supervised K-means terdapat pada bagian dokumen
Gambar 1 yang dijelaskan pada setiap langkah
dari Metode Semi Supervised K-means sebagai Selesai
berikut: Gambar 1. Diagram Alir Metode Semi
1. Memasukkan input dari sistem berupa nilai Supervised K-means
dataset untuk data judul skripsi.
2. Melakukan inisialisasi data berlabel (DL) 5. PROSES MANUALISASI
untuk parameter data berlabel dan tidak
berlabel.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 61

5.1. Preprocessing
Keterangan :
Dalam penelitian ini melakukan tft,d = jumlah kemunculan (frekuensi) term t
preprocessing terlebih dahulu terhadap dataset pada dokumen d
hingga mendapatkan term, melalui tahap N = jumlah semua dokumen dalam
tokenisasi, case folding, filtering, stemming. dataset
Hasil preprocessing ditunjukkan pada tabel 1. dft = jumlah dokumen yang mengandung
term t
Tabel 1. Hasil Preprocessing 3. TF-IDF
No. term No. term
1 implementasi 37 kacang TF-IDF dari suatu term atau token
2 metode 38 dempstershafer
3 weighted 39 kmeansgmm
merupakan hasil perkalian antara tf weighting
4 product 40 basis dengan idf.
5 rekomendasi 41 hu
6 sewa 42 moments
𝑊𝑡,𝑑 = 𝑤𝑡,𝑓 ∗ 𝑖𝑑𝑓𝑡 (3)
7 alat 43 kendara
8 kemping 44 video
9 kota 45 lintas
5.3. Semi Supervised K-Means
10 malang 46 rancang
11 spk 47 bangun Tahap awal semi supervised k-means
12 beli 48 aplikasi melakukan pelabelan beberapa data, namun
13 main 49 social
14 muda 50 geotagging
sebelum dilakukan pelabelan data perlu
15 klub 51 photo dilakukan normalisasi terlebih dahulu
16 sepakbola 52 timeline
17 sistem 53 gedung
menggunakan persamaan berikut.
18 pakar 54 platform
19 diagnosis 55 android 𝑊𝑡,𝑓
20 sakit 56 informasi
𝑊𝑡, 𝑓 = (4)
√∑𝑛 2
𝑖=1(𝑊𝑡,𝑓 )
21 zoonosis 57 walisongo
22 certainty 58 location
23 factor 59 based
24 klasifikasi 60 service Keterangan:
25 karies 61 smartphone Wt,f = nilai bobot pada term t
26 gigi 62 naive
27 citra 63 bayes
28 dental 64 taraf Pelabelan menggunakan jenis-jenis kategori
29 panoramic 65 hidup
30 binary 66 masyarakat yang sudah ditentukan yaitu, Sistem Pendukung
31 decision 67 sejahtera Keputusan (SPK), Sistem Pakar (SP), Image
32 tree 68 kota
33 support 69 batu Processing (IP), Rekayasa Perangkat Lunak
34 vector 70 jenis (RPL), Data Mining (DM). Pelabelan data dan
35 model 71 kelamin
36 tanam 72 nama centroid awal ditunjukkan pada tabel 2.
73 twitter
Dari hasil preprocessing di atas Tabel 2. Pelabelan data dan centroid awal
menggunakan data sebanyak 10 judul. Kategori Dok Centroid
Sistem pendukung D1 c1
5.2. Pembobotan Kata keputusan (SPK)
Sistem Pakar (SP) D3 c2
1. Term Frequency
Pada tahap ini langkah pertama yang Image Processing D4 c3
dilakukan yaitu mencari frekuensi tiap term (IP)
disebut dengan proses Term Frequency, Rekayasa Perangkat D7 c4
bertujuan untuk menghitung jumlah kemunculan Lunak (RPL)
term pada setiap dokumen. Data Mining (DM) D9 c5
2. Term Weighting & IDF
Tahap selanjutnya yaitu mencari bobot dari
setiap term tersebut dan mencari nilai dari invers Dari tabel 2 menggunakan beberapa
document frequency (IDF). Rumus perhitungan judul sebagai centroid awal yang diinisialisasi
ditunjukkan pada persamaan berikut (Qaiser & dengan D dan karena menggunakan 10 judul
Ali, 2018) maka terdapat D1 sampai D10. Tahap
1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 𝑗𝑖𝑘𝑎 𝑡𝑓𝑡,𝑑 > 0 selanjutnya mencari jarak tiap dokumen ke
𝑊𝑡, 𝑓 = {
0, 𝑗𝑖𝑘𝑎 𝑡𝑓 = 0
(1)
𝑡,𝑑 cluster serta menentukan cluster data, seperti
(𝑁)
yang ditunjukkan pada tabel 3.
𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10
(𝑑𝑓𝑡 )
(2)

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 62

Tabel 3. Jarak Dokumen ke Centroid Anggota Dokumen Kategori


dok jarak dokumen ke - min anggota C2 D3 : Sistem Pakar Diagnosis Sistem Pakar
c1 c2 c3 c4 c5 Penyakit Zoonosis Menggunakan (SP)
Metode Certainty Factor.
D1 0 0,996 1 0,996 0,975 0 c1
D5 : Pemodelan System Pakar Sistem Pakar
D2 0,768 0,995 1 0,996 0,973 0,768 c1 Untuk Diagnose Hama-Penyakit (SP)
Pada Tanaman Kacang Panjang
D3 0,996 0 0,963 0,996 0,996 0 c2 Dengan Metode Dempster-Shafer.
D4 1 0,963 0 1 1 0 c3
C3 D4 : Klasifikasi Penyakit Karies Image
D5 0,996 0,758 0,963 0,996 0,996 0,758 c2 Gigi Pada Citra Dental Panoramic Processing
Menggunakan Metode Binary (IP)
D6 0,976 0,996 0,946 0,996 0,975 0,946 c3 Decision Tree Support Vector
D7 0,996 0,996 1 0 0,996 0 c4 Machine (Bdtsvm).
D6 : Implementasi Metode Image
D8 1 1 1 0,754 1 0,754 c4 Kmeans-Gmm Berbasis Hu Processing
Moments Untuk Klasifikasi (IP)
D9 0,975 0,996 1 0,996 0 0 c5 Kendaraan Pada Video Lalu
D10 1 1 1 1 0,836 0,836 c5 Lintas.
C4 D7 : Rancang Bangun Aplikasi Rekayasa
Social Geotagging Photo Timeline Perangkat
Dari kolom anggota akan digunakan untuk Gedung Dan Bangunan Pada Lunak (RPL)
Platform Android.
mencari centroid baru pada iterasi selanjutnya,
setelah itu mengecek kembali centroid lama dan D8 : Rancang Bangun Aplikasi Rekayasa
baru jika terdapat perubahan maka dilanjutkan Informasi Walisongo Berbasis Perangkat
Location Based Service pada Lunak (RPL)
ke iterasi selanjutnya. Tampilan jarak dokumen Smartphone Android.
ke cluster baru ditunjukkan pada tabel 4.
C5 D9 : Implementasi Metode Naive Data Mining
Bayes Untuk Klasifikasi Taraf (DM)
Tabel 4. Jarak Dokumen ke Centroid baru Hidup Masyarakat Sejahtera Pada
dok jarak dokumen ke - min anggota Kota Batu.
baru
c1 c2 c3 c4 c5 D10 : Klasifikasi Jenis Kelamin Data Mining
Berdasarkan Nama Pengguna (DM)
D1 0,384 0,996 0,988 0,998 0,987 0,384 C1 Twitter Menggunakan Metode
D2 0,384 0,995 0,987 0,998 0,986 0,384 C1
Naïve Bayes Classifier.

D3 0,996 0,379 0,979 0,998 0,998 0,379 C2

D4 1 0,963 0,473 1 1 0,473 C3

D5 0,996 0,379 0,979 0,998 0,998 0,379 C2 6. PENGUJIAN DAN ANALISIS


D6 0,975 0,996 0,473 0,998 0,987 0,473 C3 6.1 Pengujian Variasi Jumlah Data Uji
D7 0,996 0,996 0,998 0,377 0,998 0,377 C4 Tahap awal proses pengujian yaitu
D8 1 1 1 0,377 1 0,377 C4
melakukan pelabelan pada beberapa dataset,
data tersebut digunakan sebagai penentuan
D9 0,974 0,996 0,987 0,998 0,418 0,418 C5
klaster dan centroid awal. Pada pengujian ini
D10 1 1 1 1 0,418 0,418 C5 menggunakan jumlah data uji sebanyak 30%,
40%, 50% dan 60% dari dataset, data uji adalah
Anggota cluster baru dengan yang lama data yang tidak berlabel dan data latih data
tidak mengalami perubahan, maka proses iterasi berlabel, pengujian dilakukan selalu dengan nilai
bisa dihentikan. Hasil pengelompokan dapat K = 5 dan akan diulang selama proses percobaan.
dilihat pada tabel 5. Percobaan dengan variasi jumlah data uji akan
dilakukan terhadap dataset berdasarkan tahun
Tabel 5. Hasil Pengelompokan yaitu 2015, 2016, 2017, 2018 dan 2019. Dari
Anggota Dokumen Kategori percobaan yang dilakukan akan diketahui nilai
C1 D1 : Implementasi Metode Sistem silhoutte dan nilai davies bouldin index (DBI).
Weighted Product Untuk pendukung
Rekomendasi Persewaan Alat keputusan Tabel 6. Hasil Percobaan variasi jumlah data uji
Kemping Di Kota Malang. SPK. (SPK) Variasi Tahun Nilai Davies
jumlah Silhoutte Bouldin
D2 : Implementasi Metode Sistem data uji Index (DBI)
Weighted Product Pada pendukung
30% 2015 0,0187 0,3453
Rekomendasi Pembelian Pemain keputusan
Muda Klub Sepakbola. (SPK) 2016 0,0274 0,5624

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 63

Variasi Tahun Nilai Davies


jumlah Silhoutte Bouldin Dokumen Tahun 2015
data uji Index (DBI)
33 34 36
2017 0,0144 0,4482 40 2624 29 26 30
17 1819 20 16 1814
15
2018 0,0172 0,3828 20 9
3 5 6

2019 0,0158 0,3403 0


Data uji Data uji Data uji Data uji
40% 2015 0,0179 0,4251 30% 40% 50% 60%
2016 0,0228 0,5626
SPK DM IP RPL SP
2017 0,0145 0,5647

2018 0,0135 0,4973 Gambar 2. Pengelompokan data tahun 2015


2019 0,0189 0,3816
2. Dokumen pada tahun 2016
50% 2015 0,0180 0,4712
Tampilan kelompok data pada tahun 2016
2016 0,0217 0,5758 ditunjukkan pada gambar 3.
2017 0,0146 0,6173 Dokumen Tahun 2016
2018 0,0141 0,5237
50 40
2019 0,0188 0,4607 31 31
20 2121 23 22 2023 22 23
13 8 1213 15 14 16
8
60% 2015 0,0186 0,5138
0
2016 0,0139 0,6524
Data uji Data uji Data uji Data uji
2017 0,0149 0,6241 30% 40% 50% 60%
2018 0,0120 0,5726
SPK DM IP RPL SP
2019 0,0174 0,5318
Gambar 3. Pengelompokan data tahun 2016
Dari tabel 6 terlihat nilai dari silhoutte dan
davies bouldin index tidak begitu optimal,
3. Dokumen pada tahun 2017
berdasarkan teori dari Adiana, et al. (2018)
Pengelompokan data pada tahun 2017
seperti yang telah dijelaskan pada bab 2 bahwa
ditunjukkan pada gambar 4.
nilai silhoutte akan dikatakan optimal ketika
mendekati 1 dan tidak bernilai negatif (-1 ≤ S(i) Dokumen Tahun 2017
≤ 1), hal itu menunjukkan bahwa 3231
40 25 2826 26 29
pengelompokan datanya sudah baik dan optimal. 1617 17 2023 19 1822
13 11
Pada percobaan di atas nilai silhoutte masih 20 8 8 7

belum mendekati 1 namun juga tidak ada yang 0


bernilai negatif, hal ini dikarenakan pada Data uji Data uji Data uji Data uji
30% 40% 50% 60%
penelitian ini terdapat kesamaan penggunaan
kata-kata pada setiap dokumen dan itu SPK DM IP RPL SP
berpengaruh pada nilai pembobotan kata beserta
cosine similarity. Gambar 4. Pengelompokan data tahun 2017
6.2 Tampilan Pengujian Tiap Tahun
Pada percobaan menggunakan data uji 4. Dokumen pada tahun 2018
30%, terdapat 66 dokumen sebagai data uji dan Pengelompokan data pada tahun 2018
154 sebagai data latih. Percobaan menggunakan ditunjukkan pada gambar 5.
data uji 40%, data uji sebanyak 88 dokumen dan
Dokumen Tahun 2018
data latih sebanyak 132 dokumen. Percobaan
menggunakan data uji 50%, data uji sebanyak 40 30 27 3033 31
22 23 25 22
20 16 1215
110 dokumen dan data latih sebanyak 110 20 14 1312 1216 16
7
dokumen. Pada percobaan menggunakan data uji 0
60%, terdapat data uji sebanyak 132 dokumen Data uji Data uji Data uji Data uji
dan 88 dokumen sebagai data latih. 30% 40% 50% 60%
1. Dokumen pada tahun 2015
SPK DM IP RPL SP
Tampilan pengelompokan data ditunjukkan
pada gambar 2.
Gambar 5. Pengelompokan data tahun 2018

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 64

5. Dokumen pada tahun 2019 2019). Hasil percobaan ditunjukkan pada tabel 7.
Pengelompokan data pada tahun 2019
ditunjukkan pada gambar 6. Tabel 7. Hasil Percobaan jumlah data latih
Dokumen Tahun 2019 sama pada tiap label dan jumlah data latih tidak
sama pada tiap label
Banyak data latih Banyak data latih
60 48 pada tiap label sama pada tiap label tidak sama
41
40 31
2528
20 20 182216 16 15
20 1215 9 10 14 13 10 13 Tahun Silhoutte Davies Tahun Silhoutte Davies
Bouldin Bouldin
Index Index
0 (DBI) (DBI)
Data uji Data uji Data uji Data uji 2015 0,0179067 0,6023765 2015 0,0173040 0,5164737
2016 0,0225865 0,5949961 2016 0,0180370 0,6569665
30% 40% 50% 60% 2017 0,0143555 0,6949216 2017 0,0132353 0,6998799
2018 0,0131201 0,6540154 2018 0,0126134 0,6327326
2019 0,0170190 0,6504356 2019 0,0167467 0,6042968
SPK DM IP RPL SP

Gambar 6. Pengelompokan data tahun 2019

6.3 Pengujian Jumlah Data Latih yang Sama 7. KESIMPULAN


pada Setiap Label Dari pengujian yang telah dilakukan dan
Jika pada percobaan sebelumnya dilakukan dijelaskan pada bab sebelumnya, disimpulkan
dengan variasi jumlah data uji dan banyaknya bahwa pengelompokan judul skripsi
data latih pada tiap label atau kategori berbeda- menggunakan semi supervised kmeans dapat
beda untuk mencari titik centroid awal, maka diimplementasikan. Sistem mampu
pada percobaan kali ini menggunakan data latih mengelompokkan judul skripsi dan
yang banyaknya pada setiap label atau kategori memvisualisasikan menggunakan algoritma
sama, di mana hal tersebut digunakan untuk semi supervised kmeans dan alur dari text
mencari titik centroid awal. Sehingga dalam mining. Berdasarkan hasil analisis pengujian
percobaan banyak data dari llima kategori yaitu, dapat diambil beberapa kesimpulan yaitu :
Sistem Pendukung Keputusan (SPK), Sistem 1. Dengan menggunakan beberapa variasi
Pakar (SP), Image Processing (IP), Rekayasa jumlah data uji yang dilakukan pada setiap
Perangkat Lunak (RPL) dan Data Mining (DM) tahun, didapatkan nilai silhoutte yang
berjumlah sama. Pada percobaan ini data yang optimal pada pengujian data uji 30% dan
digunakan pada tiap label sebanyak 11 data, percobaan dari kelima tahun tersebut nilai
maka secara total terdapat 55 data yang sudah silhoutte yang lebih besar pada tahun 2016
diberikan label berdasarkan kategori-kategori sebesar 0,0274024334. Nilai davies bouldin
yang sudah ditentukan. Data yang akan index (DBI) juga optimal ketika
digunakan sebagai data latih yaitu sebanyak 25% menggunakan 30% data uji dengan nilai DBI
(55 data latih) dari keseluruhan data pengujian terlihat pada tahun 2015 sebesar
sebanyak 220 data tiap tahun yaitu pada tahun 0,345362812.
2015, 2016, 2017, 2018 dan 2019. Percobaan
menggunakan 25% data latih dan 75% data uji, 2. Berdasarkan pengujian yang telah dilakukan
untuk data latih seperti yang telah dijelaskan menggunakan jumlah data latih yang sama
sebelumnya sedangkan untuk data uji berjumlah pada tiap label, nilai silhoutte terlihat cukup
75% dari total data dan tidak dilakukan baik dengan silhoutte pada tiap tahun
pelabelan data karena sebagai data uji. sebesar 0.0179067, 0.0225865, 0.0143555,
Percobaan yang akan dilakukan yaitu 0.0131201, 0.0170190, sedangkan dengan
dengan membandingkan pengujian dengan jumlah data latih tiap label tidak sama nilai
banyak data latih pada tiap label sama dan silhoutte sedikit lebih kecil. Untuk nilai DBI
pengujian dengan banyak data latih pada tiap terdapat beberapa tahun yang lebih optimal
label tidak sama, untuk pembagian data latih dan dengan jumlah data latih tiap label tidak
data uji nya sama yaitu selalu menggunakan sama.
sebanyak 25% data latih (55 data berlabel) dan
75% data uji (165 data tidak berlabel). DAFTAR PUSTAKA
Percobaan dengan pembagian banyaknya data
Adiana, B. E., Soesanti, I. & Permanasari, A. E.,
latih dan data uji seperti demikian dilakukan
2018. Analisis Segmentasi Pelanggan
pada setiap tahun (2015, 2016, 2017, 2018 dan
Menggunakan Kombinasi RFM Model

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 65

dan Teknik Clustering. Jurnal Terapan


Teknologi Informasi, Volume 2.
Etty, I., 2002. Menulis Karya Ilmiah. Gramedia.
Gu, Y., Li, K., Guo, Z. & Wang, Y., 2019. Semi-
Supervised K-Means DDoS Detection
Method Using Hybrid Feature Selection
Algorithm.
Han, J., Pei, J. & Kamber, M., 2006. Data
Mining Concept and Technique. Elsevier.
Hanmin, Y., Hao, L. & Qianting, S., 2016. An
Improved Semi-Supervised K-Means
Clustering Algorithm.
Paramartha, G. N. W., Ratnawati, D. E. &
Widodo, A. W., 2017. Analisis
Perbandingan Metode K-Means Dengan
Improved SemiSupervised K-Means Pada
Data Indeks Pembangunan Manusia
(IPM). Jurnal Pengembangan Teknologi
Informasi dan Ilmu Komputer, pp. Vol. 1,
No. 9, hlm. 813-824.
Pendit, P. L., 2003. Penelitian Ilmu Perpustakaan
dan Informasi: Sebuah Pengantar Diskusi
Epistemologi & Metodologi. p. h.17.
Prilianti, K. R. & Wijaya, H., 2014. Aplikasi
Text Mining untuk Automasi Penentuan
Tren Topik Skripsi dengan Metode K-
Means Clustering. Jurnal Cybermatika.
Purwati, N. & Kurniawan, H., 2015. Studi
Pengembangan Prototype Knowledge
Management Pada Pengecekan Judul
Tugas Akhir atau Skripsi Fakultas Ilmu
Komputer IBI Darmajaya.
Qaiser, S. & Ali, R., 2018. Text Mining: Use of
TF-IDF to Examine the Relevance of
Words to Documents. International
Journal of Computer Applications ,
Volume 181.
Setiawan, A., 2017. IMPLEMENTASI
ALGORITMA WINNOWING UNTUK
DETEKSI KEMIRIPAN JUDUL
SKRIPSI STUDI KASUS STMIK
BUDIDARMA. Volume Volume : XII.

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai