Abstrak
Judul skripsi merupakan sebuah kalimat yang secara singkat menyampaikan sebagian isi dalam skripsi
itu sendiri. Pada setiap tahun penelitian atau tugas akhir selalu bertambah, dari sekian banyaknya judul
yang digunakan sebagai skripsi memungkinkan topik yang dibahas hampir sama atau bahkan sama.
Berdasarkan hal tersebut, pada penelitian ini melakukan pengelompokan judul skripsi yang
diimplementasikan pada sebuah program. Hasil pengelompokan judul ditampilkan per-tahun (2015
sampai 2019) dalam bentuk bar chart kemudian akan terlihat banyaknya kelompok data berdasarkan
topik atau kategori yang sudah ditentukan. Melakukan ekstraksi pada kumpulan judul skripsi dengan
menggunakan alur dari text mining yang akan digunakan sebagai dataset. Kemudian dataset tersebut
dikelompokkan menggunakan metode semi supervised k-means, metode tersebut pengembangan dari k-
means. Setelah itu kumpulan judul skripsi dilakukan preprocessing dengan metode text mining di
dalamnya terdapat beberapa tahap, yakni tokenisasi, filtering, stemming, term weighting. Tahap awal
metode semi supervised k-means yaitu dengan melakukan pelabelan pada beberapa dataset untuk
menentukan centroid awal, setelah itu dilakukan proses pengelompokan data. Berdasarkan hasil
pengujian yang dilakukan dengan menggunakan jumlah data uji yang bervariasi pada setiap tahun. Dari
hasil pengujian pada setiap tahun (2015 sampai 2019) nilai silhoutte berbeda-beda dan silhoutte terbesar
terdapat pada tahun 2016 menggunakan jumlah data uji 30% dengan silhoutte sebesar 0,0274024334,
sedangkan nilai Davies Bouldin Index (DBI) optimal pada pengujian 30% data uji di tahun 2015 sebesar
0,345362812. Hasil pengelompokkan dengan jumlah data latih sama pada tiap label juga memiliiki nilai
silhoutte lebih baik dari pada jumlah data latih pada tiap label tidak sama.
Kata kunci: semi supervised k-means, text mining, clustering, judul skripsi.
Abstract
The title of the thesis is a sentence that briefly conveys some of the contents of the thesis itself. Every
year the research or final project is always increasing, from the many titles used as the thesis it is
possible that the topics discussed are almost the same or even the same. Based on this, in this study
grouping the title of the thesis which is implemented in a program. The results of title grouping are
displayed annually (2015 to 2019) in the form of a bar chart and then the number of data groups based
on a predetermined topic or category will be seen. Extracting a collection of thesis titles using the flow
of text mining which will be used as a dataset. Then the datasets are grouped using the semi-supervised
k-means method, the method is the development of k-means. After that, the collection of thesis titles is
preprocessed with the text mining method in which there are several stages, namely tokenization,
filtering, stemming, term weighting. The initial stage of the semi-supervised k-means method is to label
several datasets to determine the initial centroid, after which the data grouping process is carried out.
Based on the results of tests carried out using the amount of test data that varies each year. From the
test results every year (2015 to 2019) the silhoutte value is different and the largest silhoutte is in 2016
using the amount of 30% test data with a silhoutte of 0.0274024334, while the Davies Bouldin Index
(DBI) value is optimal for testing 30% of the data. test in 2015 was 0.345362812. The results of grouping
with the same amount of training data on each label also have a better silhouette value than the number
of training data on each label that is not the same.
Keywords: semi supervised k-means, text mining, clustering, thesis title.
means sebelumnya, dengan mengkombinasikan 3. K=DL, jumlah K sama dengan jumlah data
teori supervised dan unsupervised. K-Means berlabel yang berbeda.
merupakan metode yang digunakan untuk 4. Melakukan proses normalisasi.
mendapatkan deskripsi dari sekumpulan data 5. Melakukan inisialisasi centroid awal dengan
dengan cara mengungkapkan kecenderungan jumlah centroid awal sama dengan K.
setiap individu data untuk berkelompok dengan 6. Melakukan proses cosine similarity untuk
individu-individu data lainnya. Kecenderungan mencari jarak dokumen dengan centroid.
pengelompokan tersebut didasarkan pada 7. Melakukan pengelompokan berdasarkan
kemiripan karakteristik individu-individu data label yang sudah ditentukan.
yang ada. Ide dasar dari teknik ini adalah 8. Seleksi kondisi, jika hasil cluster baru
menemukan pusat dari setiap kelompok data berdeda dengan sebelumnya maka kembali
yang mungkin ada untuk kemudian ke tahap 6.
mengelompokkan setiap data individul kedalam
salah satu dari kelompok-kelompok tersebut.
(Prilianti & Wijaya, 2014) Mulai
metode semi supervised k-means diciptakan
untuk meminimalisir masalah yang terdapat
pada k-means tradisional dalam pengelompokan Input dataset: melakukan
data. Karena pada dasarnya k-means sendiri pelabelan beberapa data
termasuk metode yang unsupervised dimana
penentuan titik pusatnya ditentukan secara Inisialisasi data berlabel
beda (DL)
random, untuk mengatasi masalah tersebut
akhirnya muncul pengembangan dengan semi
supervised sehingga penentuan titik pusat pada K = DL
k-means bisa lebih optimal. (Paramartha, et al.,
2017) Proses Normalisasi
4. METODE
Inisialisasi centroid awal
centroid = K
4.1. Sumber Data
Dalam penelitian ini data yang digunakan
Proses hitung jarak dokumen Update
adalah bersumber dari website repository dengan centroid centroid
Universitas Brawijaya, data yang digunakan tiap
tahunn yaitu sebanyak 220 dokumen, dalam
kurun waktu 2015-2019 di mana nanti terdapat Proses Clustering
1100 dokumen skripsi dari website repository
Universitas Brawijaya. Data yang diproses
hanya kalimat yang terdapat pada judul dan data
akan berupa tiap-tiap kata dari seluruh dokumen Ada yes
yang dikumpulkan. perubahan
cluster
4.2. Perancangan Algoritma
no
Proses pengelompokan topik skripsi
berdasarkan judul menggunakan Metode Semi Cluster
Supervised K-means terdapat pada bagian dokumen
Gambar 1 yang dijelaskan pada setiap langkah
dari Metode Semi Supervised K-means sebagai Selesai
berikut: Gambar 1. Diagram Alir Metode Semi
1. Memasukkan input dari sistem berupa nilai Supervised K-means
dataset untuk data judul skripsi.
2. Melakukan inisialisasi data berlabel (DL) 5. PROSES MANUALISASI
untuk parameter data berlabel dan tidak
berlabel.
5.1. Preprocessing
Keterangan :
Dalam penelitian ini melakukan tft,d = jumlah kemunculan (frekuensi) term t
preprocessing terlebih dahulu terhadap dataset pada dokumen d
hingga mendapatkan term, melalui tahap N = jumlah semua dokumen dalam
tokenisasi, case folding, filtering, stemming. dataset
Hasil preprocessing ditunjukkan pada tabel 1. dft = jumlah dokumen yang mengandung
term t
Tabel 1. Hasil Preprocessing 3. TF-IDF
No. term No. term
1 implementasi 37 kacang TF-IDF dari suatu term atau token
2 metode 38 dempstershafer
3 weighted 39 kmeansgmm
merupakan hasil perkalian antara tf weighting
4 product 40 basis dengan idf.
5 rekomendasi 41 hu
6 sewa 42 moments
𝑊𝑡,𝑑 = 𝑤𝑡,𝑓 ∗ 𝑖𝑑𝑓𝑡 (3)
7 alat 43 kendara
8 kemping 44 video
9 kota 45 lintas
5.3. Semi Supervised K-Means
10 malang 46 rancang
11 spk 47 bangun Tahap awal semi supervised k-means
12 beli 48 aplikasi melakukan pelabelan beberapa data, namun
13 main 49 social
14 muda 50 geotagging
sebelum dilakukan pelabelan data perlu
15 klub 51 photo dilakukan normalisasi terlebih dahulu
16 sepakbola 52 timeline
17 sistem 53 gedung
menggunakan persamaan berikut.
18 pakar 54 platform
19 diagnosis 55 android 𝑊𝑡,𝑓
20 sakit 56 informasi
𝑊𝑡, 𝑓 = (4)
√∑𝑛 2
𝑖=1(𝑊𝑡,𝑓 )
21 zoonosis 57 walisongo
22 certainty 58 location
23 factor 59 based
24 klasifikasi 60 service Keterangan:
25 karies 61 smartphone Wt,f = nilai bobot pada term t
26 gigi 62 naive
27 citra 63 bayes
28 dental 64 taraf Pelabelan menggunakan jenis-jenis kategori
29 panoramic 65 hidup
30 binary 66 masyarakat yang sudah ditentukan yaitu, Sistem Pendukung
31 decision 67 sejahtera Keputusan (SPK), Sistem Pakar (SP), Image
32 tree 68 kota
33 support 69 batu Processing (IP), Rekayasa Perangkat Lunak
34 vector 70 jenis (RPL), Data Mining (DM). Pelabelan data dan
35 model 71 kelamin
36 tanam 72 nama centroid awal ditunjukkan pada tabel 2.
73 twitter
Dari hasil preprocessing di atas Tabel 2. Pelabelan data dan centroid awal
menggunakan data sebanyak 10 judul. Kategori Dok Centroid
Sistem pendukung D1 c1
5.2. Pembobotan Kata keputusan (SPK)
Sistem Pakar (SP) D3 c2
1. Term Frequency
Pada tahap ini langkah pertama yang Image Processing D4 c3
dilakukan yaitu mencari frekuensi tiap term (IP)
disebut dengan proses Term Frequency, Rekayasa Perangkat D7 c4
bertujuan untuk menghitung jumlah kemunculan Lunak (RPL)
term pada setiap dokumen. Data Mining (DM) D9 c5
2. Term Weighting & IDF
Tahap selanjutnya yaitu mencari bobot dari
setiap term tersebut dan mencari nilai dari invers Dari tabel 2 menggunakan beberapa
document frequency (IDF). Rumus perhitungan judul sebagai centroid awal yang diinisialisasi
ditunjukkan pada persamaan berikut (Qaiser & dengan D dan karena menggunakan 10 judul
Ali, 2018) maka terdapat D1 sampai D10. Tahap
1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 𝑗𝑖𝑘𝑎 𝑡𝑓𝑡,𝑑 > 0 selanjutnya mencari jarak tiap dokumen ke
𝑊𝑡, 𝑓 = {
0, 𝑗𝑖𝑘𝑎 𝑡𝑓 = 0
(1)
𝑡,𝑑 cluster serta menentukan cluster data, seperti
(𝑁)
yang ditunjukkan pada tabel 3.
𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10
(𝑑𝑓𝑡 )
(2)
5. Dokumen pada tahun 2019 2019). Hasil percobaan ditunjukkan pada tabel 7.
Pengelompokan data pada tahun 2019
ditunjukkan pada gambar 6. Tabel 7. Hasil Percobaan jumlah data latih
Dokumen Tahun 2019 sama pada tiap label dan jumlah data latih tidak
sama pada tiap label
Banyak data latih Banyak data latih
60 48 pada tiap label sama pada tiap label tidak sama
41
40 31
2528
20 20 182216 16 15
20 1215 9 10 14 13 10 13 Tahun Silhoutte Davies Tahun Silhoutte Davies
Bouldin Bouldin
Index Index
0 (DBI) (DBI)
Data uji Data uji Data uji Data uji 2015 0,0179067 0,6023765 2015 0,0173040 0,5164737
2016 0,0225865 0,5949961 2016 0,0180370 0,6569665
30% 40% 50% 60% 2017 0,0143555 0,6949216 2017 0,0132353 0,6998799
2018 0,0131201 0,6540154 2018 0,0126134 0,6327326
2019 0,0170190 0,6504356 2019 0,0167467 0,6042968
SPK DM IP RPL SP