Abstrak
Penelitian atau tugas akhir7 merupakan syarat kelulusan7 mahasiswa. Setiap tahun 7penelitian
menjadi bertambah7 dan memungkinkan mahasiswa 7mengambil topik yang sama7 atau hampir
serupa. Melalui penelitian ini dikembangkan sebuah aplikasi untuk mengelompokkan laporan skripsi
mahasiswa. Hasil dari pengelompokan laporan skripsi ini akan memperlihatkan bagaimana pola
kemiripan dan keterkaitan antar penelitian dari waktu ke waktu. Hasil dari pengelompokan ini juga
menunjukkan kapan tema penelitian mahasiswa menjadi bervariasi dan kapan tema penelitian menjadi
kurang bervariasi. Laporan penelitian mahasiswa atau biasa disebut dengan laporan skripsi dapat
dikelompokkan berdasarkan tema, objek maupun metode dari penelitian tersebut. Proses ekstraksi
dokumen skripsi ini dilakukan dengan memanfaatkan teknologi dari text mining. Lalu untuk proses
pengelompokan dokumen skripsi ini dilakukan dengan menggunakan metode k-means clustering pada
sekumpulan dokumen skripsi dengan mengambil abstrak, kata kunci dan daftar isi sebagai informasi
penting yang dapat mewakili isi dari dokumen. Lalu dokumen akan dilakukan preprocessing terlebih
dahulu dengan menggunakan metode text mining. Untuk tahap preprocessing dibagi menjadi beberapa
bagian, yakni tokenisasi, filtering, stemming dan term weighting. Setelah dokumen melewati tahap
preprocessing, maka dokumen dapat dikelompokkan dengan menggunakan metode dari k-means
clustering. Pada penelitian ini uji coba dilakukan dengan memasukkan jumlah cluster yang bervariasi.
Dari hasil analisis dengan memasukkan nilai cluster yang berbeda telah didapatkan nilai optimal
dengan memasukkan jumlah 𝑘 = 4 dengan nilai silhouette yang dihasilkan 0,483695522.
Kata kunci: k-means clustering, silhouette coefficient, clustering dokumen, text mining
Abstract
Research or final assignment is a requirement of graduation students. Every year the research
becomes increasing and allows the students to take the same or similar topics. Through this research
developed an application to classify student thesis reports. The results of this grouping also indicate
that the themes are varied and when the themes becomes non-varied. Student research reports or
commonly called a thesis report can be grouped by theme, object or method of the research. The
process of extracting this thesis is done by using text mining technology. Then the process of grouping
thesis document can be done by using k-means clustering method on a set of thesis documents by
taking abstract, keywords and table of contents as an important information that represents the
content of the document. Then the document will be done preprocessing first by using text mining
method. To process the preprocessing is divided into several parts, namely tokenisasi, filtering,
stemming and term weighting. After the document passes through the preprocessing process, then the
document can be grouped by using the method of k-means clustering. In this experiment, trials are
conducted by entering the number of clusters that vary. From the results of the analysis by entering
the different cluster values have obtained the optimal value by entering the number of 𝑘 = 4 with the
resulting silhouette value 0,483695522.
Keywords: k-means clustering, silhouette coefficient, clustering document, text mining
dalam sebuah repository perpustakaan metode text mining sebagai preprocessing nya.
Universitas. Berbagai karya ilmiah dari sivitas Begitu juga karena K-Means telah dikenal
akademika mulai dari skripsi, laporan sebagai metode clustering yang sangat effisien,
penelitian, laporan kerja praktik dan lain maka K-Means menjadi metode yang
sebagainya telah tersedia dalam versi digital. diperhitungkan dalam melakukan clustering.
Setiap tahun Universitas Brawijaya telah
meluluskan banyak mahasiswa dengan 2. KAJIAN PUSTAKA
penelitian yang beragam. Dan setiap tahunnya
jumlah laporan skripsi selalu bertambah. 2.1 Text Preprocessing
Semakin bertambahnya penelitian skripsi ini Text preprocessing merupakan salah satu
menumbuhkan peluang semakin banyaknya komponen dalam text mining. Text
mahasiswa yang mengambil penelitian dengan preprocessing dilakukan untuk mengubah data
tema, objek dan metode penelitian yang mirip tekstual yang tidak terstruktur ke dalam data
atau hampir sama. yang terstruktur dan disimpan kedalam basis
Pada penelitian ini data yang digunakan data (Langgeni, Baizal dan Firdaus, 2010).
berupa dokumen teks, maka text mining adalah Tujuan dari preprocessing yakni menghasilkan
metode yang bisa digunakan untuk melakukan sebuah set term index yang bisa mewakili
data preprocessing. Menurut Rijbergen (1979) dokumen. Komponen dari text preprocessing
bahwa penerapan clustering dokumen dapat dibagi menjadi beberapa bagian, yaitu:
meningkatkan efektifitas temu kembali
informasi. Dengan mengacu pada suatu
hipotesis (cluster-hypothesis) bahwa dokumen
2.1.1 Tokenisasi
Tokenisasi adalah proses pemotongan
yang relevan akan cenderung berada pada
string input berdasarkan tiap kata penyusunnya.
cluster yang sama jika sebuah koleksi dokumen
Pada prinsipnya proses ini adalah memisahkan
telah dilakukan clustering. Selama ini seleksi
setiap kata yang menyusun suatu dokumen
penelitian yang dilakukan oleh dosen
(Asian, 2007). Pada proses ini juga dilakukan
pembimbing skripsi masih terbilang manual.
penghilangan angka, tanda baca dan karakter
Seleksi yang dilakukan dosen pembimbing
lain selain huruf alphabet. Hal ini dikarenakan
berdasarkan pengalaman dari mahasiswa yang
karakter-karakter tersebut dianggap sebagai
pernah dibimbing saja. Sementara untuk
pemisah kata (delimiter) dan tidak memiliki
peluang kemiripan dengan penelitian antar
pengaruh terhadap pemrosesan teks.
dosen pembimbing tidak diketahui. Dengan
mengacu pada pengelompokan laporan skripsi
ini, diharapkan dosen bisa lebih variatif dalam 2.1.2 Filtering
menyetujui proposal penelitian yang akan Filtering adalah tahap pemilihan kata-kata
dilakukan oleh mahasiswa antar pembimbing. penting dari hasil token, yaitu kata-kata yang
Menurut Alfiana, Santoso dan Ali Ridho bisa digunakan untuk mewakili isi dari sebuah
B (2012) metode K-means merupakan metode dokumen. Proses filtering juga biasa disebut
clustering yang cukup sederhana dan umum sebagai stopword removal. Pada proses ini,
dalam penggunaannya. K-means seringkali terdapat dua teknik yang bisa dilakukan yaitu
digunakan dalam permasalahan clustering stop list dan word list. Stop list yaitu membuang
dikarenakan mempunyai kemampuan kata yang tidak deskriptif atau tidak penting.
mengelompokkan data dalam jumlah yang Sedangkan word list yaitu menyimpang kata
cukup besar dan dengan waktu komputasi yang yang dianggap penting.
relatif cepat serta efisien.
Berdasarkan permasalahan diatas, solusi 2.1.3 Stemming
yang ditawarkan yaitu dengan Stemming adalah proses pengubahan
mengelompokkan dokumen skripsi bentuk kata menjadi kata dasar atau tahap
menggunakan sistem. Sehingga dapat menjadi mencari root kata dari setiap kata hasil filtering.
acuan bagi tiap dosen pembimbing dalam Proses stemming secara luas sudah digunakan
menerima pengajuan penelitian baru. Hal ini di dalam Information retrieval (pencarian
dimaksudkan agar penelitian bisa lebih variatif informasi) untuk meningkatkan kualitas
setiap tahunnya. Dikarenakan penelitian ini informasi yang akan didapatkan. Dengan
menggunakan dokumen teks sebagai data dilakukannya proses stemming ini, setiap kata
penelitian, maka penelitian ini membutuhkan yang berimbuhan akan berubah menjadi kata
b. Kemudian menghitung jarak objek dengan Pada penelitian ini, program dibuat
semua dokumen antar cluster dengan menggunakan Bahasa pemrograman PHP. Dan
menggunakan persamaan (7) data yang nantinya diproses akan disimpan
menggunakan database MySql. Pengguna dapat
1 berinteraksi dengan program melalui antarmuka
𝑑(𝑖, 𝐶) = [𝐴] ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗) (7)
yang telah dibuat. Antarmuka yang dibuat
antara lain:
c. Kemudian menghitung nilai silhouette 1. Halaman home sistem
Pada halaman awal sistem ini akan fakultas yang antara lain: sepuluh dokumen
langsung menampilkan dokumen yang skripsi Fakultas Ilmu Komputer, sepuluh
telah tersimpan di dalam database. dokumen skripsi berikutnya dari Fakultas
Dokumen ini dapat di edit, di update atau Ekonomi dan Bisnis dan sepuluh dokumen
di hapus. Kemudian pada halaman ini juga berikutnya dari Fakultas Kedokteran Gigi.
tersedia tombol untuk input dokumen baru. Dokumen yang didapat sudah berbentuk
Gambar 2 menampilkan halaman utama word dan setiap dokumen skripsi sudah terbagi
sistem. menjadi beberapa bagian, misal: bagian abstrak
2. Halaman input dokumen pada file sendiri, bagian daftar isi pada file
Untuk memasukkan dokumen baru, sendiri dan bagian-bagian lain yang terpisah.
pengguna harus masuk pada halaman awal Dokumen yang terpisah tersebut memudahkan
terlebih dahulu. Kemudian pengguna penelitian ini.
diharuskan menekan tombol tambahkan
data yang telah disediakan pada halaman 3.2. Metode yang digunakan
tersebut. Pada penelitian ini menggunakan metode
3. Halaman stopword list text mining sebagai text preprocessing nya.
Halaman ini berisi kumpulan stopword Kemudian TF-IDF digunakan sebagai
yang digunakan pada program penelitian pembobotan kata. Dan untuk pengelompokan
ini. dokumen skripsi menggunakan metode k-means
4. Halaman clustering clustering.
Pada halaman clustering tersedia beberapa Untuk pertama kali dokumen akan
fitur. Fitur utama yaitu pengguna dapat dilakukan text preprocessing seperti yang telah
memasukkan jumlah cluster sesuai yang dijelaskan pada bagian Dasar Teori. Kemudian
diinginkan. Dibawah kolom input cluster hasil dari preprocessing akan menghasilkan
tersedia kolom yang akan menampilkan kata atau term yang nantinya akan disimpan
jumlah dokumen yang tersedia didalam dalam database. Kemudian kata atau term ini
database. Sehingga jumlah cluster bisa dihitung bobotnya menggunakan metode dari
diperkirakan. Untuk fitur selanjutnya yaitu text mining yaitu TF-IDF.
perhitungan cluster untuk dokumen yang Setelah dokumen memiliki bobot, langkah
berada pada database. Setelah cluster selanjutnya yaitu mengelompokkan dokumen
dokumen didapatkan, pengguna dapat tersebut berdasarkan bobot nilai yang telah
melanjutkan pada fitur pengujian cluster. dihitung sebelumnya. Pengelompokan ini
Pengujian ini bertujuan untuk menguji dilakukan dengan menggunakan metode k-
hasil dari cluster yang didapatkan apakah means clustering. Dan untuk perhitungan
sudah mendapatkan nilai yang optimal atau similarity nya menggunakan metode cosine
masih belum. similarity.
Setelah hasil clustering dokumen
didapatkan, perhitungan selanjutnya yaitu
pengujian menggunakan metode silhouette
coefficient. Silhouette coefficient akan
membandingkan dokumen dengan dokumen
lain baik yang di dalam cluster maupun diluar
cluster. Tujuan dari perbandingan ini yaitu
mengetahui jarak kesamaan antar dokumen
yang berada dalam satu cluster maupun luar
Gambar 2. Halaman awal sistem cluster. Sehingga diketahui hasil cluster telah
optimal atau belum.
3.1. Data yang digunakan
4. HASIL DAN PEMBAHASAN
Pada penelitian ini menggunakan data
berupa dokumen skripsi berbentuk digital yang Pada penelitian ini telah didapatkan hasil
ddidapat dari perpustakaan pusat Universitas clustering dari 30 dokumen skripsi dari tiga
Brawijaya. Jumlah dari dokumen skripsi yang fakultas di Universitas Brawijaya. kemudian
digunakan pada penelitian ini berjumlah 30 hasil clustering yang didapatkan akan di uji
dokumen. Dokumen tersebut terdiri dari tiga menggunakan metode silhouette coefficient.
0,789205375
0,4 k=3
0,886371513
0,2 k=4
-0,271904049
0 k=5
-0,094318095
k=6
No -0,2
𝑘5 = 6 -0,132618233 -0,082242617 Nilai k
Structure k=8
-0,214597801
0,302225093 Gambar 2. Grafik hasil pengujian nilai k
6. DAFTAR PUSTAKA
Agusta & Ledy., 2009. Perbandingan
Algoritme Stemming Porter dengan
Algoritme Nazief & Adriani untuk
Stemming Dokumen Teks Bahasa
Indonesia. Bali : Konferensi Nasional
Sistem dan Informatika.
Alfina, T., Santosa, B. & Ridho, A.B., 2012.
Analisa Perbandingan Metode
Hierarchical Clustering, K-means dan
Gabungan Keduanya dalam Cluster Data.
Jurnal Teknik ITS. Vol. 1.
Asian, J., 2007. Effective Techniques for
Indonesian Text Retrieval. PhD. Royal
Melbourne Institute of Technology
University.
Hamzah, A., Soesianto, F., Susanto, A. & Eko,
J.E., 2008. Studi Kinerja Fungsi-Fungsi
Jarak Dalam Clustering Dokumen Teks
Berbahasa Indonesia. Seminar Nasional
Informatika. ISSN: 1979-2328.
Yogyakarta: UPN “Veteran”.
Han, J &Kamber, M., 2006. Data Mining
Concept and Techniques Second Edition.