Anda di halaman 1dari 7

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 2, No. 11, November 2018, hlm. 5518-5524 http://j-ptiik.ub.ac.id

Implementasi Metode Text Mining dan K-Means Clustering untuk


Pengelompokan Dokumen Skripsi (Studi Kasus: Universitas Brawijaya)
Muhammad Sholeh hudin1, M Ali Fauzi2, Sigit Adinugroho3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: 1msholehhudin.ms@gmail.com, 2moch.ali.fauzi@ub.ac.id, 3sigit.adinu@ub.ac.id

Abstrak
Penelitian atau tugas akhir7 merupakan syarat kelulusan7 mahasiswa. Setiap tahun 7penelitian
menjadi bertambah7 dan memungkinkan mahasiswa 7mengambil topik yang sama7 atau hampir
serupa. Melalui penelitian ini dikembangkan sebuah aplikasi untuk mengelompokkan laporan skripsi
mahasiswa. Hasil dari pengelompokan laporan skripsi ini akan memperlihatkan bagaimana pola
kemiripan dan keterkaitan antar penelitian dari waktu ke waktu. Hasil dari pengelompokan ini juga
menunjukkan kapan tema penelitian mahasiswa menjadi bervariasi dan kapan tema penelitian menjadi
kurang bervariasi. Laporan penelitian mahasiswa atau biasa disebut dengan laporan skripsi dapat
dikelompokkan berdasarkan tema, objek maupun metode dari penelitian tersebut. Proses ekstraksi
dokumen skripsi ini dilakukan dengan memanfaatkan teknologi dari text mining. Lalu untuk proses
pengelompokan dokumen skripsi ini dilakukan dengan menggunakan metode k-means clustering pada
sekumpulan dokumen skripsi dengan mengambil abstrak, kata kunci dan daftar isi sebagai informasi
penting yang dapat mewakili isi dari dokumen. Lalu dokumen akan dilakukan preprocessing terlebih
dahulu dengan menggunakan metode text mining. Untuk tahap preprocessing dibagi menjadi beberapa
bagian, yakni tokenisasi, filtering, stemming dan term weighting. Setelah dokumen melewati tahap
preprocessing, maka dokumen dapat dikelompokkan dengan menggunakan metode dari k-means
clustering. Pada penelitian ini uji coba dilakukan dengan memasukkan jumlah cluster yang bervariasi.
Dari hasil analisis dengan memasukkan nilai cluster yang berbeda telah didapatkan nilai optimal
dengan memasukkan jumlah 𝑘 = 4 dengan nilai silhouette yang dihasilkan 0,483695522.
Kata kunci: k-means clustering, silhouette coefficient, clustering dokumen, text mining

Abstract
Research or final assignment is a requirement of graduation students. Every year the research
becomes increasing and allows the students to take the same or similar topics. Through this research
developed an application to classify student thesis reports. The results of this grouping also indicate
that the themes are varied and when the themes becomes non-varied. Student research reports or
commonly called a thesis report can be grouped by theme, object or method of the research. The
process of extracting this thesis is done by using text mining technology. Then the process of grouping
thesis document can be done by using k-means clustering method on a set of thesis documents by
taking abstract, keywords and table of contents as an important information that represents the
content of the document. Then the document will be done preprocessing first by using text mining
method. To process the preprocessing is divided into several parts, namely tokenisasi, filtering,
stemming and term weighting. After the document passes through the preprocessing process, then the
document can be grouped by using the method of k-means clustering. In this experiment, trials are
conducted by entering the number of clusters that vary. From the results of the analysis by entering
the different cluster values have obtained the optimal value by entering the number of 𝑘 = 4 with the
resulting silhouette value 0,483695522.
Keywords: k-means clustering, silhouette coefficient, clustering document, text mining

berkembang begitu pesat. Perkembangan


1. PENDAHULUAN teknologi ini menyebabkan terjadinya ledakan
Perkembangan teknologi saat ini sudah jumlah dokumen elektronik yang tersimpan di

Fakultas Ilmu Komputer


Universitas Brawijaya 5518
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 5519

dalam sebuah repository perpustakaan metode text mining sebagai preprocessing nya.
Universitas. Berbagai karya ilmiah dari sivitas Begitu juga karena K-Means telah dikenal
akademika mulai dari skripsi, laporan sebagai metode clustering yang sangat effisien,
penelitian, laporan kerja praktik dan lain maka K-Means menjadi metode yang
sebagainya telah tersedia dalam versi digital. diperhitungkan dalam melakukan clustering.
Setiap tahun Universitas Brawijaya telah
meluluskan banyak mahasiswa dengan 2. KAJIAN PUSTAKA
penelitian yang beragam. Dan setiap tahunnya
jumlah laporan skripsi selalu bertambah. 2.1 Text Preprocessing
Semakin bertambahnya penelitian skripsi ini Text preprocessing merupakan salah satu
menumbuhkan peluang semakin banyaknya komponen dalam text mining. Text
mahasiswa yang mengambil penelitian dengan preprocessing dilakukan untuk mengubah data
tema, objek dan metode penelitian yang mirip tekstual yang tidak terstruktur ke dalam data
atau hampir sama. yang terstruktur dan disimpan kedalam basis
Pada penelitian ini data yang digunakan data (Langgeni, Baizal dan Firdaus, 2010).
berupa dokumen teks, maka text mining adalah Tujuan dari preprocessing yakni menghasilkan
metode yang bisa digunakan untuk melakukan sebuah set term index yang bisa mewakili
data preprocessing. Menurut Rijbergen (1979) dokumen. Komponen dari text preprocessing
bahwa penerapan clustering dokumen dapat dibagi menjadi beberapa bagian, yaitu:
meningkatkan efektifitas temu kembali
informasi. Dengan mengacu pada suatu
hipotesis (cluster-hypothesis) bahwa dokumen
2.1.1 Tokenisasi
Tokenisasi adalah proses pemotongan
yang relevan akan cenderung berada pada
string input berdasarkan tiap kata penyusunnya.
cluster yang sama jika sebuah koleksi dokumen
Pada prinsipnya proses ini adalah memisahkan
telah dilakukan clustering. Selama ini seleksi
setiap kata yang menyusun suatu dokumen
penelitian yang dilakukan oleh dosen
(Asian, 2007). Pada proses ini juga dilakukan
pembimbing skripsi masih terbilang manual.
penghilangan angka, tanda baca dan karakter
Seleksi yang dilakukan dosen pembimbing
lain selain huruf alphabet. Hal ini dikarenakan
berdasarkan pengalaman dari mahasiswa yang
karakter-karakter tersebut dianggap sebagai
pernah dibimbing saja. Sementara untuk
pemisah kata (delimiter) dan tidak memiliki
peluang kemiripan dengan penelitian antar
pengaruh terhadap pemrosesan teks.
dosen pembimbing tidak diketahui. Dengan
mengacu pada pengelompokan laporan skripsi
ini, diharapkan dosen bisa lebih variatif dalam 2.1.2 Filtering
menyetujui proposal penelitian yang akan Filtering adalah tahap pemilihan kata-kata
dilakukan oleh mahasiswa antar pembimbing. penting dari hasil token, yaitu kata-kata yang
Menurut Alfiana, Santoso dan Ali Ridho bisa digunakan untuk mewakili isi dari sebuah
B (2012) metode K-means merupakan metode dokumen. Proses filtering juga biasa disebut
clustering yang cukup sederhana dan umum sebagai stopword removal. Pada proses ini,
dalam penggunaannya. K-means seringkali terdapat dua teknik yang bisa dilakukan yaitu
digunakan dalam permasalahan clustering stop list dan word list. Stop list yaitu membuang
dikarenakan mempunyai kemampuan kata yang tidak deskriptif atau tidak penting.
mengelompokkan data dalam jumlah yang Sedangkan word list yaitu menyimpang kata
cukup besar dan dengan waktu komputasi yang yang dianggap penting.
relatif cepat serta efisien.
Berdasarkan permasalahan diatas, solusi 2.1.3 Stemming
yang ditawarkan yaitu dengan Stemming adalah proses pengubahan
mengelompokkan dokumen skripsi bentuk kata menjadi kata dasar atau tahap
menggunakan sistem. Sehingga dapat menjadi mencari root kata dari setiap kata hasil filtering.
acuan bagi tiap dosen pembimbing dalam Proses stemming secara luas sudah digunakan
menerima pengajuan penelitian baru. Hal ini di dalam Information retrieval (pencarian
dimaksudkan agar penelitian bisa lebih variatif informasi) untuk meningkatkan kualitas
setiap tahunnya. Dikarenakan penelitian ini informasi yang akan didapatkan. Dengan
menggunakan dokumen teks sebagai data dilakukannya proses stemming ini, setiap kata
penelitian, maka penelitian ini membutuhkan yang berimbuhan akan berubah menjadi kata

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 5520

dasar. Dengan demikian dapat lebih 𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10 𝑁/𝑑𝑓𝑡 (2)


mengoptimalkan proses text mining.
Pada penelitian ini akan digunakan
algoritme stemming porter. Berikut langkah- d. TF-IDF
langkah algoritme porter seperti pada penelitian Weight Term Document atau biasa yang
yang dilakukan oleh Agusta dan Ledy (2009) disebut TF-IDF dari suatu term atau token atau
adalah sebagai berikut: kata merupakan hasil perkalian antara tf weight
1. Hapus Particle. dengan idf. Rumus pada persamaan (3)
2. Hapus Possesive Pronoun.
3. Hapus awalan pertama. Jika tidak ada
lanjutkan ke langkah 4a, jika ada maka 𝑊𝑡,𝑑 = 𝑊𝑡,𝑓 × 𝑖𝑑𝑓𝑡
= 𝑊𝑡,𝑓 × 𝑙𝑜𝑔10 𝑁/𝑑𝑓𝑡 (3)
lanjutkan ke langkah 4b.
4. a. Hapus awalan kedua. lanjutkan ke
langkah 5a.
2.2 K-means Clustering
b. Hapus akhiran. jika tidak ditemukan maka
Clustering merupakan proses
kata tersebut diasumsikan sebagai root
mengelompokkan atau penggolongan objek
word. Jika ditemukan maka lanjutkan ke
berdasarkan informasi yang diperoleh dari data
langkah 5b.
yang menjelaskan hubungan antar objek dengan
5. a. Hapus akhiran. Kemudian kata akhir
prinsip untuk memaksimalkan kesamaan antar
diasumsikan sebagai root word
anggota satu kelas atau cluster dan
b. Hapus awalan kedua. Kemudian kata akhir
meminimumkan kesamaan antar cluster
diasumsikan sebagai root word.
menurut Tan, Steinbach dan Kumar (2006).
Sementara clustering akan membagi data ke
2.1.4 Term Weighting dalam grup-grup yang mempunyai objek yang
Term weighting adalah suatu pembobotan karakteristiknya sama.
kata dalam suatu dokumen yang biasa Menurut Han & Kamber (2006), algoritme
digunakan dalam algoritme text mining (Asian, k-means bekerja dengan cara membagi data ke
2007). dalam k buah cluster yang telah ditentukan.
Langkah untuk melakukan pembobotan Perhitungan jarak yang digunakan dalam
dibagi menjadi beberapa bagian , yaitu penelitian ini adalah cosine similarity. Tahap-
tahap Algoritme dasar k-means seperti berikut:
a. Term Frequency 1. Tentukan jumlah k sebagai cluster yang
Term Frequency (TF) adalah frekuensi dari ingin dibentuk.
kemunculan sebuah term (kata/frasa) dalam
dokumen yang bersangkutan. Semakin besar 2. Menentukan pusat cluster secara acak
jumlah kemunculan suatu term dalam dokumen, sebanyak k.
maka semakin besar pula bobotnya. 3. Menentukan jarak setiap data terhadap
pusat cluster(centroid)
b. Term Weighting
Term Weighting yaitu menghitung bobot 4. Mengelompokkan setiap data yang
dari setiap term yang telah disimpan. Untuk bersangkutan berdasarkan kedekatannya
mendapatkan bobot dari term dapat digunakan dengan centroid (jarak terkecil).
persamaan (1) 5. Menentukan pusat cluster baru.
Memperbaharui nilai centrid dari rata-rata
cluster yang bersangkutan dengan
1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 menggunakan persamaan (4)
𝑊𝑡,𝑓 = { (1)
0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
1
c. Inverse Document Frequency 𝑦𝑗 (𝑡 + 1) = ∑ jϵsj 𝑥𝑗 (4)
𝑁𝑠𝑗
Inverse Document Frequency atau biasa
disebut dengan IDF ini merupakan dokumen 6. Ulangi langkah 3 hingga 5 sampai anggota
yang mengandung term atau token atau kata t. yang ada pada tiap cluster tidak berubah.
Untuk mendapatkan nilai IDF dapat digunakan
persamaan (2) 7. Jika langkah 6 sudah terpenuhi, maka nilai
pusat cluster pada perulangan terakhir akan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 5521

digunakan sebagai parameter untuk dengan menggunaan persamaan (8)


kelompok dokumen skripsi.
𝑏(𝑖)−𝑎(𝑖)
2.3 Cosine Similarity 𝑠(𝑖) = (8)
max(𝑎(𝑖),𝑏(𝑖)

Cosine Similarity merupakan fungsi yang


digunakan untuk menghitung besarnya derajat 3. DATA DAN METODE
kemiripan di antara dua vektor (dokumen
dengan query/dokumen dengan dokumen). Berdasarkan Gambar (1) menjelaskan
Pada penelitian yang dilakukan oleh Amir tahapan-tahapan yang dilakukan dalam
Hamzah et al. (2008) menghasilkan output pengelompokan dokumen skripsi pada
bahwa perhitungan jarak terbaik dapat penelitian ini. Dalam tahap preprocessing akan
dilakukan dengan menggunakan cosine dilakukan sub proses lagi seperti yang telah
similarity. Untuk menghitung similarity dijelaskan pada bagian sebelumya. Begitupun
digunakan persamaan (5) dengan tahap term weighting juga ada sub
proses yang dilakukan dalam sistem seperti
yang telah dijelaskan pada bagian bab
→→
𝑑𝑗 ⋅ 𝑞 ∑𝑖𝑖=1(𝑊𝑖𝑗 ⋅ 𝑊𝑖𝑞 ) sebelumnya.
𝑐𝑜𝑠𝑆𝑖𝑚 (𝑑𝑗 , 𝑞) = = (5)
𝑡
|→| ⋅|→|
𝑑𝑗 𝑞
√∑𝑖=1 𝑊𝑖𝑗 2 ⋅ ∑𝑡𝑖=1 𝑊𝑖𝑞2
Mulai

2.4 Silhouette Coefficient


Silhoutte Coefficient merupakan salah satu Masukan
metode yang digunakan untuk menguji kualitas dokumen
dan kekuatan dari sebuah cluster. Metode
silhouette coefficient merupakan gabungan dari Masukan
metode cohesion dan metode separation. Jumlah K
Metode cohesion sendiri merupakan suatu
metode yang digunakan untuk mengukur
seberapa dekat relasi antar objek dalam satu Preprocessing
cluster yang sama. Sedangkan metode
separation digunakan untuk mengukur seberapa
jauh sebuah cluster terpisah dengan cluster Term Weighting
yang lain.
Silhouette memiliki tiga tahap dalam
Klasterisasi
perhitungannya, Berikut tahap perhitungan k-means
silhouette coefficient menurut Handoyo et. al
(2014):
a. Menghitung rata-rata jarak objek dengan Hasil
semua dokumen yang berada dalam satu Klasterisasi
cluster dengan menggunakan persamaan
(6)
Selesai
1
𝑎(𝑖) = [𝐴]−1 ∑ 𝑗 ∈𝐴,𝑗≠𝑖 𝑑(𝑖, 𝑗) (6)
Gambar 1. Diagram Alir Sistem

b. Kemudian menghitung jarak objek dengan Pada penelitian ini, program dibuat
semua dokumen antar cluster dengan menggunakan Bahasa pemrograman PHP. Dan
menggunakan persamaan (7) data yang nantinya diproses akan disimpan
menggunakan database MySql. Pengguna dapat
1 berinteraksi dengan program melalui antarmuka
𝑑(𝑖, 𝐶) = [𝐴] ∑ 𝑗 ∈ 𝐶 𝑑(𝑖, 𝑗) (7)
yang telah dibuat. Antarmuka yang dibuat
antara lain:
c. Kemudian menghitung nilai silhouette 1. Halaman home sistem

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 5522

Pada halaman awal sistem ini akan fakultas yang antara lain: sepuluh dokumen
langsung menampilkan dokumen yang skripsi Fakultas Ilmu Komputer, sepuluh
telah tersimpan di dalam database. dokumen skripsi berikutnya dari Fakultas
Dokumen ini dapat di edit, di update atau Ekonomi dan Bisnis dan sepuluh dokumen
di hapus. Kemudian pada halaman ini juga berikutnya dari Fakultas Kedokteran Gigi.
tersedia tombol untuk input dokumen baru. Dokumen yang didapat sudah berbentuk
Gambar 2 menampilkan halaman utama word dan setiap dokumen skripsi sudah terbagi
sistem. menjadi beberapa bagian, misal: bagian abstrak
2. Halaman input dokumen pada file sendiri, bagian daftar isi pada file
Untuk memasukkan dokumen baru, sendiri dan bagian-bagian lain yang terpisah.
pengguna harus masuk pada halaman awal Dokumen yang terpisah tersebut memudahkan
terlebih dahulu. Kemudian pengguna penelitian ini.
diharuskan menekan tombol tambahkan
data yang telah disediakan pada halaman 3.2. Metode yang digunakan
tersebut. Pada penelitian ini menggunakan metode
3. Halaman stopword list text mining sebagai text preprocessing nya.
Halaman ini berisi kumpulan stopword Kemudian TF-IDF digunakan sebagai
yang digunakan pada program penelitian pembobotan kata. Dan untuk pengelompokan
ini. dokumen skripsi menggunakan metode k-means
4. Halaman clustering clustering.
Pada halaman clustering tersedia beberapa Untuk pertama kali dokumen akan
fitur. Fitur utama yaitu pengguna dapat dilakukan text preprocessing seperti yang telah
memasukkan jumlah cluster sesuai yang dijelaskan pada bagian Dasar Teori. Kemudian
diinginkan. Dibawah kolom input cluster hasil dari preprocessing akan menghasilkan
tersedia kolom yang akan menampilkan kata atau term yang nantinya akan disimpan
jumlah dokumen yang tersedia didalam dalam database. Kemudian kata atau term ini
database. Sehingga jumlah cluster bisa dihitung bobotnya menggunakan metode dari
diperkirakan. Untuk fitur selanjutnya yaitu text mining yaitu TF-IDF.
perhitungan cluster untuk dokumen yang Setelah dokumen memiliki bobot, langkah
berada pada database. Setelah cluster selanjutnya yaitu mengelompokkan dokumen
dokumen didapatkan, pengguna dapat tersebut berdasarkan bobot nilai yang telah
melanjutkan pada fitur pengujian cluster. dihitung sebelumnya. Pengelompokan ini
Pengujian ini bertujuan untuk menguji dilakukan dengan menggunakan metode k-
hasil dari cluster yang didapatkan apakah means clustering. Dan untuk perhitungan
sudah mendapatkan nilai yang optimal atau similarity nya menggunakan metode cosine
masih belum. similarity.
Setelah hasil clustering dokumen
didapatkan, perhitungan selanjutnya yaitu
pengujian menggunakan metode silhouette
coefficient. Silhouette coefficient akan
membandingkan dokumen dengan dokumen
lain baik yang di dalam cluster maupun diluar
cluster. Tujuan dari perbandingan ini yaitu
mengetahui jarak kesamaan antar dokumen
yang berada dalam satu cluster maupun luar
Gambar 2. Halaman awal sistem cluster. Sehingga diketahui hasil cluster telah
optimal atau belum.
3.1. Data yang digunakan
4. HASIL DAN PEMBAHASAN
Pada penelitian ini menggunakan data
berupa dokumen skripsi berbentuk digital yang Pada penelitian ini telah didapatkan hasil
ddidapat dari perpustakaan pusat Universitas clustering dari 30 dokumen skripsi dari tiga
Brawijaya. Jumlah dari dokumen skripsi yang fakultas di Universitas Brawijaya. kemudian
digunakan pada penelitian ini berjumlah 30 hasil clustering yang didapatkan akan di uji
dokumen. Dokumen tersebut terdiri dari tiga menggunakan metode silhouette coefficient.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 5523

Pada pengujian ini akan dilakukan dengan -0,341447405


memasukkan nilai k yang bervariasi sebanyak 6
-0,14167285
kali. Untuk setiap nilai 𝑘 akan dilakukan 5 kali
percobaan. Untuk hasil dari percobaan bisa 0,143021046
dilihat pada Tabel 1.
Dari percobaan diatas dapat disimpulkan
Tabel 1. Pengujian nilai k
structure dari masing-masing cluster dengan
Nilai Silhouette Nilai
Rata-Rata menggunakan teori dari Kaufman dan
𝒌𝒊 Coefficient Structure
Rouseeuw (2007).
-0,007265344 Dengan mengacu pada Tabel 1 diatas dapat
-0,013732242 disimpulkan variasi hasil dari setiap nilai 𝑘.
No Nilai optimal didapatkan ketika 𝑘 berjumlah 4.
𝑘1 = 2 -0,01903316 -0,012063262 Nilai 𝑘 yang berada dibawah 4 tidak memiliki
Structure
-0,015212198 structure ketika diuji menggunakan silhouette
coefficient. Begitu pula ketika jumlah k diatas 4
-0,005073366 juga tidak memiliki structure (Kauffman &
0,328257208 Rouseeuw, 2007). Hal ini dikarenakan pada
penelitian ini menggunakan dataset dokumen
-0,118741627 berjumlah 30 dokumen. Ketika nilai 𝑘
No berjumlah sedikit, maka dokumen yang
𝑘2 = 3 0,237898925 0,123911267
Structure
memiliki similaritas tinggi maupun tidak akan
-0,15997194
berada pada satu cluster yang sama. Begitu pula
0,33211377 ketika nilai cluster yang dimasukkan semakin
banyak, maka dokumen yang memiliki
0,360513287
similaritas tinggi dan seharusnya berada pada
0,583790633 satu cluster akan terpecah dan berada pada
Weak cluster yang berbeda.
𝑘3 = 4 0,82017191 0,483695522
Structure Dari hasil pengujian nilai 𝑘 yang
0,232423065 ditampilkan pada Tabel 1. dapat diambil
kesimpulan bahwa pada sistem ini nilai 𝑘 yang
0,421578712
optimal terletak pada 𝑘 = 4. Hasil tersebut
-0,501478113 dapat ditampilkan dengan menggunakan grafik
-0,439431821
seperti pada Gambar 2.
No
𝑘4 = 5 0,14490715 0,175914821
Structure 0,6 k=2
Nilai Silhoutte Coefficient

0,789205375
0,4 k=3
0,886371513
0,2 k=4
-0,271904049
0 k=5
-0,094318095
k=6
No -0,2
𝑘5 = 6 -0,132618233 -0,082242617 Nilai k
Structure k=8
-0,214597801
0,302225093 Gambar 2. Grafik hasil pengujian nilai k

Tabel 1. Pengujian nilai k (Lanjutan)


5. KESIMPULAN DAN SARAN
Nilai Silhouette Nilai
Rata-Rata Dari uji coba yang dilakukan pada bab
𝒌𝒊 Coefficient Structure
sebelumnya dapat diambil kesimpulan bahwa
-0,168183135 No clustering dokumen menggunakan k-means
𝑘6 = 8 -0,132422789 clustering dapat dilakukan pada dokumen
-0,1538316 Structure
skripsi. Sistem dapat mengelompokkan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 5524

dokumen dengan menggunakan algoritme k- Burlington : Morgan Kaufman Publishers.


means clustering dan text mining. Dokumen Handoyo, R., Rumani, R.M. & Michrandi, S.N.
skripsi akan dikelompokkan dengan mengambil 2014. Perbandingan Metode Clustering
bagian-bagian terpenting seperti, abstrak, kata Menggunakan Metode Single Linkage dan
kunci dan daftar isi sebagai intisari dokumen. K-Means pada Pengelompokan Dokumen.
Dari hasil analisis dengan memasukkan JSM STMIIK Mikroskil. Vol. 15, No. 2.
nilai cluster yang bervariasi telah didapatkan Kaufman, L & Rousseuw, P. J., 1990. Finding
nilai optimal dengan memasukkan jumlah 𝑘 = Groups in Data. New York: John Wiley
4dengan nilai silhouette yang dihasilkan & Sons.
0,483695522. Dari hasil tersebut dapat Langgeni, Baizal & Firdaus., 2010. Clustering
disimpulkan bahwa nilai 𝑘 yang sedikit akan Artikel Berita Berbahasa Indonesia
menghasilkan cluster yang kurang bagus. Menggunakan Unsupervised Feature
Begitu pula ketika memasukkan nilai 𝑘 yang Selection. Yogyakarta : Seminar Nasional
terlalu besar juga akan merusak pengelompokan Informatika.
dokumen yang seharusnya berada pada satu Rijbergen, C. J., 1979. Information Retrieval.
cluster menjadi terpisah antar cluster. UK : Information Retrieval Group,
Dari hasil analisis, dapat disimpulkan University of Glasgow.
bahwa metode text mining dengan Tan, P.N., Steinbach, M. & Kumar, V.,
menggunakan kata atau term sebagai fitur akan 2006. Introduction to Data Mining.
menghasilkan dimensi vektor yang cukup besar. Boston : Pearson Education
Sehingga membuat algoritme cosine similarity
menjadi kurang optimal dalam menemukan
kesamaan antar dokumen. Sehingga disarankan
untuk menambahkan metode yang dapat
mereduksi ukuran dimensi yang cukup besar
tersebut. Secara umum ada dua tipe metode
reduksi yang biasa digunakan antara lain
transformasi fitur dan feature selection.

6. DAFTAR PUSTAKA
Agusta & Ledy., 2009. Perbandingan
Algoritme Stemming Porter dengan
Algoritme Nazief & Adriani untuk
Stemming Dokumen Teks Bahasa
Indonesia. Bali : Konferensi Nasional
Sistem dan Informatika.
Alfina, T., Santosa, B. & Ridho, A.B., 2012.
Analisa Perbandingan Metode
Hierarchical Clustering, K-means dan
Gabungan Keduanya dalam Cluster Data.
Jurnal Teknik ITS. Vol. 1.
Asian, J., 2007. Effective Techniques for
Indonesian Text Retrieval. PhD. Royal
Melbourne Institute of Technology
University.
Hamzah, A., Soesianto, F., Susanto, A. & Eko,
J.E., 2008. Studi Kinerja Fungsi-Fungsi
Jarak Dalam Clustering Dokumen Teks
Berbahasa Indonesia. Seminar Nasional
Informatika. ISSN: 1979-2328.
Yogyakarta: UPN “Veteran”.
Han, J &Kamber, M., 2006. Data Mining
Concept and Techniques Second Edition.

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai