Anda di halaman 1dari 9

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING

DOKUMEN E-JURNAL STMIK GI MDP

Ernie Kurniawan (deepblue_nie_k@yahoo.com), Maria Fransiska


(mariafransiska09@yahoo.com)
Tinaliah (tinaliah@mdp.ac.id), Rachmansyah (rachmansyah@gmail.com)
Program Studi Teknik Informatika
STMIK GI MDP

Abstrak : Banyaknya dokumen jurnal yang terus bertambah membuat pengelompokkan dokumen jurnal
semakin sulit karena memperlambat pencarian dokumen. Oleh karena itu, pengelompokkan dokumen jurnal
diperlukan untuk mempercepat pencarian yang diperoleh dari query yang diinput pengguna dan menghasilkan
hasil yang relevan dengan query tersebut. Penelitian ini bertujuan untuk menerapkan algoritma K-Means
dalam mengelompokkan dokumen jurnal yang sesuai dengan query yang diinput sehingga menghasilkan
kelompok-kelompok yang sesuai dengan query. Dalam prosesnya dilakukan tahap preprocessing yaitu
tokenization, penghilangan stopwords dan stemming. Selanjutnya, pengelompokkan dokumen dilakukan
dengan algoritma K-Means menggunakan bahasa pemrograman PHP dengan menggunakan proses stemming
dan non-stemming untuk mengetahui kerelevanan hasil yang diperoleh dari masing-masing proses. Hasil dari
pengelompokkan dokumen dengan menggunakan proses stemming menghabiskan waktu lebih banyak
dibandingkan dengan proses non-stemming karena proses stemming harus menemukan terlebih dahulu kata
dasar dari query yang diinput sedangkan dalam proses non-stemming tidak diperlukan proses pencarian kata
dasar, hasil pengelompokan menggunakan proses stemming lebih relevan dibandingkan dengan
pengelompokan dengan menggunakan proses non-stemming, pengujian dengan menggunakan dataset yang
sedikit membuat pengembang kesulitan dalam membedakan hasil kelompok antara proses stemming dan
proses non-stemming, penentuan titik pusat awal sangat berpengaruh terhadap jumlah cluster yang terbentuk
serta pengelompokan dokumen ini juga dapat membantu pengguna menemukan dokumen yang relevan sesuai
dengan query yang diinput.

Kata Kunci : Clustering, K-Means, stemming, PHP

Abstract : The amount of journal documents which increase continously make the classified of journal
document more difficult is slow down the document research. Therfore the classification of journal document
is needed to speed the research which get from query that input by the user and produce a relevant result
from the query. The purpose of the research is to imply K-Means algorithm in classify the journal document
based on the query which already input so produce the groups as query. In that process, there is
preprocessing step which is call tokenization, the omit of stopwords and stemming. Next, the classification of
documents are done with K-Means algorithm use PHP programming language with use stemming and non-
stemming process to know the relevance result with get from each process. The result from document
classification with use stemming process spend more times compare with non-stemming process because the
stemming process should be found the basic words of query which already input. While in non-stemming
process isn't needed of the basic words research process. The result of this classification with use stemming
process is more relevant compare with the classification by non-stemming process. The testing with use a
little dataset make the developer find the difficulty in comparing the result of groups between stemming and
non-stemming process, the determination of the beginning of center is very influence to the amount of cluster
which is formed beside that the classification of this document can help the user find the relevant document as
suit as query which is input.

Keywords : Clustering, K-Means, stemming, PHP

Hal - 1 
 
1 PE
ENDAHULU
UAN berddasarkan kesaamaan antar dokumen terrsebut
atauu berdasarkan kelompoknyya.
Peerkembangan n teknologi informasi dan d Dengan addanya sebuaah sistem yang
kompuuter saat inii sangat ceppat, kebutuhhan berffungsi untukk mengelom mpokan dokkumen
pengguuna akan tek knologi kompputer sangatllah jurnnal ini, dapat memperm mudah mahaasiswa
dibutuhhkan. Saat ini banyakk pengembaang dalaam pencariaan jurnal dengan tiingkat
membuuat teknologi baru yang beermanfaat bukkan kemmiripan yang paling sesuuai dengan query
hanya sebagai hibu uran melainkaan juga sebaggai yangg diberikan oleh penggunaa.
media komunikasi yang berbasiis visual sepeerti
websitee. Media website berrisi bermacaam 2 LANDASA
AN TEORI
inform
masi seperti berita, iklan, permainan
p seerta
inform
masi lain sangat membantuu para pengguuna 2.1 Clustering
kompuuter. Selain iklan secara online, dalam
websitee juga biisa dimasukkkan berbaggai Clusteringg adalah suaatu metode untuk
inform
masi yang berkaitan dengan dunnia pengggelompokann dokumen dimana dokkumen
pendiddikan. dikeelompokan deengan konten untuk menguurangi
Baanyak perguruan tinnggi memiilih ruanng pencariaan yang diperlukan
d d
dalam
mengggunakan med dia web untuuk memberikkan merrespon suatuu query. Misalnya
M kooleksi
masi secara langsung kepada para
inform dokuumen yang berisi
b dokumeen-dokumen medis
m
mahasiiswanya den ngan cukup mengakses
m link dan hukum dappat dikelompookkan sedem mikian
websitee perguruan tinggi terseebut. Teknoloogi rupaa sehingga semua dokumen medis m
websitee dapat disisipkan dengann menggunakkan ditemmpatkan dallam satu clluster dan semua
s
perpustakaan digitaal yang di dallamnya terdappat dokuumen hukum m ditempattkan dalam satu
pengelompokan do okumen berbbasis web bagi clusster hukum (G Grossman, David A. dan Ophir
mahasiiswa yang in ngin mencarii buku atauppun Frieeder, 2004, h.105).
jurnal. Hal ini dissebabkan karrena mahasiswa
cenderrung lebih suk ka memilih buku yang diccari 2.2 Algoritma K-Means
K
dengann menggunak kan komputeer dibandingkkan
harus ke perpustak kaan untuk mengecek data d Algoritmma K-Meaans meruppakan
buku teersebut. algooritma yang membutuhka
m an parameter input
Peengelompokaan dokumen berbasis web w sebaanyak k dan membagi sekkumpulan n objek
merupaakan sebuah situs web diimana di dalam ke dalam
d k clustter sehingga tingkat kemiiripan
web teersebut terdaapat sistem yang dibenttuk antaar anggota dalam satuu cluster tinggi t
berdasaarkan pengeelompokan dokumen
d sesuuai sedaangkan tingkkat kemiripann dengan annggota
dengann kategori yan ng dibuat oleeh pengembanng. padaa cluster laain sangat reendah. Kemiripan
Pengellompokan dok kumen memiliki teknik yaang angggota terhaddap cluster diukur deengan
lebih spesifik
s untukk dokumen seperti
s ekstraaksi kedeekatan objekk terhadap nilai mean pada
judul otomatis dan n pencarian informasi yaang clusster atau daapat disebut sebagai cenntroid
cepat atau filtering g. Misalnya, mesin penccari clusster atau pusaat massa. (Naango, Dwi Nooviati,
web seering memberrikan ribuan halaman dalam 20122).
menanggapi permiintaan penggguna, sehinggga Berikut ini adalahh rumus untuk
sulit bagi pengguna untuk mencari attau mennentukan jumllah cluster :
mengiddentifikasi infformasi yang relevan.
Dengan adany ya pengelomppokan dokum men
ini, maahasiswa han nya perlu menngetikkan juddul (1)
tugas akhirnya,
a lalu
u secara otommatis web akkan
membeerikan dokumen-dokumeen yang miirip Berikut rumus
r pengukkuran jarak :
dengann judul yang dimasukan aggar tidak terjadi
penelittian dengan judul yang sama. Hal ini d(x,y) =|||x-y||2 = ∑ (2)
dikarennakan di dalam website terdapat
t sebuuah
algoritmma yang dapaat mengelomppokan dokum men

H - 2 
Hal
 
Adapun rumus perhitungan jarak lainnya Ilustrasi Algoritma K-Means dapat
didefinisikan sebagai berikut : dilihat dibawah ini:

, (3)

Keterangan :
d = titik dokumen
x = data record
y = data centroid

Jarak yang terpendek antara centroid


dengan dokumen menentukan posisi cluster
suatu dokumen. Misalnya dokumen A
mempunyai jarak yang paling pendek ke
centroid 1 dibanding ke yang lain, maka
dokumen A masuk ke group 1. Hitung kembali
posisi centroid baru untuk tiap-tiap centroid
(Ci..j) dengan mengambil rata- rata dokumen
yang masuk pada cluster awal (Gi..j). Iterasi
dilakukan terus hingga posisi group tidak Sumber : http://www.mathworks.com 
berubah.  
Berikut rumus dari penentuan centroid. Gambar 1.1 Algoritma K-Means

∑ ̅ (4)
| |
2.3 PHP Script Language
Adapun rumus iterasi lainnya
didefinisikan sebagai berikut : PHP: HyperText Preprocessor
merupakan secara umum dikenal sebagai bahasa
.. … pemrograman script-script yang membuat

(5) dokumen HTML secara on the file yang
dieksekusi di server web, dokumen HTML yang
Keterangan : dihasilkan dari suatu aplikasi bukan dokumen
x1 = nilai data record ke-1 HTML yang dibuat dengan menggunakan editor
x2 = nilai data record ke-2 teks atau editor HTML (Sidik, Bertha, 2012,
Σx = jumlah data record h.7).

Menurut Adiningsih (2007), tahap 2.4 MySQL


penyelesaian algoritma K-Means adalah sebagai
berikut: MySQL merupakan software database
a. Menentukan K buah titik yang yang termasuk paling populer di lingkungan
merepresentasikan obyek pada setiap Linux. Kepopuleran ini karena ditunjang
cluster (centroid awal). performansi query dari database-nya yang saat
b. Menetapkan setiap objek pada cluster itu paling cepat dan jarang bermasalah.
dengan posisi centroid terdekat. Berangkat dari software database yang
c. Jika semua objek sudah dikelompokkan shareware MySQL populer, kini mulai versi
maka dilakukan perhitungan ulang dalam 3.23 MySQL menjadi software open source
menentukan centroid yang baru. yang berarti free. MySQL dapat digunakan
d. Ulangi langkah ke-2 dan ke-3 sampai untuk kepentingan komersial ataupun personal
centroid tidak berubah. (Sidik, Bertha, 2012, h.333).

Hal - 3 
 
3 RANCANGAN ALGORITMA DAN 2. Elaboration (perluasan)
PROGRAM
Pada tahapan ini merupakan proses
3.1 Metodologi RUP dimana hasil dari tahapan inception
dievaluasi lagi mengenai desain dan
Dalam mengembangkan aplikasi ini, kebutuhan yang diperlukan, apakah masih
metodologi yang digunakan adalah metodologi terdapat kebutuhan ataupun desain yang
RUP. RUP (Rational Unified Process) diperlukan untuk melengkapi sistem agar
merupakan sebuah proses pengembangan lebih baik lagi. Pada tahap desain ini
perangkat lunak yang berfungsi untuk menggunakan pemodelan kasus use case
memastikan hasil yang diperoleh dari dimana terdapat interaksi antara aktor-aktor
pengembangan perangkat lunak dan sesuai dan sistem yang berinteraksi di dalamnya
dengan jadwal serta anggaran yang telah yang mencakup pembuatan desain arsitektur
dirancang. Proses ini lebih menekankan pada subsistem (architecture pattern), desain
pengembangan dan pemeliharaan yang terus komponen sistem, desain format data
diperbaharui agar menghasilkan perangkat (protokol komunikasi), desain database,
lunak yang lebih baik lagi (Simarmata, Janner, desain user interface, pemodelan diagram
2009, h.81). UML, dan pembuatan dokumentasi.
Di dalam metodologi ini terdapat
tahapan - tahapan dalam menjalankan prosesnya 3. Construction (pembuatan)
yang terdiri dari:
Pada tahapan ini merupakan proses
1. Inception (permulaan) dimana pengembang melakukan
pengimplementasian mengenai sistem yang
Pada tahapan ini merupakan tahap akan dibuat dengan menggunakan bahasa
dalam proses menentukan dan mencari pemrograman PHP. Aktivitas yang
kebutuhan yang diperlukan dalam proses dilakukan pada tahap ini antara lain
pembuatan sebuah sistem dan mencakup pengujian hasil analisis dan
dampak/manfaat dari pengembangan sistem desain, pendataan kebutuhan implementasi
tersebut. Aktivitas yang dilakukan pada lengkap, penentuan coding pattern yang
tahap ini antara lain mencakup analisis digunakan, pembuatan program, pengujian,
sistem, perumusan sistem target, penentuan optimasi program, pendataan berbagai
arsitektur global target, identifikasi kemungkinan pengembangan / perbaikan
kebutuhan, perumusan persyaratan, lebih lanjut, dan pembuatan dokumentasi.
perumusan kebutuhan pengujian (level unit,
integrasi, sistem, performansi, 4. Transition (peralihan)
fungsionalitas, keamanan), pemodelan
diagram UML, dan pembuatan dokumentasi. Tahapan ini merupakan tahapan akhir
Di dalam tahapan ini terdapat perincian dari metodologi sistem RUP yang mana pada
sebagai berikut : tahapan ini dilakukan transisi agar pengguna
dapat mengerti dalam menggunakan sistem
a. Studi Literatur (Inception) yang telah dibangun/dikembangkan. Pada
Mengumpulkan informasi dan data tahap peralihan ini, sistem yang telah
mengenai algoritma K-Means dan proses dibangun diuji coba dengan cara
clustering dokumen dari buku ataupun mendemokan cara penggunaannya sehingga
jurnal, mengumpulkan data-data jurnal user bisa menguji hasil dari sistem, apakah
serta mempersiapkan semua data-data sistem berjalan sesuai dengan yang
yang dibutuhkan yaitu dokumen jurnal diharapkan atau tidak.
skripsi STMIK GI MDP.

Hal - 4 
 
3.3 Flowchart

Flowchart adalah sebuah diagram dengan


simbol-simbol grafis yang menyatakan aliran
algoritma atau proses yang menampilkan
langkah-langkah yang disimbolkan dalam
bentuk kotak, beserta urutannya dengan
menghubungkan masing-masing langkah
tersebut menggunakan tanda panah.

3.3.1 Flowchart Tahap Preprocessing

Flowchart tahap preprocessing merupakan


flowchart yang berisi proses penghilangan tanda
baca (tokenization), proses penghilangan kata
yang tidak penting (stopwords), serta proses
pengambilan kata dasar (stemming).

3.3.3 Flowchart Mencari Jarak

Flowchart mencari jarak merupakan


flowchart yang berisi proses pencarian jarak
antara dokumen dengan titik centroid dimana
proses dilakukan dengan menghitung nilai
frekuensi kata yang ada pada tiap dokumen,
kemudian dilakukan perhitungan jarak dengan
Euclidean.

3.3.2 Flowchart Mencari Jumlah Cluster

Flowchart mencari jumlah cluster


merupakan flowchart yang berisi proses
pencarian jumlah cluster dengan cara membagi
dua jumlah dari seluruh dokumen kemudian
diakarkan.

Hal - 5 
 
3.3.4 Flowchart Mencari Centroid Baru

Flowchart mencari centroid baru


merupakan flowchart yang berisi proses
pencarian centroid (titik pusat) baru dengan cara
membagi jumlah seluruh dokumen dengan
jumlah cluster yang terbentuk.

3.3.5 Flowchart Algoritma K-Means 4 IMPLEMENTASI DAN ANALISIS


PROGRAM
Flowchart Algoritma K-Means
merupakan flowchart yang berisi urutan 4.1 Prosedur Uji Coba Program
proses dari mencari frekuensi kemunculan
4.1.1 Tampilan Antarmuka Menu Utama
kata (Tf), mencari jumlah cluster,
menentukan centroid (titik pusat) awal, Ketika user menjalankan aplikasi maka
mencari jarak, mengelompokkan dokumen halaman pertama yang akan tampil adalah
berdasarkan jarak terdekat dengan centroid, halaman menu utama. Berikut adalah tampilan
serta proses mencari centroid baru. antarmuka menu utama yang dapat dilihat pada
Gambar 4.1.

Hal - 6 
 
4.1.3 Tampilan Antarmuka Halaman Isi
Dokumen

Pada saat user memilih salah satu jurnal


maka akan menampilkan halaman isi dokumen.

Gambar 4.1 Antarmuka Halaman Menu


Utama

4.1.2 Tampilan Antarmuka Halaman


Pencarian
Gambar 4.4 Tampilan Antarmuka Halaman
Pada saat user memasukan query yang Isi Dokumen
ingin dicari dan menekan tombol cari maka
akan tampil halaman pencarian. 4.1.4 Tampilan Antarmuka Halaman Admin

Gambar 4.2 Tampilan Antarmuka Halaman


Pencarian dengan Stemming

Gambar 4.5 Tampilan Antarmuka Halaman


Admin

4.1.5 Tampilan Antarmuka Menu Ubah


Dokumen

Menu ubah dokumen pada Gambar 4.6


adalah menu yang disediakan bagi admin untuk
melakukan perbaikan apabila ada kesalahan
dalam penginputan data.
Gambar 4.3 Tampilan Antarmuka Halaman
Pencarian Non-Stemming

Hal - 7 
 
dengan cara memasukkan 5 query yang sama ke
dalam masing-masing aplikasi.

Nilai akurasi =
jumlah dokumen yang sama antara dan klasi ikasi
jumlah dokumen keseluruhan

Query = “ perancangan sistem informasi ”

Tabel 4.1 Hasil Hasil Kesamaan Clustering


dan Klasifikasi

Clustering Klasifikasi
Gambar 4.6 Tampilan Antarmuka Menu J0001 J0004
Ubah Dokumen J0007 J0007
J0016 J0008
4.1.6 Tampilan Antarmuka Menu Tab
J0017 J0016
Tambah Dokumen
J0028 J0017
J0040 J0018
Menu tab tambah dokumen pada Gambar
J0060 J0026
4.7 menampilkan sebuah daftar yang harus
dimasukkan oleh admin yaitu berupa sebuah file J0074 J0027
.pdf jurnal, sebuah file .txt jurnal, judul jurnal, J0076 J0028
nama pengarang, tahun dan abstrak. J0077 J0077

Pada Tabel 4.1 diperoleh bahwa terdapat 5


buah dokumen yang sama pada aplikasi
clustering dan klasifikasi sehingga dapat
diperoleh nilai akurasinya adalah sebagai
berikut :
Nilai akurasi = x 100% = 50%

4.2.2 Uji Coba Kedua

Hasil uji coba waktu antara proses stemming


dengan proses non-stemming dengan query :
“aplikasi pembelian barang” terhadap 300
Gambar 4.7 Tampilan Antarmuka Menu dokumen jurnal.
Tab Tambah Dokumen
3 2.85
4.2 Analisis Hasil Pengujian Program

4.2.1 Uji Coba Pertama 2 1.48

1
Uji coba pertama dilakukan untuk
menguji keakuratan sistem dengan
0
membandingkan hasil yang diperoleh dari
aplikasi menggunakan algoritma K-Means Stemming Non‐Stemming
dengan klasifikasi judul yang ada pada database
aplikasi dimana dilakukan proses pencarian
Gambar 4.8 Uji Coba Pengujian Waktu

Hal - 8 
 
5 PENUTUP DAFTAR PUSTAKA

5.1 Kesimpulan [1] Grossman, David A. dan Ophir Frieder


2004.Information Retrieval Algorithms
Setelah banyak tahapan dalam and Heuristics Second Edition.
pengembangan perangkat lunak dimulai dari Springer, The Netherlands.
analisis kebutuhan sampai dengan implementasi [2] Determining the number of clusters
dan pengujian maka ada beberapa kesimpulan in a data set.
yang didapat setelah skripsi ini yaitu sebagai http://en.wikipedia.org/wiki/
berikut : Determining_the_number_of_clusters_in
1. Algoritma K-Means dapat melakukan _a_data_set. Diakses pada tanggal 10
pengelompokan dokumen dalam jumlah Januari 2014.
yang banyak akan tetapi belum efisien dalam
mengelompokan dokumen secara tepat. [3] Nango, Dwi Noviati 2012. Penerapan
2. Penentuan centroid (titik pusat) pada tahap Algoritma K-means untuk Clustering
awal Algoritma K-Means sangat Data Anggaran Pendapatan Belanja
berpengaruh pada hasil cluster seperti pada Daerah di Kabupaten XYZ.
hasil pengujian yang dilakukan dengan http://sro.web.id. Diakses pada tanggal
menggunakan 300 dataset dengan centroid 16 Agustus 2013.
yang berbeda menghasilkan hasil cluster
yang berbeda juga. [4] Ken 2009. Clustering Analysis, Part II:
3. Proses clustering menggunakan stemming K-Means Clustering.
akan menghabiskan waktu lebih lama http://www.centerspace.net. Diakses pada
dibandingkan dengan non-stemming, hal ini tanggal 10 September 2013.
dapat dilihat pada hasil uji coba 2.
4. Semakin sedikit dokumen yang dipakai, [5] Sidik, Bertha 2012. Pemrograman Web
maka semakin sulit untuk membedakan PHP (Edisi Revisi). Informatika,
cluster antara stemming dan non-stemming. Bandung.

5.2 Saran [6] Rational Unifed Process 2006.


http://www.skillresource.com. Diakses
Berikut ini beberapa saran yang pada tanggal 12 Desember 2013.
bertujuan mengembangkan Aplikasi Penerapan
Algoritma K-Means untuk Clustering Dokumen [7] Simarmata, Janner 2009. Rekayasa
E-jurnal STMIK MDP yang penulis buat adalah Perangkat Lunak. Andi, Yogyakarta.
sebagai berikut:
1. Untuk meningkatkan hasil pengelompokan [8] Suryana,Taryana 2007. Metode RUP.
dokumen yang lebih relevan sebaiknya sms.unikom.ac.id. Diakses pada tanggal
algoritma K-Means digabung dengan 10 November 2013.
algoritma lain seperti Algoritma
Hierarchical Clustering.
2. Aplikasi ini dapat dikembangkan dengan
cara menambah fitur convert file dan
standarisasi sehingga dapat mempermudah
kerja admin.
3. Agar aplikasi dapat digunakan untuk umum,
sebaiknya aplikasi dibuat secara online.

Hal - 9 
 

Anda mungkin juga menyukai