27erniejurnal Skripsi PDF
27erniejurnal Skripsi PDF
Abstrak : Banyaknya dokumen jurnal yang terus bertambah membuat pengelompokkan dokumen jurnal
semakin sulit karena memperlambat pencarian dokumen. Oleh karena itu, pengelompokkan dokumen jurnal
diperlukan untuk mempercepat pencarian yang diperoleh dari query yang diinput pengguna dan menghasilkan
hasil yang relevan dengan query tersebut. Penelitian ini bertujuan untuk menerapkan algoritma K-Means
dalam mengelompokkan dokumen jurnal yang sesuai dengan query yang diinput sehingga menghasilkan
kelompok-kelompok yang sesuai dengan query. Dalam prosesnya dilakukan tahap preprocessing yaitu
tokenization, penghilangan stopwords dan stemming. Selanjutnya, pengelompokkan dokumen dilakukan
dengan algoritma K-Means menggunakan bahasa pemrograman PHP dengan menggunakan proses stemming
dan non-stemming untuk mengetahui kerelevanan hasil yang diperoleh dari masing-masing proses. Hasil dari
pengelompokkan dokumen dengan menggunakan proses stemming menghabiskan waktu lebih banyak
dibandingkan dengan proses non-stemming karena proses stemming harus menemukan terlebih dahulu kata
dasar dari query yang diinput sedangkan dalam proses non-stemming tidak diperlukan proses pencarian kata
dasar, hasil pengelompokan menggunakan proses stemming lebih relevan dibandingkan dengan
pengelompokan dengan menggunakan proses non-stemming, pengujian dengan menggunakan dataset yang
sedikit membuat pengembang kesulitan dalam membedakan hasil kelompok antara proses stemming dan
proses non-stemming, penentuan titik pusat awal sangat berpengaruh terhadap jumlah cluster yang terbentuk
serta pengelompokan dokumen ini juga dapat membantu pengguna menemukan dokumen yang relevan sesuai
dengan query yang diinput.
Abstract : The amount of journal documents which increase continously make the classified of journal
document more difficult is slow down the document research. Therfore the classification of journal document
is needed to speed the research which get from query that input by the user and produce a relevant result
from the query. The purpose of the research is to imply K-Means algorithm in classify the journal document
based on the query which already input so produce the groups as query. In that process, there is
preprocessing step which is call tokenization, the omit of stopwords and stemming. Next, the classification of
documents are done with K-Means algorithm use PHP programming language with use stemming and non-
stemming process to know the relevance result with get from each process. The result from document
classification with use stemming process spend more times compare with non-stemming process because the
stemming process should be found the basic words of query which already input. While in non-stemming
process isn't needed of the basic words research process. The result of this classification with use stemming
process is more relevant compare with the classification by non-stemming process. The testing with use a
little dataset make the developer find the difficulty in comparing the result of groups between stemming and
non-stemming process, the determination of the beginning of center is very influence to the amount of cluster
which is formed beside that the classification of this document can help the user find the relevant document as
suit as query which is input.
Hal - 1
1 PE
ENDAHULU
UAN berddasarkan kesaamaan antar dokumen terrsebut
atauu berdasarkan kelompoknyya.
Peerkembangan n teknologi informasi dan d Dengan addanya sebuaah sistem yang
kompuuter saat inii sangat ceppat, kebutuhhan berffungsi untukk mengelom mpokan dokkumen
pengguuna akan tek knologi kompputer sangatllah jurnnal ini, dapat memperm mudah mahaasiswa
dibutuhhkan. Saat ini banyakk pengembaang dalaam pencariaan jurnal dengan tiingkat
membuuat teknologi baru yang beermanfaat bukkan kemmiripan yang paling sesuuai dengan query
hanya sebagai hibu uran melainkaan juga sebaggai yangg diberikan oleh penggunaa.
media komunikasi yang berbasiis visual sepeerti
websitee. Media website berrisi bermacaam 2 LANDASA
AN TEORI
inform
masi seperti berita, iklan, permainan
p seerta
inform
masi lain sangat membantuu para pengguuna 2.1 Clustering
kompuuter. Selain iklan secara online, dalam
websitee juga biisa dimasukkkan berbaggai Clusteringg adalah suaatu metode untuk
inform
masi yang berkaitan dengan dunnia pengggelompokann dokumen dimana dokkumen
pendiddikan. dikeelompokan deengan konten untuk menguurangi
Baanyak perguruan tinnggi memiilih ruanng pencariaan yang diperlukan
d d
dalam
mengggunakan med dia web untuuk memberikkan merrespon suatuu query. Misalnya
M kooleksi
masi secara langsung kepada para
inform dokuumen yang berisi
b dokumeen-dokumen medis
m
mahasiiswanya den ngan cukup mengakses
m link dan hukum dappat dikelompookkan sedem mikian
websitee perguruan tinggi terseebut. Teknoloogi rupaa sehingga semua dokumen medis m
websitee dapat disisipkan dengann menggunakkan ditemmpatkan dallam satu clluster dan semua
s
perpustakaan digitaal yang di dallamnya terdappat dokuumen hukum m ditempattkan dalam satu
pengelompokan do okumen berbbasis web bagi clusster hukum (G Grossman, David A. dan Ophir
mahasiiswa yang in ngin mencarii buku atauppun Frieeder, 2004, h.105).
jurnal. Hal ini dissebabkan karrena mahasiswa
cenderrung lebih suk ka memilih buku yang diccari 2.2 Algoritma K-Means
K
dengann menggunak kan komputeer dibandingkkan
harus ke perpustak kaan untuk mengecek data d Algoritmma K-Meaans meruppakan
buku teersebut. algooritma yang membutuhka
m an parameter input
Peengelompokaan dokumen berbasis web w sebaanyak k dan membagi sekkumpulan n objek
merupaakan sebuah situs web diimana di dalam ke dalam
d k clustter sehingga tingkat kemiiripan
web teersebut terdaapat sistem yang dibenttuk antaar anggota dalam satuu cluster tinggi t
berdasaarkan pengeelompokan dokumen
d sesuuai sedaangkan tingkkat kemiripann dengan annggota
dengann kategori yan ng dibuat oleeh pengembanng. padaa cluster laain sangat reendah. Kemiripan
Pengellompokan dok kumen memiliki teknik yaang angggota terhaddap cluster diukur deengan
lebih spesifik
s untukk dokumen seperti
s ekstraaksi kedeekatan objekk terhadap nilai mean pada
judul otomatis dan n pencarian informasi yaang clusster atau daapat disebut sebagai cenntroid
cepat atau filtering g. Misalnya, mesin penccari clusster atau pusaat massa. (Naango, Dwi Nooviati,
web seering memberrikan ribuan halaman dalam 20122).
menanggapi permiintaan penggguna, sehinggga Berikut ini adalahh rumus untuk
sulit bagi pengguna untuk mencari attau mennentukan jumllah cluster :
mengiddentifikasi infformasi yang relevan.
Dengan adany ya pengelomppokan dokum men
ini, maahasiswa han nya perlu menngetikkan juddul (1)
tugas akhirnya,
a lalu
u secara otommatis web akkan
membeerikan dokumen-dokumeen yang miirip Berikut rumus
r pengukkuran jarak :
dengann judul yang dimasukan aggar tidak terjadi
penelittian dengan judul yang sama. Hal ini d(x,y) =|||x-y||2 = ∑ (2)
dikarennakan di dalam website terdapat
t sebuuah
algoritmma yang dapaat mengelomppokan dokum men
H - 2
Hal
Adapun rumus perhitungan jarak lainnya Ilustrasi Algoritma K-Means dapat
didefinisikan sebagai berikut : dilihat dibawah ini:
, (3)
Keterangan :
d = titik dokumen
x = data record
y = data centroid
∑ ̅ (4)
| |
2.3 PHP Script Language
Adapun rumus iterasi lainnya
didefinisikan sebagai berikut : PHP: HyperText Preprocessor
merupakan secara umum dikenal sebagai bahasa
.. … pemrograman script-script yang membuat
∑
(5) dokumen HTML secara on the file yang
dieksekusi di server web, dokumen HTML yang
Keterangan : dihasilkan dari suatu aplikasi bukan dokumen
x1 = nilai data record ke-1 HTML yang dibuat dengan menggunakan editor
x2 = nilai data record ke-2 teks atau editor HTML (Sidik, Bertha, 2012,
Σx = jumlah data record h.7).
Hal - 3
3 RANCANGAN ALGORITMA DAN 2. Elaboration (perluasan)
PROGRAM
Pada tahapan ini merupakan proses
3.1 Metodologi RUP dimana hasil dari tahapan inception
dievaluasi lagi mengenai desain dan
Dalam mengembangkan aplikasi ini, kebutuhan yang diperlukan, apakah masih
metodologi yang digunakan adalah metodologi terdapat kebutuhan ataupun desain yang
RUP. RUP (Rational Unified Process) diperlukan untuk melengkapi sistem agar
merupakan sebuah proses pengembangan lebih baik lagi. Pada tahap desain ini
perangkat lunak yang berfungsi untuk menggunakan pemodelan kasus use case
memastikan hasil yang diperoleh dari dimana terdapat interaksi antara aktor-aktor
pengembangan perangkat lunak dan sesuai dan sistem yang berinteraksi di dalamnya
dengan jadwal serta anggaran yang telah yang mencakup pembuatan desain arsitektur
dirancang. Proses ini lebih menekankan pada subsistem (architecture pattern), desain
pengembangan dan pemeliharaan yang terus komponen sistem, desain format data
diperbaharui agar menghasilkan perangkat (protokol komunikasi), desain database,
lunak yang lebih baik lagi (Simarmata, Janner, desain user interface, pemodelan diagram
2009, h.81). UML, dan pembuatan dokumentasi.
Di dalam metodologi ini terdapat
tahapan - tahapan dalam menjalankan prosesnya 3. Construction (pembuatan)
yang terdiri dari:
Pada tahapan ini merupakan proses
1. Inception (permulaan) dimana pengembang melakukan
pengimplementasian mengenai sistem yang
Pada tahapan ini merupakan tahap akan dibuat dengan menggunakan bahasa
dalam proses menentukan dan mencari pemrograman PHP. Aktivitas yang
kebutuhan yang diperlukan dalam proses dilakukan pada tahap ini antara lain
pembuatan sebuah sistem dan mencakup pengujian hasil analisis dan
dampak/manfaat dari pengembangan sistem desain, pendataan kebutuhan implementasi
tersebut. Aktivitas yang dilakukan pada lengkap, penentuan coding pattern yang
tahap ini antara lain mencakup analisis digunakan, pembuatan program, pengujian,
sistem, perumusan sistem target, penentuan optimasi program, pendataan berbagai
arsitektur global target, identifikasi kemungkinan pengembangan / perbaikan
kebutuhan, perumusan persyaratan, lebih lanjut, dan pembuatan dokumentasi.
perumusan kebutuhan pengujian (level unit,
integrasi, sistem, performansi, 4. Transition (peralihan)
fungsionalitas, keamanan), pemodelan
diagram UML, dan pembuatan dokumentasi. Tahapan ini merupakan tahapan akhir
Di dalam tahapan ini terdapat perincian dari metodologi sistem RUP yang mana pada
sebagai berikut : tahapan ini dilakukan transisi agar pengguna
dapat mengerti dalam menggunakan sistem
a. Studi Literatur (Inception) yang telah dibangun/dikembangkan. Pada
Mengumpulkan informasi dan data tahap peralihan ini, sistem yang telah
mengenai algoritma K-Means dan proses dibangun diuji coba dengan cara
clustering dokumen dari buku ataupun mendemokan cara penggunaannya sehingga
jurnal, mengumpulkan data-data jurnal user bisa menguji hasil dari sistem, apakah
serta mempersiapkan semua data-data sistem berjalan sesuai dengan yang
yang dibutuhkan yaitu dokumen jurnal diharapkan atau tidak.
skripsi STMIK GI MDP.
Hal - 4
3.3 Flowchart
Hal - 5
3.3.4 Flowchart Mencari Centroid Baru
Hal - 6
4.1.3 Tampilan Antarmuka Halaman Isi
Dokumen
Hal - 7
dengan cara memasukkan 5 query yang sama ke
dalam masing-masing aplikasi.
Nilai akurasi =
jumlah dokumen yang sama antara dan klasi ikasi
jumlah dokumen keseluruhan
Clustering Klasifikasi
Gambar 4.6 Tampilan Antarmuka Menu J0001 J0004
Ubah Dokumen J0007 J0007
J0016 J0008
4.1.6 Tampilan Antarmuka Menu Tab
J0017 J0016
Tambah Dokumen
J0028 J0017
J0040 J0018
Menu tab tambah dokumen pada Gambar
J0060 J0026
4.7 menampilkan sebuah daftar yang harus
dimasukkan oleh admin yaitu berupa sebuah file J0074 J0027
.pdf jurnal, sebuah file .txt jurnal, judul jurnal, J0076 J0028
nama pengarang, tahun dan abstrak. J0077 J0077
1
Uji coba pertama dilakukan untuk
menguji keakuratan sistem dengan
0
membandingkan hasil yang diperoleh dari
aplikasi menggunakan algoritma K-Means Stemming Non‐Stemming
dengan klasifikasi judul yang ada pada database
aplikasi dimana dilakukan proses pencarian
Gambar 4.8 Uji Coba Pengujian Waktu
Hal - 8
5 PENUTUP DAFTAR PUSTAKA
Hal - 9