J-INTECH merupakan jurnal yang diterbitkan oleh Sekolah Tinggi Informatika dan
Komputer Indonesia Malang guna mengakomodasi kebutuhan akan perkembangan Teknologi
Informasi serta guna mensukseskan salah satu program DIKTI yang mewajibkan seluruh
Perguruan Tinggi untuk menerbitkan dan mengunggah karya ilmiah mahasiswanya dalam
bentuk terbitan maupun jurnal online.
Pada edisi ini, redaksi menampilkan beberapa karya ilmiah mahasiswa yang mewakili
beberapa mahasiswa yang lain, yang dianggap cukup baik sebagai media pembelajaran bagi
para lulusan selanjutnya.
Tentu saja diharapkan pada setiap penerbitan memiliki nilai lebih dari karya ilmiah yang
dihasilkan sebelumya sehingga merupakan nilai tambah bagi para adik kelas maupun pihak-
pihak yang ingin studi atau memanfaatkan karya tersebut selanjutnya.
Pada kesempatan ini kami juga mengundang pihak-pihak dari PTN/PTS lain sebagai
kontributor karya ilmiah terhadap jurnal J-INTECH, sehingga Perkembangan IPTEK dapat
dikuasai secara bersama- sama dan membawa manfaat bagi institusi masing-masing.
Akhir redaksi berharap semoga dengan terbitnya jurnal ini membawa manfaat bagi para
mahasiswa, dosen pembimbing, pihak yang bekerja pada bidang Teknologi Informasi serta
untuk perkembangan IPTEK di masa depan.
REDAKSI
DAFTAR ISI
Sistem Penunjang Keputusan Pemilihan Beasiswa dengan Metode Decision
Tree ID3 pada SMAK Kalam Kudus Malang ................................................ 01-12
Erwin Prasetya Chrisnata
Sistem Informasi Logistik Berbasis Web di Unit Donor Darah PMI Kota
Malang............................................................................................................ 13-16
Anjang Wijaya
Game Tutorial Pengenalan Rambu Rambu Lalu Lintas untuk Anak Sekolah
Dasar ............................................................................................................ 127-134
L. Danny Adventus Rufus
Aplikasi Kompetisi Bola Basket Berbasis Mobile (Studi Kasus: STIKI Basket-
ball League) ................................................................................................... 135-138
Sendi Kurniawaty
ABSTRAK
Seiring banyaknya dokumen menyebabkan berkembangnya teknologi, penyimpanan dokumen
dalam bentuk file semakin banyak digunakan. Akan tetapi, file-file dokumen tersebut akan terus
bertambah setiap harinya dan untuk mencari informasi dari isi file-file tersebut akan menjadi sulit.
Untuk itu perlu diterapkannya metode ilmu pencarian yang dikenal dengan temu kembali informasi
(Information Retrieval). Salah satunya metode dalam sistem temu kembali adalah Vector Space
Model. Pada metode VSM sebelum melakukan pencarian dokumen akan dilakukan indexing dengan
memecah isi teks dari dokumen-dokumen tersebut menjadi index term. Index term ini yang akan
digunakan untuk proses pencarian. Proses pembentukan index term dari teks yang terdapat di dalam
dokumen akan melalui beberapa tahapan yaitu parsing, text preprocessing , penghitungan bobot ,
dan juga pengukuran kesamaan (Similarity Measure).
147
Information Retrieval adalah aktifitas memudahkan dan mempercepat proses
utama yang dilakukan oleh sebuah penyedia pencarian dan penemuan kembali dokumen
informasi atau pusat pelayanan informasi, yang relevan. Pembangunan index dari
termasuk perpustakaan dan jenis dari layanan koleksi dokumen merupakan tugas pokok
lainnya yang menyediakan informasi. Sistem pada tahapan preprocessing di dalam IR.
temu kembali informasi tidak memberitahu Kualitas index mempengaruhi efektifitas dan
(yakni tidak mengubah pengetahuan) efisiensi sistem IR. Terdapat beberapa
pengguna mengenai masalah yang tahapan pada fase ini antara lain:
ditanyakannya. Sistem tersebut hanya Case Folding dan Tokenization, Case
memberitahukan keberadaan (atau folding dilakukan untuk merubah huruf
ketidakberadaan) dan keterangan dokumen- besar dari setiap kata diubah menjadi
dokumen yang berhubungan dengan huruf kecil dan menghilangkan karakter
permintaannya. selain huruf seperti angka dan tanda
baca (delimiter). Sedangkan
tokenization yaitu memecah semua
kalimat pada isi dokumen menjadi kata
per kata.
Filtering, dilakukan dengan metode
stop words yaitu menghilangkan semua
kata yaitu kata sambung, kata depan,
Gambar 1. Sistem Temu Kembali kata ganti, dan lain-lain. Sebagian
Informasi contoh dalam bahasa Indonesia: yang,
juga, dari, dia, kami, kamu, aku, saya,
Pada Information Retrieval System ini, itu, atau, dan, tersebut, pada,
terdapat beberapa metode yang digunakan dengan, adalah, yaitu, ke, tak, tidak, di,
dalam prosess pencarian salah satunya adalah pada, jika, maka, ada, pun, lain, saja,
dengan merepresentasikan proses pencarian hanya, namun, seperti, kemudian,
adalah menggunakan model ruang vektor. karena, untuk, dan lain-lain.
Model ruang vektor dibuat berdasarkan Stemming, digunakan untuk mengubah
pemikiran bahwa isi dari dokumen ditentukan term yang masih melekat dalam term
oleh kata-kata yang digunakan dalam tersebut awalan, sisipan, dan akhiran.
dokumen tersebut. Model ini menentukan Proses stemming dilakukan dengan cara
kemiripan (similarity) antara dokumen menghilangkan semua imbuhan
dengan query dengan cara merepresentasikan (affixes) baik yang terdiri dari awalan
dokumen dan query masing-masing ke dalam (prefixes), sisipan (infixes), akhiran
bentuk vektor. Tiap kata yang ditemukan (suffixes) dan confixes (kombinasi dari
pada dokumen dan query diberi bobot dan awalan dan akhiran) pada kata turunan.
disimpan sebagai salah satu elemen vektor. stemming digunakan untuk mengganti
bentuk dari suatu kata menjadi kata
dasar dari kata tersebut yang sesuai
dengan struktur morfologi bahasa
Indonesia.
148
Keterangan: Arsitektur sistem temu kembali informasi
W adalah bobot term tj terhadap
dokumen di
tfij adalah jumlah kemunculan term tj
dalam dokumen di
D adalah jumlah semua dokumen yang
ada
dfj adalah jumlah dokumen yang
mengandung term tj (minimal ada satu kata
yaitu term tj)
149
C. Pembobotan (Weighting)
Tahapan pembobotan (term
weighting) ini dilakukan dengan metode TF-
IDF. Dengan menghitung Term Frequency
(TF), yaitu frekuensi kemunculan suatu kata
muncul dalam satu dokumen dan juga Inverse
Document Frequency (IDF), frekuensi
kemunculan suatu kata di dalam seluruh
dokumen. Penjelasan mengenai proses
pembobotan (term weighting) TF-IDF
dijelaskan pada gambar 6.
B. Text Preprocessing
Pada tahapan text preprocessing ini
dilakukan untuk memperoleh index terms
dari dokumen maupun query yang nantinya
akan digunakan untuk pembobotan.
Langkah-langkah dari tahapan preprocessing
adalah case folding, tokenization, filtering,
stemming. Tahap preprocessing dijelaskan
pada gambar 5.
Similarity Measure
Ukuran kemiripan (similarity
measure) ini menggunakan algoritma Cosine
similarity. Cosine similarity merupakan
algoritma digunakan untuk mengukur
kedekatan antara dua vektor yaitu vektor
query dan dokumen. Tahapan ini merupakan
tahap akhir untuk memperoleh hasil dokumen
yang relevan dengan query. Alur proses
perhitungan ukuran kemiripan adalah sebagai
berikut:
.
Gambar 5. Flowchart Prosedur Text
Preprocessing
150
Gambar 9. Halaman Manage Dokumen
151
Hasil Uji Recall dan Precision
Untuk mengetahui hasil uji recall dan
precision sistem akan dilakukan uji terhadap
6 query acak. Data dokumen pada sistem
berjumlah 100 dokumen dan setelah
dilakukan proses indexing menghasilkan
13103 terms pada database.Berikut ini
merupakan daftar query yang dilakukan
dalam pengujian.
152
precision harus didapatkan jumlah dokumen [4] Manwar, A.B. (2005). A Vector Space
yang relevan terhadap suatu topik informasi. Model For Information Retrieval: A
Satu satunya cara untuk mendapatkannya Matlab Approach, Indian Journal of
yaitu dengan membaca dokumen itu satu per Computer Science and Engineering
satu. (IJCSE), Department of Computer
Science S.G.B. Amravati University,
4. KESIMPULAN Amravati MS, India.
Pemanfaatan sistem temu kembali
pada proses pencarian yang telah dibuat telah [5] Rijsbergen, C.J. van. (1979).
dapat mencari file dokumen berdasarkan isi Information Retrieval, Second Edition.
dokumen. Butterworths, London.
1. Hasil pencarian dokumen pada sistem
dapat mengembalikan hampir semua [6] Salton, G. (1969). Automatic Text
dokumen yang relevan jika dokumen Analysis. Technical Report No. 69-36.
tersebut ada. (recall = 1) Department of Computer Science.
2. Hasil pengujian didapatkan nilai Cornell University, Ithaca, New York.
precision yang rendah hal ini
dipengaruhi oleh banyaknya variasi term
dalam data karena sistem melakukan
indexing dari semua kata yang ada dalam
dokumen. Semakin banyak term yang
dihasilkan sebuah dokumen dalam
proses indexing maka semakin sering
dokumen tersebut dikembalikan oleh
sistem terhadap query yang sebenarnya
kurang relevan (low precision). Tetapi
hasil tersebut telah diatasi pada sistem
dengan memberi nilai threshold pada
nilai perhitungan kemiripan (similarity).
3. Term frequency dan Inverse document
frequency berperan penting dalam hasil
perangkingan dokumen yang
dikembalikan. Dengan kata lain hasil
rangking dokumen sangat dipengaruhi
oleh data term pada dokumen dan juga
query.
5. REFERENSI
153