Lap Akhir Perbandingan Metode VSM Dan BM25F

LAPORAN AKHIR PENELITIAN
PENDANAAN INTERNAL/MANDIRI
PERBANDINGAN METODE VECTOR SPACE MODEL DAN BM25F DALAM

PENCARIAN BUKU
Penelitian tahun ke 1 dari rencana 1 tahun
Oleh:
Ketua : Debby Paseru (NIDN: 0930097303)
Anggota 1 : Reynaldi Kuera

Anggota 2 : Stevanus Salmon
Teknik Informatika Fakultas Teknik

Semester Genap Tahun 2022/2023
UNIVERSITAS KATOLIK DE LA SALLE MANADO
2023
HALAMAN PENGESAHAN LAPORAN AKHIR PENELITIAN
Judul : Perbandingan Metode Vector Space Model dan BM25F

dalam Pencarian Buku
Peneliti/Pelaksana
Nama Lengkap : Debby Paseru, ST., MMSI., M.Ed.
NIDN : 0930097303
Program Studi : Teknik Informatika
Nomor HP : 085103600073
Alamat surel (email) : dpaseru@unikadelasalle.ac.id
Anggota (1)
Nama Lengkap : Reynaldy Kuera
NIM : 18013069
Perguruan Tinggi : Universitas Katolik De La Salle Manado
Anggota (2)
Nama Lengkap : Stevanus Salmon
NIM : -
Perguruan Tinggi : Universitas Katolik De La Salle Manado
Tahun Pelaksanaan : Tahun ke 1 dari rencana 1 tahun

Biaya Tahun Berjalan : Rp. 6.150.000,-
Biaya Keseluruhan : Rp.
Manado, 30 Juni 2023

Mengetahui, Ketua
Dekan Fakultas Teknik
Universitas Katolik De La Salle Manado
Ronald Rachmadi, ST., MT. Debby Paseru, ST., MMSI., M.Ed.

NIDN: 0918127201 NIDN: 0930097303
Menyetujui,
Kepala LPPM
Universitas Katolik De La Salle Manado
Angelia Melani Adrian, Ph.D.

NIDN:0931058401
i
ABSTRAK
Pencarian sebuah buku di perpustakaan dapat dilakukan secara mudah jika kita sudah
mengetahui judul buku, pengarang, bidang ilmu atau pun penerbit dari buku tersebut sebagai kata
kunci. Tanpa kata kunci, pencarian buku akan sulit dilakukan karena pencarian akan membutuhkan
waktu dan kita akan mencari buku tersebut di antara ratusan bahkan ribuan buku yang ada meskipun
sudah ada katalog atau basis data. Basis data buku yang ada di perpustakaan merupakan gudang data
dan untuk memanfaatkan gudang data tersebut, maka dapat digunakan proses temu balik informasi
atau information retrieval (IR). Proses temu balik informasi merupakan suatu cara untuk menemukan
kembali informasi pada dokumen atau basis data. Terdapat beberapa metode dalam IR ini, seperti
inverted index, boolean retrieval, tokenization, stemming and lemmatization, dictionaries, wildcard
queries, BM25F dan vector space model (VSM).
Penelitian ini telah membandingkan metode vector space model dan BM25F untuk mencari
waktu akses tercepat dalam pencarian buku. Data yang digunakan dalam penelitian ini merupakan
data semu sebanyak 50 buku. Pengujian dilakukan sebanyak 20 kali terhadap 10 kata kunci yang
berbeda dari 50 data buku yang ada.
Berdasarkan pengujian yang telah dilakukan, metode Vector Space Model memiliki waktu
pencarian yang lebih cepat dibandingkan dengan metode BM25F. Metode VSM menghasilkan rata-
rata waktu pencarian 0,002 detik, sedangkan rata-rata waktu pencarian metode BM25F adalah 6,308
detik. Perbedaan waktu yang cukup besar dikarenakan metode MB25F mengharuskan pencarian kata
kunci berdasarkan kategori yang ditentukan dulu, sedangkan metode VSM melakukan pencarian
langsung kata kunci tanpa penentuan kategori.
Kata Kunci: Vector Space Model, BM25F, pencarian
ii
KATA PENGANTAR
Puji dan syukur dipersembahkan kehadirat Tuhan Yang Maha Esa karena berkat, kasih dan
kemurahan-Nya sehingga penelitian ini telah selesai dilaksanakan. Penelitian ini merupakan
penelitian mandiri dosen bersama dengan 2 mahasiswa yang memiliki penelitian sejenis. Kedua
mahasiswa membantu dosen dalam melakukan pengujian terhadap metode yang ada.
Sebagai bentuk pertanggungjawaban dari penelitian yang dilakukan, maka disusunlah laporan akhir
penelitian ini dan juga akan ada hasil publikasi terhadap penelitian yang dilakukan ini.
Terima kasih kepada kedua mahasiswa yang telah membantu terlaksananya penelitian ini,
dan pihak lain yang terlibat secara langsung dan tidak langsung dalam kegiatan ini.
Akhirnya kami berharap semoga penyusunan dokumen ini dapat berguna dan dapat berfungsi
sebagaimana mestinya.
Manado, Juni 2023
Peneliti
iii
DAFTAR ISI
HALAMAN PENGESAHAN ............................................................................................ i

ABSTRAK ......................................................................................................................... ii
KATA PENGANTAR........................................................................................................ iii
DAFTAR ISI ...................................................................................................................... iv
DAFTAR LAMPIRAN ...................................................................................................... v
BAB I PENDAHULUAN .................................................................................................. 1

1.1 Latar Belakang ........................................................................................................ 1
1.2 Rumusan Masalah ................................................................................................... 2
1.3 Batasan Masalah ...................................................................................................... 2
1.4 Tujuan Penelitian ..................................................................................................... 2
1.5 Manfaat Penelitian ................................................................................................... 2
BAB II TINJAUAN PUSTAKA ........................................................................................ 3
2.1 Tinjauan Pustaka ..................................................................................................... 3

2.2 Road Map Penelitian ............................................................................................... 6
BAB III METODOLOGI PENELITIAN ........................................................................... 8

3.1 Rancangan Penelitian .............................................................................................. 8
3.2 Tempat dan Waktu .................................................................................................. 8
3.3 Target Luaran .......................................................................................................... 8
3.4 Jadwal Penelitian ..................................................................................................... 8
BAB IV HASIL DAN LUARAN ...................................................................................... 10
4.1 Hasil ......................................................................................................................... 10

4.2 Pembahasan ............................................................................................................. 10
4.3 Evaluasi ................................................................................................................... 16
4.3 Capaian Luaran ........................................................................................................ 16
BAB V PERTANGGUNGJAWABAN ANGGARAN ..................................................... 17
5.1 Pertanggungjawaban Anggaran ............................................................................... 17

iv
BAB VI KESIMPULAN DAN SARAN ........................................................................... 18
6.1 Kesimpulan .............................................................................................................. 18

6.2 Saran ........................................................................................................................ 18
DAFTAR PUSTAKA ....................................................................................................... 19
v
BAB I
PENDAHULUAN
1.1 Latar Belakang

Dalam dunia pendidikan, pustaka merupakan dokumen yang dibutuhkan sebagai
pendukung dalam pembelajaran, mulai sejak taman kanak-kanak sampai dengan
pendidikan tinggi. Untuk menunjang suatu institusi pendidikan, biasanya diadakan
perpustakaan. Perpustakaan menjadi tempat untuk menyimpan dan mengolah pustaka
yang ada sehingga dapat dimanfaatkan oleh pengujung perpustakaan untuk mendukung
pembelajaran atau hal lainnya. Dalam perpustakaan, biasanya menyimpan koleksi buku,
media atau dokumen yang dapat diakses untuk digunakan [1]. Banyaknya koleksi pustaka,
dari segi jumlah maupun judul, mendorong perlu dibuatkan suatu sistem pencarian yang
dapat mempermudah pengunjung perpustakaan untuk menemukan informasi yang dicari.
Sistem pencarian dapat dilakukan dengan menggunakan sebuah aplikasi pencarian. Aplikasi
ini nantinya dapat memanfaatkan data yang ada di perpustakaan untuk pustaka
berdasarkan judul buku, pengarang, penerbit dan topik pustaka.
Pencarian pustaka berkaitan dengan sistem temu kembali informasi atau information
retrieval, yaitu suatu cara untuk menemukan kembali informasi pada dokumen yang ada
secara mudah [2]. Terdapat beberapa metode pencarian dalam information retrieval,
misalnya BM25, BM25F, Vector Space Model (VSM), Inverted Index, Boolean Retrieval,
Tokenization, Stemming and Lemmatization, Dictionaries, dan Wildcard Queries. Olehnya,
dalam penelitian ini akan digunakan 2 metode, yaitu metode BM25F dan metode Vector
Space Model, untuk melakukan pencarian pustaka. Kedua metode ini dipilih karena kedua
metode ini terkenal dapat menghasilkan presisi yang tinggi dari hasil pencarian yang
dilakukan [4]. Metode BM25F merupakan metode pencarian yang menggunakan
pemeringkatan dokumen berdasarkan term query yang muncul pada setiap koleksi
dokumen. Sedangkan metode Vector Space Model menganggap setiap dokumen sebagai
vektor dan selanjutnya melihat kecocokan term antara kueri dan data pustaka (korpus).
Penelitian ini akan menghasilkan perbandingan antara kedua metode tersebut dalam
mencari pustaka yang sesuai dari sisi keakuratan hasil pencarian.
1.2 Rumusan Masalah

Bagaimana membandingkan metode Vector Space Model dan metode MB25F dalam
melakukan pencarian buku?
1.3 Batasan Masalah

Dalam melakukan penelitian ini, terdapat beberapa batasan sebagai berikut:
a. Jumlah data yang digunakan hanya 50 buah.
1
b. Aplikasi dibuat per masing-masing metode dan diinstalasi pada 1 komputer.
1.4 Tujuan
Penelitian ini bertujuan untuk membandingkan 2 metode untuk pencarian buku . Kedua
metode yang dimaksud adalah metode Vector Space Model dan metode BM25F dari waktu
pencarian.
1.5 Manfaat Penelitian

Penelitian ini bermanfaat untuk mengetahui metode pencarian yang baik dibandingkan
metode yang ada dalam melakukan pencarian. Laporan ini menjadi referensi lanjutan bagi
pembaca untuk perbandingan metode pencarian.
2
BAB II
TINJAUAN PUSTAKA
2.1. Tinjauan Pustaka

Sub bab ini akan membahas mengenai teori yang digunakan dalam penelitian ini, yang
berasal dari beberapa buku dan artikel.
2.1.1 Sistem Temu Kembali Informasi

Sistem temu kembali informasi atau Information Retrieval (IR) merupakan suatu sistem yang
sering dimanfaatkan dalam pencarian semua dokumen yang relevan sesuai permintaan pengguna
[5]. Definisi lain dari IR adalah suatu algoritma yang dipakai untuk pemrosesan, penyimpanan dan
penemuan kembali informasi yang ada. IR terdiri dari beberapa langkah, yang dimulai dari
pemasukan kueri dari dokumen/korpus yang akan dicari hingga me-ranking dokumen yang paling
relevan dengan kueri yang dimasukkan [5]. Sistem ini dapat mencari buku, jurnal, surat, catatan,
film, rekaman audio, surat kabar, buletin, poster seni, lagu, dan dokumen lainnya. Sistem temu
kembali informasi ini biasanya digunakan sebagai mesin pencarian di perpustakaan atau repository.
Dalam information retrieval, terdapat 3 aspek yang harus diperhatikan, yaitu relevansi, evaluasi,
dan kebutuhan pengguna [2].
Saat melakukan pencarian dokumen atau pustaka, sistem temu kembali informasi akan
melakukan tiga tahap, yaitu pemrosesan dokumen, pemrosesan kueri dan melakukan
pemeringkatan. Pemrosesan dokumen memiliki proses yang berurutan, yakni case folding
tokenizing, stemming, penghilangan stopword, menghitung IDF (inverse document frequency), dan
pemberian bobot kata. Pada tahap pemrosesan kueri, kueri akan dianggap sebagai suatu masukan
dalam sistem dan selanjutnya akan dilakukan tokenizing untuk mempersingkat pencarian. Tahap
yang terakhir, yaitu pemeringkatan, akan dilakukan pemeringkatan berdasarkan relevansi
dokumen dengan kueri yang dicari.
Terdapat beberapa metode yang dapat digunakan dalam information retrieval, misalnya
BM25, BM25F, Vector Space Model (VSM), Inverted Index, Boolean Retrieval, Tokenization,
Stemming and Lemmatization, Dictionaries, dan Wildcard Queries. Masing-masing metode memiliki
keunggulannya masing-masing. Dalam penelitian ini akan digunakan 2 metode, yaitu metode
BM25F dan VSM (Vector Space Model).
2.1.2 Metode BM25F

Metode Best Match 25F (BM25F) merupakan perluasan dari metode sebelumnya, yaitu
metode BM25 dan metode ini digunakan untuk memberi ranking pada dokumen/korpus
tersturktur berdasarkan jumlah term query yang ada pada setiap koleksi dokumen [3]. BM25F
memiliki tiga langkah untuk pencarian dokumen, yaitu penentuan weight term atau bobot kueri
pada suatu dokumen, penentuan nilai IDF dari kueri dan melakukan pemeringkatan berdasarkan
hasil yang diperoleh. Berikut merupakan rumus dari BM25F:
3
𝑤𝑒𝑖𝑔ℎ𝑡(𝑡,𝑑)
𝑅(𝑞, 𝑑) = ∑𝑡 𝑖𝑛 𝑑 𝑖𝑑𝑓(𝑡) . 𝑘1+𝑤𝑒𝑖𝑔ℎ𝑡(𝑡,𝑑) (2.1)
Keterangan:
• R(q,d) adalah ranking kueri q dalam dokumen d (nilai BM25F)
• Weight (t,d) bobot dari term t dalam dokumen d.
• t adalah term dari kueri
• d adalah dokumen, atau instance.
• boost adalah faktor yang diberikan pada field (c). Boost ditentukan berdasarkan tingkat
prioritas dari setiap field.
• Idf (t) merupakan rata-rata frekuensi term pada dokumen yang ada.
Sebelum menggunakan rumus 2.1, perlu dilakukan pembobotan kata (weight term)
menggunakan rumus 2.2. Rumus tersebut memiliki beberapa variabel, yakni occurs (jumlah
kemunculan term pada dokumen), boost (parameter bebas yang ditentukan pada setiap field
berdasarkan prioritas pencarian), b adalah konstanta Panjang field. Untuk konstanta panjang field
bisa digunakan nilai b=1, artinya semua data dilakukan normalisasi secara penuh atau nilai b=0 yang
berarti tidak ada normalisasi pada panjang dokumen [3]. Nilai lc=3 merupakan panjang dari field c
pada dokumen dan nilai avlc merupakan rata-rata panjang field. Pada dokumen, rata-rata panjang
field didapatkan dengan menjumlahkan field pada dokumen dibagi dengan jumlah dokumen yang
ada.
𝑑
𝑜𝑐𝑐𝑢𝑟𝑠𝑡.𝑐 .𝑏𝑜𝑜𝑠𝑡
𝑤𝑒𝑖𝑔ℎ𝑡(𝑡, 𝑑) = ∑𝑐 𝑖𝑛 𝑑 𝑙 (2.2)
((1− 𝑏𝑐 )+ 𝑏𝐶 . 𝑐
𝑎𝑣𝑙𝑐
Keterangan :
• Weight (t,d) bobot dari term t dalam dokumen d.
• c adalah field pada dokumen yang terdiri dari subjek, predikat, objek.
• d adalah dokumen.
• Occurs adalah kemunculan term t pada field c dalam dokumen d.
• 𝑏𝑐 adalah konstanta berdasarkan panjang field c
• 𝑙𝑐 adalah panjang dari field c.
• 𝑎𝑣𝑙𝑐 adalah rata-rata panjang field c.
• Boost adalah nilai yang ditentukan setiap field.
Selanjutnya pencarian nilai IDF (t) dapat dilakukan dengan rumus 2.3, sebagai berikut:
𝑁 − 𝑑𝑓(𝑡) + 0,5
𝑖𝑑𝑓(𝑡) = 𝑙𝑜𝑔 ( 2.3)
𝑑𝑓(𝑡) + 0,5
Dari rumus tersebut terdapat variable N (jumlah dokumen yang ada pada database), df(t), yaitu
jumlah dokumen yang memiliki term t dan hasil dari penjumlahan tersebut dikalikan dengan nilai
log.
4
Saat nilai weight term dan idf (t) diperoleh, maka akan dilakukan pemeringkatan dokumen
berdasarkan peringkat kueri yang ada menggunakan rumus 2.1 yang ada di atas.
2.1.3 Metode Vector Space Model

Metode Vector Space Model (VSM) atau metode Model Ruang Vektor merupakan suatu
metode yang menggunakan model aljabar untuk representasi dokumen teks sebagai penanda
vektor, seperti indeks kata. Metode VSM ini menampilkan kembali setiap kata yang bebas dari
setiap dokumen dan akan dinyatakan dalam bentuk sebuah vektor sehingga kerumitan dari
hubungan antar kata akan menjadi lebih sederhana dan mudah untuk dihitung [6].
Metode ini dimulai dengan merepresentasikan dokumen teks dalam bentuk vektor sehingga
mudah membandingkan dokumen dengan kueri untuk diketahui kemiripannya. Selanjutnya akan
dihitung koefisien kemiripan (similarity coefficient) untuk mengukur tingkat kemiripan antara suatu
dokumen dengan kueri [7]. Rumus yang umum digunakan untuk menghitung kemiripan adalah
cosine similarity, yaitu mengukur kosinus sudut antara vektor kueri q dan vektor dokumen d dengan
nilai maksimal 1. Semakin tinggi nilai cosine similarity, maka tingkat kemiripan dokumen dengan
kueri semkin tinggi juga.
Jika dokumen dj dan kueri q direpresentasikan dalam bentuk vektor:
dj = (w1,j, w2,j, … ,wn,j)
q = (w1,q, w2,q, … ,wn,q), maka
cosine similarity antara dokumen dj and query q dihitung dengan menggunakan rumus:
(2.4)
Untuk menghitung tingkat kemiripan, vektor kueri q disimpan juga pada ruang vektor
tersebut, dan selanjutnya tingkat kemiripan antara vektor kueri dan setiap vektor dokumen dapat
dihitung. Untuk peningkatan kinerja metode VSM, maka perlu dihitung pembobotan setiap term.
Perhitungan pembobotan setiap term dapat menghasilkan pemeringkatan dokumen yang lebih
baik. Pembobotan yang sering digunakan dalam VSM adalah menggunakan Term Frequency ×
Inverse Document Frequency (TF-IDF). TF-IDF merupakan hasil kali antara pembobotan term
frequency (TF) dan pembobotan inverse document frequency (IDF) [8]. Istilah Term frequency (tft,d)
dari term t dan dokumen d merupakan jumlah berapa kali term t muncul pada dokumen d. Rumus
TF adalah:
(2.5)
5
Document Frequency (DF) merupakan istilah yang mengacu pada jumlah dokumen yang
mengandung term tertentu. Sedangkan IDF merupakan kebalikan dari DF, dan IDF digunakan untuk
menghargai term penting yang jarang muncul pada korpus. Rumus IDF adalah
(2.6)
Keterangan:
N = jumlah total dokumen pada sistem
ni = jumlah dokumen-dokumen yang mengandung term t dengan indeks i (ti) sehingga rumus untuk
TF-IDF menjadi:
(2.7)
2.1.4 Penelitian Terkait
Terkait dengan penelitian ini, terdapat beberapa penelitian terdahulu yang dijadikan acuan
penulis. Yang pertama, penelitian oleh Gunawan [4]. Dalam penelitiannya, Gunawan menyatakan
bahwa metode OKAPI BM25 memiliki presisi yang lebih baik dibandingkan metode VSM.
Penelitiannya dilakukan terhadap 105 dokumen. Selanjutnya, penelitian kedua oleh Tjandra, et al.
[9] dengan judul “Sistem Repositori Tugas Akhir Mahasiswa Dengan Fungsi Peringkat Okapi BM25”.
Pada penelitian ini, penerapan algoritma BM25 dalam sistem repository tugas akhir berhasil
dilakukan sehingga mempermudah mahasiswa untuk mengunggah berkas tugas akhir mereka.
Penelitian ketiga yang digunakan adalah penelitian berjudul “Implementasi Generalized Vector
Space Model (GVSM) dalam Pencarian Buku di Perpustakaan” oleh Putra et al. [10]. Hasil penelitian
ini menyatakan bahwa metode GVSM mendapatkan nilai recall yang lebih tinggi dari nilai presisi.
Penelitian terakhir yang dijadikan acuan dalam penelitian ini adalah penelitian oleh Sabna, et al.
[11] dengan judul “Information Retrieval Pada Data Judul Skripsi Berbasis Text Menggunakan Vector
Space Model”. Hasil penelitian ini menyatakan bahwa proses stemming perlu dilakukan terlebih
dahulu untuk memperoleh hasil pencarian yang baik.
2.2. Road Map Penelitian

Peta jalan dalam penelitian ini adalah sebagai berikut:
Pada tahun 2020, telah diadakan penelitian yang sama dengan metode VSM di mana saat itu
tim melakukan pembuatan aplikasi untuk mencari buku atau sumber lain di perpustakaan
daerah. Selanjutnya pada tahun 2022, metode ini diganti dengan metode yang lain dengan
tujuan dapat diperbandingkan pada tahun berikutnya. Nantinya penelitian selanjutnya akan
mencoba membandingkan beberapa metode yang lain untuk dicarikan metode terbaik
dengan kasus yang sama.
6
2024
Pembuatan
2023 aplikasi dan
Pembuatan artikel
aplikasi dan dengan
metode
2022 artikel dengan
metode pencarian
BM25F dan yang lain
Pembuatan
aplikasi dan VSM
artikel dengan
metode
BM25F
Gambar 1. Road Map Penelitian
7
BAB III
METODOLOGI PENELITIAN
3.1. Rancangan Penelitian

Penelitian ini akan dilaksanakan dengan langkah-langkah berikut:
a. Melakukan Studi Pustaka
Mempelajari teori mengenai information retrieval dan metode pencarian terkait topik
tersebut. Metode VSM dan metode BM25F dipilih untuk dibandingkan dalam pencarian
buku atau pustaka. Aplikasi akan menggunakan basis data yang berisi sejumlah
buku/sumber pustaka sebanyak 50 buah. Tim penulis juga memperoleh teori-teori
pendukung dari artikel penelitian sejenis melalui jurnal online dan buku. Studi ini bersifat
teoritis yang menjadi dasar dalam penelitian.
b. Proses Analisis Kedua Metode
Berdasarkan kedua metode, aplikasi dibuat utuk mengitung kecepatan waktu dalam
pencarian buku/sumber pustaka lainnya dan juga melihat ketepatan dari kedua metode.
c. Analisis Hasil
Hasil yang diperoleh dari analisis, selanjutnya akan dilakukan berkali-kali untuk menguji
tingkat akurasi dan waktu proses terhadap hasil yang ada.
d. Kesimpulan
Tahap terakhir setelah analisis adalah penarikan kesimpulan dari yang telah dilakukan
penulis.
3.2 Tempat dan Waktu

Penelitian ini hanya dilakukan di sekitar kampus, di mana tim membuat aplikasi menggunakan
laptop di laboratorium komputer atau di rumah atau di perpustakaan untuk berdiskusi
mengenai rancangan aplikasi yang dibuat dan pemilihan basis data yang akan digunakan.
3.3 Target Luaran

Penelitian ini akan menghasilkan artikel publikasi di jurnal Pekommas atau jurnal RESTI dan
laporan akhir penelitian.
3.4 Jadwal Penelitian

Jadwal penelitian dikaitkan dengan tahapan-tahapan dalam metodologi penelitian yang dapat
dilihat pada tabel berikut ini:
8
Tabel 2. Jadwal Penelitian
Tahap Bulan Pelaksanaan Penelitian

Tahun Akademik 2022
Februari Maret April Mei Juni
Penulisan Proposal
Pelaksanaan Penelitian
Pengumpulan Data
Pengolahan dan Analisis
Data
Penyusunan Laporan
Penelitian
Monev Penelitian
Publikasi Ilmiah
9
BAB IV
HASIL DAN LUARAN
4.1 Hasil
Berdasarkan rancangan penelitian yang telah dilakukan, maka tim berhasil membuat aplikasi
untuk membandingkan kedua metode. Tim kerja membuat 2 aplikasi yang berbeda dan masing-
masing aplikasi menggunakan salah satu metode. Setelahnya kedua aplikasi tersebut diinstalasi
pada satu komputer. Aplikasi menggunakan basis data yang sama, demikian juga dengan contoh
kasus yang akan diujicobakan. Berdasarkan pengujian yang telah dilakukan, dapat disampaikan
bahwa metode Vector Space Model memiliki waktu pencarian yang lebih cepat dibandingkan
dengan metode BM25F. Metode VSM menghasilkan rata-rata waktu pencarian 0,002 detik,
sedangkan rata-rata waktu pencarian metode BM25F adalah 6,308 detik. Perbedaan waktu yang
cukup besar dikarenakan metode MB25F mengharuskan pencarian kata kunci berdasarkan kategori
yang ditentukan dulu, sedangkan metode VSM melakukan pencarian langsung kata kunci tanpa
penentuan kategori. Tingkat presisi dari metode VSM lebih baik dari metode BM25F, namun
metode BM25F memiliki tingkat recall yang lebih baik dari metode VSM.
4.2 Pembahasan
Sebelum aplikasi dijalankan, maka daftar buku yang digunakan sebagai basis data ada
sebanyak 50 data, sebagai berikut:
Tabel 3. Basis Data
No Daftar Buku
1 Algoritma dan Pemrograman
2 Dasar-dasar Elektro Teknik
3 Aplikasi Elektromagnetik
4 Konsep dan Aplikasi Statika
5 Pemrograman Linier
6 Rangkaian Listrik
7 Ekologi Industri
8 Kriptografi untuk keamanan jaringan
9 Teknik Digital
10 Logika Matematika untuk Teknik Komputer
11 Prinsip-prinsip Ekonomi
12 Kaya dari Bisnis Properti
13 Kitab Suci Pemain Saham
14 Hukum Bisnis Pasar Modal
15 Mengenal Aspek-aspek Operasi Bank Umum
16 Akuntansi Bank. Teori dan Aplikasi Dalam Rupiah
17 Lanskap Ekonomi Indonesia
18 Pengantar Manajemen
19 Makro Ekonomi Indonesia
20 Manajemen Keuangan Multinasional
21 Manajemen Layanan Khusus di Sekolah
22 Strategi Meningkatkan Daya Baca
23 Anatomi dan Fisiologi Tubuh Manusia, Latihan dan Panduan Belajar
24 Racun dan Keracunan
25 Pendidikan dan Konsultasi Gizi
26 Jasa Pariwisata
27 Panduan Berolahraga untuk Kesehatan dan Kebugaran
28 Teori Belajar dan Pembelajaran
10
No Daftar Buku
29 Rekayasa Lalu Lintas
30 Pembelajaran Fisika; Kesulitan Belajar dan Cara Mengatasinya
31 Mikrobiologi Pangan
32 Penyuluhan Pertanian
33 Kebijakan Publik Di Indonesia
34 Manajemen Kompensasi
35 Strategi Kreatif dalam Periklanan
36 Ilmu Komunikasi Ilmiah Dan Populer
37 Pengambilan Sampel Dalam Penelitian Survey
38 Ilmu Sosial Budaya Dasar
39 Kepelatihan Dasar Sepak Takraw
40 Preservasi Dan Konvervasi Bahan Pustaka
41 Agribisnis Teori Dan Aplikasinya
42 Dasar-Dasar Agronomi
43 Pengantar Pestisida Hayati
44 Kekerasan Simbolik Di Sekolah
45 Gizi Anak Dan Remaja
46 Gizi Ibu Dan Bayi
47 Teori Perbandingan Politik
48 Pembelajaran Berbasis Blended Learning
49 Metode Penelitian Sosial Kuantitatif
50 Manajemen Sumber Daya Manusia
Pengujian dilakukan dengan menggunakan dengan laptop Macbook Air M1 yang memiliki
spesifikasi processor chip apple M1, RAM 16GB, memory SSD 256GB. Dalam melakukan pengujian
terdapat 50 buku dalam database dan tidak menggunakan kategori dan pengarang buku
a. Metode VSM
Berikut merupakan hasil pengujian yang dilakukan dengan menggunakan 10 kata kunci
yang berbeda.
Tabel 4. Pencarian dengan Metode VSM
No Kata Kunci Waktu Pencarian
1 algoritma dan pemrograman 0,001
2 perangkai ekonomi 0,002
3 pasar saham 0,001
4 pengaruh uang digital bagi ekonomi indonesia 0,002
5 jejak digital 0,001
6 pentingnya belajar matematika 0,002
7 Olahraga dan jasmani 0,001
8 dasar perekonomian 0,002
9 rokok untuk kesehatan 0,001
11
10 multinasional 0,001
Rata-rata 0,002
Berdasarkan hasil yang didapatkan dalam pengujian menggunakan 10 buku mendapatkan hasil
rata-rata waktu pencarian 0,002 dari 20 kali uji coba menggunakan kata kunci yang berbeda.
Berikut merupakan foto dari hasil pengujian waktu pencarian yang dilakukan:
Gambar 2. Hasil Pengujian “menggunakan kata kunci “algoritma dan pemrograman”
Gambar 3. Hasil Pengujian “menggunakan kata kunci “perangkai ekonomi”
12
Gambar 4. Hasil Pengujian “menggunakan kata kunci “pasar saham”
Selanjutnya dilakukan perhitungan recall dan precision untuk mengetahui tingkat

keakuratan pencarian 50 dokumen dengan menggunakan rumus pada bab sebelumnya dan
menghasilkan hasil berikut:
Tabel 5. Pengujian Recall dan Precision (Metode VSM)

No Kata kunci Ra Rs Rt Recall Precision
1 algoritma dan pemrograman 2 2 2 1 1
2 perangkai ekonomi 3 4 3 0,75 1
3 pasar saham 2 2 2 1 1
4 pengaruh uang digital bagi ekonomi indonesia 6 6 6 1 1
5 jejak digital 1 1 1 1 1
6 pentingnya belajar matematika 1 1 1 1 1
7 Olahraga dan jasmani 1 1 1 1 1
8 dasar perekonomian 4 7 4 0,57 1
9 rokok untuk kesehatan 1 1 1 1 1
10 multinasional 1 1 1 1 1
Keterangan:
Ra = Jumlah dokumen relevan ditemukan
Rs = Jumlah dokumen relevan dalam koleksi
Rt = jumlah dokumen yang ditemukan
Dari tabel di atas, dengan menggunakan 10 kata kunci yang berbeda, maka rata-rata hasil
recall, yaitu mendapatkan nilai 0,9 dan hasil precision mendapatkan nilai 1.
b. Metode BM25F
Berbeda dengan metode VSM, pada metode ini, kategori dan pengarang buku disamakan
semua supaya sama dengan metode VSM yang menggunakan pengarang dan kategori buku.
Selain itu pula, pada metode BM25F ini, digunakan nilai Boost 3, judul buku 3, kategori dan
13
pengarang buku dianggap 0. Dengan kasus yang sama, maka hasil dari metode BM25F
adalah:
Tabel 6. Pencarian dengan Metode BM25F

1 algoritma dan pemrograman 6,369
2 perangkai ekonomi 6,315
3 pasar saham 6,275
4 pengaruh uang digital bagi ekonomi indonesia 6,384
5 jejak digital 6,286
6 pentingnya belajar matematika 6,399
7 Olahraga dan jasmani 6,321
8 dasar perekonomian 6,235
9 rokok untuk kesehatan 6,269
10 multinasional 6,227
Rata-rata 6,308
Berdasarkan hasil yang didapatkan dalam pengujian menggunakan 10 buku mendapatkan

hasil rata-rata waktu pencarian 6,308 dari 20 kali uji coba menggunakan kata kunci yang
berbeda.
Gambar 5. Hasil Pengujian BM25F “menggunakan kata kunci “algoritma dan pemrograman”
14
Gambar 6. Hasil Pengujian BM25F “menggunakan kata kunci “perangkai ekonomi”
Gambar 7. Hasil Pengujian BM25F “menggunakan kata kunci “pasar saham”
Sama seperti metode VSM, selanjutnya dilakukan juga perhitungan recall dan precision
untuk mengetahui tingkat keakuratan pencarian 50 dokumen dengan menggunakan rumus
pada bab sebelumnya dan menghasilkan hasil berikut:
Tabel 7. Pengujian Recall dan Precision (Metode BM25F)

1 algoritma dan pemrograman 2 2 2 1 1
2 perangkai ekonomi 4 4 4 1 1
3 pasar saham 2 2 2 1 1
4 pengaruh uang digital bagi ekonomi indonesia 6 6 8 1 0,75
5 jejak digital 1 1 1 1 1
15
6 pentingnya matematika 1 1 1 1 1
7 Olahraga dan jasmani 1 1 1 1 1
8 dasar perekonomian 7 7 7 1 1
9 rokok untuk kesehatan 3 3 5 1 0,2
10 multinasional 1 1 1 1 1
Hasil dari tabel 7 dengan menggunakan 10 kata kunci yang berbeda mendapatkan hasil
recall yang sempurna, yaitu mendapatkan nilai 1 dan hasil precision mendapatkan nilai
0,89.
4.3 Evaluasi
Dari pembahasan yang telah dilakukan, dapat dilihat bahwa penelitian ini masih dapat
dikembangkan lagi dengan menggunakan metode pencarian yang berbeda. Selain itu pula, aplikasi
harusnya dibuat satu saja dengan menggunakan 2 metode, tidak seperti penelitian ini yang
menggunakan 2 aplikasi dengan masing-masing metode. Pada metode BM25F tidak
memperhitungkan kategori dan pengarang buku untuk disejajarkan dengan metode VSM. Ke
depan, ini harus diperhitungkan karena ini menjadi kelebihan metode BM25F untuk pencarian yang
lebih detail dan akurat. Penentuan nilai boost juga menjadi faktor penting bagi metode BM25F
sehingga perlu dicarikan nilai boost terbaik dalam proses pencarian metode BM25F.
4.4 Capaian Luaran

Penelitian ini akan menghasilkan luaran berupa hasil perbandingan ddari kedua metode,
ditinjau dari segi keakuratan dan kecepatan pencarian. Selain itu pula, akan dipublikasikan hasil
penelitian ini dalam bentuk artikel penelitian pada jurnal nasional terakreditasi SINTA 2.
16
BAB V
PERTANGGUNGJAWABAN ANGGARAN
Anggaran yang diusulkan tidak jadi digunakan dikarenakan pembiayaan mandiri oleh tim
kerja.
17
BAB VI
KESIMPULAN DAN SARAN
6.1 Kesimpulan
Berdasarkan pembahasan pada bab-bab sebelumnya, maka diperoleh kesimpulan sebagai
berikut:
1. Metode Vector Space Model (VSM) memiliki waktu pencarian yang lebih cepat
dibandingkan dengan metode BM25F.
2. Metode VSM memiliki tingkat presisi yang lebih baik dari metode BM25F, namun metode
BM25F memiliki tingkat recall yang lebih baik dari metode VSM.
6.2 Saran
Adapun saran penelitian ke depan adalah:
1. Aplikasi dibuat satu dengan menggunakan 2 metode. Bisa ditambahkan metode pencarian
yang lain.
2. Pencarian tidak hanya berdasarkan kata kunci, namun menggunakan kategori dan atau
pengarang buku.
18
DAFTAR PUSTAKA
[1] N. Alifah Rahmawati, "Analisis Dan Perancangan Desain Sistem Informasi Perpustakaan
Sekolah Pustakaan Sekolah," Berkala Ilmu Perpustakaan dan Informasi, vol. XIV, pp. 76-86,
2018.
[2] S. Salmon, et al., "Implementasi Metode Vector Space Model Pada Search Engine," Prosiding
Seminar Nasional Sistem Informasi dan Teknologi (SISFOTEK), vol. IV, pp. 84-92, 2020.
[3] E. H. Yossy., "Metode-Metode Information Retrieval," [Online],
https://onlinelearning.binus.ac.id/computer-science/post/metode-metode-information-
retrieval#:~:text=Information%20Retrieval%20memiliki%20beberapa%20metode,queries%2
C%20dan%20vector%20space%20model, 2020.
[4] B. K. Gunawan.,"Perbandingan Sistem Temu Kembali Model Ruang Vektor dengan Sistem
Temu Kembali Okapi BM25 pada Perangkingan Dokumen Text", Skripsi, Fakultas Teknologi
Informasi Universitas Kristen Duta Wacana, 2021.
[5] R. Baeza-Yates dan B. Ribeiro-Neto, Modern Information Retrieval, New York: ACM Press,
1999.
[6] L. Hermawan, "Peringkasan Proposal Skripsi Menggunakan Algoritma Vector Space Model,"
Prosiding Seminar Nasional Sains dan Teknologi, vol. 1 No 1, pp. 238-242, 2018.
[7] D. A. Grossman dan O. Frieder, Information Retrieval Algorithms and Heuristics, Springer,
2004.
[8] K. Latha, Experiment and Evaluation in Information Retrieval Models, Boca Raton: CRC Press,
2016.
[9] Tjandra et al., "Sistem Repositori Tugas Akhir Mahasiswa dengan Fungsi Peringkat Okapi
BM25," Journal Information System Engineering and Business Intelligence, vol. II, pp. 88-94,
2016.
[10] Putra, et al.,"Implementasi Generalized Vector Space Model (GVSM) dalam Pencarian Buku di
Perpustakaan”, Merpati, vol. VII, pp. 86-94, 2019.
[11] E. Sabna et al., "Pencarian Judul Skripsi di Perpustakaan Menggunakan Metode Vector Space
Model (VSM)," Jurnal Ilmu Komputer, vol. II, pp. 132-135, 2021.
19
LAMPIRAN
20
Lampiran I
BIODATA TIM PENELITI
1. Ketua :
a. Nama Lengkap : Debby Paseru

b. Jenis Kelamin : Perempuan
c. NIDN : 0930097303
d. Fungsional/Pangkat/Gol : Lektor Kepala/IVa
e. Jabatan Struktural :-
f. Bidang Keahlian : Informatika
g. Prodi/Fakultas : Teknik Informatika/Teknik
h. Perguruan Tinggi : Universitas Katolik De La Salle Manado
2. Anggota 1
a. Nama Lengkap : Stevanus Salmon

b. Jenis Kelamin : Laki-laki
c. NIDN : --
d. Fungsional/Pangkat/Gol : --
e. Jabatan Struktural : --
i. Prodi /Fakultas : Teknik Informatika/Teknik
g. Perguruan Tinggi : Universitas Katolik De La Salle Manado
Anggota 2
a. Nama Lengkap : Reynaldi Kuera
b. Jenis Kelamin : Laki-laki
c. NIDN : --
d. Fungsional/Pangkat/Gol : --
e. Jabatan Struktural : --
g. Prodi /Fakultas : Teknik Informatika/Teknik
h. Perguruan Tinggi : Universitas Katolik De La Salle Manado
21
Lampiran III
22
23

Lap Akhir Perbandingan Metode VSM Dan BM25F

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Lap Akhir Perbandingan Metode VSM Dan BM25F

Diunggah oleh

Hak Cipta:

Format Tersedia

LAPORAN AKHIR PENELITIAN

PERBANDINGAN METODE VECTOR SPACE MODEL DAN BM25F DALAM

Penelitian tahun ke 1 dari rencana 1 tahun

Anggota 1 : Reynaldi Kuera

Teknik Informatika Fakultas Teknik

Judul : Perbandingan Metode Vector Space Model dan BM25F

Tahun Pelaksanaan : Tahun ke 1 dari rencana 1 tahun

Manado, 30 Juni 2023

Ronald Rachmadi, ST., MT. Debby Paseru, ST., MMSI., M.Ed.

Angelia Melani Adrian, Ph.D.

Kata Kunci: Vector Space Model, BM25F, pencarian

Manado, Juni 2023

HALAMAN PENGESAHAN ............................................................................................ i

BAB I PENDAHULUAN .................................................................................................. 1

BAB II TINJAUAN PUSTAKA ........................................................................................ 3

2.1 Tinjauan Pustaka ..................................................................................................... 3

BAB III METODOLOGI PENELITIAN ........................................................................... 8

BAB IV HASIL DAN LUARAN ...................................................................................... 10

4.1 Hasil ......................................................................................................................... 10

BAB V PERTANGGUNGJAWABAN ANGGARAN ..................................................... 17

5.1 Pertanggungjawaban Anggaran ............................................................................... 17

6.1 Kesimpulan .............................................................................................................. 18

DAFTAR PUSTAKA ....................................................................................................... 19

1.1 Latar Belakang

1.2 Rumusan Masalah

1.3 Batasan Masalah

1.5 Manfaat Penelitian

2.1. Tinjauan Pustaka

2.1.1 Sistem Temu Kembali Informasi

2.1.2 Metode BM25F

2.1.3 Metode Vector Space Model

2.2. Road Map Penelitian

3.1. Rancangan Penelitian

3.2 Tempat dan Waktu

3.3 Target Luaran

3.4 Jadwal Penelitian

Tahap Bulan Pelaksanaan Penelitian

Gambar 2. Hasil Pengujian “menggunakan kata kunci “algoritma dan pemrograman”

Gambar 3. Hasil Pengujian “menggunakan kata kunci “perangkai ekonomi”

Selanjutnya dilakukan perhitungan recall dan precision untuk mengetahui tingkat

Tabel 5. Pengujian Recall dan Precision (Metode VSM)

No Kata Kunci Waktu Pencarian

Berdasarkan hasil yang didapatkan dalam pengujian menggunakan 10 buku mendapatkan

Gambar 7. Hasil Pengujian BM25F “menggunakan kata kunci “pasar saham”

Tabel 7. Pengujian Recall dan Precision (Metode BM25F)

4.4 Capaian Luaran

a. Nama Lengkap : Debby Paseru

a. Nama Lengkap : Stevanus Salmon

Anda mungkin juga menyukai