Lap Akhir Perbandingan Metode VSM Dan BM25F
Lap Akhir Perbandingan Metode VSM Dan BM25F
PENDANAAN INTERNAL/MANDIRI
Oleh:
Ketua : Debby Paseru (NIDN: 0930097303)
Anggota (1)
Nama Lengkap : Reynaldy Kuera
NIM : 18013069
Perguruan Tinggi : Universitas Katolik De La Salle Manado
Anggota (2)
Nama Lengkap : Stevanus Salmon
NIM : -
Perguruan Tinggi : Universitas Katolik De La Salle Manado
Menyetujui,
Kepala LPPM
Universitas Katolik De La Salle Manado
i
ABSTRAK
Pencarian sebuah buku di perpustakaan dapat dilakukan secara mudah jika kita sudah
mengetahui judul buku, pengarang, bidang ilmu atau pun penerbit dari buku tersebut sebagai kata
kunci. Tanpa kata kunci, pencarian buku akan sulit dilakukan karena pencarian akan membutuhkan
waktu dan kita akan mencari buku tersebut di antara ratusan bahkan ribuan buku yang ada meskipun
sudah ada katalog atau basis data. Basis data buku yang ada di perpustakaan merupakan gudang data
dan untuk memanfaatkan gudang data tersebut, maka dapat digunakan proses temu balik informasi
atau information retrieval (IR). Proses temu balik informasi merupakan suatu cara untuk menemukan
kembali informasi pada dokumen atau basis data. Terdapat beberapa metode dalam IR ini, seperti
inverted index, boolean retrieval, tokenization, stemming and lemmatization, dictionaries, wildcard
queries, BM25F dan vector space model (VSM).
Penelitian ini telah membandingkan metode vector space model dan BM25F untuk mencari
waktu akses tercepat dalam pencarian buku. Data yang digunakan dalam penelitian ini merupakan
data semu sebanyak 50 buku. Pengujian dilakukan sebanyak 20 kali terhadap 10 kata kunci yang
berbeda dari 50 data buku yang ada.
Berdasarkan pengujian yang telah dilakukan, metode Vector Space Model memiliki waktu
pencarian yang lebih cepat dibandingkan dengan metode BM25F. Metode VSM menghasilkan rata-
rata waktu pencarian 0,002 detik, sedangkan rata-rata waktu pencarian metode BM25F adalah 6,308
detik. Perbedaan waktu yang cukup besar dikarenakan metode MB25F mengharuskan pencarian kata
kunci berdasarkan kategori yang ditentukan dulu, sedangkan metode VSM melakukan pencarian
langsung kata kunci tanpa penentuan kategori.
ii
KATA PENGANTAR
Puji dan syukur dipersembahkan kehadirat Tuhan Yang Maha Esa karena berkat, kasih dan
kemurahan-Nya sehingga penelitian ini telah selesai dilaksanakan. Penelitian ini merupakan
penelitian mandiri dosen bersama dengan 2 mahasiswa yang memiliki penelitian sejenis. Kedua
mahasiswa membantu dosen dalam melakukan pengujian terhadap metode yang ada.
Sebagai bentuk pertanggungjawaban dari penelitian yang dilakukan, maka disusunlah laporan akhir
penelitian ini dan juga akan ada hasil publikasi terhadap penelitian yang dilakukan ini.
Terima kasih kepada kedua mahasiswa yang telah membantu terlaksananya penelitian ini,
dan pihak lain yang terlibat secara langsung dan tidak langsung dalam kegiatan ini.
Akhirnya kami berharap semoga penyusunan dokumen ini dapat berguna dan dapat berfungsi
sebagaimana mestinya.
Peneliti
iii
DAFTAR ISI
v
BAB I
PENDAHULUAN
1
b. Aplikasi dibuat per masing-masing metode dan diinstalasi pada 1 komputer.
1.4 Tujuan
Penelitian ini bertujuan untuk membandingkan 2 metode untuk pencarian buku . Kedua
metode yang dimaksud adalah metode Vector Space Model dan metode BM25F dari waktu
pencarian.
2
BAB II
TINJAUAN PUSTAKA
3
𝑤𝑒𝑖𝑔ℎ𝑡(𝑡,𝑑)
𝑅(𝑞, 𝑑) = ∑𝑡 𝑖𝑛 𝑑 𝑖𝑑𝑓(𝑡) . 𝑘1+𝑤𝑒𝑖𝑔ℎ𝑡(𝑡,𝑑) (2.1)
Keterangan:
• R(q,d) adalah ranking kueri q dalam dokumen d (nilai BM25F)
• Weight (t,d) bobot dari term t dalam dokumen d.
• t adalah term dari kueri
• d adalah dokumen, atau instance.
• boost adalah faktor yang diberikan pada field (c). Boost ditentukan berdasarkan tingkat
prioritas dari setiap field.
• Idf (t) merupakan rata-rata frekuensi term pada dokumen yang ada.
Sebelum menggunakan rumus 2.1, perlu dilakukan pembobotan kata (weight term)
menggunakan rumus 2.2. Rumus tersebut memiliki beberapa variabel, yakni occurs (jumlah
kemunculan term pada dokumen), boost (parameter bebas yang ditentukan pada setiap field
berdasarkan prioritas pencarian), b adalah konstanta Panjang field. Untuk konstanta panjang field
bisa digunakan nilai b=1, artinya semua data dilakukan normalisasi secara penuh atau nilai b=0 yang
berarti tidak ada normalisasi pada panjang dokumen [3]. Nilai lc=3 merupakan panjang dari field c
pada dokumen dan nilai avlc merupakan rata-rata panjang field. Pada dokumen, rata-rata panjang
field didapatkan dengan menjumlahkan field pada dokumen dibagi dengan jumlah dokumen yang
ada.
𝑑
𝑜𝑐𝑐𝑢𝑟𝑠𝑡.𝑐 .𝑏𝑜𝑜𝑠𝑡
𝑤𝑒𝑖𝑔ℎ𝑡(𝑡, 𝑑) = ∑𝑐 𝑖𝑛 𝑑 𝑙 (2.2)
((1− 𝑏𝑐 )+ 𝑏𝐶 . 𝑐
𝑎𝑣𝑙𝑐
Keterangan :
• Weight (t,d) bobot dari term t dalam dokumen d.
• c adalah field pada dokumen yang terdiri dari subjek, predikat, objek.
• d adalah dokumen.
• Occurs adalah kemunculan term t pada field c dalam dokumen d.
• 𝑏𝑐 adalah konstanta berdasarkan panjang field c
• 𝑙𝑐 adalah panjang dari field c.
• 𝑎𝑣𝑙𝑐 adalah rata-rata panjang field c.
• Boost adalah nilai yang ditentukan setiap field.
Selanjutnya pencarian nilai IDF (t) dapat dilakukan dengan rumus 2.3, sebagai berikut:
𝑁 − 𝑑𝑓(𝑡) + 0,5
𝑖𝑑𝑓(𝑡) = 𝑙𝑜𝑔 ( 2.3)
𝑑𝑓(𝑡) + 0,5
Dari rumus tersebut terdapat variable N (jumlah dokumen yang ada pada database), df(t), yaitu
jumlah dokumen yang memiliki term t dan hasil dari penjumlahan tersebut dikalikan dengan nilai
log.
4
Saat nilai weight term dan idf (t) diperoleh, maka akan dilakukan pemeringkatan dokumen
berdasarkan peringkat kueri yang ada menggunakan rumus 2.1 yang ada di atas.
(2.4)
Untuk menghitung tingkat kemiripan, vektor kueri q disimpan juga pada ruang vektor
tersebut, dan selanjutnya tingkat kemiripan antara vektor kueri dan setiap vektor dokumen dapat
dihitung. Untuk peningkatan kinerja metode VSM, maka perlu dihitung pembobotan setiap term.
Perhitungan pembobotan setiap term dapat menghasilkan pemeringkatan dokumen yang lebih
baik. Pembobotan yang sering digunakan dalam VSM adalah menggunakan Term Frequency ×
Inverse Document Frequency (TF-IDF). TF-IDF merupakan hasil kali antara pembobotan term
frequency (TF) dan pembobotan inverse document frequency (IDF) [8]. Istilah Term frequency (tft,d)
dari term t dan dokumen d merupakan jumlah berapa kali term t muncul pada dokumen d. Rumus
TF adalah:
(2.5)
5
Document Frequency (DF) merupakan istilah yang mengacu pada jumlah dokumen yang
mengandung term tertentu. Sedangkan IDF merupakan kebalikan dari DF, dan IDF digunakan untuk
menghargai term penting yang jarang muncul pada korpus. Rumus IDF adalah
(2.6)
Keterangan:
N = jumlah total dokumen pada sistem
ni = jumlah dokumen-dokumen yang mengandung term t dengan indeks i (ti) sehingga rumus untuk
TF-IDF menjadi:
(2.7)
2.1.4 Penelitian Terkait
Terkait dengan penelitian ini, terdapat beberapa penelitian terdahulu yang dijadikan acuan
penulis. Yang pertama, penelitian oleh Gunawan [4]. Dalam penelitiannya, Gunawan menyatakan
bahwa metode OKAPI BM25 memiliki presisi yang lebih baik dibandingkan metode VSM.
Penelitiannya dilakukan terhadap 105 dokumen. Selanjutnya, penelitian kedua oleh Tjandra, et al.
[9] dengan judul “Sistem Repositori Tugas Akhir Mahasiswa Dengan Fungsi Peringkat Okapi BM25”.
Pada penelitian ini, penerapan algoritma BM25 dalam sistem repository tugas akhir berhasil
dilakukan sehingga mempermudah mahasiswa untuk mengunggah berkas tugas akhir mereka.
Penelitian ketiga yang digunakan adalah penelitian berjudul “Implementasi Generalized Vector
Space Model (GVSM) dalam Pencarian Buku di Perpustakaan” oleh Putra et al. [10]. Hasil penelitian
ini menyatakan bahwa metode GVSM mendapatkan nilai recall yang lebih tinggi dari nilai presisi.
Penelitian terakhir yang dijadikan acuan dalam penelitian ini adalah penelitian oleh Sabna, et al.
[11] dengan judul “Information Retrieval Pada Data Judul Skripsi Berbasis Text Menggunakan Vector
Space Model”. Hasil penelitian ini menyatakan bahwa proses stemming perlu dilakukan terlebih
dahulu untuk memperoleh hasil pencarian yang baik.
6
2024
Pembuatan
2023 aplikasi dan
Pembuatan artikel
aplikasi dan dengan
metode
2022 artikel dengan
metode pencarian
BM25F dan yang lain
Pembuatan
aplikasi dan VSM
artikel dengan
metode
BM25F
Gambar 1. Road Map Penelitian
7
BAB III
METODOLOGI PENELITIAN
8
Tabel 2. Jadwal Penelitian
9
BAB IV
HASIL DAN LUARAN
4.1 Hasil
Berdasarkan rancangan penelitian yang telah dilakukan, maka tim berhasil membuat aplikasi
untuk membandingkan kedua metode. Tim kerja membuat 2 aplikasi yang berbeda dan masing-
masing aplikasi menggunakan salah satu metode. Setelahnya kedua aplikasi tersebut diinstalasi
pada satu komputer. Aplikasi menggunakan basis data yang sama, demikian juga dengan contoh
kasus yang akan diujicobakan. Berdasarkan pengujian yang telah dilakukan, dapat disampaikan
bahwa metode Vector Space Model memiliki waktu pencarian yang lebih cepat dibandingkan
dengan metode BM25F. Metode VSM menghasilkan rata-rata waktu pencarian 0,002 detik,
sedangkan rata-rata waktu pencarian metode BM25F adalah 6,308 detik. Perbedaan waktu yang
cukup besar dikarenakan metode MB25F mengharuskan pencarian kata kunci berdasarkan kategori
yang ditentukan dulu, sedangkan metode VSM melakukan pencarian langsung kata kunci tanpa
penentuan kategori. Tingkat presisi dari metode VSM lebih baik dari metode BM25F, namun
metode BM25F memiliki tingkat recall yang lebih baik dari metode VSM.
4.2 Pembahasan
Sebelum aplikasi dijalankan, maka daftar buku yang digunakan sebagai basis data ada
sebanyak 50 data, sebagai berikut:
Tabel 3. Basis Data
No Daftar Buku
1 Algoritma dan Pemrograman
2 Dasar-dasar Elektro Teknik
3 Aplikasi Elektromagnetik
4 Konsep dan Aplikasi Statika
5 Pemrograman Linier
6 Rangkaian Listrik
7 Ekologi Industri
8 Kriptografi untuk keamanan jaringan
9 Teknik Digital
10 Logika Matematika untuk Teknik Komputer
11 Prinsip-prinsip Ekonomi
12 Kaya dari Bisnis Properti
13 Kitab Suci Pemain Saham
14 Hukum Bisnis Pasar Modal
15 Mengenal Aspek-aspek Operasi Bank Umum
16 Akuntansi Bank. Teori dan Aplikasi Dalam Rupiah
17 Lanskap Ekonomi Indonesia
18 Pengantar Manajemen
19 Makro Ekonomi Indonesia
20 Manajemen Keuangan Multinasional
21 Manajemen Layanan Khusus di Sekolah
22 Strategi Meningkatkan Daya Baca
23 Anatomi dan Fisiologi Tubuh Manusia, Latihan dan Panduan Belajar
24 Racun dan Keracunan
25 Pendidikan dan Konsultasi Gizi
26 Jasa Pariwisata
27 Panduan Berolahraga untuk Kesehatan dan Kebugaran
28 Teori Belajar dan Pembelajaran
10
No Daftar Buku
29 Rekayasa Lalu Lintas
30 Pembelajaran Fisika; Kesulitan Belajar dan Cara Mengatasinya
31 Mikrobiologi Pangan
32 Penyuluhan Pertanian
33 Kebijakan Publik Di Indonesia
34 Manajemen Kompensasi
35 Strategi Kreatif dalam Periklanan
36 Ilmu Komunikasi Ilmiah Dan Populer
37 Pengambilan Sampel Dalam Penelitian Survey
38 Ilmu Sosial Budaya Dasar
39 Kepelatihan Dasar Sepak Takraw
40 Preservasi Dan Konvervasi Bahan Pustaka
41 Agribisnis Teori Dan Aplikasinya
42 Dasar-Dasar Agronomi
43 Pengantar Pestisida Hayati
44 Kekerasan Simbolik Di Sekolah
45 Gizi Anak Dan Remaja
46 Gizi Ibu Dan Bayi
47 Teori Perbandingan Politik
48 Pembelajaran Berbasis Blended Learning
49 Metode Penelitian Sosial Kuantitatif
50 Manajemen Sumber Daya Manusia
Pengujian dilakukan dengan menggunakan dengan laptop Macbook Air M1 yang memiliki
spesifikasi processor chip apple M1, RAM 16GB, memory SSD 256GB. Dalam melakukan pengujian
terdapat 50 buku dalam database dan tidak menggunakan kategori dan pengarang buku
a. Metode VSM
Berikut merupakan hasil pengujian yang dilakukan dengan menggunakan 10 kata kunci
yang berbeda.
Tabel 4. Pencarian dengan Metode VSM
No Kata Kunci Waktu Pencarian
1 algoritma dan pemrograman 0,001
2 perangkai ekonomi 0,002
3 pasar saham 0,001
4 pengaruh uang digital bagi ekonomi indonesia 0,002
5 jejak digital 0,001
6 pentingnya belajar matematika 0,002
7 Olahraga dan jasmani 0,001
8 dasar perekonomian 0,002
9 rokok untuk kesehatan 0,001
11
No Kata Kunci Waktu Pencarian
10 multinasional 0,001
Rata-rata 0,002
Berdasarkan hasil yang didapatkan dalam pengujian menggunakan 10 buku mendapatkan hasil
rata-rata waktu pencarian 0,002 dari 20 kali uji coba menggunakan kata kunci yang berbeda.
Berikut merupakan foto dari hasil pengujian waktu pencarian yang dilakukan:
12
Gambar 4. Hasil Pengujian “menggunakan kata kunci “pasar saham”
Dari tabel di atas, dengan menggunakan 10 kata kunci yang berbeda, maka rata-rata hasil
recall, yaitu mendapatkan nilai 0,9 dan hasil precision mendapatkan nilai 1.
b. Metode BM25F
Berbeda dengan metode VSM, pada metode ini, kategori dan pengarang buku disamakan
semua supaya sama dengan metode VSM yang menggunakan pengarang dan kategori buku.
Selain itu pula, pada metode BM25F ini, digunakan nilai Boost 3, judul buku 3, kategori dan
13
pengarang buku dianggap 0. Dengan kasus yang sama, maka hasil dari metode BM25F
adalah:
Tabel 6. Pencarian dengan Metode BM25F
Gambar 5. Hasil Pengujian BM25F “menggunakan kata kunci “algoritma dan pemrograman”
14
Gambar 6. Hasil Pengujian BM25F “menggunakan kata kunci “perangkai ekonomi”
Sama seperti metode VSM, selanjutnya dilakukan juga perhitungan recall dan precision
untuk mengetahui tingkat keakuratan pencarian 50 dokumen dengan menggunakan rumus
pada bab sebelumnya dan menghasilkan hasil berikut:
15
No Kata kunci Ra Rs Rt Recall Precision
6 pentingnya matematika 1 1 1 1 1
7 Olahraga dan jasmani 1 1 1 1 1
8 dasar perekonomian 7 7 7 1 1
9 rokok untuk kesehatan 3 3 5 1 0,2
10 multinasional 1 1 1 1 1
Hasil dari tabel 7 dengan menggunakan 10 kata kunci yang berbeda mendapatkan hasil
recall yang sempurna, yaitu mendapatkan nilai 1 dan hasil precision mendapatkan nilai
0,89.
4.3 Evaluasi
Dari pembahasan yang telah dilakukan, dapat dilihat bahwa penelitian ini masih dapat
dikembangkan lagi dengan menggunakan metode pencarian yang berbeda. Selain itu pula, aplikasi
harusnya dibuat satu saja dengan menggunakan 2 metode, tidak seperti penelitian ini yang
menggunakan 2 aplikasi dengan masing-masing metode. Pada metode BM25F tidak
memperhitungkan kategori dan pengarang buku untuk disejajarkan dengan metode VSM. Ke
depan, ini harus diperhitungkan karena ini menjadi kelebihan metode BM25F untuk pencarian yang
lebih detail dan akurat. Penentuan nilai boost juga menjadi faktor penting bagi metode BM25F
sehingga perlu dicarikan nilai boost terbaik dalam proses pencarian metode BM25F.
16
BAB V
PERTANGGUNGJAWABAN ANGGARAN
Anggaran yang diusulkan tidak jadi digunakan dikarenakan pembiayaan mandiri oleh tim
kerja.
17
BAB VI
KESIMPULAN DAN SARAN
6.1 Kesimpulan
Berdasarkan pembahasan pada bab-bab sebelumnya, maka diperoleh kesimpulan sebagai
berikut:
1. Metode Vector Space Model (VSM) memiliki waktu pencarian yang lebih cepat
dibandingkan dengan metode BM25F.
2. Metode VSM memiliki tingkat presisi yang lebih baik dari metode BM25F, namun metode
BM25F memiliki tingkat recall yang lebih baik dari metode VSM.
6.2 Saran
Adapun saran penelitian ke depan adalah:
1. Aplikasi dibuat satu dengan menggunakan 2 metode. Bisa ditambahkan metode pencarian
yang lain.
2. Pencarian tidak hanya berdasarkan kata kunci, namun menggunakan kategori dan atau
pengarang buku.
18
DAFTAR PUSTAKA
[1] N. Alifah Rahmawati, "Analisis Dan Perancangan Desain Sistem Informasi Perpustakaan
Sekolah Pustakaan Sekolah," Berkala Ilmu Perpustakaan dan Informasi, vol. XIV, pp. 76-86,
2018.
[2] S. Salmon, et al., "Implementasi Metode Vector Space Model Pada Search Engine," Prosiding
Seminar Nasional Sistem Informasi dan Teknologi (SISFOTEK), vol. IV, pp. 84-92, 2020.
[3] E. H. Yossy., "Metode-Metode Information Retrieval," [Online],
https://onlinelearning.binus.ac.id/computer-science/post/metode-metode-information-
retrieval#:~:text=Information%20Retrieval%20memiliki%20beberapa%20metode,queries%2
C%20dan%20vector%20space%20model, 2020.
[4] B. K. Gunawan.,"Perbandingan Sistem Temu Kembali Model Ruang Vektor dengan Sistem
Temu Kembali Okapi BM25 pada Perangkingan Dokumen Text", Skripsi, Fakultas Teknologi
Informasi Universitas Kristen Duta Wacana, 2021.
[5] R. Baeza-Yates dan B. Ribeiro-Neto, Modern Information Retrieval, New York: ACM Press,
1999.
[6] L. Hermawan, "Peringkasan Proposal Skripsi Menggunakan Algoritma Vector Space Model,"
Prosiding Seminar Nasional Sains dan Teknologi, vol. 1 No 1, pp. 238-242, 2018.
[7] D. A. Grossman dan O. Frieder, Information Retrieval Algorithms and Heuristics, Springer,
2004.
[8] K. Latha, Experiment and Evaluation in Information Retrieval Models, Boca Raton: CRC Press,
2016.
[9] Tjandra et al., "Sistem Repositori Tugas Akhir Mahasiswa dengan Fungsi Peringkat Okapi
BM25," Journal Information System Engineering and Business Intelligence, vol. II, pp. 88-94,
2016.
[10] Putra, et al.,"Implementasi Generalized Vector Space Model (GVSM) dalam Pencarian Buku di
Perpustakaan”, Merpati, vol. VII, pp. 86-94, 2019.
[11] E. Sabna et al., "Pencarian Judul Skripsi di Perpustakaan Menggunakan Metode Vector Space
Model (VSM)," Jurnal Ilmu Komputer, vol. II, pp. 132-135, 2021.
19
LAMPIRAN
20
Lampiran I
BIODATA TIM PENELITI
1. Ketua :
2. Anggota 1
Anggota 2
a. Nama Lengkap : Reynaldi Kuera
b. Jenis Kelamin : Laki-laki
c. NIDN : --
d. Fungsional/Pangkat/Gol : --
e. Jabatan Struktural : --
f. Bidang Keahlian : Informatika
g. Prodi /Fakultas : Teknik Informatika/Teknik
h. Perguruan Tinggi : Universitas Katolik De La Salle Manado
21
Lampiran III
22
23