Indexing and Retrieval Engine Untuk Doku PDF
Indexing and Retrieval Engine Untuk Doku PDF
Wahyu Hidayat1
1
Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University
1
wahyuhidayat@telkomuniversity.ac.id
Abstrak
Dokumen teks tergolong dalam data tidak terstruktur. Jika dibandingkan dengan informasi yang tersimpan dalam
bentuk yang terstruktur (misalnya pada tabel dalam sebuah database), maka data tidak terstruktur relatif lebih
sulit dalam hal pengelolaan, penyimpanan, pencarian ulang maupun pengamanannya. Dalam paper ini
dipaparkan sebuah metode indexing dan retrieval yang mampu menyimpan dokumen teks sebagai inverted index
yang memiliki berbagai keunggulan penyimpanan data terstruktur.
Proses indexing melibatkan beberapa tahap yaitu parsing, stopping, stemming, sorting dan merging. Proses
indexing dilakukan terhadap 6464 buah file txt dalam Alquran Terjemahan Indonesia. Setelah itu indeks yang
dihasilkan digunakan dalam proses pencarian dokumen yang hasilnya dibandingkan dengan hasil pencarian
dokumen konvensional secara full text search. Baik hasil pencarian maupun waktu yang dibutuhkan semuanya
dicatat untuk mengukur performa retrieval engine dengan parameter precision, recall dan waktu.
Hasil pengujian menunjukkan bahwa proses indexing tidak mengurangi nilai recall, namun menurunkan nilai
precision hingga 41,88% demi meningkatkan kecepatan pencarian hingga 3800 kali lipat.
(2)
Sorting
Parsing Stopping Stemming &
Merging
Query
Query
User Inverted
Hasil Files
Query
Proses Keterangan
Parsing 227.160 token
Stopping 126.094 token
Stemming stem dari 126.094 token
Sorting dan
94.541 entri indeks
Merging
Penulisan menuliskan 94.541 entri indeks ke
Indeks disk
Tabel 4. Contoh Hasil Pencarian 5. Kesimpulan
dengan Retrieval Engine Dari uraian sebelumnya maka dapat
disimpulkan bahwa proses indexing memakan waktu
Pencarian dengan paling lama saat proses penulisan indeks yaitu
inverted index sekitar 59,27% dari total waktu indexing. Namun
Keyword Waktu Hasil demikian, saat dilakukan pencarian, index tersebut
pencarian Pencarian dapat mempercepat proses pencarian hingga 3800
(detik) (dokumen) kali lipat dibandingkan dengan pencarian
sekutu 0,043 130 konvensional dengan menggunakan full text search.
mempersekutukan 0,042 130 Adapun performa retrieval engine ditinjau dari
mempersekutukan parameter recall adalah 100%, setara dengan
0,078 305 pencarian dengan full text search, Namun demikian,
tuhannya
malaikat yang ditinjau dari parameter precision, pencarian dengan
0,061 220 retrieval engine mengalami penurunan precision
terdekat
makan and minum 0,048 152 hingga 41,88%.
ayah 0,010 31 Akhirnya dapat disimpulkan bahwa proses
zuhur 0,001 1 indexing tidak mengurangi nilai recall, namun
menurunkan nilai precision hingga 41,88% demi
Terlihat bahwa untuk pecarian dengan inverted meningkatkan kecepatan pencarian hingga 3800 kali
lipat.
index jumlah hasil pencarian melebihi jumlah
dokumen yang relevan, hal ini menyebabkan
penurunan pada nilai precision hingga 41.88%. Daftar Pustaka:
Namun demikian, seluruh dokumen yang relevan
ditemukan dalam proses pencarian sehingga nilai [1] Manning, C.D., Raghavan, P., and Schutze, H.
recallnya tetap !00%. 2009, An Introduction to Information
Retrieval, Cambridge University Press
Sebagai pembandingnya, hasil pengujian
[2] Olson, David L.; Delen, Dursun, 2008
terhadap pencarian dengan full text search pada
Advanced Data Mining Techniques, Springer
Windows menunjukkan bahwa jumlah hasil
[3] Ramakhrishnan Raghu and Gehrke Johannes,
pencarian sama persis dengan jumlah dokumen yang
relevan, selain itu semua dokumen yang relevan 2000 Database Management System,
ditemukan dalam hasil pencarian. Hal ini NewYork, McGraw Hill
[4] Suhendar and Supinah, 1995, Mata Kuliah
menyebabkan pencarian dengan full text search
Dasar Umum Bahasa Indonesia, Balai Pustaka
memiliki nilai precision sebesar 100% dan nilai
[5] Wilkinson, Ross, 1997 Document Database,
recall sebanyak 100%.
Ditinjau dari sisi waktu, pencarian dengan RIST University Australia
retrieval engine membutuhkan waktu yang jauh
lebih sedikit dibanding pencarian konvensional
dengan full text search. yaitu sekitar 3800 kali lebih
cepat. Berikut adalah detail contoh hasil pencarian
full text search:
Pencarian dengan
fasilitas search pada
Windows
Keyword
Waktu Hasil
pencarian Pencarian
(detik) (dokumen)
sekutu 21,13 45
mempersekutukan 21,09 60
mempersekutukan
20,51 4
tuhannya
Malaikat yang
20,43 1
terdekat
makan minum 20,36 21
ayah 20,95 30
zuhur 22,85 45