Anda di halaman 1dari 5

Indexing File Bertipe PDF

Menggunakan Swish-e
Laporan

disusun untuk memenuhi tugas mata kuliah


Penenlusuran Informasi
Oleh

Munasko
1108107010004

JURUSAN INFORMATIKA
MATEMATIKA DAN PENGETAHUAN ALAM
UNIVERSITAS SYIAH KUALA
DARUSSALAM, BANDA ACEH
2014

A. URAIAN TUGAS
1. Rancang sebuah file konfigurasi untuk swish-e untuk dapat mengindeks sekumpulan
dokumen bertipe PDF.
2. Bangun indeks dari sekumpulan dokumen bertipe PDF sebanyak minimal 5000
dokumen. Lokasi (direktori) dokumen ditentukan dalam file konfigurasi. Dokumen
PDF untuk tugas 1 ini TIDAK BOLEH diambil dari situs Linux Documentation
Project Works, tetapi dipersilahkan dikumpulkan dari sumber-sumber yang lain.
3. Catat waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen
PDF tersebut.Catat waktu yang dibutuhkan untuk membangun indeks dari
sekumpulan dokumen PDF tersebut.
4. Uji indeks yang telah dibangun oleh swish-e dengan beberapa Boolean Query dan
Keyword-Base Query, dan amati hasilnya.

B. Pencarian file PDF bersumber dari cs.unsyiah.ac.id/~ebook dan


http://it-ebooks.info
C. PROSES INDEXING
1. File Konfigurasi

Pada file konfigurasi di atas terlihat beberapa sintak tipe yang digunakan untuk
pembuatan indexing dengan tujuan masing-masing.
1. IndexDir
Fungsi IndexDir diatas adalah mengakses program perl yang berisi untuk mengubah
file pdf menjadi file xml dan dapat dibaca oleh swish-e.
2. indexOnly
fungsi IndexOnly diatas adalah mengindex bertipe pdf yang diakses sebelum diubah
ke xml.

3. IgnoreWords
Fungsi IgnoreWords diatas adalah menghapus setiap kata(stopword) yang ada pada
file sesuai dengan isi file stopword.de. setelah itu dilakukan juga proses steaming
untuk bahasa inggris.
4. IndexFile
Fungsi IndexFile diatas adalah hasil dari indexing akan disimpan dalam file
(pdf.index).
2. Konfigurasi Program Perl untuk Mengubah File PDF ke XML

Pada proses indexing digunakan program tambahan, maka saat meng-compile ditambahkan
command S prog pada ujung perintah swish-e.

Waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen PDF tersebut
adalah:
File Document : 5000 File
Words : 5.123.462 words
Waktu : 4 menit 54 detik

D. PROSES RANGKING INDEX


1. TOP 10 Boolean-Query 1 kata

Syintak untuk mecari top boolean-query

hasil pencarian top boolean-query pada kata computer

2. Top 10 Keyword-Base Query 1 kata

Syintak untuk mecari Top 10 Keyword-Base Query 1 kata

hasil pencarian Top 10 Keyword-Base Query pada kata computer

Berdasarkan Boolean-query dan keywordBase-query di atas bahwa setiap kata yang


dicari dapat ditemukan secara baik. Dari 1 kata ataupun mencari kata menggunakan
OR, AND semuanya dapat ditemukan, hal ini menandakan proses indexing
berjalan dengan lancar.

Anda mungkin juga menyukai