Menggunakan Swish-e
Laporan
Munasko
1108107010004
JURUSAN INFORMATIKA
MATEMATIKA DAN PENGETAHUAN ALAM
UNIVERSITAS SYIAH KUALA
DARUSSALAM, BANDA ACEH
2014
A. URAIAN TUGAS
1. Rancang sebuah file konfigurasi untuk swish-e untuk dapat mengindeks sekumpulan
dokumen bertipe PDF.
2. Bangun indeks dari sekumpulan dokumen bertipe PDF sebanyak minimal 5000
dokumen. Lokasi (direktori) dokumen ditentukan dalam file konfigurasi. Dokumen
PDF untuk tugas 1 ini TIDAK BOLEH diambil dari situs Linux Documentation
Project Works, tetapi dipersilahkan dikumpulkan dari sumber-sumber yang lain.
3. Catat waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen
PDF tersebut.Catat waktu yang dibutuhkan untuk membangun indeks dari
sekumpulan dokumen PDF tersebut.
4. Uji indeks yang telah dibangun oleh swish-e dengan beberapa Boolean Query dan
Keyword-Base Query, dan amati hasilnya.
Pada file konfigurasi di atas terlihat beberapa sintak tipe yang digunakan untuk
pembuatan indexing dengan tujuan masing-masing.
1. IndexDir
Fungsi IndexDir diatas adalah mengakses program perl yang berisi untuk mengubah
file pdf menjadi file xml dan dapat dibaca oleh swish-e.
2. indexOnly
fungsi IndexOnly diatas adalah mengindex bertipe pdf yang diakses sebelum diubah
ke xml.
3. IgnoreWords
Fungsi IgnoreWords diatas adalah menghapus setiap kata(stopword) yang ada pada
file sesuai dengan isi file stopword.de. setelah itu dilakukan juga proses steaming
untuk bahasa inggris.
4. IndexFile
Fungsi IndexFile diatas adalah hasil dari indexing akan disimpan dalam file
(pdf.index).
2. Konfigurasi Program Perl untuk Mengubah File PDF ke XML
Pada proses indexing digunakan program tambahan, maka saat meng-compile ditambahkan
command S prog pada ujung perintah swish-e.
Waktu yang dibutuhkan untuk membangun indeks dari sekumpulan dokumen PDF tersebut
adalah:
File Document : 5000 File
Words : 5.123.462 words
Waktu : 4 menit 54 detik