2010 05 Pencarian Konten PDF

PENCARIAN DOKUMEN BERBASIS KONTEN PADA PERPUSTAKAAN DIGITAL
UNTUK KOLEKSI TEKS DAN MULTIMEDIA
Umi Laili Yuhana1, Shintami Chusnul1, Supriadi2,

1
Jurusan Teknik Informatika ITS, 2Alumni Jurusan Teknik Informatika ITS
Kampus ITS Keputih, Sukolilo, Surabaya
Email: yuhana@if.its.ac.id, shintami@its-sby.edu, xsupri05@yahoo.co.id
Abstrak
Perpustakaan digital dapat membantu pengguna mengelola dan menemukan kembali informasi atau
bahan belajar yang berbasis teks dan multimedia. Perpustakaan digital di Jurusan Teknik
Informatika telah dikembangkan untuk mengelola koleksi digital berbasis teks dan multimedia
termasuk video. Merupakan suatu permasalahan tersendiri bagaimana menemukan kembali koleksi
video yang berukuran besar yang hanya memiliki sedikit informasi tekstual. Selain kurangnya fitur
tekstual, kecepatan internet yang rendah dan ukuran file yang besar merupakan tantangan dalam
penanganan dokumen berbasis multimedia. Makalah ini memaparkan sebuah solusi pencarian
dokumen berbasis konten dalam perpustakaan digital. Proses pencarian ini memanfaatkan informasi
teks yang tersimpan dalam dokumen digital. Pada dokumen teks, informasi langsung didapatkan
dari konten dokumen yang dimaksud, sementara pada dokumen multimedia, informasi didapatkan
dari informasi tekstual yang terdapat di dalamnya. Informasi tekstual tersebut merupakan hasil dari
konversi sumber data ke dalam bentuk teks. Titik tekan makalah ini adalah penerapan indexing
yang baik untuk mempercepat proses pencarian dokumen, dan sistem dilengkapi dengan fitur search
engine. Selain itu, isu penting lainnya adalah proteksi dokumen dimana user eksternal hanya bisa
mengakses abstrak sedangkan user internal bisa mengakses dan mendownload dokumen. Dokumen
dalam perpustakaan digital ini juga dilengkapi enkripsi sehingga tidak mudah untuk dilakukan
copy-paste. Untuk medukung kelengkapan koleksi, maka sistem perpustakaan digital ini juga
mendukung koleksi multimedia.
Kata kunci: pencarian berbasis konten, perpustakaan digital, indexing.
1. Pendahuluan berbeda dengan dokumen biasa, sehingga

Perkembangan dunia perpustakaan, dari muncullah istilah manajemen data
segi data dan dokumen yang disimpan, multimedia yang menangani koleksi
dimulai dari perpustakaan tradisional yang multimedia mulai dari sumber (source),
hanya terdiri dari kumpulan koleksi buku penyimpanan (storage) dan penyampaiannya
tanpa katalog, kemudian muncul (presentation). Karena koleksi perpustakaan
perpustakaan semi modern yang digital diharapkan selengkap mungkin, maka
menggunakan katalog (index). Perkembangan kebutuhan akan pengelolaan koleksi
mutakhir adalah munculnya perpustakaan multimedia ini perlu diakomodasi.
digital (digital library) yang memiliki Makalah ini membahas tentang
keunggulan dalam kecepatan pengaksesan pencarian berbasis konten pada perpustakaan
karena berorientasi ke data digital. Di sisi digital di Ruang Baca Jurusan Teknik
lain, dari segi manajemen (teknik Informatika. Titik tekan aplikasi ini adalah
pengelolaan), dengan semakin kompleksnya pada penerapan indexing yang baik untuk
koleksi perpustakaan, saat ini muncul mempercepat proses pencarian dokumen.
kebutuhan akan penggunaan teknologi Untuk memenuhi kebutuhan tersebut maka
informasi untuk otomatisasi business process sistem perpustakaan digital ini akan
di perpustakaan. Sistem yang dikembangkan dilengkapi dengan fitur search engine.
kemudian terkenal dengan sebutan sistem Sistem juga akan mengakomodasi kebutuhan
otomasi perpustakaan (library automation proteksi dokumen. User eksternal yang
system). belum teregister hanya akan bisa mengkases
Perpustakaan digital erat kaitannya abstrak dokumen saja. Sedangkan user
dengan manajemen dokumen secara digital. internal akan bisa mengakses dan men-
Dokumen-dokumen yang ditangani tersebut download dokumen. Dokumen yang ada
termasuk koleksi multimedia. Manajemen dalam perpustakaan digital ini juga akan di
koleksi multimedia memerlukan metode yang enkripsi sehingga tidak mudah dilakukan
copy-paste pada isi dokumennya. Dan untuk modeling, query language untuk text
mendukung kelengkapan koleksi, retrieval, index methods, algoritma text
perpustakaan digital ini juga menyediakan retrieval dan algoritma similarity search.
dukungan terhadap koleksi multimedia. Hasil dari penelitian-penelitian tersebut telah
Makalah ini disusun dalam susunan banyak digunakan dalam sistem perpustakaan
sebagai berikut. Bagian pertama menjelaskan digital. SSREADER Digital Library,
tentang latar belakang, permasalahan dan National Digital Library dan WanFang
tujuan penulisan makalah. Bagian kedua Database adalah perpustakaan digital yang
berisi paparan tentang perpustakaan digital populer di China. Semua perpustakaan
berbasis teks dan multimedia. Bagian ketiga digital mengelompokkan dokumen ke
mengulas tentang teknik indexing. Bagian beberapa kelas dan mendukung query di
keempat berisi pembahasan detail tentang dalam kelas tersebut. Metadata search dan
tahapan proses manipulasi dokumen dan full text search menggunakan single keyword
proses pencarian berbasis konten pada atau expression juga didukung pada
dokumen teks dan multimedia. Bagian perpustakaan digital ini.
kelima menjelaskan tentang uji coba dan Contoh perpustakaan digital lain adalah
analisis hasil. Bagian terakhir berisi Greenstone digital library, UC Berkeley
kesimpulan dan penelitian lanjutan yang Digital library, Tufts Digital library, ACM
dapat dikembangkan. digital library, NCSTRL dan lain-lain.
Fungsi-fungsi yang serupa juga didukung di
2. Perpustakaan Digital perpustakaan digital tersebut seperti
Perpustakaan digital adalah pengelolaan metadata searching, full-text searching,
koleksi yang berupa obyek digital. Obyek documents classification dan browsing.
digital tersebut dibuat atau dikumpulkan
berdasarkan prinsip pengembangan koleksi 2.2. Perpustakaan Digital Berbasis Video
dan diatur sedemikian rupa sehingga Video digital merupakan tantangan
memungkinkan user untuk mengakses dan penting dalam perpustakaan digital.
mengeksploitasi sumber tersebut seperti Tantangan tersebut muncul karena ukuran
material perpustakaan pada umumnya. dan kurangnya fitur yang tekstual, sehingga
Obyek digital diperlakukan sebagai sumber menambah kesulitan pada proses retrieval.
yang tetap stabil dalam jangka waktu yang Sampai saat ini, usaha yang paling
sangat lama dan proses yang sesuai komprehensif dan menjanjikan untuk
diaplikasikan untuk memastikan kualitas dan membangun perpustakaan digital yang
survivabilitasnya. menangani video digital adalah Infomedia
Project. Infomedia menggunakan banyak
2.1. Perpustakaan Digital Berbasis Teks variasi fitur visual (color, faces, text
Jumlah dokumen pada perpustakaan superimpositions) dan juga fitur tekstual
digital biasanya berkembang dengan cepat (speech to text transcripts) untuk
seiring dengan berjalannya waktu. memungkinkan video digital menjadi
Bagaimana cara menyimpan (store), retrievable.
mengelola (manage) dan mencari (search) Project penting lainnya termasuk IBM’s
dokumen dalam perpustakaan digital CueVideo, yang telah mengintegrasikan
merupakan masalah yang menantang. variasi teknik dari segmentation, indexing
Dokumen pada perpustakan digital disimpan dan user interface yang dikembangkan
sebagai data yang semi terstruktur (semi- Almaden and Watson labs. Ada juga Digital
structured data), sementara dalam database Video Multimedia Group di Columbia yang
relasional tradisional, dokumen tersebut mengerjakan proyek yang berkaitan dengan
disimpan sebagai data terstruktur (structured- pembuatan video summaries secara otomatis.
data). Sistem manajemen database relasional Kemudian ada Multimedia Information
tidak bisa menangani data semi-terstruktur Retrieval Group di Dublin City University
secara efisien dan tidak bisa memenuhi mengembangkan Fischlar Project, yang
kebutuhan temu kembali teks berbasis menyediakan video broadcast untuk
konten (content-based text retrieval ). komunitas universitas. Kelompok ini juga
Telah banyak penelitian yang dilakukan mengembangkan inovasi user interface untuk
pada data semi-terstruktur seperti data video repository. Sementara European
Union’s ECHO Project mengembangkan 1. Clustered index
penelitian di bidang metadata scheme. Clustered index dapat diumpamakan
Salah satu contoh sistem perpustakaan seperti index huruf pada sebuah kamus.
digital yang mampu menangani koleksi Clustered index hanya bisa diterapkan
digital berbasis multimedia (video digital) sebanyak satu kali pada satu tabel. Secara
adalah Open Video Digital Library atau otomatis, sebuah primary key akan menjadi
OVDL[5]. OVDL menggunakan database clustered index pada tabel tersebut. Clustered
MySQL dan modul interface Agile View index sebaiknya diterapkan pada kolom tabel
yang digunakan sebagai middleware PHP. yang paling sering digunakan pada saat
OVDL mempunyai interface browse pencarian data.
yang memungkinkan akses berdasarkan 2. Nonclustered index
genre (documentaries, educational, lecture, Jika kita mengumpamakan clustered
ephemerals, historical), duration (less than a index seperti index huruf pada sebuah kamus,
minute, 1-2 minutes, 2-5 minutes, 5-10 maka nonclustered index dapat diumpamakan
minutes dan more than 10 minutes), color seperti sebuah daftar indeks pada sebuah
(color or black and white), sound (with sound buku. Non-clustered index dapat
or silent) dan contribution organization diimplementasikan sebanyak 249 buah pada
(CMU, Internet Archicve, etc). Untuk setiap sebuah tabel. Nonclustered index berisi
kategori, diberikan jumlah dokumen yang pointer-pointer yang menunjukkan lokasi
ada pada kategori tersebut. sesungguhnya dari data yang kita cari saat
Sedangkan untuk fasilitas search, dilakukan pencarian data. Cara ini sedikit
didukung 2 jenis proses search. Quick search lebih membutuhkan waktu pencarian
dengan hanya memasukkan keyword dan dibanding dengan metode clustered index,
detailed search yang melibatkan metadata. namun pada database dengan skala OLDB
Setelah user menentukan kategori yang atau VLDB, metode ini sangat membantu
diinginkan dengan menggunakan interface bila dibandingkan dengan penggunaan
browse atau search maka informasi yang metode table-scan.
detail ditampilkan dan preview dari beberapa
segment yang ditampilkan. Hal ini penting 4. Pencarian Dokumen Teks dan
ketika menangani file video dengan ukuran Multimedia
yang besar. Karena akan butuh waktu untuk Gambar 1 menunjukkan gambaran front
mengunduh atau melihatnya, dan akan sedikit end dari sistem perpustakaan digital untuk
sia-sia jika video yang dibuka atau diunduh proses pengaksesan dan pencarian untuk
tidak sesuai keinginan. Untuk mengurangi dokumen teks dan multimedia. Sistem ini
kemungkinan munculnya kejadian sepeti itu, dikembangkan dengan ASP.Net[4] dan
informasi detail tentang video dan preview database SQL Server[2]. Use case diagram
dengan menampilkan keyframe bisa dijadikan untuk akses dokumen teks digambarkan pada
solusi. Gambar 2. Sementara use case diagram untuk
akses dokumen multimedia digambarkan
3. Indexing pada Gambar 3.
Pada dasarnya ada banyak cara untuk
membuat performa server komputer menjadi
lebih baik saat dilakukan pengaksesan data
pada database dengan skala VLDB (Very
Large Database) atau OLDB (Online Large
Database) [2]. Penggunaan index merupakan
salah satu cara untuk mencapainya. Index
pada kolom-kolom tabel database
mempunyai fungsi seperti indeks kamus atau
indeks buku. Dengan adanya index maka
pencarian data akan lebih cepat dan tidak
banyak menghabiskan sumber daya
komputer. Pada dasarnya, index dibagi
menjadi 2 macam, yaitu clustered index dan Gambar 1. Front End Perpustakaan
nonclustered index. Digital
Pengguna yang dapat mengakses front
end adalah pengguna terdaftar dan pengguna
tamu. Pengguna terdaftar adalah pengguna
yang harus terautentifikasi terlebih dahulu.
Pengguna tamu adalah pengguna yang tidak
perlu diautentikasi atau dengan kata lain
tidak melakukan login ke sistem.
Gambar 3. Use case diagram akses berbasis

multimedia
Untuk mendukung proses bisnis

pencarian dokumen berbasis teks dan
multimedia, digunakan beberapa pustaka
sebagai berikut:
1. Lucene[1]. Lucene merupakan
pustaka untuk information retrieval
yang digunakan untuk
Gambar 2. Use case diagram akses berbasis
mengimplementasikan mesin
teks
pencari dokumen berbasis teks.
Lucene bisa melakukan indexing
Pada Gambar 2 dapat dilihat kalau
dan memungkinkan proses
pengguna terdaftar dan pengguna tamu dapat
searching tanpa mempedulikan
melihat abstrak dokumen teks, melakukan
sumber data, format, ataupun bahasa
penelusuran teks berdasarkan kategori,
pemrograman yang digunakan
melakukan penelusuran teks berdasarkan
selama kita dapat
judul, melakukan pencarian sederhana dan
mengkonversikannya dalam bentuk
pencarian teks dengan metadata. Hasil dari
teks.
proses pencarian ini adalah daftar dokumen
2. iText[6]. iText adalah pustaka untuk
teks yang dicari. Untuk melihat isi dokumen
membuat dan memanipulasi file pdf.
secara keseluruhan, hanya dapat dilakukan
Dalam aplikasi ini, iText digunakan
oleh pengguna terdaftar melalui use case
untuk memperoleh metadata
mengakses teks.
dokumen teks dan memberi proteksi
Pengaksesan dokumen multimedia juga
agar file pdf tidak bisa di copy-
dapat dilakukan oleh pengguna terdaftar dan
paste.
pengguna tamu. Gambar 3 menunjukkan
3. PDFBox[7]. Sama seperti iText,
bahwa pengguna terdaftar dan pengguna
PDFBox merupakan pustaka untuk
tamu dapat melihat storyboard, pencarian
memanipulasi file PDF. Dalam
multimedia dengan metadata, penelusuran
aplikasi ini, PDFBox digunakan
multimedia berdasarkan judul dan
untuk mengekstrak teks dari file
penelusuran multimedia berdasarkan
PDF.
kategori. Isi dari dokumen multimedia hanya
4. FFMPEG[8]. FFMPEG adalah
dapat dilihat secara keseluruhan oleh
pustaka untuk konversi video dan
pengguna terdaftar.
audio. Dalam aplikasi ini, FFMPEG
dimanfaatkan untuk membuat
storyboard dengan cara membuat
snapshot dari video pada frame
tertentu.
5. Flowplayer[9]. Flowplayer adalah CREATE NONCLUSTERED INDEX
flash player yang digunakan untuk nci_judul_teks ON
menampilkan dokumen multimedia METADATA_TEKS(JUDUL_TEKS);
6. Coolite Toolkit[10]. Coolite adalah
web control ASP.NET yang CREATE NONCLUSTERED INDEX
dilengkapi dengan dukungan AJX. nci_kata_kunci_teks ON
Coolite dibangun dengan METADATA_TEKS(KATA_KUNCI_TEKS);
menggunakan pustaka cross-
browser JavaScript EXTJS. CREATE NONCLUSTERED INDEX
Penggunaan Coolite mempermudah nci_judul_multimedia ON
pengembangan aplikasi website METADATA_MULTIMEDIA(JUDUL_MULTI
berbasis AJAX. MEDIA);
Hubungan logis antara aplikasi
Perpustakaan Digital dengan pustaka-pustaka CREATE NONCLUSTERED INDEX
diatas tampak pada gambar 4. nci_kata_kunci_multimedia ON
METADATA_MULTIMEDIA(KATA_KUNCI_
MULTIMEDIA);
Indeks dibuat untuk mendukung proses
pencarian pada sejumlah besar teks dengan
cepat.
c. Enkripsi dokumen berbasis teks
Tujuan melakukan enkripsi pada sistem
ini adalah membuat konten file pdf tidak
mudah di-copy-paste. Untuk melakukannya
digunakan library manipulasi PDF lain yaitu
iText[6]. Dalam aplikasi ini, iText digunakan
Gambar 4. Diagram paket logis Perpustakaan untuk memperoleh metadata dokumen teks
Digital dan memberi proteksi agar konten file pdf
Berikut adalah tahapan proses yang tidak bisa di-copy-paste.
dilakukan di dalam sistem untuk d. Proses pencarian berbasis konten
memanipulasi dan menemukan koleksi untuk dokumen berbasis teks
digital yang ada didalam sistem. Seperti yang telah disebutkan
a. Ekstraksi file PDF ke dalam bentuk sebelumnya proses searching menggunakan
teks library Lucene. Selain sangat cepat, Lucene
Karena sistem menggunakan search juga bisa memberikan revelansi yang cukup
engine berbasis teks, maka file PDF harus tinggi antara query dan hasil pencarian.
diekstrak terlebih dahulu menjadi bentuk Penelitian ini memanfaatkan indeks
teks. Untuk melakukan hal tersebut, dalam melakukan pencarian dokumen.
digunakan library untuk manipulasi PDF Pencarian tersebut dilakukan berdasarkan
yaitu PDFBox[7]. kata kunci yang dimasukkan oleh pengguna.
b. Proses indexing dokumen berbasis Mesin pencari melakukan proses pencarian
teks kata dalam index sehingga dapat ditemukan
Proses indexing dan searching dalam pada dokumen mana kata tersebut muncul.
sistem akan ditangani oleh library Lucene[1]. Selanjutnya, dokumen hasil pencarian yang
Dengan Lucene, kita bisa mendesain sendiri telah diurutkan berdasarkan skor ditampilkan
index yang akan kita buat sesuai dengan pada layar. Semakin besar skor suatu
kebutuhan. dokumen, semakin besar pula relevansi
Sebagai penerapan dari konsep dokumen tersebut dengan kata kunci yang
indexing, dibuat beberapa non-clustered dimasukkan.
index sebagai berikut: Selain itu, juga diperlukan dukungan
pada query single dan multiterm, query frase,
wildcard, rangking dan sorting hasil
searching serta syntax yang mudah
digunakan untuk memasukkan query.
e. Proses ekstraksi frame sebagai 1. Proses pencarian sederhana dengan
Storyboard dokumen berbasis Video mesin pencari
Untuk menangani dokumen berbasis Tabel 1 Skenario proses pencarian
video dilakukan proses ekstraksi frame. sederhana
Untuk melakukan ekstraksi frame digunakan Tujuan Menguji fungsi pencarian, melihat
library FFmpeg[8]. Dengan FFmpeg kita bisa abstrak dan mengakses dokumen.
mengambil frame berdasarkan waktu. Misal, Pre- Terkoneksi ke server Perpustakaan
kita bisa mengambil frame pada menit ke-1, condition Digital
detik ke-200 dan lain sebagainya. Skenario 1 User login, melakukan pencarian,
f. Penanganan keamanan dengan hak melihat abstrak dan mengakses
akses dokumen.
Penanganan keamanan dilakukan dengan Input Kata kunci
memberikan hak akses yang berbeda Output User yang login dan telah terdaftar
terhadap pengguna yang terdaftar dan yang bisa melihat abtsrak dan mengakses
tidak. Pengguna yang tidak terdaftar pada dokumen teks yang dicari.
sistem hanya memiliki akses yang terbatas Post- - Pencarian bisa menghasilkan
yaitu hanya bisa mengakses abtrak untuk condition dokumen yang sesuai dengan
dokumen teks dan storyboard untuk kata kunci
dokumen multimedia. Sementara pengguna - Detail dokumen bisa muncul
terdaftar bisa mengakes dokumen secara sesuai dokumen yang diakses
penuh dan melakukan proses pengunduhan - Dokumen bisa ditampilkan di
dokumen.. web browser
Skenario 2 User tidak login, melakukan
5. Uji Coba dan Pembahasan Hasil pencarian, melihat abstrak dan
Jenis uji coba dibedakan menjadi dua mengakses dokumen.
macam, yaitu uji coba fungsonalitas dan uji Input Kata kunci
coba nonfungsionalitas. Uji coba Output Aplikasi memberikan pesan bahwa
fungsionalitas dilakukan untuk melihat untuk mengakses dokumen, user
apakah fungsi-fungsi dasar aplikasi berjalan harus login
sebagaimana mestinya. Sedangkan uji coba
Post- Muncul pesan bahwa user harus
nonfungsionalitas dilakukan untuk melihat condition login untuk mengakses dokumen.
apakah performa aplikasi sesuai dengan yang
diharapkan.
Gambar 5 menunjukkan hasil uji coba proses
pencarian sederhana. Dengan memasukkan
5.1. Data Uji Coba
kata kunci yang dimaksud, sistem kemudian
Uji coba pencarian dokumen berbasis
menampilkan daftar dokumen yang sesuai.
konten pada sistem ini dilakukan dengan
Jika dokumen diklik maka akan muncul
memasukkan berbagai kata kunci sebagai
tampilan seperti gambar 6. Jika pengguna
kriteria pencarian. Dari proses tersebut
tamu atau pengguna yang tidak terdaftar
didapatkan kondisi apakah pencarian dapat
menekan tombol Buka Dokumen maka akan
menghasilkan dokumen yang sesuai dengan
muncul peringatan seperti pada Gambar 7.
kata kunci atau tidak. Dokumen hasil
Namun jika yang membuka adalah pengguna
pencarian merupakan dokumen yang telah
terdaftar maka dokumen yang dimaksud akan
tersimpan dalam server sistem.
terbuka dan dapat didownload. Ketika
5.2. Skenario dan Hasil Uji Coba
terbuka isi dokumen tidak dapat di copy
Uji coba dilakukan dengan 5 usecase.
paste ke dokumen lain.
Uji coba pertama melakukan proses
pencarian sederhana. Uji coba kedua
melakukan proses pencarian dengan
metadata. Uji coba ketiga untuk pengujian
keamanan, uji coba keempat untuk pencarian
dengan dan tanpa index. Uji coba kelima
untuk melakukan uji coba relevansi kata
kunci dengan hasil pencarian.
Gambar 5. Antarmuka setelah user
memasukkan kata kunci dan menekan tombol Gambar 8. Antarmuka daftar dokumen
cari dengan hasil pencarian metadata
Gambar 8 merupakan tampilan untuk

pencarian dokumen dengan meta data.
Setelah pengguna memasukkan beberapa
data metadata, seperti judul maka muncul
daftar dokumen hasil pencarian.
3. Uji coba keamanan dengan pengaturan
hak akses
Hak akses digunakan untuk menentukan
apakah pengguna bisa mengakses halaman
Gambar 6. Tampilan detail dokumen dan atau fitur tertentu. Parameter keberhasilan
abstrak disertai gambar sampul dokumen sistem menangani hak akses bisa diukur dari
2 skenario berikut ini:
a. Skenario 1 (pengaksesan dokumen oleh
user yang tidak login)
Gambar 7. Peringatan jika user yang belum

login ingin mengakses dokumen
2. Proses pencarian dengan metadata Gambar 9. Tampilan pengaksesan

Tabel 2 Skenario proses pencarian dengan dokumen oleh user yang tidak login
metadata
Tujuan Menguji fungsi pencarian pencarian Kebutuhan keamanan menyatakan
dengan metadata. bahwa pengguna yang tidak login atau
Pre- Terkoneksi ke server Perpustakaan tidak terdaftar tidak boleh mengakses
condition Digital dokumen pada sistem. Pada gambar 9 di
atas terlihat bahwa sistem berhasil
Skenario User login, melakukan pencarian.
membatasai akses user yang tidak login.
Input Metadata dokumen
Oleh sebab itu, diambil kesimpulan
Output Muncul dokumen hasil pencarian
bahwa sistem berhasil memberikan
yang sesuai.
perlidungan dokumen dengan
Post- - Pencarian bisa menghasilkan
menggunakan hak akses.
condition dokumen yang sesuai dengan
b. Skenario 2 (pengaksesan halaman
metadata yang dimasukkan
admin oleh pengguna dengan cara
mengetik URL)
Untuk menangani jika ada pengguna
yang hendak mengakses halaman admin
dengan cara mengetik URL, karena pencarian karena hanya membutuhkan ½ dari
dimungkinkan pengguna tersebut waktu yang dibutuhkan pencarian normal.
mengetahui URL dari halaman admin, Semakin besar jumlah dokumen yang dicari,
maka sistem akan mengecek session maka semakin cepat pula proses pencarian
user. Jika ternyata pengguna tidak bila dibandingkan dengan pencarian normal.
mempunyai session atau tidak login,
maka sistem akan memberikan Tabel 3. Perbandingan lama running terhadap
peringatan bahwa pengguna tidak jumlah dokumen yang terdapat pada server
memiliki akses seperti yang tampak Jumlah Running Running sistem
pada gambar 10. Hal ini membuktikan dokumen program (detik) (detik)
bahwa sistem mampu menangani 10 0,2656250 0,125
keamaan halaman web dari pengguna 20 0,5781250 0,22
yang tidak memiliki hak akses.
5. Relevansi kata kunci dan dokumen hasil
pencarian
Untuk menguji relevansi antara kata
kunci yang dimasukkan dan dokumen hasil
pencarian maka dilakukan uji coba dengan
suatu kata kunci, misalnya Bluetooth.
Diharapkan dokumen hasil pencarian akan
sesuai dengan kata kunci yang dimasukkan.
Gambar 10. Akses ke halaman admin

ditolak
4. Perbandingan pencarian dengan dan

tanpa index
Untuk membandingkan kecepatan
proses pencarian dengan menggunakan Gambar 11 Uji coba dengan kata kunci
indexing dan tanpa dilakukan indexing, bluetooth
dibuatlah sebuah program dengan algoritma
yang mirip dengan algoritma mesin pencari Hasil uji coba dengan kata kunci
yang digunakan sistem. bluetooth dapat menampilkan seluruh
Program ini akan menerima string input dokumen yang berhubungan dengan
sebagai query yang akan dibandingkan bluetooth seperti yang tampak pada gambar
dengan isi dokumen. Program akan 11. Selain itu, dokumen hasil pencarian juga
menghitung frekuensi kemunculan string telah diurutkan berdasarkan skor. Semakin
input pada setiap dokumen. Program tidak besar skor suatu dokumen, semakin besar
melakukan proses sorting berdasarkan query pula relevansi dokumen tersebut dengan kata
tetapi hanya menampilkan hasil kunci yang dimasukkan.
penghitungan saja. Dokumen yang diakses Dari hasil uji coba di atas, dapat diambil
program merupakan dokumen berekstensi kesimpulan bahwa pencarian dokumen
txt. Agar proses perbandingan adil maka dengan memanfaatkan mesin pencari bisa
running time yang diambil adalah running mempermudah untuk mengetahui relevansi
time ketika program dan sistem telah stabil, antara dokumen hasil pencarian dan kata
bukan saat pertama kali program dan sistem kunci. Hal ini disebabkan karena dokumen
di-load. Tabel 3 menunjukkan hasil hasil pencarian telah diurutkan berdasarkan
perbandingan waktu yang diperlukan setelah skor. Semakin besar skor suatu dokumen,
melakukan uji coba. semakin besar pula relevansi dokumen
Dengan asumsi trend yang ada pada tersebut dengan kata kunci yang dimasukkan.
tabel 3 terus bertahan seiring dengan
bertambahnya jumlah dokumen, maka dapat 6. Kesimpulan dan Saran
diambil kesimpulan bahwa penerapan konsep
indexing mampu mempercepat proses
Dari hasil pengembangan dan pengujian Misalkan, dokumen multimedia memerlukan
didapatkan beberapa kesimpulan sebagai proteksi khusus karena pada dasarnya file
berikut: yang diakses telah masuk dalam
1. Proteksi dokumen teks dapat penyimpanan temporary komputer client
diimplementasikan dengan sehingga file bisa di-unduh walaupun tanpa
menggunakan hak akses dan enkripsi. login ke sistem.
2. Pencarian dokumen dilakukan
menggunakan konsep indexing. VI. Daftar Pustaka
3. Pemanfaatan mesin pencari dengan [1] Gospodnetic, O. dan Hatcher, E. 2004.
pengindekan dapat mempercepat proses Lucene in Action. Manning.
pencarian karena waktu yang [2] Jorden, Joseph. 2007. SQL Server 2005
dibutuhkan mesin pencari hanya ½ dari DBA Street Smarts. Indiana. Wiley
waktu yang dibutuhkan pencarian Publishing.
normal. [3] Lowagie, Bruno. 2007. iText in Action.
4. Pada pemanfaatan mesin pencari, Manning.
semakin besar jumlah dokumen yang [4] MacDonald, M., dan Szpuszta, M. 2007.
dicari, maka semakin cepat pula proses Pro ASP.NET 3.5 in C# 2008. Apress.
pencarian bila dibandingkan dengan [5] Marchionini, G., dan Geisler, G. 2002. “The
pencarian normal. Open Video Digital Library”. D-Lib
Magazine Vol 8, Desember, 12.
5. Pencarian dokumen teks berbasis
[6]. iText, http://itextpdf.com, diakses pada
konten dengan memanfaatkan mesin
tanggal 2 Oktober 2009.
pencari dapat memudahkan untuk [7]. PDFBox,
mengetahui relevansi antara dokumen http://www.pdfbox.org/userguide/text_extra
hasil pencarian dan kata kunci. Hal ini ction.html diakses pada tanggal 3
disebabkan karena dokumen hasil September 2009.
pencarian telah diurutkan berdasarkan [8]. FFMPEG. http://www.ffmpeg.org/, diakses
skor yang menyatakan relevansi pada 9 September 2009.
dokumen tersebut dengan kata kunci. [9]. Flowplayer, http://flowplayer.org/, diakses
Agar sistem dapat berfungsi secara pada tanggal 2 Oktober 2010.
lebih optimal, sistem ini perlu dilakukan [10]. Coolite Toolkit. http://www.coolite.com/,
peningkatkan tingkat keamanan dengan cara diakses pada tanggal 9 September 2010.
menerapkan proteksi yang lebih baik.

2010 05 Pencarian Konten PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

2010 05 Pencarian Konten PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

PENCARIAN DOKUMEN BERBASIS KONTEN PADA PERPUSTAKAAN DIGITAL

UNTUK KOLEKSI TEKS DAN MULTIMEDIA

Umi Laili Yuhana1, Shintami Chusnul1, Supriadi2,

Kata kunci: pencarian berbasis konten, perpustakaan digital, indexing.

1. Pendahuluan berbeda dengan dokumen biasa, sehingga

Gambar 3. Use case diagram akses berbasis

Untuk mendukung proses bisnis

Gambar 8 merupakan tampilan untuk

Gambar 7. Peringatan jika user yang belum

2. Proses pencarian dengan metadata Gambar 9. Tampilan pengaksesan

Gambar 10. Akses ke halaman admin

4. Perbandingan pencarian dengan dan

Anda mungkin juga menyukai