Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012) ISSN 2086-8251
Jakarta, 7 Juli 2012
PENGGUNAAN MODEL PROBABILISTIK
UNTUK SISTEM TEMU KEMBALI
INFORMASI
Sudirman ', Achmad Kodar '
Department of Information Science, Faculty of Compwer Science and Information
Technology, University Mercu Buama, Jakarta, Indonesia"
Department of Information Science, Faculty of Computer Science and InformationTechnology,
University of Malaya, Kuala Lumpur, Malaysia?
e-mail: 5d1230868@vahoo
Abstract
‘This paper discuss the application of
theory probabilistic to model a system information
retrieval, This system automatically make search
or the rediscovery of relevant information against
@ need users. Model probabilistic have good
superiority than by search in boolean because
using this model documents containing.
information required by users can use rangking.
A. Pendahuluan
Sistem temu kembali informasi (information
retrieval system-IRS) adalah ilmu pencarian
informasi pada dokumen, pencarian untuk meta
data di dalam database, baik relasi database yang
stand-alone atau hypertext database yang terdapat
peda network seperti internet (1),
Penerapan aplikasi dari sistem temu kembali
informasi adalah search engine stax mesin
Pencarian yang terdapat pada jaringan internet
(2). Pengguna dapat mencari helaman-halaman
‘web yang dibutuhkannya melalui search engine
Sistem informasi perpustakaan, data/text mining,
acquisition, adalal salah satu contoh
1 2
akodar@yahoo.com
according to
grades probability relevance of documents against
‘anced users. This paper develop some assumption
to reduce complicated in applying theory
probabilistic on a system information retrieval,
and experimented to determine which assumption
that gives performance the best,
Keyword : System information retrieval, Model
probabilistic, Data mining.
Jain penerapan dari
informasi
‘Sistem temu Kembali informasi terutama
bberhubungan dengan pencarian informasi yang
isinya tidak memiliki struktur. Demikian ‘pula
cekspresi kebutuhan pengguna yang disebut query,
juga tidak memilikistruktur. Hal ini yang
Imembedakan sistem temu Kembali informasi
dengan sistem basis data [3]. Dokumen adalah
ccontoh informasi yang tidak terstruktur, Isi dari
suatu dokumen sangat tergantung pada pembuat
ddokumen.
sistem temu kembali
Gambar 1. Ikhtisar Model Information RetrievalSeminar re ee a nal Pengaplikasian Telematika (SINAPTIKA 2012) ISSN 2086-8251
Jakarta, 7 Juli 2012
B. Literatur Riview
Text Operations Rangking
Operasi terhadap teks yang meliputi Perangkingan, mencari dokumen yang
pemilihan kata-kata dalam query maupun relevan tethadap query dan melakukan
okumen (term selection) dalam —_perangkingan dokumen tersebut berdasarkan
ppentransformasian dokumen atau query kesestiiannya dengan query,
‘menjadi rerms index.
Indexing
(Query formulation Pengindeksan, membangun basis data indeks
Formulasi terhadap query) yaitu memberi dari koleksi ‘dokumen. Dilakukan.terlebih
bobot pada indeks kata-kata yang terdapat dahulusebelum —pencarian dokumen
pada query. dilkukan,
am 4 ail |
Fat yar | Dal Text Opraons
Query formulation ape Inctoxineg
3) Bie aes
Gambar 2. Bagian-bagian Sistem Temu Kembali Informasi
Gambar 2. Memperlihatkan bah terdapat dua _Alur pertama dimulai dari koleksi dokumen dan
Duah aluroperasi pada sistem temu Kembali slur kedua dimulai dari query pengguna.
informasi,
C. Metodologt
Kolekel
Dokumen
Hasil Ss
Pencarian
Gambar 3. Sistem Kerja Temu Kembali Informasi
Model sistem temu Kembali informasi dokumen terhadap query [5].
‘menentukan cara kerja dari sistem tersebut Salah satu model sistem temu kembali
4aitu meliputi representasi dokumen mavpun informasi yang paling awal digunalan adalah
‘query, fungsi pencarian (retrieval function) model Boolean [6]. Model hoolean
dan ‘notasi kesesuaian (relevance notation) merepresentasikan dokumen sebagai sete
26|
{
Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012)
Jakarta, 7 Juli 2012
himpunan kata-kunci (eet of keywords).
Sedangkan query direpresentasikan sebagai
ckspresi boolean. Query dalam ekspresi
boolean merupakan kumpulan kata kunci
yang saling dihubungkan melalui operator
boolean seperti AND, OR dan NOT serta
‘menggunakan “tanda—kurung untuk
‘menentukan—ingkup operator. Has
Pencarian dokumen dati model boolean
ISSN 2086-8251
adalah himpunan dokumen yang menurut
sistem relevan. Kekurangan dari model
boolean ini antara lain basil pencarian
dokumen berupa himpunan, schingea tidak
dapat dikenali dokumen-dokumen yang
paling relevan atau agak relevan (partial
match). Query dalam ekspresi boolean dapat
‘menyulitkan pengguna yang tidak mengert
tentang ekpresi boolean.
D. Model Probabilistik Sistem Temu-Kembali Informasi
Model Probabilistik pada sistem temu
Kembali informasi menghitung Koefisien
Kkesamaan antara sebuah query dengan
sebuah dokumen sebagai sebuah probabilitas
bbahwa dokumen tersebut akan relevan
dengan query tersebut. Hal ini mereduksi
‘masalah perangkingan dari basil pencarian ke
dalam aplikasi. teori probabilitas. Teori
probabilitas dapat digunakan untuk
‘menghitung suatu ukuran relevansi antara
sebuah query dan sebuah dokumen,
Prinsip dari pemodelan probabilistik ini
‘adalah dengan melakukan estimasi bobot
suatu kata berdasarkan prinsip seberapa
sering kata tersebut- muncul atau tidak
‘muncul baik dalam dokumen-dokumen yang
relevan_maupun dalam dokumen-dokumen
yang tidak relevan, Model probabilistik akan
‘memberikan nilai probabilitas pada tip kata
yang menjadi komponen dalam suatu query,
dan Kemudian menggunakan bukti-bukti
tersebut untuk menghitung probabilitas akhir
bbahwa suatu dokumen relevan dengan suata
query.
Ktackata dalam suatu query akan
diberikan suatu bobot yang berkaitan dengan
probabilitas bahwa kata-kata tersebut, jika
igunakan untuk metakukan pencarian, ckan
‘menghasilkan —dokumen-dokumen "yang
relevan dengan query tersebut. Bobot-bobot
dari masing-masing kata yang membentuke
query akan dikombinasikan untuk
menghasilkan suatu ukuran relevansi ait.
Dalam suatu sistem temu-kembali
informasi, kata-kata yang terdapat dalam
suatu query dapat dipandang sebagai
indikator bahwa sebuah dokumen relevan
terhadap query tersebut. Ada atau tidak
adanya kata yang muncul dalam query, dapat
cigunakan untuk memprediksi apakah suatu
okuinen tersebut relevan atau tidak
‘Schingga, setelah mengamati dalam selang
waktu tertentu, kita bisa menyimpulkan
ca
bbahwa kalau kata A muncul di query dan
ddokumen, maka ada kemungkinan sebesar
persen bahwa dokumen tersebut relevan
terhadap query. Artinya kita bisa menetapkan
ssuatu nilai probabilitas relevansi tethadap
kata A tersebut, Dengan mengasumsikan
bbahwa probabilitas satu kata muncul tidak
bergantung pada probabilitas kata lain yang
muncul, maka kita bisa menentukan ‘nila
probabilitas untuk setiap kata, Dan akhimya,
hasil perkalian dari semua bobot berdasarkan
nilai probabilitas tersebut dapat digunakan
untuk -menghitung kemungkinan suatu
dokumen relevan atau tidak,
‘Asumsi bahwa Kemunculan satu kata
dalam dokumen tidak bergantung pada
kemunculan kata lain (galing lepas)
sesungguhnya bukan merupakan model yang
baik pada Kenyataannya. Sebagai contoh, di
dalam satu dokumen, dimana di dalamaya
‘muncul kata “rumah, yang relevan dengan
query “rumah sakit", maka dalam dokumen
‘yang. relevan tersebut probabilitas bahwa di
‘dokumen tersebut ada kata "sakt™ akan lebih
besar —daripada —probabilitas—untuke
kkemunculan kata-katalainnya,
Penyederhanaan dengan
mengasumsikan—bahwa__probabilitas
kemuneulan satu kata dalam dokumen tidak
bergantung_ pada probabilitas kemungkinan
‘muncul kata-kata.lainnya, adalah Karena
untuk menangani Ketergantungan ini akan
melibatkan banyak proses komputasi. J
secara Komputasi akan menjadi mahal, dan
yang terpenting adalah lai probabiitas
fetergantungan dua kata tersebutsangat
sukar_ untuk diperkirakan, arena untuk
‘menghitung nai probabiltas ketergantungan
satu kata terhadap kata yang. lain ini
dliperokan data training tenuang Kemunculan
dua kata tersebut, baik dalam dokumen yang
relevan maupun dokumen yang tidak relevan‘Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012)
Jakarta, 7 Tuli 2012
Biasanya sukar_ dan membutuhkan usaha
‘yang tidak sedikit untuk membuat data
traning yang diperiukan untuk dapat
rmengestimasi parametersparameter yang
dlibutuhkan,
Pethatikan sebuah dokumen, dj, yang
tern dari kata- Kata, nda
1, adalah bobot yang merupakan probabilits
baa kata dapat menyebabkan dokumen
ini relevan, Probabilitas bahwa dokumen d,
relevan adalah berdasarkan _protabltas
relevansi dari tap kata yang terdapat dalam
dokumen tesebut. Untuk setiap kata dslam
ddokumen, Kontribusi kata tersebut pada nila
probabilitskescluruban dokumen dapat
ung bogl er
P(Gx,lret))
Poe;inonret)
Pertanyaan’berikumnya adalah,
bagaimana kita mengkombinasikan masing-
rmasing probabilitas relevansi dar tap Kata
yang ada pada dokumen tersebut ? Karena
kia mengasumsikan bahwa kemunculan
katackata tersebut sling’ Tepas, maka kita
dapat menggabungkan probabiltas relevansi
masing-masing kata ttsebut menjadi nila
probabiltas relevansidokumen. Dengan
‘mengambil nila logaritms, maka probablitas
relevansi dari sebuah” dokumen dapat