Anda di halaman 1dari 8
Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012) ISSN 2086-8251 Jakarta, 7 Juli 2012 PENGGUNAAN MODEL PROBABILISTIK UNTUK SISTEM TEMU KEMBALI INFORMASI Sudirman ', Achmad Kodar ' Department of Information Science, Faculty of Compwer Science and Information Technology, University Mercu Buama, Jakarta, Indonesia" Department of Information Science, Faculty of Computer Science and InformationTechnology, University of Malaya, Kuala Lumpur, Malaysia? e-mail: 5d1230868@vahoo Abstract ‘This paper discuss the application of theory probabilistic to model a system information retrieval, This system automatically make search or the rediscovery of relevant information against @ need users. Model probabilistic have good superiority than by search in boolean because using this model documents containing. information required by users can use rangking. A. Pendahuluan Sistem temu kembali informasi (information retrieval system-IRS) adalah ilmu pencarian informasi pada dokumen, pencarian untuk meta data di dalam database, baik relasi database yang stand-alone atau hypertext database yang terdapat peda network seperti internet (1), Penerapan aplikasi dari sistem temu kembali informasi adalah search engine stax mesin Pencarian yang terdapat pada jaringan internet (2). Pengguna dapat mencari helaman-halaman ‘web yang dibutuhkannya melalui search engine Sistem informasi perpustakaan, data/text mining, acquisition, adalal salah satu contoh 1 2 akodar@yahoo.com according to grades probability relevance of documents against ‘anced users. This paper develop some assumption to reduce complicated in applying theory probabilistic on a system information retrieval, and experimented to determine which assumption that gives performance the best, Keyword : System information retrieval, Model probabilistic, Data mining. Jain penerapan dari informasi ‘Sistem temu Kembali informasi terutama bberhubungan dengan pencarian informasi yang isinya tidak memiliki struktur. Demikian ‘pula cekspresi kebutuhan pengguna yang disebut query, juga tidak memilikistruktur. Hal ini yang Imembedakan sistem temu Kembali informasi dengan sistem basis data [3]. Dokumen adalah ccontoh informasi yang tidak terstruktur, Isi dari suatu dokumen sangat tergantung pada pembuat ddokumen. sistem temu kembali Gambar 1. Ikhtisar Model Information Retrieval Seminar re ee a nal Pengaplikasian Telematika (SINAPTIKA 2012) ISSN 2086-8251 Jakarta, 7 Juli 2012 B. Literatur Riview Text Operations Rangking Operasi terhadap teks yang meliputi Perangkingan, mencari dokumen yang pemilihan kata-kata dalam query maupun relevan tethadap query dan melakukan okumen (term selection) dalam —_perangkingan dokumen tersebut berdasarkan ppentransformasian dokumen atau query kesestiiannya dengan query, ‘menjadi rerms index. Indexing (Query formulation Pengindeksan, membangun basis data indeks Formulasi terhadap query) yaitu memberi dari koleksi ‘dokumen. Dilakukan.terlebih bobot pada indeks kata-kata yang terdapat dahulusebelum —pencarian dokumen pada query. dilkukan, am 4 ail | Fat yar | Dal Text Opraons Query formulation ape Inctoxineg 3) Bie aes Gambar 2. Bagian-bagian Sistem Temu Kembali Informasi Gambar 2. Memperlihatkan bah terdapat dua _Alur pertama dimulai dari koleksi dokumen dan Duah aluroperasi pada sistem temu Kembali slur kedua dimulai dari query pengguna. informasi, C. Metodologt Kolekel Dokumen Hasil Ss Pencarian Gambar 3. Sistem Kerja Temu Kembali Informasi Model sistem temu Kembali informasi dokumen terhadap query [5]. ‘menentukan cara kerja dari sistem tersebut Salah satu model sistem temu kembali 4aitu meliputi representasi dokumen mavpun informasi yang paling awal digunalan adalah ‘query, fungsi pencarian (retrieval function) model Boolean [6]. Model hoolean dan ‘notasi kesesuaian (relevance notation) merepresentasikan dokumen sebagai sete 26 | { Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012) Jakarta, 7 Juli 2012 himpunan kata-kunci (eet of keywords). Sedangkan query direpresentasikan sebagai ckspresi boolean. Query dalam ekspresi boolean merupakan kumpulan kata kunci yang saling dihubungkan melalui operator boolean seperti AND, OR dan NOT serta ‘menggunakan “tanda—kurung untuk ‘menentukan—ingkup operator. Has Pencarian dokumen dati model boolean ISSN 2086-8251 adalah himpunan dokumen yang menurut sistem relevan. Kekurangan dari model boolean ini antara lain basil pencarian dokumen berupa himpunan, schingea tidak dapat dikenali dokumen-dokumen yang paling relevan atau agak relevan (partial match). Query dalam ekspresi boolean dapat ‘menyulitkan pengguna yang tidak mengert tentang ekpresi boolean. D. Model Probabilistik Sistem Temu-Kembali Informasi Model Probabilistik pada sistem temu Kembali informasi menghitung Koefisien Kkesamaan antara sebuah query dengan sebuah dokumen sebagai sebuah probabilitas bbahwa dokumen tersebut akan relevan dengan query tersebut. Hal ini mereduksi ‘masalah perangkingan dari basil pencarian ke dalam aplikasi. teori probabilitas. Teori probabilitas dapat digunakan untuk ‘menghitung suatu ukuran relevansi antara sebuah query dan sebuah dokumen, Prinsip dari pemodelan probabilistik ini ‘adalah dengan melakukan estimasi bobot suatu kata berdasarkan prinsip seberapa sering kata tersebut- muncul atau tidak ‘muncul baik dalam dokumen-dokumen yang relevan_maupun dalam dokumen-dokumen yang tidak relevan, Model probabilistik akan ‘memberikan nilai probabilitas pada tip kata yang menjadi komponen dalam suatu query, dan Kemudian menggunakan bukti-bukti tersebut untuk menghitung probabilitas akhir bbahwa suatu dokumen relevan dengan suata query. Ktackata dalam suatu query akan diberikan suatu bobot yang berkaitan dengan probabilitas bahwa kata-kata tersebut, jika igunakan untuk metakukan pencarian, ckan ‘menghasilkan —dokumen-dokumen "yang relevan dengan query tersebut. Bobot-bobot dari masing-masing kata yang membentuke query akan dikombinasikan untuk menghasilkan suatu ukuran relevansi ait. Dalam suatu sistem temu-kembali informasi, kata-kata yang terdapat dalam suatu query dapat dipandang sebagai indikator bahwa sebuah dokumen relevan terhadap query tersebut. Ada atau tidak adanya kata yang muncul dalam query, dapat cigunakan untuk memprediksi apakah suatu okuinen tersebut relevan atau tidak ‘Schingga, setelah mengamati dalam selang waktu tertentu, kita bisa menyimpulkan ca bbahwa kalau kata A muncul di query dan ddokumen, maka ada kemungkinan sebesar persen bahwa dokumen tersebut relevan terhadap query. Artinya kita bisa menetapkan ssuatu nilai probabilitas relevansi tethadap kata A tersebut, Dengan mengasumsikan bbahwa probabilitas satu kata muncul tidak bergantung pada probabilitas kata lain yang muncul, maka kita bisa menentukan ‘nila probabilitas untuk setiap kata, Dan akhimya, hasil perkalian dari semua bobot berdasarkan nilai probabilitas tersebut dapat digunakan untuk -menghitung kemungkinan suatu dokumen relevan atau tidak, ‘Asumsi bahwa Kemunculan satu kata dalam dokumen tidak bergantung pada kemunculan kata lain (galing lepas) sesungguhnya bukan merupakan model yang baik pada Kenyataannya. Sebagai contoh, di dalam satu dokumen, dimana di dalamaya ‘muncul kata “rumah, yang relevan dengan query “rumah sakit", maka dalam dokumen ‘yang. relevan tersebut probabilitas bahwa di ‘dokumen tersebut ada kata "sakt™ akan lebih besar —daripada —probabilitas—untuke kkemunculan kata-katalainnya, Penyederhanaan dengan mengasumsikan—bahwa__probabilitas kemuneulan satu kata dalam dokumen tidak bergantung_ pada probabilitas kemungkinan ‘muncul kata-kata.lainnya, adalah Karena untuk menangani Ketergantungan ini akan melibatkan banyak proses komputasi. J secara Komputasi akan menjadi mahal, dan yang terpenting adalah lai probabiitas fetergantungan dua kata tersebutsangat sukar_ untuk diperkirakan, arena untuk ‘menghitung nai probabiltas ketergantungan satu kata terhadap kata yang. lain ini dliperokan data training tenuang Kemunculan dua kata tersebut, baik dalam dokumen yang relevan maupun dokumen yang tidak relevan ‘Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012) Jakarta, 7 Tuli 2012 Biasanya sukar_ dan membutuhkan usaha ‘yang tidak sedikit untuk membuat data traning yang diperiukan untuk dapat rmengestimasi parametersparameter yang dlibutuhkan, Pethatikan sebuah dokumen, dj, yang tern dari kata- Kata, nda 1, adalah bobot yang merupakan probabilits baa kata dapat menyebabkan dokumen ini relevan, Probabilitas bahwa dokumen d, relevan adalah berdasarkan _protabltas relevansi dari tap kata yang terdapat dalam dokumen tesebut. Untuk setiap kata dslam ddokumen, Kontribusi kata tersebut pada nila probabilitskescluruban dokumen dapat ung bogl er P(Gx,lret)) Poe;inonret) Pertanyaan’berikumnya adalah, bagaimana kita mengkombinasikan masing- rmasing probabilitas relevansi dar tap Kata yang ada pada dokumen tersebut ? Karena kia mengasumsikan bahwa kemunculan katackata tersebut sling’ Tepas, maka kita dapat menggabungkan probabiltas relevansi masing-masing kata ttsebut menjadi nila probabiltas relevansidokumen. Dengan ‘mengambil nila logaritms, maka probablitas relevansi dari sebuah” dokumen dapat

Anda mungkin juga menyukai