Introduction to
Information Retrieval
Sarifah Putri Raflesia, M.T
sarifahpr@gmail.com
Resources
Pencarian kueri lebih mudah berdasarkan tipe Pencarian membutuhkan pemrosesan teks khusus
informasi yang ditentukan pada kolom- untuk menemukan kemiripan teks terhadap kueri
kolom database
Secara umum, pertumbuhan data pada database Pertumbuhan data/dokumen sangat pesat, baik
tidak pesat, karena mengelola satu topik data saja dari segi jumlah maupun ukuran dokumen
Cukup menggunakan fitur pencarian database Menggunakan Mesin Pencari (Search Engine)
IR v.s. Database
Tradisional
6 Rudi 22 L Rudi@abc.com
Contoh
IR
• Dari Kitab Terjemahan Qur’an, kita ingin mencari kisah Nabi
Musa, tidak termasuk Fir’aun dan Haman.
• Metode Tradisional, yaitu melakukan screening (dalam Unix
dengan grep), dengan mencari semua kata sampai
ditemukan yang match. Kalau tidak ditemukan, hilangkan 1
kata, cari lagi. Masih tidak ditemukan, ganti kata yang
dihilangkan.
• Dengan IR, pencarian bisa dengan exact match maupun
partial match. Bila dengan partial match, maka hasil-hasil
pencarian akan diurutkan berdasarkan yang paling mirip
dengan kueri.
Korpu
s
• Korpus (tunggal=corpora) : adalah koleksi dokumen yang bisa dibaca
oleh mesin
• Setiap sistem harus memutuskan dokumen yang ada akan
diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman,
atau teks multipage.
• Ukuran korpus penting:
• Apakah 1 email bisa disebut korpus?
• Ataukah 1000 email adalah korpus?
• Bagaimanakah bentuk dari korpus?
• Apakah artikel online, pesan tweet, posting Instagram, dapat dijadikan korpus?
• Berapa ukuran minimalnya?
• Adakah ukuran maksimal dari korpus?
• Apa korpus yang paling besar?
Contoh Korpus