Anda di halaman 1dari 17

Pertemuan 1

Introduction to
Information Retrieval
Sarifah Putri Raflesia, M.T
sarifahpr@gmail.com
Resources

• Text book : Introduction to Information Retrieval, by


C. Manning, P. Raghavan, and H. Schütze
(Cambridge University Press, 2008).
• Versi online (free) : https://nlp.stanford.edu/IR-book/
• Journal/Conference Paper dalam bidang yang
relevan
Introduction

• Pengertian Information Retrieval (disingkat IR) luas sekali.


• Dari kata pembentuknya :
• Information : Informasi
• Retrieval : dari ‘to retrieve’: menarik/menemukan kembali,
mengambil, memperoleh, dsb
• IR: menarik/menemukan/memperoleh kembali informasi
• IR adalah proses menemukan material (biasanya dokumen) dari
suatu koleksi yang tidak terstruktur (biasanya teks) yang dapat
memuaskan kebutuhan informasi di dalam koleksi yang besar
(biasanya tersimpan pada computer). [Manning et al, 2008]
IR v.s. Database
Tradisional
Database Tradisional Information Retrieval
Data terstruktur dalam kolom dan baris Data tidak terstruktur
Informasi spesifik ditentukan dalam kolom-kolom Informasi tidak spesifik, menyebar dan bias

Pencarian kueri lebih mudah berdasarkan tipe Pencarian membutuhkan pemrosesan teks khusus
informasi yang ditentukan pada kolom- untuk menemukan kemiripan teks terhadap kueri
kolom database

Secara umum, pertumbuhan data pada database Pertumbuhan data/dokumen sangat pesat, baik
tidak pesat, karena mengelola satu topik data saja dari segi jumlah maupun ukuran dokumen
Cukup menggunakan fitur pencarian database Menggunakan Mesin Pencari (Search Engine)
IR v.s. Database
Tradisional

Id Name age sex email


1 Beni 23 L Beni@abc.com
2 Rosa 24 P Rosa@abc.com
3 Noni 22 P Noni@abc.com
4 Mary 24 P Mary@abc.com
5 Soni 24 L Soni@abc.com

6 Rudi 22 L Rudi@abc.com
Contoh
IR
• Dari Kitab Terjemahan Qur’an, kita ingin mencari kisah Nabi
Musa, tidak termasuk Fir’aun dan Haman.
• Metode Tradisional, yaitu melakukan screening (dalam Unix
dengan grep), dengan mencari semua kata sampai
ditemukan yang match. Kalau tidak ditemukan, hilangkan 1
kata, cari lagi. Masih tidak ditemukan, ganti kata yang
dihilangkan.
• Dengan IR, pencarian bisa dengan exact match maupun
partial match. Bila dengan partial match, maka hasil-hasil
pencarian akan diurutkan berdasarkan yang paling mirip
dengan kueri.
Korpu
s
• Korpus (tunggal=corpora) : adalah koleksi dokumen yang bisa dibaca
oleh mesin
• Setiap sistem harus memutuskan dokumen yang ada akan
diperlakukan sebagai apa. Bisa sebagai sebuah paragraf, halaman,
atau teks multipage.
• Ukuran korpus penting:
• Apakah 1 email bisa disebut korpus?
• Ataukah 1000 email adalah korpus?
• Bagaimanakah bentuk dari korpus?
• Apakah artikel online, pesan tweet, posting Instagram, dapat dijadikan korpus?
• Berapa ukuran minimalnya?
• Adakah ukuran maksimal dari korpus?
• Apa korpus yang paling besar?
Contoh Korpus

Artikel ini diambil dari mana?

Corona Absolute mengalami perubahan pada eksterior pada


pertengahan tahun 1994, yaitu desain baru pada bumper depan
& belakang dengan ditambahkannya lis plastik hitam. Plat nomor
belakang yang semula di bumper belakang dipindahkan ke
bagasi sehingga desain lampu belakang juga diubah. Lampu
sein depan pun dibuat lebih besar dari model sebelumnya. Grille
krom diubah menjadi sewarna body.
Task
s
• Berbagai task (tugas) yang related dengan IR
• Text Summarization (peringkas teks)
• Text Clustering (Pengelompokan teks)
• Text Classification (Pengkelasan teks)
• Text Recommender system
• Question Answering
• Banyak task yang overlap dengan bidang Natural
Language Processing. Tetapi teknik-teknik, metode,
pendekatan yang dipakai cukup berbeda.
Pemrosesan
Teks
• Empiris:
• Teks tidak hanya sekumpulan kata
• Analisa data dan menguji hipotesa
• Temukan fakta baru tentang Bahasa
• Teknik
• Pemgembangan aplikasi berbasis teks
• Dapat dilatih secara otomatis
• Cakupan luas, tepat (akurasi tinggi)
Aktivitas dalam IR
• Temu-Kembali Informasi atau Information Retrieval
(IR) berurusan dengan representasi, penyimpanan
dan organisasi data tidak terstruktur
• IR adalah proses pencarian di dalam suatu koleksi
dokumen untuk kebutuhan informasi tertentu
(berbentuk query)
• Misi IR: membantu pencarian informasi
• Dua paradigma utama dalam pencarian:
– Retrieval
– Browsing
Search Engine
Mesin Pencarian

• Search engines: perangkat


utama yang digunakan untuk
mendapatkan informasi di
web (Internet)
• Mengeluarkan suatu situs dari
search engines akan
menghentikan situs tersebut
dari audien yang diharapkan.
6
Sejarah Search Engines
• Yahoo! (1994-) directory service dan search engine.
• Infoseek (1994-2001) search engine.
• Inktomi (1995-) infrastruktur search engine, dibeli Yahoo! 2003.
• AltaVista (1995-) search engine, dibeli Overture 2003.
• Ask Jeeves (ask.com, 1996-) Q&A dan search engine, dibeli
IAC/InterActiveCorp 2005.
• Overture (1997-) pay-per-click search engine, dibeli Yahoo!
2003.
• Google (1998-) search engine.
• AlltheWeb (1999-) search engine, dibeli Overture 2003 .
• Bing (bing.com, 2009-) Microsoft search engine
(reinkarnasi?)Live
sebelumnya , (2006) dan MSN. 8
Statistika Search Engine
• Di Amerika, pada 2005 Google memperoleh 36.5%, terus men-
dominasi. Juli 2015, 64% dari 18 jutaan pencarian. Terjadi
penurunan mulai awal 2014 (1 – 2%). Bing 20.4%, Yahoo 12.7%.
• Di China dan Korea: Engine lokal lebih populer.
• Market share global:
Google 70.38%
Strategi dan Perangkat

• Search engine hanya tool (diantara yang lain) yang


dapat dimanfaatkan, dalam suatu strategi, untuk
mencapai tujuan (mengerjakan suatu tugas)
• Tools baru telah muncul dan terus dikembangkan,
menggabungkan kerja di bidang Human Computer
Interaction (HCI) dan IR
• Pencarian Exploratory adalah area dimana tools
baru akan banyak dikembangkan.
Istilah lain dalam IR

• Query yang diajukan dalam Query Language, Sebuah query


menjelaskan tentang apa yang user ingin peroleh. Query
language dapat berupa list dari kata-kata, atau bisa juga
menspesifikasikan sebuah frase dari kata-kata yang harus
berdekatan
• Kumpulan hasil, Ini adalah bagian dari dokumen yang dinilai oleh
sistem IR sebagai yang relevan dengan query.
• Presentasi hasil yang ditetapkan, Maksud dari bagian ini adalah
tampilan list judul dokumen yang sudah di-ranking
Arsitektur IR Secara Umum

Anda mungkin juga menyukai