Temu-Balik Boolean
Husni
husni@if.trunojoyo.ac.id Husni.trunojoyo.ac.id Komputasi.wordpress.com
Pemrolehan-Kembali Informasi
Information Retrieval (IR)
Pencarian material (biasanya dokumen) dari suatu yang tak-terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari dalam koleksi yang besar (biasanya
disimpan pada komputer).
http://www.internetworldstats.com/images/world2010users.png
http://www.internetworldstats.com/images/world2010pie.png
Sec. 1.1
Sec. 1.1
Hubungan Term-document
Antony and Cleopatra Julius Caesar The Tempest Hamlet Othello Macbeth
1 1 1 0 1 1 1
1 1 1 1 0 0 0
0 0 0 0 0 1 1
0 1 1 0 0 1 1
0 0 1 0 0 1 1
1 0 1 0 0 1 0
Sec. 1.1
Vektor Hubungan
Diperoleh vektor 0/1 untuk setiap term Untuk menjawab query: Ambil vektor untuk Brutus, Caesar dan Calpurnia (dikomplemenkan) bitwise AND.
= 100100.
Sec. 1.1
Sec. 1.1
11
Singkirkan tikus dengan cara yang benar secara politis Misconception? Info tentang menghilangkan tikus tanpa membunuhnya Mistranslation?
Bagaimana menangkap tikus? Misformulation?
Info Need
Verbal form
Query
Menangkap tikus
SEARCH ENGINE
Query Refinement
Results
Corpus
Sec. 1.1
13
Sec. 1.1
14
Sec. 1.1
???
15
Sec. 1.2
Inverted index
Untuk setiap term t, simpan daftar semua dokumen yang mengandung t.
Identifikasi berdasarkan docID, nomor seri dokumen
Calpurnia
31
54 101
Sec. 1.2
Inverted index
...perlu daftar posting berukuran variable
Pada disk, bersifat kontinu: normal dan terbaik Dalam memory, gunakan linked lists atau array berukuran variable DocId
Tarik-ulur dalam ukuran & kemudahan penyisipan
Brutus Caesar
1 1 2
2 2 31
4 4
11 5
Calpurnia
54 101
Dictionary
Daftar Posting
Urut berdasarkan docID (Mengapa?)
17
Sec. 1.2
Friends Romans
Countrymen
roman
countryman
2 4
1
13
2 16
countryman
Sec. 1.2
Doc 1
I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me.
Doc 2
So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious
Sec. 1.2
Sec. 1.2
Sec. 1.2
Biaya Penyimpanan?
Daftar doc-ID
Term & Jumlah posting
Dibahas nanti: Bagaimana mengindex dengan efisien? Berapa kapasitas simpan yang 22 dibutuhkan?
Pointer
Sec. 1.3
23
Sec. 1.3
34 Caesar
24
Sec. 1.3
4
2
8
3
16
5
32
8 13
64
21
128
Brutus 34 Caesar
Jika panjang list adalah x dan y, penggabungan memerlukan operasi O(x+y). Krusial: posting diurutkan berdasarkan docID.
25
26
Sec. 1.3
Tool retrieval komersil utama selama 30 tahun. Banyak sistem pencarian mengunakan model Boolean:
Email, Katalog perpustakaan, Mac OS X Spotlight
27
Sec. 1.4
Contoh: www.westlaw.com
Layanan pencarian legal komersial (anggota berbayar) paling besar (dimulai 1975; ranking ditambahkan pada 1992) Puluhan terabyte data; 700.000 pengguna Mayoritas pengguna masih menggunakan query boolean Contoh query:
What is the statute of limitations in cases involving the federal tort claims act? LIMIT! /3 STATUTE ACTION /S FEDERAL /2 TORT /3 CLAIM
! = wildcard, /3 = dalam 3 kata, /S = dalam kalimat sama
28
Sec. 1.4
Contoh: www.westlaw.com
Contoh query lain:
Kebutuhan bagi penyandang cacat agar dapat mengakses tempat kerja disabl! /p access! /s work-site work-place (employment /3 place)
SPACE : disjungsi, bukan konjungsi! Query panjang (tepat); operator kedekatan; dikembangkan bertahap; tidak seperti pencarian web Banyak pencari pro masih menyukai pencarian Boolean: Tahu pasti apa yang diperoleh Tapi tidak berarti itu benar-benar bekerja lebih baik
Sec. 1.3
Masihkah proses merge memerlukan waktu O(x+y)? Apa yang dapat dicapai?
30
Sec. 1.3
Penggabungan
Bagaimana dengan formula Boolean yang berubahubah? (Brutus OR Caesar) AND NOT (Antony OR Cleopatra) Dapatkah selalu dimerge dalam waktu linier ? Linier dalam apa? Dapatkah dilakukan lebih baik?
31
Sec. 1.3
Optimisasi Query
Bagaimana urutan terbaik untuk pemrosesan query? Pertimbangkan query berupa suatu AND dari n term. Untuk setiap n term, dapatkan postingnya, kemudian AND-kan bersama-sama.
Brutus Caesar
Calpurnia
2 1
4 2
8 3
16 32 64 128 5 8 16 21 34
13 16
32
Sec. 1.3
Brutus Caesar
Calpurnia
2 1
4 2
8 3
16 32 64 128 5 8 16 21 34
13 16
Sec. 1.3
34
Latihan...
Tuliskan urutan pemrosesan query untuk: Term (tangerine OR trees) eyes AND (marmalade OR skies) kaleidoscope marmalade AND skies (kaleidoscope OR tangerine eyes)
trees
Freq
213312 87009 107913 271658 46653 316812
35
Hint: Mulai dengan query formula Boolean: setiap term query muncul hanya sekali dalam query.
36
Latihan...
Coba fitur pencarian di http://www.rhymezone.com/shakespeare/ Tuliskan 5 fitur pencarian yang menurut anda dapat melakukan lebih baik
37
Zona dalam dokumen: Temukan dokumen dengan (author = Ullman) AND (teks mengandung automata).
38
Akumulasi Fakta
1 vs. 0 kehadiran term pencarian
2 vs. 1 kehadiran 3 vs. 2 kehadiran, dll. Biasanya tampak lebih baik
39
40
Ivy
Smith
50000
Umumnya memungkinkan query range numerik dan sesuai tepat (untuk teks), misalnya:
Data Tak-Terstruktur
Umumnya mengacu ke teks bebas Memungkinkan: Query Keyword dengan menyertakan operatoroperator Query konsep yang lebih canggih, misal:
Temukan semua halaman web yang berkaitan dengan penyalahgunaan obat.
42
Data Semi-Terstruktur
Nyatanya hampir tidak ada data yang takterstruktur Misal: slide ini punya zona teridentifikasi dengan jelas seperti Title dan Bullets Menfasilitasi pencarian semi-structured seperti Title mengandung data AND Bullets mengandung search
43
44
46
47
48
Pertanyaan?
49
Tugas
Kerjakan latihan-latihan berikut:
Exercise 1.2 Exercise 1.7 Exercise 1.10
Gunakan google dan yahoo. Coba beberapa query boolean. Catat hasil yang diberikan. Bandingkan! Jawaban tugas di upload ke blog masing-masing. Alamat blog Anda dituliskan di blog komputasi.wordpress.com, pada halaman STBI-2011
50