Sistem Temu-Balik
Informasi
1
22/09/2017
Term Indeks
Sistem IR biasanya menggunakan term
indeks (index term) untuk memroses query.
Index term:
suatu keyword atau kelompok kata terpilih
suatu kata (lebih umum)
Stemming dapat diterapkan:
connect: connecting, connection, connections
Suatu inverted file dibangun untuk term-
term indeks yang dipilih 3
2
22/09/2017
Ranking
Ranking adalah pengurutan dokumen-dokumen
yang diterima yang (sangat diharapkan)
mencerminkan relevansi dari dokumen tersebut
dengan query pengguna
Ranking didasarkan pada pemikiran
fundamental mengenai relevansi, seperti:
Himpunan index term
Pemakaian term-term terbobot
Kemungkinan relevansi
Setiap himpunan dari pemikiran mengarahkan
ke suatu model IR tertentu. 6
3
22/09/2017
Ikhtisar Model IR
Model Klasik
Model Boolean (set theoretic)
Representasi: himpunan index term
Model alternatif : Fuzzy, Extended Boolean
Model Ruang Vektor (algebraic)
Representasi: vector dalam ruang t-dimensi
Model alternatif: Generalized VS, Latent Semantic
Indexing, Neural network
Model Probabilistik (probabilistic)
Berpijak pada teori peluang
Model alternatif: Inference network, Belief network
8
4
22/09/2017
Model Terstruktur
Memungkinkan referensi ke struktur yang
terdapat di dalam teks
Model Non-overlapping lists
Membagi teks ke dalam regional teks non-
overlapping yang dihimpun dalam lists (list of
chapters, list of all sections, )
Model Proximal nodes
Mengatur list non-overlapping ke dalam suatu hirarki
Text retrieval terstruktur menggabungkan
informasi pada isi teks dengan informasi pada
struktur dokumen 9
Model Browsing
Model IR berdasarkan pada tugas
browsing pengguna
Model Flat (tanpa struktur)
Model structure guided (seperti direktori
Yahoo)
Model Hypertext (seperti navigasi halaman
web)
10
5
22/09/2017
11
Model IR
Model IR, pandangan logik dokumen dan tugas retrieval
merupakan aspek berbeda dari sistem
12
6
22/09/2017
13
14
7
22/09/2017
15
Preprocessing
Potong karakter atau markup yang tak-diinginkan
(misal: tag HTML, tanda baca, bilangan).
Pecahkan ke dalam token-token (keyword)
berdasarkan whitespace.
Ubah token ke kata root (akar kata, stem)
computational compute
Hilangkan stopword umum (misal: a, the, it).
Deteksi frase umum (mungkin menggunakan kamus
khusus domain).
Bangun inverted index (daftar keyword dari
dokumen yang memuat keyword tersebut). 16
8
22/09/2017
Model Boolean
Dokumen direpresentasikan sebagai suatu
himpunan dari keyword.
Query merupakan ekspresi boolean dari keyword,
terhubung dengan AND, OR, dan NOT, termasuk
menggunakan kurung siku untuk menandakan
cakupan.
[ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ]
Output: Dokumen relevan atau tidak. Tidak ada
pencocokan parsial atau ranking.
17
Diagram Boolean
18
9
22/09/2017
Query Boolean
Query boolean: dua atau lebih term pencarian,
dihubungkan dengan operator boolean
Contoh:
abacus AND actor
abacus OR actor
(abacus AND actor) OR (abacus AND atoll)
NOT actor
20
10
22/09/2017
Contoh:
A and B or C and B
dievaluasi sebagai
(A and B) or (C and B)
21
22
11
22/09/2017
Model Statistik
Dokumen biasanya diwakilkan oleh bag of
words (kata-kata dengan frekuensi, tak-terurut).
Bag = himpunan yang memungkinkan banyak
kemunculan dari elemen yang sama.
Pengguna menentukan himpunan term yang
diinginkan dengan bobot (weight) opsional:
Term query terbobot:
Q = < database 0.5; text 0.8; information 0.2 >
Term query tak-terbobot:
Q = < database; text; information >
Tidak ada kondisi boolean ditetapkan dalam query.
24
12
22/09/2017
Retrieval Statistik
Retrieval didasarkan pada similarity (kemiripan)
antara query dan dokumen.
Dokumen output diranking sesuai dengan
kemiripan terhadap query.
Similarity didasarkan pada frekuensi
kemunculan dari kata kunci (keyword) dalam
query dan dokumen.
Mendukung Relevance feedback otomatis:
Dokumen relevan ditambahkan ke query.
Dokumen tak-relevan dihilangkan dari query.
25
13
22/09/2017
Graphic Representation
28
14
22/09/2017
Koleksi Dokumen
Koleksi n dokumen dapat direpresentasikan dalam
model ruang vektor dengan suatu matriks term-
document.
Entri di dalam matriks bersesuaian dengan bobot
dari term di dalam dokumen; nol berarti term tidak
berpengaruh atau tidak hadir di dalam dokumen.
29
Contoh
Terdapat 3 dokumen berikut:
30
15
22/09/2017
Pembobotan Biner
Bobot (weight): tij = 1 jika dokumen i
mengandung term j dan nol jika tidak
31
16
22/09/2017
Matriks Jarang
Ruang vektor term merupakan matriks sangat
jarang.
Inverted file adalah cara efisien untuk
merepresentasikan suatu ruang vektor term.
Juga menyediakan metode mudah untuk
menyimpan data tambahan.
Kebanyakan metode penyimpanan matriks
jarang dirancang untuk pemrosesan baris atau
kolom. Inverted file dikelola untuk pemrosesan
baris, yaitu semua informasi mengenai suatu
term yang diberikan disimpan bersama.
33
Inverted File
Inverted file merupakan daftar term pencarian
yang diatur untuk associative look-up, untuk
menjawab pertanyaan:
Dalam dokumen mana term pencarian tertentu hadir?
Dimana dalam setiap dokumen setiap term hadir?
(mungkin beberapa kemunculan)
Dalam sistem pencarian teks bebas, daftar kata
dan file posting bersama-sama menyediakan
suatu sistem inverted file. Juga mengandung data
yang diperlukan untuk menghitung bobot dan
informasi yang digunakan untuk menampilkan
hasil. 34
17
22/09/2017
35
18
22/09/2017
37
19
22/09/2017
39
20
22/09/2017
42
21
22/09/2017
43
44
22
22/09/2017
45
46
23
22/09/2017
47
48
24
22/09/2017
49
50
25
22/09/2017
Hitung Ranking
Kemiripan query terhadap dokumen dalam contoh:
52
26
22/09/2017
Pembobotan Term
Ukuran kemiripan perlu ditingkatkan:
(a) Apakah term umum atau tak-biasa
(b) Berapa kali setiap term muncul dalam
suatu dokumen
(c) Panjang dari dokumen
(d) Tempat dalam dokumen dimana term term
muncul
(e) Term-term yang adjacent satu dengan
lainnya (frase)
53
27
22/09/2017
Pembobotan TF-IDF
Bobot yang OK harus diambil, karena:
Hitungan isi intra-document (kemiripan)
Faktor tf, term frequency dalam suatu dokumen
Hitungan inter-documents berbeda
(ketidakmiripan)
Faktor idf, inverse document frequency
Indikator kepentingan term kombinasi adalah
pembobotan tf-idf :
wij = tfij idfi = tfij log2 (N / dfi)
56
28
22/09/2017
Pembobotan TF-IDF
Suatu term sering muncul dalam dokumen
tetapi jarang dalam sisa koleksi diberikan
bobot tinggi.
Banyak cara lain menentukan bobot term
diusulkan.
Pada eksperiment, tf-idf berkeja dengan
baik.
57
Menghitung TF-IDF
Diberikan suatu dokumen mengandung term
dengan frekuensi:
A(3), B(2), C(1)
Misal: koleksi memuat 10,000 dokumen dan
frekuensi dokumen dari term-term ini adalah
A(50), B(1300), C(250)
Maka:
A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3
B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3
C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = 1.2
58
29
22/09/2017
Menghitung TF-IDF
59
Menghitung TF-IDF
60
30
22/09/2017
61
31