Model Stki 1506061930

22/09/2017
Model Temu-Balik Informasi Pertemuan ke-3
Sistem Temu-Balik
Informasi
Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Keamanan Informasi 2010 2010 Keamanan
Informasi
Model Information Retrieval

Suatu model retrieval menentukan detail dari :
Representasi dokumen
Representasi query
Mekanisme retrieval
Menetapkan suatu gagasan relevansi.
Gagasan relevansi dapat berupa binary atau
continuous (yaitu retrieval teranking).
1
22/09/2017

Informasi
Term Indeks
Sistem IR biasanya menggunakan term
indeks (index term) untuk memroses query.
Index term:
suatu keyword atau kelompok kata terpilih
suatu kata (lebih umum)
Stemming dapat diterapkan:
connect: connecting, connection, connections
Suatu inverted file dibangun untuk term-
term indeks yang dipilih 3

Informasi
IR & Term Indeks
2
22/09/2017

Informasi
Pencocokan Term Indeks

Pencocokan pada level index term sangat tidak
tepat
Tidak heran mengapa pengguna sering tidak
terpuaskan
Karena kebanyakan pengguna tidak belajar
mengenai formasi query, bahkan bisa lebih
buruk
Ketidakpuasan dari pengguna web
Masalah penentuan relevansi merupakan kritik
bagi sistem IR: ranking
5

Informasi
Ranking
Ranking adalah pengurutan dokumen-dokumen
yang diterima yang (sangat diharapkan)
mencerminkan relevansi dari dokumen tersebut
dengan query pengguna
Ranking didasarkan pada pemikiran
fundamental mengenai relevansi, seperti:
Himpunan index term
Pemakaian term-term terbobot
Kemungkinan relevansi
Setiap himpunan dari pemikiran mengarahkan
ke suatu model IR tertentu. 6
3
22/09/2017

Informasi
Ikhtisar Model IR

Informasi
Model Klasik
Model Boolean (set theoretic)
Representasi: himpunan index term
Model alternatif : Fuzzy, Extended Boolean
Model Ruang Vektor (algebraic)
Representasi: vector dalam ruang t-dimensi
Model alternatif: Generalized VS, Latent Semantic
Indexing, Neural network
Model Probabilistik (probabilistic)
Berpijak pada teori peluang
Model alternatif: Inference network, Belief network
8
4
22/09/2017

Informasi
Model Terstruktur
Memungkinkan referensi ke struktur yang
terdapat di dalam teks
Model Non-overlapping lists
Membagi teks ke dalam regional teks non-
overlapping yang dihimpun dalam lists (list of
chapters, list of all sections, )
Model Proximal nodes
Mengatur list non-overlapping ke dalam suatu hirarki
Text retrieval terstruktur menggabungkan
informasi pada isi teks dengan informasi pada
struktur dokumen 9

Informasi
Model Browsing
Model IR berdasarkan pada tugas
browsing pengguna
Model Flat (tanpa struktur)
Model structure guided (seperti direktori
Yahoo)
Model Hypertext (seperti navigasi halaman
web)
10
5
22/09/2017

Informasi
Dimensi Model Lain

Pandangan logik dari dokumen
Index term
Full text
Full text + Structure (misal: hypertext)
Tugas Pengguna
Retrieval
Browsing
11

Informasi
Model IR
Model IR, pandangan logik dokumen dan tugas retrieval
merupakan aspek berbeda dari sistem
12
6
22/09/2017

Informasi
Retrieval: Ad Hoc vs Filtering

Ad hoc retrieval: Corpus dokumen tetap, query
bervariasi.
Filtering: Query tetap, aliran dokumen kontinu.
User Profile: Model preferensi yang relatif statis.
Keputusan biner dari relevant/not-relevant.
Routing: Sama dengan filtering tetapi
secara berkelanjutan menyediakan list teranking
bukan filtering biner.
13

Informasi

Ad hoc retrieval:
14
7
22/09/2017

Informasi

Filtering
15

Informasi
Preprocessing
Potong karakter atau markup yang tak-diinginkan
(misal: tag HTML, tanda baca, bilangan).
Pecahkan ke dalam token-token (keyword)
berdasarkan whitespace.
Ubah token ke kata root (akar kata, stem)
computational compute
Hilangkan stopword umum (misal: a, the, it).
Deteksi frase umum (mungkin menggunakan kamus
khusus domain).
Bangun inverted index (daftar keyword dari
dokumen yang memuat keyword tersebut). 16
8
22/09/2017

Informasi
Model Boolean
Dokumen direpresentasikan sebagai suatu
himpunan dari keyword.
Query merupakan ekspresi boolean dari keyword,
terhubung dengan AND, OR, dan NOT, termasuk
menggunakan kurung siku untuk menandakan
cakupan.
[ [Rio & Brazil] | [Hilo & Hawaii] ] & hotel & !Hilton ]
Output: Dokumen relevan atau tidak. Tidak ada
pencocokan parsial atau ranking.
17

Informasi
Diagram Boolean
18
9
22/09/2017

Informasi
Operator Adjacent & Near

abacus adj actor
Term abacus & actor adalah terkait satu
dengan lainnya, misal: "abacus actor"
abacus near 4 actor
Term abacus & actor dalam 4 kata dari satu
dengan lainnya, misal: "the actor has an abacus"
Beberapa sistem mendukung operator lain,
seperti with (dua term dalam kalimat sama) atau
same (dua term dalam paragraf sama).
19

Informasi
Query Boolean
Query boolean: dua atau lebih term pencarian,
dihubungkan dengan operator boolean
Contoh:
abacus AND actor
abacus OR actor
(abacus AND actor) OR (abacus AND atoll)
NOT actor
20
10
22/09/2017

Informasi
Evaluasi Operator Boolean

Precedence dari operator harus didefinisikan:
adj, near tinggi
and, not
or rendah
Contoh:
A and B or C and B
dievaluasi sebagai
(A and B) or (C and B)
21

Informasi
Model Retrieval Boolean

Model retrieval yang populer karena:
Mudah memahami query sederhana
Bersih dari formalisme
Model boolean dapat diextend untuk
menyertakan ranking.
Implementasi efisien layak mungkin bagi
query normal.
22
11
22/09/2017

Informasi
Model Boolean - Masalah

Terlalu kaku: AND berarti semua; OR berarti ada (bukan
pencocokan parsial).
Sulit mengekspresikan permintaan pengguna yang
kompleks. Query diformulasikan oleh pengguna
kebanyakan terlalu sederhana
Sulit mengontrol jumlah dokumen yang diretrieve.
Semua dokumen yang cocok akan dikembalikan.
Sulit meranking output.
Semua dokumen yang cocok secara logis memenuhi query.
Sulit mengerjakan relevance feedback.
Jika suatu dokumen diidentifikasi oleh pengguna sebagai relevan
atau tak-relevan, bagaimana query dimodifikasi?
Sering mengembalikan terlalu sedikit atau terlalu banyak 23

dokumen sebagai respon thdp query pengguna

Informasi
Model Statistik
Dokumen biasanya diwakilkan oleh bag of
words (kata-kata dengan frekuensi, tak-terurut).
Bag = himpunan yang memungkinkan banyak
kemunculan dari elemen yang sama.
Pengguna menentukan himpunan term yang
diinginkan dengan bobot (weight) opsional:
Term query terbobot:
Q = < database 0.5; text 0.8; information 0.2 >
Term query tak-terbobot:
Q = < database; text; information >
Tidak ada kondisi boolean ditetapkan dalam query.
24
12
22/09/2017

Informasi
Retrieval Statistik
Retrieval didasarkan pada similarity (kemiripan)
antara query dan dokumen.
Dokumen output diranking sesuai dengan
kemiripan terhadap query.
Similarity didasarkan pada frekuensi
kemunculan dari kata kunci (keyword) dalam
query dan dokumen.
Mendukung Relevance feedback otomatis:
Dokumen relevan ditambahkan ke query.
Dokumen tak-relevan dihilangkan dari query.
25

Informasi
Isu pada Retrieval Statistik

Bagaimana menentukan kepentingan kata dalam
suatu dokumen?
Pengertian kata?
Kata n-gram (dan frase, idiom,) term
Bagaimana menentukan derajat kepentingan
dari suatu term di dalam dokumen dan di dalam
koleksi keseluruhan?
Bagaimana menentukan derajat kemiripan
antara dokumen dan query?
Pada web, apa itu koleksi & apa efek dari link,
informasi format, dll?
26
13
22/09/2017

Informasi
Model Ruang Vektor

Setelah preprocessing diperoleh t term berbeda;
dinamakan index term atau vocabulary.
Term ini membentuk suatu ruang vector.
Dimensi = t = |vocabulary|
Setiap term, i, di dalam dokumen atau query, j,
diberikan suatu nilai real weight, wij
Dokumen dan query diekspresikan sebagai vektor
t-dimensi:
dj = (w1j, w2j, , wtj)
Definisikan fungsi bobot gi(dj) = wij
27

Informasi
Graphic Representation
28
14
22/09/2017

Informasi
Koleksi Dokumen
Koleksi n dokumen dapat direpresentasikan dalam
model ruang vektor dengan suatu matriks term-
document.
Entri di dalam matriks bersesuaian dengan bobot
dari term di dalam dokumen; nol berarti term tidak
berpengaruh atau tidak hadir di dalam dokumen.
29

Informasi
Contoh
Terdapat 3 dokumen berikut:
30
15
22/09/2017

Informasi
Pembobotan Biner
Bobot (weight): tij = 1 jika dokumen i
mengandung term j dan nol jika tidak
31

Informasi
Ruang Vektor dengan Bobot

Ruang vektor Term
Ruang n-dimensi, dimana n adalah jumlah term
berbeda yang digunakan untuk meng-indeks
himpunan dokumen (yaitu ukuran dari daftar kata).
Vector
Dokumen j direpresentasikan dengan vektor kolom.
Besarnya dalam dimensi i adalah tij, dimana:
tij > 0 jika term i muncul dalam dokumen j
tij = 0 jika tidak
tij adalah bobot dari term i dalam dokumen j.
32
16
22/09/2017

Informasi
Matriks Jarang
Ruang vektor term merupakan matriks sangat
jarang.
Inverted file adalah cara efisien untuk
merepresentasikan suatu ruang vektor term.
Juga menyediakan metode mudah untuk
menyimpan data tambahan.
Kebanyakan metode penyimpanan matriks
jarang dirancang untuk pemrosesan baris atau
kolom. Inverted file dikelola untuk pemrosesan
baris, yaitu semua informasi mengenai suatu
term yang diberikan disimpan bersama.
33

Informasi
Inverted File
Inverted file merupakan daftar term pencarian
yang diatur untuk associative look-up, untuk
menjawab pertanyaan:
Dalam dokumen mana term pencarian tertentu hadir?
Dimana dalam setiap dokumen setiap term hadir?
(mungkin beberapa kemunculan)
Dalam sistem pencarian teks bebas, daftar kata
dan file posting bersama-sama menyediakan
suatu sistem inverted file. Juga mengandung data
yang diperlukan untuk menghitung bobot dan
informasi yang digunakan untuk menampilkan
hasil. 34
17
22/09/2017

Informasi
Inverted File - Definisi

Daftar kata adalah daftar
semua term berbeda dalam
corpus setelah menghilangkan
stop words & stemming.
Kadang disebut pula
vocabulary file.
35

Informasi
Inverted File - Definisi

Posting: Entri di dalam sistem inverted file yang
mewakili instance term dari dalam suatu dokumen,
misal: ada 3 posting untuk "abacus":
"abacus" dalam dokumen 3
Inverted List: Daftar semua posting dalam sistem

inverted file yang menunjukkan kata tertentu, misal:
"abacus" dalam dokumen 3, 19 & 22
Ini merupakan representasi sparse dari suatu baris
dalam matriks vektor term 36
18
22/09/2017

Informasi
Inverted File & Query Boolean

Contoh: abacus and actor
Posting abacus
Posting actor
Hanya dokumen 19 yang
mengandung term "abacus"
dan "actor".
37

Informasi
Peningkatan Inverted File

Lokasi: Setiap posting memegang informasi
mengenai lokasi dari setiap term di dalam
dokumen.
Penggunaan
Rancangan antarmuka pengguna - highlight lokasi dari
term pencarian operator adjacency dan near (dalam
pencarian boolean)
Frekuensi: Setiap inverted list menyertakan
jumlah posting dari setiap term.
Penggunaan
Pembobotan term
38
Optimisasi pemrosesan query
19
22/09/2017

Informasi
Peningkatan Inverted File
39

Informasi
Evaluasi Operasi Adjacency

Contoh: abacus adj actor
Dokumen 19, lokasi 63 dan 64, lokasi

munculnya term "abacus" dan "actor" adjacent.
40
20
22/09/2017

Informasi
Pencocokan Query (Boolean)

Query: (abacus or asp*) and actor
1. Dari file index (daftar kata), temukan file posting:
"abacus"
setiap kata yang diawali "asp"
"actor"
2. Gabungkan posting list ini. Untuk setiap
dokumen yang muncul dalam postings list,
evaluasi ekspresi Boolean untuk melihat apakah
true atau false.
Langkah 2 sebaiknya diselesaikan dalam satu langkah
41

Informasi
Posting File & Pencocokan Query
42
21
22/09/2017

Informasi
Kemiripan & Ranking

Metode yang didiskusikan sejauh ini
hanya menangani query boolean
Dapatkah kita mengidentifikasi dokumen
berdasarkan pada kemiripan?
Bagaimana kita meranking hasil
pencarian?
43

Informasi
Revisi Ruang Vektor

x = (x1, x2, ..., xn) adalah vektor dalam ruang
vektor n-dimensi
Panjang dari x diberikan oleh:
|x|2 = x12 + x22 + x32 + ... + xn2
Jika x1 dan x2 merupakan vektor:
Inner product (atau dot product):
x1.x2 = x11x21 + x12x22 + x13x23 + ... + x1nx2n
Cosinus sudut antara vektor x1 dan x2:
44
22
22/09/2017

Informasi
Kemiripan (Tanda Bobot)

Seberapa mirip dokumen-dokumen berikut?
45

Informasi
Ruang Vektor Term

tij = 1 jika term i dalam dokumen j dan nol jika tidak
46
23
22/09/2017

Informasi
Contoh: Perbandingan Dokumen
47

Informasi
Kemiripan Query & Dokumen

(Vektor 3-Dimensi)
48
24
22/09/2017

Informasi
Kemiripan Query & Dokumen
49

Informasi
Matriks Munculnya Term
50
25
22/09/2017

Informasi
Hitung Ranking
Kemiripan query terhadap dokumen dalam contoh:
Jika query q dicarikan terhadap himpunan

dokumen ini, hasil teranking adalah
d2, d1, d3
51

Informasi
Kemiripan Vektor dalam IR?

Ranking
untuk setiap query q, kembalikan n
dokumen paling mirip yang diranking
sesuai kemiripannya.
[Ini merupakan praktis standard]
52
26
22/09/2017

Informasi
Pembobotan Term
Ukuran kemiripan perlu ditingkatkan:
(a) Apakah term umum atau tak-biasa
(b) Berapa kali setiap term muncul dalam
suatu dokumen
(c) Panjang dari dokumen
(d) Tempat dalam dokumen dimana term term
muncul
(e) Term-term yang adjacent satu dengan
lainnya (frase)
53

Informasi
Bobot Term: Term Frequency
Makin sering term dalam dokumen maka

makin penting, makin menunjukkan topik.
fij = frekuensi term i dalam dokumen j
Term frequency (tf) ini dapat dinormalisasi
terhadap corpus lengkap
tfij = fij / max{fij}
dimana max adalah terhadap semua term
dalam dokumen j
54
27
22/09/2017

Informasi
Bobot Term: Inverse Document frequency
Term-term yang munvul dalam banyak dokumen

berbeda kurang menunjukkan topik keseluruhan.
dfi = frekuensi dokumen dari term i
= jumlah dokumen yang mengandung term i
idfi = inverse document frequency dari term i,
= log2 (N / df i)
(N: jumlah total dari dokumen)
Indikasi dari kekuatan diskriminasi term.
Log digunakan untuk memperkecil efek relatif
terhadap tf.
55

Informasi
Pembobotan TF-IDF
Bobot yang OK harus diambil, karena:
Hitungan isi intra-document (kemiripan)
Faktor tf, term frequency dalam suatu dokumen
Hitungan inter-documents berbeda
(ketidakmiripan)
Faktor idf, inverse document frequency
Indikator kepentingan term kombinasi adalah
pembobotan tf-idf :
wij = tfij idfi = tfij log2 (N / dfi)
56
28
22/09/2017

Informasi
Pembobotan TF-IDF
Suatu term sering muncul dalam dokumen
tetapi jarang dalam sisa koleksi diberikan
bobot tinggi.
Banyak cara lain menentukan bobot term
diusulkan.
Pada eksperiment, tf-idf berkeja dengan
baik.
57

Informasi
Menghitung TF-IDF
Diberikan suatu dokumen mengandung term
dengan frekuensi:
A(3), B(2), C(1)
Misal: koleksi memuat 10,000 dokumen dan
frekuensi dokumen dari term-term ini adalah
A(50), B(1300), C(250)
Maka:
A: tf = 3/3; idf = log(10000/50) = 5.3; tf-idf = 5.3
B: tf = 2/3; idf = log(10000/1300) = 2.0; tf-idf = 1.3
C: tf = 1/3; idf = log(10000/250) = 3.7; tf-idf = 1.2
58
29
22/09/2017

Informasi
Menghitung TF-IDF
59

Informasi
Menghitung TF-IDF
60
30
22/09/2017
Model Temu-Balik Informasi Keamanan Informasi Informasi Keamanan

Sistem Temu-Balik Komputer 2010 2010
61
31

Model Stki 1506061930

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Model Stki 1506061930

Diunggah oleh

Hak Cipta:

Format Tersedia

22/09/2017

Model Temu-Balik Informasi Pertemuan ke-3

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Information Retrieval

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

IR & Term Indeks

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Pencocokan Term Indeks

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Dimensi Model Lain

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Retrieval: Ad Hoc vs Filtering

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Retrieval: Ad Hoc vs Filtering

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Retrieval: Ad Hoc vs Filtering

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Operator Adjacent & Near

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Evaluasi Operator Boolean

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Retrieval Boolean

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Boolean - Masalah

Sering mengembalikan terlalu sedikit atau terlalu banyak 23

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Isu pada Retrieval Statistik

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Ruang Vektor

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Ruang Vektor dengan Bobot

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Inverted File - Definisi

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Inverted File - Definisi

Inverted List: Daftar semua posting dalam sistem

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Inverted File & Query Boolean

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Peningkatan Inverted File

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Peningkatan Inverted File

Model Temu-Balik Informasi Sistem Temu-Balik Komputer

Evaluasi Operasi Adjacency