Anda di halaman 1dari 15

PEMODELAN

TEMU KEMBALI INFORMASI


Boolean Index
Boolean
Retrieval Model
Inverted Index
BOOLEAN RETRIEVAL MODEL

• Proses pencarian informasi dari query yang menggunakan ekspresi Boolean.


• Ekspresi yang digunakan berupa operator logika NOT, AND, dan OR
• Hasil perhitungan berupa nilai biner (1 dan 0)
• Pencarian hanya mempertimbangkan relevansi dokumen tanpa melihat kemiripan
• Boolean Query Retrieval nya sebagai berikut :
– Makan AND Ikan OR Kambing
– Makan AND NOT (Ikan OR Kambing)
INCIDENCE MATRIX

• Incidence matrix adalah suatu matrix yang terdiri dari kolom (dokumen) dan baris
(token/term/kata).
• Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1. Jika
tidak ditemukan, maka nilai kolom (t,d) adalah 0.
BOOLEAN INDEX

Dokumen 1 Orang biasa makan


nasi dan sayuran Term d1 d2 d3
makan 1 1 1

Dokumen 2 Saat ini, kucing kucing 0 1 0


tidak hanya makan kambing 0 0 1
ikan
ikan 0 1 0
dst
Dokumen 3 Kambing suka
makan tanaman
BOOLEAN QUERY RETRIEVAL
Dari Incidence Matrix sebelumnya, tentukan hasil Boolean query retrieval berikut:
Makan AND NOT (Ikan OR Kambing)
Maka, Term d1 d2 d3
makan 1 1 1
• TFbiner (Makan) = 111
kucing 0 1 0
• TFbiner (Ikan) = 010
kambing 0 0 1
• TFbiner (Kambing) = 001 ikan 0 1 0
• Makan AND NOT (Ikan OR Kambing) dst
= 111 AND NOT (010 OR 001)
= 111 AND NOT 011
= 111 AND 100
= 100  Maka hasil Query ada di dokumen 1
INVERTED INDEX

Dokumen 1 Orang biasa makan Term Dokumen; Frekuensi; Posisi


nasi dan sayuran
makan 1:1:3, 2:1:6, 3:1:3
kucing 2:1:3
Dokumen 2 Saat ini, kucing kambing 3:1:1
tidak hanya makan
ikan ikan 2:1:7
Dst.

Dokumen 3 Kambing suka


makan tanaman
BOOLEAN QUERY RETRIEVAL
Dari Incidence Matrix sebelumnya, tentukan hasil Boolean query retrieval berikut:
Makan AND NOT (Ikan OR Kambing)
Maka, Term Dokumen; Frekuensi; Posisi
makan 1:1:3, 2:1:6, 3:1:3
• TFbiner (Makan) = 111
kucing 2:1:3
• TFbiner (Ikan) = 010
kambing 3:1:1
• TFbiner (Kambing) = 001
ikan 2:1:7
• Makan AND NOT (Ikan OR Kambing) Dst.
= 111 AND NOT (010 OR 001)
= 111 AND NOT 011
= 111 AND 100
= 100  Maka hasil Query ada di dokumen 1
VECTOR SPACE MODEL

• Vector Space Model (VSM) merupakan sebuah pendekatan natural yang berbasis pada vektor
dari setiap kata dalam suatu dimensi spasial. Dokumen dipandang sebagai sebuah vektor yang
memiliki magnitude (jarak) dan direction (arah). Pada VSM, sebuah kata direpresentasikan
dengan sebuah dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah kueri
didasarkan pada similaritas diantara vektor dokumen dan vektor Queri.
TF-IDF
Berikut ini fungsi dari TF-IDF
• TF (Term Frequency) =
merupakan jumlah atau frekuensi kemunculan suatu term pada suatu dokumen dan merupakan
jumlah keseluruhan term (kata) pada dokumen tersebut.
Berikut ini fungsi dari IDF
• IDF (Invers Document Frequency) =
merupakan jumlah keseluruhan dokumen dan merupakan jumlah dokumen yang mengandung
term (kata).

Sehingga, pembobotan TF-IDF merupakan hasil dari perkalian antara TF dan IDF yang dapat
dirumuskan sebagai berikut:
CONTOH

Orang biasa makan Carilah dokumen yang paling relevan dengan


Dokumen 1 nasi, sayuran, dan menggunakan kata kunci “makan ikan
ikan
tanaman”!

Dokumen 2 Kucing tidak hanya


makan ikan Maka, Query Q = makan ikan tanaman
N=3

Dokumen 3 Kambing suka makan


tanaman
TF = TF*IDF
Terms
Q D1 D2 D3 N/ IDF Q D1 D2 D3
orang 0 1 0 0 1 3 0,4771 0 0,4771 0 0
biasa 0 1 0 0 1 3 0,4771 0 0,4771 0 0
makan 1 1 1 1 3 1 0 0 0 0 0
nasi 0 1 0 0 1 3 0,4771 0 0,4771 0 0
sayuran 0 1 0 0 1 3 0,4771 0 0,4771 0 0
dan 0 1 0 0 1 3 0,4771 0 0,4771 0 0
ikan 1 1 1 0 2 1,5 0,1761 0,1761 0,1761 0,1761 0
kucing 0 0 1 0 1 3 0,4771 0 0 0,4771 0
tidak 0 0 1 0 1 3 0,4771 0 0 0,4771 0
hanya 0 0 1 0 1 3 0,4771 0 0 0,4771 0
kambing 0 0 0 1 1 3 0,4771 0 0 0 0,4771
suka 0 0 0 1 1 3 0,4771 0 0 0 0,4771
tanaman 1 0 0 1 1 3 0,4771 0,4771 0 0 0,4771
PERHITUNGAN KEMIRIPAN

Cosine Similarity

A dan B merupakan vektor yang dibandingkan kemiripannya. merupakan hasil dot product
antara vektor A dan B. dan merupakan panjang vektor A dan B. Sedangkan merupakan hasil
cross product antara dan .
CONTOH

• Untuk menghitung kemiripan 2 variabel, maka perlu mengubah bentuk dokumen dan query
menjadi vektor.
|𝐷 |= √0,4771  +0,4771  +0,4771  +0,4771  +0,4771  +0,1761 
1
2 2 2 2 2 2

𝑖

|𝐷 |= ∑ 𝑤 |𝐷 |= √ 0,1761  + 0,4771  +0,4771  +0,4771 
𝑖
2
𝑖𝑗
2
2 2 2 2

|𝐷 |= √ 0,4771  + 0,4771  +0,4771 


3
2 2 2

|𝑄|=
√ ∑
𝑖
𝑤
2
𝑄𝑗 |𝑄|
TUGAS

• Lakukan preprocessing pada suatu dokumen text menggunakan aplikasi!

Anda mungkin juga menyukai