Pemodelan IR
Pemodelan IR
• Incidence matrix adalah suatu matrix yang terdiri dari kolom (dokumen) dan baris
(token/term/kata).
• Saat suatu token(t) ada dalam dokumen(d), maka nilai dari baris dan kolom (t,d) adalah 1. Jika
tidak ditemukan, maka nilai kolom (t,d) adalah 0.
BOOLEAN INDEX
• Vector Space Model (VSM) merupakan sebuah pendekatan natural yang berbasis pada vektor
dari setiap kata dalam suatu dimensi spasial. Dokumen dipandang sebagai sebuah vektor yang
memiliki magnitude (jarak) dan direction (arah). Pada VSM, sebuah kata direpresentasikan
dengan sebuah dimensi dari ruang vektor. Relevansi sebuah dokumen ke sebuah kueri
didasarkan pada similaritas diantara vektor dokumen dan vektor Queri.
TF-IDF
Berikut ini fungsi dari TF-IDF
• TF (Term Frequency) =
merupakan jumlah atau frekuensi kemunculan suatu term pada suatu dokumen dan merupakan
jumlah keseluruhan term (kata) pada dokumen tersebut.
Berikut ini fungsi dari IDF
• IDF (Invers Document Frequency) =
merupakan jumlah keseluruhan dokumen dan merupakan jumlah dokumen yang mengandung
term (kata).
Sehingga, pembobotan TF-IDF merupakan hasil dari perkalian antara TF dan IDF yang dapat
dirumuskan sebagai berikut:
CONTOH
Cosine Similarity
A dan B merupakan vektor yang dibandingkan kemiripannya. merupakan hasil dot product
antara vektor A dan B. dan merupakan panjang vektor A dan B. Sedangkan merupakan hasil
cross product antara dan .
CONTOH
• Untuk menghitung kemiripan 2 variabel, maka perlu mengubah bentuk dokumen dan query
menjadi vektor.
|𝐷 |= √0,4771 +0,4771 +0,4771 +0,4771 +0,4771 +0,1761
1
2 2 2 2 2 2
𝑖
√
|𝐷 |= ∑ 𝑤 |𝐷 |= √ 0,1761 + 0,4771 +0,4771 +0,4771
𝑖
2
𝑖𝑗
2
2 2 2 2
|𝑄|=
√ ∑
𝑖
𝑤
2
𝑄𝑗 |𝑄|
TUGAS