Similarity
Tahapan Proses
1. Preproses Dokumen
a. Token Dokumen
b. Menghapus Stopword
c. Menentukan Term
2. Hitung TF-IDF
a. Membuat Mapping dokumen
b. Menghitung Frequensi Dokumen
c. Menghitung IDF
d. Menghitung TF-IDF
3. Hitung Cosinus Similarity
Dokumen dan Kata Kunci
D1: Manajemen Transaksi Logistik
D2: Pengetahuan Antar individu
D3: Dalam Manajemen Pengetahuan
terdapat transfer pengetahuan logistik
Kata Kunci (KK): Pengethun Logistik
1.Preproses Dokumen
1.a. Token Dokumen
D1: Manajemen // Transaksi // Logistik
D2: Pengetahuan // Antar // individu
D3: Dalam // Manajemen // Pengetahuan
terdapat // transfer // pengetahuan // logistik
Kata Kunci (KK): Pengethun // Logistik
1.b. Menghapus Stopword
D1: Manajemen // Transaksi // Logistik
D2: Pengetahuan // Antar // individu
D3: Dalam // Manajemen // Pengetahuan //
terdapat // transfer // pengetahuan // logistik
Kata Kunci (KK): Pengetahun // Logistik
1.c. Menentukan Term
D1: Manajemen // Transaksi // Logistik
D2: Pengetahuan // individu
D3: Manajemen // Pengetahuan // transfer //
pengetahuan // logistik
Kata Kunci (KK): Pengetahun // Logistik
Hitung TF-IDF
Mapping Term dan
Frequensinya
Menghitung Dokumen
Frekuensi (df)
Menghitung tf*idf (Wdt)
D = 3 (jumlah Dokumen)
Bobot Masing2 Dokumen
Analisa Bobot
Bobot D1 dan D2 = sama
Kondisi ini menyulitkan untuk mengurutkan
mana diantara 2 dokumen ini yang lebih dari
yang lain
Untuk mengatasi hal ini digunakan
perhitungan Vector Space Model
Vector Space Model
Menghitung nilai cosinus sudut dari 2 vector
yaitu W dari dokumen dengan W dari kata
kunci
Tabel Perhitungan VSM
Nilai kk, d1, d2, d3 didapat dari quadrat nilai
Wkk, Wd1, Wd2, Wd3 atau Wkk
2
, Wd1
2
,
Wd2
2
, Wd3
2
Nilai kk*d1, kk*d2, kk*d3 didapat dari hasil
kali kk*d1, kk*d2 dan kk*d3
Menghitung sqrt(kk) dan
sqrt(d)
Menghitung Sum(kk.Di)
Menghitung Cosinus Sudut
antar Vector
Analisa VSM
D3 memiliki nilai Cosinus tertinggi sehingga
D3 akan menjadi rangking 1
D2 menduduki rangking ke 2
D1 rangking 3
Rumus TF-IDF dan Cossim