Anda di halaman 1dari 21

TF-IDF dan Cosinus

Similarity
Tahapan Proses
1. Preproses Dokumen
a. Token Dokumen
b. Menghapus Stopword
c. Menentukan Term
2. Hitung TF-IDF
a. Membuat Mapping dokumen
b. Menghitung Frequensi Dokumen
c. Menghitung IDF
d. Menghitung TF-IDF
3. Hitung Cosinus Similarity
Dokumen dan Kata Kunci
D1: Manajemen Transaksi Logistik
D2: Pengetahuan Antar individu
D3: Dalam Manajemen Pengetahuan
terdapat transfer pengetahuan logistik
Kata Kunci (KK): Pengethun Logistik
1.Preproses Dokumen
1.a. Token Dokumen
D1: Manajemen // Transaksi // Logistik
D2: Pengetahuan // Antar // individu
D3: Dalam // Manajemen // Pengetahuan
terdapat // transfer // pengetahuan // logistik
Kata Kunci (KK): Pengethun // Logistik

1.b. Menghapus Stopword
D1: Manajemen // Transaksi // Logistik
D2: Pengetahuan // Antar // individu
D3: Dalam // Manajemen // Pengetahuan //
terdapat // transfer // pengetahuan // logistik
Kata Kunci (KK): Pengetahun // Logistik

1.c. Menentukan Term
D1: Manajemen // Transaksi // Logistik
D2: Pengetahuan // individu
D3: Manajemen // Pengetahuan // transfer //
pengetahuan // logistik
Kata Kunci (KK): Pengetahun // Logistik

Hitung TF-IDF
Mapping Term dan
Frequensinya

Menghitung Dokumen
Frekuensi (df)

Menghitung tf*idf (Wdt)







D = 3 (jumlah Dokumen)
Bobot Masing2 Dokumen

Analisa Bobot
Bobot D1 dan D2 = sama
Kondisi ini menyulitkan untuk mengurutkan
mana diantara 2 dokumen ini yang lebih dari
yang lain
Untuk mengatasi hal ini digunakan
perhitungan Vector Space Model
Vector Space Model
Menghitung nilai cosinus sudut dari 2 vector
yaitu W dari dokumen dengan W dari kata
kunci
Tabel Perhitungan VSM

Nilai kk, d1, d2, d3 didapat dari quadrat nilai
Wkk, Wd1, Wd2, Wd3 atau Wkk
2
, Wd1
2
,
Wd2
2
, Wd3
2


Nilai kk*d1, kk*d2, kk*d3 didapat dari hasil
kali kk*d1, kk*d2 dan kk*d3
Menghitung sqrt(kk) dan
sqrt(d)

Menghitung Sum(kk.Di)

Menghitung Cosinus Sudut
antar Vector

Analisa VSM
D3 memiliki nilai Cosinus tertinggi sehingga
D3 akan menjadi rangking 1
D2 menduduki rangking ke 2
D1 rangking 3
Rumus TF-IDF dan Cossim

Anda mungkin juga menyukai