Raw TF
22 Jurnal Integrasi | 2014 Vol. 6(1) 21-25 | ISSN: 2085-3858
Raw TF menentukan bobot suatu
( )
dokumen terhadap istilah dengan
menghitung frekuensi kemunculan
suatu istilah tersebut pada dokumen. 2.2.3 Normalisasi
Raw TF selanjutnya akan dituliskan Pembobotan term dengan menggunakan tf dan
sebagak tf idf masih belum cukup dan memadai, ini
dikarenakan ada faktor penting yang dilupakan
Logarithmic TF yaitu panjang suatu dokumen dalam koleksi.
Setiap dokumen yang terdapat dalam koleksi
Logarithmic TF mengurangi tingkat memiliki panjang yang berbeda-beda. Variasi
kepentingan kemunculan kata dalam panjang dokumen dalam koleksi akan
menghitung bobot dokumen terhadap menyebabkan :
suatu istilah dengan melakukan log
terhadap TF. Log TF dapat dihitung 1. Besarnya frekuensi term
dengan rumus:
Pada dokumen yang panjang, term yang sama
cendrung muncul berulang kali sehingga
menyebabkan term frequency cendrung besar.
Binary TF Besarnya term frequency mengakibatkan rata-
Binary TF menyeragamkan bobot rata bobot term menjadi tinggi dan
dokumen terhadap istilah dengan meningkatkan nilai relevansi dokumen
memberi nilai 0 dan 1. Nilai 1 terhadap query pula.
menyatakan suatu istilah muncul
minimal satu kali dalam suatu 2. Banyaknya term
dokumen, sementara 0 menyatakan
sebaliknya. Dalam dokumen yang panjang, sering
ditemukan sejumlah term yang berbeda. Hal
ini mengakibatkan meningkatnya sejumlah
relevansi antara dokumen dan query.
{
Normalisasi panjang dokumen dimaksudkan
Augmented TF untuk mengurangi hal tersebut diatas. Dengan
adanya normalisasi panjang dokumen
Augmented TF menyeragamkan bobot memungkinkan dokumen yang pendek ikut
dokumen terhadap istilah dengan diperhitungkan dalam pencocokan dokumen
memberikan range antara 0.5 hingga 1 (document similarity).
sebagai bobot dokumen. Augmented
TF dapat dihitung dengan rumus: Korelasi Cosine antara vektor query dan
vektor dokumen adalah :
(⃗ ⃗ )
∑
( )
√ √
2.2.2 Inverted Term Frequency
Inverse Term Frequency (IDF) meningkatkan dimana :
nilai bobot dokumen terhadap suatu istiilah
dengan rumus heuristik : “semakin banyak wq = bobot tf x idf dari term i dalam
dokumen yang mengandung sebuah istilah, query
maka semakin kecil bobot istilah tersebut wd = bobot tf x idf dalam dokumen
(karena tidak dapat digunakan untuk
membedakan relevansi dokumen satu dengan Korelasi dibatasi antara 0 dan 1 dengan
yang lain)” menggunakan panjang euclidean dari vektor
individu dalam suatu persamaan. Korelasi
IDF menentukan bobot suatu dokumen
terhadap istilah dengan rumus:
23 Jurnal Integrasi | 2014 Vol. 6(1) 21-25 | ISSN: 2085-3858
cosine dapat juga ditulis dalam bentuk menjadi masukan yang dapat diterima
persamaan : oleh aplikasi.
Precisi
3 HASIL DAN PEMBAHASAN Metode on Recall NIAP
Raw Term
3.1 Langkah Pengujian
Frequency 0,053 0,800 0,035
Pada pengujian kali ini, skenario pengujian Binary Term
yang dilakukan terhadap sistem temu-balik Frequency 0,048 0,750 0,130
informasinadalah sebagai berikut. Logarithmic
Term Frequency 0,023 0,670 0,270
Melakukan parsing terhadap dataset
Augmented Term
ADI dan CISI serta memilah-milah
Frequency 0,038 0,810 0,320
dataset tersebut menjadi beberapa
dokumen yang terkompresi ke dalam Inverted Term
format zip. Tujuan mekanisme ini Frequency 0,075 0,761 0,361
adalah agar dataset ADI dan CISI Normalisasi 0,089 0,846 0,382