Anda di halaman 1dari 5

Article History

Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 Received 10 February 2014


ISSN: 2085-3858 (print version) Accepted 11 March 2014

Analisis dan Pengujian Kinerja Korelasi


Dokumen Pada Sistem Temu Kembali
Informasi
Ari Wibowo
Program Studi Teknik Multimedia dan Jaringan, Politeknik Negeri Batam
E-mail : wibowo@polibatam.ac.id

Abstrak - Sistem Temu Balik Informasi adalah ilmu 2 METODE PENELITIAN


mencari informasi dalam suatu dokumen. Proses
pencocokan dilakukan secara parsial dan hanya 2.1 Sistem Temu Balik Informasi
mencari hasil temu balik yang terbaik. Query
diberikan dalam bahasa alami dan dalam bentuk Sistem Temu Balik Informasi (STBI) adalah
yang tidak lengkap. Sistem Temu Balik Informasi ilmu mencari informasi dalam suatu dokumen,
terdiri dari tiga komponen utama, yaitu masukan, mencari dokumen itu sendiri dan mencari
pemroses dan keluaran. Penghitungan similaritas metadata yang menggambarkan suatu
akan menghasilkan bobot pada tiap dokumen yang dokumen. Sistem Temu Balik Informasi
menentukan seberapa relevan dokumen tersebut merupakan cabang dari ilmu komputer terapan
terhadap query. Metode pembobotan yang (applied computer science) yang
digunakan dalam implementasi dapat berupa
berkonsentrasi pada representasi,
kombinasi dari TF (Term Frequency), IDF (Inverse
Document Frequency), dan normalisasi sesuai
penyimpanan, pengorganisasian, akses dan
input dari user. Pada pengujian terdapat tiga distribusi informasi. Dalam sudut pandang
besaran performansi yang dihitung, yaitu Recall, pengguna, Sistem Temu Balik Informasi
Precision, dan NIAP. membantu pencarian informasi dengan
Kata Kunci : Sistem Temu Balik Informasi, query, memberikan koleksi informasi yang sesuai
performansi, term dengan kebutuhan pengguna.

1 PENDAHULUAN Dalam berbagai hal, Sistem Temu Balik


Segala jenis informasi terdapat di internet, di Informasi seringkali disalah artikan menjadi
samping lengkap, informasi di internet sangat Sistem Basis Data. Kenyataannya, Sistem
banyak sekali jumlahnya. Hal ini tentunya Temu Balik Informasi memiliki perbedaan
menimbulkan permasalahan baru, yaitu mendasar dengan Sistem Basis Data dalam
bagaimana menemukan informasi yang kita berbagai hal. Karakteristik Sistem Temu Balik
inginkan dari sekian banyak informasi yang Informasi antara lain:
terdapat di internet. Untuk itu, diperlukan 1. Proses pencocokan dilakukan secara
suatu mekanisme pencarian, Information parsial (Partial Match) dan hanya
Retrieval System (Sistem Temu Balik mencari hasil temu balik yang terbaik
Informasi) sebagai sebuah sistem yang mampu (Best Match).
mencari informasi yang relevan. 2. Proses inferensi dilakukan menurut
metode induksi.
Pemahaman akan suatu ilmu tentunya tidak 3. Model yang diambil adalah model yang
akan cukup jika ilmu itu tidak diterapkan bersifat probabilistik.
dalam lingkungan sebenarnya. Untuk tujuan 4. Query diberikan dalam bahasa alami
itulah, perangkat lunak untuk pengujian ini (natural language) dan dalam bentuk
dikembangkan. Selain menerapkan ilmu yang yang tidak lengkap (incomplete query)
didapat, dengan mengembangkan aplikasi ini 5. Hasil temu balik yang diinginkan adalah
juga bisa berlatih membangun aplikasi hasil yang relevan (relevant matching)
perangkat lunak dengan baik.
Sistem Temu Balik Informasi terdiri dari tiga dapat dihitung dengan
komponen utama, yaitu masukan (input), rumus:
pemroses (processor) dan keluaran (output).
Komponen-komponen ini digambarkan pada
Gambar 1.

Nilai precision tertinggi


adalah 1, yang berarti
seluruh dokumen yang
ditemukan adalah relevan
 NIAP : (Non Interpolated Average
Precision) adalah
penggabungan dari recall
dan precision, yang dapat
dihitung dengan rumus:

Gambar 1 - Skema Umum Sistem ∑

Di mana n menunjukkan jumlah dokumen


Inti dari sistem temu balik informasi adalah yang dicari hingga seluruh dokumen relevan
mencari dokumen-dokumen yang relevan ditemukan.
sesuai dengan masukan (query) dari pengguna. Nilai NIAP tertinggi adalah 1, yang berarti
Oleh karena itu, perlu dihitung similaritas dari seluruh dokumen relevan berhasil ditemukan
tiap dokumen terhadap query yang diberikan. dengan seluruh dokumen relevan tersebut
Penghitungan similaritas akan menghasilkan ditempatkan pada urutan teratas dalam hasil
bobot pada tiap dokumen yang menentukan pencarian
seberapa relevan dokumen tersebut terhadap
query, sehingga dapat ditampilkan dokumen- Nilai NIAP akan digunakan untuk mengecek
dokumen yang relevan saja, secara terurut kebenaran hasil pencarian dari perangkat lunak
mulai dari yang paling relevan (bobot yang dibangun.
tertinggi).
2.2 Metode Pembobotan
Dokumen-dokumen yang ditampilkan oleh Metode pembobotan yang digunakan dalam
sistem temu balik informasi harus memenuhi implementasi Giggle dapat berupa kombinasi
persyaratan berikut: dari TF (Term Frequency), IDF (Inverse
Document Frequency), dan Normalisasi sesuai
 Recall : menemukan seluruh
input dari user.
dokumen yang relevan
dalam koleksi. Recall dapat 2.2.1 Term Frequency
dihitung dengan rumus:
Term Frequency (TF) adalah algoritma
pembobotan heuristik yang menentukan bobot
dokumen berdasarkan kemunculan term
(istilah). Semakin sering sebuah istilah muncul,
semakin tinggi bobot dokumen untuk istilah
Nilai recall tertinggi adalah tersebut, dan sebaliknya. Hasil pembobotan ini
1, yang berarti seluruh selanjutnya akan diginakan oleh fungsi
dokumen dalam koleksi perbandingan untuk menentukan dokumen-
berhasil ditemukan dokumen yang relevan.
 Precision : menemukan hanya
dokumen yang relevan saja Terdapat empat buah algoritma TF yang
dalam koleksi. Precision digunakan:

 Raw TF
22 Jurnal Integrasi | 2014 Vol. 6(1) 21-25 | ISSN: 2085-3858
Raw TF menentukan bobot suatu
( )
dokumen terhadap istilah dengan
menghitung frekuensi kemunculan
suatu istilah tersebut pada dokumen. 2.2.3 Normalisasi
Raw TF selanjutnya akan dituliskan Pembobotan term dengan menggunakan tf dan
sebagak tf idf masih belum cukup dan memadai, ini
dikarenakan ada faktor penting yang dilupakan
 Logarithmic TF yaitu panjang suatu dokumen dalam koleksi.
Setiap dokumen yang terdapat dalam koleksi
Logarithmic TF mengurangi tingkat memiliki panjang yang berbeda-beda. Variasi
kepentingan kemunculan kata dalam panjang dokumen dalam koleksi akan
menghitung bobot dokumen terhadap menyebabkan :
suatu istilah dengan melakukan log
terhadap TF. Log TF dapat dihitung 1. Besarnya frekuensi term
dengan rumus:
Pada dokumen yang panjang, term yang sama
cendrung muncul berulang kali sehingga
menyebabkan term frequency cendrung besar.
 Binary TF Besarnya term frequency mengakibatkan rata-
Binary TF menyeragamkan bobot rata bobot term menjadi tinggi dan
dokumen terhadap istilah dengan meningkatkan nilai relevansi dokumen
memberi nilai 0 dan 1. Nilai 1 terhadap query pula.
menyatakan suatu istilah muncul
minimal satu kali dalam suatu 2. Banyaknya term
dokumen, sementara 0 menyatakan
sebaliknya. Dalam dokumen yang panjang, sering
ditemukan sejumlah term yang berbeda. Hal
ini mengakibatkan meningkatnya sejumlah
relevansi antara dokumen dan query.
{
Normalisasi panjang dokumen dimaksudkan
 Augmented TF untuk mengurangi hal tersebut diatas. Dengan
adanya normalisasi panjang dokumen
Augmented TF menyeragamkan bobot memungkinkan dokumen yang pendek ikut
dokumen terhadap istilah dengan diperhitungkan dalam pencocokan dokumen
memberikan range antara 0.5 hingga 1 (document similarity).
sebagai bobot dokumen. Augmented
TF dapat dihitung dengan rumus: Korelasi Cosine antara vektor query dan
vektor dokumen adalah :

(⃗ ⃗ )

( )
√ √
2.2.2 Inverted Term Frequency
Inverse Term Frequency (IDF) meningkatkan dimana :
nilai bobot dokumen terhadap suatu istiilah
dengan rumus heuristik : “semakin banyak  wq = bobot tf x idf dari term i dalam
dokumen yang mengandung sebuah istilah, query
maka semakin kecil bobot istilah tersebut  wd = bobot tf x idf dalam dokumen
(karena tidak dapat digunakan untuk
membedakan relevansi dokumen satu dengan Korelasi dibatasi antara 0 dan 1 dengan
yang lain)” menggunakan panjang euclidean dari vektor
individu dalam suatu persamaan. Korelasi
IDF menentukan bobot suatu dokumen
terhadap istilah dengan rumus:
23 Jurnal Integrasi | 2014 Vol. 6(1) 21-25 | ISSN: 2085-3858
cosine dapat juga ditulis dalam bentuk menjadi masukan yang dapat diterima
persamaan : oleh aplikasi.

(⃗ ⃗ )  Melakukan indexing atau


pembentukan inverted table dengan
∑ berbagai kombinasi mode
√ √ pemobobotan. Untuk setiap
( )
percobaan terhadap mode pembototan
tertentu, proses indexing disertai
dengan proses penghilangan stop
2.3 Metode Perbandingan words berbahasa Inggris, namun tidak
Metode perbandingan yang digunakan untuk melakukan proses stemming. Adapun
membandingkan tingkat relevansi sebuah kombinasi mode pembobotan yang
dokumen terhadap dokumen yang lain untuk digunakan dalam pengujian ini
query tertentu adalah metode ruang vektor. meliputi :

Metode ruang vektor secara sederhana o Raw Term Frequency


melakukan penghitungan similaritas dari o Binary Term Frequency
dokumen terhadap query, dengan cara o Logarithmic Term Frequency
mengalikan semua istilah yang muncul pada o Augmented Term Frequency
query dan istilah pada dokumen dengan o Inverted Term Frequency
menggunakan fungsi similaritas. o Normalisasi

Fungsi similaritas berfungsi untuk menghitung  Menghitung nilai Recall, Precision,


similaritas dari dokumen dan query. Fungsi ini dan NIAP untuk setiap percobaan
memanfaatkan hasil dari fungsi pembobotan retrieval terhadap tiap query. Dalam
untuk menentukan similaritas antara dokumen pengujian dengan dataset ADI dan
dan query. Perhitungan dilakukan dengan CISI, terdapat sebuah file yang terdiri
rumus: dari query-query dan juga file yang
mengambarkan keterhubungan antara
query dengan dokumen yang relevan
∑ dengannya.

3.2 Hasil Pengujian


Dimana T mewakili jumlah kata dalam suatu
Berikut ini didapatkan hasil pengujian yang
bahasa, Wqi mewakili bobot istilah-i dalam
dilakukan dengan menggunakan data ADI dan
query dan Wdi mewakili bobot istilah-i dalam
CISI.
dokumen.
Tabel 1 – Hasil Pengujian Dataset ADI

Precisi
3 HASIL DAN PEMBAHASAN Metode on Recall NIAP
Raw Term
3.1 Langkah Pengujian
Frequency 0,053 0,800 0,035
Pada pengujian kali ini, skenario pengujian Binary Term
yang dilakukan terhadap sistem temu-balik Frequency 0,048 0,750 0,130
informasinadalah sebagai berikut. Logarithmic
Term Frequency 0,023 0,670 0,270
 Melakukan parsing terhadap dataset
Augmented Term
ADI dan CISI serta memilah-milah
Frequency 0,038 0,810 0,320
dataset tersebut menjadi beberapa
dokumen yang terkompresi ke dalam Inverted Term
format zip. Tujuan mekanisme ini Frequency 0,075 0,761 0,361
adalah agar dataset ADI dan CISI Normalisasi 0,089 0,846 0,382

24 Jurnal Integrasi | 2014 Vol. 6(1) 21-25 | ISSN: 2085-3858


4 KESIMPULAN
a. Sistem temu balik informasi
melakukan penentuan kerelevanan
Tabel 2 – Hasil Pengujian Dataset CISI dokumen berdasarkan term yang
terdapat di dalam query dan
Metode Precision Recall NIAP dokumen.
Raw Term b. Untuk koleksi dokumen yang besar
Frequency 0,137 0,930 0,479 mode yang memiliki performansi
Binary Term paling tinggi adalah Raw Term
Frequency 0,031 0,930 0,064 Frequency.
Logarithmic Term
Frequency 0,002 0,330 0,033 c. Untuk koleksi dokumen yang kecil,
Augmented Term metode Normalisasi menghasilkan
Frequency 0,075 0,800 0,140 nilai performansi paling tinggi
Inverted Term
Frequency 0,065 0,831 0,282 5 SARAN
Normalisasi 0,081 0,867 0,411 a. Testing dapat dilakukan pada
koleksi dokumen yang lebih banyak.

3.3 Analisis Hasil b. Koleksi dokumen tidak hanya


dokumen teks.
Pada pengujian kali ini, terdapat 3 besaran
performansi yang dihitung, yaitu Recall,
6 DAFTAR PUSTAKA
Precision, dan NIAP. Mekanisme perhitungan
NIAP secara semantik sudah mencakup Recall 1. Kaniawati, Nia, 2005. Phrase Indexing
dan Precision serta mempertimbangkan Dalam Sistem Temu Balik Informasi.
peringkat / ranking dari kumpulan dokumen Program Studi Informatika, Fakultas
yang terambil oleh sistem, maka baik atau Teknologi Industri, Institut Teknologi
tidaknya sistem temu-balik informasi ini Bandung
cukup hanya melihat nilai rata-rata NIAP.
2. Lavrenko, Victor., and Bruce Croft, W.,
Dari data pengujian yang ada di atas dapat 2001. Relevance-Based Language Models.
dilihat bahwa untuk koleksi dokumen ADI Center for Intelligent Information
opsi indexing dengan menggunakan Retrieval, Department of Computer
Normalisasi memiliki nilai performansi NIAP Science, University of Massachusetts,
yang paling tinggi. Hal ini disebabkan karena United States
pada koleksi dokumen ADI yang jumlah
3. Robertson, S.E., van Rijsbergen, C.J., and
dokumennya sedikit, akan didapat jumlah
Porter, M.F., 1981. Probabilistic Model of
dokumen relevan dan total keseluruhan
Indexing And Searching. Oddy Etal(eds),
dokumen yang berbanding lurus. Dengan
Information Retrieval Research,
begitu performansi yang diciptakakn oleh
Butterworths
mode ini menjadi paling tinggi.
4. Singhal, Amit., 2000. Modern
Sedangkan untuk koleksi dokumen CISI, nilai
Information Retrieval: A Brief Overview.
performansi NIAP tertinggi ditunjukan oleh
Google, Inc., Sillicon Valley, California
metode indexing dengan menggunakan Raw
Term Frequency. Hasil tersebut muncul karena
pada mode Raw Term Frequency pembobotan
dihitung hanya berdasar pada jumlah
kemunculan term pada dokumen. Dengan
begitu dataset dengan jumlah koleksi dokumen
yang banyak seperti pada CISI akan memiliki
performansi yang lebih besar.

25 Jurnal Integrasi | 2014 Vol. 6(1) 21-25 | ISSN: 2085-3858

Anda mungkin juga menyukai