Anda di halaman 1dari 8

Kumpulan Makalah Seminar Semirata 2013

Fakultas MIPA Universitas Lampung

Sistem Pencarian Data Teks dengan Menggunakan Metode


Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)
Favorisen Rosyking Lumbanraja
Jurusan Ilmu Komputer, FMIPA Universitas Lampung
E-mail: favorisen@gmail.com
Abstrak.Dengan semakin banyaknya koleksi dokumen teks, pencarian merupakan
tantangan tersendiri. Banyak metode yang dikembangkan untuk proses pencarian, salah
satu metode yang umum adalah dengan metode klasifikasi. Beberapa contoh teknik yang
menggunakan metode klafisifikai antara lain, NaveBayes, K-Nearest Neighbor, Decision
Tree, dan Vector Space Model.Teknik Rocchio merupakan contoh lain yang
mengimplementasikan metode klasifikasi untuk proses pencarian teks. Teknik ini
menggunakan Vector Space Model untuk merepresentasikan setiap dokumen dalam
korpus. Tujuan utama karya ilmiah ini adalah mengembangkan sistem temu kembali
informasi dengan menggunakan metode text mining (Klasifikasi Rocchio) untuk
merekomendasikan data teks yang sesuai dengan pencarian yang dilakukan oleh
pengguna sistem. Proses pertama yang dilakukan untuk mengembangan sistem dengan
metode klasifikasi ini, yaitu tahap pra-proses.Pra-proses terdiri dari beberapa tahap, yaitu:
parsering, pembersihan data, pemotongan kata berimbuhan, dan pembuatan inverted
index dengan pembobot nilai itf.idf. Korpus dokumen pada karya ilmiah adalah data
skripsi S1 Ilmu Komputer yang terdiri dari 150 dokumen abstrak skripsi. Korpus
dokumen dibagi menjadi 12 bidang keilmuwan di dalam Ilmu Komputer. Untuk menguji
akurasi hasil pencarian, maka 30 dokumen tersebut dijadikan data uji. Hasil dari
pengujian adalah 76,67% dokumen terkelompokan secara benar sesusai dengan bidang
keilmuwan. Dalam karya tulis ini, juga dilakukan proses evaluasi dari hasil pencarian dari
sistem temu kembali sesuai dengan kueri pencarian pengguna sistem. Hasil pencarian
yang akan relevan, jika kueri dari pengguna sesuai dengan bidang keilmuwan.
Sebaliknya, jika pengguna menggunakan kueri dengan kata-kata umum, maka hasil
pencarian akan memiliki tingkat relevansi yang rendah. Nilai precision dan recall juga
dicatat berdasarkan panjang kueri pencarian. Hasil dari nilai-nilai tersebut cenderung
konstan.
Kata Kunci.Data Mining, Text Mining, Text Classification, Rocchio Classification.

PENDAHULUAN
Perkembangan teknologi internet yang
ditandai dengan munculnya teknologi web
2.0 dan semakin pesat kapasitas
penyimpanan digital serta semakin murah,
membuat semakin banyak dan beragam
konten (khususnya konten yang berupa
data teks) yang ada di dalam situs web.
Salah satu permasalahan yang muncul
dengan semakin banyaknya informasi
yang
ada
di dalam situs adalah
bagaimana mengorganisasi dan mengolah
data dan konten yang ada menjadi
informasi yang dapatdigunakan oleh
pengguna.

Terdapat beberapa teknik untuk


pengklasifikasian teks, antara lain:
NaveBayes,
K-Nearest
Neighbor,
Decision Tree,dan vector space model[5].
Setiap teknik memiliki karaktersik
masing-masing yang unik. Salah satu
teknik yang ada adalah teknik Rocchio
yang merupakan teknik klasifikasi yang
menggunakan vektor space model.
Dengan
menggunakan
Text
Classification and Mining dan teknik
temu kembali informasi diharapkan dapat
membantupengguna
mendapatkan
informasi implisit yang ada pada data
konten teks.
Hal 217

Favorisen Rosyking Lumbanraja: Sistem Pencarian Data Teks dengan Menggunakan


Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)

Oleh karena itu, diperlukan aplikasi


yang dapat membantu pengunjung sebuah
situs web untuk mencari konten yang
sesuai dengan keinginan pengguna.
Ruang lingkup penelitian adalah
pengembangan
sistem
rekomendasi
pencarian berbasis web pada dokumen
abstrak skripsi S1 Jurusan Ilmu Komputer
yang disimpan dalam database.
Sedangkan tujuan penelitian ini adalah
mengembangkan
dan
mengimplementasikan
sistem
rekomendasi pencarian yang dapat
membantu pengguna mencari isi konten
informasi suatu situs web berberbahasa
Indonesia menggunakan Teknik Rocchio.
Text Mining Dan Klasifikasi Teks
Text Mining merupakan salah satu
aplikasi dari bidang data mining, yang
khusus mengolah data dalam bentuk teks
[6]. Tujuan text mining adalah mencari
informasi implisit dari data teks sehingga
bisa digunakan oleh pengguna untuk
mengambil keputusan.
Klasifikasi Teks merupakan teknik
dalam teks mining yang bertujuan
mengelompokkan dokumen-dokumen ke
dalam kelompok kategori tertentu. Setiap
dokumen yang ada di dalam korpus diberi
kategori yang spesifik. Kemudian sistem
akan
menemu-kembalikan
(retrieve)
dokumen yang dianggap sesuai dengan
kueri yang diberikan oleh pengguna.
Secara umum, teknik ini merupakan
supervised clustering, karena data
dokumen
perlu
diklasifikasi
oleh
seseorang yang dianggap pakar terlebih
dahulu. Tujuan utama klasifikasi adalah
mengelompokkan
dokumen-dokumen
yang memiliki karakteristik yang mirip.
Parsering
Parsing merupakan proses memilah isi
dokumen menjadi unit-unit kecil yang
akan menjadi penciri misalnya berupa
kata, frase atau kalimat. Unit terkecil ini
yang disebut sebagai token. Proses parsing
merujuk pada proses pengidentifikasian
token dalam rangkaian teks [1]. Sehingga
Hal 218

bagian dasar dalam parsing dari dokumen


teks disebut tokenizer. Proses ini
memerlukan pengetahuan tentang bahasa
untukmenangani karakter-karakter khusus
dan menentukan batasan satuan unit
dalam dokumen.Proses Parsing akan
menghasilkan daftar isitilah beserta
informasi tambahan seperti frekuensi dan
posisi yang akan digunakan untuk proses
selanjutnya.
Stemming
Stemming
merupakan
proses
penghilangan/
pemotongan
prefiks
(awalan) dan sufiks (akhiran) dari kata
dan istilah-istilah dokumen [1]. Stemming
diakukan atas dasar asusmi bahwa katakata yang memilik stem yang sama
memiliki makna dasar yang sama.
Teknik stemming dapat dikategorikan
menjadi 3, yaitu:
berdasarkan aturan dalam bahasa
tertentu
berdasarkan kamus
berdasarkan kemunculan bersama
Salah satu tujuan utama dilakukan
proses stemming adalah meningkatkan
efesiensi. Stemming mengurangi jumlah
kata-kata unik dalam indeks sehingga
menghemat sumber daya komputasi dan
sumber daya penyimpanan.
Inverted Index
Inverted Index adalah struktur yang
dioptimasi
untuk
proses
penemukembalian (retrieve) dokumen
sedangkan proses update hanya menjadi
pertimbangan sekunder. Struktur tersebut
membalik
teks
sehingga
indeks
memetakan kata ke posisi didalam
dokumen (seperti bagian index dalam
buku memetakan kata atau isitilah tertentu
ke halaman dalam buku) [1].
Interveted Index terdiri dari dua bagian
yaitu sebuah index kata/term yang
berisikan daftar istilah unik dalam
dokumen, dan untuk setiap kata/term
terdapat posting list, yaitu memuat posisi
kata tersebut adalah dokumen.

Kumpulan Makalah Seminar Semirata 2013

Misalkan kata/term T1terdapat di


dokumen D1 pada posisi kata 3 dan 189,
Dokumen D2 pada posisi kata 56, 11, 389
dan Dokumen D3 pada posisi kata 10.
Sedang kata/term T2 terdapat pada
dokumen D1 pada posisi kata 29 dan
dokumenD3 pada posisi kata 1,45, dan
290, maka inverted index yang dihasilkan
adalah:
T1D1:[3;189];D2:[56; 11; 389];D3:[10]
T2D1:[29];D3:[1;45;290]
Vector Space Model
Dalam Pemodelan pada Temu Kembali
Informasi setiap dokumen dideskripsikan
sebagai sekumpulan kata-kata keyword
yang disebut sebagai kata index. Kata
index merupakan kata yang yang secara
semantik membantu mendeskripsikan isi
dari dokumen. Sehingga kata index
digunakan dalam proses pencarian
searching dan summarization pada
dokumen teks.
Vector space model adalah salah satu
teknik
yang
digunakan
dalam
merepresentasikan
dokumen
dalam
korpus. Representasi vektor dapat
menggunakan boolean (teknik Naive
Bayes) atau angka numerik untuk
merepresentasikan isi dokumen teks.
Setiap dokumen dipandang sebagai vektor
berdimensi n, dimana n adalah jumlah
term yang ada pada himpunan dokumen.
Representasi seperti ini sering kali disebut
seb g i b g-of-words [4] karena
susunankata dan struktur kalimat tidak
diperhatikan (seperti terlihat pada Gambar
1).
Berbeda dengan teknik Naive Bayes
dalam
merepresentasikan
dokumen
sebagai sekuens dari term atau sebagai
vektor binari. Vector space model
memiliki beberapa metode lain dalam
menentukan bobot dari vektor dokumen.
Pada umumnya teknik bobot yang
digunakan adalah tf-idf untuk setiap term.
Namun untuk paper ni, digunakan itfidfuntuk setiap term [2].
{

Fakultas MIPA Universitas Lampung

dan
(

(2)

Dimana, tf adalah jumlah kemunculan


term pada korpus dan df merupakan
jumlah dokumen yang berisi term
tersebut.Dan bobot sebuah term dalam
koleksi korpus dokumen teks adalah
perkalian antara itf dan idf.
(3)

Gambar 7 Ilustrasi Representasi Dokumen


Menggun k n B g Of Words Deng n
Pembobotan Menggunakan Frekuensi
Kata Yang Muncul
Teknik Rocchio
Dalam menggunakan vector space
model diperlukan batas-batas antar kelas
untuk mengetahui klasifikasi yang
sesuai.Teknik Rocchio menerapkan batasbatas tersebut dalam bentuk centroid
untuk memberi batasan tersebut. Centroid
sebuah kelas c adalah rata-rata semua
vektor yang berada pada kelas c.

(4)

Dimana Dc adalah himpunan dokumen


di dalam korpus pada kelas c. sedangkan

merupakan vektor dokumen yang


telah dinormalisasi.Untuk menentukan
kemiripan dua vektor space model ada dua
cara yaitu dengan mengukur jarak atau
dengan
mengukur
kemiripan.Dalam
menentukan jarak (distance) antara dua
vektor space model digunakan jarak
euclidean.

(5)

Dan dengan menghitung kemiripan


(similarity) antara dua vektor dokumen
adalah sebagai berikut:

||

(6)

(1)

Hal 219

Favorisen Rosyking Lumbanraja: Sistem Pencarian Data Teks dengan Menggunakan


Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)

Jika terdapat suatu kueri diproses


menjadi sebuah vektor space, maka dapat
dibandingkan dengan masing-masing
centroid kelas yang ada pada korpus.
Dengan
dua
pendekatan
mencari
kemiripan dua vektor space., vektor kueri
dianggap mirip dengan sebuah centorid
kelas
dapaat
dilakukan
dengan
menggunakan jarak (distance) atau
menggunakan kemiripan (similarity). Jika
menggunakan jarak, yang dicari adalah
kelas yang memiliki jarak yang terkecil
dengan kueri.
Dan jika menggunakan kemiripan yang
dicari adalah kelas yang memiliki
kemiripan yang paling besar dengan kueri,
seperti yang ada di bawah:
menggunakan jarak
|

(7)

menggunakan kemiripan
(

(8)

Precision Dan Recall


Untuk menggukur kualitas hasil
dokumen yang ditemukembalikan perlu
ada suatu tolak ukur. Dua parameter yang
umum digunakan untuk mengukur kinerja
sebuah sistem temu kembali informasi
adalah precision dan recall[2].
Precision adalah nilai perbandingan
antara jumlah dokumen relevan yang
ditemukembalikan terhadap jumlah semua
dokumen yang ditemukembalikan. Sedang
Recall adalah nilai perbandingan jumlah
dokumen relevan yang ditemukembalikan
terhadap jumlah semua dokumen yang
dianggap relevan.
Tabel 5 Hubungan Precision Dan Recall
(Manning, 2008)
retrieved
not
retrieved

Relevant
true positives
(tp)
false negative
(fn)

non relevant
false positives
(fp)
true negative
(tn)

Berdasarkan
Tabel
1,
dapat
merumuskan Precision (P) dan Recall (R)
menjadi sebagai berikut:
P = tp/(tp + f p)
R = tp/(tp + f n)

Hal 220

(9)
(10)

METODE PENELITIAN
Tujuan penelitian ini adalah membuat suatu
sistem
temu
kembali
informasi
dengan
menggunakan vector space model dengan teknik
rocchio. Dalam mengembangkan sistem ini,
sistematika tahap yang dilakukan adalah sebagai
berikut:

Penentuan Data Korpus


Dokumen-dokumen yang digunakan
dalam sistem ini adalah dokumen abstrak
skripsi S1 Jurusan Ilmu Komputer pada
perpustakaan.
Dokumen-dokumen
tersebut diklasifikasikan menjadi 12 kelas
keilmuan yaitu, Data Mining,Temu
Kembali Informasi, Sistem Informasi,
Sistem Informasi Geografi, Rekayasa
Perangkat Lunak, Kripografi, Jaringan
Komputer, Pemrograman Paralel, Sistem
Pakar,
Pengolahan
Citra
Digital,
Pengenalan Pola dan Komputasi Lunak.
Tokenisasi
Tokenizer menerima input string dan
memilahnya menjadi token (unit terkecil)
sebagai penciri dokumen dengan aturan
sebagai berikut:
- Token dipisahkan oleh karakter
whitespace (spasi)
- T nd b c (seperti !, ?, ., ,)
dihilangkan
- Suatu token dimulai dengan huruf atau
angka
Output dari tokenisasi adalah token
serta informasi tambahan informasi lain
seperti frekuensi kata, posisi kata dalam
dokumen.
Stemming
Stemming merupakan tahapan yang
memerlukan pengetahuan terhadap strukur
dan grammer suatu bahasa karena
penentuan aturan stem suatu kata berbedabeda bergantung terhadap tata bahasa

bahasa yang digunakan dalamsystem


kembali informasi. Pada paper ini
digunakan algoritme stemming untuk
Bahasa Indonesia.

Kumpulan Makalah Seminar Semirata 2013

Ridha (2002) telah mengembangkan


sistem stemming prefiks dan sufiks untuk
kata-kata dalam bahasa Indonesia yang
mengimplementasikan algoritma Porter.
Sebagaimana algoritma Proter, digunakan
fungsi untuk mengukur ukuran kata untuk
mencegah stemming menghasil stem yang
terlalu pendek.
Aturan pemotongan kata dinyatakan
sebagai berikut:P1(kondisi)S1 P2S2
yang berarti jika sebuah kata yang
memiliki prefiks P1 dan prefiks S1dan
bagian kata antara P1dan S1 memenuhi
syarat kondisi maka P1 dan S1diganti
menjadi P2 dan S2.
Beberapa notasi yang digunakan dalam
proses ini adalah:
- W, seluruh kata termasuk prefiks dan
sufiks
- M, ukuran kata
- L, seluruh kata termasuk prefiks dan
sufiks
- V , huruf vokal
- C, huruf konsonan
- V *, diawali huruf vokal
- C*, diawali huruf konsonan
- *CC, diakhiri dua huruf kononan
- V (x), huruf ke-x adalah vokal
- C(x), huruf ke-x adalah Konsonan
Sebagai contoh, dalam aturan:
(M > 1) nya
S1 d l h n d n S2 d l h null
(tidak ada), sehingga kata seperti
komputern
dipotong
menj di
komputer, k ren
k t
komputer
berukuran 3 (M>1).
Stemming dilakukan pada bagian katakata sebagai berikut:
- prefiks: mem-, meny-, meng-, me-, di-,
per-, ber-ter-,
- peng, -per, se- sufiks:-an, -kan, -i, -nya
- konfiks:ke-an, ke-i
- partikel:-kah, -lah
- kata ganti: -ku, -mu, -nya
Indexing
Pengindeksan
dilakukan
dengan
menggunakan inverted index. Dilanjutkan

Fakultas MIPA Universitas Lampung

dengan pembobotan index dilakukan


dengan nilai itf.idf.
Pembuatan Centroid
Setelah mendapatkan masing-masing
vektor untuk setiap dokumen, dilakukan
penentuan pusat kluster (centroid) pada
setiap kelas. Centroid setiap kelas
merupakan rata-rata masing vektor
dokumen pada setiap kelas/kategori.
Centroid dari kelas ini yang akan menjadi
vektor penciri dari kelas yang akan
dibandingkan dengan vektor kueri
pencarian dari pengguna.
Pencarian Berdasarkan Kueri
Setelah dimasukan kueri, maka kueri
akan diubah menjadi vector space. Lalu
vektor kueri dibandingkan dengan
masing-masing centroid kelas yang ada.
Vektor kueri juga dilakukan proses
normalisasi, kemudian yang dipilih adalah
centroid kelas yang paling memiliki
kemiripan yang paling besar dengan
vektor kueri.
Lalu vektor kueri dibandingkan dengan
masing-masing vektor dokumen pada
kelas yang memiliki kemiripian yang
paling besar. Proses perbandingan antara
vektor kueri dan vektor dokumen juga
dilakukan dengan mencari kemiripan.
Lalu ditampilkan semua dokumen dari
kelas tersebut, dengan urutan kemiripan
terbesar hingga kemiripan yang terkecil.
HASIL DAN PEMBAHASAN
Rancangan Arsitektur Sistem
Sebelum sistem ini dijalankan untuk
melakukan proses pencarian, dokumendokumen abstrak S1 dikumpulkan ke
dalam database untuk membentuk index
database. Kemudian setiap dokumen
dikelompokan berdasarkan kelas keilmuan
yang ada, lalu ditentukan kata-kata
stopword yang akan menjadi filter dari
term-term yang ada pada dokumen
(terdapat 3.891 term kata dan terdapat 128
kata stopword di dalam). Secara umum,
Hal 221

Favorisen Rosyking Lumbanraja: Sistem Pencarian Data Teks dengan Menggunakan


Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)

arsitektur sistem ini dapat dilihat pada


Gambar 2.

Gambar 8 Aristektur Sistem


Korpus Dokumen
Dokumen-dokumen yang diperoleh
berasal dari perpustakaan. Lalu dokumendokumen yang sudah ada diklasifikasikan
ke dalam 12 kelas keilmuan yang ada
pada Jurusan Ilmu Komputer yang
berjumlah 150 dokumen (seperti yang
terlihat pada Tabel 2) .
Dari Tabel 2 dapat dilihat bahwa
jumlah dokumen tiap kelas keilmuan tidak
s m . Dim n kel s Komput si Lun k
yang memiliki jumlah dokumen yang
p ling b n k d n kel s Pemroses n
P r lel memiliki juml h dokumen ng
paling sedikit.
Pada saat pengguna memasukan kueri
pencarian, maka sistem akan akan
membandingkannya dengan masingmasing centroid kelas. Lalu dipilih kelas
yang memiliki nilai bobot yang paling
besar.
Kemudian
ditamplikan
semua
dokumen pada kelas tersebut, cara
pengurutannya adalah dari dokumen yang
memiliki kemiripan terbesar hingga
terkecil (decending) seperti yang terlihat
pada Gambar 2.
Tabel 6 Jumlah Dokumen Yang Ada Pada
Masing-Masing Kategori Keilmuan
No
1
2
3

Hal 222

Kelaskeilmuan
Jumlahdokumen
Temu Kembali Informasi
7
DataMining
20
RekayasaPerangkatLunak
16

4
5
6
7
8
9
10
11
12

SistemInformasi
Kriptografi
JaringanKomputer
PemrosesanParalel
Sistem Pakar
PengolahanCitra
PengenalanPola
SistemInformasiGeografi
KomputasiLunak

7
13
16
1
10
10
14
14
22

Gambar 9 Halaman Hasil Pencarian


Fungsi Sistem
Dari Arstiktur Sistem seperti yang
terlihat di Gambar 2, maka dikembangkan
beberapa modul fungsi yang digunakan
dalam sistem temu kembali informasi,
meliputi:
- Tokenisasi dan indexing. Merupakan
fungsi untuk melakukan pembentukan
vektor space dokumen dari file- file
dokumen berita.
- Pembentukan Centroid. Merupakan
fungsi membentuk vektor centroid
masing-masing kelas
yang ada
dokumen korpus.
- Rekomendasi. Merupakan fungsi untuk
merekomendasi klasifikasi dokumen
berdasarkan kelas keilmuan yang ada.
- Pemeriksaan kueri. Merupakan fungsi
untuk memband- ingkan vektor kueri
dengan centroid kelas.
- Interface Pencarian. Merupakan fungsi
untuk memasukan kueri dan
menampilkan hasil kueri pencarian.
Implementasi
Sistem temu kembali informasi dengan
menggunakan
teknik
Rocchio
ini
menggunakan:

Kumpulan Makalah Seminar Semirata 2013

XAMPP yang meliputi: Web Server


Apache,
Database
MySQL,
pemrograman
web
PHP,
dan
pemrograman Perl
Smarty dan Adodb
Pengujian Dan Evaluasi
Untuk menguji akurasi dari data
dokumen
abstrak
yang
telah
diklasifikasikan sebelumnya sebagai data
trainning, maka dilakukan pengujian
terhadap 30 dokumen data uji (seperti
yang terlihat pada Gambar 4) . Hasil
pengujian menunjukkan ada 23 dokumen
yang sesuai dengan kategori yang
direkomendasi (hit) dan 7 dokumen yang
tidak sesuai dengan rekomendasi (miss),
sehingga akurasinya adalah 76,67%.

Fakultas MIPA Universitas Lampung

dilakukan pengujian terhadap 3 jenis


kueri, yaitu: kueri pendek(kueri yang
terdiri dari beberapa kata atau frase),
sedang (kueri yang terdari 1 kalimat) dan
panjang (kueri yang terdiri dari lebih dari
1 kalimat). Setiap jenis kueri dihitung
tingkat percision dan recall. Proses
diulang sebanyak 3 kali, lalu dihitung
rata-ratanya hasilnya sebagaiberikut:
Tabel 7 Perbandingan Precision Dan
Recall Berdasarkan Panjang Kueri
JenisKueri
KueriPendek
KueriSedang
KueriPanjang

Precision
0.26
0.31
0.33

Recall
0.5
0.49
0.47

Dari Tabel 3, Dapat dilihat panjang


kueri tidak terlalu mempengaruhi nilai
precision dan nilai recall. Tapi secara
umum, nilai precision berbanding terbalik
dengan nilai recall.
KESIMPULAN

Gambar 10 Halaman Hasil Rekomendasi


Kemudian
dilakukan
pengujian
terhadap hasil pencarian dari kueri yang
dimasukan oleh pengguna. Untuk kueri
yangmengandung term-term spesifik pada
keilmuan tertentu hasilnya akan baik,
sebagai contoh jika pengguna mencari
k t
OLAP
sistem
k n
merekomendasikan
dokumen-dokumen
p d
kel s D t
Mining
ng
meng ndung k t OLAP. N mun jik
kueri bersifat umum untuk terminologi di
dalam ilmu komputer, hasilnya tidak baik.
sebagai contoh jika pengguna mencari
OLAP berb sis web, hasil pencariannya
justru
merekomendasikan
dokumendokumen pada kel s Sistem Informasi
Geogr fi ng tid k relev n deng n kueri
pencarian. Lalu dilakukan pengujian
terhadap precision dan recall terhadap
hasil dokumen yang ditemukembalikan
berdasarkan kueri pencarian. Untuk itu

Sistem temu kembali informasi ini


menggunakan teknik Rocchio. Teknik ini
menggunakan vektor space model dalam
merepresentasikan dokumen, centroid dan
kueri.
Pembobotan
dokumen
menggunakan nilai idf-itf yang telah
dilakukan proses normalisasi nilai vektor.
Vektor kueri akan dibandingkan
dengan masing-masing centroid kelas
menggunakan kemiripan kueri, dan
menentukan kelas dengan mencari
kemiripan yang paling besar. Kemudian
dokumen dalam kelas itu ditampilkan
secara decending dari bobot kemiripan
dengan vektor kueri. Pengklasifikasian
data training pada kelas-kelas yang telah
ditentukan sangat mem- pengaruhi hasil
rekomendasi dan hasil pencarian.
Untuk menguji klasifikasi dokumen
dilakukan pengujan rekomendasi kelas
terhadap data trainning. Dari hasil
pengujian terhadap data trainning
menunjukkan akurasi hasil rekomendasi
sebesar 76,67%. Untuk pengujian sistem
pencar- ian, hasil dokumen yang ditemuHal 223

Favorisen Rosyking Lumbanraja: Sistem Pencarian Data Teks dengan Menggunakan


Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)

kembalikan akan baik untuk kueri


pencarian yang spesifik terhadap kelas
keilmuan, namun akan cenderung
menemu-kembalikan
dokumen
yang
kurang relevan untuk kueri yang umum.
Panjang kueri secara umum tidak
terlalu mempengaruhi tingkat precision
dan recall, namun secara umum semakin
tinggi tingkat precision semakin rendah
nilai recall.
Kelemahan utama dalam teknik
Klasifikasi Rocchio ini adalah setiap
dokumen hanya dapat diklasifikasikan ke
dalamsatu kelas kategori saja. Padahal
dalam abstrak penelitian bisa saja
melibatkan lebih dari satu kategori
keilmuan. Kelemahan yang kedua adalah
teknik ini tidak mengenal makna semantik
pada kata. sebagai contoh, jika pengguna
memasukkan
kueri
pencarian
K lim nt n m k h n
men mpilk n
dokumen ng berisi k t K lim nt n
dan tidak menampilkan doku- men yang
berisi k t Borneo. P d h l
k t
K lim nt n d n Borneo memiliki
makna semantik yang sama. Perlu ada
penelitian
lanjutan
untuk
pengklasifikasian dengan teknik Roc- chio
pada dokumen dengan multi-class dan

Hal 224

memperhatikan makna semantik pada


kata.
DAFTAR PUSTAKA
Grossman,D.2002.IR
Book.http://ir.iit.edu/~dagr/cs529/ir_bo
ok.html [29 Januari 2013]
Manning, C.D.,et-al.2008.Introduction to
Information Retrieval. Cambridge
University Press.USA.
Ridha, A.2002.Pengindeksan Otomatis
dengan
Istilah Tunggal untuk
Dokumen
Berbahasa
Indonesia.Skripsi.Departemen
Ilmu
Komputer IPB.Bogor
Uchyigit, G. dan Clark, K.2008.An
Experimental Study of
Feature
Selection Methods for Text Classification.Personalization Techniques dan
Recommendation
Systems.hal.303320.Word Scientific.USA
wikipedia.2010.Document
Classification.http://en.wikipedia.org/wiki/docu
ment_classification [30 Januari 2013]
wikipedia.2010.Text
Mining.http://en.wikipedia.org/wiki/tex
t_mining [30 Januari2010]

Anda mungkin juga menyukai