881 1901 1 SM

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/336603042
Sistem Pencarian Data Teks dengan Menggunakan Metode Klasiﬁkasi

Rocchio(Studi Kasus:Dokumen Teks Skripsi)
Conference Paper · April 2013
CITATIONS READS
4 627
1 author:
Favorisen Rosyking Lumbanraja

Lampung University
25 PUBLICATIONS 125 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
DNA Sequence Classification View project
All content following this page was uploaded by Favorisen Rosyking Lumbanraja on 17 October 2019.
The user has requested enhancement of the downloaded file.

Kumpulan Makalah Seminar Semirata 2013 Fakultas MIPA Universitas Lampung
Sistem Pencarian Data Teks dengan Menggunakan Metode

Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)
Favorisen Rosyking Lumbanraja
Jurusan Ilmu Komputer, FMIPA Universitas Lampung
E-mail: favorisen@gmail.com
Abstrak.Dengan semakin banyaknya koleksi dokumen teks, pencarian merupakan

tantangan tersendiri. Banyak metode yang dikembangkan untuk proses pencarian, salah
satu metode yang umum adalah dengan metode klasifikasi. Beberapa contoh teknik yang
menggunakan metode klafisifikai antara lain, NaïveBayes, K-Nearest Neighbor, Decision
Tree, dan Vector Space Model.Teknik Rocchio merupakan contoh lain yang
mengimplementasikan metode klasifikasi untuk proses pencarian teks. Teknik ini
menggunakan Vector Space Model untuk merepresentasikan setiap dokumen dalam
korpus. Tujuan utama karya ilmiah ini adalah mengembangkan sistem temu kembali
informasi dengan menggunakan metode text mining (Klasifikasi Rocchio) untuk
merekomendasikan data teks yang sesuai dengan pencarian yang dilakukan oleh
pengguna sistem. Proses pertama yang dilakukan untuk mengembangan sistem dengan
metode klasifikasi ini, yaitu tahap pra-proses.Pra-proses terdiri dari beberapa tahap, yaitu:
parsering, pembersihan data, pemotongan kata berimbuhan, dan pembuatan inverted
index dengan pembobot nilai itf.idf. Korpus dokumen pada karya ilmiah adalah data
skripsi S1 Ilmu Komputer yang terdiri dari 150 dokumen abstrak skripsi. Korpus
dokumen dibagi menjadi 12 bidang keilmuwan di dalam Ilmu Komputer. Untuk menguji
akurasi hasil pencarian, maka 30 dokumen tersebut dijadikan data uji. Hasil dari
pengujian adalah 76,67% dokumen terkelompokan secara benar sesusai dengan bidang
keilmuwan. Dalam karya tulis ini, juga dilakukan proses evaluasi dari hasil pencarian dari
sistem temu kembali sesuai dengan kueri pencarian pengguna sistem. Hasil pencarian
yang akan relevan, jika kueri dari pengguna sesuai dengan bidang keilmuwan.
Sebaliknya, jika pengguna menggunakan kueri dengan kata-kata umum, maka hasil
pencarian akan memiliki tingkat relevansi yang rendah. Nilai precision dan recall juga
dicatat berdasarkan panjang kueri pencarian. Hasil dari nilai-nilai tersebut cenderung
konstan.
Kata Kunci.Data Mining, Text Mining, Text Classification, Rocchio Classification.
PENDAHULUAN Terdapat beberapa teknik untuk

Perkembangan teknologi internet yang pengklasifikasian teks, antara lain:
ditandai dengan munculnya teknologi web NaïveBayes, K-Nearest Neighbor,
2.0 dan semakin pesat kapasitas Decision Tree,dan vector space model[5].
penyimpanan digital serta semakin murah, Setiap teknik memiliki karaktersik
membuat semakin banyak dan beragam masing-masing yang unik. Salah satu
konten (khususnya konten yang berupa teknik yang ada adalah teknik Rocchio
data teks) yang ada di dalam situs web. yang merupakan teknik klasifikasi yang
Salah satu permasalahan yang muncul menggunakan vektor space model.
dengan semakin banyaknya informasi Dengan menggunakan Text
yang ada di dalam situs adalah Classification and Mining dan teknik
bagaimana mengorganisasi dan mengolah temu kembali informasi diharapkan dapat
data dan konten yang ada menjadi membantupengguna mendapatkan
informasi yang dapatdigunakan oleh informasi implisit yang ada pada data
pengguna. konten teks.
Hal 217
Favorisen Rosyking Lumbanraja: Sistem Pencarian Data Teks dengan Menggunakan
Metode Klasifikasi Rocchio(Studi Kasus:Dokumen Teks Skripsi)
Oleh karena itu, diperlukan aplikasi bagian dasar dalam parsing dari dokumen
yang dapat membantu pengunjung sebuah teks disebut tokenizer. Proses ini
situs web untuk mencari konten yang memerlukan pengetahuan tentang bahasa
sesuai dengan keinginan pengguna. untukmenangani karakter-karakter khusus
Ruang lingkup penelitian adalah dan menentukan batasan satuan unit
pengembangan sistem rekomendasi dalam dokumen.Proses Parsing akan
pencarian berbasis web pada dokumen menghasilkan daftar isitilah beserta
abstrak skripsi S1 Jurusan Ilmu Komputer informasi tambahan seperti frekuensi dan
yang disimpan dalam database. posisi yang akan digunakan untuk proses
Sedangkan tujuan penelitian ini adalah selanjutnya.
mengembangkan dan Stemming
mengimplementasikan sistem Stemming merupakan proses
rekomendasi pencarian yang dapat penghilangan/ pemotongan prefiks
membantu pengguna mencari isi konten (awalan) dan sufiks (akhiran) dari kata
informasi suatu situs web berberbahasa dan istilah-istilah dokumen [1]. Stemming
Indonesia menggunakan Teknik Rocchio. diakukan atas dasar asusmi bahwa kata-
Text Mining Dan Klasifikasi Teks kata yang memilik stem yang sama
Text Mining merupakan salah satu memiliki makna dasar yang sama.
aplikasi dari bidang data mining, yang Teknik stemming dapat dikategorikan
khusus mengolah data dalam bentuk teks menjadi 3, yaitu:
[6]. Tujuan text mining adalah mencari • berdasarkan aturan dalam bahasa
informasi implisit dari data teks sehingga tertentu
bisa digunakan oleh pengguna untuk • berdasarkan kamus
mengambil keputusan. • berdasarkan kemunculan bersama
Klasifikasi Teks merupakan teknik Salah satu tujuan utama dilakukan
dalam teks mining yang bertujuan proses stemming adalah meningkatkan
mengelompokkan dokumen-dokumen ke efesiensi. Stemming mengurangi jumlah
dalam kelompok kategori tertentu. Setiap kata-kata unik dalam indeks sehingga
dokumen yang ada di dalam korpus diberi menghemat sumber daya komputasi dan
kategori yang spesifik. Kemudian sistem sumber daya penyimpanan.
akan menemu-kembalikan (retrieve) Inverted Index
dokumen yang dianggap sesuai dengan Inverted Index adalah struktur yang
kueri yang diberikan oleh pengguna. dioptimasi untuk proses
Secara umum, teknik ini merupakan penemukembalian (retrieve) dokumen
supervised clustering, karena data sedangkan proses update hanya menjadi
dokumen perlu diklasifikasi oleh pertimbangan sekunder. Struktur tersebut
seseorang yang dianggap pakar terlebih membalik teks sehingga indeks
dahulu. Tujuan utama klasifikasi adalah memetakan kata ke posisi didalam
mengelompokkan dokumen-dokumen dokumen (seperti bagian index dalam
yang memiliki karakteristik yang mirip. buku memetakan kata atau isitilah tertentu
Parsering ke halaman dalam buku) [1].
Parsing merupakan proses memilah isi Interveted Index terdiri dari dua bagian
dokumen menjadi unit-unit kecil yang yaitu sebuah index kata/term yang
akan menjadi penciri misalnya berupa berisikan daftar istilah unik dalam
kata, frase atau kalimat. Unit terkecil ini dokumen, dan untuk setiap kata/term
yang disebut sebagai token. Proses parsing terdapat posting list, yaitu memuat posisi
merujuk pada proses pengidentifikasian kata tersebut adalah dokumen.
token dalam rangkaian teks [1]. Sehingga
Hal 218
Misalkan kata/term T1terdapat di dan

dokumen D1 pada posisi kata 3 dan 189, ( ) (2)
Dokumen D2 pada posisi kata 56, 11, 389 Dimana, tf adalah jumlah kemunculan
dan Dokumen D3 pada posisi kata 10. term pada korpus dan df merupakan
Sedang kata/term T2 terdapat pada jumlah dokumen yang berisi term
dokumen D1 pada posisi kata 29 dan tersebut.Dan bobot sebuah term dalam
dokumenD3 pada posisi kata 1,45, dan koleksi korpus dokumen teks adalah
290, maka inverted index yang dihasilkan perkalian antara itf dan idf.
adalah: (3)
T1→D1:[3;189];D2:[56; 11; 389];D3:[10]
T2→D1:[29];D3:[1;45;290]
Vector Space Model
Dalam Pemodelan pada Temu Kembali
Informasi setiap dokumen dideskripsikan
sebagai sekumpulan kata-kata keyword
yang disebut sebagai kata index. Kata
index merupakan kata yang yang secara Gambar 7 Ilustrasi Representasi Dokumen
semantik membantu mendeskripsikan isi Menggun k n ‟B g Of Words‟ Deng n
dari dokumen. Sehingga kata index Pembobotan Menggunakan Frekuensi
digunakan dalam proses pencarian Kata Yang Muncul
searching dan summarization pada Teknik Rocchio
dokumen teks. Dalam menggunakan vector space
Vector space model adalah salah satu model diperlukan batas-batas antar kelas
teknik yang digunakan dalam untuk mengetahui klasifikasi yang
merepresentasikan dokumen dalam sesuai.Teknik Rocchio menerapkan batas-
korpus. Representasi vektor dapat batas tersebut dalam bentuk centroid
menggunakan boolean (teknik Naive untuk memberi batasan tersebut. Centroid
Bayes) atau angka numerik untuk sebuah kelas c adalah rata-rata semua
merepresentasikan isi dokumen teks. vektor yang berada pada kelas c.
Setiap dokumen dipandang sebagai vektor ⃗ ∑ ⃗ (4)
| |
berdimensi n, dimana n adalah jumlah Dimana Dc adalah himpunan dokumen
term yang ada pada himpunan dokumen. di dalam korpus pada kelas c. sedangkan
Representasi seperti ini sering kali disebut ⃗ merupakan vektor dokumen yang
seb g i ‟b g-of-words‟ [4] karena telah dinormalisasi.Untuk menentukan
susunankata dan struktur kalimat tidak kemiripan dua vektor space model ada dua
diperhatikan (seperti terlihat pada Gambar cara yaitu dengan mengukur jarak atau
1). dengan mengukur kemiripan.Dalam
Berbeda dengan teknik Naive Bayes menentukan jarak (distance) antara dua
dalam merepresentasikan dokumen vektor space model digunakan jarak
sebagai sekuens dari term atau sebagai euclidean.
vektor binari. Vector space model
memiliki beberapa metode lain dalam √∑ ( ) (5)
menentukan bobot dari vektor dokumen.
Pada umumnya teknik bobot yang Dan dengan menghitung kemiripan
digunakan adalah tf-idf untuk setiap term. (similarity) antara dua vektor dokumen
Namun untuk paper ni, digunakan itf- adalah sebagai berikut:
⃗⃗ ⃗⃗
idfuntuk setiap term [2]. (6)
| ⃗⃗ || ⃗⃗ |
{ (1)
Hal 219
Jika terdapat suatu kueri diproses METODE PENELITIAN

menjadi sebuah vektor space, maka dapat
dibandingkan dengan masing-masing Tujuan penelitian ini adalah membuat suatu
sistem temu kembali informasi dengan
centroid kelas yang ada pada korpus. menggunakan vector space model dengan teknik
Dengan dua pendekatan mencari rocchio. Dalam mengembangkan sistem ini,
kemiripan dua vektor space., vektor kueri sistematika tahap yang dilakukan adalah sebagai
dianggap mirip dengan sebuah centorid berikut:
kelas dapaat dilakukan dengan Penentuan Data Korpus
menggunakan jarak (distance) atau Dokumen-dokumen yang digunakan
menggunakan kemiripan (similarity). Jika dalam sistem ini adalah dokumen abstrak
menggunakan jarak, yang dicari adalah skripsi S1 Jurusan Ilmu Komputer pada
kelas yang memiliki jarak yang terkecil perpustakaan. Dokumen-dokumen
dengan kueri. tersebut diklasifikasikan menjadi 12 kelas
Dan jika menggunakan kemiripan yang keilmuan yaitu, Data Mining,Temu
dicari adalah kelas yang memiliki Kembali Informasi, Sistem Informasi,
kemiripan yang paling besar dengan kueri, Sistem Informasi Geografi, Rekayasa
seperti yang ada di bawah: Perangkat Lunak, Kripografi, Jaringan
• menggunakan jarak Komputer, Pemrograman Paralel, Sistem
|⃗ ⃗ | (7) Pakar, Pengolahan Citra Digital,
• menggunakan kemiripan Pengenalan Pola dan Komputasi Lunak.
(⃗ ⃗ ) (8) Tokenisasi
Precision Dan Recall Tokenizer menerima input string dan
Untuk menggukur kualitas hasil memilahnya menjadi token (unit terkecil)
dokumen yang ditemukembalikan perlu sebagai penciri dokumen dengan aturan
ada suatu tolak ukur. Dua parameter yang sebagai berikut:
umum digunakan untuk mengukur kinerja - Token dipisahkan oleh karakter
sebuah sistem temu kembali informasi whitespace (spasi)
adalah precision dan recall[2]. - T nd b c (seperti ‟!‟, ‟?‟, ‟.‟, ‟,‟)
Precision adalah nilai perbandingan dihilangkan
antara jumlah dokumen relevan yang - Suatu token dimulai dengan huruf atau
ditemukembalikan terhadap jumlah semua angka
dokumen yang ditemukembalikan. Sedang Output dari tokenisasi adalah token
Recall adalah nilai perbandingan jumlah serta informasi tambahan informasi lain
dokumen relevan yang ditemukembalikan seperti frekuensi kata, posisi kata dalam
terhadap jumlah semua dokumen yang dokumen.
dianggap relevan. Stemming
Tabel 5 Hubungan Precision Dan Recall Stemming merupakan tahapan yang
(Manning, 2008) memerlukan pengetahuan terhadap strukur
Relevant non relevant dan grammer suatu bahasa karena
retrieved true positives false positives penentuan aturan stem suatu kata berbeda-
(tp) (fp)
not false negative true negative
beda bergantung terhadap tata bahasa
retrieved (fn) (tn)
Berdasarkan Tabel 1, dapat bahasa yang digunakan dalamsystem

merumuskan Precision (P) dan Recall (R) kembali informasi. Pada paper ini
menjadi sebagai berikut: digunakan algoritme stemming untuk
P = tp/(tp + f p) (9) Bahasa Indonesia.
R = tp/(tp + f n) (10)
Hal 220
Ridha (2002) telah mengembangkan dengan pembobotan index dilakukan

sistem stemming prefiks dan sufiks untuk dengan nilai itf.idf.
kata-kata dalam bahasa Indonesia yang Pembuatan Centroid
mengimplementasikan algoritma Porter. Setelah mendapatkan masing-masing
Sebagaimana algoritma Proter, digunakan vektor untuk setiap dokumen, dilakukan
fungsi untuk mengukur ukuran kata untuk penentuan pusat kluster (centroid) pada
mencegah stemming menghasil stem yang setiap kelas. Centroid setiap kelas
terlalu pendek. merupakan rata-rata masing vektor
Aturan pemotongan kata dinyatakan dokumen pada setiap kelas/kategori.
sebagai berikut:P1(kondisi)S1 → P2S2 Centroid dari kelas ini yang akan menjadi
yang berarti jika sebuah kata yang vektor penciri dari kelas yang akan
memiliki prefiks P1 dan prefiks S1dan dibandingkan dengan vektor kueri
bagian kata antara P1dan S1 memenuhi pencarian dari pengguna.
syarat kondisi maka P1 dan S1diganti Pencarian Berdasarkan Kueri
menjadi P2 dan S2. Setelah dimasukan kueri, maka kueri
Beberapa notasi yang digunakan dalam akan diubah menjadi vector space. Lalu
proses ini adalah: vektor kueri dibandingkan dengan
- W, seluruh kata termasuk prefiks dan masing-masing centroid kelas yang ada.
sufiks Vektor kueri juga dilakukan proses
- M, ukuran kata normalisasi, kemudian yang dipilih adalah
- L, seluruh kata termasuk prefiks dan centroid kelas yang paling memiliki
sufiks kemiripan yang paling besar dengan
- V , huruf vokal vektor kueri.
- C, huruf konsonan Lalu vektor kueri dibandingkan dengan
- V *, diawali huruf vokal masing-masing vektor dokumen pada
- C*, diawali huruf konsonan kelas yang memiliki kemiripian yang
- *CC, diakhiri dua huruf kononan paling besar. Proses perbandingan antara
- V (x), huruf ke-x adalah vokal vektor kueri dan vektor dokumen juga
- C(x), huruf ke-x adalah Konsonan dilakukan dengan mencari kemiripan.
Sebagai contoh, dalam aturan: Lalu ditampilkan semua dokumen dari
(M > 1) nya → kelas tersebut, dengan urutan kemiripan
S1 d l h ‟n ‟ d n S2 d l h null terbesar hingga kemiripan yang terkecil.
(tidak ada), sehingga kata seperti
‟komputern ‟ dipotong menj di HASIL DAN PEMBAHASAN
‟komputer‟, k ren k t ‟komputer‟
berukuran 3 (M>1). Rancangan Arsitektur Sistem
Stemming dilakukan pada bagian kata- Sebelum sistem ini dijalankan untuk
kata sebagai berikut: melakukan proses pencarian, dokumen-
- prefiks: mem-, meny-, meng-, me-, di-, dokumen abstrak S1 dikumpulkan ke
per-, ber-ter-, dalam database untuk membentuk index
- peng, -per, se- database. Kemudian setiap dokumen
- sufiks:-an, -kan, -i, -nya dikelompokan berdasarkan kelas keilmuan
- konfiks:ke-an, ke-i
- partikel:-kah, -lah yang ada, lalu ditentukan kata-kata
- kata ganti: -ku, -mu, -nya stopword yang akan menjadi filter dari
Indexing term-term yang ada pada dokumen
Pengindeksan dilakukan dengan (terdapat 3.891 term kata dan terdapat 128
menggunakan inverted index. Dilanjutkan kata stopword di dalam). Secara umum,
Hal 221
arsitektur sistem ini dapat dilihat pada 4 SistemInformasi 7

5 Kriptografi 13
Gambar 2. 6 JaringanKomputer 16
7 PemrosesanParalel 1
8 Sistem Pakar 10
9 PengolahanCitra 10
10 PengenalanPola 14
11 SistemInformasiGeografi 14
12 KomputasiLunak 22
Gambar 8 Aristektur Sistem

Korpus Dokumen
Dokumen-dokumen yang diperoleh
berasal dari perpustakaan. Lalu dokumen-
dokumen yang sudah ada diklasifikasikan
ke dalam 12 kelas keilmuan yang ada Gambar 9 Halaman Hasil Pencarian
pada Jurusan Ilmu Komputer yang Fungsi Sistem
berjumlah 150 dokumen (seperti yang Dari Arstiktur Sistem seperti yang
terlihat pada Tabel 2) . terlihat di Gambar 2, maka dikembangkan
Dari Tabel 2 dapat dilihat bahwa beberapa modul fungsi yang digunakan
jumlah dokumen tiap kelas keilmuan tidak dalam sistem temu kembali informasi,
s m . Dim n kel s ‟Komput si Lun k‟ meliputi:
yang memiliki jumlah dokumen yang - Tokenisasi dan indexing. Merupakan
p ling b n k d n kel s ‟Pemroses n fungsi untuk melakukan pembentukan
P r lel‟ memiliki juml h dokumen ng vektor space dokumen dari file- file
paling sedikit. dokumen berita.
Pada saat pengguna memasukan kueri - Pembentukan Centroid. Merupakan
pencarian, maka sistem akan akan fungsi membentuk vektor centroid
membandingkannya dengan masing- masing-masing kelas yang ada
masing centroid kelas. Lalu dipilih kelas dokumen korpus.
yang memiliki nilai bobot yang paling - Rekomendasi. Merupakan fungsi untuk
besar. merekomendasi klasifikasi dokumen
Kemudian ditamplikan semua berdasarkan kelas keilmuan yang ada.
dokumen pada kelas tersebut, cara - Pemeriksaan kueri. Merupakan fungsi
pengurutannya adalah dari dokumen yang untuk memband- ingkan vektor kueri
memiliki kemiripan terbesar hingga dengan centroid kelas.
terkecil (decending) seperti yang terlihat - Interface Pencarian. Merupakan fungsi
pada Gambar 2. untuk memasukan kueri dan
Tabel 6 Jumlah Dokumen Yang Ada Pada menampilkan hasil kueri pencarian.
Masing-Masing Kategori Keilmuan Implementasi
No Kelaskeilmuan Jumlahdokumen Sistem temu kembali informasi dengan
1 Temu Kembali Informasi 7 menggunakan teknik Rocchio ini
2 DataMining 20
3 RekayasaPerangkatLunak 16 menggunakan:
Hal 222
• XAMPP yang meliputi: Web Server dilakukan pengujian terhadap 3 jenis

Apache, Database MySQL, kueri, yaitu: kueri pendek(kueri yang
pemrograman web PHP, dan terdiri dari beberapa kata atau frase),
pemrograman Perl sedang (kueri yang terdari 1 kalimat) dan
• Smarty dan Adodb panjang (kueri yang terdiri dari lebih dari
Pengujian Dan Evaluasi 1 kalimat). Setiap jenis kueri dihitung
Untuk menguji akurasi dari data tingkat percision dan recall. Proses
dokumen abstrak yang telah diulang sebanyak 3 kali, lalu dihitung
diklasifikasikan sebelumnya sebagai data rata-ratanya hasilnya sebagaiberikut:
trainning, maka dilakukan pengujian Tabel 7 Perbandingan Precision Dan
terhadap 30 dokumen data uji (seperti Recall Berdasarkan Panjang Kueri
yang terlihat pada Gambar 4) . Hasil
JenisKueri Precision Recall
pengujian menunjukkan ada 23 dokumen
yang sesuai dengan kategori yang KueriPendek 0.26 0.5
KueriSedang 0.31 0.49
direkomendasi (hit) dan 7 dokumen yang KueriPanjang 0.33 0.47
tidak sesuai dengan rekomendasi (miss),
sehingga akurasinya adalah 76,67%. Dari Tabel 3, Dapat dilihat panjang
kueri tidak terlalu mempengaruhi nilai
precision dan nilai recall. Tapi secara
umum, nilai precision berbanding terbalik
dengan nilai recall.
KESIMPULAN
Sistem temu kembali informasi ini

menggunakan teknik Rocchio. Teknik ini
menggunakan vektor space model dalam
Gambar 10 Halaman Hasil Rekomendasi merepresentasikan dokumen, centroid dan
Kemudian dilakukan pengujian kueri. Pembobotan dokumen
terhadap hasil pencarian dari kueri yang menggunakan nilai idf-itf yang telah
dimasukan oleh pengguna. Untuk kueri dilakukan proses normalisasi nilai vektor.
yangmengandung term-term spesifik pada Vektor kueri akan dibandingkan
keilmuan tertentu hasilnya akan baik, dengan masing-masing centroid kelas
sebagai contoh jika pengguna mencari menggunakan kemiripan kueri, dan
k t ‟OLAP‟ sistem k n menentukan kelas dengan mencari
merekomendasikan dokumen-dokumen kemiripan yang paling besar. Kemudian
p d kel s ‟D t Mining‟ ng dokumen dalam kelas itu ditampilkan
meng ndung k t ‟OLAP‟. N mun jik secara decending dari bobot kemiripan
kueri bersifat umum untuk terminologi di dengan vektor kueri. Pengklasifikasian
dalam ilmu komputer, hasilnya tidak baik. data training pada kelas-kelas yang telah
sebagai contoh jika pengguna mencari ditentukan sangat mempengaruhi hasil
‟OLAP berb sis web‟, hasil pencariannya rekomendasi dan hasil pencarian.
justru merekomendasikan dokumen- Untuk menguji klasifikasi dokumen
dokumen pada kel s ‟Sistem Informasi dilakukan pengujan rekomendasi kelas
Geogr fi‟ ng tid k relev n deng n kueri terhadap data trainning. Dari hasil
pencarian. Lalu dilakukan pengujian pengujian terhadap data trainning
terhadap precision dan recall terhadap menunjukkan akurasi hasil rekomendasi
hasil dokumen yang ditemukembalikan sebesar 76,67%. Untuk pengujian sistem
berdasarkan kueri pencarian. Untuk itu pencarian, hasil dokumen yang ditemu-
Hal 223
kembalikan akan baik untuk kueri memperhatikan makna semantik pada

pencarian yang spesifik terhadap kelas kata.
keilmuan, namun akan cenderung
menemu-kembalikan dokumen yang DAFTAR PUSTAKA
kurang relevan untuk kueri yang umum.
Panjang kueri secara umum tidak Grossman,D.2002.IR
terlalu mempengaruhi tingkat precision Book.http://ir.iit.edu/~dagr/cs529/ir_bo
dan recall, namun secara umum semakin ok.html [29 Januari 2013]
tinggi tingkat precision semakin rendah Manning, C.D.,et-al.2008.Introduction to
nilai recall. Information Retrieval. Cambridge
Kelemahan utama dalam teknik University Press.USA.
Klasifikasi Rocchio ini adalah setiap
dokumen hanya dapat diklasifikasikan ke Ridha, A.2002.Pengindeksan Otomatis
dalamsatu kelas kategori saja. Padahal dengan Istilah Tunggal untuk
dalam abstrak penelitian bisa saja Dokumen Berbahasa
melibatkan lebih dari satu kategori Indonesia.Skripsi.Departemen Ilmu
keilmuan. Kelemahan yang kedua adalah Komputer IPB.Bogor
teknik ini tidak mengenal makna semantik Uchyigit, G. dan Clark, K.2008.An
pada kata. sebagai contoh, jika pengguna Experimental Study of Feature
memasukkan kueri pencarian Selection Methods for Text Classifica-
‟K lim nt n‟ m k h n men mpilk n tion.Personalization Techniques dan
dokumen ng berisi k t ‟K lim nt n‟ Recommendation Systems.hal.303-
dan tidak menampilkan dokumen yang 320.Word Scientific.USA
berisi k t ‟Borneo‟. P d h l k t
wikipedia.2010.Document Classifica-
‟K lim nt n‟ d n ‟Borneo‟ memiliki
tion.http://en.wikipedia.org/wiki/docu
makna semantik yang sama. Perlu ada
ment_classification [30 Januari 2013]
penelitian lanjutan untuk
pengklasifikasian dengan teknik Roc- chio wikipedia.2010.Text
pada dokumen dengan multi-class dan Mining.http://en.wikipedia.org/wiki/tex
t_mining [30 Januari2010]
Hal 224
View publication stats

881 1901 1 SM

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

881 1901 1 SM

Diunggah oleh

Hak Cipta:

Format Tersedia

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Sistem Pencarian Data Teks dengan Menggunakan Metode Klasiﬁkasi

Conference Paper · April 2013

Favorisen Rosyking Lumbanraja

DNA Sequence Classification View project

The user has requested enhancement of the downloaded file.

Sistem Pencarian Data Teks dengan Menggunakan Metode

Abstrak.Dengan semakin banyaknya koleksi dokumen teks, pencarian merupakan

Kata Kunci.Data Mining, Text Mining, Text Classification, Rocchio Classification.

PENDAHULUAN Terdapat beberapa teknik untuk

Misalkan kata/term T1terdapat di dan

Jika terdapat suatu kueri diproses METODE PENELITIAN

Berdasarkan Tabel 1, dapat bahasa yang digunakan dalamsystem

Ridha (2002) telah mengembangkan dengan pembobotan index dilakukan

arsitektur sistem ini dapat dilihat pada 4 SistemInformasi 7

Gambar 8 Aristektur Sistem

• XAMPP yang meliputi: Web Server dilakukan pengujian terhadap 3 jenis

Sistem temu kembali informasi ini

kembalikan akan baik untuk kueri memperhatikan makna semantik pada

View publication stats

Anda mungkin juga menyukai