Anda di halaman 1dari 5

Text Categorization Based on Topic

(Trastoto P., Dyan K., Ariefan DW)


Computer Science Universitas Gadjah Mada

AbstractBanyak klasifikasi teks yang ditemui


masih manual sehingga sistem hanya dapat
menentukan kategori teks berdasarkan yang telah
pengguna tetapkan sebelumya. Perlu adanya suatu
teknik khusus yang mengolah teks-teks tersebut
agar dapat dimanfaatkan. Klasifikasi teks
berdasarkan topik merupakan salah satu metode
untuk dapat mengetahui kategori berdasarkan
pada suatu topik dari teks yang ada. Klasifikasi
yang dilakukan terhadap teks-teks tersebut
menggunakan metode Naive Bayes Classifier.
Kata Kunci: Naive Bayes Classifier, Teks, Klasifikasi
I. PENDAHULUAN

emakin
berkembangnya
teknologi
menuntut
agar
pekerjaan
dapat
diselesaikan
dengan
cepat
dan
meminimalkan
campur
tangan
dari
manusia. Semakin banyak pekerjaan yang
dikerjakan oleh suatu teknologi maka
semakin mempermudah manusia dalam
menyelesaikan pekerjaannya. Kategorisasi
teks yang sering dijumpai masih banyak
yang manual sehingga sistem hanya
dapat menentukan kategori teks tersebut
berdasarkan
yang
telah
pengguna
tetapkan sebelumya. Kategorisasi teks
berdasarkan topik merupakan salah satu
metode untuk dapat mengetahui kategori
berdasarkan pada suatu topik dari teks
yang ada.
Pencarian
informasi
(Information
Retrieval) berbasis query sebenarnya bisa
melakukan hal ini. Namun, cara ini
tidaklah
efisien
karena
pencarian
informasi berbasis query berguna untuk
mengetahui secara pasti kejadian yang
terjadi, bukan untuk pencarian informasi
yang sifatnya pendekatan. Oleh karena
itu, dibutuhkanlah teknik khusus untuk
membantu
mencari
informasi
yang
relevan. Salah satu metode klasifikasi
yang terkenal adalah
Naive Bayes
Classifier (yang kemudian akan ditulis
NBC). Kelebihan dari metode ini adalah

tingkat akurasi yang tinggi, juga waktu


komputasi yang lebih cepat.
NBC adalah klasifikasi statistik yang bisa
memprediksi probabilitas sebuah kelas.
NBC dapat dihitung berdasarkan Teorema
Bayes berikut ini:

P ( BA)=

P ( AB) P ( B)
P( A)

Berdasarkan
teorema
di
atas,
B
merepresentasikan sebuah kelas dan A
merepresentasikan sebuah atribut. P(B)
disebut
prior
probability
B.
P(A)
merupakan prior probability X. P(B|A)
merupakan probabilitas B benar jika A dan
P(A|B) adalah probabilitas A jika B benar.
II.DASAR TEORI
2.1 Data Mining
Kemajuan dalam pengumpulan data dan
teknologi
penyimpanan
yang
cepat
memungkinkan organisasi menghimpun
jumlah data yang sangat luas. Alat dan
teknik analisis data yang tradisional tidak
dapat digunakan untuk mengekstrak
informasi dari data yang sangat besar.
Untuk itu diperlukan suatu metode baru
yang
dapat
menjawab
kebutuhan
tersebut.
Data
mining
merupakan
teknologi yang menggabungkan metode
analisis tradisional dengan algortima yang
canggih untuk memproses data dengan
volume besar.
Data mining atau Knowledge Discovery
in Databases (KDD) adalah pengambilan
informasi yang tersembunyi, dimana
informasi tersebut sebelumnya tidak
dikenal dan berpotensi bermanfaat. Proses
ini meliputi sejumlah pendekatan teknis
yang berbeda, seperti clustering, data
summarization,
learning
classification
rules.
2.2 Classification
Suatu

teknik

dengan

melihat

pada

kelakuan dan atribut dari kelompok yang


telah didefinisikan. Teknik ini dapat
memberikan klasifikasi pada data baru
dengan memanipulasi data yang ada yang
telah
diklasifikasi
dan
dengan
menggunakan hasilnya untuk memberikan
sejumlah aturan. Aturan-aturan tersebut
digunakan pada data-data baru untuk
diklasifikasi. Teknik ini menggunakan
supervised induction, yang memanfaatkan
kumpulan pengujian dari record yang
terklasifikasi untuk menentukan kelaskelas. Salah satu algoritma yang terkenal
untuk teknik ini adalah Naive Bayes
Classifier.
2.3 Membangun

sebuah

classifier

dari

model

probabilitas.
NBC mengkombinasikan
model
ini
dengan aturan keputusan. Sebuah aturan
yang umum adalah untuk memilih
hipotesis yang paling mungkin, ini dikenal
sebagai posteriori maksimum atau aturan
keputusan MAP.
2.4 Nave Bayes Classifier untuk klasifikasi dokumen
Berikut ini adalah sebuah contoh dari
NBC
untuk
permasalahan
klasifikasi
dokumen.
Masalah
mengklasifikasikan
dokumen adalah
berdasarkan konten,
misalnya spam dan non-spam e-mail.
Bayangkan bahwa dokumen yang diambil
dari beberapa kelas dokumen yang dapat
dimodelkan sebagai set kata-kata dimana
probabilitas (independen) bahwa kata ke-i
dari suatu dokumen tertentu terjadi dalam
dokumen dari kelas C dapat ditulis sebagai
p(wi |C)
(2.31)
Untuk
perlakuan
ini,
kita
menyederhanakan hal-hal lebih lanjut
dengan mengasumsikan bahwa kata-kata
secara acak terdistribusi dalam dokumen yaitu, kata-kata tidak tergantung pada
panjang
dokumen,
posisi
dalam
dokumen ,dengan hubungannya dengan
kata lain, atau dokumen-konteks yang
lain.
2.5 Evaluasi Hasil Teks Kategorisasi
Teks
yang
telah
berhasil
dikategorisasikan akan dievaluasi nilai
keakurasian dari hasil tersebut. Dalam
mengevaluasi hasil tersebut terdapat 3
bagian, yaitu akurasi, presisi dan recall.
Akurasi =

TP +TN
TP+ FP+FN +TN

Precision =

Recall =

TP
TP + FP

TP
TP+ FN

III. METODE
Koleksi data training dimasukkan ke
dalam database beserta kategori yang
telah menyertai data training, dalam hal
ini adalah kalimat pada paragraf atau teks
tersebut.
Sebelum
dilakukan
tahap
klasifikasi dengan nave bayes, ada
beberapa hal yang perlu dikerjakan
terlebih dahulu yaitu pada langkah
preprocessing.
Tahap
preprocessing
meliputi
penghilangan kata kata yang tidak
diperlukan seperti tanda baca, tanda
penghubung sampai dengan angka juga
ikut
dihalangkan.
Kemudian
kalimat
dipecah per kata untuk distemming dan
penghilangan stopword.
Ekstraksi fitur dari nave bayes yang
digunakan pada paper ini adalah term
frekuensi - laplace smoothing. Dengan
menghitung
probabilitas
kemunculan
suatu kata pada kumpulan kalimat yang
telah dimasukkan, akan didapatkan suatu
nilai yang nantinya dibandingkan dengan
probabilitas pada kategori lain. Sehingga
nilai terbesarlah yang akan dijadikan
sebagai
hasil
bahwa teks tersebut
merupakan kategori dari nilai terbesar
yang telah didapatkan.
IV. IMPLEMENTASI SISTEM DAN PEMBAHASAN
Setelah
melakukan
analisis
dan
membuat rancangan atau desain sistem
sesuai dengan kebutuhan yang telah
ditentukan, maka tahap selanjutnya yaitu
implementasi sistem.
Pada tahap awal di gambar 1, user akan
diberikan sebuah textarea dan beberapa
tombol untuk memasukkan teks yang akan
dicari kategori dari teks tersebut kemudian
tekan tombol proses sebagai input
perintah. Sistem akan menjalankan proses
perhitungan sesuai dengan yang telah
dibuat dan memberikan hasil berupa
nama kategori dan proses perhitungan
yang
dilakukan
saat
melakukan
perhitungan naive bayes.

Gambar 1. UI System Categorization


Pada saat memproses teks yang
diinputkan oleh pengguna, sistem juga
menyimpan teks tersebut sebagai data
training yang telah di filter terlebih dahulu
dengan metode metode sebelumya dan
tersimpan sebagai kategori hasil yang
telah diberikan oleh sistem. Pengguna
selain dapat menggunakan sistem ini
untuk
megkategorikan
teks
yang
dimasukkan, sistem ini juga menyediakan
fasilitas untuk menambah data training
berdasar pada topik atau kategori pada
teks yang dimasukkan.
Setelah hasil sudah keluar maka
pengguna
dapat
melihat
proses
perhitungan dari sistem dengan menekan
tombol Lihat Proses Hitung.
Gambar 2 memperlihatkan pengguna
dapat
menambahkan
data
training
berdasarkan kategori yang ditetapkan
untuk dimasukkan ke dalam database
pada sistem.

Gambar 2. Input teks - data training


V.

PENGUJIAN

Pengujian sistem dari kategori teks pada


paper
ini
dapat
dilakukan
dengan
menghitung akurasi, presisi dan recallnya. Sedangkan data training yang
disediakan berjumlah 180 dengan tiap
kategori sebanyak 30 data training.

Kategori olahraga
D1= Isa raja sedang bermain badminton
di universitas gadjah mada - Y
D2 = Sunarto pun memberikan selamat
kepada para wisudawan beserta keluarga
atas keberhasilannya menyelesaikan di
perguruan tinggi - N
D3= Sebastian Vettel secara sengaja
mengabaikan team order Red Bull untuk
meraih kemenangan - Y
D4 = Tekanan yang diberikan dari pihak
sekolah untuk mencapai target lulus 100
persen kerap kali membuat peserta didik
terbebani saat mengerjakan UN - N
D5 = Sekretaris Fraksi PDI Perjuangan
Bambang Wuryanto ini menjelaskan saat
ini defisit neraca perdagangan akibat
sumbangan impor BBM yang sangat besar
-N
Tabel kategori olahraga
doc

Sistem
prediction

Correct
answer

TP FP FN TN

d1

d2

d3

d4

d5

1
1
1

Akurasi : 4/5
Precision : 1/1 = 1
Recall : 1/2 = 0.5
Kategori inernasional
D1= Neraca perdagangan internasional
adalah gambaran perbandingan antara
besarnya nilai ekspor dan nilai impor - Y
D2 = Icona dirancang oleh mantan
direktur teknik Ferrari Claudio Lombardi N
D3= Obama memiliki hubungan erat
dengan negara lain sehingga memiliki
kekuatan militer yang sangat kuat - Y
D4 = Perdagangan internasional itu lebih

dikenal dengan kegiatan ekspor-impor,


pelakunya adalah eksportir dan importir - Y
D5 = Sirkuit Nurburgring sebagai sirkuit
balap dan trek pengujian mobil paling
terkenal di seluruh dunia telah mengalami
masalah keuangan selama bertahun-tahun
-N

doc

Tabel kategori internasional


Sistem
Correct
TP FP FN TN
prediction
answer

d1

d2

d3

d4

d5

1
1
1
1
1

Akurasi : 3/5
Precision : 1/1 = 1
Recall : 1/3
Kategori pendidikan
D1= Berkapsitas sepuluh penumpang,
kaca anti peluru berdimensi besar di
semua sisi kabin dapat memberi sensasi
pandangan panorama bagi semua awak N
D2 = Seorang siswa yang tidak lulus
dan mengikuti kejar paket c sedang
belajar serius di dekat lapangan sepak
bola - Y
D3= Jumlah pserta Ujian Akhir Sekolah
dan Ujian Akhir Nasional (UAS/UAN) tahun
2013 tingkat SMA/sederajat di Kabupaten
Gayo - Y
D4 = ToPu sedang makan makanan
paket C yang ada di warung sambil
bermain game di java - N
D5 = Secara
konvensional
terdapat
kecenderungan bahwa upaya peningkatan
mutu pendidikan selalu dikaitkan dengan
ketersediaan
sarana
dan
prasana
pendidikan
yang
memadai,
serta
kompetensi guru - Y
Tabel kategori pendidikan
doc

Sistem
prediction

Correct
answer

TP FP FN TN

d1

d2

d3

d4

d5

1
1

Akurasi : 4/5
Precision : 3/4
Recall : 3/3 = 1
Kategori ekonomi
D1= Mantan Wakil Presiden RI Jusuf
Kalla mengatakan ada atau tidaknya
kebijakan
redenominasi
rupiah
oleh
pemerintah
Indonesia
tidak
akan
mengganggu perekonomian - Y

D2 = Perekonomian
global
tengah
menghadapi berbagai rintangan yang
mengancam pemulihan krisis - Y
D3= Sunarto berharap, dalam era
globalisasi dan abad ke-21 yang penuh
dengan tantangan dan gejolak dalam
berbagai
bidang,
termasuk
bidang
pendidikan tinggi menuntut kesiapsiagaan
yang
makin
baik
dan
tuntutan
profesionalisme yang makin tinggi - N
D4 = Negara telah menunjuk likuidator,
Jens Lieser, yang menjelaskan bahwa
seluruh bisnis Nurburgring berstatus dijual
-N
D5 = Jusuf kalla mengundang ToPu
untuk bermain sepak bola bersama - N
Tabel kategori ekonomi
doc

Sistem
prediction

Correct
answer

TP FP FN TN

d1

d2

d3

d4

d5

Akurasi : 3/5
Precision : 1/2 = 0.5
Recall : 1/2 = 0.5
Kategori lain - lain
D1= Cinta antara arifan dan seorang
mahasiswi sungguh sangat memilukan - Y
D2 = Penghargaan "Hot Thread of The
Month" ini diadain supaya Agan-Agan
makin terpacu untuk membuat thread
berkualitas - Y
D3= Tugas 2 adalah Pengantar Ekonomi
(topik supply and demand) - Y
D4 = UI
mengirimkan
tim
Sadewa
dengan rancangan mobil bernama Kalabia
Evo_3 yang merupakan kendaraan ultraefisien dan ramah lingkungan berbasiskan
teknologi
muktahir
hasil
pemikiran
mahasiswa - Y
D5 = Krisis ekonomi yang melanda
Siprus membuat gaji presiden negara
tersebut, Nicos Anastasiades, dipotong
25% - N
Tabel kategori lain - lain
doc

Sistem
prediction

Correct
answer

d1

TP FP FN TN
1

d2

d3

d4

d5

Recall :

1
1

(0.5+1/3+1+1/2+1/ 4+1)
=0.59723
6
VI. PENUTUP

Akurasi : 2/5
Precision : 1/1 = 1
Recall : 1/4
Kategori teknologi
D1= Sebuah gambar yang bocor di
internet mengungkap kemungkinan HTC
One versi dual SIM card - Y
D2 = Menko
Perekonomian
Hatta
Radjasa
meminta
PT
KAI
mempertimbangkan kemampuan ekonomi
masyarakat terkait rencana penghapusan
KRL ekonomi - N
D3= Orang yang membawa htc itu
merupakan pelatih sepak bola professional
-N
D4 = Akses
informasi
yang
cepat
mendukung kemajuan suatu negara - N
D5 = Kategorisasi
teks
berdasarkan
topik merupakan salah satu tugas artificial
intelligence - N
Tabel kategori teknologi
doc

Sistem
prediction

Correct
answer

TP FP FN TN

d1

d2

d3

d4

d5

Akurasi : 3/5
Precision : 1/3
Recall : 1/1 = 1
Rata rata precision dan recall dari ke-6
kategori di atas adalah
Akurasi :

( 4/5+3/5+4/5+3 /5+2 /5+3/5)


=0.634
6
Precision :

(1+1+3/ 4+1 /2+1+1/3)


=0.76389
6

1. Kesimpulan
Dari semua uraian sebelumnya, maka
dapat ditarik kesimpulan sebagai berikut :
1. Naive Bayes Classifier merupakan
metode klasifikasi yang mudah
diimplementasikan
karena
sederhana, juga waktu komputasi
yang cepat. NBC merupakan salah
satu metode yang populer digunakan
untuk
menyelesaikan
masalah
klasifikasi
2. Proses perhitungan untuk semua
teks berhasil diperoleh dengan
perhitungan Laplace Smoothing
3. Akurasi dari proses kategorisasi teks
sangat bergantung dengan kualitas
dan kuantitas dari data training yang
disediakan
2. Saran
Beberapa saran untuk kelanjutan sistem
teks kategorisasi berdasarkan topik ini
antara lain:
1. Algoritma
stemming
perlu
disempurnakan
2. Data training dan pengklasifikasian
teks perlu diperbanyak
DAFTAR PUSTAKA
[1] Rendy, Klasifikasi Tweet berdasarkan
Berita dengan Metode Nave Bayes
Classifier .
[2] Saraswati, 2011, Text Mining Classifier
untuk Text Mining dengan metode
Naive Bayes Classifier dan Support
Vector Machines untuk Sentiment
Analysis
[3] Wibisono,
Y.
Klasifikasi
Berita
Berbahasa
Indones
menggunakan
Naive Bayes Classifier. Universitas
Pendidikan Indonesia

Anda mungkin juga menyukai