Anda di halaman 1dari 7

1

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN SVM-DTA


(SUPPORT VECTOR MACHI NES WI TH DECI SSI ON TREE
ARCHI TECTURE)

Erni Dianawati
1
, Arie Ardyanti
2
, Retno Novi Dawayanti
3

1,2,3
Fakultas Teknik, Universitas Telkom
1,2,3
Jalan Telekomunikasi 1, Terusan Buah Batu, Bandung 40257
1
ernidianawati25@gmail.com,
2
rie09@yahoo.com,
3
rvi@ittelkom.ac.id

Abstrak

Banyaknya informasi yang beredar, membuat pembagian informasi ke dalam kategori yang tepat cukup penting.
Selain untuk tidak menimbulkan kerancuan pada pembaca, pengkategorian yang tepat juga dapat membuat
pembaca mendapatkan informasi yang diinginkan. Salah satu cara untuk menyelesaikan permasalahan tersebut
adalah dengan melakukan pengklasifikasian secara otomatis informasi yang ada. Klasifikasi dokumen merupakan
proses pengelompokkan dokumen yang sesuai dengan kategori yang terkandung dalam isi dokumen tersebut.
Pengklasifikasian terbaik didapat ketika sistem menggunakan kernel RBF dengan parameter C =10 dan gamma= 1
dan pada kernel polynomial dengan parameter C=10 dan degree=2,nilai error rate yang dihasilkan lebih kecil
daripada pengujian yang lain yakni 4%.

Kata kunci: classification, text, SVM-DTA, tree

Abstract

Due to amount of information in circulation, the classification of information into the right category becomes
important. In order to avoid confusion among readerss, the proper categorazation becomes useful for the reader
as he can get what he wants. One of solutions to solve this problem is to perform automatic classification of
existing information. Classification is the process of grouping documents according to the categories of documents
that are contained in the document contents.
The best classification are obtained when using RBF kernel with parameter C=10 and gamma=1 and in polynomial
kernel with parameter C=10 and degree=2, value of error rate is smaller then the other test that is 4%.

Keywords: classification, text, SVM-DTA, tree



1. Permasalahan
Kebutuhan akan informasi dari tahun ke tahun
semakin meningkat seiring dengan perkembangan
teknologi dan kebutuhan masyarakat dalam
mengetahui informasi terbaru. Informasi yang
beredar saat ini tidak hanya berasal dari media cetak
saja, bahkan media internet sudah menjadi salah satu
sumber informasi yang utama. Menurut situs
http://direktori.perusahaan.web.id/index.php?search=
berita ada sekitar 136 situs online yang terdaftar
sebagai situs berbahasa indonesia yang memuat
berbagai informasi seperti musik, teknologi, nasional
maupun internasional. Beberapa situs yang terdaftar
yakni,http://www.liputan6.com/,http://www.metrotvn
ews.com/,http://www.wartajazz.com/,http://www.mu
sikindo.com/ , dan lain-lain. Munculnya situs-situs
berita online indonesia sejalan dengan meningkatnya
pengguna internet di indonesia yang mencapai 63 juta
orang [1].
Banyaknya informasi yang beredar, membuat
pembagian informasi ke dalam kategori yang tepat
cukup penting. Selain untuk tidak menimbulkan
kerancuan pada pembaca, pengkategorian yang tepat
juga dapat membuat pembaca mendapatkan informasi
yang diinginkan.Salah satu cara untuk menyelesaikan
permasalahan tersebut adalah dengan melakukan
pengklasifikasian secara otomatis informasi yang
ada. Klasifikasi dokumen merupakan proses
pengelompokkan dokumen yang sesuai dengan
kategori yang terkandung dalam isi dokumen
tersebut.
Pada dasarnya klasifikasi adalah
mengelompokkan dokumen berdasarkan kategori-
kategori yang ada pada isi dokumen tersebut sesuai
dengan proses pembelajaran yang telah dilakukan.

2

Klasifikasi pada teks ada dua tahapan yang harus
dilakukan, yaitu pelatihan terhadap sampel data
(data training) dan kemudian proses klasifikasi
dokumen yang belum diketahui kategorinya(data
uji).

2. Landasan Teori
2.1 Text Mining
Text mining dapat didefinisikan secara
luas sebagai proses pengetahuan intensif di
mana pengguna berinteraksi dengan koleksi
dokumen dari waktu ke waktu dengan
menggunakan beberapa analisis. Pengolahan
teks berusaha untuk mengekstrak informasi
yang berguna dari sumber data melalui
identifikasi dan eksplorasi pola yang
menarik dalam kasus text mining. Namun,
sumber data adalah koleksi dokumen, dan
pola yang menarik yang ditemukan tidak di
antara catatan database formal tetapi dalam
data tekstual terstruktur dalam dokumen
dalam koleksi ini.
Proses text mining dibagi menjadi 3
tahap utama, yaitu proses awal terhadap teks
(text processing), transformasi teks (text
transformation) dan penemuan pola (pattern
discovery). Input awal dari proses text
mining adalah suatu data teks dan akan
menghasilkan keluaran berupa pola sebagai
hasil interpretasi.

2.2 Support Vector Machine with Decission Tree
Architecture (SVM-DTA)
Ada dua pilihan untuk mengimplementasikan
mulitclass SVM yaitu dengan menggabungkan
beberapa SVM biner atau menggabungkan semua
data yang terdiri dari beberapa kelas ke dalam sebuah
bentuk permasalahan optimasi. Namun, pada
pendekatan yang kedua permasalahan optimasi yang
harus diselesaikan jauh lebih rumit.
Seiring berkembangnya teknologi,muncul
beberapa metode yang bisa digunakan untuk
pengklasifikasian multiclass support vector machine,
diantaranya metode one-against-all metode ini
membangun k buah model SVM biner, metode one-
against-one metode yang membangun k(k-1) / 2 buah
model klasifikasi biner, directed acylic graph SVM
(DAGSM) metode yang membangun

model,
lalu ada support vector machine decision tree
architecture yang akan digunakan pada proses
pengklasifikasian tugas akhir ini. [7]
SVM-DTA menggunakan algoritma
pengklasifikasian hierarki untuk permasalahan multi-
class ke dalam bentuk binary tree of SVM. SVM-
DTA menggunakan jarak Euclidean dalam proses
pengklasifikasian untuk menghitung similarity antar
kelas. Metode ini mengambil keuntungan dari
komputasi yang efektif pada tree architecture dan
akurasi pengklasifikasian yang tinggi pada SVM. [7]
Dalam arsitektur ini N-1 SVM dibutuhkan untuk
melatih N class permasalahan., tapi hanya rata-rata
log
2
N SVM yang diperlukan untuk
mengklasifikasikan sampel. Hal ini menyebabkan
peningkatan dalam kecepatan pengenalan pola ketika
menangani masalah dengan jumlah kelas yang besar.
Terdapat banyak cara untuk membagi kelas
menjadi dua kelompok N, dan sangat penting untuk
memiliki pengelompokan yang tepat untuk kinerja
yang baik dari SVM-DTA. Metode SVM-DTA
didasarkan pada rekursif membagi kelas dalam dua
kelompok menguraikan dalam setiap simpul dari
decision tree dan pelatihan SVM yang akan
memutuskan di mana kelompok sampel akan
diklasifikasikan. Kelompok-kelompok ditentukan
oleh algoritma pengklasifikasian sesuai dengan
keanggotaan kelas mereka dan jarak interclass.
SVM-DTA metode dimulai dengan membagi kelas
dalam dua kelompok beririsan g1 dan g2. Hal ini
dilakukan dengan menghitung N pusat gravitasi
untuk kelas yang berbeda N dan matriks jarak
interclass. Kemudian, dua kelas yang memiliki jarak
Euclidean terbesar dari satu sama lain yang
ditugaskan untuk masing-masing dua kelompok
clustering. Setelah ini, kelas dengan jarak terkecil
dari salah satu kelompok clustering ditemukan dan
dimasukkan ke kelompok yang sesuai. Pusat gravitasi
dari kelompok ini dan matriks jarak tersebut
kemudian dihitung ulang untuk mewakili
penambahan sampel dari kelas baru ke grup. Proses
berlanjut dengan mencari kelas yang belum
dikelompokkan berikutnya yang paling dekat dengan
salah satu dari kelompok clustering, kelompok yang

3

sesuai memperbarui pusat gravitasi kelompok dan
matriks jarak, sampai semua kelas yang ditugaskan
ke salah satu dari dua kelompok yang mungkin. Ini
mendefinisikan pengelompokan dari semua kelas
dalam dua kelompok menguraikan kelas.
Pengelompokan ini kemudian digunakan untuk
melatih classifier SVM dalam simpul akar pohon
keputusan, dengan menggunakan sampel dari
kelompok pertama sebagai contoh positif dan sampel
dari kelompok kedua sebagai contoh negatif. Kelas-
kelas dari kelompok cluster pertama sedang
ditugaskan ke pohon sub-kiri, sedangkan kelas
kelompok pengelompokan kedua sedang ditugaskan
ke pohon sub-kanan.
Proses berlanjut secara rekursif (membagi
masing-masing kelompok menjadi dua subkelompok
menerapkan prosedur yang dijelaskan di atas),
sampai hanya ada satu kelas per kelompok yang
mendefinisikan daun di decision tree. Pengakuan
sampel masing-masing dimulai pada akar pohon.
Pada setiap node dari pohon biner keputusan sedang
dibuat mengenai penugasan pola masukan ke dalam
salah satu dari dua kelompok yang mungkin diwakili
oleh mentransfer pola ke kiri atau ke pohon sub-
kanan. Ini diulang secara rekursif bawah pohon
sampai sampel mencapai simpul daun yang mewakili
kelas itu telah ditugaskan.

2.3 K-Means Clustering
Algoritma K-means clustering merupakan
algoritma iterartif dengan menimilkan jumlah kuadrat
error antara vektor objek dengan pusat kluster
terdekatnya . Algoritma K-means standard dapat
dituliskan sebagai:
1. Ambil K objek sebagai seed dari K pusat
kluster
2. Untuk semua objek: cari kluster dengan
jarak terdekat, dan tetapkan objek masuk
dalam kluster tersebut
3. Hitung ulang pusat kluster dengan rata-rata
objek dalam kluster tersebut
4. Hitung fungsi kriteria dan lakukan evaluasi.
Jika fungsi kriteria berubah cukup kecil
algoritma berhenti.

2.4 Cross validation
Cross validation merupakan suatu teknik untuk
menguji performansi dari model pada sebuah data
yang independen. Mekanisme pengujian pada cross
validation ialah dengan melakukan pengecekan
terhadap data itu sendiri (independen). Pengecekan
tersebut melibatkan beberapa subset data dengan cara
membagi data tersebut ke dalam satu subset (training
set) dan memvalidasi analisis pada subset lainnya.
Cross validation dilakukan secara berulang
dengan partisi yang berbeda-beda dan hasilnya
dirata-ratakan sampai partisi habis. Fold (k) ialah
parameter dalam cross validation terhadap satu
subset yang diuji sampai k-1 subset. Cross validation
dapat mencegah terjadinya overfitting.
Dalam sistem klasifikasi teks berita ini, teknik
cross validation digunakan untuk menentukan
parameter C terbaik dalam SVM dengan melihat hasil
pengujian yang berupa akurasi yang dihasilkan.

3. Perancangan Sistem

Gambar 3-1. Gambaran Umum Sistem
Sistem yang dibangun adalah aplikasi yang dapat
mengklasifikasikan dokumen teks berita berbahasa
Indonesia ke dalam beberapa kategori berita
berbasiskan web yang didalamnya
mengimplementasikan konsep text mining untuk
menggali atau meneliti informasi berita yang ada dan
juga menggunakan SVM-DTA untuk
mengklasifikasikan dokumen. Sebelum melakukan
pengklasifikasian, dilakukan pengumpulan dokumen
teks berita dari www.kompas.com yang disimpan
dalam folder lokal dengan tipe file .txt. File file
tersebut disimpan sesuai dengan kategori berita yang
telah ditentukan dari web, ini dipakai untuk
menganalisis hasil pengklasifikasian berdasarkan
parameter uji yang dipakai. Selanjutnya untuk
tahapan text cleanup dan stopword removal hanya
tinggal memanfaatkan fungsi yang ada di

4

pemrograman PHP. Untuk tahap selanjutnya
stemming digunakan algoritma Nazief & Adriani.
Start
Kata
Cek kamus
Kamus
Kata
Dasar
Ada? End Ya
Stem : -tah,-lah,-
kah,-pun
Tidak
Kata Cek kamus
Kamus
Kata
Dasar
Ada?
Ya
Stem : -ku,-mu,
-nya
Tidak
Kata
Cek kamus
Kamus
Kata
Dasar
Ada?
Ya
Kata Berhasil?
Cek Kata
Stem : -I,-an,-kan
Tidak
Ya
Tidak
Cek kamus
Kamus
Kata
Dasar
Ada?
Penghilangan Awalan
Cek Kata
Tidak
End
Ya
Cek AWsekarang
dengan AW
sebelumnya
Cek AWapakah sudah
dihilangkan seluruhnya
Cek AWsesuai aturan
pelanggaran
Pada tabel 3.1
Sesuai? End Ya Ada? End Ya
Ada?
Tentukan Jenis Awalan
Dari Kata
Tidak
Tidak
Tidak
Hilangkan : di-,ke-,se-
Jika te-,be-,me-,pe- ikuti aturan tabel
3.2
Kata Cek kamus
Kamus
Kata
Dasar

Gambar 3-2. Bisnis Proses stemming Bahasa
Indonesia Nazief & Adriani
start
Bobot term
Tentukan N gravity Center untuk N class atau
average centroid
Hitung eucledian atau
cosine similiarity
Kedua kelas dengan jarak terbesar di letakkan di 2
kelas clustering yang berbeda
Kelas dengan jarak terdekat dari salah satu kelas
clustering, diletakkan sebagai corresponding group
Hitung Ulang nilai
gravity center
Group pertama = left (+)
Group kedua = right (-)
Model tree
Tentukan nilai C
dan degree
Mencari nilai
alpha,bias(b),fung
si kernel
Model SVM
akurasi
Dilakukan berulang kali sampai tersisa hanya
1 kelas untuk setiap node
Pembentukan model
Binary Tree
Proses SVM

Gambar 3-3 Proses Pembentukan SVM-DTA
Hasil dari proses pembentukan tree ini berupa
pelabelan pada setiap kategori di setiap node tree.
Seperti yang digambarkan pada ilustrasi di bawah.
1,2,3,4,5
1,2,3 4,5
1,2 3 4 5
1 2
+ -
+ - + -
+ -

Gambar 3-4 Ilustrasi model binary tree

Pelabelan yang telah dihasilkan diatas akan
digunakan sebagai inputan ke dalam proses SVM,
karena pada dasarnya SVM hanya bisa mengolah 2
kategori / kelompok saja dengan label positif atau
negatif. Sehingga di setiap node tree yang telah
dibentuk akan dilakukan proses SVM.

4. Implementasi dan Analisis
Pengujian system ini dilakukan dengan beberapa
percobaan. Percobaan-percobaan ini dilakukan untuk
mengetahui pengaruh tiap tiap parameter pada tiap-
tiap dataset terhadap performansi system. Percobaan
yang dilakukan :
1. Skenario 1
Skenario ini ditujukan untuk mencari kernel
SVM terbaik dan paling stabil yang akan
digunakan untuk SVM-DTA. Kernel yang
diujikan adalah kernel linear, polynomial dan
RBF.
2. Skenario 2
Skenario pertama ditujukan untuk mengetahui
pengaruh jumlah kelas/kategori berita yang
digunakan terhadap performansi akurasi
pengklasifikasian multiclass dari sistem. Pada
skenario ini digunakan data latih dan data uji
menggunakan 3 kategori, 4 kategori dan 5
kategori. Masing masing jumlah kategori
tersebut diujikan pada 3 kernel, yakni kernel
linear, polynomial dan RBF dengan nilai
parameter C antara 10 sampai 150 dengan

5

kelipatan nilai ganjil.
3. Skenario 3
Menerapakan komposisi perbandingan yang
berbeda antara data latih dan data uji, dengan
melakukan pengujian pada kernel RBF dan nilai
parameter C dengan rentang antara 10 sampai
dengan 150 dengan kelipatan nilai ganjil. Berikut
adalah perbandingannya tiap kategori yang
digunakan :
a. 75 : 25
b. 60 :40
4. Skenario 4
Menguji pengaruh proses stemming bahasa
Indonesia Nazief Andriai dalam
pengklasifikasian dengan menggunakan 3
kategori dengan komposisi 75 data latih dan 25
data uji per kategori.

4.1 Analisis skenario 1
Pengujian pada skenario ini ditujukan untuk
mengetahui kernel yang menghasilkan klasifikasi
terbaik yang dapat diterapkan dalam klasifikasi berita
menggunakan SVM-DTA.

Gambar 4-1. Grafik akurasi berdasarkan kernel


Gambar 4-2. Grafik error rate berdasarkan
kernel
Dari hasil diagram bar diatas dapat dilihat jika
dilihat dari akurasi training yang dihasilkan dari tiap
kernel antara 79.00 sampai 89.00, nilai yang
dihasilkan pada tiap kernel tidak terlihat perbedaan
yang cukup signifikan. Dari hasil diagram 2 dapat
dilihat jika nilai error rate yang rendah ditunjukkan
pada kernel polynomial dan RBF.
4.2 Analisis skenario 2

1,2,3
1,2 3
1 2
1 = kategori Olahraga
2 = Kategori Bisnis
3 = Kategori Entertainment
69.21 %
85.17 %

Gambar 4-3. Gambar Klasifikasi 3 Kelas

1,2,3,4
1,2 3,4
2 1
1 = kategori Olahraga
2 = Kategori Bisnis
3 = Kategori Entertainment
4 = Kategori Female
4 3
69.26 %
84.30 %
82.04 %

Gambar 4-4. Gambar klasifikasi 4 kelas

1,2,3,4,5
1,2,5 3,4
2,5 1
1 = kategori Olahraga
2 = Kategori Bisnis
3 = Kategori Entertainment
4 = Kategori Female
5 = Kategori Teknologi
3 4
67.70 %
75.21 %
83.33 %
2 5
85.78 %

Gambar 4-5. Gambar klasifikasi 5 kelas
10
30
50
70
90
Linear Polynomial RBF
3 Kategori
4 Kategori
0
5
10
15
20
25
30
3 Kategori
4 Kategori

6

Dari gambar diatas dapat dilihat jika kategori-
kategori yang terlibat dalam pengklasifikasian sangat
berpengaruh pada proses pemodelan struktur pohon.
Jika dilihat pada pengklasifikasian 4 kategori,
kategori olahraga dan bisnis dikelompokkan pada
node/leaf yang sama. Tetapi ketika pengklasifikasian
5 kategori dengan penambahan kategori teknologi,
anggota left node dari tree menunjukkan kategori
bisnis dan teknologi. Ini menunjukkan jika
pembentukan model tree sangat tergantung pada
kategori dataset yang digunakan.
Nilai akurasi yang dihasilkan pada setiap tree
menunjukkan jika depth semakin dalam, nilai akurasi
semakin naik. Ini dikarenakan data yang digunakan
ketika depth semakin dalam, data semakin jelas
sehingga mempengaruhi ketika mencari hyperplane
terbaik.
4.3 Analisis skenario 3
1,2,3
1,2 3
1 2
1 = kategori Olahraga
2 = Kategori Bisnis
3 = Kategori Entertainment
69.21 %
85.17 %

Gambar 4-6. Gambar klasifikasi 3 kategori dengan
data 75:25

1,2,3
2,3 1
2 3
1 = kategori Olahraga
2 = Kategori Bisnis
3 = Kategori Entertainment
72.33 %
87.57

Gambar 4-7. Gambar klasifikasi 3 kategori dengan
data 60:40
Pada gambar diatas dapat dilihat jika pengaruh
komposisi antara data latih dan data uji sangat
berpengaruh pada pemodelan tree dan akurasi yang
dihasilkan juga. Pada komposisi 75:25 bisnis dan
olahraga berada dalam 1 node/leaf yang sama,
sedangkan pada komposisi 60:40 justru bisnis dan
entertainment yang berada pada node yang sama
dengan nilai akurasi yang lebih tinggi bila
dibandingkan dengan komposisi 60:40.
4.4 Analisis skenario 4
Tabel 4-1. Perbandingan stemming dan non-
stemming pada 3 kategori


Tabel 4-8. Perbandingan stemming dan non-
stemming pada 4 kategori

Pada percobaan diatas dapat dilihat jika dengan
menggunakan proses stemming, nilai error rate yang
dihasilkan lebih kecil bila dibandingkan dengan
proses tanpa menggunakan proses stemming.

5. Kesimpulan
5.1 Kesimpulan
Berdasarkan analisis dan pengujian terhadap
algoritma SVM-DTA yang telah dilakukan, maka
dapat diambil kesimpulan sebagai berikut:
1. Hasil pengklasifikasian berita dinilai tepat,
dengan melihat nilai error rate yang cukup
rendah yakni 4% pada kernel polynomial dan
kernel RBF
2. Penggunaan paramater C pada skenario
pengujian, menunjukkan jika performansi terbaik
ditunjukkan ketika nilai C kecil, semakin tinggi
nilai C performansi cenderung turun. Seperti
ditunjukkan pada pengujian di kernel RBF
dengan nilai = 1, nilai error rate yang
dihasilkan ketika nilai C=10 adalah 4%
sedangkan ketika nilai C ditingkatkan, nilai error
rate juga ikut meningkat menjadi 8%.

7

3. Penggunaan kernel sangat berpengaruh pada
performansi SVM-DTA, kernel terburuk
ditunjukkan olegh kernel linear, dan kernel
polynomial dan RBF hampir sama
menunujukkan performansi yang cukup baik.
5.2 Saran
Saran yang diperlukan untuk pengembangan
sistem pengklasifikasian multiclass ini adalah sebagai
berikut:
1. Dokumen penelitian lebih beragam, dalam arti
lain bukan hanya berita.
2. Evaluasi dapat dilakukan dengan
membandingkan dengan algoritma
pengklasifikasian multi class lainnya.

Daftar Pustaka
[1] Agusta, Ledy, 2009. Perbandingan Algoritma
Stemming Porter dengan Algoritma Nazief &
Adriani untuk Stemming Dokumen Teks Bahasa
Indonesia. Bali: Universitas Kristen Satya
Wacana.
[2] A.N, Nugroho., (2008). Support Vector
Machine: Paradigma Baru dalam Softcomping
KNSI 2008; Bali
[3] Berry.W. Michael. 2004. Survey of Text
Mining (Clustering, Classification and
Retrieval). USA . Springer.
[4] Digilib ITTelkom. 2013. Text Mining. Diakses
pada 20 Maret 2013 di
http://digilib.ittelkom.ac.id/index.php?option=co
m_content&view=article&id=590:text-
mining&catid=20:informatika&Itemid=14
[5] Digilib ITTelkom.2012. TFIDF. Diakses pada
20 Maret 203 di
http://digilib.ittelkom.ac.id/index.php?option=co
m_content&view=article&id=996:tfidf&catid=6:
internet&Itemid=14.
[6] Madzarov, Gjorgji, Dejan Gjorgjevikj and Ivan
Chorbev. 2009 . a Multi-class SVM Classifier
Utilizing Binary Decision Tree. Department of
ComputerScience and Engineering, faculty of
Electrical Engineering and Information
Technology.
[7] Madzarov, Gjorgji, Dejan Gjorgjevikj and
Tomche Delev. 2010 . Ensembles of Binary
SVM Decision Tree. ICT Innovation 2010 Web
Proceedings
[8] Nugroho Satriyo Anto, Arief Budi Witarto dan
Dwi Handoko. 2003. Support Vector Machine-
Teori dan Aplikasinya dalam Bioinformatika
dari www.imukomputer.com
[9] Prabowo, Rudy and Mike Thelwall. Sentiment
Analysis: A Combined Approach. United
Kingdom: School of Computing and Information
Technology.
[10] Pusat Bahasa Departemen Pendidikan Nasional.
2007. Kamus Besar Bahasa Indonesia. Jakarta :
Pusat Bahasa
[11] Weiss, M. Sholom, Nitin Indurkhya, Tong Zhang
and Fred. J. Damerau. 2005. Text Mining
(Predictive Methods for Analyzing Unsteuctured
Information). USA. Springer.
[12] Wulandini, Fatimah & Anto Satriyo
Nugroho.2009. Text Classification using
Support Vector Machine for WebMining based
Spatio Temporal Analysis of the Spread of
Tropical Disease. International Conference on
Rural Information and Communication
Technology.