Anda di halaman 1dari 8

ISSN 2502-3357 (Online)

: Jurnal Ilmiah Teknologi Sistem Informasi v (n) Tahun HalAwal-


HalAwal-HalAkh ISSN 2503-0477 (Print)

Tersedia online di www.journal.unipdu.ac.id

Halaman jurnal di www.journal.unipdu.ac.id/index.php/register

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and


Answering System Menggunakan Metode Support Vector Machine
(SVM)

Sakina Sudina, Hartarto Junaedib, Joan Santosoc


a,b,cTeknologi Informasi, Sekolah Tinggi Teknik Surabaya, Surabaya, Indonesia

email: asakinahsudin80@yahoo.co.id, baikawa@stts.edu, cjoan@stts.edu

INFO ARTIKEL ABSTRAK


Sejarah artikel: Analisis jenis pertanyaan berbahasa Indonesia pada Question and Answering
Menerima 1 Januari 2018 system penting untuk dilakukan guna memprediksi kecocokan pada kelas
Revisi 21 Januari 2018 pertanyaan. Karena setiap pertanyaan berbahasa Indonesa tidak semuanya
Diterima 31
mengandung awalan kata tanya apa, siapa, mengapa, dimana, kapan dan
Online 1 Februari 2018
bagaimana (5W+1H). Dalam penelitian ini terdapat tiga tahap, yaitu :
pengumpulan dataset, preprocessing dan melakukan training dan uji coba.
Kata kunci: Penelitian ini penulis menggunakan algoritma TF-IDF dan metode Support
Pertanyaan Vector Machine (SVM) untuk klasifikasi. Hasil percobaan yang dilakukan
TF-IDF menunjukkan tingkat akurasi klasifikasi mencapai 97%. Kemudian evaluasi
SVM
kinerja system yang dibangun dengan model confusion matrix memperoleh nilai
Klasifikasi
rata-rata 97% pada data uji 20% dan data latih 80%.

Keywords:
Question
TF-IDF
SVM
Classification

Style APA dalam mensitasi ABSTRACT


artikel ini:
Satu, N. P. (2018). Analisis Analysis of the Indonesian language question type on the Question and Answering
Jenis Pertanyaan Berbahasa system is important to do to predict the suitability of the question class. Because every
Indoensia pada Question and Indonesian language question does not all contain the prefix of asking what, who, why,
Answering System
where, when and how (5W + 1H). In this paper there are three stages, that is: collecting
Menggunakan Metode
support vector machine.
datasets, preprocessing and conducting training and testing. In this paper the author
Register: Jurnal Ilmiah uses the TF-IDF algorithm and the Support Vector Machine (SVM) method for
Teknologi Sistem Informasi, classification. The results of the experiments showed the level of classification accuracy
v(n), 1-8. reach 97%. Then the system performance evaluation built with the confusion matrix
model obtains an average value of 97% in the 20% testing data and 80% training data.
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.

1. Pendahuluan
Information Retrieval (IR) atau pencarian informasi adalah suatu cara yang digunakan untuk mencari
informasi dari beberapa dokumen seleksi, yang hasilnya dalam bentuk daftar informasi yang relevan
dengan keyword pengguna. Dengan cara yang biasanya digunakan oleh mesin pencari seperti Google,
Bing, Yahoo dan lain sebagainya. Sejalan dengan lajunya perkembangan informasi dan komunikasi,
terkadang pengguna ingin memperoleh informasi balik (jawaban) yang cepat dan langsung tidak
harus menunggu link yang nanti diberikan oleh searc engine. Prinsip yang dipakai IR dengan cara
Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
2
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
menggabungkan metode pengolahan teks dan inferensi teks berbasis pengetahuan untuk memperoleh
semantik dari suatu pertanyaan sehingga merasa bahwa pertanyaan itu benar.
Dengan demikian dikembangkanlah sebuah sistem yang dikenal dengan Question and
Answering System. Dimana Question Analyzis System terbagi dalam tiga bagian utama, yaitu : 1).
Question Analysis; 2) Passage Retrieval; dan 3) Answer Extraction. Question Analisis yang merupakan
bagian penting dalam system temu kembali jawaban (QAS), karena akan berpengaruh langsung
terhadap kecocokan jawaban serta menentukan kualitas dan performa keseluruhan dari QAS.
Pertanyaan yang biasanya diajukan berdasarkan wh-group Apa, Di mana, Siapa, Kapan, Mengapa dan
Bagaimana.
Analisis pertanyaan (QA) dalam bahasa Indonesia ini bertujuan untuk memahami arah
pertanyaan yang diajukan, dengan mencari sebuah query pada pertanyaan yang diajukan untuk
mengetahui jenis pertanyaan sebagai keluaran yang akan diberikan kembali. Namun setiap kalimat
tanya dalam bahasa Indonesia tidak semuanya mengandung unsur tanya 5W+1H. Oleh karena itu
analisis jenis pertanyaan sebagai fungsi untuk memprediksi Expected Answer Type (EAT) suatu
pertanyaan.
Penelitian yang pernah dilakukan oleh[8] menawarkan sebuah sistem kelasifikasi jenis
pertanyaan ke dalam enam kategori kelas. Menggunakan metode SVM dengan pendekatan fungsi
kernel_linear, kernel_RBF dan kernel_sigmoid. Namun akhir dari uji coba data, fungsi kernel_linear
mengungguli tingkat akurasi dengan rata-rata mencapai 89,14% yang melibatkan 380 kata sebagai
pemilihan fiture yang unggul.
Oleh karena itu pada penelitian ini penulis mencoba menerapkan metode Support Vector
Machine dengan fungsi kernel_linear, kernel_polinomial dan kernel_RBF untuk menganalisa jenis
pertanyaan berbahasa Indonesia yang diberikan oleh pengguna.
2. Studi Literatur
2.1. Pertanyaan
Pertanyaan merupakan sebuah ekpresi yang disampaikan oleh seseorang untuk mendapatkan respon
informasi yang dituangkan dalam sebuah kalimat tanya, baik verbal maupun non-verbal. Ciri dari
kalimat tanya diantaranya, yaitu : menggunakan simbol tanda tanya (?); biasanya di awali dengan
kata tanya (apa, mengapa, kapan, dimana, siapa dan bagaimana); menggunakan imbuhan-kah dan
partikel-kan; serta memiliki intonasi naik dan intonasi turun diakhir kalimat tanya tersebut. Adapun
jenis pertanyaan dapat dikategorikan ke dalam enam kelas dengan penjelasan sebagai berikut :
Tabel 1. Kategori kelas pertanyaan
Kategori Kelas Penjelasan Pertanyaan
Apa (Apakah) Jenis pertanyaan yang menunjukkan penjelasan, pengertian
atau motivasi tentang sesuatu.
Siapa (Siapakah) Jenis pertanyaan yang menunjukkan identitas seseorang,
kata ganti seseorang, pelaku dari sebuah peristiwa yang
terjadi.
Bagaimana (Bagaimanakah) Jenis pertanyaan yang menunjukkan penjelasan penguraian,
langkah-langkah penyelesaian. Atau berisi pertanyaan yang
mengandung cara atau proses berlangsungnya suatu
peristiwa.
Kapan (Kapankah) Jenis pertanyaan yang menunjukkan waktu kejadian suatu
peristiwa atau berita.
Dimana (Kemana, Darimana, Jenis pertanyaan yang menunjukan suatu tempat atau lokasi
Dimanakah, Kemanakah, peristiwa terjadi.
Darimanakah)
Mengapa (Kenapa, Jenis pertanyaan yang menunjukkan penjelasan penyebab
Mengapakah, Kenapakah) dan alasan terjadi sesuatu

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
3
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
2.2. Term Frequency-Inverse Document Frequency (TF-IDF)
TF-IDF merupakan suatu algoritma yang digunakan dalam pembobotan terhadap kemunculan suatu
kata (token) yang dijadikan sebagai fitur dalam suatu dokumen seleksi, hal ini dapat dinotasikan pada
persamaan-persamaan berikut[2].
Untuk menghitung nilai term frequency, dimana tf adalah kemunculan frekuensi kata dalam
suatu dokumen :

, = (1)

Dimana tf(t,d) menunjukkan frekuensi kemunculan term t pada dokumen d.
Sedangkan idf adalah hubungan antara banyak jumlah kata dengan dokumen, secara
matematis dapat ditulis dengan rumus :

Idf(t,D) = log (2)

Setelah melakukan perhitungan term frequency dan inverse document frequency berikutnya kita
menentukan bobot kata (w) untuk mengetahui nilai bobot dari setiap kata dalam dokumen. Dapat
dihitung dengan persamaan berikut :
W = (tf * idf) (3)
2.3. Metose Support Vector Machine (SVM)
Support Vector Machine tidak lain adalah sebagai suatu metode untuk mengenali suatu pola agar
mampu memprediksi untuk klasifikan suatu data. SVM juga sebagai teknik klasifikasi pembelajaran
mesin learning yang mendukung klasifikasi biner[5] dan membangun hyperplane dalam ruang yang
berdimensi tinggi yang disebut dengan kernel trick[7].
Banyak penelitian yang telah menggunakan metode SVM dalam melakukan proses klasifikasi
terhadap suatu data termasuk dalam permasalahan teks dan telah membuktikan dengan hasil akurasi
yang cukup baik. Penelitian yang dilakukan [10] yaitu mengklasifikasikan pertanyaan untuk dua
kelas (coarse dan fine class) menggunakan metode SVM menunjukkan akurasi masing-masing 92,5%
dan 87,8%. Pendekatan SVM untuk mengkategorikan type jawaban dari pertanyaan tertentu dengan
fitur-fitur yang sering digunakan menunjukkan akurasi rata-rata 91,37% [8]. Pemilihan fungsi kernel
dapat mempengaruhi hasil akurasi yang diperoleh, terhadap dataset Microarray dengan metode
ANOVA penggunaan kernel_poly akurasi 97,54% dengan nilai parameter C:1,5 dan d:2, fungsi
kernel_RBF dengan nilai parameter C:1,5 dan γ:0,5 akurasinya sebesar 85,15% dan fungsi kernel linear
akurasinya 100%[4]. Penelitian yang dilakukan oleh[3] pada fitur yang berdimensi tinggi dengan
metode klasifikasi ELM dibandingkan dengan SVM mendapatkan nilai akurasi rata-rata 92,1%.
Pendekatan SVM dan Naïve Bayes dalam klasifikasi pertanyaan pada forum online dengan jumlah
fitur yang banyak menggunakan tfidfVectorizer[9].
Secara teoritis dan teknik learning machine ini bekerja atas prinsip Struktural Risk Minimization
(SRM) untuk menemukan hyperplane terbaik. Dimana prinsip dasar SVM yaitu : memaksimalkan
margin minimum antar class, fungsi kernel dan support vector. Selain itu SVM memiliki prinsip dasar
linear classifier yaitu kasus klasifikasi yang secra linear dapat dipisahkan, namun SVM juga telah
dikembangkan untuk menangani problem non-linear dengan memaksimalkan konsep kernel pada
ruang fitur yang berdimensi tinggi yaitu dengan teknik trick_kernel. Pada ruang berdimensi tinggi
akan dicari hyperplane yang dapat memaksimalkan jarak (margin) antara kelas data[10].
Pada data linear support vector adalah upaya menemukan hyperplane terbaik atau garis yang
memisahkan antara kedua kelas. Dimana setiap dataset (example) dinotasikan sebagai Xi ∈ℜD , i=1,2,...,
n atau (x1, …, xn), n adalah banyaknya data. Kelas positif dinotasikan sebagai +1 dan kelas negatif
dinotasikan sebagai -1. Dengan demikian tiap data dan label kelasnya dinotasikan sebagai : yi ∈{-1,
+1}. Sehingga ke dua kelas dapat dipisahkan secara sempurna oleh hyperplane di D-dimensional feature
space. Hyperplane tersebut dapat didefenisikan sebagai berikut :
w.xi + b = 0 (4)
Sehingga dengan data xi dapat digolongkan kedalam kelas masing-masing dengan pertidaksamaan
sebagai berikut :
w.xi + b < -1 (5)
w.xi + b > +1 (6)

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
4
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
Untuk mendapatkan hyperplane terbaik adalah dengan mencari hyperplane yang terletak
ditengah-tengah antara dua bidang pembatas kelas (pattern), sama dengan memaksimalkan margin
atau jarak (w) antara dua set objek dari kelas yang berbeda.
Sedangkan data yang berada di ruang yang berdimensi tinggi dapat dihitung dengan notasi :
K(xi, xj) = Φ(xi) . Φ(xj) (7)
Dimana Φ adalah fungsi transformasi untuk memetakan data kedalam ruang verktor yang baru.
Adapun dalam penelitian ini melakukan pengujian data untuk klasifikasi menggunakan varian
SVM dengan fungsi kernel_linear, fungsi kernel_polinomial dan fungsi kernel_RBF.
Tabel 2. Model Fungsi Kernel
Jenis Kernel Fungsi
Linier K(xi, xj) = xi, xj
Polinomial of degree d K(xi, xj) = (xi . xj)d
Gaussian RBF (Radial Basis Function) || ||
K(xi, xj) = exp(−
!

2.4. Evaluasi metode


Proses evaluasi dilakukan dengan membandingkan hasil klasifikasi pertanyaan dari metode yang
diusulkan dengan klasifikasi yang di latih oleh pakar. Perbandingan ini akan menghasilkan hasil
akurasi yang dapat digunakan sebagai patokan untuk melihat tingkat keberhasilan metode ini[1][8].
Metode pengukuran menggunakan table confusion matrix untuk melihat nilai Precision, Recall
dan f1-score, sebagai berikut :
Tabel 3. Confusion matrix
Actual class
+ -
Prediksi kelas + True Positif (TP) False Positif (FP)
- False negative (FN) True negarif (TN)

Dari tabel tersebut, terdapat pengkategorian dokumen dalam suatu proses pencarian, yaitu:
1) True Positive (TP), merupakan hasil dari prediksi sistem yang positif dan sesuai dengan target
yang positif
2) True Negative (TN), merupakan hasil dari predisi sistem yang negatif dan sesuai dengan target
yang negative.
3) False Positive (FP), merupakan hasil dari prediksi sistem yang positif, namun hasil targetnya
negative
4) False Negative (FN), merupakan hasil dari prediksi sistem yang negatif, namun hasil targetnya
positif
Sehingga dapat ditulis dalam bentuk notasi persamaan sebagai berikut :
$%&$'
" # = (8)
%&'
$%
% # # = (9)
$%&(%
$%
) = (10)
$%&('
Setelah hasil klasifikasi dapat diukur kebenarannya, maka dilakukan perhitungan kombinasi
nilai untuk dijadikan sebagai nilai pengukuran (F1-score). F1-score dapat dihitung dengan rumus
sebagai berikut :
% # # .)
(* − = + , (11)
% # # &)

3. Metode Penelitian
3.1. Dataset penelitian
Penelitian ini menggunakan dataset pertanyaan berbahasa Indonesia serjumlah 900 pertanyaan. Yang
diperoleh dari sejumlah referensi situs online[11]. Dataset pertanyaan dalam bentuk file.text kemudian
dikonversikan ke dalam bentuk file.csv, selanjutnya melalui beberapa tahapan preprocessing hingga
mendapatkan nilai bobot. Dataset pertanyaan ini dibagi dalam dua kelompok yaitu dataset untuk
dilatih dan dataset untuk diuji. Semua pertanyaan dilatih ke dalam enam kelas, masing-masing kelas
terdiri dari 150 pertanyaan dari 900 pertanyaan dataset yang disediakan.

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
5
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
3.2. Proses Analisis
Proses yang dilakukan dalam analisis jenis pertanyaan ini dilewati dengan tiga tahap, yaitu : tahap
pengumpulan dataset pertanyaan, tahap preprocessing dan tahap analisis. Tahapan ini dapat dilihat
pada Gambar 1. berikut.

Pertanyaan Case folding Tokenisasi TF-IDF

SUMBER PREPROCESSING

SVM
Jenis classification
Pertanyaan

PROSES ANALISIS

Gambar 1. Skema Sistem Analisis Jenis Pertanyaan

1) Sumber Data
Dataset pertanyaan berbahasa Indonesia yang disediakan tidak semuanya diawali dengan kata
tanya yang mengandung 5W+1H. Pertanyaan yang diperoleh dalam bentuk file.text kemudian
dikonversikan kedalam bentuk file.csv agar memudahkan dalam proses pengolahan tahap
berikutnya. Proses selanjutnya akan dilakukan preprocessing.
2) Preprocessing
Tahapan ini akan dilakukan proses case folding dataset untuk mengubah huruf kapital menjadi
huruf kecil dan menghapus simbol serta tanda-tanda selain alphabet yang tidak mengurangi
makna kata yang sesungguhnya. Langkah berikut dilakukan tokenisasi untuk memisahkan kata
dalam dokumen kalimat (pertanyaan) menjadi kata tunggal (token) agar memudahkan dalam
perhitungan bobot kemunculan kata dalam dokumen. Tahapan selanjunya pada preprocessing
adalah penghitungan nilai bobot kata (term)dengan bantuan algoritma tf-idf. Selain perhitungan
bobot kata (term), dilakukan juga perhitungan bobot setiap dokumen kalimat tanya, hal ini
dilakuka untuk mendapatkan nilai vector masing-masing dokumen kalimat tanya yang
selanjutnya dilakukan proses untuk mendapatkan nilai matriks dari bobot data yang telah di
hitung. Penghitungan bobot term dengan tf-idf menggunakan parameter tokenizer pada
TfidfVectorizer untuk menyesuaikan proses tokenisasi dataset sebagai fitur yang jumlahnya cukup
banyak.
3) Proses analisis
Langkah berikutnya dalam sistem ini adalah menganalisa pertanyaan dengan pendekatan metode
Support Vector Machine untuk mengklasifikasikan pertanyaan. Proses ini untuk memprediksi
tingkat kecocokan (akurasi) jenis pertanyaan ke dalam kelas kategori (multi classifier). Metode
yang digunakan adalah metode satu lawan satu (one-againt-one). Metode ini menentukan k-kelas
dimana diasumsikan ρ sebagai fungsi pemisah dan k sebagai jumlah kelas. Selanjutkan dilakukan
proses trening data dari kelas-i (kelas apa) diberi label (+) dan semua data kelas lainnya (siapa,
bagaimana, dimana, kapan dan mengapa) diberi label (-), begitu seterusnya hingga semua data
dapat diprediksi. Sebagai pembanding pengujian digunakan fungsi kernel_linear,
kernel_polinomial dan kernel_RBF serta nilai parameter masing-masing. Selanjutnya untuk
mengetahui nilai kebenaran dari hasil prediksi, kita mengevaluasi menggunakan pengukuran
Confusion matrix.

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
6
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
4. Hasil dan Pembahasan
Proses analisis terhadap jenis pertanyaan pada sistem tanya jawab (question and answering system)
dapat dilakukan dengan pendekatan metode support vector system dengan fungsi kernel_linear,
kernel_polinomial dan kernel_RBF sebagai pembanding tingkat akurasi klasifikasi.
Data uji dilakukan secara berulang dengan persentasi 20%, 30% dan 40% untuk mencari nilai
akurasi terbaik yang melibatkan nilai parameter C=0.5 pada fungsi kernel_linear, sebagai berikut :
Tabel 4. Hasil Akurasi Fungsi Kernel_Linear
Akurasi Nilai_Kebenaran
Data_Uji C=0.5 Benar Salah
20% 0.972 175 5
30% 0.967 261 9
40% 0.964 347 13
Dari table diatas dapat dilihat bahwa, penggunaan metode SVM dengan fungsi kernel_linear
dan nilai parameter C=0.5 memberikan nilai akurasi yang sangat baik pada data uji 20% sebesar 97%.
Apabila penggunaan nilai parameter semakin kecil, maka akurasinya juga semakin rendah (error
classification) yang mengakibatkan data tidak dapat diprediksikan.
Selanjutnya kita dapat mengukur tingkat performance sistem klasifikasi, dengan melakukan
evaluasi pada parameter precission (p), recall (r) dan f1-score (fs) dengan persamaan (9) dan (10) pada
Table 3 Confusion Matrix sebagai berikut :
Table 5. Hasil Evaluasi Pengukuran dengan Fungsi Kernel_Linear (Confusion matrix)
data_uji 20% data_uji 30% data_uji 40%
Kelas
(p) (r) (f-s) (p) (r) (f-s) (p) (r) (f-s)

Apa 0.96 1.00 0.98 0.95 0.95 0.95 0.92 0.95 0.93
Bagaimana 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00
Dimana 0.94 1.00 0.97 0.90 1.00 0.95 0.95 0.98 0.97
Kapan 0.97 0.97 0.97 0.98 0.98 0.98 0.97 0.98 0.98
Mengapa 1.00 0.94 0.97 1.00 0.96 0.98 0.97 0.97 0.97
Siapa 0.97 0.94 0.95 0.98 0.91 0.94 0.98 0.90 0.94
Avg / total 0.97 0.97 0.97 0.97 0.97 0.97 0.96 0.96 0.96
Nilai rata-rata dari kinerja fungsi kernel_linear untuk precission (p), recall (r) dan f1-score (fs)
lebih tinggi pada data_uji 20%. Sehingga klasifikasi jenis pertanyaan pada enam kelas dengan tingkat
akurasi yang terbaik pada data uji 20%.
Kemudian kita lakukan uji data menggunakan fungsi kernel_polinomial dengan nilai parameter
C (cost) dan d (degree), dimana parameter d (degree) ini sebagai fungsi pemisah pada kernel_polinomial.
Adapun hasil pengujian data dapat dilihat pada Tabel 6 berikut :
Tabel 6. Pengukuran Error Klasifikasi dengan parameter C(cost) dan d(degree)
Persentase Parameter C Parameter d Error
(cost) (degree) klasifikasi
40% 0.01 2, 3, 4, 5 0.1583
1 2, 3, 4, 5 0.1518
10 2, 3, 4, 5 0.1518
100 2, 3 ,4 ,5 0.1583
30% 0.01 2, 3 ,4 ,5 0.1518
1 2, 3 ,4 ,5 0.1518
10 2, 3 ,4 ,5 0.1518
100 2, 3 ,4 ,5 0.1518
20% 0.01 2, 3 ,4 ,5 0.1389
1 2, 3 ,4 ,5 0.1389
10 2, 3 ,4 ,5 0.1389
100 2, 3 ,4 ,5 0.1389

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
7
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
Setelah pengujian dilakukan pada table diatas, ternyata nilai parameter sebagai penentu
pemisah tersebut sangat berpengaruh pada nilai akurasi klasifikasi. Hasil uji coba yang dilakukan
tidak bisa diprediksikan, karena nilai akurasinya sangat rendah (error classification), yaitu 13% pada
data uji 20% dengan parameter C= 0.01, 1, 10, 100 dan parameter d (degree)= 2,3,4,5. Semakin banyak
nilai parameter d yang dgunakan bisa saja semakin lama running time yang.
Pada Tabel 6. ini juga menunjukkan bahwa semakin besar nilai parameter d yang digunakan
pada kernel_poly belum tentu menghasilkan akurasi terbaik, namun penggunaan nilai parameter d
tertinggi dilihat pada data uji 40% menghasilkan nilai akurasi 15% masih dibawah normal.
Selanjutnya, uji data dilakukan dengan pendekatan fungsi kernel_RBF (Radial Basis Function)
dengan menggunakan parameter C (cost) dan γ (gamma). Nilai gamma pada fungsi kernel_RBF sebagai
pemisah antar kelas, dapat juga diperuntukan untuk mencari nilai error classification. Uji coba dengan
nilai parameter 0.01; 0.003; 0.95 hasilnya dapat dilihat pada Tabel 7 berikut :
Tabel 7. Hasil Pengukuran dengan Parameter C(cost) dan γ(gamma) data uji 20%
Parameter Parameter Error
C (cost) γ(gamma) klasifikasi
0.1 0.001, 0.01, 0.15 0.1389
0.95 0.144
1 0.001, 0.01 0.1389
0.15 0.9722
0.95 0.9667
10 0.001 0.1389
0.01 0.9611
0.15 0.9722
0.95 0.9667
100 0.001 0.9611
0.01, 0.15, 0.95 0.9667
Table diatas dapat dilihat nilai parameter yang menjadi error classification adalah C=0.01 dan
γ=0.001 dengan nilai 13%, sedangkan nilai optimal untuk akurasi klasifikasi yang baik dengan nilai
parameter C=1 dan γ=0.15 yaitu 97% dengan menggunakan parameter yang sama dapat dilihat juga
ada nilai akurasi yang terbaik yaitu 97% pada nilai parameter γ= 0.15 dan C=10. Apabila nilai optimal
dari parameter γ sudah ditemukan maka hasil akurasi akan peroleh. Dengan demikian jika nilai
parameter C lebih besar dari 1 dan nilai γ lebih besar dari 0.1 – 3 maka akurasinya akan lebih baik,
namun tidak stabil.
Dari semua hasil pengujian dengan tiga pendekatan fungsi kernel untuk menentukan tingkat
akurasi dapat dilihat bahwa nilai parameter juga berpengaruh dalam menentukan nilai validasi suatu
dokumen. Akumulasi perbandingan dari hasil pengujian diatas dapat dilihat pada table berikut :
Table 8. Hasil Akurasi perbandingan Fungsi Kernel Linear, Poly dan RBF
Tingkat Akurasi
Data_uji K-_Linear K_Poly K_RBF
C:0.5 C:0.5 d:2 C:0.5, γ:2
20% 0.972 0.139 0.861
30% 0.967 0.152 0.722
40% 0.964 0.158 0.667
Dengan demikian, maka kasus dataset pertanyaan berbahasa Indonesia dalam penelitian ini
diperoleh model klasifikasi dengan nilai akurasi mencapai 97% dengan pendekatan fungsi
kernel_linear pada data uji 20%. Sementara penggunaan fungsi kernel_RBF dengan nilai parameter C
yang sama dan γ=2 pada semua data uji nilai akurasinya tidak terlalu rendan dan tidak pula terlalu
tinggi. Sedangkan penggunaan fungsi kernel_poly dengan nilai parameter C yang sama dan d=2
menghasilkan nilai akurasi sangat rendah atau disebut dengan error classification sebesar 13% pada
data uji 20%.
5. Kesimpulan
Hasil klasifikasi jenis pertanyaan berbahasa Indonesia ke dalam enam kelas mencapai tingkat akurasi
97% dengan fungsi kernel_linear. Dilakukan pengujian menggunakan algoritma TF-IDF dengan
pendekatan metode Support Vector Machine. Uji coba dilakukan dengan varian fungsi kernel_linear,
Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.
8
ISSN 2502-3357 (Online)
Sakina Sudin dkk. /Register volume (no) Tahun (0) 1-8 ISSN 2503-0477 (Print)
kernel_poly dan kernel_RBF serta beberapa parameter yaitu parameter C, d(degree) dan γ(gamma).
Data set pertanyaan pada penelitian ini sebanyak 900 pertanyaan yang terdiri dari dua kelompok
yaitu data latih dan dan data uji.
Data uji dilakukan secara berulang-ulang yaitu 20%, 30% dan 40% untuk mencari nilai akurasi
yang terbaik. Tingkat akurasi yang dihasilkan akan mengalami perubahan, jika nilai parameter C,
d(degree) dan γ(gamma) sring diubah-ubah sebagaimana terlihat pada Tabel 6 dan Tabel 7.
7. Referensi
Biswas P., Sharan A., Kumar R. (2014). Question Classification Using Syntactic and Rule Based
Aproach. In Advances in Computing, Communications and Informatics (ICACCI, 2014
International Conference on (pp. 1033-1038), IEEE.
Guangyi Xiao, Even Chow, Hao Chen, Jiqian Mo, Jingzi Guo, Zhiguo Gong. (2017). Chinese Question
Classification in the Low Domain. International Conference on e-Bussiness Enginering. Computer
Society, 2017 IEEE. 214-219.
Hardy, Yu-N Cheah. (2013). Question Classification Using Extreme Learning Machine on Semantic
Features. Department of Computer Science, STMIK Mikroskil. Medan, Indonesia. School of
Computer Sciences, Universiti Sains Malaysia. J. ICT Res. Appl, Vol. 7, No. 1, 2013, 36-58,
Rima Diani, Untari Novia Wisesty, Annisa Aditsania. (2017). Analisis Pengaruh Kernel Support Vector
Machine (SVM) pada Klasifikasi Data Microarray untuk Deteksi Kanker. Ind. Journal on
Computing, Indonesia. Vol. 2, Issue 1, Maret 2017. pp, 109-118.
R.T. Thirumalaimuthu, S. Dharmendra. (2017). Multiple Classification Using SVM Based Multi
Knowledge Based System. International Conference on Advances in Computing &
Communications, ICACC-2017. Cochin, India. Procedia Computer Science 115 (2017) 307–311
Santoso B. 2007. Data Mining: Teknik Pemanfaatan Data Untuk Keperluan Bisnis. Yogyakarta: Graha
Ilmu.
Selvia Ferdiana Kusuma, Ratri Enggar Pawening, Rohman Dijaya. (2017). Otomatisasi klasifikasi
kematangan buah Mengkudu berdasarkan warna dan tekstur. Register: Jurnal Ilmiah Teknologi
Sistem Informasi, 3(1), 17-23.
Syed Mehedi Hasan Nirob, Md. Kazi Nayeem, Md Saiful Islam. (2017). Question Classification Using
Support Vector Machine with Hybrid Feature Extraction Method. International Conference of
Computer and Information Technology (ICCIT). 2017 IEEE.
Taniya Saini, Sachin Tripathi. (2018). Predicting Tags for Stack Overflow Questions Using Different
Classifiers. Conf. on Recent Advances in Information Technology. RAIT-2018. IEEE.
Vaishali S., Sanjay K. Dwivedi. (2015). An Integrated Pattern Matching and Machine Learning
Approach for Question Classification. International Conference on Next Generation Computing
Technologies (NGCT-2015). Dehradun, India. 2015 IEEE, 762-767.
https://dosenbahasa.com...

Analisis Jenis Pertanyaan Berbahasa Indonesia pada Question and Answering … http://doi.org/10.26594/register.vi.idpublikasi
© 2018 Register: Jurnal Ilmiah Teknologi Sistem Informasi. Semua hak cipta dilindungi undang-undang.

Anda mungkin juga menyukai