Abstrak
Penelitian ini dimaksudkan untuk mencari nilai akurasi klasifikasi topik soal UN bahasa
Indonesia yang terdiri dari 12 kategori topik soal UN (ujian nasional) bahasa indonesia untuk
tingkat SMK. Tujuan utama dari penelitian ini adalah mencari klasifikasi dari pada topik soal
UN (ujian nasional) Bahasa indoensia yang kemudian di evaluasi hasil akurasinya dengan
beberapa pendekatan optimasi algoritma. Metode penelitian yang digunakan adalah dengan
terlebih dahulu melakukan Preprocessing dan optimasi stemming porter KBBI pada data
soal UN (ujian nasional) bahasa indonesia, Dengan jumlah data training 350 soal dan data
testing 150 soal. Proses Preprocessing merupakan proses melakukan Case Folding, Stopword
Removal dan menerapkan optimasi algoritma Stemming porter KBBI. Setelah Preprocessing
data kemudian dicari nilai frekuensi kata pada tiap soal sehingga setiap kata dari dokumen
soal UN (ujian nasional) Bahasa indoensia tersebut mempunyai nilai. Kemudian diberikan
label klasifikasi secara manual dan pada tahapan akhir metode dilakukan klasifikasi dengan
algoritma Naı̈ve Bayes. Dari hasil penelitian akurasi klasifikasi dengan optimasi pendekatan
stemming porter KBBI dan pendekatan metode klasifiksai cross validation Naı̈ve Bayes,
dengan hasil akurasi data training 94,34% dan data testing cross validation 72.67%.
Kata Kunci : stemming, klasifikasi, preprocessing, cross validation, naı̈ve bayes.
2. Dokumen testing
Dokumen testing dalam penelitian ini
menggunakan dokumen dengan exten-
sion CSV, dokumen percobaan sejum-
lah 150 dokumen testing soal ujian ba-
hasa Indonesia. Dalam algoritma klasi-
fikasi naı̈ve bayes, setiap kumpulan doku-
men diuraikan dengan pasangan atribut
Gambar 2: Tahapan Algoritma stemming
x 1 x 2 x 3. . . sampai dengan x n dimana
Porter [7]
[(x)] adalah kata awal dan seterusnya,
sedang V merupakan himpunan topik
soal. Pada saat tahapan pengujian naı̈ve
Frekuensi kata bayes akan mencari nilai probabilitas
Term frekuensi merupakan total kemunculan tertinggi dari semua dokumen yang akan
kata yang akan diproses didalam sebuah doku- diujikan [8]. Persamaannya disajikan
men. Tahapan tf merupakan salah satu taha- pada persamaan 1.
pan dari labelisasi dimana setiap kata memeliki
(P (x1 , x2 , x3 ...xn | V j)P (V j)
kemungkinan muncul di dokumen secara beru- argmax
Vmap = (1)
Vj ∈V P (x1 , x2 , x3 ...xn )
lang. TF (t,d) : total kemunculan term t pada
dokumen d. Untuk P (x1 x2 x3 . . . xn ) nilainya konstan
untuk semua Kategori (V j) sehingga per-
Proses training dokumen kategori (la- samaan dapat ditulis sebagai persamaan 2
bel) berikut :
UntukP (V j) dan P (Xi V j) dihitung pada 2. Metode usulan yaitu Impelementasi dan
saat pelatihan dengan persamaan 4 dan 5 se- perancangan sistem berbasis web dengan
bagai berikut: php mysql untuk uji sample data train-
ing dan data testing soal ujian nasional
| docs j | bahasa indonesia dan klasifikasi dengan
P (V j) = (4)
| contoh | tool weka.
nk+1
(P (xi | V j) = (5)
n+ | kosakata | 3. Lakukan proses preprocessing pada data
sample yang sudah dibagi antara data
Keterangan:
training dan data testing, dengan data
|docsj|: jumlah dokumen setiap kategori j training sebanyak 350 soal dan data
testing 150 soal dan melakukan prepro-
|contoh|: jumlah dokumen dari semua kategori
cessing data dengan tahapan case fold-
nk : jumlah frekuensi kemunculan setiap kata ing, tokenizing, stopword removal sebagai
berikut:
n: jumlah frekuensi kemunculan kata dari se-
tiap kategori
|kosakata|: jumlah semua kata dari semua kat- (a) Case folding melakukan proses
egori penghapusan karakter dan angka
pada kalimat soal dan merubah hu-
Cross Validation ruf besar menjadi huruf kecil.
Metodologi Penelitian
6. Lakukan eksperimen dan pengujian data
Tahapan dalam penelitian disajikan pada gam- manual klasifikasi dengan data klasifikasi
bar 3 dan meliputi: terkomputerisasi.
1. Mengumpulkan data soal ujian nasional
bahsa indonesia sebanyak 500 data sam- 7. Menghitung nilai akurasi dari masing
ple dan membaginya menjadi menjadi masing stemming dengan algoritma cross
data training dan data testing. validation naive bayes.
360
Jurnal Ilmiah KOMPUTASI, Volume 17 No : 4, Desember 2018, p-ISSN 1412-9434/e-ISSN 2549-7227
1) Training data
Table 6: Hasil akurasi data training soal UN
Evaluasi klasifikasi data soal UN bahasa in- bahasa Indonesia
donesia dengan pilihan use training set untuk No Hasil Training Akurasi Presentase
untuk mencari hasil akurasi dengan menggu- Correctly Classified 328 atau
1.
nakan training data yang berjumlah 350 doku- Instances 93.7143 %
men dan meghasilkan menghasilkan akurasi Incorrectly Classified 22 atau
2.
dan mean absolute error data pada tabel 5. Instances 6.2857%
3. Kappa statistic 0.912
4. Mean absolute error 0.0105
Table 5: Hasil Training Set Naive Bayes soal 5. Root mean squared error 0.0965
UN bahasa Indonesia 6. Relative absolute error 8.9797 %
Preprocessing dan Root relative squared
No Klasifikasi Akurasi 7. 40.0172 %
stemming porter error
KBBI Total Number of
8. 350
Tidak Instances
Terklasi- terk-
fikasi lasi- 2) Testing data / evaluasi cross validation
fikasi 10 fold
1. Artikel 1 0 0.29 Klasifikasi yang telah terbentuk pada tahap
2. Fakta 12 0 3.43 training selanjutnya diuji dengan menggu-
3. Frasa 14 2 4.00 nakan data testing evaluasi cross validation 10
Gagasan fold dengan data testing sebanyak 150 soal data
4. 14 2 4.00
Utama testing menghasilkan data pada Tabel 5.
5. Judul 4 0 1.14
6. Kalimat 163 17 46.57 Table 7: Hasil Evaluasi Test Set Naive Bayes
Karya cross validation 10 fold soal UN bahasa indoe-
7. 12 0 3.43
Sastra nesia
8. Kutipan 10 2 2.86 Preprocessing dan
No Klasifikasi Akurasi
9. Opini 13 0 3.71 stemming porter
10. Paragraf 55 1 15.71 KBBI
11. Puisi 18 0 5.14 Tidak
12. Tabel 12 0 3.43 Terklasi- terk-
Presentase fikasi lasi-
318 22 93.7143%
Akurasi fikasi
1. Artikel 0 1 0
2. Fakta 1 2 0.67
3. Frasa 0 9 0
Tabel 5 menunjukkan akurasi yang diper-
Gagasan
oleh adalah 93.7143 % dengan hasil klasifikasi 4. 0 4 0
Utama
benar sebanyak 328 dokumen, jumlah data
5. Judul 2 0 1.33
training tidak terklasifikasi sebanyak 22 atau
6. Kalimat 84 0 0
6.287%. Dan tabel 6 menunjukan hasil dari
Karya
pada akurasi dengan confussion matrix, un- 7. 0 2 0
Sastra
tuk melihat data asal dan data prediksi yang
8. Kutipan 0 2 0
kemungkinan besar ada perpindahan dari ke-
las asal ke kelas prediksi sehingga ada hasil 9. Opini 0 4 1.33
akurasinya. Tabel 6 menunjukan Hasil dari 10. Paragraf 14 8 5.33
data training dengan menggunakan stemming 11. Puisi 8 5 5.33
porter KBBI sebanyak 350 soal menghasilkan 12. Tabel 4 0
data yang terklasifikasi sebanyak 328 soal terk- Presentase
109 41 72.66%
lasifikasi dengan baik sesuai kelas kategori Akurasi
masing-masing dengan hasil akurasi 93,7143%
dan 22 soal tidak terklasifikasi dengan baik. Tabel 7 menunjukkan akurasi yang diper-
362
Jurnal Ilmiah KOMPUTASI, Volume 17 No : 4, Desember 2018, p-ISSN 1412-9434/e-ISSN 2549-7227
oleh adalah 72.66% dengan test record yang akurasi data training yaitu 21.11%,sedangkan
diklasifikasi secara benar sebanyak 109, jum- untuk data tidak terklasifikasi menunjukan
lah test record yang diklasifikasi secara tidakhasil training 6.29% dan testing cross valida-
benar sebanyak 41 atau 27.3%, dengan hasil tion 10 fold 27.30%, sehingga selisih akurasi
mean absolute error adalah 0,046%. data training yaitu 21.1%. 3) Testing data /
evaluasi cross validation 8 fold Klasifikasi yang
Table 8: Hasil akurasi data testing cross val- telah terbentuk pada tahap training selanjut-
idation Naive Bayes 10 fold soal UN bahasa nya diuji dengan menggunakan data testing
Indoenesia evaluasi cross validation 8 fold dengan data
No Hasil Training Akurasi Presentase testing sebanyak 150 soal data testing meng-
Correctly Classified 109 atau
hasilkan data pada Tabel 9.
1.
Instances 72.66 %
Incorrectly Classified 41 atau 27.3 Table 9: Hasil Evaluasi Test Set Naive Bayes
2.
Instances % cross validation 8 fold soal UN bahasa Indone-
3. Kappa statistic 0.52 sia
4. Mean absolute error 0.046 Preprocessing dan
No Klasifikasi Akurasi
5. Root mean squared error 0.20 stemming porter
6. Relative absolute error 41.45 % KBBI
Root relative squared Tidak
7. 86.14 % Terklasi- terk-
error
fikasi lasi-
Total Number of
8. 150 fikasi
Instances
1. Artikel 1 0 0.67
Tabel 8 menunjukan Hasil dari data testing 2. Fakta 1 2 0.67
cross validation 10 fold dengan menggunakan 3. Frasa 0 9 0
stemming porter KBBI sebanyak 150 soal Gagasan
4. 0 4 0
menghasilkan data yang terklasifikasi sebanyak Utama
109 soal terklasifikasi dengan baik sesuai kelas 5. Judul 2 0 1.33
kategori masing-masing dengan hasil akurasi 6. Kalimat 83 1 55.33
72,66% dan 41 soal tidak terklasifikasi den- Karya
7. 0 2 0
gan baik. Kemudian hasil dari grafik training Sastra
datanya sesuai grafik dibawah ini. 8. Kutipan 0 2 0
9. Opini 1 3 0.67
10. Paragraf 15 7 10
11. Puisi 9 4 6
12. Tabel 0 4 0
Presentase
112 38 74.67%
Akurasi
Table 10: Hasil akurasi data testing cross vali- Table 11: Hasil Evaluasi Test Set Naive Bayes
dation 8 fold Naive Bayes soal UN bahasa In- cross validation 6 fold soal UN bahasa Indone-
donesia sia
No Hasil Training Akurasi Presentase Preprocessing dan
No Klasifikasi Akurasi
Correctly Classified 112 atau stemming porter
1. KBBI
Instances 74.66 %
Incorrectly Classified 38 atau Tidak
2. Terklasi- terk-
Instances 25.33 %
3. Kappa statistic 0.55 fikasi lasi-
4. Mean absolute error 0.045 fikasi
5. Root mean squared error 0.20 1. Artikel 1 0 0.67
6. Relative absolute error 40.11 % 2. Fakta 1 2 0.67
Root relative squared 3. Frasa 0 9 0
7. 85.68 %
error Gagasan
4. 0 4 0
Total Number of Utama
8. 150
Instances 5. Judul 2 0 1.33
6. Kalimat 83 1 55.33
Karya
7. 0 2 0
Sastra
8. Kutipan 0 2 0
9. Opini 0 4 0
10. Paragraf 15 7 10
11. Puisi 9 4 6
12. Tabel 0 4 0
Presentase
111 39 74%
Akurasi
.
365
Jurnal Ilmiah KOMPUTASI, Volume 17 No : 4, Desember 2018, p-ISSN 1412-9434/e-ISSN 2549-7227
terkoreksi dengan baik atau tidak terklasifkasi [4] A. Tan, “Text Mining: The state of the
dengan baik sesuai kategori topik soalnya. art and the challenges”, In Proc of the
Pacific Asia Conf on Knowledge Discov-
ery and Data Mining PAKDD‘99 workshop
Penutup on Knowledge Discovery from Advanced
Kesimpulan dari hasil penelitian sebagai Databases, 1999.
berikut: 1. Penggunaan stemmer porter KBBI
[5] Chandra Triawati, “Metode Pembobotan
pada proses preprocessing bisa membantu op-
Statistical Concept Based untuk Klastering
timasi akurasi klasifikasi pada data testing.
dan Kategorisasi Dokumen Berbahasa In-
2. Penggunaan stemmer porter KBBI den-
donesia”, Institut Teknologi Telkom, Ban-
gan kata dasar yang baik mempengaruhi Hasil
dung, 2009.
akurasi klasifikasi kategori soal UN nya. 3.
Hasil akurasi klasifikasi dengan penerapan op- [6] W. Frakes, “Stemming algorithms, in W.
timasi cross validasi naı̈ve bayes membantu Frakes & R. Baeza-Yates, eds, ‘Infor-
data tidak terstruktur untuk menghasilkan mation Retrieval: Data Structures and
akurasi yang baik. Algorithms”,Prentice-Hall, chapter 8, pp.
131{160}, 1992.
Daftar Pustaka [7] Ledy Agusta, “Perbandingan Algoritma
Stemming Porter dengan Algoritma Nazief
[1] Abdul Chaer, “Tata Bahasa Praktis Bahasa
& Adriani untuk Stemming Dokumen Teks
Indonesia”, Rineka Cipta Jakarta. 194-197,
Bahasa Indonesia”, Konferensi Nasional
2011.
Sistem dan Informatika. KNS&I09-036,
[2] E. Turban, “Decision Support Systems and 2009.
Intelligent Systems”, Edisi Bahasa Indone-
sia Jilid 1. Andi: Yogyakarta, 2005.. [8] A.Yudi Permana, “Perbandingan stemming
Porter KBBI dengan Tala untuk mencari
[3] Daniel T. Larose, “Discovering Knowledge akurasi klasifikasi topik soal UN Bahasa
in Data : An Introduction to Data Mining”, indoensia dengan algoritma naı̈ve bayes”,
John Willey & Sons, Inc, 2005. SNTI 2018, 2018.
368