Anda di halaman 1dari 13

JURTI, Vol.1 No.

1, Juni 2017, ISSN: 2579-8790 ◼ 1

Komparasi Algoritma Naïve Bayes dan Neural Network


Pada Aplikasi Layanan Aspirasi dan Pengaduan Online
Rakyat

Muhammad Resa Arif Y.*1, Nindy Devita Sari2, Celine Aloyshima Haris3, Ema Utami4,
Andi Sunyoto5
1,2,3,4,5
Magister Teknik Informatika, Universitas AMIKOM Yogyakarta
e-mail: *1muhammad.yudianto@students.amikoma.ac.id, 2nindy.9243@students.amikom.ac.id,
3
celine.haris@students.amikom.ac.id, 4ema.u@amikom.ac.id, 5andi@amikom.ac.id

Abstrak
Pemerintah pada era sekarang ini harus membuatkan transparansi informasi agar
masayarakat dapat berinteraksi dengan pemerintah, dengan aplikasi LAPOR! (Layanan
Aspirasi dan Pengaduan Online Rakyat) maka mayarakat dapat menyuarakan pendapat atau
kritik kepada pemerintah. Seorang admin aplikasi LAPOR! harus memilih dan mengarahkan
dokumen-dokumen yang sesuai dengan kategori instansi yang dituju. Dengan keterbatasan
kemampuan dan waktu, seorang admin hanya dapat mengelompokan dokumen dengan cara
manual pada aplikasi, maka dari itu sangat diperlukan kecerdasan buatan pada aplikasi
LAPOR! yang dapat mengelompokan data secara otomatis agar dapat bekerja secara efektif
dan efisien. Dengan meimplementasikan komparasi antara Algoritma Naïve Bayes dan Neural
Network maka dapat diektahui algoritma mana yang dapat lebih oprimal dalam
pengklasifikasikan dalam aplikasi LAPOR!. Data yang digunakan sebanyak 270 data yang
terdiri dari 9 kelas dengan setiap kelas terdiri dari 30 dataset. Data training sebanyak 80%
dari total dataset, dan sisanya sebanyak 20% sebagai data testing. Sebelum dilakukan proses
klasifikasi dengan algoritma naïve bayes dan Neural Network, terlebih dahulu dilakukan teks
preprocessing seperti proses tokenizing, case folding, filtering, stopping, hingga stemming. Dari
hasil percobaan dengan algoritma naïve bayes dihasilkan nilai akurasi tertinggi yaitu 88%,
sedangkan dengan algoritma Neural Network mendapatkan nilai akurasi 81,48%. Kemudian
dilakukan pengurangan dataset lagi sebanyak 50% dari total 270 menjadi 135 data dan
dilakukan klasifikasi dengan algoritma naïve bayes dan Neural Network. Dari hasil percobaan
didapatkan, nilai akurasi algoritma naïve bayes sebesar 85% dan Neural Network sebesar
66,67%. Pada algoritma naïve bayes jumlah dataset tidak terlalu berpengaruh secara
signifikan, akan tetapi pada algoritma Neural Network sangat berpengaruh terhadap nilai
akurasi yang dihasilkan.

Kata kunci— Aplikasi LAPOR!, Teks Preprocesing, Naïve Bayes, Neural Network

1. PENDAHULUAN

Dewasa ini teknologi informasi berkembang sangat pesat, ini menyebabkan keterbukaan
informasi masyarakat sangatlah luas dari semua kalangan dapat meakses informasi di dunia
maya tanpa terkecuali Pemerintah. Keterbukaan informasi yang dilakuakan oleh Pemerintah
wajib dilakukan karena mengayomi dan melayani masayarakat adalah salah satu tugas
Pemerintah. Menurut Loura Hardjaloka banyak Negara termasuk Indonesia menerapkan e-
government dalam berbagai bentuk untuk meningkatkan prinsip-prinsip good governance dalam
rangka memberantas korupsi, diantaranya pengadaan barang dan jasa, perpajakan,dan juga
perizinan [1].
Pelayanan pengaduan dibentuk agar masyarakat dapat berpartisipasi dan memperbaiki

Received June 1st,2012; Revised June 25th, 2012; Accepted July 10th, 2012
2 ◼ ISSN: 1978-1520

pelayanan publik serta pembangunan di suatu daerah. pelayanan pengaduan dapat disediakan
dengan berbagai kanal akses. Kanal akses adalah suatu sarana atau fasilitas yang disediakan
oleh pemerintah untuk digunakan masyarkat agar terdapat interaksi antara keduanya [2].
Pada Aplikasi LAPOR! sangat diperlukan admin sebagai yang mengarahkan laporan
masyarakat kepada dinas terkait, jadi pengatahuan dari seoarang admin sangat diperlukan dan
juga admin harus 24 jam bekerja. Pada Keputusan Presiden Nomor 68 Tahun 1995 tentang hari
kerja di Lingkungan Lembaga Pemerintah, jam kerja pegawai negeri sipil hanya 7,5 jam saja
maka dari itu perlu adanya pengelompokan dokumen mengunakan kecerdasan buatan yang
mampu menyelesaikan permasalahan tersebut dan 24 jam bekerja. Data yang berbentuk text dan
kalimat harus di filter berdasarkan kata dasar atau keyword, maka diperlukan Text Mining untuk
mem-filter text dan kalimat. Text Mining adalah proses menemukan informasi dalam koleksi
dokumen, dan mengidentifikasi secara otomatis pola yang terbentuk, dan berhubungan dengan
informasi yang didapat dari kumpulan data yang tidak terstruktur [3].
Selain Text Mining perlu juga Algoritma untuk mengelompokan data berdasarkan
keyword dari text tersebut, di sini penulis lebih memilih Algoritma Naïve Bayes Classifiers.
Menurut penelitian Fitri Handayani, Metode Naive Bayes Classifiers yaitu salah satu metode
klasifikasi teks berdasarkan probabilitas kata kunci dalam membandingkan dokumen latih dan
dokumen uji [4].
Dalam penelitian D Gunawan tentang membangun keluhan pelanggan otomatis
penyaringan aplikasi berbasis di Twitter dalam Bahasa Indonesia. Hasil penelitian ini adalah
tingkat akurasi 97% untuk mengklasifikasikan pesan twitter ke dalam kategori yang disebutkan
sebelumnya. Penelitian ini menghasilkan aplikasi yang secara otomatis menyaring pesan twitter
dalam beberapa kategori yang telah ditentukan (berdasarkan divisi yang ada) menggunakan
algoritma Naïve Bayes [5].
Dalam penelitian A. P. Ajees dan S. M. Idicula tentang konten informasi melalui
internet meningkat dari hari ke hari. Banyak teks dan gambar ditambahkan ke web dalam setiap
detik yang tidak terstruktur khususnya Malayalam. Metode Neural Network ini mengungguli
semua metode yang ada di Malayalam NER (Hybrid, TnT, linguistic principles dan SVM)
dengan tingkat akurasi sebesar 95,3%. Jumlah data latih berbanding lurus dengan tingkat
akurasi sistem. Percobaan dengan 10 kali validasi silang dan penambahan suffix dapat
meningkatkan kinerja akurasi [6].
Murat AYDOĞAN dan Ali KARCI, [7] dalam penelitiannya tentang klasifikasi teks
berbahasa turki mampu menghasilkan akurasi sebesar 85,82% dengan kombinasi terbaik yaitu
algoritma Neural Network dengan struktur model GRU dengan implementasi PWV (Pre-trained
Word Vectors). Perbedaan hasil klasifikasi teks berbahasa turki yang berjumlah 1,5 juta dataset
antara Neural Network yang tidak menerapkan pelatihan vector kata dengan yang menerapkan
pelatihan vector kata dengan metode Word2Vec didapatkan tingkat akurasi sebesar 5-7% lebih
baik dengan penerapan pelatihan vector kata.
Dalam penelitian sebelumnya [8] dalam kasus multi label atau kelas di laman PubMed
dilakukan dua pendekatan dengan deep Neural Network yaitu metodologi pelabelan yang biasa
dan metode pelabelan HSLE (Hierarchical Label Set Expansion), didapatkan dengan penerapan
metode HSLE terhadap dataset untuk optimasi input dari Neural Network dapat meningkatkan
akurasi pengklasifikasian sebesar 10% dibandingkan dengan pelabelan yang biasa.
Penelitian lain terkait pengelompokan laporan pengaduan dalam aplikasi LAPOR! Gub
dengan Neural Network backpropagation, peneliti melakukan percobaan dengan jumlah label
yang berbeda yaitu 4 kelas dan 10. Dari hasil penelitian didapatkan hasil akurasi sebesar 43%
untuk dataset dengan label berjumlah 10 lebih kecil dari dataset dengan jumlah 4 kelas atau
label. semakin banyak jumlah label, mengakibatkan tingkat akurasi pengklasifikasian semakin
kecil dan menurun [9].
Pada penelitian ini dimana Aplikasi LAPOR! melakukan proses Text Mining agar dapat
mengolah dokumen atau kalimat menjadi keyword dan akan dikelompokan menggunakan
Algoritma Naïve Bayes dan Algoritma Neural Network, sehingga laporan yang disampaikan dari
masyarakat menggunakan media aplikasi dapat secara otomatis dikelompokan tanpa campur

IJCCS Vol. x, No. x, July 201x : first_page – end_page


IJCCS ISSN: 1978-1520 ◼ 3

tangan seorang admin. Serta dapat membuat sistem yang dapat memfilter setiap laporan
pengaduan baru yang masuk dengan mengklasifikasikan laporan tersebut berdasarkan instansi
yang berkaitan dan meneruskannya ke instansi tersebut secara otomatis. Penelitian ini bertujuan
untuk mengimplementasikan Algoritma Text Mining dengan membandingkan algoritma Naïve
Bayes dan algoritma Neural Network pada Aplikasi LAPOR! agar lebih akurat dan efisien
dalam pengelompokan dokumen secara otomatis dan maksimal.

2. METODE PENELITIAN

Adapun metode penelitian yang digunakan, sebagai berikut:

2.1 Metode Pengumpulan Data


Dalam pengumpulan data pada penelitian ini didapatan dari dua sumber data, yaitu
melalui data primer dan data sekunder.

2. 1.1 Data Primer


Data primer dalam penelitian ini didapatkan dari data laporan masyarakat dalam
aplikasi LAPOR! yang sesuai dengan pengklasifikasian data berdasarkan instansi di wilayah
Jakarta, seperti ditunjukkan dalam Tabel 1.
Tabel 1 Klasifikasi Dataset
No. Klasifikasi
1. PUPR (umum)
2. Dinas Pekerjaan Umum Provinsi DKI Jakarta
3. Dinas Penataan Kota Provinsi DKI Jakarta
4. Dinas Kesehatan (umum)
5. BPJS Ketenagakerjaan Jakarta
6. BPJS Kesehatan Jakarta
7. KEMENRISTEK DIKTI (umum)
8. Universitas Negeri Jakarta
9. Universitas Pembangungan Nasional Veteran Jakarta

2. 1.2 Data Sekunder


Data primer dalam penelitian ini didapatkan dari studi literatur berupa buku dan jurnal,
serta pencarian di internet.

2. 2 Alur Penelitian
Tahapan pada alur penelitian ini ditunjukkan pada Gambar 1. Dimulai dari identifikasi
masalah, melakukan studi literatur, kemudian pengumpulan data dari aplikasi LAPOR! dan
mendefinisikan dataset yang akan digunakan. Selanjutkan tahap teks preprocessing terbagi
menjadi 5 bagian yaitu : tokenization, case folding, filtering, stopping, dan stemming. Kemudian
tahapan penentuan data training dan data testing, pembobotanya menggunakan pembobotan TF-
IDF, tahapan berikutnya adalah komparasi dengan klasifikasi menggunakan naïve bayes dan
algoritma Neural Network. Setelah klasifikasi dengan 2 algoritma tersebut, selanjutnya adalah
analisis hasil komparasi menggunakan confussion matrix dan selesai.

Title of manuscript is short and clear, implies research results (First Author)
4 ◼ ISSN: 1978-1520

Mulai

Identifikasi Masalah

Studi Literatur

Pengumpulan data &


Mendefinisikan Dataset

Teks Preprocessing

Data Training &


Data Testing

Pembobotan TF-IDF

Klasifikasi Algoritma Klasifikasi Algoritma


Naïve Bayes Neural Network

Analisis Hasil Komparasi


Algoritma

Selesai

Gambar 1. Alur Penelitian

2. 3 Aplikasi LAPOR!
Pengaduan masyarakat merupakan suatu bentuk partisipasi masyarakat agar penyedia
pelayanan publik dapat mendengar keluhan dari masyarakat. Hal tersebut dilakukan dengan
tujuan agar pelayanan publik dapat memperhatikan apa yang menjadi kebutuhan masyarakat
sehingga tercipta pelayanan publik yang lebih baik. Sayangnya di sebagian besar lembaga
pemerintah masih menganggap pengaduan sebagai bentuk thread (ancaman) bagi
keberlangsungan organisasi [10].
LAPOR! adalah aplikasi media sosial yang melibatkan partisipasi publik dan bersifat
dua arah, yang digunakan sebagai alat bantu untuk melakukan monitoring dan verifikasi capaian
program pembangunan maupun pengaduan masyarakat terkait pelaksanaan program
pembangunan nasional. Aplikasi media sosial ini memungkinkan semua laporan dapat
terdokumentasikan dengan baik, serta menjadi suatu ruang diskusi antar masyarakat mengenai
isu-isu pembangunan nasional dan memungkinkan adanya interaksi antara masyarakat dan
pemerintah terkait masalah-masalah yang dilaporkan. Aplikasi LAPOR! berupaya untuk
menjembatani partisipasi publik dalam pembangunan nasional antara masyarakat umum dengan
pemerintah pusat [11].

2. 4 Data Mining
Secara sederhana, data mining adalah penambangan atau penemuan informasi baru
dengan mencari pola atau aturan tertentu dari sejumlah data yang sangat besar [12]. Data mining
juga disebut sebagai serangkaian proses untuk menggali nilai tambah berupa pengetahuan yang
selama ini tidak diketahui secara manual dari suatu kumpulan data [13]. Data Mining adalah
proses menemukan korelasi baru yang bermakna, dengan memilih pola dan tren melalui tempat

IJCCS Vol. x, No. x, July 201x : first_page – end_page


IJCCS ISSN: 1978-1520 ◼ 5

penyimpanan data dalam jumlah besar dengan menggunakan teknologi pengenalan pola serta
statistik dan teknik matematika [14].

2. 5 Teks Preprocessing
Persiapan Dokumen teks (Teks Preprocessing) merupakan tahapan proses yang
mengubah bentuk data yang sebelumnya tidak terstruktur menjadi data yang terstruktur [15].
Tahapan teks Preprocessing yang dilakukan diantaranya yaitu:
a. Tokenizing
Tokenizing adalah tahapan pemotongan dokumen teks, berdasarkan tiap kata yag menyusun.
Potongan kata tersebut disebut token atau term. Tahap ini dilakukan pengecekan dataset dari
karakter pertama sampai karakter terakhir.

b. Case Folding
Case Folding adalah tahapan pemrosesan teks, dimana semua teks diubah kedalam case yang
sama, menjadi huruf kecil semua.

c. Filtering
Filtering adalah tahapan pemrosesan teks, dimana semua teks yang memiliki tanda baca
akan dihilangkan.

d. Stopping
Stopping adalah tahapan pengilangan kata-kata yang tidak perlu atau yang sering kali mincul
dalam dokumen tetapi tidak memiliki arti seperti kata di, oleh, sebuah, dan lain sebagainya.

e. Stemming
Stemming adalah tahapan pengubhan bentuk kata menjadi kata dasar, menggunakan struktur
bahasa yang digunakan dalam proses stemming yaitu menggunakan algoritma stemming dari
Nazief dan Adriani.

2. 6 Pembobotan TF-IDF
Data yang telah melalui tahap preprocessing harus berbentuk numerik. Untuk
mengubah data tersebut menjadi numerik yaitu menggunakan metode pembobotan TF-IDF.
Metode Term Frequency Invers Document Frequency (TF-IDF) merupakan metode yang
digunakan menentukan seberapa jauh keterhubungan kata (term) terhadap dokumen dengan
memberikan bobot setiap kata. Metode TF-IDF ini menggabungkan dua konsep yaitu frekuensi
kemunculan sebuah kata di dalam sebuah dokumen dan inverse frekuensi dokumen yang
mengandung kata tersebut [16].
Dalam perhitungan bobot menggunakan TF-IDF, dihitung terlebih dahulu nilai TF
perkata dengan bobot masing-masing kata adalah 1. Sedangkan nilai IDF diformulasikan pada
Persamaan (1).

IDF(word) = (1)

IDF(word) adalah nilai IDF dari setiap kata yang akan di cari, td adalah jumlah
keseluruhan dokumen yang ada, df jumlah kemuculan kata pada semua dokumen. wordIDF.

Title of manuscript is short and clear, implies research results (First Author)
6 ◼ ISSN: 1978-1520

2. 7 Algoritma Naïve Bayes


Naive Bayes Classifier adalah sebuah metoda klasifikasi yang berdasar pada teorema
Bayes. Metode pengklasifikasian ini menggunakan metode probabilitas dan statistik yang
pertama kali dikemukakan oleh ilmuwan Inggris bernama Thomas Bayes, yaitu suatu metode
untuk memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya,
sehingga metode ini dikenal sebagai Teorema Bayes. Ciri utama dari Naive Bayes Classifier ini
adalah asumsi yang sangat kuat akan independensi dari masing-masing kondisi atau kejadian
[17].
Teorema bayes merupakan dasar aturan dari Naive Bayes classifier, berikut teorema
bayes akan disajikan pada Persamaan (2).

(2)

Dimana X merupakan data tuple hasil pengujian dari suatu set data yang telah
ditentukan masuk ke ke dalam kelas tertentu. H merupakan suatu hipotesis yang akan
menentukan X masuk ke dalam kelas C. P(H|X) merupakan peluang atau probabilitas X yang
merupakan data tuple atau bukti yang diperoleh pada saat observasi masuk ke dalam kelas C,
dengan kata lain mencari probabilitas X dimiliki oleh kelas C. P(H|X) merupakan probabilitas
posterior, H dikondisikan pada X. Sebaliknya P(H) merupakan probabilitas prior, atau
probabilitas sebelumnya. Kemudian P(X|H) merupakan probabilitas posterior dimana X
dikondisikan pada H. Sedangkan P(X) merupakan probabilitas sebelumnya dari X [18].
Dengan aturan Bayes maka penelitian ini akan mengimplementasikan aturan bayes
dengan studi kasus tertentu oleh karena itu aturan bayes dapat dinyatakan pada Persamaan (3)

(3)

Ket :
Wi = adalah kata ke i
Wi.C = jumlah kata wi dalam C(count)
|V| = total kata pada data testing
Count ( C ) = jumlah kata pada berdasarkan kategori

2. 8 Algoritma Neural Network


Neural Network (NN)) atau Jaringan Saraf Tiruan (JST), merupakan jaringan
dari sekelompok unit pemroses kecil yang dimodelkan berdasarkan jaringan saraf
manusia. Neural Network adalah sistem adaptif yang bisa mengubah strukturnya untuk
memecahkan masalah berdasarkan informasi eksternal maupun internal yang mengalir
melalui jaringan tersebut. Secara sederhana, Neural Network merupakan alat statistik
non-linier dan pemodelan. JST dapat digunakan untuk memodelkan hubungan yang
kompleks antara input dan output untuk menemukan pola-pola pada data [19].
Neural Network ditentukan oleh 3 hal [20] :
a. Pola hubungan antar neuron (disebut arsitektur jaringan).
b. Metode untuk menentukan bobot penghubung (disebut metode training atau learning
algoritma).
c. Fungsi aktivasi (fungsi transfer).
Multilayer Perceptron (MLP) disebut juga multilayer feedforward Neural
Network merupakan algoritma yang paling luas digunakan. Menurut Wong, Bodnovich,
dan Selvi [11], sekitar 95% aplikasi bisnis menggunakan Neural Network. Salah satu
kelebihan Neural Network adalah cukup baik dalam menangani data yang mengandung

IJCCS Vol. x, No. x, July 201x : first_page – end_page


IJCCS ISSN: 1978-1520 ◼ 7

noise [22].
MLP terdiri dari input layer, satu atau lebih hidden layer, dan output layer.
Berikut penjelasan masing-masing layer [11] :
1) Input Layer
Input layer untuk menerima nilai masukan dari tiap record pada data. Jumlah
simpul input sama dengan jumlah variabel prediktor.
2) Hidden Layer
Hidden layer mentransformasikan nilai input di dalam network. Tiap simpul
pada hidden layer terhubung dengan simpul-simpul pada hidden layer
sebelumnya atau dari simpul-simpul pada input layer dan ke simpul-simpul pada
hidden layer berikutnya atau ke simpul-simpul pada output layer.
3) Output Layer
Garis yang terhubung dengan output layer berasal dari hidden layer atau input
layer dan mengembalikan nilai keluaran yang bersesuaian dengan variabel
prediksi. Keluaran dari output layer biasanya merupakan nilai floating antara 0
sampai 1 [16].

2. 9 Confusion Matrix
Evaluasi kinerja dari model klasifikasi berdasarkan faktor atau variabel akurasi dalam
memprediksi sesuatu kalimat yang baru menggunakan Confusion Matrix. Tingkat akurasi
prediksi adalah parameter atau acuan dalam melakukan pengukuran kebenaran atau ketepatan
klasifikasi suatu kalimat baru berdasarkan dari model yang telah dibuat dari proses training
data. Akurasi digunakan untuk mengukur efektifitas dari metode atau algoritma yang digunakan
dalam proses klasifikasi. Pengukuran tingkat kemampuan suatu algoritma dalam klasifikasi
adalah Presisi dan Recall. Beberapa parameter di atas dinyatakan dalam persentase, sehingga
suatu model yang memiliki nilai akurasi mendekati 100% berarti dapat dikatakan baik [23].
Pada Tabel 2. merupakan aturan atau rumus perhitungan Confusion Matrix dalam menentukan
nilai Akurasi, Presisi dan Recall.
Tabel 2. Confusion Matrix
Kategori True Value
True False
Hasil Klasifikasi True TP (True Positive) FN (False Negative)
False FP (False Positive) TN (True Negative)

Pada Tabel 2 menunjukkan bahwa hasil klasifikasi berkaitan dengan kelas yang benar
(TP), klasifikasi berkaitan dengan kelas yang salah (FP), klasifikasi tidak berkaitan dengan kelas
yang benar (TN), dan klasifikasi tidak berkaitan dengan kelas yang salah (TP). Hasil klasifikasi
tersebut digunakan untuk menentukan akurasi, recall, dan presisi pada persamaan (4), (5). dan
(6).
a. Akurasi
(4)

b. Recall
(5)

c. Presisi
(6)

Title of manuscript is short and clear, implies research results (First Author)
8 ◼ ISSN: 1978-1520

3. HASIL DAN PEMBAHASAN

3. 1 Teks Preprocessing
Sebelum dilakukan proses klasifikasi dengan algoritma Naive Bayes dan Neural
Network, dataset yang digunakan perlu dilakukan preprosesing untuk mendapatkan fitur yang
tidak terlalu meluas. Contoh proses text preprocessing menggunakan salah satu dari dataset,
yaitu dengan kalimat “Kepada Yth. Pemerintah Provinsi DKI Jakarta. Yth. Dinas kesehatan
Jakarta Timur. Saya mau menanyakan. Alamat untuk menonaktifkan kartu KJS di mana ? Saya
berdomisili di Jakarta Timur . Dan surat2 yg harus di bawa apa saja. Terima kasih”. Dari
kalimat ini akan dilakukan beberapa tahapan proses dari text preprocessing yang akan
diperlihatkan hasil dari setiap proses/tahap-tahapnya.
a. Tokenizing
Proses tokenizing merupakan proses memecah kalimat menjadi susunan kata-kata penyusun
kalimat tersebut, di mana sistem akan mengecek jika terdapat kata yang duplikat maka akan
diambil salah satu yang pertama muncul.
Kepada | Yth. | Pemerintah | Provinsi | DKI | Jakarta. | Yth. | Dinas | kesehatan
| Jakarta | Timur. | Saya | mau | menanyakan. | Alamat | untuk | menonaktifkan |
Kartu | KJS | di | mana | ? | Saya | berdomisili | di | Jakarta | Timur. | Dan |
surat2 | yg | harus | di | bawa | apa | saja. | Terima | Kasih

b. Case Folding
Tahap ini merupakan proses mengubah kata-kata menjadi lower case.
kepada yth. pemerintah provinsi dki jakarta. yth. dinas kesehatan jakarta timur.
saya mau menanyakan. alamat untuk menonaktifkan kartu kjs di mana ? saya
berdomisili di jakarta timur. dan surat2 yg harus di bawa apa saja. terima kasih

c. Filtering
Tahap filtering ini akan memilah dari kalimat dan membuang tanda baca dan semua karakter
selain huruf dan angka.
kepada yth pemerintah provinsi dki jakarta yth dinas kesehatan jakarta timur saya
mau menanyakan alamat untuk menonaktifkan kartu kjs di mana saya berdomisili di
jakarta timur dan surat2 yg harus di bawa apa saja terima kasih

d. Stopping
Proses ini akan menghilangkan kata-kata yang tidak begitu berpengaruh terhadap pembuatan
fitur, seperti kata sambung. Proses stopping pada penelitian ini menggunakan library
bernama “sastrawi” karena dataset yang penulis gunakan berbahasa indonesia.
dki jakarta dinas kesehatan jakarta timur alamat menonaktifkan kartu kjs
berdomisili jakarta timur surat2 bawa

e. Stemming
Proses steeming adalah proses pencarian kata dasar dari setiap kata-kata di kalimat tersebut.
Proses ini akan menghilangkan awalan, sisipan dan akhiran pada kata dan akan dicocokan
dengan kamus kata dasar, jika kata dasar hasil proses steeming ini terdapat di dalam kamus
maka akan tersebut akan disimpan, akan tetapi jika tidak terdapat dalam kamus maka akan
diabaikan.
dki jakarta dinas sehat jakarta timur alamat nonaktif kartu kjs domisili jakarta
timur surat2 bawa

3.2. Data Training


Data training digunaan untuk membentuk sebuah model classifier. Data yang digunakan
untuk proses mining ini sebanyak 80% data training atau 216 data laporan dari total 270 data
laporan. Hasil klasifikasi yang digunakan dalam penelitian ini adalah data laporan yang sudah
divalidasi sesuai aplikasi LAPOR! yang dapat ditunjukkan pada Tabel 3.
Tabel 3. Data Training

IJCCS Vol. x, No. x, July 201x : first_page – end_page


IJCCS ISSN: 1978-1520 ◼ 9

No. Kalimat Label/Kelas


1. mohon agar memperbaiki jalanan di pemukiman kami jln. Lomba raya jakarta timur. jalan PUPR (umum)
rusak parah dan selalu basah seperti ada air yang keluar dari tanah

2. tolong perbaiki jembatan penyebrangan di daerah jakarta selatan khususnya daerah cilandak Dinas Pekerjaan Umum
Provinsi DKI Jakarta

3. mohon ditertibkan bangunan liar di sepanjang jl. Pondok pinang 6 kec. Kebayoran lama Dinas Penataan Kota
jakarta selatan Provinsi DKI Jakarta

4. Kecelakaan yang melibatkan mobil milik Dinas Kesehatan. yang menabrak mobil Dinas Kesehatan
masyarakat sampai saat ini belum ada pertanggungjawaban dari pihak Dinas Kesehatan (umum)

5. mohon pentujuknya kartu bpjs ketenagakerjaan hilang dan nama tdk sesuai mohon solusinya BPJS Ketenagakerjaan
bapak/ibu kantor bpjs ketenagakerjaan Jakarta

6. Saya mau cek tagihan BPJS Kesehatan untuk kartu dengan nomor 0001659144688. dan BPJS Kesehatan Jakarta
apakah saya bisa minta alamat BPJS Kesehatan Jakarta Pusat?

7. Apakah ada universitas/lembaga pendidikan di indonesia jenjang s1 membuka prodi dengan KEMENRISTEK
nama: pertanian? DIKTI (umum)
8. saya lulusan tahun 2017 tapi baru masuk UNJ (univeritas negeri jakarta) pada tahun 2018. Universitas Negeri
waktu SMA saya pernah mendapat KJP apakah disemester 1 bisa mengajukan KJMU? Jakarta

………………
216. Ospek maba di UPN veteran jakarta yang tidak sopan. karena kakak tingkat berbicara sambil Universitas
membentak dan berteriak didepan dan di telinga kami Pembangunan Nasional
Veteran Jakarta

3. 3 Hasil Klasifikasi Algoritma


Pada Tabel 4, menunjukkan hasil komparasi pengimplementasian menggunakan
algoritma naïve bayes dan Neural Network dengan data uji (data testing) sebanyak 20% atau 54
data laporan. Data tersebut merupakan data yang telah divalidasi pada aplikasi LAPOR!.
Tabel 4. Hasil Komparasi
Neural
No. Kalimat Manual Naïve Bayes Keterangan
Network
1. saya mau melaporkan ada dua lampu jalan PUPR (umum) PUPR (umum) PUPR Akurat
yang tidak berfungsi di jalan demang 4 (umum)

2. sodetan dari ciliwung lewat bidara cina ke Dinas Pekerjaan Dinas Dinas Akurat
BKT kapan ditindaklanjuti? Umum Provinsi Pekerjaan Pekerjaan
DKI Jakarta Umum Umum
Provinsi DKI Provinsi DKI
Jakarta Jakarta

3. diharapkan perhatian dan tindak lanjutannya Dinas Penataan Dinas PUPR Naïve Bayes
atas kondisi perumahan taman kencana Kota Provinsi Penataan Kota (umum) Akurat.
kelurahan cengkareng barat yang masih DKI Jakarta Provinsi DKI
seperti tahun-tahun sebelumnya selalu Jakarta Neural
diterjang banjir Network
Tidak
Akurat.

4. kepala dinas kesehatan kota Jakarta. mohon Dinas Kesehatan Dinas Dinas Akurat
infonya rumah sakit atau puskesmas yang (umum) Kesehatan Kesehatan
melayani tes (umum) (umum)

5. Tolong infonya kenapa saat saya mau di BPJS BPJS BPJS Akurat
daftarkan bpjs ketenagakerjaan secara online Ketenagakerjaan Ketenagakerja Ketenagakerja
oleh perusahaan tempat saya kerja tidak bisa Jakarta an Jakarta an Jakarta
terdaftar.katanya ktp tidak terdaftar dan
bagaimana solusinya ?

6. Pendaftaran online bpjs kesehatan down BPJS Kesehatan Dinas Dinas Tidak Akurat
sampai kapan?mohon untuk segera Jakarta Kesehatan Kesehatan
dipulihkan.terimakasih (umum) (umum)

7. Pak nama saya di cek di forlap dikti nya salah KEMENRISTEK KEMENRIST KEMENRIST Akurat

Title of manuscript is short and clear, implies research results (First Author)
10 ◼ ISSN: 1978-1520

dan nomor ijazahnya juga masih kosong. DIKTI (umum) EK DIKTI EK DIKTI
bagaimana ya? (umum) (umum)

8. apakah di univeritas negeri jakarta menerima Universitas Universitas Universitas Naïve Bayes
mahasiswa program sit in? Negeri Jakarta Pembangunan Negeri Jakarta Tidak
Nasional Akurat.
Veteran
Jakarta Neural
Network
Akurat.
…………………………
54. saya lalai dan lupa melengkapi registrasi Universitas Universitas Universitas Akurat
online di universitas pembangunan nasional Pembangunan Pembangunan Pembangunan
veteran jakarta. apakah saya masih bisa Nasional Veteran Nasional Nasional
memperbaikinya ? Jakarta Veteran Veteran
Jakarta Jakarta
Pada tabel 4. diperlihatkan hasil komparasi proses pengujian menggunakan sampel
masing-masing kelas diambil 1 kalimat untuk dilakukan pengujian. Dari hasil pengujian dari
kedua algoritma sama-sama memiliki kesalahan pengklasifikasian 2 kelas akan tetapi berada di
kelas yang berbeda. Hal tersebut dapat terjadi karena proses training data sebanyak 80% dari
dataset diambil secara acak oleh sistem. Kemudian pada baris ke 6 menunjukkan bahwa dari
kedua algoritma ini tidak akurat dalam menentukan kelas dari kalimat yang dimasukkan, hal
tersebut terjadi karena kalimat pada kelas BPJS Kesehatan Jakarta memiliki kata kunci dan fitur
yang hampir mirip dengan kelas Dinas Kesehatan (umum).

3. 4 Analisis Hasil Akurasi


Hasil klasifikasi dari pengimplementasian sistem dengan algoritma naïve bayes dan
Neural Network pada data uji (data testing) sebanyak 54 data laporan, maka diperoleh hasil
komparasi akurasi yang ditunjukkan pada Tabel 5 dan Tabel 6.
Tabel 5. Hasil Akurasi Algoritma Naïve Bayes
Formula Hasil
Recall
= 88%

Presisi = 88%

Akurasi = 88%

Tabel 6. Hasil Akurasi Algoritma Neural Network


Formula Hasil
68,61%
Recall
74,68%
Presisi
81,48%
Akurasi

Percobaan ini menggunakan dataset LAPOR! yang penulis dapatkan dari aplikasi
LAPOR!. Dataset yang penulis dapatkan sebanyak 270 data yang telah terdisposisi ke instansi
terkait permasalahan yang dilaporkan oleh masyarakat. Sebanyak 270 data ini terdiri dari 9
klasifikasi kelas dengan setiap kelas terdiri dari 30 dataset. Proses training data menggunakan
80% dari total dataset, dan sisanya sebanyak 20% sebagai data testing atau data uji. Sebelum
dilakukan proses klasifikasi dengan algoritma Naive Bayes dan Neural Network, terlebih dahulu
dilakukan teks preprocessing. Pada proses steeming dan stopping word menggunakan library
Sastrawi karena dataset yang digunakan menggunakan bahasa Indonesia. Hasil pengujian
menggunakan 20% dataset sebagai data uji, didapatkan nilai confussion matrix seperti pada
Tabel 5 dan Tabel 6.
Pada penelitian ini algoritma Naive Bayes mencapai akurasi sebesar 88% lebih baik dari
penelitian serupa[4] yang menggunakan dataset sejumlah 113 dokumen yang dibagi menjadi 3

IJCCS Vol. x, No. x, July 201x : first_page – end_page


IJCCS ISSN: 1978-1520 ◼ 11

kelas/label. Preprocessing text pada penelitiannya hampir sama dengan penelitian penulis, akan
tetapi pada penelitiannya tanpa melalui proses pembototan TF-IDF yang hanya mencapai
akurasi sebesar 82%. Sedangkan pada penelitian ini algoritma Neural Network akurasi mencapai
81,48% lebih baik dibandingkan penelitian sebelumnya yang dilakukan oleh [9] dengan jumlah
dataset sebanyak 300 dengan jumlah 10 kelas menggunakan algoritma Neural Network yang
hanya mencapai akurasi sebesar 43% karena pada penelitiannya text preprocessing tidak
melalui proses stopping word dan steeming.

4. KESIMPULAN

Dari hasil percobaan didapatkan nilai akurasi tertinggi pada algoritma Naive Bayes
sebesar 88%, sedangkan pada algoritma Neural Network sebesar 81,48%. Kemudian penulis
melakukan pengurangan dataset sebanyak 50% dari total 270 menjadi 135 data dan dilakukan
klasifikasi dengan algoritma Naive Bayes dan Neural Network. Dari hasil percobaan
didapatkan, nilai akurasi algoritma Naive Bayes sebesar 85% dan Neural Network sebesar
66,67%. Pada algoritma Naive Bayes jumlah dataset tidak terlalu berpengaruh secara signifikan,
akan tetapi pada algoritma Neural Network sangat berpengaruh signifikan terhadap nilai akurasi.
Dari hasil kedua percobaan tersebut dapat ditarik kesimpulan bahwa semakin banyak dataset
yang digunakan, maka nilai akurasi pada algoritma Neural Network semakin tinggi, sedangkan
pada algoritma Naive Bayes tidak begitu berpengaruh signifikan. Komparasi dari kedua
algoritma :
a. Algoritma Naive Bayes memiliki kelebihan dapat mengklasifikasikan dataset dengan data
yang minim atau sedikit dapat menghasilkan nilai akurasi yang tinggi.
b. Algoritma Naive Bayes kurang cocok digunakan untuk klasifikasi dengan jumlah dataset
yang banyak, karena jumlah data yang banyak tidak terlalu berpengaruh terhadap kenaikan
nilai akurasinya.
c. Algoritma Neural Network memiliki kemampuan klasifikasi yang kurang baik dan tidak
cocok untuk klasifikasi dengan jumlah dataset yang minim atau sedikit.
d. Jumlah dataset yang digunakan sangat berpengaruh terhadap kenaikan nilai akurasi dari
algoritma Neural Netwok, semakin banyak dataset yang digunakan maka semakin tinggi
juga nilai akurasinya

5. SARAN

Berdasarkan kesimpulan yang telah dipaparkan maka untuk penelitian lebih lanjut dapat
melakukan pelatihan vektor kata (pre-trained word vectors) sebelum dilakukan klasifikasi
dengan algoritma Neural Network, seperti pada penelitian [7] dapat meningkatkan akurasi
kurang lebih 5-7%. Untuk menambah parameter perbandingan kemampuan dari kedua
algoritma dapat dilakukan skenario terhadap jumlah kelas yang digunakan mulai dari 3 kelas, 9
kelas, dan seterusnya untuk melihat pengaruh dari jumlah kelas yang digunakan terhadap nilai
akurasi yang dihasilkan dari kedua algoritma tersebut.

DAFTAR PUSTAKA

[1] Hardjaloka, L. (2014). Studi Penerapan E-Government di Indonesia dan Negara Lainnya
sebagai Soluso Pemberantasan Korupsi di Sektor Publik. Journal RechtsVinding, Volume 3
Nomor 3, 435-452.

[2] Indrajit, R. E. (2004). Electronic Government – Strategi Pembangunan dan Pengembangan


Sistem Pelayanan Publik Berbasis Teknologi Digital. Yogyakarta: ANDI.

Title of manuscript is short and clear, implies research results (First Author)
12 ◼ ISSN: 1978-1520

[3] Ronen Feldman, J. S. (2007). The Text Mining Handbook : Advanced Approaches in
Analysing Unstructured Data. New York: Cambridge University Press..

[4] Fitri Handayani, F. S. (2015). Implementasi Algoritma Naive Bayes Classifier dalam
Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan
Call Center 110. Jurnal Teknik Elektro Vol. 7 No. 1 , 19-24.

[5] D Gunawan, R. P. (2017). Building automatic customer complaints filtering application


based on Twitter in Bahasa Indonesia. Journal of Physics: Conference Series, 1-7.

[6] A. P. Ajees and S. M. Idicula, “A named entity recognition system for malayalam using
neural networks,” Procedia Comput. Sci., vol. 143, pp. 962–969, 2018.

[7]M. Aydoğan and A. Karci, “Improving the accuracy using pre-trained word embeddings on
deep neural networks for Turkish text classification,” Phys. A Stat. Mech. its Appl., 2019.

[8]F.Gargiulo, S. Silvestri, M. Ciampi, and G. De Pietro, “Deep neural network for Hierarchical
extreme multi-label text classification,” Appl. Soft Comput. J., vol. 79, pp.125–138, 2019.

[9]D.Yuliana and C. Supriyanto, “Klasifikasi Teks Pengaduan Masyarakat Dengan


Menggunakan Algoritma Neural Network,” vol. 5, no. 3, pp. 92–118, 2019.

[10] Rudy Cahyadi, A. D. (2019). TEKNOLOGI FIREBASE UNTUK APLIKASI LAPOR


AKAKOM. Jurnal Informatika dan Komputer (JIKO) – Volume 4, Nomor 1, 11-17

[11] KRISTANTO, Y. (2018). INOVASI PELAYANAN PUBLIK DALAM RANGKA


MEWUJUDKAN E GOVERNMENT ( STUDI KASUS PELAKSANAAN APLIKASI
LAPOR HENDI). Journal of Public Administration and Local Governance, 1-11.

[12] Beynon-Davies, P. (2004). DATABASE SYSTEMS THIRD EDITION. New York: Palgrave
Macmillan.

[13] Pramudiono, I. (2007). Pengantar Data mining : Menambang Permata Pengetahuan di


Gunung.

[14] Larose, D. T. (2006). Data mining Methods and Models. Jhon Wiley & Sons, Inc: New
Jersey.

[15] Feldman, R. & Sanger, J. 2007. The Text Mining Handbook-Advanced Approaches in
Analyzing Unstructured Data, USA: New York.

[16]Fitri, Meisya. (2013). Perancangan Sistem Temu Balik Informasi Dengan Metode
Pembobotan Kombinasi Tf-Idf Untuk Pencarian Dokumen Berbahasa Indonesia.
Universitas Tanjungpura : Semarang.

[17] M. Syukri Mustafa., 2017, Implementasi Data Mining untuk Evaluasi Kinerja Akademik
Mahasiswa Menggunakan Algoritma Naive Bayes Classifier, Vol. 4, No. 2, Citec Journal,
2460-4259.

[18] Han, J., and M.Kamber., 2006, Data Mining Concept and Techniques Second Edition,
Elsevier, San Frasisco.

IJCCS Vol. x, No. x, July 201x : first_page – end_page


IJCCS ISSN: 1978-1520 ◼ 13

[19] Krizhevsky A., Sutskever I, and Hinton G.E., "ImageNet Classification with Deep
Convolutional Neural Network," University of Toronto, Canada, Paper 2012.

[20] Lam S.L.Y. and Lee D.L., "Feature Reduction for Neural Network Based Text
Categorization," in Proceedings of the Sixth International Conference on Database Systems
for Advanced Application, Taiwan, 2008, pp. 195-202.

[21] Wu X and Kumar V, "Top 10 Algorithms In Data Mining," vol. I, no. 14, pp. 1-
37,Desember 2008.

[22] Larose D.T., Discovering Knowledge In Database. New Jersey, Amerika Serikat:
John Willey & Sons Inc, 2008.

[23] Ikonomakis M., Kotsiantis S, and Tampakas V., "Text Classification Using Machine
Learning Techniques," WSEAS Transactions on Computers, vol. 4, no. 8, pp. 1-9, August
2005.

Title of manuscript is short and clear, implies research results (First Author)

Anda mungkin juga menyukai