Anda di halaman 1dari 9

Jurnal Teknik Komputer AMIK BSI

Volume VI No.1 Januari 2020


P-ISSN 2442-2436, E-ISSN: 2550-0120
Akreditasi Ristekdikti, No: 21/E/KPT/2018
DOI: 10.31294/jtk.v4i2

Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan


Algoritma Genetika Pada Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Deni Gunawan1, Dwiza Riana2, Dian Ardiansyah3, Fajar Akbar4, Salman Alfarizi5
1,3
Program Studi Sistem Informasi Universitas Bina Sarana Informatika
1
e-mail : deni.dee@bsi.ac.id
3
e-mail : dian.did@bsi.ac.id
5
e-mail : salman.slz@bsi.ac.id
2
Program Studi Magister Ilmu Komputer STMIK Nusa Mandiri
2
dwiza@nusamandiri.ac.id
4
Program Studi Teknik Informatika STMIK Nusa Mandiri
4
fajar.fkb@nusamandiri.ac.id

Diterima Direvisi Disetujui


12-11-2019 09-01-2020 02-02-2020

Abstrak – Kontestasi politik dalam penentuan menjadi pemimpin tingkat provinsi dalam hal ini gubernur jawa
barat 2018-2023. Masyarakat yang memberikan opininya berupa tweet pada media sosial twitter menentukan
bentuk dukungan atau tidaknya, sehingga perlu adanya analisis sentimen terhadap calon Gubernur agar
mengetahui tingkat kepercayaan masyarakat serta terbentuk citra kepada calon Gubernur Jawa Barat 2018-2023.
Akan tetapi membaca keseluruhan tweet yang tersebar dalam twitter yang berkaitan dengan masing-masing
calon gubernur akan memakan waktu dan membingungkan dalam pengambilan keputusan. Klasifikasi sentimen
akan mengurai masalah mengenai opini, pendapat, emosi dan prilaku dengan studi komputasi. Metode klasifikasi
yang akan dibahas dalam penelitian yaitu dengan algoritma Naïve Bayes serta Support Vector Machine.
Penentuan fitur menentuka hasil akurasi, dalam penentuan fitur seleksi digunakan Genetic Algorithm agar dapat
meningkatan akurasi pengklasifikasian pada Support Vector Machine dan Naive Bayes. Perolehan penelitian ini
yaitu klasifikasi teks dalam pola negatif atau positif dari tweet calon gubernur jawa barat 2018-2023. Pada
dataset tidak seimbang Support Vector Machine menghasilkan rata-rata akurasi 92.61% dengan AUC 0,950,
Naive Bayes menghasilkan rata-rata akurasi 93,29% dengan AUC 0,525, Support Vector Machine berbasis
Genetic Algorithm menghasilkan rata-rata akurasi 93,03% dengan AUC 0,869, Naive Bayes berbasis Genetic
Algorithm menghasilkan rata-rata akurasi 92,85% dengan AUC 0,543. Hasil ini menunjukan bahwa Support
Vector Machine dapat digunakan untuk membangun deteksi tweet klasifikasi positif dan negatif dengan tingkat
akurasi yang tinggi. Kebaruan dari penelitian ini adalah bahwa Support Vector Machine dapat digunakan untuk
mendeteksi tweet pada dataset twitter berbahasa indonesia penulis.
Kata Kunci : Sentimen Analisis, Support Vector Machine, Naive Bayes, Genetic Algorithm.

Abstract - Political dispute was determines provincial level in West Java Governor 2018- 2023. A society gave
their opinions in social media on twitter to support or not, then it needed sentiment analysis against Governor
prospective in order to find out trust level of community and formed the image to West Java Governor's
prospective e 2018-2023. Reading the whole tweet in the twitter related to each Governor’s prospective wasted
time and confused on decision making. Sentiment classification decreased the problem using computer literate
about opinions, behaviours and emotions of a person against the entity. This research will be discussed about
the classification techniques with the Support Vector Machine method and Naive Bayes. The selection features
will be affected the accuracy of classification, it was using Genetic Algorithm in order to improve the accuracy
of classification on Support Vector Machine and Naive Bayes. This research resulted in texts classification of
positive or negative from West Java Governor's prospective tweet s 2018-2023. On the unbalanced datasets
Support Vector Machine produces an average of 92.61% accuracy with AUC 0,950, Naive Bayes generates an
average of 93.29% accuracy with AUC 0,525, Support Vector Machine-based Genetic Algorithm produces an
average accuracy of 93.03% with AUC 0,869, Naive Bayes-based Genetic Algorithm produces an average
accuracy of 92.85% with AUC 0,543. These results suggested that Support Vector Machine can be used to build
the detection positive and negative classification in tweet with a high accuracy. Support Vector Machine can be
used to detect a tweet on twitter dataset speak Indonesian writer as the lastest of this research.
Keywords: Analysis Sentiment, Support Vector Machine, Naive Bayes, Genetic Algorithm

http://ejournal.bsi.ac.id/ejurnal/index.php/jtk 121
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

PENDAHULUAN Machine (SVM) dan Particle Swarm Optimization


(PSO) atau sentimen opini analisis (Basari, Hussin,
Indonesia sebagai pengguna internet yang dengan
Ananta, & Zeniarja, 2013). Machine Learning yang
pesat perkembangannya, menurut Asosiasi
memperkenalkan klasifikasi teks seperti Naive
Penyelenggara Jasa Internet Indonesia (APJII) survei
Bayes, K-NN, SVM dan Rocchio Classification
data statistik pengguna internet indonesia tahun 2016,
(Ramesh & Sathiaseelan, 2015).
data yang dilansir kompas 2016 tercatat pengguna
Pada penelitian ini akan menjelaskan lebih detail
internet melalui ponsel pintar berbasis android di
untuk mengoptimasi Algoritma klasifikasi. Menurut
Indonesia kini sudah mencapai 132,7 juta pengguna.
Zukhri Optimasi adalah proses menyelesaikan
Mayoritas konsumsi internet di Indonesia adalah
masalah tertentu yang berada pada kondisi yang
untuk menggunakan jejaring media social, dengan
paling menguntungkan dari sudut pandang. Yang
pengguna media sosial pada di angka 40%, adapaun
memecahkan masalah terkait erat dengan data yang
pengguna aktifnya sebesar 34%. Dalam mengakses
dapat diekspresikan edinone atau beberapa variabel
media sosial tersebut berada di angka 39% dengan
(Zukhri, 2014). Algoritma Genetika adalah metode
perangkat mobile.
heuristik yang dikembangkan berdasarkan prinsip-
Kampanye politik akan sering kali terjadi dalam
prinsip genetika dan proses seleksi alam teori evolusi
proses perebutan panggung politik sehingga menjadi
Darwin. Metode optimasi dikembangkan oleh John
sesuatu hal yang lumrah dalam suatu negara. Tidak
Holl dan sekitar tahun 1960 dan dipopulerkan oleh
dapat dielakan bahwa kampanye yang dilakaukan
salah seorang muridnya, David Gold bergin tahun
para actor politik merupakan pencarian segmentasi
1980-an. Penyempurnaan proses pencarian dalam
pemilih agar mendapat dukungan penuh (Alfiah,
algoritma terjadi seperti pemilihan individu untuk
Susanti, Kristinna, Ardiansyah, & Pradipta, 2015).
bertahan dalam proses evolusi (Zukhri, 2014).
Beberapa tahun terakhir telah melihat gelombang
Dari uraian tersebut diatas, maka dalam
kepentingan dalam metode komputasi yang memiliki
penelitian ini akan digunakan metode Support Vector
pengaruh terhadap opinion mining, untuk deteksi
Machine dan Naïve bayes yang dipadu dengan
subyektivitas, dan analisis sentiment (Balahur,
Algoritma Genetika yang akan mengoptimasi
Mihalcea, & Montoyo, 2014). Twitter adalah
parameter Support Vector Machine.
layanan microblogging real time populer yang
memungkinkan pengguna untuk berbagi informasi
METODOLOGI PENELITIAN
singkat dikenal sebagai tweets yang dibatasi 140
karakter. Twitter adalah platform yang ideal untuk A. Perencanaan Penelitian
ekstraksi pendapat masyarakat umum pada isu-isu Pada dasarnya, penelitian merupakan suatu
spesifik, mengungkapkan sesuatu keluhan dan investigasi yang terorganisasi, yang dilakukan untuk
meluapkan sentimen yang negatif atau positif. menyajikan suatu informasi dan memecahkan
(Sarlan, Nadam, & Basri, 2015)(Wahyudi & Putri, masalah. Metode penelitian yang digunakan penulis
2016). Bahkan terdapat perusahaan mendalami reaksi menggunakan metode penelitian eksperimen.
pengguna dalam sebuah produk manufactur dengan Adapun metode penelitian yang penulis gunakan
platform twitter (Wahyudi & Putri, 2016). Twitter melalui beberapa tahapan sebagai berikut:
kini lebih banyak karakter yang disediakan dalam a. Pengumpulan Data
setiap cuitan, yang sebelumnya 140 menjadi 280 Data yang digunakan untuk melakukan
karakter (Bohang, 2017). eksperimen dikumpulkan melalui tweet dari
Jutaan bahkan ratusan juta pengguna dapat twitter diambil menggunakan aplikasi
mencurahkan pemikiran serta opini mereka mengenai rapidminer.
aspek-aspek kehidupan pada platform micro- b. Pengolahan Data awal
blogging pribadinya. Oleh karenanya cuitan pada Menentukan metode yang akan dipakai pada
twitter adalah basis informasi yang dapat proses pengujian data. Berdasarkan metode
mempertimbangkan sebuah keputusan serta terdahulu dengan ketentuan metode yang
menganalisis sentimen. Kemunculan media sosial terbaik dari pengklasifikasian teks. Penelitian
memberikan keleluasaan dalam mengungkapkan ini menggunakan metode Algoritma Support
pemikiran dan mengekspresikan setiap penguna Vector Machine dan Naïve Bayes.
dalam topik yang bermacam-macam pada wadah c. Metode yang Diusulkan
yang sama (Balahur et al., 2014). Dengan pengguna Metode yang diajukan dalam hal ini penulis
telah hampir 600 juta serta pesan per hari mencapai melakukan komparasi atau perbandingan
250 juta, menjadikan twitter sumber informasi serta metode SVM dan NB dengan melakukan
peluang besar bagi organisasi dalam mengontrol peningkatan optimasi yang digunakan, yaitu
merek mereka dari pesaing dan postingan cuitan di dengan Genetic Algorithm (GA).
pasar public (Balahur et al., 2014). d. Eksperimen dan Pengujian Metode
Beberapa penelitian sebelumnya mengenai ulasan
film menggunakan klasifikasi Support Vector
122 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

Eksperimen yang dilakukan peneliti, sedangkan karakter khusus atau tanda baca
menggunakan framework RapidMiner 8.2. akan dihilangkan. Jadi hasil dari proses
untuk mengolah data tweet sebagai alat bantu Tokenization adalah kata-kata yang
pengukuran sehingga menghasilkan nilai merupakan penyusun kalimat atau string yang
akurasi yang akurat. dimasukan tanpa ada tanda baca (Crc,
e. Evaluasi Performa dan Validasi Hasil Hofmann, & Chisholm, 2016).
Evaluasi b. Indonesian Stemming
Evaluasi menggunakan confusion matrix Proses stemming adalah variasi dari kata di
untuk mengetahui akurasi, presisi dan recall. kelompokkan dengan penghilangan imbuhan
Menurut Han confusion matrix adalah alat sehingga memiliki kata dasar yang sama
yang sangat berguna untuk menganalisis (Aggarwal, 2015).. Proses pencarian kata
seberapa baik classifier dapat dalam sebuah dokumen agar mengetahui
mengidentifikasi tupel dari kelas yang berbed seberapa banyak kata yang kemudian
(Han, Kamber, & Pei, 2012). Dalam beberapa dilakukan pembobotan menggunakan TF-
confusion matrix dikenal istilah True positive IDF.
yang merujuk pada tuple positif yang diberi c. Indonesian Stopword Removal
label dengan benar oleh classifier, sedangkan Proses Stopword Removal setiap kata yang
True negative adalah tuple negatif yang selalu muncul namun sedikit memberikan
diberi label dengan benar oleh classifier. Ada informasi dari isi dokumen, sebagai contoh
juga false positive yang merupakan tuple seperti “apa”,”sebuah”,”untuk”, kata
negatif yang salah diberi label oleh classifier, sambung dan sebagainya (Aggarwal,
dan false negative adalah tuple positif yang 2015)(Crc et al., 2016).
tidak diberi label dengan benar oleh d. Generate N-Gram
classifier. Kurva ROC (Receiver Operating Generate N-Gram merupakan urutan
Characteristic) membagi hasil positif pada kombinasi kata yang berdekatan dari n item
sumbu y dan hasil negatif pada sumbu x dari ekstrak teks dalam sebuah dokumen dari
dalam bentuk AUC (Area Under the Curve). dua, tiga, empat atau lebih kata. N-gram yang
Jadi semakin besar area di bawah kurva, umum digunakan dalam text mining adalah
semakin baik hasil prediksi. yang bisa unigrams, bigrams, dan trigram. Bigram
mengubah orientasi pendapat juga tidak digunakan untuk mengenerator fitur positif
sebanding dengan yang buruk (Witten, Frank, dan negatif (Crc et al., 2016).
Hall, & Pal, 2016).
D. Metode Yang Usulkan
B. Pengumpulan Data Awal Dalam penelitian ini metode algoritma yang
Peneliti menggunakan data tweet pemilihan diusulkan adalah penggunaan 2 (dua) jenis metode
gubernur jawa barat 2018. Data yang dikumpulkan algoritma yaitu Support Vector Machine (SVM) dan
dari www.twitter.com dibantu dengan framework Naïve Bayes (NB) yang kemudian di tambah sebuah
rapid miner, untuk jenis data tweet pasangan calon seleksi fitur yaitu Genetic Algorithm (GA) agar
gubernur jawa barat periode 2018-2023 yang akurasi pengklasifikasi dapat meningkat. Penulis
terdapat 4 pasang calon gubernur jawa barat diambil membandingkan ke dua metode algoritma tersebut
data sebanyak 9637 data, untuk data pasangan calon untuk diketahui metode algoritma terbaik untuk
gubernur Ridwan Kamil-Uu Ruhzanul Ulum diterapkan bersama dengan seleksi fitur Genetic
sebanyak 3647 data, Tubagus Hasanuddin-Anton Algorithm (GA). Penulis menggunakan Support
Charliyan 2037 data, Sudrajat-Ahmad Syaikhu 2358 Vector Machine (SVM) dalam pengklasifikasi
data dan Deddy Mizwar-Dedi Mulyadi 1595 data. karena merupakan teknik machine learning yang
Kemudian dikelompokkan ke dalam tweet positif populer untuk klasifikasi teks serta memiliki
dan tweet negatif. Data tweet yang penulis performa yang baik pada banyak domain.
mengunduh merupakan data tweet pertanggal 20 Kemampuan SVM dalam mengidentifikasi
Mei, 04 Juni, 22 Juni dan 27 Juni 2018. hyperplane secara terpisah diantara dua kelas
berbeda sehingga termaksimalkan (Indrayuni, 2016).
C. Pengolahan Data Awal SVM menjamin untuk memaksimalkan jarak antara
Untuk mehindari pengolahan data yang tidak data yang paling dekat dengan hyperplane.
diperlukan maka dilakukan remove duplicate, Pengkalsifikasi Naïve Bayes (NB) merupakan
sehingga penulis hanya menggunakan 2010 tweet metode klasifikasi teks berdasarkan probilitas kata
positif dan 633 tweet negatif sebagai data training. kunci dalam membandingkan dokumen latih dan
Kemudian dataset tersebut diolah melalui tahapan dokumen uji. Keudanya dibandingkan melalui
preprocessing 4 (empat) proses, diantaranya: beberapa tahanp persamaan, yang akhirnya
a. Tokenization diperoleh hasil probalitas tertinggi yang di tetapkan
Proses memotong setiap kata dalam teks dan sebagai kategori dokumen baru. Lihat gambar 1.
mengubah huruf dalam dokumen menjadi untuk model yang diusulkan secara lebih detail.
huruf kecil. Hanya huruf yang diterima,

Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 123
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

satu hasil dari proses Tokenization pada


GataFramework adalah sebagai berikut.

Tabel 1. Perbandingan teks sebelum dan sesudah


dilakukan proses Tokenization dengan data
pasangan Ridwan Kamil – Uu Ruhzanul Ulum
Teks sebelum dilakukan Teks setelah dilakukan
proses tokenization proses tokenization
Semoga tanggal 27 pasangan Semoga tanggal pasangan
rindu menang pilgub jabar 2018 rindu menang pilgub jabar
dan tetap juara dan tetap juara
#RINDUJabarjuara1 rindujabarjuara ridwankamil
@ridwankamil @uuruzhan uuruzhan infojabar
@infojabar

B. Indonesian Stopword Removal


Proses Stopword Removal setiap kata yang selalu
muncul namun sedikit memberikan informasi dari isi
dokumen, sebagai contoh seperti
“apa”,”sebuah”,”untuk”, kata sambung dan
sebagainya.

Tabel 2. Perbandingan teks sebelum dan sesudah


dilakukan proses Indonesian Stopword Removal
dengan data pasangan Ridwan Kamil – Uu Ruhzanul
Ulum
Teks sebelum dilakukan Teks setelah dilakukan
proses Indonesian Stopword proses Indonesian Stopword
Gambar 1. Model yang diusulkan Removal Removal
Semoga tanggal pasangan rindu Semoga tanggal pasangan
Tahapan preprocessing merupakan awalan menang pilgub jabar dan tetap rindu menang pilgub jabar
juara rindujabarjuara juara rindujabarjuara
dalam proses pengolahan data agar didapatkan kata-
ridwankamil uuruzhan infojabar ridwankamil uuruzhan
kata yang relevan untuk diklasifikasikan. Validasi infojabar
dilakukan dengan pengujian 10 Fold Cross
Validation. Pengukuran akurasi, presisi dan recall
diukur dengan Confusion matrix serta Kurva ROC C. Indonesian Stemming
untuk mengukur nilai AUC. Proses stemming adalah variasi dari kata di
kelompokkan dengan penghilangan imbuhan
E. Evaluasi dan Validasi Hasil sehingga memiliki kata dasar yang sama. Proses
pencarian kata dalam sebuah dokumen agar
Model yang diusulkan pada penelitian tentang mengetahui seberapa banyak kata yang kemudian
tweet analisis sentimen calon gubernur jawa barat dilakukan pembobotan menggunakan TF-IDF.
2018-2023 ini adalah dengan menerapkan Support
Vector Machine (SVM), Naive Bayes (NB), Support Tabel 3. Perbandingan teks sebelum dan sesudah
Vector Machine (SVM) berbasis Genetic Algorithm dilakukan proses Indonesian Stemming dengan data
(GA) dan Naive Bayes berbasis Genetic Algorithm pasangan Ridwan Kamil – Uu Ruhzanul Ulum
(GA). Penerapan evaluasi algoritma tersebut Teks setelah dilakukan
menggunakan confusion matrix untuk menghitung Teks sebelum dilakukan
proses Indonesian
Akurasi, Presisi dan Recall. Dengan semakin besar proses Indonesian Stemming
Stemming
area dibawah kurva (AUC), semakin baik hasil Semoga tanggal pasangan rindu Semoga tanggal pasang rindu
prediksi. menang pilgub jabar juara menang pilgub jabar juara
rindujabarjuara ridwankamil rindujabarjuara ridwankamil
uuruzhan infojabar uuruzhan infojabar
HASIL DAN PEMBAHASAN

A. Tokenization
Proses Tokenization berfungsi untuk D. Generate N-Gram
menghilangkan tanda baca, symbol dan katakter Generate N-Gram merupakan urutan kombinasi
yang bukan berupa huruf pada setiap tweet . Salah kata yang berdekatan dari n item dari ekstrak teks
124 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

dalam sebuah dokumen dari dua, tiga, empat atau


lebih kata. N-gram yang umum digunakan dalam
text mining adalah unigrams, bigrams, dan trigram.
Bigram digunakan untuk mengenerator fitur positif
dan negatif.

Tabel 4. Perbandingan teks sebelum dan sesudah


dilakukan proses N-Gram dengan data pasangan
Ridwan Kamil – Uu Ruhzanul Ulum Gambar 3. Model Klasifikasi NB
Teks sebelum dilakukan Teks setelah dilakukan
proses N-Gram proses N-Gram
F. Pembobotan dan pemilihan fitur seleksi
Semoga tanggal pasang rindu semoga semoga_tanggal
menang pilgub jabar juara tanggal tanggal_pasang Metode pembobotan Fitur yang akan digunakan
rindujabarjuara ridwankamil pasang pasang_rindu rindu adalah Term Frequency Invers Document Frequency
uuruzhan infojabar rindu_menang menang (TF-IDF) dan pemilihan seleksi fitur yang akan diujicoba
menang_pilgub pilgub pertama kali yaitu model algoritma Support Vector
pilgub_jabar jabar jabar_juara Machine (SVM) dan Naïve Bayes dengan pengujian 10
juara juara_rindujabarjuara Fold Cross Validation. Selanjutnya pemilihan seleksi
rindujabarjuara fitur yang akan di ujicoba berikutnya yaitu Genetic
rindujabarjuara_ridwankamil
Algorithm (GA) dengan model algoritma Support Vector
ridwankamil
ridwankamil_uuruzhan Machine (SVM) dan Genetic Algorithm (GA) dengan
uuruzhan uuruzhan_infojabar model Naïve Bayes (NB) pengujian 10 Fold Cross
infojabar Validation. Model pembobotan yang di implementasikan
pada Rapidminer 8.2 bisa di lihat pada gambar 3.
E. Proses Klasifikasi
Klasifikasi didefinisikan sebagai proses
menetapkan kategori atau beberapa kategori di antara
yang sudah ditentukan sebelumnya untuk setiap item
data (Jo, 2018). Dengan menentukan dari sebuah
kalimat untuk menjadi sebuah kelas positif dan kelas
negatif berdasarkan nilai probabilitas dari yang lebih
besar. Termasuk kedalam class positif ketika nilai
probabilitas kalimat lebih besar pada class positif.
Jika dalam kategori class negatif ketika nilai
probabilitas kalimat lebih besar pada class negatif.
Model pengklasifikasian yang di implementasikan Gambar 4. Model Pembobotan TF-IDF dan K-
pada Rapidminer 8.2 bisa di lihat pada gambar 2 dan Fold Cross Validation
3.
Tahap pengklasifikasian teks menggunakan data G. Hasil Eksperimen Pengujian Metode.
training dari masing- masing data pasangan calon a. Metode Support Vector Machine (SVM).
Gubernur Jawa Barat yang terdiri dari Ridwan 1) Model Klasifikasi Support Vector
Kamil- Uu Ruhzanul Ulum 987 data tweet , Tubagus Machines (SVM)
Hasanuddin-Anton Charliyan 643 data tweet ,
Sudrajat-Ahmad Syaikhu 541 data tweet dan Deddy
Mizwar-Dedi Mulyadi 470 data tweet . Masing-
masing data pasangan calon terdapat tweet yang
dianggap tweet positif dan tweet negatif.

Gambar 2. Model Klasifikasi SVM

Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 125
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

Gambar 5. Model Klasifikasi SVM


2) Hasil Eksperimen
Nilai accuracy, precision dan recall dari
data training pasangan calon Ridwan Kamil-Uu
Ruhzanul Ulum dapat dihitung dengan
menggunakan RapidMiner. Hasil terbaik pada
eksperimen SVM di atas adalah dengan C = 0.0
dan Epsilon = 0.9 serta population size=5
dihasilkan Accuracy 89.08% dan AUC = 0.947.
3) Confusion Matrix
Hasil uji terbaik pada pengklasifikasian
data tweet Ridwan Kamil-Uu Ruhzanul Ulum
menggunakan Algoritma Support Vector
Machine (SVM) dapat di lihat pada gambar
berikut:

Tabel 5. Model Confusion Matrix Untuk Gambar 7. Model Klasifikasi NB


Metode SVM Rindu 2) Hasil Eksperimen
Accuracy : 89.08 %, +/- 2.95 % Nilai accuracy, precision dan recall dari
(Mikro avarage: 89.08 %) data training pasangan calon Ridwan Kamil-
Uu Ruhzanul Ulum dapat dihitung dengan
True True Class menggunakan RapidMiner. Hasil terbaik pada
Positif Negatif Precission
eksperimen NB di atas dihasilkan Accuracy
Prediksi 90.19% dan AUC = 0.531.
Positif 754 100 88,29 % 3) Confusion Matrix
Hasil uji terbaik pada pengklasifikasian
Prediksi
8 127 94,07 %
data tweet Ridwan Kamil-Uu Ruhzanul Ulum
Negatif
menggunakan Algoritma Naïve Bayes (NB)
Class dapat di lihat pada gambar berikut :
98.95% 55.95 %
Recall Tabel 6. Model Confusion Matrix Untuk
Hasil perhitungan yang divisualisasikan dengan Metode NB Rindu
kurva ROC dapat di lihat pada gambar 6 yang Accuracy : 90.19 %, +/- 2.74 %
mengekspresikan confusion matrix dari tabel 5. Garis (Mikro avarage: 90.19 %)
horizontal adalah false positive dan garis vertikal true True True Class
positive. Positif Negatif Precission
Prediksi 715 50 93,46 %
Positif
Prediksi 47 177 79,02 %
Negatif
Class 93.83% 77.97 %
Recall

Hasil perhitungan yang divisualisasikan dengan


kurva ROC dapat di lihat pada gambar 8 yang
mengekspresikan confusion matrix dari tabel 6.
Garis horizontal adalah false positive dan garis
vertikal true positive.

Gambar 6. Kurva ROC SVM

b. Metode Naïve Bayes (NB)


1) Model Klasifikasi NB

126 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

Gambar 8. Kurva ROC NB

c. Model SVM-GA
1) Model Klasifikasi SVM-GA

Gambar 10. Kurva ROC SVM-GA

d. Model NB-GA
1) Model Klasifikasi NB-GA

Gambar 3. Model Klasifikasi SVM-GA


2) Hasil Eksperimen
Nilai accuracy, precision dan recall dari
data training pasangan calon Ridwan Kamil-Uu
Ruhzanul Ulum dapat dihitung dengan
menggunakan RapidMiner. Hasil terbaik pada
eksperimen SVM di atas adalah dengan C = 0.0
dan Epsilon = 0.0 serta population size=5
dihasilkan Accuracy 88.98% dan AUC = 0.955.
3) Confusion Matrix
Hasil uji terbaik pada pengklasifikasian
data tweet Ridwan Kamil-Uu Ruhzanul Ulum
menggunakan Algoritma Support Vector
Machine berbasis Genetic Algorithm (SVM-GA) Gambar 11. Model Klasifikasi NB-GA
dapat di lihat pada gambar berikut:

Tabel 7. Model Confusion Matrix Untuk Metode


SVM – GA Rindu 2) Hasil Eksperimen
Accuracy : 88.98 %, +/- 2.13 % Nilai accuracy, precision dan recall dari
(Mikro avarage: 88.98 %) data training pasangan calon Ridwan Kamil-Uu
True True Ruhzanul Ulum dapat dihitung dengan
Class Precission
Positif Negatif
menggunakan RapidMiner. Hasil terbaik pada
Prediksi
Positif 759 106 87,75 % eksperimen NB-GA di atas adalah dengan C =
Prediksi 0.0 dan Epsilon = 0.0 serta population size=5
Negatif 3 121 97,57 % dihasilkan Accuracy 89.99% dan AUC = 0.528.
Class 3) Confusion Matrix
Recall 99.61% 53.30 % Hasil uji terbaik pada pengklasifikasian
Hasil perhitungan yang divisualisasikan dengan data tweet Ridwan Kamil-Uu Ruhzanul Ulum
kurva ROC dapat di lihat pada gambar 10 yang menggunakan Algoritma Naive Bayes berbasis
mengekspresikan confusion matrix dari tabel 7. Garis Genetic Algorithm (NB-GA) dapat di lihat pada
horizontal adalah false positive dan garis vertikal true gambar berikut :
positive.
Tabel 8. Model Confusion Matrix Untuk
Metode
NB – GA Rindu

Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 127
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

Accuracy : 89.99 %, +/- 3.87 % Naïve Bayes NB + GA


Calon
(Mikro avarage: 89.99 %)
Gubernur Accuracy AUC Accuracy AUC
True True Class
Positif Negatif Precission Rindu 90.19% 0.531 89.99% 0.528
Prediksi 694 31 95,72 % Hasanah 96.10% 0.500 95.33% 0.550
Positif
Prediksi 68 196 74,24 % Asyik 95.57% 0.532 93.53% 0.594
Negatif
DuaDM 91.28% 0.535 92.55% 0.500
Class 91.08% 86.34 %
Recall
Hasil perhitungan yang divisualisasikan
dengan kurva ROC dapat di lihat pada gambar 12
yang mengekspresikan confusion matrix dari tabel 8.
Garis horizontal adalah false positive dan garis vertikal
true positive.

Gambar 13. Diagram Perbandingan Hasil


Pengujian Terbaik

KESIMPULAN

Dalam penelitian ini penulis melakukan


Gambar 12. Kurva ROC NB-GA pengujian model dengan algoritma Naïve Bayes,
Support Vector Machine, Naïve Bayes berbasis
H. Analisis Evaluasi Hasil dan Validasi Model Genetic Algorithm, dan Support Vector Machine
Dari hasil pengujian di atas, pengukuran akurasi berbasis Genetic Algorithm dengan menggunakan 4
menggunakan confusion matrix dan kurva ROC (empat) jenis data calon gubernur jawa barat periode
terbukti bahwa hasil pengujian algoritma NB 2018-2023 (Pasangan calon gubernur pertama
memiliki nilai akurasi yang lebih tinggi Ridwan Kamil-Uu Ruhzanul Ulum, kedua Tubagus
dibandingkan dengan algoritma SVM, SVM Hasanuddin-Anton Charliyan, ketiga Sudrajat-
berbasis GA dan NB berbasis GA. Setelah dilakukan Ahmad Syaikhu dan keempat Deddy Mizwar-Dedi
pengujian data calon Gubernur periode 2018-2023 Mulyadi) dan masing-masing data dikelompokkan
dengan calon Gubernur Rindu pada hasil pengujian menjadi positif dan negatif dengan total data
tertinggi yaitu dengan model algoritma NB sebesar sebanyak 2643 data tweet . Model yang diuji akan
90.19 %, untuk calon Gubernur Hasanah hasil menghasilkan nilai accuracy, precision, recall dan
pengujian tertinggi terdapat pada model algoritma AUC dari setiap algoritma.
NB sebesar 96.10 %, pada calon Gubernur Asyik Hasil pengujian data tweet mengenai calon
sebesar 95.57 % pada model algoritma NB gubernur jawa barat periode 2018-2023 dengan
sedangkan calon Gubernur DuaDM akurasi tertinggi Algoritma Support Vector Machine menghasilkan
pada model algoritma SVM berbasis GA. rata-rata akurasi 92,61% dengan AUC 0,950,
Perbandingan hasil pengujian terbaik dapat di Algoritma Naïve Bayes menghasilkan rata-rata
lihat pada tabel 9 dan gambar 13 di bawah ini akurasi 93,29% dengan AUC 0,525, Algoritma
Support Vector Machine berbasis Genetic Algorithm
Tabel 9. Perbandingan hasil pengujian terbaik menghasilkan rata-rata akurasi 93,03% dengan AUC
Support Vector 0,869 dan Algoritma Naive Bayes berbasis Genetic
Calon Machine SVM + GA
Gubernur Algorithm menghasilkan rata-rata akurasi 92,85%
Accuracy AUC Accuracy AUC dengan AUC 0,543.
Rindu 89.08% 0.947 88.98% 0.955 Dengan demikian model algoritma Support Vector
Hasanah 93.62% 0.953 94.25% 0.958 Machine berbasis Genetic Algorithm adalah model
algoritma terbaik dalam penelitian ini dan dapat
Asyik 95.19% 0.938 94.83% 0.594 memberikan hasil terbaik dalam pengujian dan
DuaDM 92.55% 0.960 94.04% 0.970 pengklasifikasian analisis sentiment tweet calon

128 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120

gubernur jawa barat periode 2018-2023 Indrayuni, E. (2016). Analisa Sentimen Review
dibandingkan dengan model algoritma Naïve Bayes Hotel Menggunakan Algoritma Support
berbasis Genetic Algorithm (NB-GA). Vector Machine Berbasis Particle Swarm
Optimization. Jurnal Evolusi Volume 4 Nomor
2 - 2016, 4(2), 20–27.
REFERENSI Jo, T. (2018). Text Mining. In Springer, Cham.
Aggarwal, C. C. (2015). Data Mining. https://doi.org/10.1016/B978-0-12-396963-
https://doi.org/10.1007/978-3-319-14142-8 7.00010-6
Alfiah, F., Susanti, E., Kristinna, J., Ardiansyah, O. Ramesh, B., & Sathiaseelan, J. G. R. (2015). An
R., & Pradipta, D. (2015). Manfaat Advanced Multi Class Instance Selection
Menganalisis Pengaruh Sosial Media. 6–8. based Support Vector Machine for Text
Balahur, A., Mihalcea, R., & Montoyo, A. (2014). Classification. Procedia Computer Science,
Computational approaches to subjectivity and 57, 1124–1130.
sentiment analysis: Present and envisaged https://doi.org/10.1016/j.procs.2015.07.400
methods and applications. Computer Speech Sarlan, A., Nadam, C., & Basri, S. (2015). Twitter
and Language, 28(1), 1–6. Sentiment Analysis. ArXiv:1507.00955 [Cs,
https://doi.org/10.1016/j.csl.2013.09.003 Stat], 212–216.
Basari, A. S. H., Hussin, B., Ananta, I. G. P., & https://doi.org/10.1109/ICIMU.2014.7066632
Zeniarja, J. (2013). Opinion mining of movie Wahyudi, M., & Putri, D. W. I. A. (2016).
review using hybrid method of support vector ALGORITHM APPLICATION SUPPORT
machine and particle swarm optimization. VECTOR MACHINE WITH GENETIC
Procedia Engineering, 53, 453–462. ALGORITHM OPTIMIZATION TECHNIQUE
https://doi.org/10.1016/j.proeng.2013.02.059 FOR SELECTION FEATURES FOR THE
Bohang, F. K. (2017). Twitter 280 Karakter Resmi ANALYSIS OF. 84(3).
di Seluruh Dunia. Retrieved from Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J.
tekno.kompas.com website: (2016). Data Mining: Practical Machine
https://tekno.kompas.com/komentar/2017/11/0 Learning Tools and Techniques. Data Mining:
8/08340057/twitter-280-karakter-resmi-di- Practical Machine Learning Tools and
seluruh-dunia Techniques, 1–621.
Crc, H., Hofmann, M., & Chisholm, A. (2016). Text Zukhri, Z. (2014). Algoritma Genetika : Metode
Mining and Visualization Case Studies Using Komputasi Evolusioner untuk Menyelesaikan
Open Source Tools. Masalah Optimasi. Yogyakarta: Andi.
Han, J., Kamber, M., & Pei, J. (2012). Data Mining:
Concepts and Techniques. In San Francisco,
CA, itd: Morgan Kaufmann.
https://doi.org/10.1016/B978-0-12-381479-
1.00001-0

Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 129

Anda mungkin juga menyukai