Abstrak – Kontestasi politik dalam penentuan menjadi pemimpin tingkat provinsi dalam hal ini gubernur jawa
barat 2018-2023. Masyarakat yang memberikan opininya berupa tweet pada media sosial twitter menentukan
bentuk dukungan atau tidaknya, sehingga perlu adanya analisis sentimen terhadap calon Gubernur agar
mengetahui tingkat kepercayaan masyarakat serta terbentuk citra kepada calon Gubernur Jawa Barat 2018-2023.
Akan tetapi membaca keseluruhan tweet yang tersebar dalam twitter yang berkaitan dengan masing-masing
calon gubernur akan memakan waktu dan membingungkan dalam pengambilan keputusan. Klasifikasi sentimen
akan mengurai masalah mengenai opini, pendapat, emosi dan prilaku dengan studi komputasi. Metode klasifikasi
yang akan dibahas dalam penelitian yaitu dengan algoritma Naïve Bayes serta Support Vector Machine.
Penentuan fitur menentuka hasil akurasi, dalam penentuan fitur seleksi digunakan Genetic Algorithm agar dapat
meningkatan akurasi pengklasifikasian pada Support Vector Machine dan Naive Bayes. Perolehan penelitian ini
yaitu klasifikasi teks dalam pola negatif atau positif dari tweet calon gubernur jawa barat 2018-2023. Pada
dataset tidak seimbang Support Vector Machine menghasilkan rata-rata akurasi 92.61% dengan AUC 0,950,
Naive Bayes menghasilkan rata-rata akurasi 93,29% dengan AUC 0,525, Support Vector Machine berbasis
Genetic Algorithm menghasilkan rata-rata akurasi 93,03% dengan AUC 0,869, Naive Bayes berbasis Genetic
Algorithm menghasilkan rata-rata akurasi 92,85% dengan AUC 0,543. Hasil ini menunjukan bahwa Support
Vector Machine dapat digunakan untuk membangun deteksi tweet klasifikasi positif dan negatif dengan tingkat
akurasi yang tinggi. Kebaruan dari penelitian ini adalah bahwa Support Vector Machine dapat digunakan untuk
mendeteksi tweet pada dataset twitter berbahasa indonesia penulis.
Kata Kunci : Sentimen Analisis, Support Vector Machine, Naive Bayes, Genetic Algorithm.
Abstract - Political dispute was determines provincial level in West Java Governor 2018- 2023. A society gave
their opinions in social media on twitter to support or not, then it needed sentiment analysis against Governor
prospective in order to find out trust level of community and formed the image to West Java Governor's
prospective e 2018-2023. Reading the whole tweet in the twitter related to each Governor’s prospective wasted
time and confused on decision making. Sentiment classification decreased the problem using computer literate
about opinions, behaviours and emotions of a person against the entity. This research will be discussed about
the classification techniques with the Support Vector Machine method and Naive Bayes. The selection features
will be affected the accuracy of classification, it was using Genetic Algorithm in order to improve the accuracy
of classification on Support Vector Machine and Naive Bayes. This research resulted in texts classification of
positive or negative from West Java Governor's prospective tweet s 2018-2023. On the unbalanced datasets
Support Vector Machine produces an average of 92.61% accuracy with AUC 0,950, Naive Bayes generates an
average of 93.29% accuracy with AUC 0,525, Support Vector Machine-based Genetic Algorithm produces an
average accuracy of 93.03% with AUC 0,869, Naive Bayes-based Genetic Algorithm produces an average
accuracy of 92.85% with AUC 0,543. These results suggested that Support Vector Machine can be used to build
the detection positive and negative classification in tweet with a high accuracy. Support Vector Machine can be
used to detect a tweet on twitter dataset speak Indonesian writer as the lastest of this research.
Keywords: Analysis Sentiment, Support Vector Machine, Naive Bayes, Genetic Algorithm
http://ejournal.bsi.ac.id/ejurnal/index.php/jtk 121
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
Eksperimen yang dilakukan peneliti, sedangkan karakter khusus atau tanda baca
menggunakan framework RapidMiner 8.2. akan dihilangkan. Jadi hasil dari proses
untuk mengolah data tweet sebagai alat bantu Tokenization adalah kata-kata yang
pengukuran sehingga menghasilkan nilai merupakan penyusun kalimat atau string yang
akurasi yang akurat. dimasukan tanpa ada tanda baca (Crc,
e. Evaluasi Performa dan Validasi Hasil Hofmann, & Chisholm, 2016).
Evaluasi b. Indonesian Stemming
Evaluasi menggunakan confusion matrix Proses stemming adalah variasi dari kata di
untuk mengetahui akurasi, presisi dan recall. kelompokkan dengan penghilangan imbuhan
Menurut Han confusion matrix adalah alat sehingga memiliki kata dasar yang sama
yang sangat berguna untuk menganalisis (Aggarwal, 2015).. Proses pencarian kata
seberapa baik classifier dapat dalam sebuah dokumen agar mengetahui
mengidentifikasi tupel dari kelas yang berbed seberapa banyak kata yang kemudian
(Han, Kamber, & Pei, 2012). Dalam beberapa dilakukan pembobotan menggunakan TF-
confusion matrix dikenal istilah True positive IDF.
yang merujuk pada tuple positif yang diberi c. Indonesian Stopword Removal
label dengan benar oleh classifier, sedangkan Proses Stopword Removal setiap kata yang
True negative adalah tuple negatif yang selalu muncul namun sedikit memberikan
diberi label dengan benar oleh classifier. Ada informasi dari isi dokumen, sebagai contoh
juga false positive yang merupakan tuple seperti “apa”,”sebuah”,”untuk”, kata
negatif yang salah diberi label oleh classifier, sambung dan sebagainya (Aggarwal,
dan false negative adalah tuple positif yang 2015)(Crc et al., 2016).
tidak diberi label dengan benar oleh d. Generate N-Gram
classifier. Kurva ROC (Receiver Operating Generate N-Gram merupakan urutan
Characteristic) membagi hasil positif pada kombinasi kata yang berdekatan dari n item
sumbu y dan hasil negatif pada sumbu x dari ekstrak teks dalam sebuah dokumen dari
dalam bentuk AUC (Area Under the Curve). dua, tiga, empat atau lebih kata. N-gram yang
Jadi semakin besar area di bawah kurva, umum digunakan dalam text mining adalah
semakin baik hasil prediksi. yang bisa unigrams, bigrams, dan trigram. Bigram
mengubah orientasi pendapat juga tidak digunakan untuk mengenerator fitur positif
sebanding dengan yang buruk (Witten, Frank, dan negatif (Crc et al., 2016).
Hall, & Pal, 2016).
D. Metode Yang Usulkan
B. Pengumpulan Data Awal Dalam penelitian ini metode algoritma yang
Peneliti menggunakan data tweet pemilihan diusulkan adalah penggunaan 2 (dua) jenis metode
gubernur jawa barat 2018. Data yang dikumpulkan algoritma yaitu Support Vector Machine (SVM) dan
dari www.twitter.com dibantu dengan framework Naïve Bayes (NB) yang kemudian di tambah sebuah
rapid miner, untuk jenis data tweet pasangan calon seleksi fitur yaitu Genetic Algorithm (GA) agar
gubernur jawa barat periode 2018-2023 yang akurasi pengklasifikasi dapat meningkat. Penulis
terdapat 4 pasang calon gubernur jawa barat diambil membandingkan ke dua metode algoritma tersebut
data sebanyak 9637 data, untuk data pasangan calon untuk diketahui metode algoritma terbaik untuk
gubernur Ridwan Kamil-Uu Ruhzanul Ulum diterapkan bersama dengan seleksi fitur Genetic
sebanyak 3647 data, Tubagus Hasanuddin-Anton Algorithm (GA). Penulis menggunakan Support
Charliyan 2037 data, Sudrajat-Ahmad Syaikhu 2358 Vector Machine (SVM) dalam pengklasifikasi
data dan Deddy Mizwar-Dedi Mulyadi 1595 data. karena merupakan teknik machine learning yang
Kemudian dikelompokkan ke dalam tweet positif populer untuk klasifikasi teks serta memiliki
dan tweet negatif. Data tweet yang penulis performa yang baik pada banyak domain.
mengunduh merupakan data tweet pertanggal 20 Kemampuan SVM dalam mengidentifikasi
Mei, 04 Juni, 22 Juni dan 27 Juni 2018. hyperplane secara terpisah diantara dua kelas
berbeda sehingga termaksimalkan (Indrayuni, 2016).
C. Pengolahan Data Awal SVM menjamin untuk memaksimalkan jarak antara
Untuk mehindari pengolahan data yang tidak data yang paling dekat dengan hyperplane.
diperlukan maka dilakukan remove duplicate, Pengkalsifikasi Naïve Bayes (NB) merupakan
sehingga penulis hanya menggunakan 2010 tweet metode klasifikasi teks berdasarkan probilitas kata
positif dan 633 tweet negatif sebagai data training. kunci dalam membandingkan dokumen latih dan
Kemudian dataset tersebut diolah melalui tahapan dokumen uji. Keudanya dibandingkan melalui
preprocessing 4 (empat) proses, diantaranya: beberapa tahanp persamaan, yang akhirnya
a. Tokenization diperoleh hasil probalitas tertinggi yang di tetapkan
Proses memotong setiap kata dalam teks dan sebagai kategori dokumen baru. Lihat gambar 1.
mengubah huruf dalam dokumen menjadi untuk model yang diusulkan secara lebih detail.
huruf kecil. Hanya huruf yang diterima,
Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 123
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
A. Tokenization
Proses Tokenization berfungsi untuk D. Generate N-Gram
menghilangkan tanda baca, symbol dan katakter Generate N-Gram merupakan urutan kombinasi
yang bukan berupa huruf pada setiap tweet . Salah kata yang berdekatan dari n item dari ekstrak teks
124 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 125
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
126 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
c. Model SVM-GA
1) Model Klasifikasi SVM-GA
d. Model NB-GA
1) Model Klasifikasi NB-GA
Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 127
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
KESIMPULAN
128 Komparasi Algoritma Support Vector Machine Dan Naïve Bayes Dengan Algotima Genetika Pada
Analisis Sentimen Calon Gubernur
Jabar 2018-2023
Jurnal Teknik Komputer AMIK BSI, Vol VI No.1 Januari 2020
P-ISSN 2442-2436, E-ISSN: 2550-0120
gubernur jawa barat periode 2018-2023 Indrayuni, E. (2016). Analisa Sentimen Review
dibandingkan dengan model algoritma Naïve Bayes Hotel Menggunakan Algoritma Support
berbasis Genetic Algorithm (NB-GA). Vector Machine Berbasis Particle Swarm
Optimization. Jurnal Evolusi Volume 4 Nomor
2 - 2016, 4(2), 20–27.
REFERENSI Jo, T. (2018). Text Mining. In Springer, Cham.
Aggarwal, C. C. (2015). Data Mining. https://doi.org/10.1016/B978-0-12-396963-
https://doi.org/10.1007/978-3-319-14142-8 7.00010-6
Alfiah, F., Susanti, E., Kristinna, J., Ardiansyah, O. Ramesh, B., & Sathiaseelan, J. G. R. (2015). An
R., & Pradipta, D. (2015). Manfaat Advanced Multi Class Instance Selection
Menganalisis Pengaruh Sosial Media. 6–8. based Support Vector Machine for Text
Balahur, A., Mihalcea, R., & Montoyo, A. (2014). Classification. Procedia Computer Science,
Computational approaches to subjectivity and 57, 1124–1130.
sentiment analysis: Present and envisaged https://doi.org/10.1016/j.procs.2015.07.400
methods and applications. Computer Speech Sarlan, A., Nadam, C., & Basri, S. (2015). Twitter
and Language, 28(1), 1–6. Sentiment Analysis. ArXiv:1507.00955 [Cs,
https://doi.org/10.1016/j.csl.2013.09.003 Stat], 212–216.
Basari, A. S. H., Hussin, B., Ananta, I. G. P., & https://doi.org/10.1109/ICIMU.2014.7066632
Zeniarja, J. (2013). Opinion mining of movie Wahyudi, M., & Putri, D. W. I. A. (2016).
review using hybrid method of support vector ALGORITHM APPLICATION SUPPORT
machine and particle swarm optimization. VECTOR MACHINE WITH GENETIC
Procedia Engineering, 53, 453–462. ALGORITHM OPTIMIZATION TECHNIQUE
https://doi.org/10.1016/j.proeng.2013.02.059 FOR SELECTION FEATURES FOR THE
Bohang, F. K. (2017). Twitter 280 Karakter Resmi ANALYSIS OF. 84(3).
di Seluruh Dunia. Retrieved from Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J.
tekno.kompas.com website: (2016). Data Mining: Practical Machine
https://tekno.kompas.com/komentar/2017/11/0 Learning Tools and Techniques. Data Mining:
8/08340057/twitter-280-karakter-resmi-di- Practical Machine Learning Tools and
seluruh-dunia Techniques, 1–621.
Crc, H., Hofmann, M., & Chisholm, A. (2016). Text Zukhri, Z. (2014). Algoritma Genetika : Metode
Mining and Visualization Case Studies Using Komputasi Evolusioner untuk Menyelesaikan
Open Source Tools. Masalah Optimasi. Yogyakarta: Andi.
Han, J., Kamber, M., & Pei, J. (2012). Data Mining:
Concepts and Techniques. In San Francisco,
CA, itd: Morgan Kaufmann.
https://doi.org/10.1016/B978-0-12-381479-
1.00001-0
Deni Gunawan, Dwiza Riana, Dian Ardiansyah, Fajar Akbar, Salman Alfarizi 129