Abstrak
COVID-19 pertama kali muncul di Wuhan, Cina dan menyebar ke seluruh dunia. Penyebaran virus
tersebut terjadi sangat cepat, termasuk di negara Indonesia. Pemerintah Indonesia berupaya menerapkan
kebijakan-kebijakan untuk menekan angka kenaikan kasus COVID-19. Kebijakan yang diterapkan
menimbulkan dampak baru pada masyarakat, contohnya penyempitan lapangan pekerjaan, pemutusan
hubungan kerja dan dampak lain yang berpengaruh terhadap perekonomian negara. Oleh karena itu,
Pemerintah menerapkan kebijakan baru yang disebut New Normal. New Normal menjadi topik
perbincangan yang menimbulkan pro kontra di kalangan masyarakat pada media sosial Twitter. Melalui
opini masyarakat tersebut, pemerintah dapat mengetahui bagaimana pendapat masyarakat terkait
kebijakan New Normal di Indonesia. Opini masyarakat tersebut dapat diklasifikasikan menjadi opini
positif, negatif dan netral sehingga memerlukan analisis sentimen. Proses analisis sentimen terdiri dari
pre-processing untuk pemrosesan opini, Relevance Frequency Feature Selection untuk mengurangi
jumlah fitur, dan klasifikasi menggunakan metode Naive Bayes. Dataset yang digunakan adalah 300
data opini masyarakat, dengan pembagian data menggunakan k-fold cross validation dengan k=5. Hasil
dari pengujian sebanyak 5 pengujian menggunakan klasifikasi Naive Bayes, diperoleh rata-rata akurasi
sebesar 62,6%, sementara hasil pengujian akurasi klasifikasi dengan penambahan RFFS diperoleh rata-
rata akurasi sebesar 65,3%.
Kata kunci: analisis sentimen, new normal, naive bayes, seleksi fitur, relevance frequency feature selection, k-
fold cross validation.
Abstract
COVID-19 first appeared in wuhan, China and spread around the world. The virus spread very rapidly,
including in Indonesia. The Indonesian government seeks to implement policies to suppress the COVID-
19 case increase. Implemented policies have a new impact on communities, such as job downsizing,
layoffs of work relationships and other effects on the country's economy. Consequently, the government
adopted a new policy called new normal. New normal has become a topic of debate among the public
on twitter's social media. Public opinion can be classified into positive, negative, and neutral opinions
and require analytic sentiments. The sentiment analysis process is based on pre-processing for opinion
processing, Relevance Frequency Feature Selection to reduce the number of features, and the
classification using Naive Bayes methods. The dataset is 300 public opinion data, with the distribution
of data using k-fold validation in k=5. The results of 5 tests using Naive Bayes classification, obtained
an average accuracy of 62,6%, while the results of classification accuracy tests with the addition of
Relevance Frequency Feature Selection obtained an average accuracy of 65,3%.
Keywords: sentiment analysis, new normal, naive bayes, feature selection, relevance frequency feature selection,
k-fold cross validation.
Penyebaran virus terjadi sangat cepat, termasuk menggunakan metode klasifikasi Naive Bayes
di negara Indonesia. Jumlah kasus yang semakin telah banyak dilakukan, diantaranya adalah
meningkat membuat pemerintah mengambil penelitian mengenai pengimplementasian
keputusan untuk mengeluarkan kebijakan baru metode Naive Bayes dan K-Means mengenai
dalam mengatasi permasalahan yang ada. analisis sentimen pada pemilihan calon presiden
Pemerintah menerapkan kebijakan baru New tahun 2019 (Kurniawan & Susanto, 2019) untuk
Normal (Normal Baru). Hidup normal baru mengetahui opini dari masyarakat terhadap
merupakan suatu kehidupan manusia yang selalu calon presiden pada pemilihan presiden 2019.
diperhadapkan dengan adanya ancaman dari Dari hasil penelitian tersebut, didapatkan hasil
Covid-19 (Muhyiddin, 2020). Pemberlakuan akurasi menggunakan metode klasifikasi Naive
kebijakan tersebut, menimbulkan banyak opini Bayes sebesar 93,35%.
terjadi di masyarakat. Dari hasil survei oleh Indo Penelitian lainnya yang dilakukan oleh
Barometer yang diberitakan melalui medcom.id Ahmad Wildan Attabi (2018) mengenai analisis
dikatakan sebanyak 83,1% masyarakat sentimen untuk menilai suatu produk dengan
mendukung kebijakan New Normal, sementara menggunakan metode Naive Bayes dan
11,2% sisanya tidak demikian. Information Gain sebagai seleksi fiturnya.
Media sosial menjadi wadah masyarakat Penelitian ini bertujuan untuk mengatasi
untuk berkomunikasi dan menyampaikan opini. permasalahan yang terjadi pada produk
Media sosial yang saat ini digunakan oleh kecantikan Mustika Ratu agar dapat mengetahui
kebanyakan masyarakat Indonesia adalah minat pasar, untuk melakukan kajian lebih pada
Twitter (Sabily et al., 2019). Twitter merupakan suatu produk serta menganalisis peningkatan
sosial media yang banyak digemari citra serta pendapatan perusahaan produk
penggunanya dalam menyuarakan aspirasi kecantikan tersebut. Data dalam penelitian
mereka berupa tweet atau cuitan (Fitriyyah et al., menggunakan data tweet sebanyak 200 data
2019). New Normal menjadi salah satu topik yang diperoleh dari twitter mengenai produk
yang dibicarakan oleh masyarakat pada sosial kecantikan dari Mustika Ratu. Ulasan tersebut
media Twitter. Melalui opini masyarakat pada dibagi menjadi ulasan positif dan negatif. Hasil
Twitter tersebut, pemerintah dapat mengetahui akurasi menunjukkan, dengan menggunakan
bagaimana pendapat masyarakat terkait metode Naive Bayes, didapatkan hasil akurasi
diterapkannya kebijakan New Normal di sebesar 70%.
Indonesia. Seleksi fitur berguna untuk melakukan
Banyaknya Tweet yang ada, membutuhkan penghapusan fitur yang tidak dibutuhkan pada
waktu yang tidak singkat untuk melakukan metode klasifikasi (Ling et al., 2014). Banyak
proses klasifikasi. Maka dari itu dibutuhkan metode-metode seleksi fitur yang biasa
penggunaan sebuah metode untuk melakukan digunakan agar proses klasifikasi menjadi lebih
proses klasifikasi data Twitter tersebut agar optimal. Pada penelitian yang dilakukan oleh
dapat di analisis dengan mengelompokkannya (Kilic & Sahin, 2019) sebelumnya yang
pada suatu kelas. Analisis sentimen adalah mengenai dua metode seleksi fitur baru untuk
bidang penelitian lanjutan yang ada diantara klasifikasi teks, salah satunya yaitu Relevance
beberapa bidang yaitu Natural Language Frequency Feature Selection, dijelaskan bahwa
Processing (NLP), Data Mining dan Machine metode seleksi fitur tersebut memberikan hasil
Learning yang berfokus pada proses akurasi yang lebih baik daripada seleksi fitur
pengekstraksian suatu sentimen di dalam kalimat Chi-Square pada saat jumlah fiturnya sebesar
berdasarkan isinya (Al-Ayyoub et al., 2018). Di 100, 200, dan 300 fitur.
mana dengan dilakukannya analisis sentimen, Berdasarkan penjabaran di atas, dilakukan
didapatkan hasil kelas klasifikasi dari dokumen penelitian dengan judul “Analisis Sentimen
yang digunakan. Pengelompokan dokumen Twitter Menggunakan Metode Naive Bayes
tersebut dapat dilakukan dengan menggunakan Dengan Relevance Frequency Feature Selection
metode klasifikasi, pada penelitian ini digunakan (Studi Kasus: Opini Masyarakat Mengenai
metode klasifikasi Naive Bayes. Metode Naive Kebijakan New Normal)”. Dengan dilakukannya
Bayes sering digunakan oleh para peneliti karena penelitian ini, diharapkan dapat memberikan
dianggap cukup efektif dalam mendapatkan hasil hasil klasifikasi kelas terhadap opini masyarakat
yang tepat dengan akurasi yang tinggi terkait new normal dengan kelas negatif, positif
(Kusumadewi, 2009). maupun netral sebagai kategorinya.
Penelitian terkait analisis sentimen dengan
term dari setiap dokumen yang digunakan. simpan pada file newnormal.csv, berbahasa
Persamaan (3) berikut, menunjukkan proses Indonesia, dan pengambilan data dilakukan dari
Raw-Term Frequency. tanggal 01 Maret 2020 hingga 30 Agustus 2020.
Cara lain yang digunakan adalah dengan cara
TF(d|t) = f(d,t) (3) manual langsung melalui Twitter dengan syntax
“until:2020-08-30 since:2020-06-01 New
Keterangan: Normal Pemerintah lang:id” dengan maksud
TF(d,t) : Raw-Term Frequency melakukan pengambilan data dari tanggal 01
f(d,t) : Frequency bobot kata (term) t didokumen Juni 2020 hingga 30 Agustus 2020 mengenai
d New Normal Pemerintah berbahasa Indonesia.
Keterangan:
Klasifikasi Naive
P(c|d) : posterior yaitu peluang kelas c Bayes
diberikan dokumen d
P(c) : prior atau peluang awal munculnya Hasil kelas
kategori c
P(d|c) : Nilai Likelihood Selesai
P(d) : Evidence atau peluang munculnya
dokumen d
Gambar 1. Diagram Alir Implementasi Algoritme
3. METODE PENELITIAN
Pada penelitian Analisis Sentimen Twitter
3.1. Pengumpulan Data Terhadap Opini Masyarakat Mengenai
Kebijakan New Normal Menggunakan Metode
Sebanyak 300 data digunakan pada Naive Bayes Dengan Relevance Frequency
penelitian ini, sebagai data latih dan data uji. Feature Selection. Terdapat beberapa tahapan
Pembagian data dilakukan dengan menggunakan yang harus dilakukan sebelum data diklasifikasi,
k-fold cross validation dengan k=5. Terdapat yaitu proses pre-processing yang didalamnya
240 data latih dan 60 data uji yang berbeda di beberapa tahapan yaitu case folding, cleaning,
setiap fold-nya. Data penelitian tersebut berupa tokenization, filtering dan stemming, kemudian
tweet opini masyarakat mengenai kebijakan new dilakukan perhitungan seleksi fitur Relevance
normal yang ada pada media sosial Twitter dari Frequency Feature Selection untuk
tanggal 01 Maret hingga tanggal 30 Agustus mendapatkan term baru setelah dilakukan
2020. Pengambilan data dilakukan dengan dua penyeleksian fitur. Lalu dilakukan proses
cara, yaitu dengan library Twint menggunakan pembobotan kata dengan menggunakan Raw
syntax ““twint -s "new normal" –o Tem Frequency untuk mendapatkan frekuensi
newnormal.csv --csv -l id --since 2020-03-01 -- dari setiap term yang ada pada suatu dokumen.
until 2020-08-30” dengan maksud melakukan Selanjutnya dilakukan proses klasifikasi
pengambilan data new normal yang akan di menggunakan Naive Bayes, sehingga didapatkan
hasil klasifikasi berupa kelas positif, negatif atau 4.2. Pengujian Pengaruh Metode Relevance
netral. Frequency Feature Selection (RFFS)
Pengujian pengaruh metode Relevance
4. PENGUJIAN DAN ANALISIS
Frequency Feature Selection terhadap metode
Data latih yang digunakan pada pengujian klasifikasi Naive Bayes ini dilakukan untuk
saat ini adalah data tweet sebanyak 300 data mengetahui tingkat akurasi metode Naive Bayes
yang kemudian dilakukan pembagian data dengan seleksi fitur Relevance Frequency
dengan k-fold cross validation dan nilai k=5 Feature Selection. Di mana semua term yang
sebagai data latih dan data uji. telah didapatkan dari hasil pre-processing
selanjutnya akan dilakukan proses ekstraksi fitur
4.1. Pengujian Tingkat Akurasi Metode dengan menggunakan rumus perhitungan
Klasifikasi Naive Bayes metode Relevance Frequency Feature Selection,
Pengujian tingkat akurasi dengan metode sehingga didapatkan hasil term baru yang akan
Naive Bayes ini dilakukan untuk dapat digunakan untuk proses klasifikasi Naive Bayes.
mengetahui tingkat akurasi metode Naive Bayes Hasil dari pengujian yang dilakukan ditujukan
yang digunakan, di mana semua term yang telah untuk mengetahui seberapa besar pengaruh
didapatkan dari hasil pre-processing selanjutnya metode Relevance Frequency Feature Selection
akan di gunakan tanpa dilakukan proses pada proses klasifikasi dengan metode Naive
perhitungan seleksi fitur. Pengujian tingkat Bayes. Pengujian tingkat akurasi pengaruh
akurasi dengan penggunaan metode klasifikasi metode Relevance Frequency Feature Selection
Naive Bayes ini dilakukan dengan perhitungan terhadap metode klasifikasi Naive Bayes ini
Confusion Matrix menggunakan k-fold sebesar dilakukan dengan perhitungan Confusion Matrix
5-fold. Hasil pengujian metode klasifikasi Naive menggunakan k-fold sebesar 5-fold. Hasil
Bayes di tunjukkan pada Tabel 1. pengujian pengaruh metode Relevance
Tabel 1. Hasil Pengujian setiap Fold Menggunakan Frequency Feature Selection ditunjukkan pada
Metode Naive Bayes Tabel 2.
berpengaruh dalam meningkatkan hasil akurasi. 2019. Analisis Sentimen Ccalon Presiden
Dari 5 kali pengujan yang dilakukan, terjadi Indonesia 2019 dari Media Sosial Twitter
peningkatan hasil akurasi di setiap fold-nya. Menggunakan Metode Naive Bayes.
Terjadi peningkatan nilai rata-rata akurasi Jurnal Edukasi dan Penelitian
sebesar 2,7%. Dengan hasil rata-rata akurasi Informatika, V(3), pp.279-85.
yang didapatkan sebesar 65,3%.
Kilic, E. & Sahin, D.O., 2019. Two new feature
selection metrics for text classification.
5.1. Saran
Journal for Control, Measurement,
Pada penelitian yang telah dilakukan ini Electronics, Computing and
masih mempunyai beberapa kekurangan, Communication, 60, p.162–171.
sehingga terdapat saran yang diajukan peneliti
Kurniawan, I. & Susanto, A., 2019.
untuk pengembangan selanjutnya yaitu peneliti
Implementasi Metode K-Means dan
selanjutnya diharapkan jumlah data latih agar
Naïve Bayes Classifier untuk Analisis
dapat meningkatkan hasil akurasi dari pengujian
Sentimen Pemilihan Presiden (Pilpres)
dan data latih yang digunakan lebih beragam.
2019. Jurnal Eksplora Informatika, IX(1).
Sehingga data terlatih dengan baik, tidak
memiliki makna yang ambigu dan dapat lebih Kusumadewi, S., 2009. Klasifikasi Status Gizi
spesifik mencirikan setiap kelas yang digunakan. Menggunakan Naive Bayesian
Classification. CommIT (Communication
6. DAFTAR PUSTAKA and Information Technology) Journal, 3
Agi, 2019. CNN Indonesia. [Online] Available (1), p.6.
at: Ling, J., Kencana, P.E.N. & Oka, T.B., 2014.
https://www.cnnindonesia.com/teknologi Analisis Sentimen Menggunakan Metode
/20190424001600-185- Naive Bayes Classifier Dengan Seleksi
389042/pengguna-capai-330-juta- Fitur Chi Square. E-Jurnal Matematika, 3
keuntungan-twitter-naik-3-kali-lipat (3), pp.92-99.
[Accessed 24 April 2020].
Mantyla, M., Kuutila, M. & Graziotin, D., 2016.
Al-Ayyoub, M., Khamaiseh, A.A. & Jararweh, The Evolution of Sentiment Analysis - A
Y., 2018. A Comprehensive Survey of Review of Research Topics, Venues, and
Arabic Sentiment Analysis. Information Top Cited Papers. Research Gate.
Processing and Management, pp.1-23.
Muhyiddin, 2020. Covid-19, New Normal dan
Attabi, A.W., Muflikhah, L. & Fauzi, M.A., Perencanaan Pembangunan di Indonesia.
2018. Penerapan Analisis Sentimen untuk The Indonesian Journal of Development
Menilai Suatu Produk pada Twitter Planning, IV, pp.240-52.
Berbahas Indonesia dengan Metode Naive
Pakpahan, S.R.M., Indriati & Marji, 2019.
Bayes Classifier dan Information Gain.
Analisis Sentimen Tentang Opini
Jurnal Pengembangan Tekologi
Performa Klub Sepak Bola Pada
Informasi dan Ilmu Komputer, II(11),
Dokumen Twitter Menggunakan Support
pp.4548-54.
Vector Machine Dengan Perbaikan Kata
Deolika, A., Kusrini & Luthfi, E.T., 2019. Tidak Baku. Jurnal Pengembangan
Analisis Pembobotan Kata Pada Teknologi Informasi dan Ilmu Komputer,
Klasifikasi Text Mining. Jurnal Teknologi III(7), pp.7259-67.
Informasi, III(2), pp.179-84.
Sabily, A.F., Adikara, P.P. & Fauzi, M.A., 2019.
Eddison, C., 2015. Opini Masyarakat Surabaya Analisis Sentimen Pemilihan Presiden
Mengenai Corporate Identity ARTOTEL 2019 pada Twitter menggunakan Metode
Surabaya. Jurnal E-Komunikasi, III(1), Maximum Entropy. Jurnal
pp.1-10. Pengembangan Teknologi Informasi dan
Feldman, R. & Sanger, J., 2007. The Text Mining Ilmu Komputer, 3, pp.4204-09.
Handbook: Advanced Unstructure Data. Shereen, M.A. et al., 2020. COVID-19 infection:
New York: Cambridge University Press. Origin, transmission, and characteristics
Fitriyyah, S.N.J., Safriadi, N. & Pratama, E.E., of human coronavirus. Journal of
Advanced Research, 24, pp.91-98.