PENDAHULUAN
Akhir – akhir ini masyarakat dihebohkan dengan virus baru dari Wuhan,
China yaitu virus corona atau disebut COVID – 19 (Corona Virus Desaese 2019),
virus ini masuk di Indonesia sejak awal maret lalu hingga saat ini dan diprediksi
akan terus berlanjut hingga waktu yang belum diketahui. Beberapa cara telah
dilakukan oleh pemerintah, institusi, hingga kalangan masyarakat untuk memutus
rantai penyebaran virus corona. Kebanyakan orang merasa was-was dan resah
bahkan ketakutan akan virus ini. Disisi lain kinerja pemerintah dinilai kurang
tepat dalam menangani hal tersebut, hal tersebut membuat masyarakat umum
ingin mengungkapkan segala pendapat, aspirasi dan kritikan, namun keterbatasan
waktu dan ruang membuat aspirasi masyarakat tidak tersampaikan. Disisi lain
jejaring sosial merupakan salah satu tempat yang cocok untuk mengungkapkan
segala hal yang ada, salah satunya adalah twitter, twitter adalah jejaring sosial
yang memungkinkan pengguna mengirim karakter hingga 140 karakter yang
sering disebut tweet atau kicauan. Namun setiap tweet dari netizen tidak
mengandung makna yang selaras, hal tersebutlah yang perlu dilakukan analisis
terhadap opini netizen di twitter mengenai vaksin COVID-19 dengan klasifikasi
positif dan negatif (Syarifuddin, 2020).
Penelitian ini mencoba memanfaatkan Twitter dengan menganalisis tweet
berbahasa Indonesia yang membicarakan tentang vaksin COVID-19 yang ada di
Indonesia. Penelitian ini ingin membandingkan dua metode yaitu Support Vector
Machine (SVM) dan K-Nearest Neighbor (KNN) dari segi akurasi dan kecepatan
proses dalam analisis sentimen terhadap komentar netizen di twitter pada tagar
vaksin COVID-19. Perbandingan ini bertujuan untuk mengetahui algoritma mana
yang memiliki akurasi terbaik dan waktu proses tercepat.
Support Vector Machine (SVM) merupakan salah satu algoritma yang
sudah banyak diterapkan untuk berbagai jenis penelitian dibidang data dan text
mining karena telah mampu menunjukkan perfoma yang lebih baik. SVM bekerja
dengan sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-
fungsi linier dalam sebuah ruang fitur berdimensi tinggi, hanya saja pada metode
klasifikasi SVM hanya dapat mengklasifikasikan data kedalam dua kelas (Alita et
al., 2020). Namun tidak hanya itu, algoritma ini juga dapat melakukan prediksi
dan penilaian tentang sebuah sistem. Tujuan dari SVM adalah memberikan nilai
mengklasifikasikan kalimat dengan label positif dan negative. Keuntungan SVM
yaitu Ruang Input Dimensi Tinggi dan Ruang Input Dimensi Vektor (Giovani et
al., 2020).
Penelitian analisis sentimen yang membahas tentang opini masyarakat
pada media sosial twitter juga pernah dilakukan oleh (Faradhillah et al., 2016)
dengan judul Eksperimen Sistem Klasifikasi Analisa Sentimen Twitter Pada Akun
Resmi Pemerintah Kota Surabaya Berbasis Pembelajarn Mesin. Yang dilakukan
penelitian ini adalah pengklasifikasian opini masyarakat pada media twitter
menggunakan pembelajaran mesin. Pengklasifikasian dilakukan dengan
menggunakan algoritma Naïve Bayes dan Support Vector Machine (SVM). Data
diambil dari twitter @e100ss dan @SapawargaSby selama periode 1 September
2015 sampai dengan 13 Oktober 2015, dimana akan dikelompokkan menjadi 3
kelas sentiment yaitu positif, negatif, dan netral. Model klasifikasi terbaik
didapatkan dengan menggunakan algoritma Support Vector Machine (SVM)
dengan hasil akurasi sebesar 79,81% (Faradhillah et al., 2016). Setelah klasifikasi,
dibuat web framework pembuatan visualisasi berupa wordcloud dan grafik
streamgraph yang ditampilkan secara interaktif dengan aplikasi berbasis web yaitu
R Shiny.
Selanjutnya (Lukmana et al., 2019) melakukan penelitian analisis sentimen
terhadap calon presiden 2019 dengan meggunakan metode Support Vector
Machine (SVM). Tujuan dari penelitian ini digunakan untuk melihat gambaran
opini masyarakat terhadap para calon presiden. Metode ini akan
mengklasifikasikan apakah opini masyarakat akan termasuk dalam sentimen
positif atau negatif dengan mencari hyperlane terbaik dari kedua kelas klasifikasi.
Penambahan fungsi Kernel pada Support Vector Machine berguna untuk
mengatasi data yang tidak terpisah secara linier. Hasil dari klasifikasi didapatkan
akurasi sebesar 86% (Lukmana et al., 2019).
Metode selanjutnya yaitu K-Nearest Neighbor (KNN) adalah salah satu
algoritma paling sederhana untuk memecahkan masalah klasifikasi. Algoritma ini
sering digunakan untuk klasifikasi teks dan data. Pada metode ini dilakukan
klasifikasi terhadap obyek berdasarkan data yang jaraknya paling dekat dengan
obyek tersebut (Nurjanah et al., 2017). Tujuan dari algoritma ini adalah untuk
mengklasifikasikan obyek berdasarkan atribut dan training sample. Algortima ini
menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance
yang baru (Giovani et al., 2020).
Beberapa penelitian sebelumnya telah menggunakan metode KNN ini
seperti yang dilakukan oleh (Mentari et al., 2018) melakukan penelitian dengan
judul Analisis Sentimen Kurikulum 2013 Pada Sosial Media Twitter
Menggunakan Metode K-Nearest Neighbor dan Feature Selection Query
Expansion Ranking mencoba menganalisis tweet tentang kurikulum 2013 dengan
mengklasifikasikan metode K-Nearest Neighbor dan menggunakan metode Query
Expamsio Ranking untuk seleksi fitur. Ada 4 proses utama pada sistem analisis
sentimen ini yang pertama adalah text pre-processing, termweighting (TF-IDF),
seleksi fitur, dan klasifikasi. Berdasarkan pengujian yang telah dilakukan pada
penelitian ini terbukti bahwa seleksi fitur meningkatkan hasil dari akurasi sistem.
Hasil akurasi yang terbaik sebesar 96.36% (Mentari et al., 2018) diperoleh pada
saat nilai k = 1 dan menggunakan rasio 50% seleksi fitur. Hasil pengujian
menggunakan rasio 50% seleksi fitur akurasi sistemnya lebih tinggi dibandingkan
sistem yang tidak menggunakan seleksi fitur karena beberapa fitur noise
dihilangkan.
Dan pada penelitian (Nurjanah et al., 2017) yang berjudul Analisis
Sentimen Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada
Media Sosial Twitter menggunakan Metode K-Nearest Neighbor dan Pembobotan
Jumlah Retweet yang dilakukan penelitian ini adalah dengan menambahkan fitur
pembobotan jumlah retweet (non-tekstual). Pembobotan tekstual hasil dari
klasifikasi KNN dan pembobotan non-tekstual dari pembobotan jumlah retweet
akan digabungkan menggunakan nilai dari konstanta tertentu (α dan β) untuk
menghasilkan sentimen positif dan negatif. Data yang digunakan berupa opini
masyarakat terhadap tayangan televisi pada twitter sejumlah 400. Dari hasil
pengujian akurasi menggunakan pembobotan tekstual diperoleh 82,50%,
menggunakan pembobotan non-tekstual 60% dan menggunakan penggabungan
keduanya 83,33% dengan nilai k = 3 dan konstanta perkalian yang tepat α=0,8 dan
β=0,2.
Penelitian ini ingin membandingkan dua metode yaitu Support Vector
Machine (SVM) dan K-Nearest Neighbor (KNN) dari segi akurasi dan kecepatan
proses dalam analisis sentimen terhadap komentar netizen di twitter pada tagar
vaksin COVID-19. Perbandingan ini bertujuan untuk mengetahui algoritma mana
yang memiliki akurasi terbaik dan waktu proses tercepat.
1. Data komentar yang akan diambil untuk penelitian ini hanya tweet
berbahasa Indonesia sebanyak 1000 data yang berkaitan dengan tagar
vaksin COVID-19.