Analisis Sentimen Pengguna Twitter Mengenai Calon
Analisis Sentimen Pengguna Twitter Mengenai Calon
Abstrak
Article History:
Received Aug 02th, 2023 Platform media sosial Twitter menjadi salah satu platform yang banyak digunakan oleh
Revised Aug 11th, 2023 masyarakat Indonesia untuk berkomunikasi, dan mengakses informasi dengan cepat.
Accepted Aug 27th, 2023 Hal ini menyebabkan banyak sekali sentimen masyarakat Indonesia yang dapat
dijadikan sebagai studi kasus salah satunya mengenai calon presiden Indonesia tahun
2024. Beberapa tokoh publik seperti Ganjar Pranowo, Prabowo Subianto, dan Ridwan
Kamil sudah mulai banyak dibicarakan oleh masyarakat sebagai calon presiden dalam
beberapa sentimen pada platform Twitter. Sentimen mengenai para tokoh publik
tersebut akan diklasifikasikan dengan algoritma Long Short Term Memory (LSTM)
dengan label positif dan negatif. Data sentimen selanjutnya akan melewati proses pre-
processing, pelabelan data dengan textblob, word embedding dengan fasttext, hingga
data balancing dengan SMOTE sebelum akhirnya model akan dilatih dan diuji. Tahapan
penentuan hyperparameter tuning dilakukan sebelum melatih model LSTM seperti
penentuan jumlah unit, learning rate, dropout, batch size hingga jumlah epoch agar
menghasilkan model latih yang baik. Hasil uji dan evaluasi performa untuk setiap model
yang telah dilatih adalah 82% akurasi, 86% presisi, 92% recall, dan 89% f1-score pada
model Ganjar Pranowo. 82% akurasi, 82% presisi, 96% recall, dan 89% f1-score pada
model Prabowo Subianto. 87% akurasi, 91% presisi, 95% recall, 93% f1-score pada
model Ridwan. 87%.
Kata Kunci : Analisis Sentimen, Fasttext, Textblob, SMOTE, LSTM, Hyperparameter
Tuning
Abstract
The social media platform Twitter is one of the platforms widely used by Indonesians to
communicate, and access information quickly. This has led to a lot of sentiments of
Indonesian people that can be used as a case study, one of which is about Indonesian
presidential candidates in 2024. Several public figures such as Ganjar Pranowo,
Prabowo Subianto, and Ridwan Kamil have started to be discussed by the public as
presidential candidates in several sentiments on the Twitter platform. Sentiments about
these public figures will be classified with the Long Short Term Memory (LSTM)
algorithm with positive and negative labels. Sentiment data will then go through a pre-
processing process, data labeling with textblob, word embedding with fasttext, to data
balancing with SMOTE before finally the model will be trained and tested. The
hyperparameter tuning stage is carried out before training the LSTM model such as
determining the number of units, learning rate, dropout, batch size to the number of
epochs in order to produce a good training model. The test results and performance
evaluation for each model that has been trained are 82% accuracy, 86% precision, 92%
recall, and 89% f1-score on the Ganjar Pranowo model. 82% accuracy, 82% precision,
96% recall, and 89% f1-score on Prabowo Subianto model. 87% accuracy, 91%
precision, 95% recall, 93% f1-score on Ridwan model. 87%.
Keyword : Sentiment Analysis, Fasttext, Textblob, SMOTE, LSTM, Hyperparameter
Tuning
1. PENDAHULUAN
Internet adalah salah satu sarana untuk mengakses informasi dan komunikasi yang dapat diakses oleh seseorang
dimana saja dan kapan saja. Seiring dengan berjalannya kemajuan teknologi, penggunaan internet sebagai sarana
komunikasi juga bertumbuh sangat pesat. Indonesia adalah salah satu negara dengan pengguna internet terbesar di dunia.
Berdasarkan hasil survey dari APJII (Asosiasi Penyelenggara Jasa Internet Indonesia) pada tahun 2022, jumlah penduduk
2.3.4 Normalization
Tahapan berikutnya dalam text pre-processing adalah normalisasi. Pada tahap ini, kalimat yang memiliki ejaan kata
yang disingkat atau diperpanjang akan diperbaiki menjadi kata baku sesuai dengan Kamus Besar Bahasa Indonesia
(KBBI) dengan cara memanfaatkan kamus lexicon bahasa Indonesia yang dapat digunakan untuk mapping pattern kata
yang ingin dinormalisasikan.
2.3.5 Stemming
Stemming adalah proses menemukan kata dasar dari kata yang sudah melewati proses stopword removal. Kata akan
direduksi menjadi kata dasar dengan menghilangkan imbuhan depan atau belakang. Library Sastrawi mampu memberikan
daftar kata dasar dalam bahasa Indonesia untuk dijadikan referensi dalam proses stemming.
2.3.6 Tokenization
Tokenizing adalah proses memecah teks menjadi unit-unit yang lebih kecil, yang disebut token. Token biasanya
dianggap sebagai kata-kata individu dalam teks. Tokenizing sangat penting dalam analisis teks karena memberikan cara
untuk mengukur frekuensi kata-kata dalam teks dan memungkinkan untuk menganalisis konteks kata-kata. Dalam proses
tokenizing, bukan hanya kata saja yang dipisahkan, tetapi juga angka dan tanda baca. Hal ini penting dilakukan karena
angka dan tanda baca juga bisa mempengaruhi penilaian terhadap suatu kalimat atau kata [12].
Berdasarkan tabel diatas, terlihat jumlah unit 500 mampu menghasilkan nilai akurasi yang baik dan nilai loss yang
rendah pada setiap data. Maka dari itu model dengan jumlah unit 500 disimpan dan akan digunakan untuk menguji data
uji nantinya.
Berdasarkan hasil pengukuran confusion matrix diatas, model memiliki akurasi yang cukup baik yang artinya mampu
mengklasifikaasi sentimen dengan baik. Model juga memiliki nilai presisi dan recall yang cukup tinggi yang menandakan
model mempunyai sensitivitas sangat baik dalam mengenali sentimen positif yang merupakan sentimen yang dominan
pada dataset. Sedangkan nilai pada f1-score mengindikasikan bahwa presisi dan recall memiliki keseimbangan yang baik
dalam klasifikasi.
4. KESIMPULAN
Penelitian analisis sentimen ini menggunakan data yang diperoleh dari Twitter dengan teknik data scraping
menggunakan SNScrape. Data yang didapatkan yaitu 11.984 data Ganjar Pranowo, 14.352 data untuk Prabowo Subianto,
16.646 data untuk Anies baswedan, 2.325 data Ridwan Kamil dan 10.984 data Puan Maharani. Lalu data melewati proses
pre-processing, data labelling, word embedding, dan data balancing. Kemudian melakukan pemodelan klasifikasi LSTM
dengan mempertimbangkan hyperparameter tuning seperti variasi jumlah unit, learning rate, dropout, batch size, hingga
jumlah epoch agar menghasilkan model yang terbaik. Model yang terbaik diuji coba dan dievaluasi dengan confusion
matrix. Hasil evaluasi performa setiap model calon presiden adalah 82% akurasi, 86% presisi, 92% recall, dan 89% f1-
score pada model Ganjar Pranowo. 82% akurasi, 82% presisi, 96% recall, dan 89% f1-score pada model Prabowo
Subianto. 89% akurasi, 91% presisi, 95% recall, dan 93% f1-score pada model Ridwan Kamil.
DAFTAR PUSTAKA
[1] APJII, “Survei Profil Internet Indonesia 2022,” 2022. https://apjii.or.id/gudang-data/hasil-survei.
[2] We Are Social, “Digital 2022: Another Year Of Bumper Growth,” 2022.
https://wearesocial.com/uk/blog/2022/01/digital-2022-another-year-of-bumper-growth-2/.
[3] F. Firmansyah, “Analisis sentimen terhadap hasil Pilpres 2019 dengan membandingkan algoritma Support Vector
Machine (SVM) dan algoritma K-Nearest Neighbor (KNN),” UIN Sunan Gunung Jati Bandung, 2019.
[4] M. R. Fais Sya’ bani, U. Enri, and T. N. Padilah, “Analisis Sentimen Terhadap Bakal Calon Presiden 2024 Dengan