Sentiment Analysis On KAI Twitter Post Using MultiClass Support Vector Machine (SVM) Id
Sentiment Analysis On KAI Twitter Post Using MultiClass Support Vector Machine (SVM) Id
JURNAL RESTI
(Rekayasa Sistem dan Teknologi Informasi)
Vol. 4 No. 5 (2020) 846 - 853 ISSN Media Elektronik: 2580-0760
2. Metode Penelitian
1.
MENGUM
MULAI DATASET
PULKAN
DATA
DENGAN
PENGIKIS
TWITTER 2.
PELABELA
N MANUAL
3. DATA
4. WORDCLOUD
PEMROSESAN
5. FITUR
PEMBOBOTAN
AKH
DATA
IR DATA UJI
KERE
TA
API
AKURASI 6. MEMBANGUN
TERBAIK, 7. MODEL
MATRIKS MENGHITUNG KLASIFIKASI
KEBINGUN KINERJA MULTIKELAS
GAN SVM
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
847
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
hubungannya dengan dokumen. Tanda baca atau angka
Bahasa Indonesia. Pada penelitian ini, analisis
yang tidak
sentimen didasarkan pada klasifikasi tweet komunitas
pada akun Twitter @KAI121 yang dikumpulkan
melalui Twitter scrapper. Kumpulan tweet tersebut
digunakan sebagai data latih dengan diberi label dan
kemudian dilakukan pengujian dengan data uji. Hasil
dari kinerja metode Support Vector Machine (SVM)
Multiclass dan lima pendekatan fitur TF-IDF yang
berbeda dalam mengenali tweet positif, negatif, dan
netral menjadi fokus penelitian. Berikut arsitektur
sistem yang dibangun pada Gambar 1.
2.1. Kumpulan data
Pengambilan data dilakukan melalui Twitter scrapper
pada akun @kai121 dari bulan Januari 2018 hingga
Januari 2020 sebanyak 7000 data yang akan menjadi
data latih dan data uji dengan menentukan label
sentimen secara manual. Penentuan label dilakukan
dengan cara menganalisa tweet dan mengelompokkan
kalimat yang mengandung kata baik atau apresiasi
seperti bagus, keren, senang, dan sebagainya ke
dalam kelas positif, kalimat yang mengandung
pertanyaan jadwal atau fasilitas diklasifikasikan ke
dalam kelas netral, dan kalimat yang mengandung
keluhan dan kata tidak baik diklasifikasikan ke dalam
kelas negatif. Pelabelan dilakukan oleh penulis
bersama dengan rekan yang terdiri dari tiga orang.
Selanjutnya dilakukan preprocessing data. Pada Tabel
1 dijelaskan mengenai contoh pelabelan kelas pada
data tweet:
Tabel 1 Contoh Tweet dan Kelas
Tidak. Tweet Kelas
1 Terimakasih @KAI121 perjalanan ku
bersama JogloSemarkerto menuju Positif
Purwokerto menyenangkan
2 Prosedurnya bagaimana? Netral
3 Adminnya tidak profesional Negatif
tidak memiliki hubungan akan menurunkan nilai fitur selama proses TF-IDF. Proses word cloud
performa dari proses klasifikasi. Pada Gambar 3 dilakukan dalam beberapa langkah. Pada Gambar 6,
menunjukkan contoh proses Hapus Tanda Baca. menunjukkan ilustrasi untuk mendapatkan fitur word
cloud. Tabel 3 menunjukkan hasil word cloud.
terimakasih @kai121 terimakasih kai
perjalanan ku bersama perjalanan ku bersama
joglosemarkerto joglosemarkerto menuju MULAI
menuju purwokerto purwokerto
menyenangkan menyenangkan
DATA
PRAPEMROSESAN
Gambar 3 Menghapus Tanda Baca
PEMFILTERAN
Langkah ketiga adalah normalisasi. Normalisasi adalah KATA PADA
langkah yang diambil untuk mengubah singkatan, SEMUA
DOKUMEN
akronim, atau kata-kata ambigu dalam dokumen.
Normalisasi dapat menangani data yang tidak HASIL
seimbang. Tahap normalisasi mengubah 530 kata yang WORDCLOUD
SEBAGAI KATA
peneliti dapatkan dengan cara menganalisa dan HENTI
mengubahnya menjadi kata baku menurut KBBI. Pada
Tabel 2 menunjukkan contoh beberapa kata dalam KATAPEMFILTERAN
PADAPOSITIF
PEMFILTERAN KATA PEMFILTERAN KATA
PADANETRAL
proses normalisasi. PADADOKUMEN NEGATIF DOKUMEN
HASIL DOKUMEN
HASIL HASIL
Tabel 2 Normalisasi WORDCLOUD WORDCLOUD WORDCLOUD
YANG NETRAL NEGATIF
Tidak. Kata Asli Kata Normalisasi POSITIF
1 aja saja
2 aj saja AKH
3 Gak. tidak IR
4 yg yang Gambar 6 Langkah-langkah
5 st stasiun
Wordcloud Tabel 3 Hasil
Langkah selanjutnya adalah stemming. Stemming
Tidak. D o k u m eWordcloud
Data Wordcloud
adalah proses menghilangkan awalan dan akhiran pada n
sebuah kata untuk mendapatkan kata dasar dari sebuah 1 Semua akses kai, ini, nya, sampai, dari, di, saya,
dokumen. Proses stemming pada penelitian ini mau, beli, tiket, tidak, baru, kalau, saya,
menggunakan library Sastrawi Stemming berbahasa terima, kasih, tidak, bisa, jalan, yang,
haru, tapi, karena. kakak, juga, ke, kereta,
Indonesia. Pustaka stemming Sastrawi menerapkan
admin, kai, sama, ya admin, tuju, mau,
algoritma Nazief dan Andriani. Hasil dari langkah tanya, bagaimana ya, tiket kereta, kereta
normalisasi sebelumnya diproses untuk melakukan api, dan, di stasiun, atau, dengan,
stemming. Pada Gambar 4 menunjukkan contoh proses sekarang, buat, jadi, lagi, saja, ya, itu,
sudah, ada, admin
stemming.
mau, apakah, tidak ada, macet, apa, untuk.
2 Positif aman, guna, moga, eksekutif, bersih, naik,
terimakasih kai perjalanan terimakasih kai jalan sangat, lebih, jalan, alhamdulillah, layan,
ku bersama ku sama ekonomi, malam, dapat, mantap, gerbong,
joglosemarkerto menuju joglosemarkerto tuju kembali, terima kasih, sekali, suka, lokal,
purwokerto purwokerto senang enak, bagus, masih, kursi, bisa, banget,
menyenangkan tugas, bagus, makin, bikin, hari, banyak,
semua, biar, suka, tambah, nyaman,
Gambar 4 Stemming selalu, tumpang, bapak, haru, sedia,
stasiun, aku, dong, makan, keren, pakai,
Langkah terakhir adalah Tokenisasi. Tokenisasi adalah terima kasih
proses memecah urutan karakter menjadi beberapa 3 Netral dapat, habis, aku, berapa, sedia, aplikasi,
bagian (kata/frasa) yang disebut token[10]. Pada terus, belum, masih, ktp, bisa, harga,
Gambar 5 gambir, haru, loket, hari, pasar senen,
bagaimana, pesan, tanya, sore, jadwal,
batal, bandung, lewat, apakah, bayar,
terimakasih kai jalan 'terimakasih', 'kai', mana, bagaimana cara, pada, tarif khusus,
ku sama ' jalan', 'sama', berangkat, mohon info, gerbong, jalan,
joglosemarkerto tuju ' joglosemarkerto', 'tuju', tumpang, kenapa, naik, apakah, bisa,
purwokerto senang ' purwokerto', 'senang' pesan, kursi, lokal, pakai, kapan, buka,
malangekonomi, seperti, Jakarta, t a n y a
Gambar 5 Tokenisasi
4 Negatif gerbong, terus, apakah, aplikasi, lalu,
2.3 Wordcloud coba, jalan, tolong, lebih, masih, tanya,
seperti, bayar, cek, kali, bisa, tumpang,
Wordcloud hadir sebagai metode langsung dan menarik pesan, banyak, belum, selalu, lokal,
untuk memvisualisasikan teks. Wordcloud biasanya malah, benar, padahal, kenapa, hari,
digunakan dalam berbagai konteks untuk memberikan mohon, bisa, sih, tadi, masuk, telat,
gambaran umum dengan menyaring teks berupa kata- bagaimana, jadwal, pakai, harga, naik, nih,
pas, berangkat, error, kursi, lama, semua,
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. gabisa, 4 No. harus,
5 (2020) 846 - 853
muncul, saat, banget.
849
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
kata yang memiliki nilai frekuensi tinggi [9]. Penelitian
ini menggunakan wordcloud sebagai teknik untuk
menyaring kata-kata pada setiap sentimen yang
kemudian akan digunakan sebagai
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
850
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
851
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
852
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Pendekatan OAA memiliki performa yang lebih baik 0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 0.48 -0.48 0 0 -0.48 0 0
dibandingkan pendekatan OAO dan juga lebih 0 -0.48 0 0.48 0 0.48 0 -0.48 0
sederhana dibandingkan dengan menggabungkan 0 -0.48 0 0.48 0 0.48 0 -0.48 0
optimasi dari semua kelas data. Proses klasifikasi tweet 0 0 -0.48 0 0 -0.48 0.48 0.48 0
pada penelitian ini dibagi menjadi dua tahap, yaitu 0 0 -0.48 0 0 -0.48 0.48 0.48 0
0 0 -0.48 0 0 -0.48 0.48 0.48 0
pelatihan untuk pembentukan model dengan
menggunakan metode Multiclass Support Vector
Machine dan tahap pengujian. Gambar 7 menunjukkan Setelah mendapatkannya, langkah selanjutnya adalah
gambaran umum dari proses pelatihan dan pengujian. melakukan perhitungan untuk mendapatkan panjang
vektor. Tabel 6 menunjukkan hasil perhitungan panjang
vektor.
MULAI
Tabel 6 Menghitung Panjang Vektor
Tidak. Panjang Vektor Hasil
DATA 1 |x1-x1| 0
UJI DATA 2 |x1-x2| 2.502
KERE
TA 3 |x1-x3| 2.730
4 |x2-x1| 2.502
5 |x2-x2| 0
MEMBANGUN MEMBANGUN 6 |x2-x3| 1.137
PELATIHAN BANGUNAN
7 |x3-x1| 2.730
PELATIHAN
8 |x3-x2| 1.137
PELATIHAN UNTUK KELAS 1
9 |x3-x2| 0
UNTUK KELAS 2 UNTUK
KELAS 3
TEMUKAN X DAN TEMUKAN MENEMUKAN Selanjutnya, hasil panjang vektor dimasukkan ke dalam
NILAI X DAN Y DENGAN NILAI Y NILAI X DAN Y
DENGAN KERNEL RBF KERNEL RBF DENGAN kernel RBF. Nilai gamma yang digunakan adalah 0.5.
DAN LINEAR DAN LINEAR KERNEL RBF Tabel 7 menunjukkan perhitungan kernel RBF pada
KERNEL KERNEL DAN KERNEL langkah pelatihan.
LINEAR
Tabel 7 Menghitung Kernel RBF
TEMUKAN BIAS TEMUKAN BIAS TEMUKAN
BIAS DAN DAN DAN Tidak. Kernel Hasil
HYPERPLANE HYPERPLANE HYPERPLANE 1 K(1,1) exp (-γ||x1-x1||2 )
KELAS 1 KELAS 2 KELAS 3 exp ((-0.5)(0)2 ) =
1
2 K(1,2) exp (-γ||x1-x2|| )2
exp ((-0.5)(2.502)2 ) = 0.043
3 K(1,3) exp (-γ||x1-x3|| )2
MENENTUKA exp ((-0.5)(2.730)2 ) = 0.024
N KELAS
4 K(2,1) exp (-γ||x2-x1|| )2
DENGAN exp ((-0.5)(2.502)2 ) = 0.043
BATAS
5 K(2,2) exp (-γ||x2-x2||2 )
KEPUTUSAN
exp ((-0.5)(0)2 ) =
1
6 K(2,3) exp (-γ||x2-x3|| )2
AKH exp ((-0.5)(1.137)2 ) = 0.524
IR 7 K(3,1) exp (-γ||x3-x1|| )2
Gambar 7 Proses Pelatihan dan Pengujian exp ((-0.5)(2.730)2 ) = 0.024
8 K(3,2) exp (-γ||x3-x2|| )2
Pada Gambar 7 terdapat beberapa tahapan proses exp ((-0,5)(1,137)2 ) = 0,524
pelatihan dan pengujian. Pertama, formulasi (W) yang 9 K(3,3) exp (-γ||x3-x3||2 )
digunakan adalah dualitas dari Lagrange Multiplier Setelah menghitung kernel,
exp langkah
((-0.5)(0)2 selanjutnya
)= adalah
1
menghitung nilai y. Nilai y didapatkan dari nilai label
yang telah dimodifikasi dengan nilai x dari kernel RBF.
Menghitung data K (x, xi) dari fitur dimensi lama untuk atau kelas yang telah diberikan, pada Tabel 8
mendapatkan data dengan fitur dimensi tinggi yang menunjukkan nilai y.
baru. Kernel yang digunakan adalah kernel RBF. Pada Tabel 8 Nilai Y
Tabel 5 menunjukkan sebagian dari perhitungan x- xi:
Y dari Kelas Y dari Kelas Y dari Kelas
Tabel 5 Menghitung X-Xi
Pelatihan Pelatihan Pelatihan
1 2 3
Melatih Data Kelas Latih Data Kelas 2 Latih Data Kelas 3 y1 y2 y3 y1 y2 y3 y1 y2 y3
1 1 -1 -1 -1 1 -1 -1 -1 1
x1- x1- x2- x2- x2- x3- x 3 - x3-x3 Langkah selanjutnya adalah melakukan perhitungan y
x 1 - x2 x3 x1 x2 x3 x1 x2 dengan menggunakan perhitungan kernel linier dengan
x 1
0 0.48 0.48 -0.48 0 0 -0.48 0 0 persamaan (3).
0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 0.48 -0.48 0 0 -0.48 0 0 ∑ 𝑦𝑖𝑦𝑖𝑇 (3)
0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 Jurnal
0.48 -0.48
RESTI 0 0
(Rekayasa -0.48
Sistem 0 0
dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
0 0.48 0.48 -0.48 0 0 -0.48 0 0
853
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Nilai y adalah nilai label yang diberikan. Tabel 3.9 -418.077 61.378 -19.251
menunjukkan nilai y untuk tahap pelatihan kelas 1. =[ 418.077 ] + [1427.4] + [-802.122]
-418.077 1427.4 -802.122
Tabel 9 Nilai Y dalam Pelatihan Kelas -375.95
1 = [1043.355]
y1 y2 y3
207.201
-1 1 1
-375.95
W1 = [ ] , B1 = 207.201.
Kemudian langkah selanjutnya adalah mencari nilai a. 1043.355
Proses mendapatkan nilai a dimulai dengan mengubah
setiap pernyataan menjadi nilai vektor (support vector) Langkah-langkah untuk menemukan hyperplane kedua
dengan persamaan (4). dan ketiga sama dengan menentukan hyperplane
pertama. Hasil dari nilai hyperplane kedua dan ketiga
√𝑥2 + 𝑦2 > 2 → (4-𝑦+|𝑥-𝑦|) yang ada,
-989.111
4−𝑥+|𝑥−𝑦| W2 = [ ] , B2 = 207.201
{ (4) 2647.599
√𝑥 + 𝑦 ≤ 2 → ( )
2 2 𝑥
W3 = [ 64.198 ] , B3 = 207.201.
𝑦
1811.445
Sebagai contoh, perhitungan pada pernyataan pertama.
The Setelah mendapatkan nilai hyperplane pertama hingga
persamaan (5) menunjukkan proses perhitungan. ketiga, langkah selanjutnya adalah menentukan kelas
dari data uji ke dalam kelas positif, netral, atau negatif.
√12 + -12 = √2 -> (1-1) (5) Sebagai contoh, data uji memiliki nilai support vector
(120.112,2) maka pada langkah pengujian nilai vektor
Setelah itu, setiap support vector diberi nilai bias 1 tersebut disubstitusikan ke dalam persamaan (10):
untuk mendapatkan jarak tegak lurus yang optimal dan
𝑘𝑒𝑙𝑎𝑠 𝑥 = arg max([𝑤 ]1𝑇 . 𝜑(𝑥) + 𝑏1 , [𝑤 ]2𝑇 . 𝜑(𝑥) +
membantu mendapatkan nilai b atau hyperplane.
Kemudian kalikan setiap kalimat dengan menggunakan 𝑏 , [𝑤 ] . 𝜑(𝑥) + 𝑏
2 3𝑇 3
(10)
persamaan (6).
∑𝑛𝑖= 1, 𝑗 𝑎𝑖𝑆𝑖𝑇 𝑆𝑗, (6) 𝑘𝑒𝑙𝑎𝑠 𝑥 = arg max( [ -375.95 ] . [120.112]
𝑇
=1
1043.355 2
Sebagai contoh, perhitungan pada pernyataan + 207.201,
pertama adalah,
1 1𝑇 [ -989.111 ]120.112
𝑇
.[ ] + 207.201,
a [-1] * [-1] = 3 a 2647.599 2
1 1 64.198 120.112
1 1 [ ].[ ] + 207.201)
1811.445 2
Setelah menghitung semua pernyataan. Kemudian = arg max ( -42862.189, 113301.701,
temukan ai 10281.043 )
menggunakan persamaan (7). Nilai hyperplane terbesar adalah 113301.70. Nilai
∑𝑛𝑖= 1, 𝑗 𝑎𝑖𝑆𝑖𝑇 𝑆𝑗 = 𝑦𝑖 (7) hyperplane adalah nilai kelas 2, artinya data uji
=1 termasuk dalam kelas netral.
Jadi, bentuknya bisa dilihat sebagai berikut: 2.6. Kinerja Klasifikasi
3 a1 + 2,002 a2 + 2,001 a3 = 1
2.002 a1 + 3 a2 + 2.270 a3 = -1 Performa sistem klasifikasi menggambarkan seberapa
2,001 a1 + 2,270 a2 + 3 a3 = -1 baik sistem tersebut dalam mengklasifikasikan data.
sehingga kita mendapatkan nilai a1, a2 dan a3 sebagai Confusion Matrix merupakan salah satu metode yang
berikut: digunakan untuk mengukur performa suatu metode
klasifikasi. Confusion matrix berisi perbandingan
a1 = -418,077 a2= 1427,4 a3= -802,122 antara hasil klasifikasi yang dilakukan oleh sistem
Setelah parameter 𝑎𝑖 diperoleh, kemudian masukkan ke dengan klasifikasi yang sebenarnya[14]. Data uji yang
dalam persamaan (8). dimasukkan ke dalam confusion matrix akan
menghasilkan nilai akurasi. Pada Tabel 10
menunjukkan nilai confusion matrix.
𝑤 = ∑ 𝑛𝑖= 1, 𝑗 𝑎𝑖𝑠𝑖 (8) Matriks penelitian ini.
=1
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
855
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Berdasarkan nilai akurasi True Negative (TNe), True model TF-IDF unigram dan Support Vector Machine
Neutral (TNt), False Neutral (FNt), False Positive (FP), (SVM) multikelas secara rinci.
False Negative (FNe), dan True Positive (TP) Tabel 13 Matriks Kebingungan
dapat diperoleh. Nilai akurasi m e n g g a m b a r k a n
seberapa akurat sistem dapat mengklasifikasikan data d e n gKelas Diklasifikasikan Diklasifikasikan
a n benar. Diklasifikasikan
sebagai sebagai sebagai
Nilai akurasi dapat diperoleh dengan persamaan (11): Positif Netral Negatif
𝑇𝑃 + 𝑇𝑁𝑒 + 𝑇𝑁𝑡 Positif 35 24 13
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ∗ 100% (11) Netral 0 365 37
𝑇𝑃 + 𝑇𝑁𝑒 + 𝑇𝑁𝑡 + 𝐹𝑃 + 𝐹𝑁𝑒 +
𝐹𝑁𝑡
Negatif 13 37 166
Dimana TP adalah jumlah data positif yang Tabel 12. Gambar 3. Peta confusion matrix klasifikasi
diklasifikasikan dengan benar, TNt adalah jumlah data data uji yang diklasifikasikan dengan benar dan salah.
netral yang diklasifikasikan dengan benar, TNe adalah Tabel 13 menunjukkan ilustrasi data yang
jumlah data negatif yang diklasifikasikan dengan benar, diklasifikasikan atau diprediksi dengan benar atau salah
FP adalah jumlah data positif tetapi diklasifikasikan dari akurasi terbaik,
secara tidak tepat oleh sistem, FNe adalah jumlah data
netral tetapi diklasifikasikan secara tidak tepat oleh
sistem. FNe adalah jumlah data negatif tetapi
diklasifikasikan secara salah oleh sistem.
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
856
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Unigram Bigram
Gambar 8 Visualisasi Efek Gamma Trigram Unigram +
3.2. Diskusi Wordcloud Bigram
100
Berdasarkan hasil penelitian ini, peneliti dapat
menjabarkan beberapa analisis. Tabel 11 80
menunjukkan jumlah fitur yang digunakan dalam
pembobotan TF-IDF. Fitur unigram dengan jumlah
fitur 7103 pada tahap pembobotan fitur sangat cocok 60
untuk digabungkan dengan metode multiclass SVM
pada penelitian ini, terbukti dari nilai akurasi yang 40
didapatkan paling tinggi diantara fitur lainnya.
Berdasarkan jumlah fitur unigram yang dihasilkan,
dapat dikatakan bahwa fitur unigram merupakan fitur 20
yang paling efisien dan efektif dalam penelitian ini.
Fitur trigram sangat tidak tepat, tidak efisien, dan 0
tidak efektif digabungkan dengan metode Multiclass 0. 90 . 80 . 70 . 60 . 5 0. 4
SVM pada data set penelitian ini karena dilihat dari
jumlah fitur yang paling banyak, yaitu 77565 dengan
nilai akurasi yang paling rendah. Penggunaan fitur
word cloud pada dataset kurang baik karena banyak
kata yang terklasifikasi ke dalam dua kelas, sehingga
sulit untuk mengklasifikasikannya dengan benar.
Sebaiknya fitur yang digunakan tidak masuk ke dalam
dua kelas sekaligus.
Tabel 12 berisi hasil akurasi dari fitur unigram,
bigram, trigram, unigram+bigram, dan word cloud.
Fitur unigram memiliki nilai akurasi rata-rata
tertinggi yaitu 80.33 dibandingkan dengan keempat
fitur lainnya.
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
857
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
yaitu Bigram sebesar 52.53, Trigram sebesar 53.54, akurasi pengujian dapat dilakukan dengan
Unigram + Bigram sebesar 76.13, dan Word cloud menambahkan jumlah dataset sebelumnya dan
sebesar 70.33. Nilai akurasi tertinggi berasal dari menambahkan kosakata ke dalam daftar normalisasi
pengujian model TF- IDF unigram yang sehingga dataset lebih seimbang dari sebelumnya.
dikombinasikan dengan metode klasifikasi Multiclass Melakukan analisis sentimen dengan menggunakan
Support Vector Machine (SVM) dengan nilai parameter metode klasifikasi dan pembobotan fitur yang berbeda.
gamma sebesar 0.7 yaitu sebesar 80.59. Gamma yang
digunakan dapat mempengaruhi hasil klasifikasi, Referensi
semakin kecil nilai gamma yang digunakan maka hasil [1] Jumlah pengguna internet di Indonesia 2023 | Statista."
akurasi cenderung meningkat. Berdasarkan visualisasi [Online]. Tersedia:
pada Gambar 8 menunjukkan visualisasi nilai akurasi https://www.statista.com/statistics/254456/number- jumlah-
dengan variabel nilai gamma. pengguna-internet-di-indonesia/. [Diakses: 17-Sep-2019].
[2] "Indonesia Digital 2019 : Media Sosial - Websindo." [Online].
Tabel 13 menunjukkan matriks konfigurasi akurasi Available: https://websindo.com/indonesia-digital-2019-
terbaik. Akurasi terbaik diperoleh dari pengujian media-sosial/. [Diakses: 17-Sep-2019].
[3] I. I. P. Windasari, F. N. Uzzi, dan K. I. Satoto, "Analisis
metode Multiclass Support Vector Machine (SVM) sentimen pada postingan Twitter: Analisis opini positif atau
dengan negatif terhadap GoJek," Proc. 2017 4th Int. Conf. Inf.
0.7 parameter gamma dan pembobotan TF-IDF Technol. Comput. Electr. Eng. ICITACEE 2017, vol. 2018-
Unigram. Berdasarkan Tabel 13, dapat dilihat bahwa 35 Janua, pp. 266-269, 2018.
[4] G. A. Dalaorao, A. M. Sison, dan R. P. Medina,
data diklasifikasikan dengan benar sebagai positif, 365 "Mengintegrasikan Kolokasi sebagai Peningkatan TF-IDF
data diklasifikasikan dengan benar sebagai netral, dan untuk Meningkatkan Akurasi Klasifikasi," TSSA 2019 - 13th
166 data diklasifikasikan dengan benar sebagai negatif. Int. Conf. Telecommun. Syst. Serv. Appl. Proc., pp. 282-285,
2019.
[5] M. L. Pratama, "Studi Komparasi Metode Multiclass Support
4. Kesimpulan Vector Machine Untuk Masalah Analisis Sentimen Pada
Twitter," Fmipa Ui, 2014.
Jutaan pengguna Twitter memposting opini mereka di [6] A. Mustakim, I. Santoso, and A. A. Zahra, "Pengenalan
tweet mereka. Bisnis dapat menggunakan informasi ini Ekspresi Wajah Manusia Menggunakan Tapis Gabor 2-D Dan
untuk keuntungan mereka, tetapi membutuhkan banyak Support Vector Machine (Svm)," Transient, vol. 6, no. 3, p. 232,
waktu. Oleh karena itu, diperlukan analisis sentimen 2017.
[7] D. De Clercq, Z. Wen, dan Q. Song, "Pusat inovasi dalam
yang dapat memprediksi sentimen tweet dengan pengolahan limbah makanan, biogas, dan teknologi
metode TF-IDF dan machine learning. Berdasarkan pencernaan anaerobik: Pendekatan pemrosesan bahasa alami,"
penerapan lima pendekatan pembobotan fitur TF-IDF Sci. Total Environ., vol. 673, hlm. 402-413, 2019.
yang berbeda dengan metode Support Vector Machine [8] F. Heimerl, S. Lohmann, S. Lange, dan T. Ertl, "Penjelajah
awan kata: Analisis teks berdasarkan awan kata," Proc. Annu.
(SVM) multiclass untuk mengklasifikasikan data tweet Hawaii Int. Conf. Syst. Sci., pp. 1833-1842, 2014.
akun @KAI121 untuk analisis sentimen, peneliti dapat [9] A. M. Pravina, I. Cholissodin, and P. P. Adikara, "Analisis
menyimpulkan bahwa Hasil akurasi tertinggi yang Sentimen Tentang Opini Maskapai Penerbangan Pada
diperoleh dengan menggunakan metode SVM OAA Dokumen Twitter Menggunakan Algoritme Support Vector
Machine ( SVM )," J. Pengemb. Teknol. Inf. dan Ilmu Komput.
multiclass dalam menganalisis sentimen didapatkan Univ. Brawijaya, vol. 3, no. 3, pp. 2789-2797, 2019.
pada rasio 90:10 dengan menggunakan skema unigram, [10] M. Allahyari dkk., "Survei Singkat tentang Penambangan
pembobotan TF-IDF, dan nilai parameter gamma 0.7, Teks: Teknik Klasifikasi, Pengelompokan, dan Ekstraksi,"
yaitu sebesar 80.59. Fitur yang penting dalam 2017.
[11] H. Liang, X. Sun, Y. Sun, dan Y. Gao, "Ekstraksi fitur teks
penelitian ini adalah fitur unigram karena merupakan berdasarkan pembelajaran mendalam: sebuah tinjauan," Europ.
fitur yang unik dan menghasilkan nilai akurasi yang Commun. Netw., vol. 2017, no. 1, pp. 1-12, 2017.
tinggi. Gamma yang digunakan dapat mempengaruhi [12] S. M. H. Dadgar, M. S. Araghi, and M. M. Farahani, "Sebuah
hasil klasifikasi, semakin kecil nilai gamma yang pendekatan penambangan teks baru berdasarkan TF-IDF dan
mesin vektor pendukung untuk klasifikasi berita," Proc. 2nd
digunakan maka akurasi cenderung meningkat. IEEE Int. Conf. Eng. Technol. ICETECH 2016, no. March, pp.
Berdasarkan hasil penelitian, akun @kai121 memiliki 112-116, 2016.
11% sentimen positif, 58% sentimen netral, dan 31% [13] "Perpustakaan Digital - Perpustakaan Pusat Unikom -
sentimen negatif. PT. KAI diharapkan dapat Knowledge Center - WELCOME | Powered by GDL4.2 | ELIB
UNIKOM". [Online]. Available:
meningkatkan pelayanannya kepada pengguna jasa https://elib.unikom.ac.id/gdl.php?mod=browse&op=read&id=j
transportasi kereta api karena tingkat sentimen positif bptunikompp-gdl-citrawatii-
yang merupakan nilai kepuasan pengguna kereta api 35966&newtheme=gray&newtheme=green. [Diakses: 15-Des-
masih di bawah rata-rata. 2019].
[14] "Mengukur Kinerja Algoritma Klasifikasi dengan Confusion
Berdasarkan informasi di atas, ada beberapa saran Matrix - Achmatim.Net". [Online]. Available:
https://achmatim.net/2017/03/19/mengukur-kinerja-algoritma-
untuk penelitian selanjutnya. Disarankan untuk klasifikasi-dengan-confusion-matrix/. [Diakses: 13-Nov-
melakukan pelabelan secara manual kepada banyak ahli 2019].
bahasa agar data yang digunakan lebih valid. Pada
penelitian selanjutnya, untuk meningkatkan
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
858