Anda di halaman 1dari 14

Subscribe to DeepL Pro to translate larger documents.

Visit www.DeepL.com/pro for more information.

Terakreditasi oleh Akreditasi Jurnal Nasional (ARJUNA) yang


dikelola oleh Kementerian Riset, Teknologi, dan Pendidikan Tinggi Republik Indonesia dengan Peringkat 2 (Sinta 2)
Sejak tahun 2017 hingga 2021 sesuai dengan surat keputusan No. 10/E/KPT/2019

Diterbitkan secara online di halaman web jurnal: http://jurnal.iaii.or.id

JURNAL RESTI
(Rekayasa Sistem dan Teknologi Informasi)
Vol. 4 No. 5 (2020) 846 - 853 ISSN Media Elektronik: 2580-0760

Analisis Sentimen pada Postingan Twitter KAI Menggunakan Multiclass


Support Vector Machine (SVM)
Dhina Nur Fitriana1 , Yuliant Sibaroni2
1,2Informatika,
Fakultas Ilmu Komputer, Universitas Telkom
1dhnnur@student.telkomuniversity.ac.id,2 yuliant@telkomuniversity.ac.id
Abstrak
Informasi dalam bentuk teks yang tidak terstruktur semakin banyak dan menjadi hal yang lumrah
keberadaannya di internet. Informasi ini dengan mudah ditemukan dan dimanfaatkan oleh para pelaku bisnis
atau perusahaan melalui media sosial. Salah satunya adalah Twitter. Twitter menduduki peringkat ke-6 sebagai
media sosial yang banyak diakses saat ini. Penggunaan Twitter memiliki kelemahan yaitu data yang tidak
terstruktur dan besar. Akibatnya, sulit bagi pebisnis atau perusahaan untuk mengetahui opini terhadap layanan
dengan sumber daya yang terbatas. Untuk memudahkan pelaku bisnis mengetahui sentimen publik demi
pelayanan yang lebih baik di masa depan, maka sentimen publik di Twitter perlu diklasifikasikan menjadi
positif, netral, dan negatif. Metode Multiclass Support Vector Machine (SVM) merupakan metode klasifikasi
supervised learning yang menangani klasifikasi tiga kelas. Makalah ini menggunakan pendekatan One Against
All (OAA) sebagai metode untuk menentukan kelas. Makalah ini berisi hasil klasifikasi metode SVM Multiclass
OAA dengan lima fitur pembobotan yang berbeda yaitu unigram, bigram, trigram, unigram+bigram, dan word
cloud untuk menganalisa data tweet, menemukan akurasi terbaik dan fitur yang penting ketika diproses dengan
data yang besar. Akurasi tertinggi adalah model TF-IDF unigram yang dikombinasikan dengan OAA Multiclass
SVM dengan gamma 0.7 yaitu 80.59.
Kata kunci: Data Twitter, Analisis Sentimen, Klasifikasi Teks, Term Frequency-Invers Document Frequency.

1. Pendahuluan sentimen netral. Untuk memudahkan pelaku bisnis


mengetahui respon masyarakat untuk pelayanan yang
Informasi dalam bentuk dokumen berbasis teks yang
lebih baik kedepannya, maka sentimen masyarakat di
tidak terstruktur semakin meningkat dan menjadi hal
Twitter perlu diklasifikasikan menjadi positif, netral,
yang lumrah di internet. Hal ini terjadi karena adanya
dan negatif. Klasifikasi pada penelitian ini
peningkatan pengguna internet setiap tahunnya[1].
menggunakan pendekatan TF-IDF dan metode machine
Informasi tersebut seringkali dengan mudah ditemukan
learning untuk memudahkan admin mengetahui
dan dimanfaatkan oleh bisnis atau perusahaan melalui
informasi/respon dari pelanggan.
media sosial, salah satunya Twitter. Twitter menduduki
peringkat ke-6 sebagai media sosial yang banyak Term Frequency Inverse Document Frequency (TF-
diakses saat ini[2]. Penggunaan Twitter di Indonesia IDF) adalah metode untuk memberikan bobot pada
membuat banyak pelaku bisnis memanfaatkannya sebuah kata (term) pada sebuah dokumen. Fitur TF-IDF
sebagai media komunikasi untuk menyampaikan dapat disesuaikan dengan bentuk data dengan metode
keluhan, pertanyaan, atau saran terhadap suatu layanan machine learning untuk memilih fitur yang terbaik dan
yang diberikan agar menjadi lebih baik ke depannya. akurat dalam klasifikasi data tweet. Penelitian
sebelumnya mengenai pembobotan fitur bigram diteliti
Penggunaan Twitter memiliki kelemahan berupa data
oleh Gleen dkk. [4] yang menjelaskan tentang metode
teks yang tidak terstruktur dan dalam jumlah besar.
TF-IDF yang mengintegrasikan kolokasi sebagai fitur.
Twitter berisi keluhan tentang fasilitas, pertanyaan yang
Penelitian ini bertujuan untuk mengatasi kelemahan
berkaitan dengan layanan, atau apresiasi terhadap
Term Frequency-Inverse Document Frequency (TF-
kepuasan pelanggan. Hal ini menyulitkan pelaku bisnis
IDF) dalam menangani term tunggal. Hasil penelitian
atau perusahaan untuk mengetahui sentimen publik
menunjukkan bahwa terdapat peningkatan akurasi
terhadap pelayanan dengan sumber daya yang terbatas.
sebesar 10% dibandingkan dengan TF-IDF tanpa
Terdapat kelemahan pada penelitian Windasari dkk.[3]
integrasi kolokasi.
yang membahas tentang klasifikasi data Twitter Gojek,
yaitu klasifikasi hanya menjadi positif dan negatif, Pada penelitian sebelumnya, menurut Windasari
sedangkan banyak ditemukan tweet yang bersifat netral dkk.[3], metode Support Vector Machine merupakan
sehingga data perlu diklasifikasikan menjadi metode supervised learning yang lebih optimal
dibandingkan dengan metode Naïve Bayes.
Diterima oleh editor: 30-07-2020 | Revisi Akhir: 06-09-2020 | Publikasi Online: 30-10-2020 846
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
Sistem klasifikasi yang dibangun pada penelitian ini
Namun, metode Support Vector Machine hanya dapat
adalah sistem yang dapat mengklasifikasikan sentimen
menangani dua kelas atau klasifikasi biner. Pada
masyarakat dalam
penelitian ini, perlu dilakukan pengembangan metode
SVM untuk menangani kasus klasifikasi non-biner,
yaitu dengan pendekatan Multiclass Support Vector
Machine (SVM) yang menangani klasifikasi lebih dari
dua kelas. Terdapat dua pendekatan dalam
mengimplementasikan metode Multiclass Support
Vector Machine dengan menggabungkan beberapa
SVM biner, yaitu One Against All (OAA) dan One
Against One (OAO). Pendekatan Multiclass SVM
OAA pada penelitian Hejazi dkk. [4], Pratama dkk. [5],
dan Mustakim dkk. [6] memiliki nilai akurasi yang
lebih baik dibandingkan dengan Multiclass SVM OAO.
Berdasarkan pembahasan di atas, penelitian ini akan
mengklasifikasikan kalimat pengguna data Twitter
menjadi positif, netral, dan negatif menggunakan
klasifikasi Support Vector Machine (SVM) Multiclass
One Against All (OAA) menggunakan kernel radial
basis function dengan lima pendekatan pembobotan
fitur TF-IDF yaitu unigram[3], bigram[4], trigram[5],
trigram[6], unigram+bigram, dan word cloud[7] untuk
memetakan sentimen masyarakat ke dalam kategori
positif, negatif, atau netral. Dari kombinasi lima fitur
yang berbeda tersebut akan ditemukan fitur terbaik
untuk klasifikasi data. Input dari penelitian ini adalah
kumpulan data dari Twitter scrapper dan output dari
penelitian ini adalah performa klasifikasi sentimen
masyarakat.
Penelitian ini bertujuan untuk mengetahui kinerja
metode Multiclass Support Vector Machine (SVM)
untuk klasifikasi data Twitter dan mengetahui
kelompok fitur TF-IDF terbaik dilihat dari nilai akurasi
yang diperoleh. Sehingga, dapat mengetahui informasi
berupa sentimen masyarakat dalam fasilitas pelayanan,
pertanyaan, dan keluhan.

2. Metode Penelitian
1.
MENGUM
MULAI DATASET
PULKAN
DATA
DENGAN
PENGIKIS
TWITTER 2.
PELABELA
N MANUAL

3. DATA
4. WORDCLOUD
PEMROSESAN

5. FITUR
PEMBOBOTAN

AKH
DATA
IR DATA UJI
KERE
TA
API
AKURASI 6. MEMBANGUN
TERBAIK, 7. MODEL
MATRIKS MENGHITUNG KLASIFIKASI
KEBINGUN KINERJA MULTIKELAS
GAN SVM

Gambar 1 Arsitektur Sistem

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
847
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
hubungannya dengan dokumen. Tanda baca atau angka
Bahasa Indonesia. Pada penelitian ini, analisis
yang tidak
sentimen didasarkan pada klasifikasi tweet komunitas
pada akun Twitter @KAI121 yang dikumpulkan
melalui Twitter scrapper. Kumpulan tweet tersebut
digunakan sebagai data latih dengan diberi label dan
kemudian dilakukan pengujian dengan data uji. Hasil
dari kinerja metode Support Vector Machine (SVM)
Multiclass dan lima pendekatan fitur TF-IDF yang
berbeda dalam mengenali tweet positif, negatif, dan
netral menjadi fokus penelitian. Berikut arsitektur
sistem yang dibangun pada Gambar 1.
2.1. Kumpulan data
Pengambilan data dilakukan melalui Twitter scrapper
pada akun @kai121 dari bulan Januari 2018 hingga
Januari 2020 sebanyak 7000 data yang akan menjadi
data latih dan data uji dengan menentukan label
sentimen secara manual. Penentuan label dilakukan
dengan cara menganalisa tweet dan mengelompokkan
kalimat yang mengandung kata baik atau apresiasi
seperti bagus, keren, senang, dan sebagainya ke
dalam kelas positif, kalimat yang mengandung
pertanyaan jadwal atau fasilitas diklasifikasikan ke
dalam kelas netral, dan kalimat yang mengandung
keluhan dan kata tidak baik diklasifikasikan ke dalam
kelas negatif. Pelabelan dilakukan oleh penulis
bersama dengan rekan yang terdiri dari tiga orang.
Selanjutnya dilakukan preprocessing data. Pada Tabel
1 dijelaskan mengenai contoh pelabelan kelas pada
data tweet:
Tabel 1 Contoh Tweet dan Kelas
Tidak. Tweet Kelas
1 Terimakasih @KAI121 perjalanan ku
bersama JogloSemarkerto menuju Positif
Purwokerto menyenangkan
2 Prosedurnya bagaimana? Netral
3 Adminnya tidak profesional Negatif

2.2 Data Pemrosesan Awal


Pada tahapan ini dilakukan preprocessing data pada
data latih dan data uji untuk mengoptimalkan fitur
data yang memiliki arti yang sama namun memiliki
penulisan yang berbeda sehingga mudah untuk
diproses. Pada arsitektur sistem, terdapat lima
tahapan preprocessing.
Langkah pertama adalah Case folding. Case folding
merupakan langkah dalam pengolahan data yang
bertujuan untuk mengubah atau menghilangkan
semua huruf kapital pada dokumen menjadi huruf
kecil [9]. Data yang telah dikumpulkan dari Twitter
kemudian dilakukan proses Case Folding. Pada
Gambar 2 menunjukkan contoh proses Case Folding.

Gambar 2 Pelipatan Kasus Terimakasih @KAI121 terimakasih @kai121


perjalanan ku bersama perjalanan ku bersama
Langkah kedua adalah Remove Punctuation. Remove JogloSemarkerto menuju joglosemarkerto menuju
Punctuation adalah langkah yang dilakukan pada Purwokerto purwokerto
menyenangkan menyenangkan
dokumen untuk menghapus atau menghilangkan
beberapa tanda baca atau angka yang tidak ada
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
848
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

tidak memiliki hubungan akan menurunkan nilai fitur selama proses TF-IDF. Proses word cloud
performa dari proses klasifikasi. Pada Gambar 3 dilakukan dalam beberapa langkah. Pada Gambar 6,
menunjukkan contoh proses Hapus Tanda Baca. menunjukkan ilustrasi untuk mendapatkan fitur word
cloud. Tabel 3 menunjukkan hasil word cloud.
terimakasih @kai121 terimakasih kai
perjalanan ku bersama perjalanan ku bersama
joglosemarkerto joglosemarkerto menuju MULAI
menuju purwokerto purwokerto
menyenangkan menyenangkan
DATA
PRAPEMROSESAN
Gambar 3 Menghapus Tanda Baca
PEMFILTERAN
Langkah ketiga adalah normalisasi. Normalisasi adalah KATA PADA
langkah yang diambil untuk mengubah singkatan, SEMUA
DOKUMEN
akronim, atau kata-kata ambigu dalam dokumen.
Normalisasi dapat menangani data yang tidak HASIL
seimbang. Tahap normalisasi mengubah 530 kata yang WORDCLOUD
SEBAGAI KATA
peneliti dapatkan dengan cara menganalisa dan HENTI
mengubahnya menjadi kata baku menurut KBBI. Pada
Tabel 2 menunjukkan contoh beberapa kata dalam KATAPEMFILTERAN
PADAPOSITIF
PEMFILTERAN KATA PEMFILTERAN KATA
PADANETRAL
proses normalisasi. PADADOKUMEN NEGATIF DOKUMEN
HASIL DOKUMEN
HASIL HASIL
Tabel 2 Normalisasi WORDCLOUD WORDCLOUD WORDCLOUD
YANG NETRAL NEGATIF
Tidak. Kata Asli Kata Normalisasi POSITIF
1 aja saja
2 aj saja AKH
3 Gak. tidak IR
4 yg yang Gambar 6 Langkah-langkah
5 st stasiun
Wordcloud Tabel 3 Hasil
Langkah selanjutnya adalah stemming. Stemming
Tidak. D o k u m eWordcloud
Data Wordcloud
adalah proses menghilangkan awalan dan akhiran pada n
sebuah kata untuk mendapatkan kata dasar dari sebuah 1 Semua akses kai, ini, nya, sampai, dari, di, saya,
dokumen. Proses stemming pada penelitian ini mau, beli, tiket, tidak, baru, kalau, saya,
menggunakan library Sastrawi Stemming berbahasa terima, kasih, tidak, bisa, jalan, yang,
haru, tapi, karena. kakak, juga, ke, kereta,
Indonesia. Pustaka stemming Sastrawi menerapkan
admin, kai, sama, ya admin, tuju, mau,
algoritma Nazief dan Andriani. Hasil dari langkah tanya, bagaimana ya, tiket kereta, kereta
normalisasi sebelumnya diproses untuk melakukan api, dan, di stasiun, atau, dengan,
stemming. Pada Gambar 4 menunjukkan contoh proses sekarang, buat, jadi, lagi, saja, ya, itu,
sudah, ada, admin
stemming.
mau, apakah, tidak ada, macet, apa, untuk.
2 Positif aman, guna, moga, eksekutif, bersih, naik,
terimakasih kai perjalanan terimakasih kai jalan sangat, lebih, jalan, alhamdulillah, layan,
ku bersama ku sama ekonomi, malam, dapat, mantap, gerbong,
joglosemarkerto menuju joglosemarkerto tuju kembali, terima kasih, sekali, suka, lokal,
purwokerto purwokerto senang enak, bagus, masih, kursi, bisa, banget,
menyenangkan tugas, bagus, makin, bikin, hari, banyak,
semua, biar, suka, tambah, nyaman,
Gambar 4 Stemming selalu, tumpang, bapak, haru, sedia,
stasiun, aku, dong, makan, keren, pakai,
Langkah terakhir adalah Tokenisasi. Tokenisasi adalah terima kasih
proses memecah urutan karakter menjadi beberapa 3 Netral dapat, habis, aku, berapa, sedia, aplikasi,
bagian (kata/frasa) yang disebut token[10]. Pada terus, belum, masih, ktp, bisa, harga,
Gambar 5 gambir, haru, loket, hari, pasar senen,
bagaimana, pesan, tanya, sore, jadwal,
batal, bandung, lewat, apakah, bayar,
terimakasih kai jalan 'terimakasih', 'kai', mana, bagaimana cara, pada, tarif khusus,
ku sama ' jalan', 'sama', berangkat, mohon info, gerbong, jalan,
joglosemarkerto tuju ' joglosemarkerto', 'tuju', tumpang, kenapa, naik, apakah, bisa,
purwokerto senang ' purwokerto', 'senang' pesan, kursi, lokal, pakai, kapan, buka,
malangekonomi, seperti, Jakarta, t a n y a
Gambar 5 Tokenisasi
4 Negatif gerbong, terus, apakah, aplikasi, lalu,
2.3 Wordcloud coba, jalan, tolong, lebih, masih, tanya,
seperti, bayar, cek, kali, bisa, tumpang,
Wordcloud hadir sebagai metode langsung dan menarik pesan, banyak, belum, selalu, lokal,
untuk memvisualisasikan teks. Wordcloud biasanya malah, benar, padahal, kenapa, hari,
digunakan dalam berbagai konteks untuk memberikan mohon, bisa, sih, tadi, masuk, telat,
gambaran umum dengan menyaring teks berupa kata- bagaimana, jadwal, pakai, harga, naik, nih,
pas, berangkat, error, kursi, lama, semua,
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. gabisa, 4 No. harus,
5 (2020) 846 - 853
muncul, saat, banget.
849
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
kata yang memiliki nilai frekuensi tinggi [9]. Penelitian
ini menggunakan wordcloud sebagai teknik untuk
menyaring kata-kata pada setiap sentimen yang
kemudian akan digunakan sebagai

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
850
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

2.4 Fitur Pembobotan vektor [13]. Metode Support Vector Machine


merupakan metode yang menangani kasus klasifikasi
Pembobotan fitur dalam penelitian ini memegang
biner, untuk kasus klasifikasi non biner seperti
peranan penting dalam klasifikasi teks karena dapat
klasifikasi positif, negatif, dan netral diperlukan
mempengaruhi akurasi klasifikasi. Pembobotan fitur
pendekatan Multiclass Support Vector Machine (SVM)
didasarkan pada model ruang vektor di mana fitur
yang menangani klasifikasi lebih dari dua kelas.
dipandang sebagai titik-titik dalam ruang berdimensi N.
Terdapat dua pendekatan dalam mengimplementasikan
Setiap dimensi titik mewakili satu fitur teks. Algoritma
metode Multiclass Support Vector Machine dengan
ekstraksi fitur biasanya menggunakan kumpulan kata
menggabungkan beberapa SVM biner yaitu One
kunci. Berdasarkan kumpulan kata kunci yang telah
Against All (OAA) dan One Against One (OAO) atau
didapatkan, algoritma pembobotan fitur menghitung
penggabungan optimasi terhadap semua data.
bobot kata dalam sebuah teks atau dokumen dan
kemudian membentuk sebuah vektor digital [11]. Term TF Tabel 4 Unigram
df danDBigram
idf TF-IDF W
Unigram t1 t2 t3 t1 t2 t3
Frequency Inverse Document Frequency (TF-IDF)
terima 1 0 0 1 3 0.48 0.48 0 0
adalah
kasih 1 0 0 1 3 0.48 0.48 0 0
sebuah metode untuk memberikan bobot kata (term) kai 1 0 0 1 3 0.48 0.48 0 0
pada sebuah dokumen. Term Frequency (TF) berarti jalan 1 0 0 1 3 0.48 0.48 0 0
jumlah kata yang muncul dalam sebuah teks, dan sama 1 0 0 1 3 0.48 0.48 0 0
1 0 0 1 3 0.48 0.48 0 0
IDF adalah Inverse Document Frequency, sebuah Joglose- markerto
algoritma yang digunakan untuk menghitung nilai tuju 1 0 0 1 3 0.48 0.48 0 0
kebalikan dari probabilitas menemukan kata dalam Purwo- 1 0 0 1 3 0.48 0.48 0 0
sebuah teks [12]. Metode yang diterapkan dalam kerto
penelitian ini adalah unigram[3], bigram[4], senang prosedur
1
0
0
1
0
0
1
1
3
3
0.48
0.48
0.48
0
0
0.48
0
0
trigram[7], model unigram + bigram, dan fitur word Bagai- 0 1 0 1 3 0.48 0 0.48 0
cloud. Model n-gram berbasis kata selanjutnya akan mana
dilakukan pembobotan untuk setiap kata yang admin 0 0 1 1 3 0.48 0 0 0.48
membentuk kalimat tweet. Word cloud merupakan tidak 0
0
0
0
1
1
1
1
3
3
0.48
0.48
0
0
0
0
0.48
0.48
Profesi-
fitur pembobotan yang berisi fitur-fitur yang sering onal
muncul pada tweet untuk mengetahui pengaruhnya terima 1 0 0 1 3 0.48 0.48 0 0
terhadap proses klasifikasi. Tweet yang kasih
mengandung kata-kata yang jarang muncul kasih kai 1 0 0 1 3 0.48 0.48 0 0
kai jalan 1 0 0 1 3 0.48 0.48 0 0
memiliki bobot yang lebih tinggi dibandingkan jalan 1 0 0 1 3 0.48 0.48 0 0
dengan tweet yang mengandung kata-kata yang yang
umum dan memiliki pengaruh yang lebih besar sama
sama 1 0 0 1 3 0.48 0.48 0 0
terhadap klasifikasi.
joglose-
Penentuan nilai bobot pada metode TF-IDF markerto
Joglose- 1 0 0 1 3 0.48 0.48 0 0
berdasarkan frekuensi kemunculan term pada data markerto
penelitian. Metode ini dapat menghasilkan vektor tuju
fitur dalam jumlah besar pada korpus teks yang tuju 1 0 0 1 3 0.48 0.48 0 0
besar sehingga berpotensi meningkatkan peluang purwo-
kerto
untuk menyesuaikan model klasifikasi. Perhitungan
TF dan IDF dapat dilihat pada persamaan 1 dan 2. Purwo- 1 0 0 1 3 0.48 0.48 0 0
kerto
𝑊𝑖 = 𝑇𝐹(𝜔𝑖, 𝑑) 𝑥 𝐼𝐷𝐹 (𝜔𝑖) (1) senang
prosedur 0 1 0 1 3 0.48 0 0.48 0
|𝐷|)
𝐼𝐷𝐹(𝜔𝑖) = log ( ) (2) gimana
𝐷𝐹(𝜔𝑖) Admin 0 0 1 1 3 0.48 0 0 0.48
tidak
dimana Wi adalah bobot kata term (ωi) dalam Metode 0Support
Tidak 0 1Vector
1 Machine
3 0.48 (SVM)
0 adalah
0 metode
0.48
sebuah dokumen (d), TF adalah Term Frequency, pembelajaran yang diawasi untuk mengklasifikasikan
profesio-
jumlah term dalam satu kalimat, DF adalah nal data linear dan non-linear. Cara kerja algoritma SVM
Document Frequency, jumlah term/kata dalam satu adalah menggunakan pemetaan non-linear untuk
dokumen, |D | adalah jumlah kalimat dalam satu mengubah data pelatihan ke dimensi yang lebih tinggi
dokumen, IDF adalah Inverse Document dan menemukan hyperplane pemisah yang paling
Frequency. Nilai IDF terbesar muncul ketika ωi optimal. Data pada hyperplane disebut sebagai support
hanya muncul dalam satu dokumen. Pada Tabel 4
menunjukkan ilustrasi pembobotan fitur unigram
dan bigram pada pernyataan berikut (untuk TI, T2,
dan T3 berasal dari Tabel 1):
2.5 Mesin Vektor Pendukung Multikelas (SVM)

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
851
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

Pendekatan OAA memecahkan masalah Multiclass


atau lebih dari dua kelas (N kelas) dengan N batas
keputusan. Batas keputusan yang dihasilkan adalah
hasil dari hyperplane setiap kelas i dengan kelas
lainnya. Pendekatan OAO menyelesaikan masalah
Multiclass atau lebih dari dua kelas (N kelas) dengan
N (N-1)/2 batas keputusan. Batas keputusan adalah
hyperplane dari setiap kelas dengan setiap kelas
lainnya. Penelitian ini menggunakan pendekatan
OAO sebagai model untuk menentukan kelas yang
tepat.

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
852
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

Pendekatan OAA memiliki performa yang lebih baik 0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 0.48 -0.48 0 0 -0.48 0 0
dibandingkan pendekatan OAO dan juga lebih 0 -0.48 0 0.48 0 0.48 0 -0.48 0
sederhana dibandingkan dengan menggabungkan 0 -0.48 0 0.48 0 0.48 0 -0.48 0
optimasi dari semua kelas data. Proses klasifikasi tweet 0 0 -0.48 0 0 -0.48 0.48 0.48 0
pada penelitian ini dibagi menjadi dua tahap, yaitu 0 0 -0.48 0 0 -0.48 0.48 0.48 0
0 0 -0.48 0 0 -0.48 0.48 0.48 0
pelatihan untuk pembentukan model dengan
menggunakan metode Multiclass Support Vector
Machine dan tahap pengujian. Gambar 7 menunjukkan Setelah mendapatkannya, langkah selanjutnya adalah
gambaran umum dari proses pelatihan dan pengujian. melakukan perhitungan untuk mendapatkan panjang
vektor. Tabel 6 menunjukkan hasil perhitungan panjang
vektor.
MULAI
Tabel 6 Menghitung Panjang Vektor
Tidak. Panjang Vektor Hasil
DATA 1 |x1-x1| 0
UJI DATA 2 |x1-x2| 2.502
KERE
TA 3 |x1-x3| 2.730
4 |x2-x1| 2.502
5 |x2-x2| 0
MEMBANGUN MEMBANGUN 6 |x2-x3| 1.137
PELATIHAN BANGUNAN
7 |x3-x1| 2.730
PELATIHAN
8 |x3-x2| 1.137
PELATIHAN UNTUK KELAS 1
9 |x3-x2| 0
UNTUK KELAS 2 UNTUK
KELAS 3
TEMUKAN X DAN TEMUKAN MENEMUKAN Selanjutnya, hasil panjang vektor dimasukkan ke dalam
NILAI X DAN Y DENGAN NILAI Y NILAI X DAN Y
DENGAN KERNEL RBF KERNEL RBF DENGAN kernel RBF. Nilai gamma yang digunakan adalah 0.5.
DAN LINEAR DAN LINEAR KERNEL RBF Tabel 7 menunjukkan perhitungan kernel RBF pada
KERNEL KERNEL DAN KERNEL langkah pelatihan.
LINEAR
Tabel 7 Menghitung Kernel RBF
TEMUKAN BIAS TEMUKAN BIAS TEMUKAN
BIAS DAN DAN DAN Tidak. Kernel Hasil
HYPERPLANE HYPERPLANE HYPERPLANE 1 K(1,1) exp (-γ||x1-x1||2 )
KELAS 1 KELAS 2 KELAS 3 exp ((-0.5)(0)2 ) =
1
2 K(1,2) exp (-γ||x1-x2|| )2
exp ((-0.5)(2.502)2 ) = 0.043
3 K(1,3) exp (-γ||x1-x3|| )2
MENENTUKA exp ((-0.5)(2.730)2 ) = 0.024
N KELAS
4 K(2,1) exp (-γ||x2-x1|| )2
DENGAN exp ((-0.5)(2.502)2 ) = 0.043
BATAS
5 K(2,2) exp (-γ||x2-x2||2 )
KEPUTUSAN
exp ((-0.5)(0)2 ) =
1
6 K(2,3) exp (-γ||x2-x3|| )2
AKH exp ((-0.5)(1.137)2 ) = 0.524
IR 7 K(3,1) exp (-γ||x3-x1|| )2
Gambar 7 Proses Pelatihan dan Pengujian exp ((-0.5)(2.730)2 ) = 0.024
8 K(3,2) exp (-γ||x3-x2|| )2
Pada Gambar 7 terdapat beberapa tahapan proses exp ((-0,5)(1,137)2 ) = 0,524
pelatihan dan pengujian. Pertama, formulasi (W) yang 9 K(3,3) exp (-γ||x3-x3||2 )
digunakan adalah dualitas dari Lagrange Multiplier Setelah menghitung kernel,
exp langkah
((-0.5)(0)2 selanjutnya
)= adalah
1
menghitung nilai y. Nilai y didapatkan dari nilai label
yang telah dimodifikasi dengan nilai x dari kernel RBF.
Menghitung data K (x, xi) dari fitur dimensi lama untuk atau kelas yang telah diberikan, pada Tabel 8
mendapatkan data dengan fitur dimensi tinggi yang menunjukkan nilai y.
baru. Kernel yang digunakan adalah kernel RBF. Pada Tabel 8 Nilai Y
Tabel 5 menunjukkan sebagian dari perhitungan x- xi:
Y dari Kelas Y dari Kelas Y dari Kelas
Tabel 5 Menghitung X-Xi
Pelatihan Pelatihan Pelatihan
1 2 3
Melatih Data Kelas Latih Data Kelas 2 Latih Data Kelas 3 y1 y2 y3 y1 y2 y3 y1 y2 y3
1 1 -1 -1 -1 1 -1 -1 -1 1
x1- x1- x2- x2- x2- x3- x 3 - x3-x3 Langkah selanjutnya adalah melakukan perhitungan y
x 1 - x2 x3 x1 x2 x3 x1 x2 dengan menggunakan perhitungan kernel linier dengan
x 1
0 0.48 0.48 -0.48 0 0 -0.48 0 0 persamaan (3).
0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 0.48 -0.48 0 0 -0.48 0 0 ∑ 𝑦𝑖𝑦𝑖𝑇 (3)
0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 0.48 -0.48 0 0 -0.48 0 0
0 0.48 Jurnal
0.48 -0.48
RESTI 0 0
(Rekayasa -0.48
Sistem 0 0
dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
0 0.48 0.48 -0.48 0 0 -0.48 0 0
853
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

Nilai y adalah nilai label yang diberikan. Tabel 3.9 -418.077 61.378 -19.251
menunjukkan nilai y untuk tahap pelatihan kelas 1. =[ 418.077 ] + [1427.4] + [-802.122]
-418.077 1427.4 -802.122
Tabel 9 Nilai Y dalam Pelatihan Kelas -375.95
1 = [1043.355]
y1 y2 y3
207.201
-1 1 1
-375.95
W1 = [ ] , B1 = 207.201.
Kemudian langkah selanjutnya adalah mencari nilai a. 1043.355
Proses mendapatkan nilai a dimulai dengan mengubah
setiap pernyataan menjadi nilai vektor (support vector) Langkah-langkah untuk menemukan hyperplane kedua
dengan persamaan (4). dan ketiga sama dengan menentukan hyperplane
pertama. Hasil dari nilai hyperplane kedua dan ketiga
√𝑥2 + 𝑦2 > 2 → (4-𝑦+|𝑥-𝑦|) yang ada,
-989.111
4−𝑥+|𝑥−𝑦| W2 = [ ] , B2 = 207.201
{ (4) 2647.599
√𝑥 + 𝑦 ≤ 2 → ( )
2 2 𝑥

W3 = [ 64.198 ] , B3 = 207.201.
𝑦
1811.445
Sebagai contoh, perhitungan pada pernyataan pertama.
The Setelah mendapatkan nilai hyperplane pertama hingga
persamaan (5) menunjukkan proses perhitungan. ketiga, langkah selanjutnya adalah menentukan kelas
dari data uji ke dalam kelas positif, netral, atau negatif.
√12 + -12 = √2 -> (1-1) (5) Sebagai contoh, data uji memiliki nilai support vector
(120.112,2) maka pada langkah pengujian nilai vektor
Setelah itu, setiap support vector diberi nilai bias 1 tersebut disubstitusikan ke dalam persamaan (10):
untuk mendapatkan jarak tegak lurus yang optimal dan
𝑘𝑒𝑙𝑎𝑠 𝑥 = arg max([𝑤 ]1𝑇 . 𝜑(𝑥) + 𝑏1 , [𝑤 ]2𝑇 . 𝜑(𝑥) +
membantu mendapatkan nilai b atau hyperplane.
Kemudian kalikan setiap kalimat dengan menggunakan 𝑏 , [𝑤 ] . 𝜑(𝑥) + 𝑏
2 3𝑇 3
(10)
persamaan (6).
∑𝑛𝑖= 1, 𝑗 𝑎𝑖𝑆𝑖𝑇 𝑆𝑗, (6) 𝑘𝑒𝑙𝑎𝑠 𝑥 = arg max( [ -375.95 ] . [120.112]
𝑇

=1
1043.355 2
Sebagai contoh, perhitungan pada pernyataan + 207.201,
pertama adalah,
1 1𝑇 [ -989.111 ]120.112
𝑇
.[ ] + 207.201,
a [-1] * [-1] = 3 a 2647.599 2
1 1 64.198 120.112
1 1 [ ].[ ] + 207.201)
1811.445 2
Setelah menghitung semua pernyataan. Kemudian = arg max ( -42862.189, 113301.701,
temukan ai 10281.043 )
menggunakan persamaan (7). Nilai hyperplane terbesar adalah 113301.70. Nilai
∑𝑛𝑖= 1, 𝑗 𝑎𝑖𝑆𝑖𝑇 𝑆𝑗 = 𝑦𝑖 (7) hyperplane adalah nilai kelas 2, artinya data uji
=1 termasuk dalam kelas netral.
Jadi, bentuknya bisa dilihat sebagai berikut: 2.6. Kinerja Klasifikasi
3 a1 + 2,002 a2 + 2,001 a3 = 1
2.002 a1 + 3 a2 + 2.270 a3 = -1 Performa sistem klasifikasi menggambarkan seberapa
2,001 a1 + 2,270 a2 + 3 a3 = -1 baik sistem tersebut dalam mengklasifikasikan data.
sehingga kita mendapatkan nilai a1, a2 dan a3 sebagai Confusion Matrix merupakan salah satu metode yang
berikut: digunakan untuk mengukur performa suatu metode
klasifikasi. Confusion matrix berisi perbandingan
a1 = -418,077 a2= 1427,4 a3= -802,122 antara hasil klasifikasi yang dilakukan oleh sistem
Setelah parameter 𝑎𝑖 diperoleh, kemudian masukkan ke dengan klasifikasi yang sebenarnya[14]. Data uji yang
dalam persamaan (8). dimasukkan ke dalam confusion matrix akan
menghasilkan nilai akurasi. Pada Tabel 10
menunjukkan nilai confusion matrix.
𝑤 = ∑ 𝑛𝑖= 1, 𝑗 𝑎𝑖𝑠𝑖 (8) Matriks penelitian ini.
=1

Kemudian persamaan (9) digunakan untuk y = wx +b (9)


mendapatkan nilai w dan b.
sehingga kita mendapatkan hasil
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
854
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi)Diklasifikasi
Vol. 4 No. 5 (2020) 846 - 853 Diklasifikasi
Diklasifikasi
Kelas
kan kan kan
perhitungan, sebagai
Tabel 10 Matrikssebagai
Kebingungan sebagai
Positif Negatif Netral
1 0.043 0.024 Positif Sejati Negatif Palsu Netral
Positif
W = -418.077[-1]+1427.4 [ 1 ] + -802.122 [ 1 ] (TP) (FNe) Palsu (FNt)
Positif Salah Benar Negatif Salah
1 1 1 Negatif (FP) (TNe) Netral (FNt)
Positif Salah Negatif Palsu Benar Netral
Netral
(FP) (FNe) (TNt)

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
855
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

Berdasarkan nilai akurasi True Negative (TNe), True model TF-IDF unigram dan Support Vector Machine
Neutral (TNt), False Neutral (FNt), False Positive (FP), (SVM) multikelas secara rinci.
False Negative (FNe), dan True Positive (TP) Tabel 13 Matriks Kebingungan
dapat diperoleh. Nilai akurasi m e n g g a m b a r k a n
seberapa akurat sistem dapat mengklasifikasikan data d e n gKelas Diklasifikasikan Diklasifikasikan
a n benar. Diklasifikasikan
sebagai sebagai sebagai
Nilai akurasi dapat diperoleh dengan persamaan (11): Positif Netral Negatif
𝑇𝑃 + 𝑇𝑁𝑒 + 𝑇𝑁𝑡 Positif 35 24 13
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = ∗ 100% (11) Netral 0 365 37
𝑇𝑃 + 𝑇𝑁𝑒 + 𝑇𝑁𝑡 + 𝐹𝑃 + 𝐹𝑁𝑒 +
𝐹𝑁𝑡
Negatif 13 37 166

Dimana TP adalah jumlah data positif yang Tabel 12. Gambar 3. Peta confusion matrix klasifikasi
diklasifikasikan dengan benar, TNt adalah jumlah data data uji yang diklasifikasikan dengan benar dan salah.
netral yang diklasifikasikan dengan benar, TNe adalah Tabel 13 menunjukkan ilustrasi data yang
jumlah data negatif yang diklasifikasikan dengan benar, diklasifikasikan atau diprediksi dengan benar atau salah
FP adalah jumlah data positif tetapi diklasifikasikan dari akurasi terbaik,
secara tidak tepat oleh sistem, FNe adalah jumlah data
netral tetapi diklasifikasikan secara tidak tepat oleh
sistem. FNe adalah jumlah data negatif tetapi
diklasifikasikan secara salah oleh sistem.

3. Hasil dan Pembahasan


Pada bagian ini akan dijelaskan dengan menampilkan
tabel jumlah fitur setiap skema, nilai akurasi, dan
confusion matrix dari akurasi terbaik dengan
perbandingan 90:10 antara data latih dan data uji.
Tahap pengujian terhadap 7000 tweet yang diperoleh
dari akun @KAI121 menggunakan metode Support
Vector Machine (SVM) Multiclass menggunakan
kernel RBF dengan interval parameter gamma 0.4
hingga 0.9 dan pembobotan TF-IDF dengan lima fitur
yang berbeda. Dari kelima fitur tersebut, yang memiliki
nilai akurasi tertinggi digunakan sebagai fitur penting.
Lima fitur yang digunakan dalam proses pembobotan
fitur memiliki jumlah fitur yang berbeda yang dapat
mempengaruhi hasil klasifikasi. Tabel 11 menunjukkan
jumlah fitur dari masing-masing skema/skenario.
Tabel 11 Jumlah Fitur setiap Skema
Unigram + Awa
Fitur Unigam Bigram Trigram
Bigram n
kata
Total 7130 50655 77565 57758 116

3.1. Hasil Akurasi


Tabel 12 Hasil Akurasi
Gamma
Tid Fitur Rata-
0.9 0.8 0.7 0.6 0.5 0.4
ak. rata
1 U n i g 80.3 1 80.4 80.5 9 80.5 9 79.8 8 80.1 7 80.3 3
r a m 5
2 Bigram 52.6 52.54 52.56 52.12 52.54 52.83 52.53
3 Trigram 53.54 53.82 53.82 53.68 53.54 52.83 53.54
Unigram+
4 Bigram 72.37 75.07 76.20 77.62 77.76 77.76 76.13
Kata
5 61.04 61.75 62.18 64.45 66.43 69.26 64.19
awan
Rata-rata 63.9 7 64.7 2 65.0 7 65.6 9 66.0 3 66.57

Berdasarkan sistem klasifikasi yang dikembangkan


dalam penelitian ini, sistem unigram TF-IDF memiliki
hasil terbaik dibandingkan empat fitur lainnya pada

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
856
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

Dari Tabel 12, setiap skema memiliki nilai gamma


yang berbeda untuk mendapatkan akurasi terbaik.
Berdasarkan Gambar 8, dapat dilihat bahwa semakin
kecil interval gamma, nilai akurasi cenderung
meningkat.

Unigram Bigram
Gambar 8 Visualisasi Efek Gamma Trigram Unigram +
3.2. Diskusi Wordcloud Bigram
100
Berdasarkan hasil penelitian ini, peneliti dapat
menjabarkan beberapa analisis. Tabel 11 80
menunjukkan jumlah fitur yang digunakan dalam
pembobotan TF-IDF. Fitur unigram dengan jumlah
fitur 7103 pada tahap pembobotan fitur sangat cocok 60
untuk digabungkan dengan metode multiclass SVM
pada penelitian ini, terbukti dari nilai akurasi yang 40
didapatkan paling tinggi diantara fitur lainnya.
Berdasarkan jumlah fitur unigram yang dihasilkan,
dapat dikatakan bahwa fitur unigram merupakan fitur 20
yang paling efisien dan efektif dalam penelitian ini.
Fitur trigram sangat tidak tepat, tidak efisien, dan 0
tidak efektif digabungkan dengan metode Multiclass 0. 90 . 80 . 70 . 60 . 5 0. 4
SVM pada data set penelitian ini karena dilihat dari
jumlah fitur yang paling banyak, yaitu 77565 dengan
nilai akurasi yang paling rendah. Penggunaan fitur
word cloud pada dataset kurang baik karena banyak
kata yang terklasifikasi ke dalam dua kelas, sehingga
sulit untuk mengklasifikasikannya dengan benar.
Sebaiknya fitur yang digunakan tidak masuk ke dalam
dua kelas sekaligus.
Tabel 12 berisi hasil akurasi dari fitur unigram,
bigram, trigram, unigram+bigram, dan word cloud.
Fitur unigram memiliki nilai akurasi rata-rata
tertinggi yaitu 80.33 dibandingkan dengan keempat
fitur lainnya.

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
857
Dhina Nur Fitriana, Yuliant Sibaroni
Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853

yaitu Bigram sebesar 52.53, Trigram sebesar 53.54, akurasi pengujian dapat dilakukan dengan
Unigram + Bigram sebesar 76.13, dan Word cloud menambahkan jumlah dataset sebelumnya dan
sebesar 70.33. Nilai akurasi tertinggi berasal dari menambahkan kosakata ke dalam daftar normalisasi
pengujian model TF- IDF unigram yang sehingga dataset lebih seimbang dari sebelumnya.
dikombinasikan dengan metode klasifikasi Multiclass Melakukan analisis sentimen dengan menggunakan
Support Vector Machine (SVM) dengan nilai parameter metode klasifikasi dan pembobotan fitur yang berbeda.
gamma sebesar 0.7 yaitu sebesar 80.59. Gamma yang
digunakan dapat mempengaruhi hasil klasifikasi, Referensi
semakin kecil nilai gamma yang digunakan maka hasil [1] Jumlah pengguna internet di Indonesia 2023 | Statista."
akurasi cenderung meningkat. Berdasarkan visualisasi [Online]. Tersedia:
pada Gambar 8 menunjukkan visualisasi nilai akurasi https://www.statista.com/statistics/254456/number- jumlah-
dengan variabel nilai gamma. pengguna-internet-di-indonesia/. [Diakses: 17-Sep-2019].
[2] "Indonesia Digital 2019 : Media Sosial - Websindo." [Online].
Tabel 13 menunjukkan matriks konfigurasi akurasi Available: https://websindo.com/indonesia-digital-2019-
terbaik. Akurasi terbaik diperoleh dari pengujian media-sosial/. [Diakses: 17-Sep-2019].
[3] I. I. P. Windasari, F. N. Uzzi, dan K. I. Satoto, "Analisis
metode Multiclass Support Vector Machine (SVM) sentimen pada postingan Twitter: Analisis opini positif atau
dengan negatif terhadap GoJek," Proc. 2017 4th Int. Conf. Inf.
0.7 parameter gamma dan pembobotan TF-IDF Technol. Comput. Electr. Eng. ICITACEE 2017, vol. 2018-
Unigram. Berdasarkan Tabel 13, dapat dilihat bahwa 35 Janua, pp. 266-269, 2018.
[4] G. A. Dalaorao, A. M. Sison, dan R. P. Medina,
data diklasifikasikan dengan benar sebagai positif, 365 "Mengintegrasikan Kolokasi sebagai Peningkatan TF-IDF
data diklasifikasikan dengan benar sebagai netral, dan untuk Meningkatkan Akurasi Klasifikasi," TSSA 2019 - 13th
166 data diklasifikasikan dengan benar sebagai negatif. Int. Conf. Telecommun. Syst. Serv. Appl. Proc., pp. 282-285,
2019.
[5] M. L. Pratama, "Studi Komparasi Metode Multiclass Support
4. Kesimpulan Vector Machine Untuk Masalah Analisis Sentimen Pada
Twitter," Fmipa Ui, 2014.
Jutaan pengguna Twitter memposting opini mereka di [6] A. Mustakim, I. Santoso, and A. A. Zahra, "Pengenalan
tweet mereka. Bisnis dapat menggunakan informasi ini Ekspresi Wajah Manusia Menggunakan Tapis Gabor 2-D Dan
untuk keuntungan mereka, tetapi membutuhkan banyak Support Vector Machine (Svm)," Transient, vol. 6, no. 3, p. 232,
waktu. Oleh karena itu, diperlukan analisis sentimen 2017.
[7] D. De Clercq, Z. Wen, dan Q. Song, "Pusat inovasi dalam
yang dapat memprediksi sentimen tweet dengan pengolahan limbah makanan, biogas, dan teknologi
metode TF-IDF dan machine learning. Berdasarkan pencernaan anaerobik: Pendekatan pemrosesan bahasa alami,"
penerapan lima pendekatan pembobotan fitur TF-IDF Sci. Total Environ., vol. 673, hlm. 402-413, 2019.
yang berbeda dengan metode Support Vector Machine [8] F. Heimerl, S. Lohmann, S. Lange, dan T. Ertl, "Penjelajah
awan kata: Analisis teks berdasarkan awan kata," Proc. Annu.
(SVM) multiclass untuk mengklasifikasikan data tweet Hawaii Int. Conf. Syst. Sci., pp. 1833-1842, 2014.
akun @KAI121 untuk analisis sentimen, peneliti dapat [9] A. M. Pravina, I. Cholissodin, and P. P. Adikara, "Analisis
menyimpulkan bahwa Hasil akurasi tertinggi yang Sentimen Tentang Opini Maskapai Penerbangan Pada
diperoleh dengan menggunakan metode SVM OAA Dokumen Twitter Menggunakan Algoritme Support Vector
Machine ( SVM )," J. Pengemb. Teknol. Inf. dan Ilmu Komput.
multiclass dalam menganalisis sentimen didapatkan Univ. Brawijaya, vol. 3, no. 3, pp. 2789-2797, 2019.
pada rasio 90:10 dengan menggunakan skema unigram, [10] M. Allahyari dkk., "Survei Singkat tentang Penambangan
pembobotan TF-IDF, dan nilai parameter gamma 0.7, Teks: Teknik Klasifikasi, Pengelompokan, dan Ekstraksi,"
yaitu sebesar 80.59. Fitur yang penting dalam 2017.
[11] H. Liang, X. Sun, Y. Sun, dan Y. Gao, "Ekstraksi fitur teks
penelitian ini adalah fitur unigram karena merupakan berdasarkan pembelajaran mendalam: sebuah tinjauan," Europ.
fitur yang unik dan menghasilkan nilai akurasi yang Commun. Netw., vol. 2017, no. 1, pp. 1-12, 2017.
tinggi. Gamma yang digunakan dapat mempengaruhi [12] S. M. H. Dadgar, M. S. Araghi, and M. M. Farahani, "Sebuah
hasil klasifikasi, semakin kecil nilai gamma yang pendekatan penambangan teks baru berdasarkan TF-IDF dan
mesin vektor pendukung untuk klasifikasi berita," Proc. 2nd
digunakan maka akurasi cenderung meningkat. IEEE Int. Conf. Eng. Technol. ICETECH 2016, no. March, pp.
Berdasarkan hasil penelitian, akun @kai121 memiliki 112-116, 2016.
11% sentimen positif, 58% sentimen netral, dan 31% [13] "Perpustakaan Digital - Perpustakaan Pusat Unikom -
sentimen negatif. PT. KAI diharapkan dapat Knowledge Center - WELCOME | Powered by GDL4.2 | ELIB
UNIKOM". [Online]. Available:
meningkatkan pelayanannya kepada pengguna jasa https://elib.unikom.ac.id/gdl.php?mod=browse&op=read&id=j
transportasi kereta api karena tingkat sentimen positif bptunikompp-gdl-citrawatii-
yang merupakan nilai kepuasan pengguna kereta api 35966&newtheme=gray&newtheme=green. [Diakses: 15-Des-
masih di bawah rata-rata. 2019].
[14] "Mengukur Kinerja Algoritma Klasifikasi dengan Confusion
Berdasarkan informasi di atas, ada beberapa saran Matrix - Achmatim.Net". [Online]. Available:
https://achmatim.net/2017/03/19/mengukur-kinerja-algoritma-
untuk penelitian selanjutnya. Disarankan untuk klasifikasi-dengan-confusion-matrix/. [Diakses: 13-Nov-
melakukan pelabelan secara manual kepada banyak ahli 2019].
bahasa agar data yang digunakan lebih valid. Pada
penelitian selanjutnya, untuk meningkatkan

Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi) Vol. 4 No. 5 (2020) 846 - 853
858

Anda mungkin juga menyukai