Anda di halaman 1dari 16

Aspect-Based Sentiment Analysis Rencana Pemindahan Ibu Kota Negara

Menggunakan Naïve Bayes Classifier dan Support Vector Machine

Daffa Jatmiko, Isti Surjandari

Departemen Teknik Industri, Fakultas Teknik, Universitas Indonesia, Depok, 16424, Indonesia

Departemen Teknik Industri, Fakultas Teknik, Universitas Indonesia, Depok, 16424, Indonesia

E-mail: daffa.jatmiko@ui.ac.id, isti@ie.ui.ac.id

Abstrak

Peranan ibu kota sangatlah vital, saat ini pemerintah kembali memutuskan pemindahan ibu kota karena
Jakarta dianggap sudah tidak layak lagi menjadi ibu kota negara Republik Indonesia. Pemindahan ibu kota
Indonesia nyatanya mengundang banyaknya opini pro dan kontra di kalangan masyarakat dan respon ini menarik
untuk diteliti yaitu bagaimana pandangan masyarakat terhadap kebijakan pemerintah ini yang juga
menggambarkan tingkat kepercayaan kepada pemerintah. Oleh karena itu, diperlukan sentiment analysis dengan
classifier berbasis machine learning yang akurat dan menentukan algoritma yang terbaik. Data berupa tweets
dikumpulkan dengan web scraping dan dilakukan pra-pemrosesan yang menghasilkan label data berupa polaritas
dan kategori/aspek yang teridentifikasi. Model Machine Learning dengan algoritma Naive Bayes dan Support
Vector Machine kemudian digunakan dalam klasifikasi polaritas kelas biner dengan fitur n-gram (urutan kata) dan
optimasi heuristik yaitu Hyperparameter Tuning. Dari kombinasi fitur dan perlakuan optimasi, nilai MCC sebagai
metrik evaluasi dibandingkan dan ditemukan bahwa Naive Bayes mengungguli Support Vector Machine dalam
mengklasifikasi opini publik di media sosial Twitter khususnya mengenai pemindahan ibu kota.

Kata kunci: Sentiment Analysis, Opinion Mining, Social Media, Naïve Bayes Classifier, Support Vector
Machine
Aspect-Based Sentiment Analysis of National Capital Relocation Plan Using
Naïve Bayes Classifier and Support Vector Machine

Daffa Jatmiko, Isti Surjandari

Department of Industrial Engineering, Faculty of Engineering, Universitas Indonesia, Depok, 16424, Indonesia

Department of Industrial Engineering, Faculty of Engineering, Universitas Indonesia, Depok, 16424, Indonesia

E-mail: daffa.jatmiko@ui.ac.id, isti@ie.ui.ac.id

Abstract

The role of the capital city is very vital, at this time the government has again decided to move the capital
city because Jakarta is considered no longer suitable as the capital city of the Republic of Indonesia. The relocation
of Indonesia's capital city in fact invites many pro and contra opinions among the public and this response is
interesting to study, namely how the public views this government policy which also describes the level of trust in
the government. Therefore, sentiment analysis is needed with a machine learning-based classifier that is accurate
and determines the best algorithm. Data in the form of tweets is collected by web scraping and pre-processed
which produces data labels in the form of polarity and identified categories/aspects. Machine Learning model with
Naive Bayes algorithm and Support Vector Machine is then used in the classification of binary class polarity with
n-gram features (word order) and heuristic optimization, namely Hyperparameter Tuning. From the combination
of features and optimization treatment, the MCC value as an evaluation metric was compared and it was found
that Naive Bayes outperformed the Support Vector Machine in classifying public opinion on Twitter social media,
especially regarding the relocation of the capital city.

Keywords: Sentiment Analysis, Opinion Mining, Social Media, Nave Bayes Classifier, Support Vector
Machine
Pendahuluan

Pada tanggal 29 April 2019, Presiden Joko Widodo melalui rapat terbatas pemerintah
memutuskan untuk memindahkan ibu kota negara ke luar Pulau Jawa. Pemindahan ibu kota ini
tertuang dalam Rencana Pembangunan Jangka Menengah Nasional 2020-2024. Selanjutnya
pada 26 Agustus 2019, Presiden Joko Widodo mengumumkan bahwa ibu kota baru akan
dibangun di wilayah administratif Kabupaten Penajam Paser Utara dan Kabupaten Kutai
Kartanegara, Provinsi Kalimantan Timur. Ibu kota negara memegang peranan yang sangat
strategis, fundamental, dan vital dikarenakan ibu kota negara bersifat multifungsi, yaitu sebagai
pusat politik dan pemerintahan, pusat kegiatan bisnis dan ekonomi. Pemindahan ibu kota
sebenarnya bukan hal baru. Secara historis, beberapa kota pernah menjadi ibu kota Indonesia
antara lain Yogyakarta, Bukittinggi di Sumatera Barat, Kabupaten Bireuen di Aceh karena
tuntutan situasi yang darurat.

Saat ini, pemerintah kembali membahas soal pemindahan ibu kota karena Jakarta
dianggap sudah tidak layak lagi menjadi ibu kota negara Republik Indonesia. Letaknya yang
lebih jauh ke bagian barat Indonesia diduga menjadi penyebab tingginya tingkat ketimpangan
antar wilayah di tanah air. Oleh karena itu, pemindahan ibu kota dari semula di kota Jakarta ke
daerah lain yang dianggap lebih potensial dan memiliki daya dukung wilayah yang lebih baik.
Terdapat beberapa alasan dalam rencana pemerintah untuk memindahkan Ibu Kota Negara
Republik Indonesia ke luar Pulau Jawa, salah satunya terkait dengan jumlah penduduk di
Jakarta yang tidak berkurang setiap tahunnya tetapi meningkat secara signifikan (Putri et al.,
2018) karena semua pusat kegiatan di Jakarta seperti pusat pemerintahan, ekonomi, bisnis,
pendidikan, dll yang terus menyebabkan penduduk Jakarta semakin padat. Hal itu pula yang
menyebabkan ketersediaan air bersih di Jakarta semakin buruk (Luo et al., 2019). Alasan lain,
menurut penelitian terkait dengan kondisi geografis Jakarta yang berada di Ring of Fire yang
artinya berada dalam lingkaran rawan bencana.

Berkaitan dengan kebijakan Pemerintah mengenai pemindahan Ibukota ke Kalimantan


Timur, banyak masyarakat menunjukkan sikap setuju. Banyak faktor yang mendasari sikap
setuju dari mayoritas, terutama faktor yang terkait dengan pemerataan di Indonesia dimana di
Indonesia belum sepenuhnya merata terutama pembangunan dan pemerataan baik dari segi
ekonomi maupun infrastruktur sarana prasarana yang ada di daerah-daerah tertinggal, terdepan
dan terluar di Indonesia. Tidak dapat dipungkiri bahwa juga ada masyarakat yang kontra
terhadap pemindahan Ibukota ke Kalimantan Timur. Ada yang menganggap bahwa
persiapannya belum matang. Hal ini terjadi karena pemerintah dirasa kurang terbuka terhadap
opini masyarakat, sehingga membawa kesan bahwa pemerintah belum siap terhadap
pemindahan ibu kota. Selain itu juga dengan banyaknya masalah di bidang ekonomi,
pendidikan, sosial budaya serta masalah lainnya yang belum teratasi. Hal-hal tersebut dapat
menggiring opini masyarakat bahwasannya pemerintah gegabah dalam pengambilan kebijakan
pemindahan ibu kota. Dengan timbulnya opini pro dan kontra yang beragam dari masyarakat,
rencana pemindahan ibu kota ini menjadi kasus yang menarik untuk diteliti tidak hanya
kecenderungannya melainkan juga pandangan mereka terhadap kebijakan pemerintah.
Harapannya adalah kebijakan yang dilakukan pemerintah dapat sejalan dengan aspirasi
masyarakat dan pemerintah mampu mempersiapkannya dengan matang di berbagai aspek.

Tinjauan Teoritis

A. Naïve Bayes

Dengan menggunakan teorema Bayes, dapat ditulis

𝑝(𝐶)𝑝(𝐹1 , … , 𝐹𝑛 |𝐶)
𝑝(𝐶|𝐹1 , … , 𝐹𝑛 ) =
𝑝(𝐹1 , … , 𝐹𝑛 )
Dalam bahasa Inggris sederhana persamaan di atas dapat ditulis sebagai

𝑝𝑟𝑖𝑜𝑟 × 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑
𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 =
𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒
Dalam prakteknya hanya difokuskan pada pembilang dari pecahan tersebut, karena
penyebutnya tidak bergantung pada C dan nilai fitur 𝐹𝑖 diberikan, sehingga penyebutnya
konstan secara efektif. Pembilangnya setara dengan model probabilitas gabungan
𝑝(𝐶, 𝐹1 , … , 𝐹𝑛 )
Sekarang asumsi independensi bersyarat "naif" mulai berlaku: asumsikan bahwa setiap fitur
independen bersyarat dari setiap fitur lainnya untuk. Ini berarti bahwa
𝑝(𝐹𝑖 |𝐶, 𝐹𝑗 ) = 𝑝(𝐹𝑖 |𝐶)
Untuk 𝑖 ≠ 𝑗, sehingga model gabungan dapat dinyatakan sebagai
𝑝(𝐶, 𝐹1 , … , 𝐹𝑛 ) = 𝑝(𝐶) 𝑝(𝐹1 |𝐶) 𝑝(𝐹2 |𝐶) 𝑝(𝐹3 |𝐶) …
𝑛

= 𝑝(𝐶) ∏ 𝑝(𝐹𝑖 |𝐶)


𝑖=1

Ini berarti bahwa di bawah asumsi independensi di atas, distribusi bersyarat atas variabel kelas
C dapat dinyatakan seperti ini:
𝑛
1
𝑝(𝐶|𝐹1 , … , 𝐹𝑛 ) = 𝑝(𝐶) ∏ 𝑝(𝐹𝑖 |𝐶)
𝑍
𝑖=1

di mana Z (bukti) adalah faktor penskalaan yang hanya bergantung pada 𝐹1 , … , 𝐹𝑛 , 𝑖. 𝑒., sebuah
konstanta jika nilai variabel fitur diketahui.

Diskusi sejauh ini telah menurunkan model fitur independen, yaitu model probabilitas
naif Bayes. Pengklasifikasi naif Bayes menggabungkan model ini dengan aturan keputusan.
Satu aturan umum adalah memilih hipotesis yang paling mungkin; ini dikenal sebagai aturan
keputusan a posteriori atau MAP maksimum. Pengklasifikasi yang sesuai adalah fungsi classify
yang didefinisikan sebagai berikut:
𝑛

𝑐𝑙𝑎𝑠𝑠𝑖𝑓𝑦(𝑓1 , … , 𝑓𝑛 ) = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑝(𝐶 = 𝑐) ∏ 𝑝(𝐹𝑖 = 𝑓𝑖 |𝐶 = 𝑐)


𝑖=1

B. Support Vector Machine

Teknik SVM adalah pengklasifikasi yang menemukan hyperplane atau fungsi


𝑔(𝑥) = 𝑤 𝑇 𝑥 + 𝑏 yang dengan benar memisahkan dua kelas dengan margin maksimum.

Gambar 1. Hyperplane pemisah margin-maksimum keras


Secara matematis, diberikan satu set poin 𝑥𝑖 yang termasuk dalam dua kelas yang dapat
|𝑔(𝑥)|
dipisahkan secara linier 𝜔1, 𝜔2 , jarak setiap instance dari hyperplane sama dengan ‖𝑤‖
. SVM

bertujuan untuk menemukan w, b, sehingga nilai 𝑔(𝑥) sama dengan 1 untuk titik data terdekat
milik kelas 𝜔1 dan -1 untuk yang terdekat dari 𝜔2 . Ini dapat dilihat sebagai memiliki margin

1 1 2
+ =
‖𝑤‖ ‖𝑤‖ ‖𝑤‖
sedangkan 𝑤 𝑇 𝑥 + 𝑏 = 1 untuk x ∈ 𝜔1 , dan 𝑤 𝑇 𝑥 + 𝑏 = −1 untuk x ∈ 𝜔2 .
Hal ini menyebabkan masalah optimasi yang meminimalkan fungsi tujuan
1
𝐽(𝑤) = ‖𝑤‖2
2
subject pada constraint
𝑦𝑖 (𝑤𝑖𝑇 𝑥 + 𝑏) ≥ 1, 𝑖 = 1,2, … , 𝑁
Ketika masalah optimasi-apakah minimalisasi atau maksimalisasi-memiliki kendala
dalam variabel yang dioptimalkan, fungsi biaya atau kesalahan ditambah dengan menambahkan
kendala, dikalikan dengan pengali Lagrange. Fungsi Lagrangian untuk SVM dibentuk dengan
menambah fungsi tujuan dengan jumlah terbobot dari kendala,
𝑁
1
ℒ(𝑤, 𝑏, 𝜆) = 𝑤 𝑇 𝑤 − ∑ 𝜆𝑖 [𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) − 1]
2
𝑖=1

di mana w dan B disebut variabel primal, dan 𝜆𝑖 pengali Lagrange.


Dengan adanya kendala pertidaksamaan,Karush-Kuhn-Tucker (KKT) kondisi
menggeneralisasi pengali Lagrange.
KKT syaratnya adalah:
1. Kendala utama
−[𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) − 1] ≤ 0 ∀𝑖 = 1, … , 𝑁
2. Kendala ganda
𝜆𝑖 ≥ 0 ∀𝑖 = 1, … , 𝑁

3. Kelambanan komplementaritas
𝜆𝑖 [𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) − 1] = 0 ∀𝑖 = 1, … , 𝑁
4. Gradien Lagrangian (nol, sehubungan dengan variabel primal)
𝑤 − ∑𝑁
𝑖=1 𝜆𝑖 𝑦𝑖 𝑥𝑖
∇ℒ(𝑤, 𝑏, 𝜆) = [ 𝑁 ]=0
− ∑𝑖=1 𝜆𝑖 𝑦𝑖
Berdasarkan kondisi KKT,
𝑁

𝑤 = ∑ 𝜆𝑖 𝑦𝑖 𝑥𝑖
𝑖=1
𝑁

∑ 𝜆𝑖 𝑦𝑖 = 0
𝑖=1

Masalah ganda optimasi SVM adalah menemukan


𝑁
1
𝑚𝑎𝑥 (∑ 𝜆𝑖 − ∑ 𝜆𝑖 𝜆𝑗 𝑦𝑖 𝑦𝑗 𝑥𝑖 𝑥𝑗 )
2
𝑖=1 𝑖,𝑗

Subject pada
𝑁

∑ 𝜆𝑖 𝑦𝑖 = 0
𝑖=1

𝜆𝑖 ≥ 0 ∀𝑖

Metode Penelitian

Alur penelitian ini terdiri dari 7 tahap yaitu Inisiasi Penelitian (Research Initiation) yang
dimulai dari proses identifikasi masalah hingga proses studi literatur mengenai opinion mining
dan pemindahan IKN. Kemudian tahap Pemrosesan Data (Data Processing) yang dimulai dari
proses pengumpulan data hingga proses filtering. Berikutnya adalah tahap Aspect Identification
yang dilanjutkan dengan Feature Generation yaitu aplikasi N-Grams. Dua tahap terakhir adalah
Classifier Building dengan Naïve Bayes dan Support Vector Machine dengan optimasi
metaheuristik yaitu Hyperparameter Tuning (Hyperparameter Optimization) dan Evaluation
dengan Confusion Matrix yang mengukur precision, recall, accuracy, dan specificity dan juga
Matthews Correlation Coefficient (MCC).

A. Pra-pemrosesan Data
Tahap Pra-pemrosesan Data dimulai dengan pengumpulan data dari Twitter yang
kemudian diproses terlebih dahulu dengan penghilangan duplikasi data dan ekspresi yang tidak
diperlukan guna dapat melabelkan data menjadi polaritas positif dan negatif.

Tabel 1. Tahap Pra-Pemrosesan

No. Fase
1 Pengumpulan Data, web scraping dengan Bahasa pemrograman Python melalui Twitter Developer
Platform (Twitter API).
2 Penerjemahan Data, proses menerjemahkan tweets menjadi Bahasa Inggris
3 Penghilangan Duplikasi, Menghapus contoh duplikat sehingga hanya satu dari semua contoh duplikat
yang disimpan.
4 Penghapusan Ekspresi Reguler, mengganti ekspresi regular menjadi dihilangkan
5 Pelabelan Polaritas, Teks yang disediakan dianalisis untuk menentukan apakah teks tersebut
mengekspresikan sentimen positif/negatif/netral. Karena algoritma SVM dipakai, maka dibutuhkan
polaritas yang biner sehingga difilter Kemba.i menjadi hanya polaritas positif dan negative.

B. Identifikasi Aspek

Kategori aspek (misalnya, makanan, harga) mengidentifikasi fitur yang lebih kasar
daripada istilah aspek, dan mereka tidak selalu muncul sebagai istilah dalam kalimat tertentu.
Dalam contoh topik pemindahan IKN di atas, presiden, menteri, dan pemerintah yang mengacu
pada kategori aspek “Pelaksanaan atau Implementasi IKN” karena pada konteks tweets di atas
dijelaskan bahwa entitas-entitas tersebut yang turun tangan dalam pengerjaan dan pelaksanaan
pemindahan IKN (tidak disebutkan secara eksplisit atau langsung melainkan implisit).
Terdapat pula banyak tweets yang langsung disebutkan secara jelas seperti Kalimantan,
Samarinda, dll yang merujuk pada pemilihan lokasi Ibu Kota baru sehingga masuk ke dalam
aspek “Lokasi”. Ada pula beberapa Istilah yang memiliki arti yang sama seperti rakyat,
penduduk, dan warga dimana meskipun terdapat sedikit perbedaan pada definisinya namun
berdasarkan konteks mengacu pada entitas yang sama sehingga masuk ke dalam kategori aspek
“Sosial”.

Tabel 2. Daftar 7 Aspek Pemindahan IKN beserta kata kuncinya


Aspek

Pembangunan
Pelaksanaan Pengelola
Lokasi infrastruktur Ekonomi Sosial Lingkungan
IKN IKN
lain

Jokowi dki Jakarta Ahok train money people habitat

east komodo
government candidates project budget locals
kalimantan dragon

leader of new
Minister kalimantan airport debt citizen komodo island
capital

RUU Bekasi chief construction benefit demonstration orang utan

ikn Bandung authority infrastructure pay students Forest

ikn law Samarinda cost

progress funds

relocation investment

pertamina

garuda

bumn

state-owned
enterprises

ASPECTS PERCENTAGE
Social Economy
Other 12% 16%
infrastructure
Environment
development
2%
9%

Location
9%

IKN
IKN manager implementatio
16% n
36%

Gambar 2. Persentase 7 Aspek dalam data tweets


C. Generasi fitur N-grams
Metode untuk memeriksa 'n' kata atau suara terus menerus dari urutan teks atau ucapan
yang diberikan. Model ini membantu untuk memprediksi item berikutnya secara berurutan.
Dalam analisis sentimen, model n-gram membantu menganalisis sentimen dari teks atau
dokumen. Digunakan operator Generate n-grams yang membuat semua kemungkinan n-Gram
dari setiap token dalam dokumen.

D. Pembangunan Model Klasifikasi

Setelah tweets diidentifikasi ke dalam beberapa aspek dan dibagi menjadi beberapa
urutan teks, tweets kemudian diproses terlebih dahulu melalui beberapa tahap sebelum
dioptimasi parameternya (Hyperparameter Tuning). Setelah tweets akan masuk ke dalam model
klasifikasi Machine Learning. Tabel 3 mendeskripsikan proses model klasifikasi ML dan table
4 menjelaskan parameter yang digunakan untuk masing-masing algoritma.

Tabel 3. Tahap pemrosesan tweets sebelum model klasifikasi ML

No. Fase
1 Case folding, konversi semua karakter dalam dokumen menjadi huruf kecil semua
2 Tokenization, mengubah teks menjadi token sebelum mengubahnya menjadi vektor
3 Filter stopwords, menghilangkan kata-kata umum yang tidak memiliki makna atau informasi yang
dibutuhkan (Ling et al. 2014)
4 Stemming, menghilangkan akhiran kata dan membawanya ke kata dasar

Tabel 4. Parameter Naïve Bayes dan Support Vector Machine yang dioptimasi

Algoritma Parameter Grid/range


Number of kernels 1 - 10
Naïve Bayes
Bandwidth 0,1 - 0,5

Support Vector C 0.1 - 100


Machine Gamma 0,0001 - 10
E. Evaluasi K-fold Cross Validation
Terdapat 4 model yang akan di evaluasi yaitu : Naïve Bayes, Optimized Naïve Bayes,
Support Vector Machine, dan Optimized Support Vector Machine. Confusion matrix, kriteria
performa model akan dipaparkan lebih lanjut pada analisis hasil penelitian. Evaluasi semua
model dilakukan dengan 10-fold validation sehingga tidak diperlukannya data testing dan
training ataupun split dalam data.

Hasil Penelitian dan Pembahasan

Analisis terakhir pada penelitian ini adalah perbandingan antara semua model
klasifikasi yang telah dikembangkan. Tabel 5 memuat semua nilai evaluasi performa dari
model. Menariknya, baik NB dan SVM yang dioptimalkan mengungguli pengklasifikasi default
mereka sendiri. NB default belum dapat menangani tugas klasifikasi dengan baik dengan
akurasi dan MCC berturut-turut sebesar 61,76% dan 10% pada model unigram, 59,76% dan
11% pada model bigram, dan 67,20% dan 26% pada model trigram. Sementara itu, hasil NB
yang dioptimalkan menghasilkan kinerja yang hanya sedikit lebih baik (tidak signifikan) jika
dibandingkan dengan NB default perbedaan akurasi sebesar 2,33% pada model unigram, 5,88%
pada model bigram, dan 1,21% pada model trigram.

Tabel 5. Performa model klasifikasi

Model Klasifikasi
Kriteria Evaluasi
Default NB Optimized NB Default SVM Optimized SVM

Unigram
Accuracy 61.76% 64.09% 62.69% 62.85%

Precision 64.91% 66.80% 62.69% 62.91%

Sensitivity 84.94% 84.94% 100.00% 99.26%

Specificity 22.82% 29.05% 0.00% 1.66%


MCC 10% 17% 0% 4%

Bigram
Accuracy 59.76% 65.64% 61.94% 58.21%
Precision 66.08% 66.91% 66.13% 69.12%

Sensitivity 73.58% 89.38% 80.49% 60.25%


Specificity 36.51% 25.73% 30.71% 54.77%

MCC 11% 20% 13% 15%

Trigram
Accuracy 67.20% 68.41% 64.56% 66.10%
Precision 69.57% 69.82% 65.44% 73.02%

Sensitivity 84.69% 87.41% 92.10% 72.84%


Specificity 37.76% 36.51% 18.26% 54.77%

MCC 26% 28% 16% 28%

Sama seperti sedikit perbaikan dari standar ke dioptimalkan dalam kinerja NB,
Hyperparameter tuning (Parameter optimization) hanya meningkatkan beberapa kinerja SVM
menjadi sedikit lebih baik (tidak signifikan). Peningkatan akurasi dan MCC dalam SVM
masing-masing sebesar 0,16% dan 4,29% pada model unigram, penurunan akurasi sebesar
3,73% dan peningkatan MCC sebesar 1,85% pada model bigram, dan peningkatan sebesar
1,54% dan 12% pada model trigram. Tanpa optimasi, dapat dikatakan SVM masih dapat
menjalankan tugas klasifikasinya meskipun dengan nilai presisi dan specificity yang lebih kecil.
Dengan nilai MCC sebesar 16%, dapat disimpulkan bahwa model ini bukan definisi klasifier
yang bagus dan bahkan hanya mencapai 28% setelah teroptimasi. Pada kasus ini, NB terbukti
lebih baik dari SVM ketika dioptimalkan meskipun dengan perbedaan yang sangat kecil
(perbedaan akurasi hanya 2,31% dan 0% perbedaan MCC), yang menjadikan NB sebagai
pengklasifikasi terbaik dalam penelitian ini.
30% 28% 28%
26%
25%
20%
20% 17%
15% 16%
15% 13%
10% 11%
10%
4%
5%
0%
0%
Optimized NB Optimized SVM Default NB Default SVM

MCC Unigram MCC Bigram MCC Trigram

Gambar 3. Peringkat Performa Model Berdasarkan Nilai MCC

MCC digunakan sebagai kriteria utama untuk menentukan peringkat pengklasifikasi pada
gambar 3. Pengklasifikasi terbaik dalam penelitian ini adalah NB trigram teroptimasi diikuti
oleh SVM trigram teroptimasi, kemudian NB Default trigram, dan terakhir, SVM default
trigram.

Kesimpulan

Penelitian ini juga berfungsi sebagai studi perbandingan antara dua metode dan
perlakuan penyetelan parameter optimasi yang diberikan kepada masing-masing metode.
Bertentangan dengan penelitian Kristiyanti et al pada tahun 2020 dan Hakim et al pada 2021,
penelitian ini menemukan bahwa NB terbukti mengungguli SVM jika penyetelan parameter
optimasi dilakukan sebelum proses pembelajaran terjadi. Jika tidak ada proses optimasi yang
dilakukan, penelitian ini tetap sejalan dengan banyak penelitian serupa dimana Naïve Bayes
menjadi pilihan model klasifikasi terbaik karena kecepetan belajar dengan fitur berdimensi
tinggi pada data training yang terbatas.

Optimize parameters terbukti mampu meningkatkan performa model klasifikasi dengan


waktu komputasi yang cukup singkat. Peningkatan pada NB tergolong tidak signifikan namun
mampu menunjukkan bahwa algoritme NB dapat memberikan hasil yang lebih memuaskan jika
parameter yang digunakan sesuai dan tepat. Dari penelitian ini, didapatkan 4 pengklasifikasi
walaupun tidak cukup baik yaitu NB teroptimasi, SVM teroptimasi, NB default, dan SVM
default dengan ketiga model pertama bekerja lebih baik dibandingkan model SVM default yang
hampir tidak mampu untuk melakukan tugas klasifikasi sentiment analysis.

Saran

Studi dapat ditingkatkan di masa depan dengan menambahkan lebih banyakpengklasifikasi


antara lain : random forest, decision tree, dan k-nearest neighbors serta perlakuan optimasi
yang lebih beragam dan tepat. Penambahan pengklasifikasi ini diharapkan dapat memberikan
wawasan baru mengenai hasil dan karakteristik model yang dihasilkan karena tidak menutup
kemungkinan algoritme pengklasifikasi selain NB maupun SVM dapat menghasilkan performa
yang lebih baik serta dengan perlakuan optimasi lainnya yang memungkinkan model untuk
bekerja lebih baik lagi dari sebelumnya sehingga direkomendasikan untuk penelitian
mendatang. Selain itu, dengan meningkatnya jumlah pengguna media social seperti Twitter,
studi lebih lanjut diharapkan dapat menemukan lebih banyak teknik dan cara memproses data
teks sentiment analysis yang tepat dan dapat digunakan jika bahasa pada data bukanlah Bahasa
standar yaitu Bahasa Inggris yang sudah tersedia pada korpus untuk proses pembelajaran model
yang akurat sehingga performa model dapat terus meningkat.

Daftar Referensi

Arslan, M. (2014). The significance of shifting capital of KAZAKSTAN from ALMATY TO ASTANA: An
EVALUTION on the basis of geopolitical and Demographic Developments. Procedia - Social and
Behavioral Sciences, 120, 98–109. https://doi.org/10.1016/j.sbspro.2014.02.086
Amrani, Y. A., Lazaar, M., & Kadiri, K. E. (2018). A novel hybrid classification approach for sentiment
analysis of text document. International Journal of Electrical and Computer Engineering (IJECE), 8(6),
4554–4567. https://doi.org/10.11591/ijece.v8i6.pp4554-4567
Carley, K. M., Malik, M., Kowalchuck, M., Pfeffer, J., & Landwehr, P. (2015). Twitter usage in Indonesia. SSRN
Electronic Journal. https://doi.org/10.2139/ssrn.2720332
Hamdan, H., Bellot, P., & Bechet, F. (2015). Lsislif: CRF and logistic regression for Opinion target extraction
and Sentiment POLARITY ANALYSIS. Proceedings of the 9th International Workshop on Semantic
Evaluation (SemEval 2015), 753–758. https://doi.org/10.18653/v1/s15-2128
Kelly, J. (2020). The city Sprouted: The rise of BRASÍLIA.
http://www.jstor.org/stable/10.2307/26924964?refreqid=search-gateway.
Logan, D. (2013, October 20). Myanmar's Phantom capital. The Globalist.
https://www.theglobalist.com/myanmars-phantom-capital/.
Luo, P., Kang, S., Apip, Zhou, M., Lyu, J., Aisyah, S., Binaya, M., Regmi, R. K., & Nover, D. (2019). Water
quality trend assessment in Jakarta: A rapidly growing Asian megacity. PLOS ONE, 14(7).
https://doi.org/10.1371/journal.pone.0219009
Maitra, S., Madan, S., Kandwal, R., & Mahajan, P. (2018). Mining authentic student feedback for faculty
using naïve Bayes classifier. Procedia Computer Science, 132, 1171–1183.
https://doi.org/10.1016/j.procs.2018.05.032
Narayanan, V., Arora, I., & Bhatia, A. (2013). Fast and accurate sentiment classification using an enhanced naive
bayes model. Intelligent Data Engineering and Automated Learning – IDEAL 2013, 194–201.
https://doi.org/10.1007/978-3-642-41278-3_24
Ni, P., Kamiya, M., & Ding, R. (2018). Cities network along the Silk road: The global Urban competitiveness
report 2017. SPRINGER.
Pak, A., & Paroubek, P. (2010). Twitter as a Corpus for Sentiment Analysis and Opinion mining . Proceedings of
the Seventh International Conference on Language Resources and Evaluation (LREC'10).
Park, C. W., & Seo, D. R. (2018). Sentiment analysis of twitter corpus related to artificial intelligence assistants.
2018 5th International Conference on Industrial Engineering and Applications (ICIEA).
https://doi.org/10.1109/iea.2018.8387151
Putri, R. F., Wibirama, S., Sukamdi, & Giyarsih, S. R. (2018). Population condition analysis of jakarta land
deformation area. IOP Conference Series: Earth and Environmental Science, 148, 012007.
https://doi.org/10.1088/1755-1315/148/1/012007
Reva, D. (2017, May 9). Capital City Relocation and National Security: The Cases of Nigeria and Kazakhstan.
UPSpace. http://hdl.handle.net/2263/60413.
Siegel, F. R. (2020). Coastal city flooding. In Adaptations of coastal cities to global warming, sea level rise, climate
change and endemic hazards (pp. 27–34). essay, Springer.
Sutoyo, E., & Almaarif, A. (2020). Educational Data Mining for Predicting Student Graduation Using the Naïve
Bayes Classifier Algorithm. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 4(1), 95–101.
https://doi.org/10.29207/resti.v4i1.1502
Bayhaqy, A., Sfenrianto, S., Nainggolan, K., & Kaburuan, E. R. (2018). Sentiment analysis about e-
commerce from tweets using decision tree, K-nearest neighbor, and Naïve Bayes. 2018 International
Conference on Orange Technologies (ICOT). https://doi.org/10.1109/icot.2018.8705796
Fitri, V. A., Andreswari, R., & Hasibuan, M. A. (2019). Sentiment analysis of social media Twitter with case
of anti-LGBT campaign in Indonesia using naïve Bayes, decision tree, and Random Forest algorithm.
Procedia Computer Science, 161, 765–772. https://doi.org/10.1016/j.procs.2019.11.181
Guia, M., Silva, R., & Bernardino, J. (2019). Comparison of naïve Bayes, support Vector Machine, decision
trees and random forest on sentiment analysis. Proceedings of the 11th International Joint Conference on
Knowledge Discovery, Knowledge Engineering and Knowledge Management.
https://doi.org/10.5220/0008364105250531
Hakim, S. N., Putra, A. J., & Khasanah, A. U. (2021). Sentiment analysis on myindihome user reviews using
support vector machine and naïve Bayes classifier method. International Journal of Industrial Optimization,
2(2), 151. https://doi.org/10.12928/ijio.v2i2.4437
Joachims, T. (1998). Text categorization with support Vector MACHINES: Learning with many relevant features.
Machine Learning: ECML-98, 137–142. https://doi.org/10.1007/bfb0026683
Kristiyanti, D. A., Putri, D. A., Indrayuni, E., Nurhadi, A., & Umam, A. H. (2020). E-wallet sentiment
analysis using naïve Bayes and Support Vector Machine algorithm. Journal of Physics: Conference Series,
1641, 012079. https://doi.org/10.1088/1742-6596/1641/1/012079
Neogi, A. S., Garg, K. A., Mishra, R. K., & Dwivedi, Y. K. (2021). Sentiment analysis and classification of
Indian Farmers’ protest using Twitter data. International Journal of Information Management Data Insights,
1(2), 100019. https://doi.org/10.1016/j.jjimei.2021.100019

Anda mungkin juga menyukai