Anda di halaman 1dari 10

JINACS: Volume 03 Nomor 03, 2022

(Journal of Informatics and Computer Science) ISSN : 2686-2220

Perbandingan Akurasi Metode Lexicon Based


Dan Naive Bayes Classifier Pada Analisis Sentimen
Pendapat Masyarakat Terhadap Aplikasi Investasi Pada
Media Twitter
Fitrah Amaliah1, I Kadek Dwi Nuryana2
1,2
Jurusan Teknik Informatika, Universitas Negeri Surabaya
1
fitrah.18007@mhs.unesa.ac.id
2
dwinuryana@unesa.ac.id

Abstrak - Investasi pada era globalisasi ini menjadi kegiatan Di Indonesia dalam melakukan kegiatan investasi sudah
yang penting dalam perekonomian dan bisnis. Sudah banyak terlaksana cukup lama, dari masa orde lama sudah
masyarakat yang memilih untuk menempatkan dana yang disiapkan rancangan perundang-undangan tentang praktik
mereka miliki dalam bentuk investasi. Dengan adanya penanaman modal asing di Indonesia [3]. Sebagai negara
perkembangan teknologi para developer membuat aplikasi
dalam tahap perkembangan, pemahaman akan kesadaran
investasi untuk memudahkan proses investasi. Dengan
adanya aplikasi investasi, terdapat juga kelebihan dan masyarakat Indonesia terhadap kegiatan investasi masih
kekurangan dari aplikasi yang ada, mulai dari aplikasi tergolong rendah. Sedangkan di negara yang sudah maju,
investasi bodong hingga aplikasi investasi yang terpercaya. masyarakatnya sudah lebih sadar terhadap hal yang
Analisis sentimen pada Twitter dilakukan agar mengetahui berkaitan tentang investasi. Salah satu alasan dari
aplikasi investasi yang harus dihindari dan dapat dipercaya. rendahnya pemahaman dan kesadaran akan hal investasi di
Metode lexicon based dan naive bayes classifier dipilih agar Indonesia adalah orientasi mayoritas tujuan masyarakat
dapat mengklasifikasikan antara tweets yang bersentimen dalam menghadapi kondisi finansial yang masih dalam
positif, netral, dan negatif agar memudahkan masyarakat tujuan jangka pendek contohnya menabung di bank supaya
dalam menentukan pilihan beserta mengetahui tingkat
akurasi antara kedua metode. Dari hasil kedua metode telah
memperoleh bunga dan saving society [4]. PT Bursa Efek
didapatkan bahwa sentimen positif memiliki persentase Indonesia (BEI) telah memberikan pelajaran dan
tertinggi terhadap aplikasi investasi. Sedangkan meluaskan industri ke depan yang lebih baik sebagai cara
perbandingan akurasi dari kedua metode menghasilkan 67% dalam meluaskan industri pasar modal di Indonesia. Tujuan
untuk metode lexicon based dan 78% untuk metode naive BEI tidak hanya memperbesar kapasitas investor,
bayes classifier. Dari hasil tersebut dapat menunjukkan melainkan juga untuk memasukkan kebutuhan berinvestasi
bahwa data yang telah dianalisis tentang aplikasi investasi di pasar modal yang secara tidak langsung dapat
memiliki nilai positif dan hasil akurasi dari metode naive memperkuatkan persepsi akan pengetahuan untuk
bayes classifier memiliki nilai yang lebih tinggi dari pada
masyarakat Indonesia supaya berinvestasi aktif di pasar
metode lexicon based.
modal Indonesia.
Kata Kunci - Investasi, Aplikasi Investasi, Analisis Sentimen, Analisa sentimen disini dapat dimanfaatkan oleh
Twitter, Lexicon Based, Naive Bayes Classifier masyarakat dalam mengetahui hal yang berkaitan dengan
investasi. Analisa sentimen merupakan langkah yang tepat
I. PENDAHULUAN dalam mencari informasi mengenai opini-opini masyarakat
Pada zaman ini, kegiatan berinvestasi menjadi aktivitas dalam menilai aplikasi investasi terpercaya dari media
yang penting dalam bidang bisnis dan ekonomi. sosial. Twitter merupakan salah satu dari banyaknya media
Penempatan sejumlah dana pada masa sekarang dengan sosial yang cukup populer dan banyak diminati oleh
harapan akan mendapatkan keuntungan pada masa yang masyarakat Indonesia dalam menuangkan berbagai opini-
akan datang disebut investasi [1]. Selain itu, didalam opini, baik opini yang bersifat positif, netral, ataupun
kegiatan investasi terdapat dua jenis yaitu investasi aktif negatif. Menurut data Kominfo Indonesia, Tercatat terdapat
dan investasi pasif, dimana investasi aktif merupakan 19,5 juta masyarakat indonesia yang menggunakan Twitter
kegiatan berinvestasi dengan kerjasama secara langsung dan menjadikan Indonesia sebagai negara kelima terbesar
dengan investor untuk pengelolaannya, sedangkan investasi dalam pemakaian Twitter dibawah Inggris dan negara
pasif tidak melakukan kerjasama secara langsung untuk lainnya. Dengan demikian, untuk mengetahui dan
pengelolaannya melainkan akan dikelola oleh manajer memproses data sehingga mengetahui informasi yang
investasi dan investasi akan bergerak naik turun dengan tersedia pada kalimat opini, twitter dijadikan platform
sendirinya [2]. Untuk aplikasi investasi merupakan contoh dalam penelitian ini. [5]. Pengambilan data dari Twitter
investasi jenis pasif. pada penelitian ini menggunakan cara crawling data. Hasil

384
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

dari cara crawling ini berupa kumpulan dokumen atau data algoritma Naive Bayes Classifier adalah proses perhitungan
yang dapat digunakan dalam sentiment analysis. yang cepat dan efisien.
Text mining memiliki beberapa bagian diantaranya Berdasarkan perihal diatas, penulis akan lebih terfokus
adalah sentiment analysis yang dalam bahasa indonesia pada analisis sentimen twitter terhadap aplikasi investasi
sentiment analysis bisa disebut analisis sentimen [6]. dengan metode Lexicon Based dan Naive Bayes Classifier.
Analisis sentimen akan membuat kategori dalam struktur Dengan adanya penelitian ini diharapkan bisa membantu
label sentimen positif, netral, atau negatif. Output berupa masyarakat mengenai aplikasi investasi yang dipercaya dan
hasil representasi secara visual dari pengumpulan data teks menambah kesadaran serta pemahaman akan investasi.
disebut Wordcloud [7]. Untuk mengklasifikasikan data Sedangkan untuk developer dari aplikasi investasi bisa
dalam melakukan suatu analisis sentimen memerlukan lebih memperbaiki aplikasi dari feedback atau opini yang
suatu metode dengan tujuan memudahkan pengguna telah diutarakan masyarakat melalui twitter yang
membedakan antara opini yang termasuk klasifikasi positif, digunakan.
netral, atau negatif serta dapat mengetahui akurasi
persentase dari setiap sentimen dan akurasi dari kinerja II. METODOLOGI
metode. Metodologi pada suatu penelitian memiliki pedoman
Pada penelitian analisis sentimen ini menggunakan berupa alur penelitian atau langkah-langkah agar hasil yang
metode Lexicon Based dan metode Naive Bayes Classifier diharapkan sesuai dengan tujuan awal. Metodologi
(NBC) untuk mengetahui perbandingan kinerja kedua penelitian memiliki rancangan alur yang terstruktur dan
metode. Vader sentiment digunakan untuk metode analisis sesuai. Rancangan alur pada penelitian ini dapat dilihat
dari metode Lexicon Based yang berbasis rule-based pada Gbr. 1 berikut :
sentiment analysis. Naive Bayes Classifier (NBC)
merupakan salah satu jenis algoritma atau metode yang
Menentukan Topik
digunakan untuk pengklasifikasian dalam analisis sentimen Mulai
Penelitian
dengan data yang besar dan menghasilkan tingkat akurasi
yang tinggi serta cepat dan tepat [8]. Pada penelitian
sebelumnya terdapat penelitian serupa dengan judul Studi Literatur
“Analisis Sentimen Terhadap Vaksin Covid-19 di
Indonesia pada Twitter Menggunakan Metode Lexicon
Based” akan tetapi dalam penelitian tersebut tidak Analisa Kebutuhan
memperhitungkan akurasi dari metode yang digunakan,
sehingga masih belum bisa diketahui akurasi dari metode
Pengumpulan Data
Lexicon Based. Kemudian juga terdapat penelitian dengan
judul “Analisis Sentimen Twitter Bertema Pembelajaran
Tatap Muka (PTM) Terbatas Menggunakan Metode
Preprocessing
Lexicon Based” dengan nilai akurasi sebesar 86,60% oleh
Muhammmad Nuzul Edit pada tahun 2021. Pada penelitian
tersebut untuk tahap preprocessing tidak terdapat proses
Translate
yang cukup detail, seperti filtering dan stemming. Pada
penelitian ini, peneliti akan menambahkan tahap tersebut
untuk selanjutnya di proses untuk dibandingkan akurasinya
Proses Klasifikasi
menggunakan metode Lexicon Based dan Naive Bayes
Classifier. Data yang diambil berupa data yang bersumber
dari media sosial Twitter sebanyak 698 data tweets dengan
Hasil Visualisasi dan
keyword “aplikasi investasi” dari tanggal 11 Januari 2022 Pengujian Metode Selesai
sampai 19 Januari 2022.
Lexicon Based digunakan dalam penelitian sebagai GBR. 1 DIAGRAM ALUR PENELITIAN
klasifikasi opini maupun pengklasifikasian [9]. Dokumen
atau data yang berupa kata dalam sebuah kalimat akan
dibandingkan secara langsung dengan kamus opini yang Penelitian ini akan membandingkan tingkat akurasi
tersedia dalam Lexicon menjadi salah satu kelebihan dari antara metode lexicon based dan naive bayes classifier
metode lexicon based. Jika di dalam kalimat tersebut dalam proses pengklasifikasian data yang telah dilakukan.
tersedia kata yang bersifat opini, maka kalimat tersebut Gbr. 2 berikut merupakan proses pengklasifikasian dalam
akan disebut kalimat opini. Dan jika kata yang tersedia penelitian ini.
dalam kalimat tersebut tidak tersedia dalam kamus Lexicon,
maka dianggap bukan kalimat opini merupakan
kekurangan dari metode ini. Sedangkan keunggulan dari

385
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

Mulai
tidak diperlukan seperti tanda titik, tanda koma,
tanda tanya, tanda seru, menghapus HTML dan
URL, menghapus hastag dan mention, menghapus
Crawling Data emoji, serta menghapus karakter yang tidak relavan.
2. Tokenization
Preprocessing Data
Pada tahap tokenization ini akan memisahkan
sebuah kalimat dari tweets menjadi potongan kata
sebelum dianalisis lebih lanjut.
Lexicon Based Naive Bayes Classifier (NBC)
3. Case Folding
Dalam tahap case folding akan dilakukan perubahan
terhadap kumpulan kalimat tweets menjadi huruf
Model
kecil semua.
Evaluasi 4. Filtering atau Stopwords Removal
Tahap filtering akan melakukan proses dalam
menghilangkan kata-kata yang tidak memiliki
Selesai makna atau stop words agar terfokus pada kata-kata
yang lebih bermakna. Dengan demikian, proses
GBR. 2 FLOWCHART KLASIFIKASI klasifikasi akan lebih cepat dan efisien karena
jumlah kata yang diproses akan menjadi lebih
A. Pengumpulan Data sedikit.
5. Stemming
Analisis sentimen menggunakan cara crawling
Pada tahap ini akan mengubah kata yang
dimana data set berasal dari tweets media sosial Twitter
berimbuhan menjadi kata dasar.
terkait “aplikasi investasi”. Untuk uraian dari proses
crawling dapat dilihat pada Gbr. 3 berikut :
C. Translate
Setelah tahap preprocessing dilakukan, tahap
Mulai
selanjutnya adalah menerjemahkan data tweets
berbahasa indonesia menjadi tweets berbahasa inggris.
Masukkan Akses Token
Tahap translate dilakukan karena pada tahap
API Twitter selanjutnya akan menggunakan library vader sentiment
yang menggunakan bahasa inggris.
Crawling Data
D. Analisis Sentimen atau Pengklasifikasian
Setelah tahap translate dilakukan, dilanjutkan tahap
pengklasifikasian data tweets. di tahap ini proses
Simpan Hasil
Crawling labelling sentiment dilakukan dan akan menghasilkan
score polarity. Metode yang digunakan pada tahap ini
adalah metode Lexicon Based dan Naive Bayes
Selesai Classifier.
1. Lexicon Based
GBR. 3 FLOWCHART CRAWLING DATA Dalam penelitian ini, metode lexicon based
Proses crawling data tweets dari media sosial dengan library vader sentiment digunakan dalam
Twitter dari unggahan pengguna Twitter dengan analisis sentimen. Lexicon based merupakan kamus
menggunakan akses token API Twitter dengan kata atau leksikon yang digunakan untuk pemilihan kata
kunci Aplikasi Investasi dilakukan menggunakan pada data atau dokumen [10]. Dalam
bahasa pemrograman Python yang selanjutnya implementasinya, tersedia dua kamus yaitu kamus
disimpan dalam format .csv, dari data yang didapat dengan kumpulan kata yang bersentimen positif dan
akan dilanjutkan dengan tahap preprocessing. kamus dengan kumpulan kata yang bersentimen
negatif yang digunakan untuk menjadi wordlist [11].
B. Preprocessing Metode analisis dari metode lexicon based
Pada tahap ini akan dilakukan penyeleksian data dan adalah VADER (Valance Dictionary and Sentiment
pembersihan data tweets yang telah diambil. Berikut Reasoner). Vader digunakan untuk menganalisis
merupakan tahapan-tahapan dari proses data berdasarkan lexicon (kamus). Hasil dari Vader
preprocessing : berupa kelas polaritas positif, netral, dan negatif
1. Cleaning dengan tambahan compound score atau skor total
Pada tahap cleaning akan dilakukan proses [12]. Vader Sentiment Lexicon memiliki 7.500 kata
untuk penghilangan tanda baca dan karakter yang yang didalamnya terdapat sentimen yang terkait

386
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

dengan sinonim dan akronim serta kata berbahasa Pada penggunaan suatu metode tentu memiliki
inggris [13]. gambaran tentang kinerja metode dalam proses
Leksikal merupakan kamus yang digunakan pengklasifikasian data. Metode yang digunakan dalam
sebagai bahasa pokok dalam metode lexicon based. penelitian ini adalah metode confusion matrix. Dimana
Untuk mendeteksi klasifikasi atau sentimen, pada metode yang digunakan dalam menghitung akurasi
penelitian ini memanfaatkan library Python dengan dengan membandingkan hasil klasifikasi yang
score polarity < 0 adalah sentimen negatif, score dilakukan secara aktual dengan hasil klasifikasi dari
polarity = 0 adalah sentimen netral, dan score metode [14]. Untuk klasifikasi data yang sesungguhnya,
polarity > 0 adalah sentimen positif. Untuk proses pada penelitian ini melakukan labelling secara manual
klasifikasi sentimen dapat dilakukan dengan untuk mengetahui polaritasnya.
persamaan berikut : Tolak ukur hasil perhitungan metode confusion
matrix yaitu Precision, Recall, F1-Score, Macro avg,
Sentence sentiment
Weighted avg dan Accuracy.

{
positif if Spositif > Snegatif 1. Precision
netral if Spositif =Snegatif Precision yaitu visualisasi dari persentase
negatif if Spositif <Snegatif keakuratan hasil perkiraan oleh metode yang
digunakan.
2. Naive Bayes Classifier Rumus dari precision adalah
Algoritma yang menggunakan konsep peluang TP
precision=
atau yang biasa disebut probabilitas yang digunakan TP+ FP
dalam klasifikasi untuk analisis sentimen disebut 2. Recall
sebagai Naive Bayes Classifier. Naive Bayes Recall yaitu visualisasi kesesuaian metode dalam
Classifier juga terhitung dalam algoritma yang mencari ulang sebuah informasi.
mudah digunakan dan sederhana serta bisa TP
memperkirakan suatu kejadian berdasarkan hasil Rumus dari recall adalah recall=
dari klasifikasi dengan baik [14]. Berikut
TP+ FN
3. F1-Score
merupakan rumus persamaan perhitungan dari nilai
F1-Score yaitu perbandingan antara rata-rata nilai
probabilitas metode Naive Bayes Classifier:
presisi dan recall dari hasil pengujian.
Rumus dari f1-score adalah
P ( Y |X ) × P ( X ) TP
P ( X|Y )= f 1−score=
P (Y ) 1 atau
TP+ ( FP+ FN )
Dimana : 2
X = Dugaan sementara data dari suatu class spesifik 2∗precision∗recall
f 1−score=
Y = Data dengan class yang belum diketahui precision+recall
P(X|Y) = Peluang taksiran X dengan syarat Y 4. Macro avg
(probabilitas posterior) Macro avg yaitu rata-rata tidak tertimbang dari
P(X) = Peluang taksiran X (probabilitas prior) semua F1-Score per kelas.
P(Y|X) = Peluang taksiran Y dengan X Rumus macro avg adalah
P(Y) = Peluang Y jumla h nilai f 1−score
macro avg=
Keterangan : jumla h kelas
Probabilitas posterior : kemungkinan terdapat kelas X 5. Weighted avg
Probabilitas prior : kemungkinan sampel awal kelas Y Weighted avg yaitu rata-rata semua F1-Score per
kelas dengan mempertimbangkan dukungan
E. Visualisasi masing-masing kelas.
Setelah setiap tahap dan proses dilakukan, Rumus weighted avg adalah
selanjutnya adalah tahap visualisasi. Pada penelitian ini, weig h ted avg=∈ f 1 score per kelas∗support propor
untuk tahap visualisasi dilakukan dengan menggunakan 6. Accuracy
library Matplotlib dan Wordcloud. Output dari Accuracy yaitu visualisasi keakuratan model dalam
visualisasi ini adalah berupa gambar histogram yang mengelompokkan dengan benar.
juga akan menampilkan hasil akurasi persentase dari Rumus dari accuracy adalah
polaritas setiap sentimen yang dihasilkan. Sedangkan TP+TN
untuk visualisasi wordcloud menampilkan kata yang
accuracy=
TP+ TN + FP+ FN
sering muncul pada setiap sentimennya.
F. Performa Metrik

387
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

III. HASIL DAN PEMBAHASAN


Pada penelitian analisis sentimen mengenai Aplikasi
Investasi ini menggunakan metode Lexicon Based yang
akan dibandingkan dengan Naive Bayes Classifier.
Tujuannya untuk mengetahui hasil perbandingan dengan
penelitian sebelumnya dengan menambahkan tahap fitering
dan stemming pada proses preprocessing dalam
keberhasilan meningkatkan akurasi serta untuk
memberikan label sentimen tweets mengenai Aplikasi
Investasi yang digolongkan menjadi label sentimen positif,
netral, dan negatif.
Untuk penelitian ini, data didapatkan dengan crawling GBR. 5 HASIL DATA SETELAH DIUBAH MENJADI DATA FRAME
data dari Twitter. Untuk crawling data dari Twitter
dibutuhkan akses token API key Twitter dengan mengakses B. Preprocessing
https://developer.twitter.com dan mendaftar untuk Pada tahap preprocessing akan dilakukan beberapa
melakukan validasi kepada pihak developer Twitter untuk tahapan yaitu cleaning, case folding, tokenization,
mendapatkan akses token API key. filtering atau stopwords removal, dan stemming.
Tahapan-tahapan tersebut dilakukan untuk
A. Pengumpulan Data membersihkan dan menghapus data dari tanda baca
Pengumpulan data twitter dengan API Key Twitter serta simbol yang tidak diperlukan seperti tanda titik,
sejumlah 698 data tweets pada tanggal 11 Januari 2022 tanda koma, tanda tanya, tanda seru, menghapus HTML
sampai 19 Januari 2022 dengan keyword “aplikasi dan URL, menghapus hastag dan mention, menghapus
Investasi”. Setelah data tweets terkumpul, data yang emoji, serta menghilangkan simbol yang tidak relavan.
diperoleh diubah menjadi data tabel agar mudah untuk Dalam tahap preprocessing juga dapat mengubah
diproses pada tahap selanjutnya. Data frame berisi tiga seluruh huruf pada data tweets menjadi huruf kecil,
atribut, atribut-atributnya adalah: memotong sebuah kalimat menjadi potongan-potongan
1. Username : username mengandung nama pengguna kata, menghilangkan stop word, dan mengubah kata
yang berasal dari akun pembuat tweets yang yang berimbuhan menjadi kata dasar.
diambil. 1. Cleaning
2. Tweetcreatedts : tweetcreatedts mengandung waktu Pada tahap cleaning ini akan dilakukan
saat pengguna membuat tweets. penghapusam beberapa karakter seperti “@”, link
3. Teks : teks mengandung isi yang berasal dari tweet URL, tanda titik, tanda koma, tanda seru, tanda
yang telah dibuat. tanya, menghapus emoji, mention dan hashtag, serta
menghilangkan simbol yang tidak relavan. Tabel I
Representasi secara visual dari proses crawling berikut merupakan hasil dari tahap cleaning :
pengambilan data API key Twitter dapat dilihat pada
TABEL I
Gbr. 4 dan Gbr. 5 adalah hasil data frame setelah
HASIL DATA CLEANING
crawling data berikut :
Sebelum Sesudah
Polri bongkar kasus
Polri bongkar kasus
investasi ilegal jual aplikasi
investasi ilegal jual aplikasi
robot Trading Evotrade
robot Trading Evotrade
https://t.co/KNJpHzfsdK

Gabung bersama 9 juta Gabung bersama juta


pengguna kami dan mulai pengguna kami dan mulai
investasi aset kripto untuk investasi aset kripto untuk
dapat cuan! Semuanya dapat cuan Semuanya
hanya dalam satu aplikasi hanya dalam satu aplikasi
di Luno. di Luno

@semangathayu Iyaa ka tp maksudnya


@karirfess Iyaa ka, tp invest di cuddle itu ada
GBR. 4 HASIL PENGAMBILAN DATA API KEY TWITTER maksudnya invest di cuddle aplikasi buat investasi di
itu ada aplikasi buat cuddle Apa gimana ka
investasi di cuddle? Apa maksudnya

388
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

gimana ka maksudnya? TABEL III


HASIL DATA CASE FOLDING, FILTERING, DAN STEMMING
Sebelum Sesudah
2. Tokenization
Pada tahapan tokenization, library NLTK dalam Polri bongkar kasus polri bongkar investasi
penelitian ini digunakan untuk tokenize tweet. investasi ilegal jual aplikasi ilegal jual aplikasi robot
Tahapan tokenization ini digunakan agar dapat robot Trading Evotrade trading evotrade
memecah suatu kalimat dari tweets menjadi
potongan-potongan, potongan-potongan tersebut Gabung bersama juta
berupa potongan kata. Tabel II berikut merupakan pengguna kami dan mulai
hasil sebelum dan sesudah melewati proses investasi aset kripto untuk
tokenization. dapat cuan Semuanya gabung juta guna investasi
hanya dalam satu aplikasi aset kripto cuan aplikasi
TABEL II di Luno luno
HASIL DATA TOKENIZATION
Sebelum Sesudah Iyaa ka tp maksudnya
invest di cuddle itu ada
['polri', 'bongkar',
aplikasi buat investasi di iyaa ka maksud invest
polri bongkar investasi 'investasi', 'ilegal', 'jual',
cuddle Apa gimana ka cuddle aplikasi investasi
ilegal jual aplikasi robot 'aplikasi', 'robot', 'trading',
maksudnya cuddle gimana ka maksud
trading evotrade 'evotrade']

gabung juta guna investasi ['gabung', 'juta', 'guna',


aset kripto cuan aplikasi 'investasi', 'aset', 'kripto', C. Translate
luno 'cuan', 'aplikasi', 'luno'] Setelah data tweets melakukan tahap preprocessing,
selanjutnya adalah melakukan proses translating data
['iyaa', 'ka', 'maksud', tweets dengan library translator. Tabel IV merupakan
iyaa ka maksud invest 'invest', 'cuddle', 'aplikasi', hasil sebelum dan sesudah melalui tahap translate.
cuddle aplikasi investasi 'investasi', 'cuddle', TABEL IV
cuddle gimana ka maksud 'gimana', 'ka', 'maksud'] HASIL DATA TRANSLATE
Sebelum Sesudah
3. Case Folding
Dalam tahapan case folding ini akan merubah The Indonesian National
huruf yang terdapat dalam data tweets menjadi huruf Police unloads illegal
kecil atau lowercase supaya lebih mudah dibaca polri bongkar investasi investments by selling the
oleh komputer. ilegal jual aplikasi robot evotrade trading robot
4. Filtering atau Remove Stopwords trading evotrade application
Dalam tahapan filtering akan mempergunakan
library NLTK dalam bahasa indonesia agar gabung juta guna investasi
memudahkan tahap penghilangan kalimat. Dalam join million to invest in
aset kripto cuan aplikasi
penelitian ini, peneliti juga menambahkan beberapa luno app crypto assets
luno
kata yang sering muncul pada data tweets seperti
“yg”, “tdk”, “utk” dan lainnya supaya dapat does to purpose invest
mengurangi terjadinya noise dan menjadikan data iyaa ka maksud invest cuddle investment
lebih bersih. cuddle aplikasi investasi application cuddle how to
5. Stemming cuddle gimana ka maksud purpose
Pada tahapan stemming ini akan menggunakan
library stemmer factory untuk memudahkan proses.
Tujuan penelitian menambahkan tahapan stemming D. Analisis Sentimen atau Pengklasifikasian
adalah agar dapat menjadikan kata dasar dari setiap Setelah tahap translate dilakukan pada data tweets
kata dalam data tweets dan menghapus kata yang sudah bersih, selanjutnya adalah tahap
imbuhan yang terdapat pada awalan, sisipan, atau pengklasifikasian. Pada penelitian ini, tahap
akhiran pada kata tweets. pengklasifikasian dilakukan dengan menggunakan
Tabel III berikut merupakan perbandingan metode Lexicon Based dan Naive Bayes Classifier.
sebelum dan sesudah data melewati tahap case 1. Lexicon Based
folding, filtering, dan stemming. Metode lexicon based ini mempergunakan kamus
atau leksikon sebagai pokok bahasa. Dasar penentuan

389
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

dalam penelitian ini, untuk mengklasifikasikan


sentimen dan score polarity adalah dengan
memanfaatkan library Vader Sentiment. Sentimen
dengan score polarity < 0 adalah sentimen negatif, does to purpose invest
score polarity = 0 adalah sentimen netral, dan score cuddle investment
polarity > 0 adalah sentimen positif. Tabel V Netral Netral
application cuddle how to
merupakan hasil dari sentimen dengan metode lexicon
purpos
based.

TABEL V
E. Visualisasi
HASIL SENTIMEN DENGAN LEXICON BASED
Setelah semua tahap telah dilakukan, selanjutnya
Tweet Score Sentimen adalah tahap visualisasi. Output dari tahap visualisasi
Polarity dalam penelitian ini berupa histogram dan wordcloud.
The Indonesian National Tampilan histogram akan menampilnya persentase dari
Police unloads illegal kelas polaritas masing-masing sedangkan wordcloud
investments by selling -0.5574 Negatif akan menampilkan gambar berupa kata yang sering
the evotrade trading muncul di setiap sentimen.
robot application Gbr. 6 merupakan perbandingan tampilan histogram
beserta nilai persentase tiap sentimen dari metode
join million to invest in lexicon based dan metode naive bayes classifier,
0.4404 Positif
luno app crypto assets sedangkan Gbr. 7, Gbr. 8, dan Gbr. 9 merupakan
tampilan wordcloud dari sentimen positif, netral, dan
does to purpose invest negatif perbandingan antara kedua metode.
cuddle investment
0.0 Netral
application cuddle how
to purpose

2. Naive Bayes Classifier


Proses klasifikasi dengan algoritma Naive Bayes
Classifier di sini yaitu untuk menetapkan sebuah
kalimat sebagai himpunan bersentimen positif, netral,
atau negatif berlandaskan nilai perhitungan probabilitas
dari rumus Bayes yang lebih besar. Jika hasil peluang GBR. 6 TAMPILAN HISTOGRAM DAN PERSENTASE SETIAP
kalimat tersebut untuk klasifikasi positif lebih besar SENTIMEN METODE LEXICON BASED DAN NAIVE BAYES
dari pada klasifikasi negatif, maka kalimat tersebut CLASSIFIER
termasuk ke dalam klasifikasi positif. Jika hasil peluang
kalimat tersebut untuk klasifikasi positif sama dengan
klasifikasi negatif maka termasuk kedalam klasifikasi
netral. Sedangkan peluang untuk klasifikasi positif
lebih kecil dari pada klasifikasi negatif, maka kalimat
tersebut termasuk ke dalam klasifikasi negatif [15].
Tabel VI berikut merupakan hasil sentimen dari metode
Naive Bayes Classifier.

TABEL VI
HASIL SENTIMEN DENGAN NAIVE BAYES CLASSIFIER GBR. 7 TAMPILAN WORDCLOUD DARI SENTIMEN POSITIF METODE
LEXICON BASED DAN NAIVE BAYES CLASSIFIER
Tweet Klasifikasi Klasifikasi
Naive Bayes
the indonesian national
police unloads illegal
investments by selling the Negatif Negatif
evotrade trading robot appl

join million to invest in Netral Netral


luno app crypto asset

390
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

GBR. 8 TAMPILAN WORDCLOUD DARI SENTIMEN NETRAL METODE oleh model. Pengujian dilakukan dengan cara
LEXICON BASED DAN NAIVE BAYES CLASSIFIER
manampilkan classification report yaitu menghitung
accuracy, precision, recall, f1-score, macro avg, dan
weighted avg. Tabel VIII merupakan hasil multiclass
confusion matrix dari metode lexicon based yang
merupakan hasil dari data opini yang telah dirubah
menjadi data numerik dan tabel IX merupakan hasil
classification report metode lexicon based. Sedangkan
tabel X merupakan hasil multiclass confusion matrix
dari metode naive bayes classifier yang merupakan
hasil dari data opini yang telah dirubah menjadi data
GBR. 9 TAMPILAN WORDCLOUD DARI SENTIMEN NEGATIF numerik dan tabel XI merupakan hasil classification
METODE LEXICON BASED DAN NAIVE BAYES CLASSIFIER report metode naive bayes classifier.
TABEL VIII

F. Performa Metrik HASIL MULTICLASS CONFUSION MATRIX LEXICON BASED


Pada tahapan pengujian performa metrik, pengujian
dilakukan dengan metode confusion matrix, dimana Klasifikasi TP FP FN
(True Positive) (False Positive) (False Negative)
peneliti akan membandingkan hasil klasifikasi yang Positif 70 24 15
dilakukan secara manual dengan hasil klasifikasi yang Netral 21 8 26
telah dihasilkan oleh model dengan metode Lexicon Negatif 9 15 6
Based dan Naive Bayes Classifier. Tabel VII TABEL IX
merupakan hasil klasifikasi yang dilakukan secara HASIL CLASSIFICATION REPORT METODE LEXICON BASED
manual yang akan dibandingkan dengan kedua metode.
Library sklearn digunakan untuk membantu proses Precision Recall F1-Score Support
dalam menampilkan classification report dari Positif 73% 82% 78% 84
perbandingan tersebut. Dalam membangun model Netral 72% 44% 55% 48
machine learning ini, peneliti menggunakan sebuah Negatif 38% 60% 46% 15
ukuran atau yang biasa disebut metric untuk
Micro avg 67% 67% 67% 147
mengetahui seberapa baik kinerja model yang telah
(accuracy)
dibuat. Precision, recall, f1-score, macro avg, dan
weighted avg digunakan untuk evaluasi metric dalam Macro avg 61% 62% 59% 147
model klasifikasi ini. Model klasifikasi tersebut Weighted 69% 67% 67% 147
digunakan karena dapat memperlihatkan bagaimana avg
model yang telah dibuat dapat mengambil suatu Berdasarkan hasil classification report metode lexicon
keputusan di dunia nyata. based, telah didapatkan nilai accuracy sebesar 67%, nilai
precision, recall, dan f1-score pada sentimen positif secara
TABEL VII berurutan adalah 73%, 82%, dan 78% dengan support 84,
HASIL KLASIFIKASI DENGAN LABELLING MANUAL sedangkan sentimen netral adalah dengan nilai sebesar
Tweet Klasifikasi 72%, 44%, dan 55% dengan support 48, dan untuk
sentimen negatif adalah dengan nilai sebesar 38%, 60%,
the indonesian national police
dan 46% dengan support 15. Dari data diatas maka
unloads illegal investments by
Negatif diperoleh micro average untuk precision 67%, recall 67%,
selling the evotrade trading robot f1-score 67%, dan support 147, kemudian untuk macro
appl average untuk precision 61%, recall 62%, f1-score 59%,
dan support 147, sedangkan weighted average untuk
join million to invest in luno app Netral
precision 69%, recall 67%, f1-score 67%, dan support 147.
crypto asset Dengan demikian, hal tersebut menunjukkan bahwa
analisis sentimen dengan menggunakan lexicon based
does to purpose invest cuddle mempunyai tingkat akurasi kinerja yang cukup tinggi
investment application cuddle how Netral
karena memiliki nilai akurasi diatas 50%.
to purpos

Pengujian hasil akurasi pada penelitian ini


dilakukan dengan cara membandingkan klasifikasi
secara aktual dengan hasil klasifikasi yang dihasilkan

391
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

menggunakan metode selain lexicon based dan naive bayes


TABEL X classifier serta menggunakan metode selain yang
HASIL MULTICLASS CONFUSION MATRIX NAIVE BAYES CLASSIFIER digunakan dalam perhitungan kinerja model. Selain itu

TABEL XI Klasifikasi TP FP FN
(True Positive) (False Positive) (False Negative)
HASIL CLASSIFICATION REPORT METODE NAIVE BAYES Positif 71 11 13
CLASSIFIER Netral 41 18 7
Negatif 6 0 9

Precision Recall F1-Score Support


Sedangkan berdasarkan hasil classification report
Positif 88% 82% 85% 84
metode naive bayes classifier, telah didapatkan nilai
Netral 65% 88% 74% 48
accuracy sebesar 78%, nilai precision, recall, dan f1-
score pada sentimen positif secara berurutan adalah Negatif 100% 27% 42% 15
88%, 82%, dan 85% dengan support 84, sedangkan Micro avg 78% 78% 78% 147
sentimen netral adalah dengan nilai sebesar 65%, 88%, (accuracy)
dan 74% dengan support 48, dan untuk sentimen Macro avg 84% 65% 67% 147
negatif adalah dengan nilai sebesar 100%, 27%, dan
Weighted 82% 78% 77% 147
42% dengan support 15. Dari data diatas maka avg
diperoleh micro average untuk precision 78%, recall untuk pengembangan lebih lanjut dapat diimplementasikan
78%, f1-score 78%, dan support 147, kemudian untuk dalam bentuk sistem, baik berupa web atau aplikasi yang
macro average untuk precision 84%, recall 65%, f1- dapat dengan lebih mudah untuk dipahami dan digunakan
score 67%, dan support 147, sedangkan weighted oleh masyarakat umum.
average untuk precision 82%, recall 78%, f1-score
77%, dan support 147.

IV. KESIMPULAN
UCAPAN TERIMA KASIH
Penelitian ini merupakan analisis sentimen
Puji syukur penulis panjatkan kepada Allah SWT. atas
mengenai pendapat masyarakat terhadap aplikasi
rahmat, ridho, serta hidayahNya sehingga penulis dapat
investasi melalui media sosial twitter dengan metode
menyelesaikan penelitian ini dengan hasil yang InsyaAllah
lexicon based dan naive bayes classifier. Data crawling
penuh barokah ini dan bermanfaat untuk setiap kalangan.
dari media sosial twitter disimpan dan selanjutnya akan
Kedua kalinya sholawat dan salam tercurahkan kepada
diklasifikasikan menjadi tiga polaritas, yaitu positif,
Nabi besar Muhammad SAW. yang telah menuntun penulis
netral, dan negatif. Dari total 698 data tweets yang
agar bisa menjadi manusia yang lebih baik, InsyaAllah.
diperoleh, setelah melakukan penghilangan atau
penghapusan terhadap tweets dan melalui tahapan Penulis juga berterimakasih kepada semua pihak yang
preprocessing, translate, dan selanjutnya masuk pada telah memberikan dukungan terbaiknya kepada penulis
metode lexicon based atau naive bayes classifier maka sehingga penulis dapat menyelesaikan tugas yang
didapatkan total keseluruhan data tersebut adalah 147 seharusnya diselesaikan. Kepada keluarga terutama kedua
data tweets. Hasil akurasi kinerja dari metode lexicon orangtua penulis, penulis ucapkan terimakasih sebanyak-
based adalah sebesar 67% dengan polaritas positif banyaknya karena dengan adanya mereka penulis dapat
merupakan persentese tertinggi dari proses klasifikasi merasakan indahnya dunia perkuliahan beserta suka duka
sebesar 64,63%. Sedangkan hasil akurasi kinerja metode sebagai pembelajaran hidup. Selain itu terimakasih juga
naive bayes classifier sebesar 78% dengan polaritas atas waktu yang mereka relakan demi menghidupi anak-
positif merupakan persentase tertinggi dalam anaknya sehingga menjadi anak yang InsyaAllah
pengklasifikasian sebesar 53,74%. Dari hasil penelitian, bermanfaat di dunia dan akhirat kelak, Aamiin.
perbandingan antara hasil akurasi klasifikasi yang Untuk orang disekitar termasuk dosen pembimbing,
dilakukan antara metode lexicon based dan naive bayes dosen penguji, dan teman-teman penulis, terimakasih, telah
classifier adalah 67% dan 78%. Dengan akurasi yang menjadi yang terbaik.
berbeda, menunjukkan bahwa analisis sentimen dengan
metode naive bayes classifier memiliki akurasi yang
REFERENSI
lebih tinggi dari pada metode lexicon based.
[1] H. Manuel “PengaruhiKemudahan,iKeamanan,iKepercayaanidan
KualitasiInformasiiPadaiAplikasi Investasi Online Terhadap
V. SARAN Minat InvestasiiSaham,”J. Ilmiah Mahasiswa FEB, Vol. 7, No. 2,
2019.
Pada penelitian selanjutnya disarankan untuk [2] Sawidji. (2008). ProfessionaliiInvesting. Jakarta: Elex Media
mengggunakan data yang lebih banyak lagi serta Komputindo.

392
JINACS: Volume 03 Nomor 03, 2022
(Journal of Informatics and Computer Science) ISSN : 2686-2220

[3] G. R. Siri, And D. Meirini, “PengaruhiModal Investasi,iTeknologi


yang Memadai, dan Motivasi TerhadapiiMinatiiMahasiswa
Berinvestasi Di Pasar Modal,” J. Penelit. Mahasiswa Ilmu Sos.,
Eko., dan Bis. Islam., Vol. 1, Isu 1, 2021.
[4] M. A. F. Habib, “Kajian TeoritisiPemberdayaaniiMasyarakat dan
Ekonomi Kreatif,” J. of IslamiciTourism, HalaliiFood,
IslamiciiTraveling, andiiCreative Economy, Vol. 1, No. 2, 2021.
[5] P. A.iiSumitro, Rasiban, D. I. Mulyana,iiAnd W. Saputro,
“Sentimen TerhadapiiVaksin Covid-19 di Indonesia padaiTwitter
Menggunakan Metode LexiconiiBased,” J.iiInformatika
daniiteknologi Komputer., Vol. 2, No. 2, Pp. 50-56, 2021.
[6] N. RochmawatiiiAnd S. C. Wibawa, “OpinioniiAnalysis On
RohingyaiiUsing TwitteriiData,” In Iop ConferenceiiSeries:
MaterialsiiScience And Engineering,ii2018, Vol. 336, No.ii1, P.
012013.
[7] B. Gunawan, H. Sastypratiwi,iiAnd E. E. Pratama,
“SistemiiAnalisisiiSentimeniiPada UlasaniiProdukiiMenggunakan
Metode NaiveiiBayes,” Jepin J. EdukasiiiDan Penelit. Inform.,
Vol.ii4, No. 2, Pp. 113–118, 2018.
[8] F. Ratnawati, "ImplementasiiiAlgoritmaiiNaive BayesiiTerhadap
Analisis SentimeniiOpini FilmiiPada Twitter", Inovtek Polbeng-
Seri Inform., Vol.ii3, No. 1, Pp. 50-59, 2018.
[9] M. N. Edit, “AnalisisiiSentimen Twitter Bertema Pembelajaran
Tatap Muka (PTM) TerbatasiiMenggunakan Metode Lexicon
Based,”, 2021.
[10] M. Taboada, J.iiBrooke, M. Tofiloski, K. Voli, And M. Stede,
“Lexicon-Based Methodsifor Sentiment Analysis,” Computational
Linguistics, Vol.ii37, No.i2, Pp. 267-307, 2011.
[11] N. S. Fathullah, Y. A.iSari, And P. P. Adikara, “Analisis Sentimen
TerhadapiiRating dan Ulasan Film dengan menggunakaniMetode
Klasifikasi Naive Bayes dengan FituriiLexicon-Based,” J.
Pengemb. Teknol. Inf. dan Ilmu Komputer, Vol. 4, No. 2, Pp. 590-
593, 2020.
[12] N. Anggraini, And H. Suroyo, “ComparisoniiofiiiSentiment
Analysisiiagainst DigitaliiPayment ‘T-cashiiiand Go-Pay’iiin
SocialiiMedia UsingiiOrangeiData Mining,” J. Of Information
Systems and Informatics, Vol. 1, No. 2, Pp. 152-153, 2019.
[13] B. Y. Melani, S. R. Wardhana, And D.iPuspita, “AnalisaiKulitas
Fitur Aplikasi MobileiiDengan MenggunakaniiPendekatan
Sentimen Grey,” Semin.iNas. Sainsidan Teknol.iTerap., Vol.iVII,
2019.
[14] P. P. E. Indarbensyah, And N. Rochmawati, “PenerapaniN-Gram
menggunakan AlgoritmaiRandom ForestidaniNaive Bayes
Classifieripada Analisis SentimeniKebijakan PPKM 2021,” J. of
Informatics and Computer Science, Vol. 2, No. 4, 2021.
[15] D. A.iMuthia, “Analisis SentimeniPada Review
BukuiMenggunakaniAlgoritma Naive Bayes,” J. Paradigma, Vol.
16, No. 1, 2014.

393

Anda mungkin juga menyukai