Naskah TA 5170411152 Andhika Pratama
Naskah TA 5170411152 Andhika Pratama
HALAMAN JUDUL
LAPORAN TUGAS AKHIR
ANDHIKA PRATAMA
5170411152
ii
LEMBAR PERNYATAAN
iii
KATA PENGANTAR
iv
Akhir kata, penulis menyadari bahwa sepenuhnya akan terbatasnya
pengetahuan penyusun sehingga tidak menutup kemungkinan jika ada kesalahan
serta kekurangan dalam penyusunan Tugas Akhir, untuk itu sumbang saran dari
pembaca sangat diharapkan sebagai bahan pelajaran berharga di masa yang akan
datang.
Yogyakarta, 20 April 2021
Penulis
v
ABSTRAK
Instagram merupakan media sosial yang cukup populer saat ini. Pengguna yang
dimulai dari anak-anak, remaja hingga orang dewasa turut mendongkrak
popularitas instagram. Dalam suatu postingan instagram, semua orang dapat
dengan bebas menulis komentar. Tidak jarang pengguna instagram berkomentar
dengan kata-kata kasar bahkan tidak segan mengeluarkan ujaran kebencian.
Begitu pula pada akun instagram Presiden Republik Indonesia yaitu Bapak Joko
Widodo dengan nama akun @jokowi biasanya kritikan, pujian, hinaan warganet
tertuang dalam kolom komentar yang ada pada setiap postingannya. Media sosial
dapat dimanfaatkan untuk menganalisis sentimen dari komentar pengguna
instagram sehingga dapat menggambarkan seberapa puas masyarakat terhadap
kinerja pak Jokowi. Analisis sentimen merupakan suatu cabang ilmu dari text
mining yang digunakan untuk mengekstrak, memahami, dan mengolah data teks.
Dalam penelitian ini analisis sentimen berupa proses klasifikasi dokumen tekstual
ke dalam dua kelas, yaitu kelas sentimen negatif dan positif. Untuk mengetahui
klasifikasi setiap sentimen pada komentar digunakan metode Naïve Bayes
Classifier. Dari penelitian yang telah dilakukan, peneliti telah berhasil membuat
sistem analisis sentimen dengan hasil rata – rata akurasi sebesar 83%, precission
sebesar 90,25% dan recall sebesar 74,49% dari 750 data latih dan 250 data uji.
vi
ABSTRACT
Instagram is a social media that is quite popular nowadays. Users ranging from
children, teenagers to adults also boosted the popularity of Instagram. In an
instagram post, everyone can freely write a comment. Not infrequently instagram
users comment with harsh words do not even hesitate to issue hate speech.
Similarly, on the instagram account of the President of the Republic of Indonesia,
Mr. Joko Widodo with the account name @jokowi usually criticism, praise,
insults warganet contained in the comments column on each post. Social media
can be used to analyze the sentiment of instagram user comments so as to
describe how satisfied the public is with mr. Jokowi's performance. Sentiment
analysis is a branch of text mining science used to extract, understand, and
process text data. In this study sentiment analysis in the form of textual document
classification process into two classes, namely negative and positive sentiment
classes. To know the classification of each sentiment on the comment used naïve
bayes classifier method. From the research that has been done, researchers have
managed to create a sentiment analysis system with average results - average
accuracy of 83%, precission of 90.25% and recall of 74.49% of 750 training data
and 250 test data.
vii
DAFTAR ISI
DAFTAR ISI
HALAMAN JUDUL.............................................................................................1i
HALAMAN PENGESAHAN................................................................................ii
LEMBAR PERNYATAAN..................................................................................iii
KATA PENGANTAR...........................................................................................iv
ABSTRAK.............................................................................................................vi
ABSTRACT...........................................................................................................vii
DAFTAR ISI.......................................................................................................viii
DAFTAR GAMBAR..............................................................................................x
DAFTAR TABEL................................................................................................xii
BAB I Pendahuluan...............................................................................................1
1.1 Latar Belakang...................................................................................................1
1.2 Rumusan Masalah..............................................................................................2
1.3 Batasan Masalah................................................................................................2
1.4 Tujuan penelitian................................................................................................2
1.5 Manfaat Penelitian.............................................................................................3
1.6 Sistematika Penulisan........................................................................................3
viii
ix
BAB VI PENUTUP..............................................................................................76
6.1 Simpulan..........................................................................................................76
6.2 Saran.................................................................................................................76
DAFTAR PUSTAKA...........................................................................................77
LAMPIRAN..........................................................................................................80
DAFTAR GAMBAR
x
xi
xii
BAB I
PENDAHULUAN
1
2
BAB I PENDAHULUAN
Bab ini akan berisi mengenai latar belakang, perumusan masalah,
tujuam, dan manfaat penelitian yang menjadi pendahuluan dalam
pengerjaan Tugas Akhir mengenai pembuatan aplikasi Analisis
Sentimen Komentar Pada Postingan Akun Instagram Jokowi
dengan Metode Naive Bayes Classifier.
atau data yang diperoleh dari lapangan, aturan bisnis dan tahapan
penelitian dari pembuatan aplikasi Analisis Sentimen Komentar
Pada Postingan Akun Instagram Jokowi dengan Metode Naive
Bayes Classifier.
BAB VI PENUTUP
Bab ini berisi simpulan dari penelitian yang telah dilakukan dan
saran mengenai kekurangan yang harus diperbaiki ke depannya.
BAB II
KAJIAN HASIL PENELITIAN DAN LANDASAN TEORI
5
6
sentimen positif dan negatif, sehingga informasi yang terdapat di dalamnya bisa
diekstraksi serta dari data yang diamati dapat memberikan informasi yang berguna
bagi pihak yang membutuhkannya. Metode yang digunakan adalah Naïve Bayes
Classifier. Hasil dari penelitian berdasarkan data yang telah dikumpulkan sejak
tanggal 17 April 2019 sampai 22 Mei 2019, Joko Widodo lebih unggul sentimen
positif dari data sebanyak 5.000 komentar yang dipilih secara acak pada masing-
masing calon presiden dan melalui tahap preprocessing yang menghasilkan
polaritas sentimen. Joko Widodo diperoleh 85% sentimen positif, dan 15% untuk
sentimen negatif. Sedangkan Prabowo Subianto diperoleh 76% sentimen positif,
dan 24% untuk sentimen negatif. Tingkat akurasi yang dihasilkan adalah sebesar
86,4%.
Penelitian oleh Rofiqoh, U. dkk., (2017), dengan judul Analisis Sentimen
Tingkat Kepuasan Pengguna Penyedia Layanan Telekomunikasi Seluler Indonesia
Pada Twitter Dengan Metode Support Vector Machine dan Lexicon Based
Features bertujuan untuk mengetahui sentimen opini masyarakat tentang penyedia
layanan telekomunikasi seluler menggunakan Algoritma SVM dan Lexicon Based
Feature. Data yang digunakan sebanyak 300 data, 70% untuk data latih dan 30%
untuk data uji. Hasil dari pengujian menggunakan SVM + Lexicon mendapat
akurasi sebesar 79%, sedangkan jika hanya menggunakan SVM tanpa Lexicon
bisa mencapai 84% dengan parameter yang sama.
Penelitian oleh Sipayung, E. M. dkk., (2016), dengan judul Perancangan
Sistem Analisis Sentimen Komentar Pelanggan Menggunakan Metode Naive
Bayes Classifier bertujuan untuk mengetahui sentimen pada komentar yang
diberikan pelanggan terhadap produk dan layanan hotel XYZ dikarenakan
banyaknya komentar yang ada, pertahun mencapai 675 komentar. Algoritma
yang digunakan adalah Naïve Bayes. Data yang digunakan 175 komentar, 155
komentar positif dan 20 komentar negatif. Hasil akurasi yang didapatkan dalam
penentuan kategori adalah sebesar 77.14% dan 75.42% dalam penentuan sentimen
memiliki tingkat precision 99.12% dan recall 72.9%.
Penelitian oleh Luqyana, W. A. dkk., (2018), dengan judul Analisis
Sentimen Cyberbullying pada Komentar Instagram dengan Metode Klasifikasi
7
Tabel 2. 1 (Lanjutan)
No Judul Penulis Metode Hasil/ Kesimpulan
3 Analisis Sentimen Eko Budi Naïve Hasil dari penelitian
Calon Presiden Santoso, Aryo Bayes berdasarkan data
Indonesia 2019 Nugroho Classifie yang telah
Berdasarkan r (NBC) dikumpulkan sejak
Komentar Publik sebanyak 5.000
di Facebook komentar yang
dipilih secara acak
pada masing-masing
calon presiden dan
melalui tahap
preprocessing yang
menghasilkan
polaritas sentimen.
Joko Widodo
diperoleh 85%
sentimen positif, dan
15% untuk sentimen
negatif. Sedangkan
Prabowo Subianto
diperoleh 76%
sentimen positif, dan
24% untuk sentimen
negatif. Tingkat
akurasi yang
dihasilkan adalah
sebesar 86,4%.
4 Analisis Sentimen Umi Rofiqoh, Support Pada penelitian
Tingkat Kepuasan Rizal Setya Vector analisis sentimen
Pengguna Perdana, M. Machine terhadap tingkat
Penyedia Layanan Ali Fauzi (SVM). kepuasan pengguna
Telekomunikasi penyedia layanan
Seluler Indonesia telekomunikasi
Pada Twitter seluler pada Twitter
Dengan Metode dengan metode
Support Vector Support Vector
Machine dan Machine dan Lexicon
Lexicon Based Based Features
Features menghasilkan nilai
accuracy sebesar
79%, precision
sebesar 65%, recall
sebesar 97%, dan f-
measure sebesar
78%.
11
Tabel 2. 1 (Lanjutan)
No Judul Penulis Metode Hasil/ Kesimpulan
5 Perancangan Evasaria M. Naïve Data yang digunakan
Sistem Analisis Sipayung, Bayes 175 komentar, 155
Sentimen Herastia Classifie komentar positif dan
Komentar Maharani, r (NBC) 20 komentar negatif.
Pelanggan Ivan Zefanya Hasil akurasi yang
Menggunakan didapatkan dalam
Metode Naive penentuan kategori
Bayes Classifier adalah sebesar
77.14% dan 75.42%
dalam penentuan
sentimen memiliki
tingkat precision
99.12% dan recall
72.9%.
Tabel 2. 1 (Lanjutan)
No Judul Penulis Metode Hasil/ Kesimpulan
7 Sistem Analisis Billy Gunawan, Naïve Hasil pengujian
Sentimen pada Helen Sasty Bayes menunjukkan pada
Ulasan Produk Pratiwi, Enda Classifi pengujian 3 kelas
Menggunakan Esyudha er (negatif, netral dan
Metode Naive Pratama (NBC) positif) hasil terbaik
Bayes didapatkan pada 90%
data latih dan 10%
data uji dengan nilai
akurasi 79.78%,
recall 93.33% dan
precision 77.78% dan
pada pengujian 5
kelas hasil terbaik
didapatkan pada 90%
data latih dan 10%
data uji dengan nilai
akurasi 59.33 %,
recall 58.33 % dan
precision 59.33 %.
8 Sentimen Analisis Ahmad Fauzi, Naïve Pengujian model
Berinternet Pada Muhammad Bayes dengan menggunakan
Media Sosial Faittullah Classifi Naive Bayes (NB)
dengan Akbar, Yudhi er dengan menggunakan
Menggunakan Ferdi Andri (NBC) data review analisis
Algoritma Bayes Asmawan sentimen Etika
berinternet dimedia
social dari 200 data
review dalam teks
bahasa indonesia
yang terdiri dari 100
review positif dan
100 review negatif.
Model yang
dihasilkan
mendapatkan hasil
accuracy pengujian
pertama dilakukan
dengan menggunakan
Naive Bayes(NB)
yaitu mendapatkan
nilai accuracy
76.50%+/-
7.76(mikro: 76.50%).
13
Tabel 2. 1 (Lanjutan)
No Judul Penulis Metode Hasil/ Kesimpulan
9 Perbandingan Sigit Naïve Pengujian yang
Metode Kurniawan, Bayes dilakukan dengan
Klasifikasi Windu Gata, (NBC), kedua metode
Analisis Sentimen Dewi Ayu Support mendapatkan hasil
Tokoh Politik Puspitawati, Vector bahwa, Support
Pada Komentar Nurmalasari, Machin Vector Machine
Media Berita Muhamad e (SVM) berbasisi Particle
Online Tabrani, Swarm Optimization
Kadinar Novel adalah metode
terbaik dengan
akurasi 78.40% dan
AUC 0.850.
Penelitian ini
mendapatkan
algoritma yang
efektif dalam
mengklasifikasikan
komentar positif dan
negatif terkait dengan
tokoh-tokoh politik
dari media berita
10 Analisis Sentimen Shima Fanissa, Naïve online.
Pengujian pada
Pariwisata di Kota M. Ali Fauzi, Bayes penelitian ini
Malang Sigit (NBC) Menggunakan
Menggunakan Adinugroho pengujian seleksi
Metode Naive fitur dengan
Bayes dan Seleksi mengganti rasio
Fitur Query seleksi fitur antara 0-
Expansion 100 menggunakan
Ranking jumlah data latih dan
data uji
pada setiap pengujian
yang sama, yaitu 200
data latih dan data uji
sejumlah 30
dokumen. Hasil
seleksi fitur 75%
memiliki akurasi
terbaik sebesar
86.6%.
14
Terlihat pada tabel 2.1 perbedaan dari referensi dengan judul yang
diangkat oleh penulis terletak pada metode yang digunakan, yaitu dengan
penggunaan metode Naïve Bayes Classiffier (NBC) atau Support Vector Machine
(SVM). Dari hasil analisa referensi, peneliti mendapatkan kesimpulan yaitu
metode Naïve Bayes Classifier lebih cocok untuk kasus sentimen analisis pada
komentar masyarakat untuk mendukung perhitungan dan tingkat akurasi,
sehingga hasil analisis sentiment yang dilakukan dapat dipertanggung jawabkan.
15
II.2.2 Pre-Processing
Preprocessing merupakan salah satu tahapan menghilangkan
permasalahan-permasalahan yang dapat mengganggu hasil daripada proses
pengolahan data. Dalam kasus klasifikasi dokumen yang menggunakan data
bertipe teks, terdapat beberapa macam proses yang dilakukan umumnya
diantaranya case folding, stemming, stopword removal, Uniq character removing
dan tokenizing.
Menurut Salam, A. dkk., (2018), preprocessing dilakukan pada komentar
terlebih dahulu, karena tidak semua atribut yang terdapat pada kolom komentar
dapat digunakan untuk menganalisis masalah. Didalam preprocessing terdapat
beberapa tahap, yaitu :
a. Case Folding
Proses untuk mengubah semua huruf besar (uppercase) tehadap komentar
menjadi huruf kecil (lowercase).
b. Stemming
Tahap ini melakukan proses mengubah kata yang berimbuh infix maupun
suffix menjadi sebuah kata dasar yang akan lebih mengandung sebuah makna
untuk peroleh suatu informasi sehingga komentar akan menjadi lebih spesifik
dalam pengkategorian.
c. Stopword Removal
16
Pada tahap ini akan dilakukan pengecekan disetiap kata pada komentar,
selanjutnya proses menghilangkan kata-kata yang dianggap tidak penting,
semisal terdapat kata sambung, kata depan, kata ganti maka akan dihapus.
Selain itu pada tahap ini juga dilakukan penghapusan uniqu character,
biasanya berupa emoji atau serangkaian karakter yang mendefinisikan sebuah
pola.
d. Tokenizing
Pada tahap ini dilakukan pengecekan karakter pertama sampai karakter
terakhir, apabila karakter ke-I bukan karakter pemisah kata seperti titik(.),
koma(,), spasi dan tanda pemisah lainnya, maka akan digabungkan dengan
karakter selanjutnya.
II.2.3 TF-IDF
TF-IDF adalah suatu metode yang bisa digunakan untuk pembobotan kata.
Menurut Rahman, A. dkk., (2017), Term Weighting atau pembobotan kata
bertujuan untuk memberikan bobot nilai pada setiap kata. Perhitungan bobot ini
memerlukan dua hal yaitu Term Frequency (TF) dan Inverse Document
Frequency (IDF). Term Frequency merupakan banyaknya jumlah kata atau term
tertentu yang ada dalam suatu dokumen. Sementara Inverse Document Frequency
adalah frekuensi kemunculan kata atau term pada seluruh dokumen. Sebelum
menghitung bobot TF-IDF terlebih dahulu menghitung bobot IDF. Rumus
perhitungan Inverse Document Frequency (IDF) dapat dilihat pada persamaan (1).
d
IDF t =log ( ) ................................................................
df t
Keterangan dari formula (1) tersebut adalah :
𝐼𝐷𝐹𝑡 = Bobot IDF ke t dokumen d.
𝑑𝑓𝑡 = Jumlah dokumen yang mengandung term t.
d = Jumlah dokumen keseluruhan.
17
Setelah itu barulah menghitung bobot Term Frequency dan Inverse Document
Frequency (TF-IDF) dengan rumus seperti pada persamaan (2).
W dt =tf t x IDFt .................................................................................
Keterangan dari formula (2) tersebut adalah :
𝑊𝑑𝑡 = Bobot term ke t dokumen d
𝑡𝑓𝑡 = Jumlah kemunculan term t pada dokumen t.
𝐼𝐷𝐹𝑡 = Bobot IDF yang telah dihitung sebelumnya.
II.2.5 PHP
Menurut Anhar, (2010), PHP adalah bahasa pemrograman web server-side
yang bersifat open source, PHP juga merupakan script yeng terintegrasi dengan
HTML dan berada pada server (server side HTML embedded script). PHP juga
merupakan script yang digunakan untuk membuat halaman website yang sangat
dinamis, dinamis berarti halaman tampilan yang akan ditampilkan dibuat saat
halaman itu diminta oleh client. PHP pertama kali dibuat oleh Rasmus Lerdorf
seorang pemrogram C yang handal dari greenland Denmrak di tahun 1995, PHP
diberi nama FI (Form Interpreted) yang digunakan untuk mengelola from dari
19
3. Proses
4. Data store
21
22
3. Kemudian tempelkan link yang telah disalin dari akun instagram tersebut ke
website https://www.exportcomments.com seperti gambar 3.3 dibawah ini.
c. Pengumpulan Data
Proses pengumpulan data adalah proses yang dilakukan untuk
mengumpulkan data yang akan digunakan sebagai data latih dan data uji. Hal ini
dilakukan dengan mengambil data komentar dari instagram terutama pada
postingan yang akan dianalisis. Pengambilan data dilakukan meng-export
komentar yang ada pada postingan tersebut melalui situs
https://exportcomments.com/.
d. Perancangan Sistem
Pada perancangan beberapa perancangan utama dibuat, seperti rancangan
alur sistem, rancangan basis data, maupun rancangan antarmuka pengguna.
Perancangan dataset yang dibuat adalah menggunakan 1000 data teks berupa
komentar. Data training yang digunakan adalah 75% dari total data yang
digunakan, sedangkan untuk data test menggunakan 25% dari data yang
digunakan. Untuk perancangan interface dilakukan agar pengguna dapat
menentukan sentimen yang di inputkan pada form input komentar.
e. Implementasi
Dalam sistem ujian yang akan dibangun, sistem dibangun menggunakan
menggunakan framework Codeigniter3 dan bahasa pemrograman PHP.
Pengimplementasian antarmuka menggunakan HTML dan Bootstrap. Tools yang
digunakan untuk melakukan pengkodean adalah aplikasi Visual Studio Code.
Penyimpanan data untuk sistem ujian disimpan dalam basis data MySQL sehingga
pengguna dapat melihat data hasil sentimen yang telah disimpan.
f. Pengujian
Sistem yang telah selesai dibangun kemudian dilakukan pengujian untuk
mengetahui apakah sistem telah berjalan seperti yang diharapkan dan untuk
mengetahui kekurangan sistem. Metode yang digunakan untuk melakukan
pengujian akurasi adalah kombinasi confusion matrix dan cross validation untuk
mengukur akurasi dari sistem. Data terdiri dari 75% data latih dan 25% data uji
dari total dataset yang digunakan yaitu 1000 baris data.
BAB IV
ANALISIS DAN DESAIN SISTEM
27
28
4. Proses klasifikasi yang diproses oleh metode Naïve Bayes Classifier, yaitu
proses untuk mengklasifikasikan sentimen data komentar.
dirancang dapat diakses oleh admin dan masyarakat. Admin bertugas untuk
menginputkan dan mengupdate dataset dari excel menuju ke sebuah basis data.
Selain itu admin juga dapat melihat hasil perhitungan dari pre – processing dan
akurasi sistem. Masyarakat hanya dapat melihat hasil dari sistem sentimen
analisis. Arsitektur sistem dapat dilihat pada gambar 4.1.
30
Remove number
and unique char
Gambar 4. 7 Lanjutan
37
Gambar 4. 8 Lanjutan
39
Rancangan ERD pada gambar 4.9 di atas tidak memiliki relasi karena sistem yang
dirancang hanya memerlukan entitas untuk penyimpanan data saja.
40
Rancangan basis data pada gambar 4.14 diatas tidak memiliki relasi karena sistem
yang dirancang hanya memerlukan tabel untuk menyimpan data.
41
b. Tabel dataset_test
Nama Tabel : dataset_test
Primary Key : -
Foreign Key : -
Adapun struktur tabel dataset_test dapat dilihat pada Tabel 4.2.
Tabel 4. 2 Tabel dataset_test
No Nama Field Tipe Data Key Keterangan
1 username Varchar(20) Tidak Menyimpan username
2 komentar Text Tidak Menyimpan komentar
3 sentimen Varchar(20) Tidak Menyimpan sentimen
42
c. Tabel dataset_train
Nama Tabel : dataset_train
Primary Key : -
Foreign Key : -
Adapun struktur tabel dataset_train dapat dilihat pada Tabel 4.3.
Tabel 4. 3 Tabel dataset_train
No Nama Field Tipe Data Key Keterangan
1 username Varchar(20) Tidak Menyimpan username
2 komentar Text Tidak Menyimpan komentar
3 sentimen Varchar(20) Tidak Menyimpan sentimen
d. Tabel value_idf_tfidf
Nama Tabel : value_idf_tfidf
Primary Key : -
Foreign Key : -
Adapun struktur tabel value_idf_tfidf dapat dilihat pada Tabel 4.4.
Tabel 4. 4 Tabel value_idf_tfidf
No Nama Field Tipe Data Key Keterangan
1 sum_idf Float Tidak Menyimpan total idf
Menyimpan total tfidf
2 tfidf_pos Float Tidak
kata positif
Menyimpan total tfidf
3 tfidf_neg Float Tidak
kata negatif
43
e. Tabel data_tfidf
Nama Tabel : data_tfidf
Adapun struktur tabel data_tfidf dapat dilihat pada Tabel 4.5.
Tabel 4. 5 Tabel data_tfidf
No Nama Field Tipe Data Key Keterangan
1 word Text Tidak Menyimpan kata
2 tf Int(11) Tidak Menyimpan nilai tf
Menyimpan tfidf dari
3 tfidf Float Tidak
setiap kata
4 sentimen Varchar(20) Tidak Menyimpan sentimen
f. Tabel value_accuracy
Nama Tabel : value_accuracy
Adapun struktur tabel value_accuracy dapat dilihat pada Tabel 4.6.
Tabel 4. 6 Tabel value_accuracy
No Nama Field Tipe Data Key Keterangan
1 accuracy Double Tidak Menyimpan akurasi
2 positive Double Tidak Menyimpan total positif
3 negative Double Tidak Menyimpan total negatif
g. dataset_full
Nama Tabel : dataset_full
Adapun struktur tabel dataset_full dapat dilihat pada Tabel 4.7.
Tabel 4. 7 Tabel dataset_full
No Nama Field Tipe Data Key Keterangan
1 username Varchar(20) Tidak Menyimpan username
2 komentar Text Tidak Menyimpan komentar
3 sentimen Varchar(20) Tidak Menyimpan sentimen
44
Dataset Full
Dataset Full
V.1 Implementasi
Pada penelitian ini implementasi dijabarkan menjadi 2 bagian, yaitu
implementasi hardware dan software dan implementasi script inti sistem.
V.1.1 Implementasi Hardware dan Software
a. Perangkat Keras (Hardware) yang Digunakan
Perangkat keras yang digunakan untuk mengoperasikan sistem yang akan
dibuat dapat adalah :
Notebook ASUS A456UR.
Processor Intel Core i5-6200 CPU 2.40GHz.
Mouse Logitech M330.
RAM 8GB.
Monitor BenQ Resolusi 1920 x 1080.
Hardisk 1TB, SSD 240GB.
48
49
V.2 Hasil
V.2.1 Hasil Uji Coba
Hasil uji coba berisi tentang hasil dari implementasi sistem yaitu tampilan
halaman, training dataset dengan jumlah 750 baris data, testing dataset
menggunakan metode confusion matrix dengan jumlah 250 baris data dan testing
dataset dengan kombinasi cross validation dan confusion matrix dengan jumlah
1000 baris data.
5.2.1.1 Hasil Tampilan Halaman Admin
a. Halaman Login
Halaman login adalah hasil dari implementasi di dalam script inti sistem
yang dapat dilihat pada gambar 5.20.
b. Halaman Dashboard
Halaman dashboard adalah hasil dari implementasi di dalam script inti
sistem yang dapat dilihat pada gambar 5.21.
d. Klasifikasi Kata unik kelas positif diambil dari kamus data yang kemudian
dilakukan pengecekan apakah kata ada di dataset setelah hasil pre-processing
dengan label positif. Jika kata tersebut tersedia, maka kata tersebut akan
dimasukkan kedalam daftar kata positif. Lalu melakukan perhitungan tf-idf dengan
rumus tf dikali dengan idf. Kata unik positif dan tf-idf dapat dilihat pada tabel 5.4.
Tabel 5. 4 Tabel Klasifikasi Kata Unik Positif dan tf-idf
No Kata tf idf tf-idf = tf x idf tf-idf
1 haru 1 0,602059991 1 x 0,602059991 0,60206
2 moga 1 0,602059991 1 x 0,602059991 0,60206
3 berkah 1 0,602059991 1 x 0,602059991 0,60206
4 pak 1 0,602059991 1 x 0,602059991 0,60206
5 papua 1 0,602059991 1 x 0,602059991 0,60206
6 perlu 1 0,602059991 1 x 0,602059991 0,60206
7 orang 1 0,602059991 1 x 0,602059991 0,60206
8 kaya 1 0,602059991 1 x 0,602059991 0,60206
9 jokowi 1 0,602059991 1 x 0,602059991 0,60206
Total tf-idf (positif) = 5,41853992
e. Klasifikasi kata unik kelas negatif dan bobot tf-idf. Perhitungan sama seperti
mencari dengan mencari kata yang berlabel negatif. Kata unik positif dan tf-idf
dapat dilihat pada tabel 5.5.
Tabel 5. 5 Tabel Klasifikasi Kata Unik Negatif dan tf-idf
No Kata tf idf tf-idf = tf x idf tf-idf
1 heran 1 0,602059991 1 x 0,602059991 0,60206
2 deh 1 0,602059991 1 x 0,602059991 0,60206
3 suka 2 0,301029996 2 x 0,301029995 0,60206
4 tolol 2 0,301029996 2 x 0,301029995 0,60206
5 gak 1 0,602059991 1 x 0,602059991 0,60206
6 tau 1 0,602059991 1 x 0,602059991 0,60206
7 emang 1 0,602059991 1 x 0,602059991 0,60206
Total tf-idf (negatif) = 4,21442
Setelah melakukan perhitungan training dataset, maka diperoleh nilai nilai yang
akan digunakan untuk perhitungan uji komentar, diantaranya adalah nilai total idf,
total tf-idf positif dan total tf-idf negatif.
72
P(bikin|positif) = ( 5.41854+8.72987
0+1
) = 0,070679320
= (
5.41854+8.72987 )
0,60206+1
P(haru|positif) = 0,113232511
= (
5.41854+8.72987 )
0,60206+1
P(pak|positif) = 0,113232511
= (
5.41854+8.72987 )
0,60206+1
P(jokowi|positif) = 0,113232511
P(bikin|negatif) = ( 4,21442+8.72987
0+1
) = 0,077254140
= (
4,21442+8.72987 )
0+1
P(haru|negatif) = 0,077254140
= (
4,21442+8.72987 )
0+1
P(pak|negatif) = 0,077254140
73
P(jokowi|negatif) = ( 4,21442+8.72987
0+1
) = 0,077254140
d. Menghitung probabilitas komentar kelas positif dengan menghitung prior
probability dari kelas positif dan negatif dengan rumus yang dapat dilihat pada
landasan teori rumus poin 3 dan implementasi perhitungan sebagai berikut:
jumlah data positif
P(positif) =
jumlah seluruh data
= 24 =0,5
jumlah data positif 2
P(Negatif) = = =0,5
jumlah seluruh data 4
Didapatkan hasil dari posterior probability yaitu kelas positif dengan nilai
0,00005130690 dan kelas negatif dengan nilai 0,00001780972 , karena nilai kelas
positif lebih besar dari nilai negatif maka data uji diklasifikasikan dengan hasil
Positif. Perhitungan untuk mendapatkan akurasi dapat dilakukan secara berulang
pada dataset testing sejumlah 250 baris data. Kemudian menghitung dengan
rumus confusion matrix.
74
V.3 Pembahasan
Pembahasan ini berisi tentang pembahasan hasil pengujian. Pengujian
sistem dilakukan dengan kombinasi dari metode confusion matrix dan cross
validation. Pengujian cross validation menggunakan k = 4 dan menghasilkan nilai
yang dapat dilihat pada tabel 5.12.
Tabel 5. 12 Hasil pengujian akurasi sistem
Fold ke i TP TN FP FN Accuracy Precission Recall
Fold - 1 99 108 20 23 82,8% 83,19% 81,15%
Fold – 2 111 96 9 34 82,8% 92,5% 76,55%
Fold – 3 92 121 5 32 85,2% 94,85% 74,19%
Fold – 4 76 127 8 39 81,2% 90,48% 66,09%
Rata - rata 83% 90,25% 74,49%
Kesalahan prediksi dari dari sistem yang telah dirancang dikarenakan banyaknya
faktor seperti contoh adalah kesalahan ketik oleh user (typo), kalimat sindiran
halus yang tidak dapat dianalisa oleh sistem dan kata yang belum ada di dalam
kamus sehingga mengakibatkan akurasi yang kurang maksimal. Hasil pengujian
sistem dapat dilihat pada gambar 5.40.
VI.1 Simpulan
Sistem analisis sentimen untuk mengklasifikasikan komentar postif dan
negatif dalam postingan instagram pada akun Presiden Republik Indonesia
@jokowi telah berhasil dibuat. Sistem yang dibuat dengan menggunakan metode
Naïve Bayes Classifier sebagai klasifikasi sentimen dan TF-IDF sebagai
pembobotan kata berhasil untuk melakukan klasifikasi sentimen pada komentar
masyarakat pada postingan instagram @jokowi.
Sistem diuji menggunakan kombinasi dari metode confusion matrix dan
cross validation untuk mengetahui hasil akurasi yang didapatkan oleh sistem.
Hasil pengujian dari cross validation dan confussion matrix mendapatkan rata –
rata akurasi sebesar 83%, precission sebesar 90,25% dan recall sebesar 74,49%
sehingga dapat disimpulkan bahwa metode Naïve Bayes Classiffier dapat
melakukan klasifikasi sentimen dengan akurasi rata - rata di atas 80%.
VI.2 Saran
Saran untuk penelitian berikutnya adalah melakukan pre processing yang
lebih baik lagi terutama untuk mengolah kata yang bersifat singkatan yang
mengandung kata positif / negatif menjadi kata yang sebenarnya (benar), karena kata
singkatan tersebut akan sangat berpengaruh jika menjadi kata sebenarnya saat masuk
ke dalam perhitungan sistem sehingga akan mendapatkan akurasi yang lebih baik
lagi.
75
DAFTAR PUSTAKA
Buntoro, G.A. (2017), Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di
Twitter, INTEGER: Journal of Information Technology, 1(1), 32–41Diakses
https://www.researchgate.net/profile/Ghulam_Buntoro/publication/31661719
4_Analisis_Sentimen_Calon_Gubernur_DKI_Jakarta_2017_Di_Twitter/
links/5907eee44585152d2e9ff992/Analisis-Sentimen-Calon-Gubernur-DKI-
Jakarta-2017-Di-Twitter.pdf.
Fauzi, A., Akbar, M.F. dan Asmawan, Y.F.A. (2019), Sentimen Analisis
Berinternet Pada Media Sosial Dengan Menggunakan Algoritma Bayes,
Jurnal Informatika, 6(1), 77–83.
Fauzi, M.A. dan Adinugroho, S. (2018), Analisis Sentimen Pariwisata Di Kota
Malang Menggunakan Metode Naive Bayes Dan Seleksi Fitur Query
Expansion Ranking Image Processing View Project Smart Wheelchair View
Project, Researchgate.Net, (February)Diakses
https://www.researchgate.net/publication/322959527.
Gunawan, B., Pratiwi, H.S. dan Pratama, E.E. (2018), Sistem Analisis Sentimen
Pada Ulasan Produk Menggunakan Metode Naive Bayes, Jurnal Edukasi
dan Penelitian Informatika (JEPIN), 4(2), 113.
Kurniawan, S., Gata, W., Puspitawati, D.A., -, N., Tabrani, M. dan Novel, K.
(2019), Perbandingan Metode Klasifikasi Analisis Sentimen Tokoh Politik
Pada Komentar Media Berita Online, Jurnal RESTI (Rekayasa Sistem dan
Teknologi Informasi), 3(2), 176–183.
Liu, B. (2015), Sentiment Analysis: Mining Opinions, Sentiments, And Emotions,
Cambridge University Press: Bing Liu.
Luqyana, W.A., Cholissodin, I. dan Perdana, R.S. (2018), Analisis Sentimen
Cyberbullying Pada Komentar Instagram Dengan Metode Klasifikasi
Support Vector Machine, Jurnal Pengembangan Teknologi Informasi dan
Ilmu Komputer (J-PTIIK) Universitas Brawijaya, 2(11), 4704–4713.
Munitasri, I., Santosa, S. dan Supriyanto, C. (2018), Klasifikasi Pesan Sms
Menggunakan Algoritma Naive Bayes Dengan Seleksi Fitur Genetic
76
77
79
80