18.04.102 Jurnal Eproc
18.04.102 Jurnal Eproc
Kata kunci: Twitter, tweet, data mining, analisis sentimen, klasifikasi, naïve Bayesian classification.
Abstract
Twitter is a popular social media among people in providing information because it is easier and faster.
With the existence of social media, the community becomes easier to convey the aspirations and opinions
about the policies that have been made by the government. One of the policy is tax amnesty. In this
research use Naïve Bayesian Classification algorithm to classify tweets that contain information about
tax amnesty. Naïve Bayesian Classification is one of the classification techniques in simple data mining.
Feature extraction used in tax amnesty classification using naive bayesian classification is unigram and
word frequency where the highest accuracy obtained is 53.45% with training data of 80% of 578 data
tweet of tax amnesty. Naive bayes classification with unigram feature is not appropriate for tweet
classification about tax amnesty.
Keywords: Twitter, tweet, data mining, sentiment analysis, classification, naïve Bayesian classification..
1. Pendahuluan menggunakan NodeXL. Namun, data yang telah
Pada era globalisasi ini, pertukaran dikumpulkan masih belum dapat digunakan
informasi terjadi dengan begitu mudah melalui untuk klasifikasi karena terdapat kata-kata yang
media sosial, salah satunya adalah twitter. tidak baku dan terdapat banyak noise di dalam
Menurut eBizMBA, twitter berada di urutan data tersebut sehingga perlu dilakukan
kedua sebagai media sosial terpopuler setelah preprocessing. Tahapan preprocessing
Facebook di dalam Top 15 Most Popular Social dilakukan untuk menghilangkan hal yang tidak
Networking Sites dengan perkiraan pengunjung dibutuhkan (url, mention), tokenization,
bulanan yang unik berjumlah 310.000.000 [18]. stopword removal, dan stemming. Berdasarkan
Twitter menjadi tempat sebagian besar penelitian yang dilakukan Ledy Agusta,
masyarakat untuk mengemukakan opini mereka stemming dengan algoritma nazief dan adriani
terkait isu yang sedang hangat dibicarakan pada memiliki hasil akurasi yang lebih baik
saat tertentu dengan bebas. Opini-opini yang dibandingkan dengan stemming menggunakan
ada di twitter dapat digunakan untuk menilai algoritma porter [5]. Setelah itu, data tersebut
sentimen atas suatu topik tertentu, seperti diklasifikasikan menggunakan naïve Bayesian
produk, film, jasa, tokoh publik, kebijakan classification. Pendekatan naïve Bayesian
pemerintah dan sebagainya. Salah satu classification merupakan pendekatan yang
kebijakan pemerintah yang banyak menarik mengacu pada teorema Bayes yang
perhatian masyarakat adalah amnesti pajak. menggunakan prinsip peluang statistika untuk
Amnesti pajak merupakan kebijakan mengkombinasikan pengetahuan sebelumnya
pemerintah di bidang perpajakan yang berlaku dengan pengetahuan baru untuk menyelesaikan
hingga 31 Maret 2017 [2]. masalah klasifikasi [6]. Pada penelitian ini, data
Pada Tugas Akhir ini, tweet yang twitter yang digunakan adalah data yang berisi
mengandung opini masyarakat terhadap amnesti opini sehingga data yang telah dikumpulkan
pajak diklasifikasikan menggunakan metode terlebih dahulu melalu filtering manual dimana
klasifikasi naïve Bayesian classification. Tweet tweet dengan username kemenkeuri,
yang berisi amnesti pajak diambil dengan dirjenpajakri, akun kantor pajak daerah, dan
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.5, No.1 Maret 2018 | Page 1563
• Proses stemming pada sistem yang dibuat "Kurikulum 2013"," Techno.COM, pp. 299-
tidak berpengaruh terhadap kinerja sistem 314, 2015.
dalam mengklasifikasikan data yang dapat
dilihat dari hasil akurasi dari sistem yang [5] L. Agusta, "Perbandingan Algoritma
menggunakan stemming dengan hasil Stemming Porter dengan Algoritma Nazief &
akurasi dari sistem yang tidak Adriani untuk Stemming Dokumen Teks
menggunakan stemming adalah sama besar
Bahasa Indonesia," Konferensi Nasional
hasilnya.
Sistem dan Informatika 2009, pp. 196-201,
• Proses stopword removal mempengaruhi
2009.
kinerja sistem dalam mengklasifikasikan
data. Hal tersebut dapat dilihat pada
skenario yang tidak menggunakan proses [6] Sandi Fajar Rodiyansyah, E.W, "Klasifikasi
stopword removal dimana hasil akurasi Posting Twitter Kemacetan Lalu Lintas Kota
yang dihasilkan lebih kecil dibandingkan Bandung Menggunakan Naive Bayesian
dengan yang menggunakan stopword Classification," 2012.
removal.
• Ekstraksi fitur unigram dan frekuensi kata [7] Ronen Feldman, J.S, The Text Mining
dalam klasifikasi amnesti pajak ini Handbook, Advanced Approaches in
menghasilkan akurasi tertinggi sebesar Analyzing Unstructured Data, New York:
53,45% dan terendah sebesar 46,15%. Cambridge University Press, 2006.
Klasifikasi tweet mengenai amnesti pajak
menggunakan metode naive bayes kurang [8] Courtney D.Corley, Diane J.Cook, Armin
maksimal hasilnya jika dibandingkan R.Miller, Karan P.Singh, "Text and Structural
dengan penelitian-penelitian dari referensi Data Mining of Influenza Mentions in Web
yang dapat dilihat dari hasil akurasi sistem and Social Media," 2010.
yang terbesar pada 53,45% sedangkan
penelitian lain hasil akurasinya dapat
[9] P. B. Batrinca, "Social Media analytics; a
mencapai 70% ke atas. Hal tersebut dapat
survey of techniques, tools and platforms,"
terjadi karena penggunaan ekstrasi fitur
yang kurang tepat atau metode naive bayes 2014.
tidak tepat untuk digunakan pada
klasifikasi amnesti pajak. [10] V.S.Moertini, "Data Mining Sebagai Solusi
Bisnis," 2002.
Daftar Pustaka
[11] E.Prasetyo, Data Mining, Mengolah Data
[1] Muhamad Yusuf Nur dan Diaz D.Santika, Menjadi Informasi Menggunakan Matlab,
"Analisis Sentimen pada Dokumen Berbahasa Penerbit Andi, 2014.
Indonesia dengan Pendekatan Support Vector
Machine," Konferensi Nasional Sistem dan [12] "About Twitter," Twitter, 2015. [Online].
Informatika 2011, pp. 9-14, 2011. Available: https://about.twitter.com/.
[Accessed 19 Maret 2015].
[2] "Amnesti Pajak," 28 Desember 2017.
[Online]. Available: [13] "The Search API," Twitter, 2015. [Online].
http://www.pajak.go.id/content/amnesti- Available:
pajak. https://dev.twitter.com/rest/public/search.
[Accessed 19 Maret 2015].
[3] Ismail Sunni, Dwi Hendratmo Widyantoro,
"Analisis Sentimen dan Ekstraksi Topik [14] Tan P.N., Steinbach M., Kumar V.,
Penentu Sentimen pada Opini terhadap Tokoh Introduction to Data Mining, Boston: Pearson
Publik," Jurnal Sarjana Institut Teknologi Education, 2006.
Bandung Bidang Teknik Elektro dan
Informatika, pp. 200-206, 2012. [15] Han Jiawei, Kamber Micheline, Data
Mining:Concepts and Techniques, San
[4] Dyarsa Singgih Pamungkas, Noor Ageng Fransisco: Morgan Kaufmann Publisher, 2006.
Setiyanto, Erlin Dolphina, "Analisis Sentiment
pada Sosial Media Twitter menggunakan
Naive Bayes Classifier terhadap Kata Kunci
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.5, No.1 Maret 2018 | Page 1569