18.04.102 Jurnal Eproc

ISSN : 2355-9365 e-Proceeding of Engineering : Vol.5, No.
1 Maret 2018 | Page 1562
Klasifikasi Posting Tweet mengenai Kebijakan Pemerintah Menggunakan Naive

Bayesian Classification
Garnis Berliana1, Shaufiah, S.T, M.T.2, Siti Sa’adah, S.T., M.T.3

1,2,3
Prodi S1 Teknik Informatika. Fakultas Informatika, Universitas Telkom
1
garnis31@gmail.com, 2shaufiah@gmail.com, 3 tisataz@gmail.com
Abstrak
Twitter merupakan media sosial yang populer di kalangan masyarakat dalam memberikan
informasi karena lebih mudah dan cepat. Dengan adanya media sosial, masyarakat menjadi lebih mudah
menyampaikan aspirasi dan pendapat mengenai kebijakan yang telah dibuat oleh pemerintah. Salah satu
kebijakan tersebut adalah amnesti pajak. Pada penelitian ini menggunakan algoritma Naïve Bayesian
Classification untuk mengklasifikasikan tweet yang berisi informasi tentang amnesti pajak. Naïve
Bayesian Classification merupakan salah satu teknik klasifikasi dalam data mining yang sederhana.
Ekstraksi fitur yang digunakan pada pengklasifikasian amnesti pajak menggunakan naive bayesian
classification adalah unigram dan frekuensi kata dimana hasil akurasi tertinggi yang didapat sebesar
53,45% dengan data training sebesar 80% dari 578 data tweet amnesti pajak. Metode naive bayes dengan
fitur unigram kurang tepat untuk digunakan dalam pengklasifikasian tweet mengenai amnesti pajak.
Kata kunci: Twitter, tweet, data mining, analisis sentimen, klasifikasi, naïve Bayesian classification.
Abstract
Twitter is a popular social media among people in providing information because it is easier and faster.
With the existence of social media, the community becomes easier to convey the aspirations and opinions
about the policies that have been made by the government. One of the policy is tax amnesty. In this
research use Naïve Bayesian Classification algorithm to classify tweets that contain information about
tax amnesty. Naïve Bayesian Classification is one of the classification techniques in simple data mining.
Feature extraction used in tax amnesty classification using naive bayesian classification is unigram and
word frequency where the highest accuracy obtained is 53.45% with training data of 80% of 578 data
tweet of tax amnesty. Naive bayes classification with unigram feature is not appropriate for tweet
classification about tax amnesty.
Keywords: Twitter, tweet, data mining, sentiment analysis, classification, naïve Bayesian classification..
1. Pendahuluan menggunakan NodeXL. Namun, data yang telah
Pada era globalisasi ini, pertukaran dikumpulkan masih belum dapat digunakan
informasi terjadi dengan begitu mudah melalui untuk klasifikasi karena terdapat kata-kata yang
media sosial, salah satunya adalah twitter. tidak baku dan terdapat banyak noise di dalam
Menurut eBizMBA, twitter berada di urutan data tersebut sehingga perlu dilakukan
kedua sebagai media sosial terpopuler setelah preprocessing. Tahapan preprocessing
Facebook di dalam Top 15 Most Popular Social dilakukan untuk menghilangkan hal yang tidak
Networking Sites dengan perkiraan pengunjung dibutuhkan (url, mention), tokenization,
bulanan yang unik berjumlah 310.000.000 [18]. stopword removal, dan stemming. Berdasarkan
Twitter menjadi tempat sebagian besar penelitian yang dilakukan Ledy Agusta,
masyarakat untuk mengemukakan opini mereka stemming dengan algoritma nazief dan adriani
terkait isu yang sedang hangat dibicarakan pada memiliki hasil akurasi yang lebih baik
saat tertentu dengan bebas. Opini-opini yang dibandingkan dengan stemming menggunakan
ada di twitter dapat digunakan untuk menilai algoritma porter [5]. Setelah itu, data tersebut
sentimen atas suatu topik tertentu, seperti diklasifikasikan menggunakan naïve Bayesian
produk, film, jasa, tokoh publik, kebijakan classification. Pendekatan naïve Bayesian
pemerintah dan sebagainya. Salah satu classification merupakan pendekatan yang
kebijakan pemerintah yang banyak menarik mengacu pada teorema Bayes yang
perhatian masyarakat adalah amnesti pajak. menggunakan prinsip peluang statistika untuk
Amnesti pajak merupakan kebijakan mengkombinasikan pengetahuan sebelumnya
pemerintah di bidang perpajakan yang berlaku dengan pengetahuan baru untuk menyelesaikan
hingga 31 Maret 2017 [2]. masalah klasifikasi [6]. Pada penelitian ini, data
Pada Tugas Akhir ini, tweet yang twitter yang digunakan adalah data yang berisi
mengandung opini masyarakat terhadap amnesti opini sehingga data yang telah dikumpulkan
pajak diklasifikasikan menggunakan metode terlebih dahulu melalu filtering manual dimana
klasifikasi naïve Bayesian classification. Tweet tweet dengan username kemenkeuri,
yang berisi amnesti pajak diambil dengan dirjenpajakri, akun kantor pajak daerah, dan
ISSN : 2355-9365 e-Proceeding of Engineering : Vol.5, No.1 Maret 2018 | Page 1563
media-media berita dihapuskan. Kata-kata yang analisis sentimen menyebabkan penelitian

tidak baku pada data yang telah di-filter diubah atau aplikasi mengenai analisis sentimen
menjadi kata baku secara manual. Pada berkembang pesat, bahkan di Amerika
penelitian tugas akhir ini, sistem mampu
kurang lebih 20-30 perusahaan yang
mengklasifisikan data twitter ke dalam tiga
kelas yaitu positif, negatif, dan netral dengan memfokuskan pada layanan analisis
ekstraksi fitur menggunakan unigram dan sentimen. Pada dasarnya analisis sentimen
frekuensi kata (term frequency). Tetapi akurasi merupakan klasifikasi, tetapi tidak
yang dihasilkan hanya mencapai 53,45% semudah proses klasifikasi biasa karena
dengan data pembelajaran sebesar 80% dari 578 terkait penggunaan bahasa dimana terdapat
data twitter. ambigu dalam penggunaan kata, tidak
adanya intonasi dalam sebuah teks, dan
2. Dasar Teori
perkembangan dari bahasa itu sendiri [1].
2.1 Text Mining
Skripsi analisis sentimen pada skripsi
Data mining merupakan suatu
ini dilakukan dengan menggunakan
proses penemuan pengetahuan (Knowledge
pendekatan dalam machine learning yang
Discovery) dari sejumlah data yang besar.
dikenal dengan metode naive bayes dan
Langkah-langkah untuk melakukan
dikhususkan pada dokumen teks berbahasa
penemuan pengetahuan (Knowledge
Indonesia yang diambil dari Twitter.
Discovery) adalah sebagai berikut [4] :
1. Data cleaning yang berfungsi untuk 2.3 Klasifikasi : Naive Bayes

menghapus noise dan data yang tidak Klasifikasi adalah fungsi
konsisten. pembelajaran yang mengklasifikasikan
2. Data integration merupakan suatu sebuah unsur data ke dalam salah satu dari
proses dimana beberapa sumber data beberapa kelas yang telah didefinisikan [9].
dapat dikombinasikan. Salah satu metode klasifikasi yang dapat
3. Data selection merupakan suatu proses
digunakan adalah metode naïve bayes yang
dimana data yang relevan dengan
analysis task akan diambil dari sering disebut naïve Bayesian classification
database. (NBC). Naive Bayes merupakan sebuah
4. Data transformation merupakan suatu algoritma pembelajaran yang berbasis pada
proses yang mengubah atau teori Bayes dengan menggunakan asumsi
menggabungkan data ke bentuk yang yang kuat (naive). Teori Bayes merupakan
tepat untuk mining. suatu teori tentang mencari suatu
5. Data mining merupakan suatu proses
probabilitas sesuatu berdasarkan data yang
penting dimana metode intelligent
diterapkan untuk mengambil pola data. telah ada sebelumnya. Metode ini juga bisa
6. Pattern evaluation berfungsi untuk digunakan untuk mengklasifikasikan opini
mengidentifikasi pola-pola yang berdasarkan data yang telah dilatih
menarik untuk mewakili knowledge sebelumnya. Inti dari naive bayes adalah
(pengetahuan) berdasarkan beberapa mencari probabilitas tertinggi dari suatu
tindakan interestingness. data. Rumus bayes dapat ditulis sebagai
7. Knowledge presentation merupakan
berikut:
suatu proses dimana visualisasi dan
teknik representasi knowledge
(pengetahuan) digunakan untuk P(c) × Pdc
Pcd = (2.1)
mempresentasikan knowledge ke P(d)
pengguna. Berikut adalah keterangan dari rumus (2.1):
2.2 Analisis Sentimen
• 𝑃𝑐 𝑑 adalah probabilitas kelas c setelah
Analisis Sentimen atau opinion mining
d dimasukkan ke kelas c.
merupakan proses memahami, • 𝑃(𝑐) adalah probabilitas kelas c
mengekstrak dan mengolah data tekstual sebelumnya
secara otomatis untuk mendapatkan • 𝑃𝑑 𝑐 adalah probabilitas d pada kelas c
informasi sentimen yang terkandung dalam • 𝑃𝑑 adalah probabilitas d
suatu kalimat opini. Analisis sentimen
Naive Bayes telah dipelajari sejak tahun
dilakukan untuk melihat pendapat atau
1950. Naive bayes diperkenalkan dengan
kecenderungan opini terhadap suatu
nama yang berbeda ke dalam komunitas
masalah atau objek oleh seseorang, apakah
text retrieval pada awal tahun 1960 dan
cenderung beropini positif atau negatif.
tetap menjadi metode yang populer untuk
Besarnya pengaruh dan manfaat dari
kategorisasi teks dimana menilai dokumen 𝑇𝑐𝑡 + 1

𝑃(𝑡|𝑐) = (2.4)
ke dalam satu kategori atau kategori lainnya ∑𝑡 ′𝜖𝑉(𝑇𝑐𝑡 ′ + 1)
dengan frekuensi kata sebagai fitur. Dengan Maximum a posterior (MAP)
preprocessing yang tepat, metode ini dapat digunakan untuk menentukan kelas suatu
menjadi lebih baik daripada metode SVM. dokumen testing dengan mengambil nilai
Naive Bayes ada tigas jenis menurut maksimum probabilitas setiap dokumen.
distribusi fitur, yaitu gaussian naive bayes, Adapun rumus untuk MAP adalah sebagai
multinomial naive bayes, dan bernoulli berikut :
naive bayes. Tetapi algoritma naive bayes 𝐶𝑚𝑎𝑝 = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈𝐶 𝑃̂ (𝑐|𝑑)
yang sering digunakan untuk text mining 𝑛𝑘
adalah multinomial naive bayes. = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈𝐶 𝑃̂ (𝑐) ∏ 𝑃̂ (𝑡𝑘 |𝑐) (2.5)

Multinomial Naïve Bayes merupakan salah 1
satu metode spesifik dari metode Naive Pada rumus MAP diatas setiap
Bayes. Multinomial naïve bayes ini juga conditional probability atau setiap
merupakan salah satu mechine learning probabilitas suatu kata dikalikan. Perkalian
dalam supervised learning pada proses tersebut menghasilkan floating point
pengklasifikasian teks dengan underflow. Dalam hal ini untuk
menggunakan nilai probabilitas suatu kelas menghindari floating point underflow maka
dalam suatu dokumen. Menurut akan dilakukan proses penjumlahan setiap
Multinomial Naïve Bayes, secara umum probabilitas kata dengan menggunakan
probabilitas suatu dokumen d, sebagai logaritma dimana log(x,y) =log(x)+ log(y).
bagian dari anggota kelas c. Probabilitas Untuk mencari MAP pada Multinomial
dari suatu dokumen d terhadap kelas c dapat Naïve Bayes adalah sebagai berikut:
dihitung dengan rumus sebagai berikut 𝐶𝑚𝑎𝑝
[19]. = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈𝐶 [𝑙𝑜𝑔𝑃̂ (𝑐)
𝑛
+ ∑ 𝑙𝑜𝑔𝑃̂ (𝑡𝑘 |𝑐) (2.6)
𝑃(𝑐|𝑑) 𝛼 𝑃(𝑐) ∏ 𝑃(𝑡𝑘 |𝑐) (2.2)
1≤𝑘≤𝑛𝑑
1
2.4 Pembobotan fitur
Dimana:
Pembobotan fitur merupakan
• 𝑃( 𝑡𝑘 |𝑐) adalah probabilitas sebuah proses pemberian nilai pada setiap
kemunculan suatu term 𝑡𝑘 dalam fitur berdasarkan relevansi dan
dokumen pada kelas c dimana 𝑡𝑘 adalah pengaruhnya terhadap hasil klasifikasi.
term dalam dokumen d. Nilai tersebut nantinya dapat digunakan
sebagai dasar untuk melakukan seleksi fitur
• P(c) adalah prior probabilitas suatu berdasarkan minimum bobot yang telah
dokumen pada kelas c. dihitung dari setiap fitur. Pembobotan
dilakukan dengan menggunakan metode
TF-IDF.
Perhitungan nilai P(c) dan P(tk|c)
Algoritma TF-IDF pertama kali
dilakukan pada saat melatih data.
dicetuskan oleh Salton dan Buckley pada
Probabilitas suatu kelas dapat dilakukan
tahun 1988 dan digunakan untuk
dengan jumlah suatu kelas dokumen dalam
kepentingan information retrieval, yang
kelas latih atau 𝑁𝑐 dibagi dengan jumlah
kemudian turut dimanfaatkan sebagai salah
total dokumen kelas yang ada atau 𝑁 dalam
satu algoritma dalam metode feature
dokumen latih [19], sebagai berikut:
weighting dalam text mining. TF-IDF
𝑁𝑐
𝑃(𝑐) = (2.3) memiliki formula sebagai berikut:
𝑁
Perhitungan conditional TF − IDF = TF × IDF (2.7)
probabilitas dilakukan untuk Rumus tersebut dapat
menghitung probabilitas dijabarkan menjadi term frequency
dari fitur i pada dokumen j dikalikan
kemunculan suatu kata dalam setiap
dengan IDF dari fitur i pada
kelas. Conditional probability dapat
dokumen j, dimana IDF sendiri
dilakukan dengan menggunakan
merupakan kepanjangan dari
frekuensi kemunculan suatu kata Inverse Document Frequency.
pada suatu kelas.
Berikut adalah rumus untuk TF dan Akurasi

Jumlah data yang diprediksi secara benar
IDF : = (2.10)
Jumlah prediksi yang dilakukan
TF Semua algoritma klasifikasi berusaha

jumlah kemunculan term pada satu dokumen untuk membentuk model yang mempunyai
= (2.8)
jumlah seluruh term dalam satu dokumen akurasi yang tinggi (laju error yang rendah).
Umumnya model yang dibangun dapat
IDF memprediksi dengan benar pada semua data
jumlah seluruh dokumen yang menjadi data latihnya, tetapi ketika
= log (2.9)
jumlah dokumen suatu term muncul model berhadapan dengan data uji barulah
kinerja model dari sebuah algoritma
Semakin sering sebuah fitur muncul klasifikasi ditentukan [11].
dalam sebuah teks, maka semakin

besar pula bobot yang akan didapat,
yang artinya maka akan semakin
penting pula fitur tersebut. Metode
ini dianggap efektif untuk
information retrieval.
2.5 Pengukuran Kinerja Sistem

Pengukuran kinerja sistem klasifikasi
umumnya dilakukan dengan cara
menggunakan matriks confusion. Matriks
confusion merupakan tabel yang mencatat
hasil kerja klasifikasi.
Kelas hasil prediksi (j)

fij
Kelas = 1 Kelas = 0
Kelas = 1 f11 f10
Kelas asli
(i)
Kelas = 0 f01 f00
Setiap sel fij dalam matriks menyatakan

jumlah record/ data dari kelas i yang hasil
prediksinya masuk ke kelas j. Misalnya sel
f11 adalah jumlah data dalam kelas 1 yang
secara benar dipetakan ke kelas 1, dan f10
adalah data dalam kelas 1 yang dipetakan
secara salah ke kelas 0. Berdasarkan isi
matriks confusion, maka dapat diketahui
jumlah data dari masing-masing kelas yang
diprediksi secara benar yaitu (f11+f00) dan
data yang diklasifikasikan secara salah
yaitu (f10+f01). Kuantitas matriks confusion
dapat diringkas menjadi dua nilai, yaitu
akurasi. Dengan mengetahui jumlah data
yang diklasifikasikan secara benar maka
dapat diketahui akurasi hasil prediksi.
Untuk menghitung akurasi digunakan
formula sebagai berikut :
3. Pembahasan dengan simbol “@” yang diikuti dengan

3.1 Gambaran Umum Sistem nama user dan diakhiri dengan spasi,
Gambaran dari proses yang contohnya @garnis_berliana. Tahap ini
terjadi dalam sistem adalah sebagai berikut dilakukan dengan melakuan
: pencocokan string dengan pola
Start username kemudian menghapusnya
Dataset
apabila sesuai dengan pola username..
5. Selanjutnya, menghilangkan url karena
Data Cleaning
Preprocessing tidak dibutuhkan dalam proses
Case Folding Dataset klasifikasi.
Tokenizing 6. Tahap selanjutnya melakukan
Stopword tokenizing untuk memisahkan string
Stemming berdasarkan kata yang menyusunnya.
Pembagian Data 7. Melakukan tahap stopword removal.
Data Training Data Testing
Testing Stopword merupakan kata umum yang
(Pengujian)
sering muncul dalam jumlah besar dan
Klasifikasi
Hasil biasanya dianggap tidak memiliki
Klasifikasi
Model makna, seperti kata penghubung, kata
Klasifikasi
End
pengganti, dan lain sebagainya. Contoh
kata yang termasuk stopword adalah
saya, aku, yang, dan, sebagai, pak, bu,
Gambar 1 - Gambaran umum sistem dan sebagainya. Karena tidak memiliki
Berdasarkan gambar 1 mengenai gambaran makna dan agar jumlah kata yang
sistem, langkah langkah yang diterapkan diproses berkurang, maka kata yang
dalam skema sistem adalah : termasuk ke dalam stopword perlu
1. Pengambilan data dengan teknik dihapus. Penulis menggunakan daftar
crawling pada media sosial Twitter stopword dari Tala dan menambahkan
dengan topik amnesti pajak kata-kata lain yang termasuk stopword.
menggunakan NodeXL. Kata kunci 8. Tahap selanjutnya yaitu proses
yang digunakan adalah #amnestipajak, stemming yang merupakan proses
#pengampunanpajak, #taxamnesty, mengubah kata berimbuhan menjadi
amnesti pajak, pengampunan pajak, dan kata dasar sesuai kamus KBBI.
tax amnesty. Setelah mendapatkan data Algoritma stemming yang digunakan
yang diperoleh dari proses crawling, yaitu algoritma nazief dan adriani yang
selanjutnya data yang berisi tweet dibangun oleh Sastrawi.
dipindahkan ke Microsoft Excel secara 9. Setelah tahap preprocessing, data tweet
manual. Karena data tersebut banyak dibagi menjadi data training dan data
yang tidak mengandung opini, maka testing menggunakan sistem dengan
penulis menyaring secara manual untuk presentasi data training 80% dan data
mendapatkan data yang berisi opini. testing sebesar 20%.
Data tweet yang berisi opini tersebut 10. Klasifikasi naive bayes dilakukan
kemudian diberikan label secara dengan menggunakan fitur kata
manual. Pemberian label dibagi menjadi (unigram) dari data training yang
tiga, yaitu positif, negatif, dan netral. kemudian dihitung frekuensi
2. Sebagian besar data yang didapat belum kemunculan kata dan dihitung
memenuhi penulisan tata Bahasa probabilitasnya untuk digunakan dalam
Indonesia yang baku. Kata-kata yang klasifikasi data testing.
tidak baku diubah menjadi baku secara 11. Dari tahapan yang sudah dilakukan
manual. diatas, sistem akan mengklasifikasikan
3. Data melalui tahap case folding dimana data testing dan menghasilkan nilai
data tweet yang telah terkumpul diubah akurasi dari klasifikasi yang telah
menjadi huruf kecil semua. dilakukan untuk melihat kinerja sistem
4. Username pada data yang telah dalam pengklasifikasian tweet tentang
terkumpul dihilangkan karena tidak amnesti pajak.
berpengaruh pada klasifikasi.
Username pada twitter biasanya diawali
3.2 Hasil dan Analisis Pengujian

Pengujian yang dilakukan oleh penulis
dilakukan dengan confusion matriks
dengan melihat nilai akurasi dari berbagai
skenario uji yang telah dirancang. Ada 3
skenario uji yang akan dijalankan, yaitu :
i. Klasifikasi dilakukan dengan tahapan
pre-processing dengan stemming
Sastrawi dan pembagian data training
dan testing dengan presentase Akurasi dari klasifikasi tanpa melakukan
berbeda. stemming dibandingkan dengan menggunakan
ii. Klasifikasi dilakukan dengan tahapan stemming hasilnya sama saja pada presentase
pre-processing tanpa proses stemming data training dan testing yang berbeda. Dapat
dan pembagian data training dan disimpulkan bahwa, proses stemming pada
sistem ini tidak berpengaruh terhadap hasil
testing dengan presentase berbeda.
akurasi.
iii. Klasifikasi dilakukan dengan tahapan
pre-processing tanpa stopword Pada skenario uji yang ketiga, didapat akurasi
removal dan pembagian data training sebagai berikut:
dan testing dengan presentase
berbeda.
Pada skenario uji yang pertama, didapat

akurasi sebagai berikut:
Dibandingkan dengan hasil skenario pertama,

hasil skenario lebih kecil jika sistem tidak
melakukan tahapan stopword removal. Hal
tersebut menunjukkan bahwa tahapan
stopword removal sangat berpengaruh dalam
pengklasifikasian dikarenakan kata-kata yang
Pada skenario pertama dapat dilihat jika tidak berguna untuk proses klasifikasi
besarnya data pembelajaran dan data testing dihilangkan. Dengan penghapusan kata-kata
mempengaruhi nilai akurasi. Akurasi yang tidak berguna tersebut, maka fitur kata
tertinggi terjadi pada saat data pembelajaran yang digunakan untuk proses klasifikasi pun
sebesar 80% dengan nilai 53,45%. Tetapi berkurang. Untuk tahapan ini, daftar kata
karena pembagian data dilakukan stopword dapat disesuaikan sesuai dengan
menggunakan sistem dimana data yang data yang digunakan.
diacak sebanyak 100 setiap kali dijalankan
sehingga memungkinkan perbandingan
4. Kesimpulan
jumlah data dari tiap kelas berbeda pada data
Kesimpulan yang diperoleh dari tugas akhir ini
training. Perbedaan data tiap kelas pada data
training dapat menyebabkan sistem kurang adalah sebagai berikut :
mempelajari suatu kelas tertentu sehingga • Pembagian dataset menjadi data training
mempengaruhi kinerja sistem dalam dan data testing mempengaruhi kinerja
mengklasifikasikan. Karena jumlah data sistem dalam mengklasfikasikan data.
kelas netral yang lebih banyak dibandingkan Namun karena pada penelitian ini
kedua kelas lainnya, maka pada saat pembagian dilakukan dengan sistem
pembagian data yang dilakukan oleh sistem dimana kemungkinan data training setiap
kemungkinan sistem untuk lebih mempelajari kelas tidak seimbang sehingga
data kelas netral semakin besar yang terlihat mempengaruhi kinerja sistem yang dapat
dimana hasil pengklasifikasian pada data dilihat pada hasil akurasi pada skenario
testing yang dilakukan sistem semuanya pembagian data training dan data testing
termasuk ke kelas netral. dengan presentase yang berbeda. Jika
dilihat dari hasil akurasi, pembagian dataset
yang dapat menghasilkan akurasi tinggi
Pada skenario uji yang kedua, didapat adalah data training sebesar 80% dan data
akurasi sebagai berikut: training sebesar 20%.
• Proses stemming pada sistem yang dibuat "Kurikulum 2013"," Techno.COM, pp. 299-
tidak berpengaruh terhadap kinerja sistem 314, 2015.
dalam mengklasifikasikan data yang dapat
dilihat dari hasil akurasi dari sistem yang [5] L. Agusta, "Perbandingan Algoritma
menggunakan stemming dengan hasil Stemming Porter dengan Algoritma Nazief &
akurasi dari sistem yang tidak Adriani untuk Stemming Dokumen Teks
menggunakan stemming adalah sama besar
Bahasa Indonesia," Konferensi Nasional
hasilnya.
Sistem dan Informatika 2009, pp. 196-201,
• Proses stopword removal mempengaruhi
2009.
kinerja sistem dalam mengklasifikasikan
data. Hal tersebut dapat dilihat pada
skenario yang tidak menggunakan proses [6] Sandi Fajar Rodiyansyah, E.W, "Klasifikasi
stopword removal dimana hasil akurasi Posting Twitter Kemacetan Lalu Lintas Kota
yang dihasilkan lebih kecil dibandingkan Bandung Menggunakan Naive Bayesian
dengan yang menggunakan stopword Classification," 2012.
removal.
• Ekstraksi fitur unigram dan frekuensi kata [7] Ronen Feldman, J.S, The Text Mining
dalam klasifikasi amnesti pajak ini Handbook, Advanced Approaches in
menghasilkan akurasi tertinggi sebesar Analyzing Unstructured Data, New York:
53,45% dan terendah sebesar 46,15%. Cambridge University Press, 2006.
Klasifikasi tweet mengenai amnesti pajak
menggunakan metode naive bayes kurang [8] Courtney D.Corley, Diane J.Cook, Armin
maksimal hasilnya jika dibandingkan R.Miller, Karan P.Singh, "Text and Structural
dengan penelitian-penelitian dari referensi Data Mining of Influenza Mentions in Web
yang dapat dilihat dari hasil akurasi sistem and Social Media," 2010.
yang terbesar pada 53,45% sedangkan
penelitian lain hasil akurasinya dapat
[9] P. B. Batrinca, "Social Media analytics; a
mencapai 70% ke atas. Hal tersebut dapat
survey of techniques, tools and platforms,"
terjadi karena penggunaan ekstrasi fitur
yang kurang tepat atau metode naive bayes 2014.
tidak tepat untuk digunakan pada
klasifikasi amnesti pajak. [10] V.S.Moertini, "Data Mining Sebagai Solusi
Bisnis," 2002.
Daftar Pustaka
[11] E.Prasetyo, Data Mining, Mengolah Data
[1] Muhamad Yusuf Nur dan Diaz D.Santika, Menjadi Informasi Menggunakan Matlab,
"Analisis Sentimen pada Dokumen Berbahasa Penerbit Andi, 2014.
Indonesia dengan Pendekatan Support Vector
Machine," Konferensi Nasional Sistem dan [12] "About Twitter," Twitter, 2015. [Online].
Informatika 2011, pp. 9-14, 2011. Available: https://about.twitter.com/.
[Accessed 19 Maret 2015].
[2] "Amnesti Pajak," 28 Desember 2017.
[Online]. Available: [13] "The Search API," Twitter, 2015. [Online].
http://www.pajak.go.id/content/amnesti- Available:
pajak. https://dev.twitter.com/rest/public/search.
[Accessed 19 Maret 2015].
[3] Ismail Sunni, Dwi Hendratmo Widyantoro,
"Analisis Sentimen dan Ekstraksi Topik [14] Tan P.N., Steinbach M., Kumar V.,
Penentu Sentimen pada Opini terhadap Tokoh Introduction to Data Mining, Boston: Pearson
Publik," Jurnal Sarjana Institut Teknologi Education, 2006.
Bandung Bidang Teknik Elektro dan
Informatika, pp. 200-206, 2012. [15] Han Jiawei, Kamber Micheline, Data
Mining:Concepts and Techniques, San
[4] Dyarsa Singgih Pamungkas, Noor Ageng Fransisco: Morgan Kaufmann Publisher, 2006.
Setiyanto, Erlin Dolphina, "Analisis Sentiment
pada Sosial Media Twitter menggunakan
Naive Bayes Classifier terhadap Kata Kunci
[16] I. Rish, An Empirical study of the Naive Bayes

Classifier, California: International Joint
Conference on Artificial Intelligence, 2006.
[17] I. Witten, Text Mining: Practical Handbook of

Internet Computing, Florida: Chapman &
Hall/CRC Press, 2005.
[18] "Top 15 Most Popular Social Networking

Sites," 1 Maret 2015. [Online]. Available:
http://www.ebizmba.com/articles/social-
networking-websites. [Accessed 18 Maret
2015].
[19] UP, O.e., "Naive Bayes text classification,"

[Online]. Available:
https://nlp.standford.edu/IR-
book/html/htmledition/naive-bayes-text-
classification-1.html. [Accessed 5 Januari
2018].

18.04.102 Jurnal Eproc

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

18.04.102 Jurnal Eproc

Diunggah oleh

Hak Cipta:

Format Tersedia

ISSN : 2355-9365 e-Proceeding of Engineering : Vol.5, No.

1 Maret 2018 | Page 1562

Klasifikasi Posting Tweet mengenai Kebijakan Pemerintah Menggunakan Naive

Garnis Berliana1, Shaufiah, S.T, M.T.2, Siti Sa’adah, S.T., M.T.3

media-media berita dihapuskan. Kata-kata yang analisis sentimen menyebabkan penelitian

1. Data cleaning yang berfungsi untuk 2.3 Klasifikasi : Naive Bayes

kategorisasi teks dimana menilai dokumen 𝑇𝑐𝑡 + 1

adalah multinomial naive bayes. = 𝑎𝑟𝑔𝑚𝑎𝑥𝑐∈𝐶 𝑃̂ (𝑐) ∏ 𝑃̂ (𝑡𝑘 |𝑐) (2.5)

Berikut adalah rumus untuk TF dan Akurasi

TF Semua algoritma klasifikasi berusaha

dalam sebuah teks, maka semakin

2.5 Pengukuran Kinerja Sistem

Kelas hasil prediksi (j)

Kelas = 0 f01 f00

Setiap sel fij dalam matriks menyatakan

3. Pembahasan dengan simbol “@” yang diikuti dengan

3.2 Hasil dan Analisis Pengujian

Pada skenario uji yang pertama, didapat

Dibandingkan dengan hasil skenario pertama,

[16] I. Rish, An Empirical study of the Naive Bayes

[17] I. Witten, Text Mining: Practical Handbook of

[18] "Top 15 Most Popular Social Networking

[19] UP, O.e., "Naive Bayes text classification,"

Anda mungkin juga menyukai