net/publication/326571864
CITATIONS READS
0 2,256
3 authors, including:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Yuita Arum Sari on 24 July 2018.
Abstrak
Ulasan konsumen pada sebuah restoran sangat berpengaruh dalam kualitas restoran itu sendiri. Banyak
dari konsumen menuangkan kritik atau pendapatnya melalui media internet. Tujuan penelitian ini adalah
untuk menganalisis sentimen opini dari konsumen makanan tradisional serta memberikan rekomendasi
lokasi dengan kata kunci yang diinginkan. Naive Bayes adalah teknik machine learning yang sering
digunakan untuk mengklasifikasikan data berupa teks. Chi Square merupakan seleksi fitur yang
digunakan untuk menghitung tingkat dependensi sebuah fitur terhadap suatu kelas. Dalam penelitian ini,
metode Chi Square memberikan nilai pada fitur yang selanjutnya diurutkan dan diseleksi menurut
persentase yang diujikan. Fitur yang terseleksi digunakan untuk proses klasifikasi menggunakan metode
Naive Bayes. Hasil akurasi klasifikasi dengan seleksi fitur 25% adalah sebesar 81%, dengan seleksi fitur
50% adalah sebesar 80 % dan dengan seleksi fitur 77% adalah sebesar 80%. Dari pengujian ini dapat
disimpulkan bahwa seleksi fitur tidak begitu berpengaruh terhadap nilai hasil akurasi. Hal ini dapat
diketahui perbedaan dari nilai akurasi antara menggunakan seleksi fitur dan tanpa menggunakan seleksi
fitur yang tidak terlalu signifikan.
Kata kunci: ulasan konsumen, restoran makanan tradisional, analisis sentimen, chi square, naive bayes.
Abstract
Consumer reviews at a restaurant are very influential in the quality of the restaurant itself. Many of the
consumers pour critics or opinions through the internet media. The goal of this research was to analyze
the opinion sentiment from traditional food consumers as well as provide location recommendations
with the desired keywords. Naive Bayes is a machine learning technique that is more used to classify
text data. Chi Square is a feature selection used to calculate the level of a feature's dependencies on a
class. In this study, Chi Square method gives value to the feature which is then sorted and selected
according to percentage tested. Selected features are used for the classification process using the Naive
Bayes method. The result of classification accuracy with 25% feature selection is 81%, with 50% feature
selection is 80% and with 77% feature selection is 80%. From this test it can be concluded that feature
selection is not so influential on the result value accuracy. It can be seen the difference of the accuracy
value between using feature selection and without using a feature selection that is not very significant.
Keywords: consumer review, traditional food restaurant, sentiment analysis, chi square , naive bayes.
sebagai bahan pembelajaran untuk lebih efisien, serta efektif dengan cara
perkembangan restoran itu sendiri (Reyes & menyeleksi jumlah fitur data latih, serta
Rosso, 2012). Sebagian konsumen jajanan menentukan fitur yang cocok untuk
tradisional memang menuangkan ulasan kritik dipertimbangkan dalam proses pembelajaran
atau pendapat mereka melalui media sosial. (Wahono & Utami, 2015). Terdapat dua metode
Memang fitur komentar yang tersedia akan utama pada seleksi fitur dalam machine
membantu seorang calon pengunjung dengan learning. Akurasi klasifikasi dari beberapa
melihat review yang ada, akan tetapi dengan algoritma sebagai evaluator digunakan pada
banyaknya serta bervariasinya komentar yang metode Wrapper. Metode filter tersusun dari
netizen berikan tentu akan memakan banyak dokumen frequency, ChiSquare, mutual
waktu, dan apabila calon konsumen sedikit information, dan information gain (Chen, et al.,
membaca ulasan yang ada, informasi yang ada 2009).
akan menjadi bias. Beberapa metode filter yang sering
Untuk menangani permasalahan tersebut digunakan adalah Information Gain dan Chi
dibutuhkan sebuah proses yang dapat memilah Square. Namun metode Chi Square sering
kata dari opini konsumen agar mudah digunakan untuk pengklasifikasian dengan
menyeleksi tempat yang sekiranya cocok dan dokumen yang banyak dibandingkan
sesuai dengan selera. Analisis sentimen Information Gain. Semakin banyak jumlah
merupakan metode yang cocok untuk dokumen yang digunakan dalam klasifikasi
menyelesaikan permasalahan ini dengan cara dapat meningkatkan nilai F-Measure klasifikasi
mengumpulkan ulasan yang ada kemudian teks dengan metode Chi Square, dan
mengelompokkan ulasan tersebut menjadi suatu menurunkan nilai F-Measure klasifikasi teks
opini positif atau sebuah opini negati. Analisis dengan metode Information Gain (Sofiana,
sentimen atau opinion mining digunakan untuk Astatina & Suryani, 2012).
mendapatkan sebuah uraian umum tentang Chi Square juga digunakan dalam klasifikasi
kualitas sebuah layanan, apakah layanan tersebut teks sebagai seleksi fitur dalam penelitian
cenderung mendapatkan nilai positif, negative dilakukan oleh Juen, Kencana dan Tjokorda. Chi
maupun netral. (Istiqomah, Maharani & Square berfungsi untuk menyeleksi fitur dengan
Adiwijaya, 2014). menguji independensi suatu kata dengan
Penelitian sebelumnya telah dilakukan oleh kelasnya. Contoh penggunaan seleksi fitur
Romi Dalam menganalisis sentimen dari review adalah untuk menghilangkan fitur yang tidak
restoran menggunakan metode Adaboost dan digunakan dalam proses klasifikasi (Ling,
Naive Bayes serta Information Gain untuk Kencana & Oka, 2014).
seleksi fiturnya. Metode Adaaboost digunakan Berdasarkan permasalahan di atas maka
untuk meningkatkan tingkat akurasi lemah yang penulis memutuskan untuk memberikan
dilakukan algoritma sebelumnya (Wahono & rekomendasi lokasi makanan tradisional
Utami, 2015). berdasarkan review konsumen, maka
Untuk metode pengklasifikasian sendiri digunakanlah metode Naive Bayes dengan
banyak peneliti menggunakan Naive Bayes seleksi fitur Chi Square. Dengan metode
dimana sebuah teks akan diklasifikasikan dalam tersebut, diharapkan akan menghasilkan
machine learning berdasarkan probabilitas klasifikasi dokumen dengan nilai akurasi yang
(Zhang & Gao, 2011). Klasifikasi digunakan tinggi.
untuk penggolongan kata pada data ulasan yang
telah didapatkan, termasuk di kelas manakah
sebuah opini tersebut. Naive Bayes merupakan 2. METODOLOGI PENELITIAN
teknologi pre-processing dalam klasifikasi fitur,
yang menambah skalabilitas, akurasi dan 2.1 Pengumpulan Data
efisiensi yang tentunya sangat dalam proses Data di dapatkan pada website
klasifikasi sebuah teks. Sebagai alat klasifikasi, www.tripadvisor.co.id. Penulis menggunakan
Naive Bayes dianggap efisien dan sederhana, 200 ulasan yang berasal dari konsumen restoran
serta sensitif pada seleksi fitur (Chen, et al., makanan tradisional pada Kota Malang. Lokasi
2009). yang digunakan tidak menyeluruh, hanya
Tahapan lain yang kerap ditemui pada sebagian tempat yang digunakan dan terdapat
klasifikasi teks ialah seleksi fitur. Seleksi fitur ulasan yang bersifat positif atau negatif. Ulasan-
dapat menjadikan alat klasifikasi lebih baik dan
ulasan yang digunakan-terdiri dari 100 komentar penyusunnya. Stopword Removal merupakan
positif dan 100 komentar negatif. Kategori proses penyeleksian kata-kata penting dari hasil
positif atau negatif didapatkan dari nilai yang fitur, yang nantinya digunakan untuk proses
diberikan pengulas, jika nilai yang diberikan 4 selanjutnya. Stopword list yang digunakan
dan atau 5 maka termasuk dalam kategori positif. adalah stopword list berbahasa Indonesia yang
Sebaliknya, jika nilai yang diberikan 2 dan atau berasal dari Tala. Stemming ialah proses
1 maka termasuk dalam kategori negatif. pencarian stem-base dari suatu kata. Stemmer
Pemberian data keyword berdasarkan menu yang digunakan adalah PHP library dari
makanan apa yang disajikan oleh restoran stemmer Sastrawi berbahasa Indonesia yang
tersebut. berasal dari website github.com/sastrawi.
Stemmer Sastrawi ini menggunakan composer
2.2 Perancangan Sistem untuk menjalankannya.
Pada sub-bab ini di jelaskan mengenai 2.2.2 Metode Chi Square
diagram alir algoritme metode Naïve Bayes
dengan seleksi fitur Chi Square yang digunakan Chi Square merupakan metode yang
pada sistem. Diagram alir merupakan salah satu digunakan untuk menghitung tingkat dependensi
metode untuk mendeskripsikan suatu algoritme fitur. Dalam pemrosesan teks, biasanya dua
atau proses pada simbol-simbol yang kelas digunakan untuk mengukur tingkat
memudahkan pengguna untuk memahami proses ketergantungan antara sebuah kata t dan kelas
dalam suatu sistem. Berikut adalah Diagram alir tertentu c antara kedua tabel tersebut (Suharno,
analisis sentimen review konsumen Fauzi & Perdana, 2017). Fungsi dari Chi Square
menggunakan metode Naive Bayes dengan dapat dilihat dari Persamaan (1).
seleksi fitur Chi Square ditunjukkan pada 𝑁(𝐴𝐷−𝐶𝐵)2
Gambar 1. 𝑥 2 (𝑡, 𝑐) = (𝐴+𝐶)(𝐵+𝐷)(𝐴+𝐵)(𝐶+𝐷)
(1)
Keterangan:
t = Term
c = Kelas/Kategori
N = Jumlah data latih
A = Jumlah dokumen pada kelas c yang
memuat t
B = Jumlah dokumen bukan kelas c yang
memuat t
C = Jumlah dokumen pada kelas c yang
tidak memuat t
D = Jumlah dokumen bukan kelas c yang
tidak memuat t
Gambar 1. Perancangan Sistem Untuk mendapatkan nilai Chi Square dari
suatu kata pada sebuah kelas, dibutuhkan nilai
2.2.1 Preprocessing Chi Square tunggal dari kata tersebut. Agar
Pada pemrosesan teks dilakukan tiga tahap mendapatkan nilai Chi Square tunggal dari suatu
dalam memproses teks menjadi lebih terstruktur. kata dapat menjumlahkan nilai Chi Square dari
Salah satu tahapan pada pemrosesan teks ialah masing-masing kelas. Nilai Chi Square tunggal
preprocessing. Tahap ini dimana data mentah tiap kata di dapatkan melalui algoritme pada
diolah menjadi data yang digunakan untuk Persamaan (2).
proses klasifikasi (Hadna, Santosa & Winarno,
2016). 𝑋 2 (𝑡) = ∑𝑘𝑐=1 𝑥 2 (𝑡, 𝑐) (2)
Pada pemrosesan teks, preprocessing Setelah diketahui, dilakukan pengurutan
dibagi dalam 3 langkah, yaitu Tokenization, kata berdasarkan nilai Chi Square tertinggi
Stopword Removal dan Stemming. Tokenization hingga terendah. Hal ini menandakan bahwa
adalah pemotongan string input tiap kata semakin besar nilai Chi Square, semakin
3.3 Hasil rekomendasi yang terdiri dari 50 review positif dan 50 review
negatif. Pada pengujian pertama menggunakan
Tujuan dilakukannya hasil rekomendasi
persentase 25% dari seleksi fitur didapatkan nilai
adalah untuk melihat rekomendasi lokasi
akurasi sebesar 81%. Pada pengujian kedua
makanan tradisional yang ada pada data dan
menggunakan persentase 50% seleksi fitur
ditampilkan oleh sistem. Pengujian ini didapat
didapatkan nilai akurasi sebesar 80%. Pada
dari hasil klasifikasi kelas data uji pada sistem.
pengujian ketiga menggunakan persentase 75%
Nantinya sistem akan menampilkan beberapa
dari seleksi fitur didapatkan nilai akurasi sebesar
lokasi berdasarkan persamaan kata kunci dan
77%. Pada pengujian terakhir tanpa
kata dalam dokumen yang telah dimasukkan
menggunakan seleksi fitur didapatkan nilai
sebelumnya. Sistem juga akan menampilkan
akurasi sebesar 80%.
value dari perbandingan sentimen positif dan
negatif. Value didapat dari jumlah dokumen
4.2 Saran
dengan sentimen positif pada dikurangi jumlah
dokumen dengan sentimen negatif pada lokasi Berikut ini adalah saran dari penulis yang
tertentu. Berikut adalah pengujian rekomendasi dapat digunakan dalam penelitian selanjutnya.
dengan kata kunci “bakso” pada Tabel 5. Peneliti dapat menggunakan pakar untuk
menetukan data apakah termasuk dalam kelas
Tabel 5. Rekomendasi Lokasi positif atau negatif. Perbaikan kata dalam
No. Lokasi Value dokumen sangat dibutuhkan untuk mendapatkan
1 Bakso Bakar Pak Man 8 tingkat dependensi fitur dalam suatu kelas.
2 Bakwan Subur 1
3 Bakso Bakar Pahlawan Trip -1
Sebab, jika terdapat kata slang dalam suatu
4 Bakso Bakar Trowulan -1 dokumen akan mempengaruhi nilai keterkaitan
5 Bakso Gondhol -1 dari fitur atau kata tersebut. Penggunaan bigrams
6 Bakso Kota Cak Man -1 atau N-grams dapat membantu dalam
7 Bakso President -9 penyeleksian fitur dan menghasilkan nilai
akurasi yang tinggi.
4. PENUTUP 5. DAFTAR PUSTAKA
4.1 Kesimpulan Chen, J., Huang, H., Tian, S., & Qu, Y. (2009).
Feature Selection for Text
Berdasarkan perolehan hasil dari Classification with Naïve Bayes.
perancangan, implementasi dan pengujian yang Expert Sistems with Applications,
dilakukan maka bisa disimpulkan bahwa dalam 36(3), 5432–5435.
menganalisis sentimen menggunakan metode Feldman, R. 2013. Techniques and Applications
Naive Bayes berdasarkan review konsumen for Sentiment Analysis.
dengan menggunakan seleksi fitur Chi Square Communications of the ACM, 56(4),
untuk penentuan tempat makanan tradisional 82.
yang pertama perlu dilakukan adalah Hadna, N. M. S., Santosa, P. I. & Winarno, W.
menentukan fitur dari data latih yang akan W., 2016. Studi Literatur tentang
digunakan dalam pengujian lewat Preprocessing Perbandingan Metode untuk Proses
teks. Fitur yang dihasilkan selanjutnya akan Analisis Sentimen di Twitter.
diurutkan dan diseleksi sesuai dengan tingkat Hafilizara, M., 2014. Metode Smoothing dalam
dependensinya menggunakan metode Chi Naive Bayes untuk Klasifikasi Email
Square, penyeleksian dilakukan dengan Spam.
perkalian hasil persentase dengan fitur data latih. Hasugian, J., 2016. Penelusuran Informasi
Selanjutnya dilakukan klasifikasi dokumen Ilmiah Secara Online: Perlakuan
menggunakan metode Naive Bayes dengan terhadap Seorang Pencari Informasi
menghitung nilai prior dan posterior untuk sebagai Real User. s.l.:Jurnal Studi
mendapatkan kelas dari data uji. Perpustakaan dan Informasi.
Nilai akurasi dari data uji didapatkan setelah Istiqomah, S. M., Maharani, W. & Adiwijaya,
menghitung jumlah dokumen dengan kelas 2014. Opinion Mining pada Twitter
benar dibagi dengan jumlah dokumen Menggunakan Klasifikasi Sentimen
keseluruhan. Jumlah data uji yang digunakan pada Hashtag berbasis Graf.
dalam pengujian adalah 100 review konsumen
Kang, H., Yoo, S. J. & Han, D., 2012. Senti- menggunakan Information Gain dan
lexicon and Improved Naive Bayes Chi Square untuk Kategorisasi Teks
Algorithms for Sentiment Analysis of Berbahasa Indonesia.
Restaurant Reviews. s.l.:s.n. Suharno, C. F., Fauzi, M. A. & Perdana, R. S.,
Kusumadewi, S., 2009. Klasifikasi Status Gizi 2017. Klasifikasi Teks Bahasa
menggunakan Naive Bayesian Indonesia pada Dokumen Pengaduan
Classification. Sambat Online menggunakan Metode
Ling, J., Kencana, I. P. E. N. & Oka, T. B., K-Nearest Neighbors (K-NN) dan Chi
2014. Analisis Sentimen Menggunakan Square.
Mtode Naive Bayes Classifier dengan Wahono, R. S. & Utami, L. D., 2015. Integrasi
Seleksi Fitur Chi Square. Metode Information Gain untuk
Liu, B., 2012. Sentiment Analysis and Seleksi Fitur dan AdaBoost untuk
Subjectivity. Chicago: Department of Mengurangi Bias pada Analisis
Computer Science. Sentimen Review Restoran
Muthia, D. A., 2017. Analisis Sentimen pada Menggunakan Algoritma Naive Bayes.
Review Restoran dengan Teks Bahasa Zhang, W., & Gao, F. 2011. An Improvement to
Indonesia menggunakan Algoritma Naive Bayes for Text Classification.
Naive Bayes. Advanced in Control Engineering and
Sofiana, I., Astatina, I. & Suryani, A. A., 2012. Information Science, 15, 2160–2164.
Analisis Pengaruh Feature Selection