Analisis Sentimen Pariwisata Di Kabupaten Malang Dengan Menggunakan Metode BM25F, Neighbor Weighted K-Nearest Neighbor Dan Seleksi Fitur Chi-Square
Analisis Sentimen Pariwisata Di Kabupaten Malang Dengan Menggunakan Metode BM25F, Neighbor Weighted K-Nearest Neighbor Dan Seleksi Fitur Chi-Square
Abstrak
City Branding “The Heart Of East Java” ialah salah satu upaya yang dipakai oleh Dinas Pariwisata dan
Kebudayaan Kabupaten Malang untuk memasarkan daerahnya dalam rangka peningkatan pariwisata
daerah. Rating dan ulasan yang berkaitan dengan pariwisata di Kabupaten Malang sangat banyak
jumlahnya di jejaring sosial internet. Salah satu wadah untuk memberikan rating dan ulasan ialah pada
TripAdvisor. Dengan demikian penelitian ini mencoba menganalisis ulasan dari masyarakat tentang
pariwisata Kabupaten Malang melalui analisis sentimen dan diklasifikasikan menjadi dua kelas yaitu
positif dan negatif. Dalam penelitian ini, analisis sentimen dilakukan dalam beberapa tahapan atau
proses. Proses tersebut terdiri dari preprocessing data, pembobotan kata yang diterapkan menggunakan
algoritme BM25F, Neighbor Weighted K-Nearest Neighbor untuk klasifikasi dokumen dan seleksi
fitur Chi-Square. Dilakukan pengujian K-Fold Cross Validation (dengan K = 5) terhadap parameter 𝑘
untuk klasifikasi NWKNN, bc, boost dan k1 untuk BM25F. Hasil pengujian menunjukkan bahwa
penentuan nilai bobot stream pada BM25F cukup mempengaruhi hasil klasifikasi NWKNN.
Sedangkan hasil akhir terbaik untuk F-Measure, Accuracy, Precision, dan Recall dihasilkan pada k =
30, rasio chi-square = 40%, konstanta (bc) = 0.5, boost head = 2, boost body = 5 dan k1 = 1.9 sebagai
nilai terbaik untuk masing-masing parameternya
Kata kunci: analisis sentimen, BM25F, Neighbor Weighted K-Nearest Neighbor, Chi-Square
Abstract
City Branding "The Heart of East Java" is one of the efforts used by the Malang District Tourism and
Culture Office to market the region in the context of increasing regional tourism. Ratings and reviews
relating to tourism in Malang Regency are numerous in the internet. One site to give ratings and
reviews is on TripAdvisor. This study tries to analyze reviews from the public about Malang Regency
tourism through sentiment analysis and is classified into two classes, positive and negative. In this
study, sentiment analysis is carried out in several stages or processes. The process consists of
preprocessing data, word weighting which is implemented using the BM25F algorithm, Neighbor
Weighted K-Nearest Neighbor for document classification and Chi-Square for feature selection. K-
Fold Cross Validation was tested (with K = 5) on the parameter 𝑘 for the classification of NWKNN,
bc, boost and k1 for BM25F. The test results show that the determination of stream weight values on
BM25F sufficiently influences the results of the NWKNN classification. While the best final results for
F-Measure, Accuracy, Precision, and Recall are produced at k = 30, chi-square ratio = 40%, constant
(bc) = 0.5, boost head = 2, boost body = 5 and k1 = 1.9 as the best value for each parameter.
Keywords: sentiment analysis, BM25F, Neighbor Weighted K-Nearest Neighbor, Chi-Square
East Java” ialah salah satu upaya yang dipakai Geometric Mean Average Precision (GMAP)
oleh Dinas Pariwisata dan Kebudayaan dan R-Precision untuk membandingkan kinerja
Kabupaten Malang untuk memasarkan BM25, BM25F, Lucene, dan LuceneF pada
daerahnya dalam rangka peningkatan pariwisata Semantic Web Search. BM25F terbukti
daerah. Rating dan ulasan yang berkaitan memiliki kinerja lebih baik pada MAP, GMAP
dengan pariwisata di Kabupaten Malang sangat dan R-Prec jika dibandingkan BM25.
banyak jumlahnya di jejaring sosial internet. Pada analisis sentimen terdapat banyak
Salah satu wadah untuk memberikan rating dan data dan atribut yang digunakan dalam proses
ulasan ialah pada TripAdvisor. Banyak klasifikasi. Semakin banyak kata yang tidak
pengunjung website yang masih percaya bahwa relevan dalam dokumen dapat berakibat pada
hanya dengan mengamati rating rata-rata sudah turunnya nilai accuracy (Shah & Patel, 2016).
dapat menunjukkan bahwa pengunjung puas Seleksi fitur merupakan salah satu cara untuk
akan suatu destinasi (Valdivia, et al., 2019). menangani permasalahan tersebut. Penelitian
Hal ini menginspirasi penulis untuk yang dilakukan oleh Uchyigit (2012)
memulai penelitian dalam analisis sentimen memberikan kesimpulan bahwa Chi-Square
ulasan dalam website TripAdvisor mengenai sebagai seleksi fitur mendapatkan nilai
pariwisata di Kabupaten Malang. precision terbaik diantara metode seleksi fitur
Sentimen opini pada website nantinya lainnya.
dapat digunakan sebagai evaluasi dan Berdasarkan latar belakang di atas maka
pengambilan keputusan mengenai pariwisata di penggunaan analisis sentimen dapat
Kabupaten Malang. Analisis sentimen opini memberikan manfaat. Penggunaan analisis
masyarakat nantinya akan diklasifikasikan sentimen untuk ulasan pada website
untuk menentukan opini tersebut positif atau TripAdvisor dengan tujuan mengetahui
negatif. informasi yang tepat terlepas dari nilai rating.
Dalam melakukan proses klasifikasi Analisis sentimen ini memakai metode BM25F
terdapat beberapa metode yang telah dan metode Neighbor Weighted K-Nearest
dikembangkan, salah satunya adalah Neighbor Neighbor. Metode BM25F digunakan untuk
Weighted K-Nearest Neighbor (NWKNN). pemberian bobot, Chi Square digunakan untuk
Penelitian sebelumnya yang dilakukan oleh Tan menyeleksi fitur, sedangkan metode Neighbor
(2005) memberikan kesimpulan bahwa Weighted K-Nearest Neighbor dipakai untuk
perbandingan hasil recall, precision, dan f- pengklasifikasian kelas. Dari pemaparan
measure algoritme Neighbor Weighted K- persoalan yang telah dituliskan oleh penulis,
Nearest Neighbor (NWKNN) lebih tinggi dari penulis membuat penelitian yang berjudul
algoritme KNN jika data yang digunakan Analisis Sentimen Pariwisata di Kabupaten
memiliki kelas tidak seimbang. Penelitian Malang menggunakan metode BM25F dan
lainnya yang dilakukan oleh Ridok & Latifah Neighbor Weighted K-Nearest Neighbor
(2015) mendapatkan kesimpulan yaitu nilai dengan seleksi fitur Chi-Square.
recall dan f-measure NWKNN masing-masing
lebih tinggi sebesar 6.9% dan 2.6% daripada
nilai recall dan f-measure KNN untuk 2. DASAR TEORI
klasifikasi dokumen berita. Hal memperkuat
pernyataan NWKNN cocok digunakan untuk 2.1. Analisis Sentimen
komposisi data yang tidak seimbang. Analisis sentimen ialah bidang di mana
Klasifikasi NWKNN membutuhkan metode penyelesaian masalah menggunakan
pembobotan kata untuk tiap kata yang terdapat ulasan dari berbagai perspektif ilmu yang sama
pada teks terkait. Metode BM25F adalah salah secara relevan dan terintegrasi. Analisis
satu metode pembobotan kata yang merupakan sentimen meliputi natural language processing,
upgrade dari BM25 serta dapat analisis teks dan komputasi linguistik yang
diimplementasikan pada teks terstruktur dengan digunakan untuk mengenali sentimen
lebih dari satu field (umumnya head, body, dan berdasarkan suatu dokumen (Vinodhini &
sebagainya). Pada penelitian yang dilakukan Chandrasekaran, 2016). Analisis sentimen
oleh Perez-Aguera, dkk. (2010), dilakukan dipakai agar secara otomatis mendapatkan
pengujian Mean Average Precision (MAP), sentimen yang tersembunyi dalam teks.
Precision saat pengambilan 5 dokumen, Analisis sentimen pada dasarnya adalah tahap
Precision saat pengambilan 10 dokumen,
𝑡 = term
dimana 𝑖𝑑𝑓(𝑡) diperoleh dari rumus berikut: 𝑐 = kelas/kategori
𝑁−𝑑𝑓(𝑡)+0.5
𝑖𝑑𝑓(𝑡) = log (2) 𝑁 = jumlah data latih
𝑑𝑓(𝑡)+0.5
6. DAFTAR PUSTAKA.
Berdasarkan Gamabr 5 bisa dilihat bahwa
Desai, M., & Mehta, M. A. (2016). Techniques
rerata nilai f-measure, recall, accuracy dan
for sentiment analysis of Twitter data:
precision sedikit mengalami kenaikan pada saat
A comprehensive survey. 2016
boost bernilai 2 dan 5, ini menguatkan dugaan
International Conference on
bahwa head dan body memiliki bobot yang
Computing, Communication and
cukup berbeda. Rata-rata nilai f-measure,
Automation (ICCCA) (pp. 149-154).
accuracy dan precision dan mengalami
penurunan saat boost untuk head bernilai 4 Noida, India: IEEE.
namun sebaliknya nilai recall, ini menandakan Indriati, & Ridok, A. (2016). SENTIMENT
bahwa semakin tinggi nilai boost pada bagian ANALYSIS FOR REVIEW MOBILE
head membuat jumlah dokumen sentiment APPLICATIONS USING NEIGHBOR
positif yang rbenar diklasifikasikan ke kelas METHOD WEIGHTED K-NEAREST
positif semakin meningkat, namun tidak NEIGHBOR (NWKNN). Journal of
membuat nilai accuracy, precision dan f- Environmental Engineering &
measure juga mengalami kenaikan. Sustainable Technology, 03(1), 23-32.
Perez-Aguera, J., Arroyo, J., Greenberg, J.,
Iglesias, J. P., & Fresno, V. (2010).
Using BM25F for Semantic Search.
SEMSEARCH '10 Proceedings of the
3rd International Semantic Search
WorkshopProceedings of the 3rd
International Semantic Search
Workshop. New York: ACM.
Ridok, A., & Indriati. (2016). SENTIMENT
Gambar 6 Pengujian k1 ANALYSIS FOR REVIEW MOBILE
APPLICATIONS USING NEIGHBOR
Berdasarkan Gamabr 6 dapat dilihat bahwa METHOD WEIGHTED K-NEAREST
rerata nilai f-measure, recall, accuracy dan NEIGHBOR (NWKNN). Journal of
precision terbaik berada pada k1 = 1.9 dan k1 = Environmental Engineering &
2. Hanya nilai recall yang tidak mengalami Sustainable Technology, 23-32.
perubahan. Nilai f-measure, accuracy dan Ridok, A., & Latifah, R. (2015). Klasifikasi
precision dan mengalami kenaikan pada saat k1 Teks Bahasa Indonesia Pada Corpus
= 1.9 dan k1 = 2. Ini menandakan bahwa Tak Seimbang Menggunakan
semakin besar nilai k1 yang merupakan NWKNN. Konferensi Nasional Sistem
parameter saturasi term, maka jumlah dokumen & Informatika. Bali.
yang diklasifikasikan benar semakin meningkat. Shah, F., & Patel, V. (2016). A Review on
Feature Selection and Feature
5. KESIMPULAN DAN SARAN Extraction for Text Classification. 2016
Kesimpulan yang dihasilkan dari penelitian International Conference on Wireless
ini ialah pemilihan bobot pada BM25F cukup Communications, Signal Processing
mempengaruhi hasil klasifikasi dengan and Networking (WiSPNET). Chennai .
NWKNN. Hasil akhir terbaik untuk Accuracy, Uchyigit, G. (2012). Experimental Evaluation
Precision, Recal dan FMeasure ialah 0.988, of Feature Selection Methods for Text
0.988, 1.0 dan 0.994 dengan k = 30, rasio chi- Classificatio. 2012 9th International
square = 40%, konstanta (bc) = 0.5, boost head Conference on Fuzzy Systems and
= 2, boost body = 5 dan k1 = 1.9. Knowledge Discovery (FSKD 2012).
Saran yang diajukan ialah pada data ulasan Sichuan.
dari website TripAdvisor untuk pariwisata di Valdivia, A., Hrabova, E., Chaturvedi, I.,
Kabupaten Malang masih terdapat kata yang Luzón, V., Troiano, L., Cambria, E., et
tidak baku, singkatan dan bahasa asing. Pada al. (2019). Inconsistencies on
penelitian berikutnya diharapkan untuk TripAdvisor reviews: A unified index
menambahkan perbaikan kata agar data latih between users and Sentiment Analysis
yang dihasilkan semakin ideal. Methods. Neurocomputing, 3-16.
Vijayarani, D. S., Ilamathi, M. J., & Nithya. Vinodhini, G., & Chandrasekaran, R. (2016). A
(2016). Preprocessing Techniques for comparative performance evaluation of
Text Mining. International Journal of neural. Journal of King Saud University
Computer Science & Communication – Computer and Information Sciences,
Networks, 7-16. 2-12.