Anda di halaman 1dari 8

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 4, No. 10, Oktober 2020, hlm. 3659-3666 http://j-ptiik.ub.ac.id

Analisis Sentimen Pariwisata di Kabupaten Malang dengan Menggunakan


Metode BM25F, Neighbor Weighted K-Nearest Neighbor dan Seleksi Fitur
Chi-Square
Pratitha Vidya Sakta1, Indriati2, Marji3

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya


Email: 1pratithavidya@student.ub.ac.id, 2indriati.tif@ub.ac.id, 3marji@ub.ac.id

Abstrak
City Branding “The Heart Of East Java” ialah salah satu upaya yang dipakai oleh Dinas Pariwisata dan
Kebudayaan Kabupaten Malang untuk memasarkan daerahnya dalam rangka peningkatan pariwisata
daerah. Rating dan ulasan yang berkaitan dengan pariwisata di Kabupaten Malang sangat banyak
jumlahnya di jejaring sosial internet. Salah satu wadah untuk memberikan rating dan ulasan ialah pada
TripAdvisor. Dengan demikian penelitian ini mencoba menganalisis ulasan dari masyarakat tentang
pariwisata Kabupaten Malang melalui analisis sentimen dan diklasifikasikan menjadi dua kelas yaitu
positif dan negatif. Dalam penelitian ini, analisis sentimen dilakukan dalam beberapa tahapan atau
proses. Proses tersebut terdiri dari preprocessing data, pembobotan kata yang diterapkan menggunakan
algoritme BM25F, Neighbor Weighted K-Nearest Neighbor untuk klasifikasi dokumen dan seleksi
fitur Chi-Square. Dilakukan pengujian K-Fold Cross Validation (dengan K = 5) terhadap parameter 𝑘
untuk klasifikasi NWKNN, bc, boost dan k1 untuk BM25F. Hasil pengujian menunjukkan bahwa
penentuan nilai bobot stream pada BM25F cukup mempengaruhi hasil klasifikasi NWKNN.
Sedangkan hasil akhir terbaik untuk F-Measure, Accuracy, Precision, dan Recall dihasilkan pada k =
30, rasio chi-square = 40%, konstanta (bc) = 0.5, boost head = 2, boost body = 5 dan k1 = 1.9 sebagai
nilai terbaik untuk masing-masing parameternya
Kata kunci: analisis sentimen, BM25F, Neighbor Weighted K-Nearest Neighbor, Chi-Square
Abstract
City Branding "The Heart of East Java" is one of the efforts used by the Malang District Tourism and
Culture Office to market the region in the context of increasing regional tourism. Ratings and reviews
relating to tourism in Malang Regency are numerous in the internet. One site to give ratings and
reviews is on TripAdvisor. This study tries to analyze reviews from the public about Malang Regency
tourism through sentiment analysis and is classified into two classes, positive and negative. In this
study, sentiment analysis is carried out in several stages or processes. The process consists of
preprocessing data, word weighting which is implemented using the BM25F algorithm, Neighbor
Weighted K-Nearest Neighbor for document classification and Chi-Square for feature selection. K-
Fold Cross Validation was tested (with K = 5) on the parameter 𝑘 for the classification of NWKNN,
bc, boost and k1 for BM25F. The test results show that the determination of stream weight values on
BM25F sufficiently influences the results of the NWKNN classification. While the best final results for
F-Measure, Accuracy, Precision, and Recall are produced at k = 30, chi-square ratio = 40%, constant
(bc) = 0.5, boost head = 2, boost body = 5 and k1 = 1.9 as the best value for each parameter.
Keywords: sentiment analysis, BM25F, Neighbor Weighted K-Nearest Neighbor, Chi-Square

perkotaan dan perdesaan. Pada ajang Anugrah


1. PENDAHULUAN Pesona Indonesia (API) 2018 Kabupaten
Kabupaten Malang adalah salah satu kota Malang masih tertinggal kota lainnya di Malang
wisata yang berada di Jawa Timur dan terletak Raya, yaitu Kota Batu dan Kota Malang. Oleh
pada wilayah dataran tinggi dan terdiri atas sebab itu pemerintah Kabupaten Malang sedang
beberapa kecamatan yang tersebar di wilayah gencar melakukan pembenahan dan promosi
pariwisatanya. City Branding “The Heart Of

Fakultas Ilmu Komputer


Universitas Brawijaya 3659
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3660

East Java” ialah salah satu upaya yang dipakai Geometric Mean Average Precision (GMAP)
oleh Dinas Pariwisata dan Kebudayaan dan R-Precision untuk membandingkan kinerja
Kabupaten Malang untuk memasarkan BM25, BM25F, Lucene, dan LuceneF pada
daerahnya dalam rangka peningkatan pariwisata Semantic Web Search. BM25F terbukti
daerah. Rating dan ulasan yang berkaitan memiliki kinerja lebih baik pada MAP, GMAP
dengan pariwisata di Kabupaten Malang sangat dan R-Prec jika dibandingkan BM25.
banyak jumlahnya di jejaring sosial internet. Pada analisis sentimen terdapat banyak
Salah satu wadah untuk memberikan rating dan data dan atribut yang digunakan dalam proses
ulasan ialah pada TripAdvisor. Banyak klasifikasi. Semakin banyak kata yang tidak
pengunjung website yang masih percaya bahwa relevan dalam dokumen dapat berakibat pada
hanya dengan mengamati rating rata-rata sudah turunnya nilai accuracy (Shah & Patel, 2016).
dapat menunjukkan bahwa pengunjung puas Seleksi fitur merupakan salah satu cara untuk
akan suatu destinasi (Valdivia, et al., 2019). menangani permasalahan tersebut. Penelitian
Hal ini menginspirasi penulis untuk yang dilakukan oleh Uchyigit (2012)
memulai penelitian dalam analisis sentimen memberikan kesimpulan bahwa Chi-Square
ulasan dalam website TripAdvisor mengenai sebagai seleksi fitur mendapatkan nilai
pariwisata di Kabupaten Malang. precision terbaik diantara metode seleksi fitur
Sentimen opini pada website nantinya lainnya.
dapat digunakan sebagai evaluasi dan Berdasarkan latar belakang di atas maka
pengambilan keputusan mengenai pariwisata di penggunaan analisis sentimen dapat
Kabupaten Malang. Analisis sentimen opini memberikan manfaat. Penggunaan analisis
masyarakat nantinya akan diklasifikasikan sentimen untuk ulasan pada website
untuk menentukan opini tersebut positif atau TripAdvisor dengan tujuan mengetahui
negatif. informasi yang tepat terlepas dari nilai rating.
Dalam melakukan proses klasifikasi Analisis sentimen ini memakai metode BM25F
terdapat beberapa metode yang telah dan metode Neighbor Weighted K-Nearest
dikembangkan, salah satunya adalah Neighbor Neighbor. Metode BM25F digunakan untuk
Weighted K-Nearest Neighbor (NWKNN). pemberian bobot, Chi Square digunakan untuk
Penelitian sebelumnya yang dilakukan oleh Tan menyeleksi fitur, sedangkan metode Neighbor
(2005) memberikan kesimpulan bahwa Weighted K-Nearest Neighbor dipakai untuk
perbandingan hasil recall, precision, dan f- pengklasifikasian kelas. Dari pemaparan
measure algoritme Neighbor Weighted K- persoalan yang telah dituliskan oleh penulis,
Nearest Neighbor (NWKNN) lebih tinggi dari penulis membuat penelitian yang berjudul
algoritme KNN jika data yang digunakan Analisis Sentimen Pariwisata di Kabupaten
memiliki kelas tidak seimbang. Penelitian Malang menggunakan metode BM25F dan
lainnya yang dilakukan oleh Ridok & Latifah Neighbor Weighted K-Nearest Neighbor
(2015) mendapatkan kesimpulan yaitu nilai dengan seleksi fitur Chi-Square.
recall dan f-measure NWKNN masing-masing
lebih tinggi sebesar 6.9% dan 2.6% daripada
nilai recall dan f-measure KNN untuk 2. DASAR TEORI
klasifikasi dokumen berita. Hal memperkuat
pernyataan NWKNN cocok digunakan untuk 2.1. Analisis Sentimen
komposisi data yang tidak seimbang. Analisis sentimen ialah bidang di mana
Klasifikasi NWKNN membutuhkan metode penyelesaian masalah menggunakan
pembobotan kata untuk tiap kata yang terdapat ulasan dari berbagai perspektif ilmu yang sama
pada teks terkait. Metode BM25F adalah salah secara relevan dan terintegrasi. Analisis
satu metode pembobotan kata yang merupakan sentimen meliputi natural language processing,
upgrade dari BM25 serta dapat analisis teks dan komputasi linguistik yang
diimplementasikan pada teks terstruktur dengan digunakan untuk mengenali sentimen
lebih dari satu field (umumnya head, body, dan berdasarkan suatu dokumen (Vinodhini &
sebagainya). Pada penelitian yang dilakukan Chandrasekaran, 2016). Analisis sentimen
oleh Perez-Aguera, dkk. (2010), dilakukan dipakai agar secara otomatis mendapatkan
pengujian Mean Average Precision (MAP), sentimen yang tersembunyi dalam teks.
Precision saat pengambilan 5 dokumen, Analisis sentimen pada dasarnya adalah tahap
Precision saat pengambilan 10 dokumen,

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3661

klasifikasi. Namun tahapan klasifikasi sentimen 𝑐 = field pada dokumen yang


pada ulasan (tidak terstruktur) lebih sulit terdiri dari subjek-predikat-objek
dibanding dengan klasifikasi dokumen 𝑑
terstruktur. 𝑜𝑐𝑐𝑢𝑟𝑠𝑡,𝑐 = kemunculan term t pada field
c yang ada dokumen d
2.2. Preprocessing Teks 𝑏𝑜𝑜𝑠𝑡𝑐 = faktor boost yang
Pre-processing ialah proses yang esensial pada dialokasikan ke field c
pemrosesan teks, dan sangat berguna untuk 𝑏𝑐 = konstanta berdasarkan
mengekstraksi informasi yang atraktif dan tidak panjang field
normal dari data yang tidak terstruktur.
(Vijayarani, Ilamathi, & Nithya, 2016). Pre- 𝑙𝑐 = panjang field c
processing adalah langkah awal dari 𝑎𝑣𝑙𝑐 = rata-rata panjang field
pemrosesan data dan akan digunakan untuk
pemrosesan lebih lanjut. Tahapan dari pre- 𝑘1 = konstanta yang mampu
processing meliputi case folding, tokenizing, mengolah pertumbuhan
filtering, dan stemming. frekuensi term non-linier

2.3. Pembobotan BM25F 2.4. Seleksi Fitur Chi-Square


OKAPI (Online Keyword Access to Public Seleksi fitur atau biasa dikenal dengan
Information) BM25 adalah model pemberian feature subset selection, variable selection atau
bobot hasil pencarian berdasarkan model attribute selection adalah proses untuk
probabilitas dasar, yang mengurutkan nilai penyaringan fitur yang terkait pada term yang
korelasi dokumen dan informasi yang dijadikan target dari data learning pada sebuah
diperlukan dalam urutan menurun. Okapi masalah. Chi-Square adalah metode untuk
BM25 memberikan ranking pada dokumen melakukan perhitungan tingkat ketergantungan
berdasarkan peluang dan memakai term dari suatu fitur. Pada pemrosesan teks, 2 kelas
frequency untuk melakukan pemeringkatan umumnya dipakai untuk pengukuran tingkat
similarity. BM25F adalah algoritme perluasan ketergantungan antara kata t antara dua tabel
dari BM25. BM25F mempunyai keunggulan dan kelas spesifik c. Fungsi dari Chi Square
yaitu fungsi ranking yang sudah dicocokkan dapat dilihat dari Persamaan 4
untuk dokumen terstruktur. . Rumus peringkat 𝑁 (𝐴𝐷−𝐶𝐵)2
𝑥 2 (𝑡, 𝑐) = (4)
pada BM25F ditunjukkan pada Persamaan 1: (𝐴+𝐶)(𝐵+𝐷)(𝐴+𝐵)(𝐶+𝐷)
𝑤𝑒𝑖𝑔ℎ𝑡(𝑡,𝑑)
𝑅(𝑞, 𝑑) = ∑𝑡 𝑖𝑛 𝑞 𝑖𝑑𝑓(𝑡) . 𝑘 + 𝑤𝑒𝑖𝑔ℎ𝑡(𝑡,𝑑) (1) Keterangan:
1

𝑡 = term
dimana 𝑖𝑑𝑓(𝑡) diperoleh dari rumus berikut: 𝑐 = kelas/kategori
𝑁−𝑑𝑓(𝑡)+0.5
𝑖𝑑𝑓(𝑡) = log (2) 𝑁 = jumlah data latih
𝑑𝑓(𝑡)+0.5

Sedangkan 𝑤𝑒𝑖𝑔ℎ𝑡(𝑡, 𝑑) 𝐴 = banyaknya dokumen yang terdapat t


di kelas c
𝑑
𝑜𝑐𝑐𝑢𝑟𝑠𝑡,𝑐 . 𝑏𝑜𝑜𝑠𝑡𝑐
𝑤𝑒𝑖𝑔ℎ𝑡(𝑡, 𝑑) = ∑𝑐 𝑖𝑛 𝑑 𝑙 (3) 𝐵 = banyaknya dokumen yang terdapat t
((1−𝑏𝑐 )+𝑏𝑐 .𝑎𝑣𝑙𝑐
𝑐 di kelas bukan c
Keterangan
𝐶 = banyaknya dokumen yang tidak
𝑅(𝑞, 𝑑) = nilai BM2F (peringkat query terdapat t di kelas c
q dalam dokumen d)
𝐷 = banyaknya dokumen yang tidak
𝑡 = term yang didapat dari query terdapat t di kelas bukan c
𝑑 = dokumen Agar didapatkan nilai Chi Square dari
sebuah term di suatu kelas, harus didapatkan
𝑁 = banyak keseluruhan dokumen nilai Chi-Square tunggal dari term tersebut.
𝑑𝑓(𝑡) = banyaknya dokumen yang Untuk menemukan nilai Chi-Square tunggal
mempunyai term t dari suatu term maka dilakukan penjumlahan

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3662

nilai Chi Square dari tiap-tiap kelas. Nilai Chi- 𝑆𝑐𝑜𝑟𝑒(𝑞 , 𝐶𝑖 ) =


Square tunggal tiap term dihasilkan melalui 𝑊𝑒𝑖𝑔ℎ𝑡𝑖 (∑𝑑𝑗 ∈𝐾𝑁𝑁(𝑞) 𝑆𝑖𝑚(𝑞, 𝑑𝑗 )𝛿(𝑑𝑗 , 𝐶𝑖 )) (7)
Persamaan 5.
Keterangan:
𝑥 2 (𝑡) = ∑𝑘𝑐=1 𝑥 2 (𝑡. 𝑐)
(5) 𝑊𝑒𝑖𝑔ℎ𝑡𝑖 = Bobot kelas 𝑖
Setelah diketahui, kata-kata diurutkan 𝑑𝑗 ∈ 𝐾𝑁𝑁(𝑞) = data latih 𝑑𝑗 yang terdapat
sesuai dengan nilai chi-square dari yang paling pada kelompok neighbor paling dekat (nearest
besar sampai paling kecil. Kondisi ini neighbor) dari data uji 𝑞
menunjukkan bahwa kian besar nilai Chi- 𝑆𝑖𝑚(𝑑, 𝑑𝑗 ) = kemiripan data uji 𝑞 dan data
Square, kian tergantung suatu fitur, dan kian latih 𝑑𝑗
tinggi pentingnya fitur yang dipakai pada 𝑑𝑗 ∈ 𝐶𝑖 = 1
proses pengklasifikasian. 𝛿(𝑑𝑗 , 𝐶𝑖 ) ={
𝑑𝑗 ∉ 𝐶𝑖 = 0
𝐶𝑖 = Kelas / kategori 𝑖
2.5. Klasifikasi NWKNN
Metode Neighbor Weighted K-Nearest 3. METODOLOGI
Neighbor (NWKNN) adalah metode klasifikasi
yang dikembangkan agar dapat menangani 3.1. Pengumpulan Data
penyebaran kelas pada data latih yang tidak Data mentah berasal dari kolom ulasan
merata. Dalam metode ini dilakukan pemberian tujuan perjalanan di situs web TripAdvisor.Data
nilai bobot rendah pada kelas dari kategori didapatkan dengan cara mengamati ulasan-
mayoritas, sedangkan pada kelas berkategori ulasan yang ada pada kolom komentar secara
minoritas akan dialokasikan nilai bobot tinggi. langsung pada website TripAdvisor.
Langkah awal pada metode NWKNN ialah
melakukan penghitungan kemiripan data latih 3.2. Diagram Alir Sistem
dengan data uji. Setelah itu, mengurutkan nilai
kemiripan berdasarkan nilai paling besar dan Metode yang digunakan dalam penelitian
memilih k neighbor. ini ialah metode BM25F untuk pembobotan,
Pada algoritme NWKNN dilakukan Neighbor-Weighted K-Nearest Neighbor
penghitungan bobot. Tiap kelas atau kategori sebagai pengklasifikasi dan Chi-Square untuk
C_i akan diberikan nilai bobot. Bobot lebih seleksi fitur. Pada fase pelatihan, dilakukan pre-
besar akan diberikan kepada kategori minoritas, procesiing untuk semua data ulasan. Kemudian
sedangkan bobot kecil diberikan untuk kategori chi-square dipakai untuk penyeleksian fitur
mayoritas (Indriati & Ridok, 2016). Persamaan (term) yang akan dipakai. Pada tahap pengujian,
berikut merupakan penghitungan nilai bobot dilakukan pre-processing untuk masukan data
pada algoritme NWKNN: uji. Setelah itu dari hasil pre-processing
1 dilakukan pembobotan tiap kata pada data uji
𝑊𝑒𝑖𝑔ℎ𝑡𝑖 = 1/𝑒𝑥𝑝 (6) dan hasil seleksi fitur data latih dengan
𝑁𝑢𝑚 (𝐶𝑑𝑖)
( ) menggunakan BM25F, dengan hasil
𝑀𝑖𝑛{𝑁𝑢𝑚(𝐶𝑑
𝑗 ) | 𝑗 = 1,...,𝑘

pembobotan BM25F data uji dan data latih
Keterangan : dilakukan penentuan kelas pada data uji dengan
menggunakan Neighbor-Weighted K-Nearest
𝑁𝑢𝑚 (𝐶𝑖𝑑 ) = total data latih 𝑑 pada kelas 𝑖 Neighbor. Diagram alir yang menggambarkan
𝑑
𝑁𝑢𝑚(𝐶𝑗 ) = total data latih 𝑑 pada kelas 𝑗, alur dekskripsi umum sistem disajikan pada
dimana 𝑗 berada pada himpunan 𝑘 neighbor Gambar 1
paling dekat
𝑒𝑥𝑝 = eksponen, bilangan > 1
Kemudian menghitung skor data uji q
terhadap tiap-tiap kelas dengan memakai nilai
bobot yang sudah didapat. Hasil dari kalkulasi
skor akan dipakai untuk acuan dalam penentuan
kelas dari data uji yang diproses. Persamaan
berikut merupakan perhitungan skor pada
metode NWKNN:

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3663

70 0,872 0,872 1 0,932


80 0,872 0,872 1 0,932
90 0,872 0,872 1 0,932
100 0,872 0,872 1 0,932
150 0,872 0,872 1 0,932

Pengujian rasio dilakukan untuk


mengetahui banyaknya fitur yang diambil.
Pengujian rasio dimulai dengan nilai 20%
kemudian dilanjutkan dengan kelipatan 20 dan
25 hingga bernilai 80%. Hasil pengujian untuk
rasio ditampilkan di Tabel 2.

Tabel 2 Hasil Pengujian Rasio


F-
Rasio Accuracy Precision Recall
Measure
20 0,872 0,872 1 0,932
25 0,872 0,872 1 0,932
40 0,884 0,882 1 0,938
50 0,884 0,882 1 0,938
60 0,884 0,882 1 0,938
75 0,872 0,881 0,987 0,931
80 0,872 0,881 0,987 0,931

Gambar 1. Diagram Alir Sistem Selanjutnya dilakukan pengujian konstanta


(bc) untuk mengetahui nilai konstanta yang
4. PENGUJIAN DAN ANALISIS sesuai dengan data yang dipakai. Pengujian
konstanta (bc) bernilai antara 0.5 hingga 0.8.
4.1. Pengujian Sistem Hasil pengujian untuk konstanta (bc)
ditampilkan di Tabel 3.
Pengujian kemampuan sistem memakai 4
indikator yaitu accuracy, precision, recall dan f- Tabel 3 Hasil Pengujian Konstanta
masure (Desai & Mehta, 2016). Pengujian F-
sistem terdiri dari pengujian 5-Fold Cross bc Accuracy Precision Recall
Measure
Valiation, dan total data yang digunakan 0,5 0,9647 0,988 0,976 0,9820
sebanyak 342 dokumen, sehingga pengujian 0,6 0,9647 0,988 0,976 0,9820
dilakukan sebanyak 5 kali pada 5 Fold data uji 0,7 0,9647 0,988 0,976 0,9820
dan data latih yang berbeda-beda. Kemudian 0,8 0,9647 0,9880 0,976 0,9820
setelah didapat fold yang terbaik dilakukan
pengujian nilai k pada NWKNN. Dimulai Pengujian boost dilakukan untuk
dengan nilai k = 3 dan 5, kemudian dilanjutkan mengetahui nilai pasangan boost yang cocok
dengan kelipatan 10 hingga mencapai nilai 100. untuk data yang dipakai. Pada pengujian
Hasil pengujian untuk variabel 𝑘 ditampilkan di dipakai nilai antara 2 sampai 5. Hasil pengujian
Tabel 1 untuk boost ditampilkan di Tabel 4.
Tabel 1. Hasil Pengujian k-neighbor
Tabel 4 Hasil Pengujian Boost
F- F-
k Accuracy Precision Recall Boost Accuracy Precision Recall
Measure Measure
3 0,802 0,872 0,907 0,889 2 3 0,965 0,988 0,976 0,982
2 4 0,976 0,988 0,988 0,988
5 0,860 0,880 0,973 0,924
2 5 0,988 0,988 1 0,994
10 0,872 0,881 0,987 0,931 3 2 0,976 0,988 0,988 0,988
20 0,872 0,881 0,987 0,931 3 4 0,976 0,988 0,988 0,988
30 0,884 0,882 1 0,938 3 5 0,976 0,988 0,988 0,988
40 0,884 0,882 1 0,938 4 2 0,884 0,882 1 0,9375
50 0,884 0,882 1 0,938 4 3 0,884 0,882 1 0,9375
60 0,872 0,872 1 0,932 4 5 0,884 0,882 1 0,9375

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3664

5 2 0,884 0,882 1 0,9375


5 3 0,884 0,882 1 0,9375
5 4 0,884 0,882 1 0,9375

Pengujian nilai k1 dilakukan untuk


mengetahui nilai k1 yang cocok untuk data
yang dipakai. Pada pengujian dipakai nilai
antara 1.3 sampai 2. Hasil pengujian untuk
boost ditampilkan di Tabel 5.
Tabel 5 Hasil Pengujian Nilai k1
F-
k1 Accuracy Precision Recall Gambar 3 Pengujian Ratio Chi-Square
Measure
1,3 0,884 0,882 1 0,9375
1,4 0,884 0,882 1 0,9375 Berdasarkan Gambar 3 bisa dilihat bahwa
1,5 0,884 0,882 1 0,9375 rerata nilai f-measure, recall, accuracy dan
1,6 0,884 0,882 1 0,9375 precision tertinggi pada saat rasio bernilai 40%,
1,7 0,884 0,882 1 0,9375 50% dan 60%. Kemudian nilai recall, f-measure
1,8 0,884 0,882 1 0,9375 dan accuracy turun pada rasio 75% dan bernilai
1,9 0,988 0,988 1 0,994 konstan hingga rasio 80%. Ini membuktikan
2 0,988 0,988 1 0,994 bahwa semakin banyak jumlah term yang
dipakai tidak menjamin hasil recall, f-measure,
accuracy dan precision yang lebih baik.
4.2. Analisis Pengujian
Dari pengujian didapatkan hasil parameter
terbaik ialah k = 30, rasio chi-square = 40%,
konstanta (bc) = 0.5, boost head = 2, boost body
= 5 dan k1 = 1.9.

Gambar 4 Pengujian Konstanta (bc)

Berdasarkan Gambar 4 bisa dilihat bahwa


rerata f-measure, recall, accuracy dan precision
tidak berubah atau konstan. Nilai pengukuran
Gambar 2 Pengujian Nilai k yang didapatkan memiliki pola nilai precision
yang paling tinggi, tidak seperti pengujian ratio
Berdasarkan Gambar 2 bisa dilihat bahwa dan nilai k yang memiliki pola nilai recall dan
rerata nilai f-measure, recall, accuracy dan f-measure selalu lebih tinggi jika dibandingkan
precision paling tinggi pada saat k bernilai 30, dengan pola nilai precision dan accuracy. Nilai
40 dan 50. Kemudian nilai f-measure, recall, konstanta (bc) yang merupakan parameter
accuracy dan precision turun dan memiliki nilai normalisasi tidak terlalu berpengaruh terhadap
yang konstan hingga k bernilai 150. Ini normalisasi panjang field.
membuktikan bahwa semakin banyak nilai k-
neighbor tidak membuat hasil klasifikasi lebih
baik. Pada saat nilai k = 3 hingga k = 30 nilai f-
measure, recall, accuracy dan precision
mengalami kenaikan. Namun ketika nilai k
dinaikkan hingga 60 justru nilai recall, f-
measure, accuracy dan precision menurun
hingga kemudian bernilai konstan.

Gambar 5 Pengujian Boost

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3665

6. DAFTAR PUSTAKA.
Berdasarkan Gamabr 5 bisa dilihat bahwa
Desai, M., & Mehta, M. A. (2016). Techniques
rerata nilai f-measure, recall, accuracy dan
for sentiment analysis of Twitter data:
precision sedikit mengalami kenaikan pada saat
A comprehensive survey. 2016
boost bernilai 2 dan 5, ini menguatkan dugaan
International Conference on
bahwa head dan body memiliki bobot yang
Computing, Communication and
cukup berbeda. Rata-rata nilai f-measure,
Automation (ICCCA) (pp. 149-154).
accuracy dan precision dan mengalami
penurunan saat boost untuk head bernilai 4 Noida, India: IEEE.
namun sebaliknya nilai recall, ini menandakan Indriati, & Ridok, A. (2016). SENTIMENT
bahwa semakin tinggi nilai boost pada bagian ANALYSIS FOR REVIEW MOBILE
head membuat jumlah dokumen sentiment APPLICATIONS USING NEIGHBOR
positif yang rbenar diklasifikasikan ke kelas METHOD WEIGHTED K-NEAREST
positif semakin meningkat, namun tidak NEIGHBOR (NWKNN). Journal of
membuat nilai accuracy, precision dan f- Environmental Engineering &
measure juga mengalami kenaikan. Sustainable Technology, 03(1), 23-32.
Perez-Aguera, J., Arroyo, J., Greenberg, J.,
Iglesias, J. P., & Fresno, V. (2010).
Using BM25F for Semantic Search.
SEMSEARCH '10 Proceedings of the
3rd International Semantic Search
WorkshopProceedings of the 3rd
International Semantic Search
Workshop. New York: ACM.
Ridok, A., & Indriati. (2016). SENTIMENT
Gambar 6 Pengujian k1 ANALYSIS FOR REVIEW MOBILE
APPLICATIONS USING NEIGHBOR
Berdasarkan Gamabr 6 dapat dilihat bahwa METHOD WEIGHTED K-NEAREST
rerata nilai f-measure, recall, accuracy dan NEIGHBOR (NWKNN). Journal of
precision terbaik berada pada k1 = 1.9 dan k1 = Environmental Engineering &
2. Hanya nilai recall yang tidak mengalami Sustainable Technology, 23-32.
perubahan. Nilai f-measure, accuracy dan Ridok, A., & Latifah, R. (2015). Klasifikasi
precision dan mengalami kenaikan pada saat k1 Teks Bahasa Indonesia Pada Corpus
= 1.9 dan k1 = 2. Ini menandakan bahwa Tak Seimbang Menggunakan
semakin besar nilai k1 yang merupakan NWKNN. Konferensi Nasional Sistem
parameter saturasi term, maka jumlah dokumen & Informatika. Bali.
yang diklasifikasikan benar semakin meningkat. Shah, F., & Patel, V. (2016). A Review on
Feature Selection and Feature
5. KESIMPULAN DAN SARAN Extraction for Text Classification. 2016
Kesimpulan yang dihasilkan dari penelitian International Conference on Wireless
ini ialah pemilihan bobot pada BM25F cukup Communications, Signal Processing
mempengaruhi hasil klasifikasi dengan and Networking (WiSPNET). Chennai .
NWKNN. Hasil akhir terbaik untuk Accuracy, Uchyigit, G. (2012). Experimental Evaluation
Precision, Recal dan FMeasure ialah 0.988, of Feature Selection Methods for Text
0.988, 1.0 dan 0.994 dengan k = 30, rasio chi- Classificatio. 2012 9th International
square = 40%, konstanta (bc) = 0.5, boost head Conference on Fuzzy Systems and
= 2, boost body = 5 dan k1 = 1.9. Knowledge Discovery (FSKD 2012).
Saran yang diajukan ialah pada data ulasan Sichuan.
dari website TripAdvisor untuk pariwisata di Valdivia, A., Hrabova, E., Chaturvedi, I.,
Kabupaten Malang masih terdapat kata yang Luzón, V., Troiano, L., Cambria, E., et
tidak baku, singkatan dan bahasa asing. Pada al. (2019). Inconsistencies on
penelitian berikutnya diharapkan untuk TripAdvisor reviews: A unified index
menambahkan perbaikan kata agar data latih between users and Sentiment Analysis
yang dihasilkan semakin ideal. Methods. Neurocomputing, 3-16.

Fakultas Ilmu Komputer, Universitas Brawijaya


Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3666

Vijayarani, D. S., Ilamathi, M. J., & Nithya. Vinodhini, G., & Chandrasekaran, R. (2016). A
(2016). Preprocessing Techniques for comparative performance evaluation of
Text Mining. International Journal of neural. Journal of King Saud University
Computer Science & Communication – Computer and Information Sciences,
Networks, 7-16. 2-12.

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai