Anda di halaman 1dari 5

1

Ulasan Positif dan


Negatif Twitter pada
Tingkat Kebersihan
Toilet

1
Agus Setia Budi
1
Universiti Tun Hussein Onn, Johor,
Malaysia
agus@gmail.com

Abstract. Posting pada sosial media merupakan bentuk dari ulasan yang
menggambarkan pikiran manusia. Penelitian ini menggunakan 500 posting
twitter yang telah terpilih sebagai ulasan yang membahas tentang kondisi
kebersihan toilet di indonesia. Penelitian ini memprediksi polaritas dari banyak
ulasan positif dan negatif yang telah dipilih secara manual dan menggunakan
algoritma SVM dan proses pre-processing data fitur. Sebagai hasilnya,
penelitian ini mendapatkan akurasi sebesar 75%. Ulasan posting twitter yang
negatif lebih mudah diprediksi daripada ulasan positif karena ulasan negatif
menggunakan kata-kata yang berulang dan mencolok. Sedangkan ulasan positif
cenderung lebih susah diprediksi karena jarang terdapat kata-kata berulang.

Keywords: Sentiment Analysis, SVM, Toilet, Twitter

1 Introduction

Kualitas toilet setiap negara bisa diketahui lewat komentar dan pembicaraan manusia.
Dalam media sosial manusia bisa membicarakan segala hal termasuk keadaan toilet.
Ulasan manusia tentang kebersihan toilet sangat dibutuhkan untuk menjaga kualitas
kebersihan toilet itu sendiri. Tetapi yang menjadi masalah adalah bagaimana jika ada
manusia yang tidak memberikan ulasan yang sebenarnya di sosial media karena takut
dianggap mencemarkan nama baik suatu tempat. Atau sebaliknya jika memberikan
ulasan yang terlalu bagus takut dikira sedang mempromosikan suatu tempat. Maka
dari itu penelitian ini dilakukan untuk memprediksi seberapa kuat ulasan positif dan
negatif terhadap tingkat kebersihan hotel.
Pada penelitian sebelumnya terdapat uji coba prediksi popularitas hotel yang
mengandalkan data berupa review berdasarkan jumlah bintang. Penelitian ini telah
menemukan beberapa kata penting dalam ulasan positif dan ulasan negatif. Kata-kata
ini sering muncul pada setiap ulasan positif dan ulasan negatif. Peneliti menemukan
hasil bahwa ulasan positif lebih mudah diprediksi daripada ulasan negatif [1].
Kenyamanan penghuni di gedung semi-publik tergantung pada parameter
lingkungan seperti suhu, kelembaban relatif, konsentrasi karbon dioksida, intensitas
cahaya, kebisingan, kebersihan, dll. Selain parameter di atas, kenyamanan dalam
ruangan penghuni diamati secara signifikan dipengaruhi oleh kualitas koneksi Wi-Fi
yang disediakan untuk akses internet di mana-mana di gedung-gedung. Oleh karena
itu, dalam karya ini, dimensi penting lain untuk kenyamanan dalam ruangan
diperkenalkan—kenyamanan Wi-Fi. Sebuah arsitektur manajemen kenyamanan baru
diusulkan yang menggunakan pembelajaran mesin untuk mengenali tingkat
kenyamanan Wi-Fi. Arsitektur yang diusulkan melengkapi penelitian ekstensif yang
dilakukan di bidang perencanaan jaringan, dengan menyediakan Quality of
Experience (QoE) Wi-Fi sebagai masukan yang efektif untuk mekanisme tersebut.
Kenyamanan diprediksi berdasarkan kekuatan sinyal Wi-Fi, izin akses Wi-Fi, hunian
2
dengan kondisi mapan, dan aplikasi yang digunakan oleh penghuni. Sebuah studi
kasus disajikan di mana penghuni menggunakan seperangkat aplikasi tertentu, seperti
email, suara dan/atau video untuk durasi tertentu. Metode Support Vector Machines
(SVM) digunakan untuk klasifikasi tingkat kenyamanan. Tingkat kepuasan penghuni
dianggap tergantung pada akses internet dan Quality of Experience (QoE) terkait
untuk aplikasi yang digunakan oleh penghuni. Arsitektur manajemen kenyamanan
Wi-Fi baru telah diusulkan dan teknik Support Vector Machines (SVM) telah
digunakan untuk klasifikasi kenyamanan berdasarkan nilai RSSI dari titik akses,
aturan akses WiFi, dan kepadatan penghuni. Parameter model disetel menggunakan
pencarian Grid dan pelatihan ulang model telah digunakan untuk hasil yang lebih
baik. Sebuah studi kasus gedung perkantoran dibahas, di mana penghuni
menggunakan aplikasi seperti email, suara dan video untuk mengatur jam kerja.
Evaluasi kinerja sistem telah disajikan dalam hal ROC dan matriks kebingungan
untuk tiga kumpulan data unik. Seperti yang diharapkan, diamati bahwa QoE Q untuk
aplikasi tertentu meningkat seiring dengan peningkatan jumlah fitur model (jumlah
titik akses yang memungkinkan koneksi) [2].
Sektor pariwisata memainkan peran penting dalam memastikan bahwa tempat-
tempat wisata dipelihara dan dirawat dengan baik. Fasilitas seperti tempat sampah,
toilet dan aksesibilitas ke area atraksi juga penting agar wisatawan atau penduduk
lokal nyaman dan sekaligus memastikan bahwa area tersebut dirawat dengan baik
dengan fasilitas yang disediakan. Saat ini banyak manusia selalu membawa ponsel
pintar dan gadget elektroniknya dibawa kemana-mana. Mereka juga suka berbagi
dengan teman dan anggota keluarga tentang apa yang sedang mereka lakukan saat ini
melalui teks atau foto yang dibagikan melalui media sosial. Media sosial seperti
Twitter, Facebook dan Instagram telah digunakan secara luas di seluruh dunia. Dalam
penelitian ini, data tweet dari Twitter yang dikumpulkan di Sabah, Malaysia
digunakan untuk menganalisis dan melihat polanya dalam menemukan atraksi wisata
baru. Tweet yang diaktifkan secara geografis ini diambil dan dianalisis untuk melihat
area yang menarik saat ini dan untuk menentukan potensi tempat atraksi baru. Hasil
dalam studi kasus ini menunjukkan hasil yang menggembirakan dalam mengungkap
potensi tempat wisata baru dengan memeriksa intensitasnya dan outlier yang
dilakukan dalam analisis spasial menggunakan sistem informasi geografis dari data
Twitter yang dikumpulkan. Sektor pariwisata atau dewan kota dapat lebih
mengembangkan daerah sasaran dan memfasilitasinya dengan lebih baik [3].

2 Skenario Penelitian

Data diambil dari posting twitter dengan menggunakan kata kunci toilet dan
kebersihan. Data ini kemudian akan dipilih yang sesuai dengan ulasan tentang
kebersihan toliet. Data ini lalu melewati beberapa pre-processing untuk mengubah
posting twitter menjadi fiturset menggunakan algoritama TF IDF.
Text preprocessing merupakan tahap tokenisasi yang merupakan proses pemecahan
teks menjadi bentuk kata atau biasa disebut sebagai token. Feature selection
merupakan tahap yang bertujuan untuk mengurangi dimensi dari kumpulan teks yang
dihasilkan dari tahap transformasi, dengan kata lain, menghapus kata-kata yang tidak
berkaitan dengan isi dokumen atau dengan menggunakan stopword removal. Pattern
discovery merupakan tahap penentuan dari pola test yang akan diolah. Supervised
learning merupakan suatu teknik pembelajaran yang menggunakan suatu label atau
kategori kelas yang diberikan pada data latih (training) yang kemudian digunakan
sebagai dasar untuk melakukan klasifikasi pada data baru. Hal yang dilakukan pada
tahap text preprocessing adalah sebagai berikut:
1. Pemecahan Kalimat
Pemecahan kalimat teks menjadi kalimat-kalimat. Adapun yang menjadi
pemisah kumpulan kalimat adalah tanda tanya “?”, tanda titik ”.”, dan tanda seru
“!”).
2. Case Folding
3
Case Folding adalah proses mengubah semua huruf yang ada pada dokumen teks
menjadi huruf kecil semua.
3. Filtering
Kalimat Filtering merupakan proses penghilangan stopwords.
4. Tokenisasi Kata
Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan
kalimat dengan pemisah white space
5. Stemming
Stemming merupakan suatu proses mentransformasikan kata-kata yang terdapat
dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan
aturan-aturan tertentu.

Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi tweet yang
heterogen adalah pembobotan term. Term dapat berupa kata, frase atau unit hasil
indexing lainnya dalam suatu dokumen yang dapat digunakan untuk mengetahui
konteks dari dokumen tersebut. Karena setiap kata memiliki tingkat kepentingan
yang berbeda dalam dokumen, maka untuk setiap kata tersebut diberikan sebuah
indikator, yaitu term weight (Zafikri, 2010). Term Frequency–Inverse Document
Frequency (TF-IDF) sering digunakan sebagai faktor pembobotan dalam
information retrieval dan text mining. Nilai TF-IDF meningkat secara proporsional
berdasarkan berapa banyak kemunculan kata dalam dokumen (term frequency),
tetapi dinetralkan oleh frekuensi kata dalam corpus (inverse document frequency)
(Vijayarani, et al, 2015).
Pada metode ini, perhitungan bobot term t dalam sebuah dokumen
dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document
Frequency. Untuk menghasilkan nilai Term Frequency terdapat beberapa teknik,
salah satunya adalah dapat dihasilkan dari rumus berikut:

Dan Inverse Document Frequency dapat dicari dengan rumus:

Dimana: D adalah jumlah semua dokumen dalam koleksi, Dfj adalah jumlah
dokumen yang mengandung term . Dengan demikian rumus umum untuk TF-IDF
adalah penggabungan dari formula perhitungan raw tf dengan formula idf (rumus 2.1)
dengan cara mengalikan nilai term frequency (tf) dengan nilai inverse document
frequency (idf).

SVM merupakan salah satu metode klasifikasi dengan menggunakan metode


machine learning (supervised learning) yang memprediksi kelas berdasarkan pola dari
hasil proses training yang diciptakan oleh Vladimir Vapnik. Klasifikasi dilakukan
dengan garis pembatas (hyperlane) yang memisahkan antara kelas opini positif dan
opini negatif. Secara intuitif, suatu garis pembatas yang baik adalah yang memiliki
jarak terbesar ke titik data pelatihan terdekat dari setiap kelas, karena pada umumnya
semakin besar margin, semakin rendah error generalisasi dari pemilah. Margin adalah
jarak dari suatu titik vektor di suatu kelas terhadap hyperplane. Berdasarkan Gambar
2, dapat dilihat bahwa garis pembatas terbaik adalah garis H2 karena memiliki
maksimum margin dan membagi menjadi 2 kelas. Sedangkan H3 tidak membagi
menjadi 2 kelas, dan H1 memang membagi menjadi 2 kelas, namun margin yang
dimiliki sangat kecil. Hyperplane yang mewakili pemisahan atau margin terbesar
antara dua kelas sehingga jarak titik data terdekat di setiap sisi dimaksimalkan disebut
hyperplane margin maksimum, dan linier classifier yang didefinisikannya dikenal
sebagai pengklasifikasi margin maksimal. Maksimum – margin hyperplane dan
margin untuk SVM dilatih dengan sampel dari 2 kelas yang disebut support vector.

Training pada klasifikasi SVM akan menghasilkan sebuah nilai atau pola yang
akan digunakan pada proses testing yang bertujuan untuk pemberian label sentimen
4
(Novantirani, Sabariah, & Effendy, n.d). Penilaian kemudian dibuat dengan menilai
score yang merepresentasikan di sisi mana dokumen itu berada. Proses pengambilan
keputusan dengan SVM beserta analisis berupa tingkat akurasi dan jumlah dokumen
di setiap class positif, negatif.

Fig. 1. Arsitetkur Sistem

Fitur pembobotan yang digunakan adalah TF-IDF. TF (Term Frequency) adalah frekuensi dari
kemunculan sebuah term dalam dokumen yang bersangkutan. Semakin besar jumlah
kemunculan suatu term (TF tinggi) dalam dokumen, semakin besar pula bobotnya atau akan
memberikan nilai kesesuaian yang semakin besar. IDF (Inverse Document Frequency)
merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi
dokumen yang bersangkutan. IDF menunjukkan hubungan ketersediaan sebuah term dalam
seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud,
maka nilai IDF semakin besar.

3 Implementasi dan Hasil


Pada tabel 1 dijelaskan tentang 10 yang sering muncul dengan disertai ranking frekwensi
terbesar dalam ulasan positif

Table 1. Sepuluh kata ulasan positif dengan frekwensi tertinggi


rank word fre sample
q
1 Bersih 122 Toilet di sini bersih seperti biasa
2 Wangi 40 Aku selalu mencium bau wangi di toilet
3 Mantap 20 Toilet di pertamina ini mantap
4 Suka 7 Kabarnya orang orang suka dengan toilet di masjid
5 kagum 2 Banyak orang kagum dengan kualitas toilet masjid agung
5

Pada tabel 2 dijelaskan tentang 10 yang sering muncul dengan disertai ranking frekwensi
terbesar dalam ulasan negatif

Table 2. Sepuluh kata ulasan negatif dengan frekwensi tertinggi


rank word fre sample
q
1 Kotor 122 Memang toilet di sekolah selalu kotor
2 Jijik 40 Toilet di sini membuat aku jijik
3 Kapok 20 Kapok banget deh sama toilet di hotel ini
4 Males 7 Paling males kalau ingin pipis di toilet sana
5 kumu 2 Desa tertinggal biasanya toiletnya kumuh
h

4 Kesimpulan

Akurasi prediksi ulasan positif dan negatif terhadap toilet pada twitter di indonesia
adalah 75%. Pada beberapa kasus, terdapat kesulitan dalam menguji data ulasan
positif karena kurang dalam menggunakan pola kata-kata yang sama. Sedangkan uji
data ulasan negatif lebih mudah diprediksi karena selalu terdapat kata-kata negatif
(kata buruk) yang sering dipakai.

References (in Basic)


1. S. Hirokawa and K. Hashimoto, "Simplicity of Positive Reviews and Diversity of Negative
Reviews in Hotel Reputation," 2018 International Joint Symposium on Artificial
Intelligence and Natural Language Processing (iSAI-NLP), 2018, pp. 1-6, doi:
10.1109/iSAI-NLP.2018.8692973.
2. P. Gaonkar, S. GVK, J. Bapat and D. Das, "Prediction of Wi-Fi Comfort in Buildings
using Support Vector Machines," 2021 6th International Conference for Convergence in
Technology (I2CT), 2021, pp. 1-7, doi: 10.1109/I2CT51068.2021.9418060.
3. M. A. Halim, N. M. Saraf, N. I. Hashim, A. R. A. Rasam, A. N. Idris and N. M. Saad, "Discovering
New Tourist Attractions Through Social Media Data: A Case Study in Sabah Malaysia," 2018 IEEE
8th International Conference on System Engineering and Technology (ICSET), 2018, pp. 157-161,
doi: 10.1109/ICSEngT.2018.8606373.

Anda mungkin juga menyukai