1
Agus Setia Budi
1
Universiti Tun Hussein Onn, Johor,
Malaysia
agus@gmail.com
Abstract. Posting pada sosial media merupakan bentuk dari ulasan yang
menggambarkan pikiran manusia. Penelitian ini menggunakan 500 posting
twitter yang telah terpilih sebagai ulasan yang membahas tentang kondisi
kebersihan toilet di indonesia. Penelitian ini memprediksi polaritas dari banyak
ulasan positif dan negatif yang telah dipilih secara manual dan menggunakan
algoritma SVM dan proses pre-processing data fitur. Sebagai hasilnya,
penelitian ini mendapatkan akurasi sebesar 75%. Ulasan posting twitter yang
negatif lebih mudah diprediksi daripada ulasan positif karena ulasan negatif
menggunakan kata-kata yang berulang dan mencolok. Sedangkan ulasan positif
cenderung lebih susah diprediksi karena jarang terdapat kata-kata berulang.
1 Introduction
Kualitas toilet setiap negara bisa diketahui lewat komentar dan pembicaraan manusia.
Dalam media sosial manusia bisa membicarakan segala hal termasuk keadaan toilet.
Ulasan manusia tentang kebersihan toilet sangat dibutuhkan untuk menjaga kualitas
kebersihan toilet itu sendiri. Tetapi yang menjadi masalah adalah bagaimana jika ada
manusia yang tidak memberikan ulasan yang sebenarnya di sosial media karena takut
dianggap mencemarkan nama baik suatu tempat. Atau sebaliknya jika memberikan
ulasan yang terlalu bagus takut dikira sedang mempromosikan suatu tempat. Maka
dari itu penelitian ini dilakukan untuk memprediksi seberapa kuat ulasan positif dan
negatif terhadap tingkat kebersihan hotel.
Pada penelitian sebelumnya terdapat uji coba prediksi popularitas hotel yang
mengandalkan data berupa review berdasarkan jumlah bintang. Penelitian ini telah
menemukan beberapa kata penting dalam ulasan positif dan ulasan negatif. Kata-kata
ini sering muncul pada setiap ulasan positif dan ulasan negatif. Peneliti menemukan
hasil bahwa ulasan positif lebih mudah diprediksi daripada ulasan negatif [1].
Kenyamanan penghuni di gedung semi-publik tergantung pada parameter
lingkungan seperti suhu, kelembaban relatif, konsentrasi karbon dioksida, intensitas
cahaya, kebisingan, kebersihan, dll. Selain parameter di atas, kenyamanan dalam
ruangan penghuni diamati secara signifikan dipengaruhi oleh kualitas koneksi Wi-Fi
yang disediakan untuk akses internet di mana-mana di gedung-gedung. Oleh karena
itu, dalam karya ini, dimensi penting lain untuk kenyamanan dalam ruangan
diperkenalkan—kenyamanan Wi-Fi. Sebuah arsitektur manajemen kenyamanan baru
diusulkan yang menggunakan pembelajaran mesin untuk mengenali tingkat
kenyamanan Wi-Fi. Arsitektur yang diusulkan melengkapi penelitian ekstensif yang
dilakukan di bidang perencanaan jaringan, dengan menyediakan Quality of
Experience (QoE) Wi-Fi sebagai masukan yang efektif untuk mekanisme tersebut.
Kenyamanan diprediksi berdasarkan kekuatan sinyal Wi-Fi, izin akses Wi-Fi, hunian
2
dengan kondisi mapan, dan aplikasi yang digunakan oleh penghuni. Sebuah studi
kasus disajikan di mana penghuni menggunakan seperangkat aplikasi tertentu, seperti
email, suara dan/atau video untuk durasi tertentu. Metode Support Vector Machines
(SVM) digunakan untuk klasifikasi tingkat kenyamanan. Tingkat kepuasan penghuni
dianggap tergantung pada akses internet dan Quality of Experience (QoE) terkait
untuk aplikasi yang digunakan oleh penghuni. Arsitektur manajemen kenyamanan
Wi-Fi baru telah diusulkan dan teknik Support Vector Machines (SVM) telah
digunakan untuk klasifikasi kenyamanan berdasarkan nilai RSSI dari titik akses,
aturan akses WiFi, dan kepadatan penghuni. Parameter model disetel menggunakan
pencarian Grid dan pelatihan ulang model telah digunakan untuk hasil yang lebih
baik. Sebuah studi kasus gedung perkantoran dibahas, di mana penghuni
menggunakan aplikasi seperti email, suara dan video untuk mengatur jam kerja.
Evaluasi kinerja sistem telah disajikan dalam hal ROC dan matriks kebingungan
untuk tiga kumpulan data unik. Seperti yang diharapkan, diamati bahwa QoE Q untuk
aplikasi tertentu meningkat seiring dengan peningkatan jumlah fitur model (jumlah
titik akses yang memungkinkan koneksi) [2].
Sektor pariwisata memainkan peran penting dalam memastikan bahwa tempat-
tempat wisata dipelihara dan dirawat dengan baik. Fasilitas seperti tempat sampah,
toilet dan aksesibilitas ke area atraksi juga penting agar wisatawan atau penduduk
lokal nyaman dan sekaligus memastikan bahwa area tersebut dirawat dengan baik
dengan fasilitas yang disediakan. Saat ini banyak manusia selalu membawa ponsel
pintar dan gadget elektroniknya dibawa kemana-mana. Mereka juga suka berbagi
dengan teman dan anggota keluarga tentang apa yang sedang mereka lakukan saat ini
melalui teks atau foto yang dibagikan melalui media sosial. Media sosial seperti
Twitter, Facebook dan Instagram telah digunakan secara luas di seluruh dunia. Dalam
penelitian ini, data tweet dari Twitter yang dikumpulkan di Sabah, Malaysia
digunakan untuk menganalisis dan melihat polanya dalam menemukan atraksi wisata
baru. Tweet yang diaktifkan secara geografis ini diambil dan dianalisis untuk melihat
area yang menarik saat ini dan untuk menentukan potensi tempat atraksi baru. Hasil
dalam studi kasus ini menunjukkan hasil yang menggembirakan dalam mengungkap
potensi tempat wisata baru dengan memeriksa intensitasnya dan outlier yang
dilakukan dalam analisis spasial menggunakan sistem informasi geografis dari data
Twitter yang dikumpulkan. Sektor pariwisata atau dewan kota dapat lebih
mengembangkan daerah sasaran dan memfasilitasinya dengan lebih baik [3].
2 Skenario Penelitian
Data diambil dari posting twitter dengan menggunakan kata kunci toilet dan
kebersihan. Data ini kemudian akan dipilih yang sesuai dengan ulasan tentang
kebersihan toliet. Data ini lalu melewati beberapa pre-processing untuk mengubah
posting twitter menjadi fiturset menggunakan algoritama TF IDF.
Text preprocessing merupakan tahap tokenisasi yang merupakan proses pemecahan
teks menjadi bentuk kata atau biasa disebut sebagai token. Feature selection
merupakan tahap yang bertujuan untuk mengurangi dimensi dari kumpulan teks yang
dihasilkan dari tahap transformasi, dengan kata lain, menghapus kata-kata yang tidak
berkaitan dengan isi dokumen atau dengan menggunakan stopword removal. Pattern
discovery merupakan tahap penentuan dari pola test yang akan diolah. Supervised
learning merupakan suatu teknik pembelajaran yang menggunakan suatu label atau
kategori kelas yang diberikan pada data latih (training) yang kemudian digunakan
sebagai dasar untuk melakukan klasifikasi pada data baru. Hal yang dilakukan pada
tahap text preprocessing adalah sebagai berikut:
1. Pemecahan Kalimat
Pemecahan kalimat teks menjadi kalimat-kalimat. Adapun yang menjadi
pemisah kumpulan kalimat adalah tanda tanya “?”, tanda titik ”.”, dan tanda seru
“!”).
2. Case Folding
3
Case Folding adalah proses mengubah semua huruf yang ada pada dokumen teks
menjadi huruf kecil semua.
3. Filtering
Kalimat Filtering merupakan proses penghilangan stopwords.
4. Tokenisasi Kata
Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan men-scan
kalimat dengan pemisah white space
5. Stemming
Stemming merupakan suatu proses mentransformasikan kata-kata yang terdapat
dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan
aturan-aturan tertentu.
Hal yang perlu diperhatikan dalam pencarian informasi dari koleksi tweet yang
heterogen adalah pembobotan term. Term dapat berupa kata, frase atau unit hasil
indexing lainnya dalam suatu dokumen yang dapat digunakan untuk mengetahui
konteks dari dokumen tersebut. Karena setiap kata memiliki tingkat kepentingan
yang berbeda dalam dokumen, maka untuk setiap kata tersebut diberikan sebuah
indikator, yaitu term weight (Zafikri, 2010). Term Frequency–Inverse Document
Frequency (TF-IDF) sering digunakan sebagai faktor pembobotan dalam
information retrieval dan text mining. Nilai TF-IDF meningkat secara proporsional
berdasarkan berapa banyak kemunculan kata dalam dokumen (term frequency),
tetapi dinetralkan oleh frekuensi kata dalam corpus (inverse document frequency)
(Vijayarani, et al, 2015).
Pada metode ini, perhitungan bobot term t dalam sebuah dokumen
dilakukan dengan mengalikan nilai Term Frequency dengan Inverse Document
Frequency. Untuk menghasilkan nilai Term Frequency terdapat beberapa teknik,
salah satunya adalah dapat dihasilkan dari rumus berikut:
Dimana: D adalah jumlah semua dokumen dalam koleksi, Dfj adalah jumlah
dokumen yang mengandung term . Dengan demikian rumus umum untuk TF-IDF
adalah penggabungan dari formula perhitungan raw tf dengan formula idf (rumus 2.1)
dengan cara mengalikan nilai term frequency (tf) dengan nilai inverse document
frequency (idf).
Training pada klasifikasi SVM akan menghasilkan sebuah nilai atau pola yang
akan digunakan pada proses testing yang bertujuan untuk pemberian label sentimen
4
(Novantirani, Sabariah, & Effendy, n.d). Penilaian kemudian dibuat dengan menilai
score yang merepresentasikan di sisi mana dokumen itu berada. Proses pengambilan
keputusan dengan SVM beserta analisis berupa tingkat akurasi dan jumlah dokumen
di setiap class positif, negatif.
Fitur pembobotan yang digunakan adalah TF-IDF. TF (Term Frequency) adalah frekuensi dari
kemunculan sebuah term dalam dokumen yang bersangkutan. Semakin besar jumlah
kemunculan suatu term (TF tinggi) dalam dokumen, semakin besar pula bobotnya atau akan
memberikan nilai kesesuaian yang semakin besar. IDF (Inverse Document Frequency)
merupakan sebuah perhitungan dari bagaimana term didistribusikan secara luas pada koleksi
dokumen yang bersangkutan. IDF menunjukkan hubungan ketersediaan sebuah term dalam
seluruh dokumen. Semakin sedikit jumlah dokumen yang mengandung term yang dimaksud,
maka nilai IDF semakin besar.
Pada tabel 2 dijelaskan tentang 10 yang sering muncul dengan disertai ranking frekwensi
terbesar dalam ulasan negatif
4 Kesimpulan
Akurasi prediksi ulasan positif dan negatif terhadap toilet pada twitter di indonesia
adalah 75%. Pada beberapa kasus, terdapat kesulitan dalam menguji data ulasan
positif karena kurang dalam menggunakan pola kata-kata yang sama. Sedangkan uji
data ulasan negatif lebih mudah diprediksi karena selalu terdapat kata-kata negatif
(kata buruk) yang sering dipakai.