BERBAHASA INDONESIA
Harlili1, Yudi Wibisono2
1
Teknik Informatika, Sekolah Teknik Elektro dan Informatika, Institut Teknologi Bandung
2
Ilmu Komputer, Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam,
Universitas Pendidikan Indonesia
1
harlili@informatika.org, 2 yudi1975@gmail.com
Abstrak
Microblogging, khususnya Twitter membuat pengguna dapat mem-publish pesan pendek (tweet) dengan mudah
dan cepat. Indonesia sendiri merupakan negara terbesar ketiga penghasil tweet dengan kontribusi enam juta
tweet perhari. Sebagian tweet ini dapat berisi opini terhadap produk atau layanan. Jumlah yang besar dan data
yang mudah diperoleh membuat kumpulan tweet ini sangat berpotensi untuk dimanfaatkan pihak organisasi
sebagai pendukung manajemen merek dan corporate reputation. Tweet yang tidak terstruktur dan jumlah yang
besar menjadi tantangan utama dalam pemrosesan data. Penelitian ini membahas pengembangan sistem sentimen
analisis otomatis untuk tweet berbahasa Indonesia menggunakan klasifikasi Nave Bayes. Sistem ini menangani
pemisahan tweet opini dan nonopini, tweet opini negatif dan positif, dan keyword yang berkaitan dengan opini
positif dan negatif tersebut. Hasil eksperimen menunjukkan sistem ini memiliki potensi besar sebagai alat untuk
membantu melakukan analisis opini.
Kata kunci : Microblogging, twitter, analisis opini, text processing
1.
Pendahuluan
Internet versi 2.0 ditandai dengan berkembangnya
data yang berasal dari pengguna (user generated content).
Data ini berbentuk blog, forum, dan media sosial.
Microblogging adalah bagian dari media sosial yang
memungkinkan pengguna untuk mem-publish pesan
singkat (140 karakter) berisi opini, kegiatan atau diskusi.
Contoh layanan microblogging adalah Jaiku, Plurk,
dan yang terpopuler adalah Twitter. Pesan singkat pada
layanan Twitter disebut tweet. Gambar 1 memperlihatkan
contoh tweet mengenai sebuah operator GSM
2.
5.
3.
Praproses
Tweet bersih
Classifier
(opini vs non opini)
Classifier
(opini positif vs opini
negatif)
Tweet Opini
Positif
Tweet Opini
Negatif
Keyword Extractor
Data Eksperimen
Data tweet diperoleh dengan membuat program
crawler yang secara otomatis, setiap 30 menit dan selama
24 jam sehari, mengambil data tweet yang mengandung
kata indosat dan telkomsel. Pengumpulan dimulai
Keyword
untuk opini
negatif
Keyword
untuk opini
positif
Evaluasi Model
Sebelum digunakan di dalam sistem, classifier model
yang digunakan perlu diujicoba terlebih dulu.
Untuk mengujicoba classifier opini dan nonopini,
digunakan data latih 963 tweet yang terdiri atas 330 non
opini dan 633 opini. Dilakukan testing pada 300 tweet
dengan akurasi 91.83%. Akurasi ini lebih tinggi dari
perkiraan sebelumnya mengingat karakteristik tweet yang
tidak terstruktur dan mengandung noise yang tinggi.
Eksperimen ini juga memperlihatkan bahwa jumlah
tweet yang mengandung opini mencapai 82.89% dari total
tweet ujicoba. Ini menunjukkan bahwa potensi analisis
opini sangat besar pada domain ini karena banyak tersedia
tweet yang mengandung opini yang dapat diproses.
Berikutnya diujicoba classifier model untuk kelas
opini negatif dan opini positif. Yang digunakan sebagai
data latih adalah 633 opini hasil ujicoba model
sebelumnya, 633 opini ini terdiri atas 470 opini negatif
dan 143 opini positif. Akurasi yang diperoleh 93.40%,
menunjukkan model cukup dapat membedakan tweet
beropini negatif dan positif.
Terakhir adalah ujicoba keyword extractor. Setelah
hasilnya dibandingkan dengan keyword ideal (disusun
oleh manusia, bukan mesin), dari 29 keyword yang
harusnya diambil, sistem hanya memperoleh
10
keyword (34.48%).
Contoh berikut adalah keyword ideal untuk opini
negatif:
Ujicoba Sistem
Setelah model dianggap cukup untuk digunakan
didalam sistem analisis opini, maka dilakukan ujicoba
terhadap 33000 tweet dalam rentang 27 hari.
33000 tweet tersebut dipecah per hari, kemudian
dilakukan proses seperti yang telah dijelaskan sebelumnya
(opini atau bukan, opini positif atau negatif dan keyword
sesuai dengan opini).
Hasilnya dapat dilihat pada Gambar 8.
[4]
[5]
[6]
[7]
[8]
8.
Kesimpulan
Makalah ini telah membahas pengembangan awal
sistem analisis opini untuk microblogging. Telah dibahas
arsitektur sistem, pengujian model yang digunakan di
dalam sistem sampai dengan ujicoba sistem.
Potensi dan kontribusi sistem ini dapat terlihat
dengan jelas. 33 ribu tweet (atau lebih) dalam rentang satu
bulan dapat ditampilkan dalam bentuk grafik, dan difilter
secara otomatis mana yang opini dan apakah opini
tersebut negatif atau positif, beserta keyword yang
relevan.
Hasil eksperimen menunjukkan akurasi untuk model
klasifikasi tweet opini dan nonopini adalah 91.83%
sedangkan untuk model klasifikasi opini negatif dan
positif mencapai 93.40%.
Sedangkan untuk keyword
extraction masih kurang memuaskan karena hanya
34.48% keyword yang dapat diambil.
Untuk penelitian selanjutnya, model keyword
extraction perlu diperbaiki untuk mendapatkan hasil yang
lebih maksimal.
.
Daftar Pustaka:
[1]
[2]
[3]
[9].