Anda di halaman 1dari 4

Jurnal Teknik Komputer Unikom – Komputika – Volume 2, No.

2 - 2013

MEMANFAATKAN BIG DATA UNTUK MENDETEKSI EMOSI


Aprianti Putri Sujana
Teknik Komputer Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung (STEI ITB)
e-mail: putrisujana@students.itb.ac.id

ABSTRAK
Layanan sosial media merupakan penyedia sumber daya yang menyediakan data yang cukup besar. Data yang
cukup besar ini kemudian dapat dimanfaatkan dengan berbagai kebutuhan. Kebutuhan yang digunakan untuk
berbagai tujuan. Tujuan tersebut dapat berupa pengolahan data untuk memonitoring pengguna.
Dengan berkembangnya sosial media, akan tersimpan banyak data yang akan terus menerus bertambah. Setiap
pertambahan pengguna, bertambah pula lokasi data yang tersimpan. Apabila pengguna menikmati layanan dari
social media tersebut, ditambah jika layanan tersebut menambah benefit, maka semakin besar pula data yang
akan tersimpan pada server sosial media tersebut. Data yang berukuran raksasa ini dapat diproses dan
dimanfaatkan.
Paper ini akan menjelaskan tentang pemanfaatkan data yang tersimpan di microblogging twitter untuk
mendeteksi emosi melalui hastag. Dengan memanfaatkan hastag, akan dibuat dataset tersendiri. Menggunakan
algoritma Naïve Bayes dan Liblinear.

Kata kunci: Big Data, Naïve Bayes

1. PENDAHULUAN terjadi dalam kehidupan kita sehari-hari dinyatakan


Emosi bersifat umum dan penting untuk semua menggunakan hashtags emosi. Misalnya, "
aspek kehidupan kita. Ini mempengaruhi keputusan berangkat ke rumah sakit #sedih", dalam tweet
dalam hubungan social. Membentuk perilaku kita pengguna menambahkan catatan tweet dengan
sehari-hari, bahkan kenangan kita. Dengan hashtag #sedih untuk mengekspresikan kegelisahan
pertumbuhan teknologi yang cepet kita dapat emosi .
mengekspresikan emosi tersebut dan
mempublikasikannya dengan microblog, posting
blog dan forum diskusi. Sehingga banyak 2. DASAR TEORI
dikembangkan alat otomatis untuk menganalisis
emosi seseorang yang dapat dinyatakan dengan teks. Big Data
Big data adalah data berukuran besar yang
Mengidentifikasi emosi diekspresikan dalam teks volumenya akan terus bertambah, terdiri dari
sangat menantang untuk setidaknya dua alasan. berbagai jenis atau varietas data, terbentuk secara
Pertama, emosi bisa implisit dan dipicu oleh terus menerus dengan kecepatan tertentu dan harus
peristiwa atau situasi tertentu. Teks menggambarkan diproses dengan kecepatan tertentu pula.
suatu peristiwa atau situasi yang menyebabkan Big data dapat juga didefinisikan data yang sudah
emosi bisa tanpa kata-kata secara eksplisit. sangat sulit untuk dikoleksi, disimpan dan dikelola
maupun dianalisa dengan menggunakan system
Sebagian besar penelitian identifikasi emosi saat ini database yang biasa karena volumenya yang terus
bergantung pada data training dijelaskan secara berlipat.
manual [1], [2]. Penjelasan data manual oleh para Dari segi teknologi, akan bermunculan akan
ahli memakan waktu lebih lama. Selain itu, berbeda pentingnya kemampuan untuk memproses big data.
dengan tugas-tugas penjelasan lain seperti entitas Semenjak itu, teknik akses dan penyimpanan data
atau deteksi topik, menentukan emosi dalam teks KVS (Key-Value Store) dan teknik komputasi
cenderung subyektif dan bervariasi, dan karenanya, parallel yang disebut MapReduce.
kurang dapat diandalkan. Akibatnya, sebagian besar
dataset emosi yang ada relatif kecil, dari urutan
ribuan entri, yang gagal untuk menyediakan cakupan Data Mining
yang komprehensif dari peristiwa emosi pemicu dan Kemajuan dalam pengumpulan data dan teknologi
situasi. penyimpanan yang cepat memungkinkan organisasi
menghimpun jumlah data yang sangat luas. Alat dan
Meskipun ada kekurangan data berlabel cukup untuk teknik analisis data yang tradisional tidak dapat
penelitian emosi , banyak layanan sosial media telah digunakan untuk mengekstrak informasi dari data
memasuki era data yang besar. Twitter, layanan yang sangat besar. Untuk itu diperlukan suatu
microblogging populer , menyediakan lebih dari 340 metode baru yang dapat menjawab kebutuhan
juta tweet per hari pada berbagai topik , dan menjadi tersebut.
bagian penting dari itu adalah tentang apa yang

  1
Aprianti Putri Sujana

Data mining merupakan teknologi yang Setiap tweet yang dikumpulkan secara otomatis
menggabungkan metode analisis tradisional dengan berlabel dengan satu emosi sesuai dengan emosi
algortima yang canggih untuk memproses data hashtag nya, dan hashtag sendiri dihapus dari tweet.
dengan volume besar. Sebagai contoh, dari tweet yang masuk ". Aku benci
ketika ibuku membandingkan saya ke teman-teman
Data mining atau Knowledge Discovery in saya #menjengkelkan", diperoleh contoh data
Databases (KDD) adalah pengambilan informasi berikut: "Aku benci ketika ibuku membandingkan
yang tersembunyi, dimana informasi tersebut saya ke teman-temanku" diberi label dengan
sebelumnya tidak dikenal dan berpotensi kemarahan, karena mengandung "#menjengkelkan"
bermanfaat. Proses ini meliputi sejumlah pendekatan hashtag.
teknis yang berbeda, seperti clustering, data
summarization, learning classification rules. Sumber dari kata-kata emosi adalah Shaver’s dkk
dikutip dari prototype psikologi [12] , di mana para
Data mining adalah serangkaian proses untuk penulis mengatur emosi menjadi sebuah hirarki di
menggali nilai tambah dari suatu kumpulan data mana lapisan pertama berisi enam emosi dasar yaitu,
berupa pengetahuan yang selama ini tidak diketahui (kasih, sukacita, kejutan, kemarahan, kesedihan, dan
secara manual. ketakutan) dan lapisan kedua berisi 25 emosi
sekunder yang subkategori dari enam emosi dasar .
Salah satu tuntuntan dari data mining ketika Setiap emosi sekunder memiliki daftar kata-kata
diterapkan pada data berskala besar adalah emosi . Selanjutnya memperluas daftar kata-kata
diperlukan metodologi sistematis tidak hanya ketika emosi dengan memasukkan varian leksikal mereka ,
melakukan analisa saja tetapi juga ketika misalnya menambahkan "mengejutkan" dan
mempersiapkan data dan juga melakukan "terkejut" untuk "surprise" . Selain itu, menghapus
interperstasi dari hasilnya sehingga dapat menjadi kata-kata ambigu . Untuk setiap emosi dasar
aksi ataupun keputusan yang bermanfaat. menggunakan kata-kata emosi yang sesuai dengan
emosi sekunder ketika mengumpulkan tweet . Selain
Text Mining yang disebutkan di atas enam emosi dasar,
Menurut Feldman, R. dan Sanger, J. “text mining menambahkan satu lagi emosi dasar, syukur, yang
adalah sebuah proses pengetahuan intensif dimana tidak tercakup oleh [12]. Tabel I menunjukkan tujuh
pengguna berinteraksi dan bekerja dengan emosi , hashtags sampel emosi , contoh tweet dan
sekumpulan dokumen dengan menggunakan jumlah tweet di masing-masing kategori setelah
beberapa alat analisis” (2007, hlm. 1). Text mining penyaringan yang relevan .
mencoba untuk mengekstrak informasi yang
berguna dari sumber data melalui identifikasi dan Teknik penyaringan dikembangkan pada set tersebut
eksplorasi dari suatu pola menarik. Sumbner data dari 400 tweet, penyaringan tersebut berupa hanya
berupa sekumpulan dokumen dan pola menarik yang mengambil tweet dengan emosi hastag diakhir,
tidak ditemukan dalam bentuk database record, karena jika hastag tidak diakhir kecil kemumngkinan
tetapi dalam data text yang tidak terstruktur. adalah emosi penulis.

3. PEMBAHASAN Kemudian penyaringan berupa tweet yang memiliki


Dengan menggunakan 131 hastags emosi sebagai kurang dari lima kata, karena tidak dapat ditarik
kata kunci dan mengumpulkan 5 juta tweet untuk 7 kesimpulan bahwa tidak dapat menyimpulkan
kategori emosi (sukacita, kesedihan, kemarahan, sebuah emosi.
cinta, rasa takut , rasa syukur, kejutan) antara 10
November 2011 dan 22 Desember , 2011 (lihat Penyaringan selanjutnya menghapus tweet yang
Tabel II). Dengan menggunakan algoritma berisi url. Karena tweet yang mengandung url kecil
Multinomial Naïve Bayes (MNB) kemungkanan merupakan luapan emosi penulis.
Sejumlah besar tweet yang berisi url hanyalah
3.1 Mengumpulkan Data Emosi sebuah informasi yang disampaikan oleh penulis.
Pada bagian ini, menjelaskan bagaimana secara
otomatis membuat sebuah dataset emosi berlabel Setelah menerapkan penyaringan pada semua tweet
dari Twitter. Kami pertama kali mengumpulkan 7 akhirnya memperoleh koleksi 2.488.982 tweet.
set kata-kata emosi selama 7 emosi yang berbeda Distribusi tweets per emosi diringkas dalam Tabel I.
(misalnya, kata "mengganggu" untuk marah emosi)
dari psikologi literatur yang ada [12], dan kemudian TABEL I
dimanfaatkan Twitter API streaming untuk Klasifikasi Emosi Hasil Penyaringan
mengumpulkan tweet yang memiliki salah satu dari Emosi Hastag # tweet
kata-kata emosi ini dalam bentuk dari hashtag
(misalnya, #menjengkelkan). Kegembiraan excited, happy, 706.182

  2  
Memanfaatkan Big Data Untuk Mendeteksi Emosi

elated, proud (36) Untuk dataset dilambangkan dengan E adalah tweet


dengan emosi, E’ tweet dengan klasifikasi dari
Kesedihan Sadness, sorrow, 616.471 emosi setelah dilakukan penyaringan. Kemudian
unhappy,
depressing, (36)
dapat dihitung precision dari emosi :

Kemarahan irritating, annoyed, 574.170 𝐸 ∩ 𝐸′


frustrate, fury (23) 𝑝𝑟𝑒 𝑒 =
𝐸′
Rasa cinta affection, lovin, 301.759
loving, fondness
Precision adalah tingkat ketepatan hasil klasifikasi
(7) terhadap suatu kejadian. Dan menghitung recall dari
emosi :
Ketakutan fear, panic, fright, 135.154
worry, scare (22) 𝐸 ∩ 𝐸′
𝑟𝑒𝑐 𝑒 =
Rasa Syukur thankfulness, 131.340
𝐸
thankful (2)
Recall adalah tingkat keberhasilan suatu kejadian
Terkejut surprised, 23.906 dari seluruh kejadian yang harusnya dikenali.
astonished,
unexpected (5)
Kami meneliti efek meningkatkan ukuran
TOTAL 131 2.488.982 dataset pelatihan pada keakuratan LIBLINEAR
dan MNB pengklasifikasi . Karena kebanyakan
identifikasi emosi yang masih ada [ 2 ]
4. PENGUJIAN DAN ANALISA
dilakukan pada dataset ribu kalimat , kami
Dari 2.488.982 tweet pada Tabel II , secara acak berharap untuk mendapatkan wawasan baru dan
sampel 250.000 tweet sebagai dataset uji Te, selain manfaat menggunakan data pelatihan yang
itu secara acak sampel 247.798 tweet sebagai dataset besar .
pengembangan untuk tuning algoritma, dan
menggunakan 1.991.184 tweet tersisa
(dilambangkan sebagai Tr) untuk training data. TABEL II
Liblinear dengan Data Training
Analisa dilakukan dengan data dibagi menjadi Emosi Precision ( % ) Recall ( % )
delapan Tr subset ( dilambangkan sebagai Tr1 , Tr2 ,
... , TR8), masing-masing terdiri 248.898 tweet . Tr1 Joy 28.5% 67.6 72.1
digunakan untuk menjelajahi fitur yang efektif , dan
semua delapan subset yang digunakan untuk Sadness 24.6% 62.6 64.7
pengujian.
Anger 23.0% 69.8 71.5
Data preprocessing : lower-cased, mengganti user
yang ditautkan (misalnya, @ladygaga ) dengan Love 12.1% 58.1 51.5
@user menjadi anonim mengganti tanda baca yang
diulang lebih dari dua kali dengan dua huruf yang Fear 5.6% 59.7 43.9
sama / tanda baca ( misalnya , cooool → keren , → )
; ! ! ! dinormalisasi beberapa sering digunakan Thankfulness 5.3% 66.6 57.1
ekspresi formal ( misalnya , ‘ll → will , dnt → do
not) , dan menanggalkan simbol hash ( #besok → Surprise 1.0% 44.7 13.9
besok ) .

Klasifikasi data menggunakan LIBLINEAR [5] dan


Multinomial Naïve Bayes (MNB) [18], karena Tabel II menunjukkan kinerja LIBLINEAR
mereka sangat efisien bahkan untuk menangani
classifier (dengan semua tweet di Tr) pada masing-
jutaan tweet . Dengan mengimplementasi Weka ini
[7] untuk MNB . Dan menggunakan regresi logistik masing kategori emosi. Terdapat tiga emosi yang
untuk cabang LIBLINEAR dan nilai-nilai default paling populer joy, sadness dan anger, yang
untuk semua parameter di kedua pengklasifikasi . merupakan 76,1% dari seluruh tweet , classifier
mencapai precision lebih dari 62% dan recall lebih
Kinerja keseluruhan classifier dapat dihitung dengan dari 66% untuk masing-masing dari tiga emosi.
#  !"##!  !"#$%#  !"#$!
: 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = Penurunan kinerja dapat dilihat pada tiga emosi
#  !"#$%  !"##!  !"#"  !"#"$%#
kurang popular yaitu love, fear, dan thankfulness

  3
Aprianti Putri Sujana

yang terdiri dari 23,0 % dari semua tweet dalam 18, 2009.
dataset. Precision dari tiga kategori emosi yang [8.] G. Mishne, “Experiments with mood
relatif tinggi (dengan precision terendah 58,1%) classification in blog posts,” in Proceedings of
ACM SIGIR 2005 Workshop on Stylistic
dibandingkan dengan recall, tetapi karena ingat
Analysis of Text for Information Access.
rendah untuk masing-masing emosi. Untuk [9.] S. Mohammad, “#emotional tweets,” in
minoritas emosi yang tersisa yaitu surprise, dengan Proceedings of the Sixth Inter- national
hanya 1,0 % dari seluruh tweet, classifier Workshop on Semantic Evaluation. ACL, 7-8
mendapatkan precison terendah begitu pula dengan June 2012, pp. 246–255.
recall dari data pelatihan. [10.] A. Neviarouskaya, H. Prendinger, and M.
Ishizuka, “Affect analysis model: Novel rule-
5. KESIMPULAN based approach to affect sensing from text,”
Kesimpulan yang dapat diambil adalah : Natural Language Engineering, vol. 17, no. 1,
1. Hastag dapat diidentifikasi menjadi sebuah pp. 95–135, 2011.
emosi yang secara otomatis ditulis oleh penulis [11.] B. Pang, L. Lee, and S. Vaithyanathan,
ini lebih akurat dibandingkan metode “Thumbs up?: sentiment classi- fication using
pendeteksian emosi dengan text. machine learning techniques,” in Proceedings of
2. Cara ini sangat cepat mengingat data yang EMNLP. ACL, 2002, pp. 79–86.
dikumpulkan lebih banyak. [12.] P. Shaver, J. Schwartz, D. Kirson, and C.
3. data training yang lebih besar akan O’connor, “Emotion knowl- edge: Further
menyebabkan akurasi yang lebih tinggi untuk exploration of a prototype approach.” Journal of
identifikasi emosi karena dapat memberikan person- ality and social psychology, vol. 52,
cakupan yang komprehensif dari momen no. 6, pp. 1061–1086, 1987.
emosional dalam hidup kita sehari-hari . [13.] C. Strapparava and R. Mihalcea, “Learning
to identify emotions in text,” in Proceedings of
6. DAFTAR PUSTAKA the 2008 ACM symposium on Applied
[1.] C. Alm, D. Roth, and R. Sproat, “Emotions computing. ACM, 2008, pp. 1556–1560.
from text: machine learning for text-based [14.] C. Strapparava and A. Valitutti, “Wordnet-
emotion prediction,” in Proceedings of HLT and affect: an affective extension of wordnet,” in
EMNLP. ACL, 2005, pp. 579–586. Proceedings of LREC, vol. 4. Citeseer, 2004,
[2.] S. Aman and S. Szpakowicz, “Using roget’s pp. 1083– 1086.
thesaurus for fine-grained emotion recognition,” [15.] C. Strapparava and R. Mihalcea, “Semeval-
in Proceedings of IJCNLP, 2008, pp. 296–302. 2007 task 14: affective text,” in Proceedings of
[3.] P. Chesley, B. Vincent, L. Xu, and R. K. the 4th International Workshop on Semantic
Srihari, “Using verbs and adjectives to Evaluations, ser. SemEval ’07, 2007, pp. 70–
automatically classify blog sentiment,” in AAAI 74.
Spring Symposium: Computational Approaches [16.] R. Tokuhisa, K. Inui, and Y. Matsumoto,
to Analyzing Weblogs, 2006, pp. 27–29. “Emotion classification using massive
[4.] M. D. Choudhury, S. Counts, and M. Gamon, examples extracted from the web,” in
“Not all moods are created equal! exploring Proceedings of COLING. ACL, 2008, pp. 881–
human emotional states in social media,” in 888.
Proceedings of ICWSM, 2012. [17.] T. Wilson, J. Wiebe, and P. Hoffmann,
[5.] R. Fan, K. Chang, C. Hsieh, X. Wang, and C. “Recognizing contextual polarity in phrase-
Lin, “Liblinear: A library for large linear level sentiment analysis,” in Proceedings of
classification,” The Journal of Machine HLT and EMNLP. ACL, 2005, pp. 347–354.
Learning Research, vol. 9, pp. 1871–1874, [18.] A. Witten, E. Frank, and M. Hall, Data
2008. Mining: Practical machine learning tools and
[6.] K. Gimpel, N. Schneider, B. O’Connor, D. Das, techniques. Morgan Kaufmann, 2011.
D. Mills, J. Eisenstein, M. Heilman, D. [19.] C. Yang, K. Lin, and H. Chen, “Emotion
Yogatama, J. Flanigan, and N. A. Smith, “Part- classification using web blog corpora,” in
of- speech tagging for twitter: annotation, IEEE/WIC/ACM International Conference on
features, and experiments,” in Proceedings of Web Intelligence. IEEE, 2007, pp. 275–278.
HLT:short papers, ser. HLT ’11. Stroudsburg, [20.] W. Wang, Lu Chen, K. Thirunarayan, A. P.
PA, USA: ACL, 2011, pp. 42–47. Sheth, “Harnessing Twitter ‘Big Data’ for
[7.] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Automatic Emotion Identification”. in
Reutemann, and I. Witten, “The weka data IEEE/ASE International Congference on Social
mining software: an update,” ACM SIGKDD Computing and International Conference on
Explorations Newsletter, vol. 11, no. 1, pp. 10– Privacy, Security, Risk, and Trust. IEEE, 2012
pp. 587 – 592

  4  

Anda mungkin juga menyukai