1.aprianti Memanfaatkan Big Data Untuk Mendeteksi Emosi PDF
1.aprianti Memanfaatkan Big Data Untuk Mendeteksi Emosi PDF
2 - 2013
ABSTRAK
Layanan sosial media merupakan penyedia sumber daya yang menyediakan data yang cukup besar. Data yang
cukup besar ini kemudian dapat dimanfaatkan dengan berbagai kebutuhan. Kebutuhan yang digunakan untuk
berbagai tujuan. Tujuan tersebut dapat berupa pengolahan data untuk memonitoring pengguna.
Dengan berkembangnya sosial media, akan tersimpan banyak data yang akan terus menerus bertambah. Setiap
pertambahan pengguna, bertambah pula lokasi data yang tersimpan. Apabila pengguna menikmati layanan dari
social media tersebut, ditambah jika layanan tersebut menambah benefit, maka semakin besar pula data yang
akan tersimpan pada server sosial media tersebut. Data yang berukuran raksasa ini dapat diproses dan
dimanfaatkan.
Paper ini akan menjelaskan tentang pemanfaatkan data yang tersimpan di microblogging twitter untuk
mendeteksi emosi melalui hastag. Dengan memanfaatkan hastag, akan dibuat dataset tersendiri. Menggunakan
algoritma Naïve Bayes dan Liblinear.
1
Aprianti Putri Sujana
Data mining merupakan teknologi yang Setiap tweet yang dikumpulkan secara otomatis
menggabungkan metode analisis tradisional dengan berlabel dengan satu emosi sesuai dengan emosi
algortima yang canggih untuk memproses data hashtag nya, dan hashtag sendiri dihapus dari tweet.
dengan volume besar. Sebagai contoh, dari tweet yang masuk ". Aku benci
ketika ibuku membandingkan saya ke teman-teman
Data mining atau Knowledge Discovery in saya #menjengkelkan", diperoleh contoh data
Databases (KDD) adalah pengambilan informasi berikut: "Aku benci ketika ibuku membandingkan
yang tersembunyi, dimana informasi tersebut saya ke teman-temanku" diberi label dengan
sebelumnya tidak dikenal dan berpotensi kemarahan, karena mengandung "#menjengkelkan"
bermanfaat. Proses ini meliputi sejumlah pendekatan hashtag.
teknis yang berbeda, seperti clustering, data
summarization, learning classification rules. Sumber dari kata-kata emosi adalah Shaver’s dkk
dikutip dari prototype psikologi [12] , di mana para
Data mining adalah serangkaian proses untuk penulis mengatur emosi menjadi sebuah hirarki di
menggali nilai tambah dari suatu kumpulan data mana lapisan pertama berisi enam emosi dasar yaitu,
berupa pengetahuan yang selama ini tidak diketahui (kasih, sukacita, kejutan, kemarahan, kesedihan, dan
secara manual. ketakutan) dan lapisan kedua berisi 25 emosi
sekunder yang subkategori dari enam emosi dasar .
Salah satu tuntuntan dari data mining ketika Setiap emosi sekunder memiliki daftar kata-kata
diterapkan pada data berskala besar adalah emosi . Selanjutnya memperluas daftar kata-kata
diperlukan metodologi sistematis tidak hanya ketika emosi dengan memasukkan varian leksikal mereka ,
melakukan analisa saja tetapi juga ketika misalnya menambahkan "mengejutkan" dan
mempersiapkan data dan juga melakukan "terkejut" untuk "surprise" . Selain itu, menghapus
interperstasi dari hasilnya sehingga dapat menjadi kata-kata ambigu . Untuk setiap emosi dasar
aksi ataupun keputusan yang bermanfaat. menggunakan kata-kata emosi yang sesuai dengan
emosi sekunder ketika mengumpulkan tweet . Selain
Text Mining yang disebutkan di atas enam emosi dasar,
Menurut Feldman, R. dan Sanger, J. “text mining menambahkan satu lagi emosi dasar, syukur, yang
adalah sebuah proses pengetahuan intensif dimana tidak tercakup oleh [12]. Tabel I menunjukkan tujuh
pengguna berinteraksi dan bekerja dengan emosi , hashtags sampel emosi , contoh tweet dan
sekumpulan dokumen dengan menggunakan jumlah tweet di masing-masing kategori setelah
beberapa alat analisis” (2007, hlm. 1). Text mining penyaringan yang relevan .
mencoba untuk mengekstrak informasi yang
berguna dari sumber data melalui identifikasi dan Teknik penyaringan dikembangkan pada set tersebut
eksplorasi dari suatu pola menarik. Sumbner data dari 400 tweet, penyaringan tersebut berupa hanya
berupa sekumpulan dokumen dan pola menarik yang mengambil tweet dengan emosi hastag diakhir,
tidak ditemukan dalam bentuk database record, karena jika hastag tidak diakhir kecil kemumngkinan
tetapi dalam data text yang tidak terstruktur. adalah emosi penulis.
2
Memanfaatkan Big Data Untuk Mendeteksi Emosi
3
Aprianti Putri Sujana
yang terdiri dari 23,0 % dari semua tweet dalam 18, 2009.
dataset. Precision dari tiga kategori emosi yang [8.] G. Mishne, “Experiments with mood
relatif tinggi (dengan precision terendah 58,1%) classification in blog posts,” in Proceedings of
ACM SIGIR 2005 Workshop on Stylistic
dibandingkan dengan recall, tetapi karena ingat
Analysis of Text for Information Access.
rendah untuk masing-masing emosi. Untuk [9.] S. Mohammad, “#emotional tweets,” in
minoritas emosi yang tersisa yaitu surprise, dengan Proceedings of the Sixth Inter- national
hanya 1,0 % dari seluruh tweet, classifier Workshop on Semantic Evaluation. ACL, 7-8
mendapatkan precison terendah begitu pula dengan June 2012, pp. 246–255.
recall dari data pelatihan. [10.] A. Neviarouskaya, H. Prendinger, and M.
Ishizuka, “Affect analysis model: Novel rule-
5. KESIMPULAN based approach to affect sensing from text,”
Kesimpulan yang dapat diambil adalah : Natural Language Engineering, vol. 17, no. 1,
1. Hastag dapat diidentifikasi menjadi sebuah pp. 95–135, 2011.
emosi yang secara otomatis ditulis oleh penulis [11.] B. Pang, L. Lee, and S. Vaithyanathan,
ini lebih akurat dibandingkan metode “Thumbs up?: sentiment classi- fication using
pendeteksian emosi dengan text. machine learning techniques,” in Proceedings of
2. Cara ini sangat cepat mengingat data yang EMNLP. ACL, 2002, pp. 79–86.
dikumpulkan lebih banyak. [12.] P. Shaver, J. Schwartz, D. Kirson, and C.
3. data training yang lebih besar akan O’connor, “Emotion knowl- edge: Further
menyebabkan akurasi yang lebih tinggi untuk exploration of a prototype approach.” Journal of
identifikasi emosi karena dapat memberikan person- ality and social psychology, vol. 52,
cakupan yang komprehensif dari momen no. 6, pp. 1061–1086, 1987.
emosional dalam hidup kita sehari-hari . [13.] C. Strapparava and R. Mihalcea, “Learning
to identify emotions in text,” in Proceedings of
6. DAFTAR PUSTAKA the 2008 ACM symposium on Applied
[1.] C. Alm, D. Roth, and R. Sproat, “Emotions computing. ACM, 2008, pp. 1556–1560.
from text: machine learning for text-based [14.] C. Strapparava and A. Valitutti, “Wordnet-
emotion prediction,” in Proceedings of HLT and affect: an affective extension of wordnet,” in
EMNLP. ACL, 2005, pp. 579–586. Proceedings of LREC, vol. 4. Citeseer, 2004,
[2.] S. Aman and S. Szpakowicz, “Using roget’s pp. 1083– 1086.
thesaurus for fine-grained emotion recognition,” [15.] C. Strapparava and R. Mihalcea, “Semeval-
in Proceedings of IJCNLP, 2008, pp. 296–302. 2007 task 14: affective text,” in Proceedings of
[3.] P. Chesley, B. Vincent, L. Xu, and R. K. the 4th International Workshop on Semantic
Srihari, “Using verbs and adjectives to Evaluations, ser. SemEval ’07, 2007, pp. 70–
automatically classify blog sentiment,” in AAAI 74.
Spring Symposium: Computational Approaches [16.] R. Tokuhisa, K. Inui, and Y. Matsumoto,
to Analyzing Weblogs, 2006, pp. 27–29. “Emotion classification using massive
[4.] M. D. Choudhury, S. Counts, and M. Gamon, examples extracted from the web,” in
“Not all moods are created equal! exploring Proceedings of COLING. ACL, 2008, pp. 881–
human emotional states in social media,” in 888.
Proceedings of ICWSM, 2012. [17.] T. Wilson, J. Wiebe, and P. Hoffmann,
[5.] R. Fan, K. Chang, C. Hsieh, X. Wang, and C. “Recognizing contextual polarity in phrase-
Lin, “Liblinear: A library for large linear level sentiment analysis,” in Proceedings of
classification,” The Journal of Machine HLT and EMNLP. ACL, 2005, pp. 347–354.
Learning Research, vol. 9, pp. 1871–1874, [18.] A. Witten, E. Frank, and M. Hall, Data
2008. Mining: Practical machine learning tools and
[6.] K. Gimpel, N. Schneider, B. O’Connor, D. Das, techniques. Morgan Kaufmann, 2011.
D. Mills, J. Eisenstein, M. Heilman, D. [19.] C. Yang, K. Lin, and H. Chen, “Emotion
Yogatama, J. Flanigan, and N. A. Smith, “Part- classification using web blog corpora,” in
of- speech tagging for twitter: annotation, IEEE/WIC/ACM International Conference on
features, and experiments,” in Proceedings of Web Intelligence. IEEE, 2007, pp. 275–278.
HLT:short papers, ser. HLT ’11. Stroudsburg, [20.] W. Wang, Lu Chen, K. Thirunarayan, A. P.
PA, USA: ACL, 2011, pp. 42–47. Sheth, “Harnessing Twitter ‘Big Data’ for
[7.] M. Hall, E. Frank, G. Holmes, B. Pfahringer, P. Automatic Emotion Identification”. in
Reutemann, and I. Witten, “The weka data IEEE/ASE International Congference on Social
mining software: an update,” ACM SIGKDD Computing and International Conference on
Explorations Newsletter, vol. 11, no. 1, pp. 10– Privacy, Security, Risk, and Trust. IEEE, 2012
pp. 587 – 592
4