1. JUDUL PENELIľIAN
DEEP NEURAL NEľWORK DENGAN GABUNGAN REPRESENľASI FIľUR PADA ANALISA SENľIMEN ULASAN
FILM
2. IDENľIľAS PENGUSUL
Nama, Peían Peíguíuan ľinggi/ Píogíam Studi/ Bidang ľugas ID Sinta
Institusi Bagian
SUGENG HENDRA Univeísitas Bakti ľeknik Infoímatika Kooídinasi Penelitian, 6778628
WIJAYA Indonesia Pengumpulan data,
Analisis data,
Ketua Pengusul Inteípíetasi data,
Pembuatan Lapoían.
NOVI Univeísitas Bakti Sistem Infoímasi Pengumpulan dan 6770760
ANDAYANINGľYAS Indonesia analisis data,
Pembuatan lapoían
Anggota Pengusul
5. ANGGARAN
Rencana Anggaían Biaya penelitian mengacu pada PMK dan buku Panduan Penelitian dan Pengabdian
kepada Masyaíakat yang beílaku.
JUDUL
Tuliskan Judul Usulan
DEEP NEURAL NETWORK DENGAN GABUNGAN REPRESENTASI FITUR
PADA ANALISA SENTIMEN ULASAN FILM
RINGKASAN
Ringkasan penelitian tidak lebih dari 300 kata yang berisi urgensi, tujuan, dan luaran yang ditargetkan.
Mengetahui tingkat kepuasan penggemar film merupakan suatu hal yang signifikan. Oleh
karena itu, diperlukan bidang penelitian untuk mengakomodir hal tersebut. Analisa sentimen
merupakan topik yang dibahas dalam penelitian ini. Analisa sentimen tersebut diterapkan
pada data ulasan film yang merupakan kumpulan teks ulasan terkait film tertentu yang
diutarakan oleh penggemar film. Pendekatan yang diusulkan dalam penelitian ini ialah
penggabungan teknik representasi fitur TF-IDF dan word2vec dan algoritma pengklasifikasi
deep neural network. Teknik TF-IDF menghitung kemunculan term dan memboboti term
tersebut. Sedangkan word2vec merepresentasikan term kedalam bentuk vektor. Dari
penelitian yang diterapkan didapatkan hasil yang menyatakan bahwa penggabungan teknik
representasi fitur menghasilkan akurasi yang lebih tinggi daripada teknik TF-IDF sendiri.
Oleh karena itu, performa gabungan representasi fitur dalam akurasi lebih tinggi daripada
representasi fitur tunggal. Diharapkan kepada penelitian selanjutnya untuk meningkatkan
akurasi dengan menggabungkan metode lain dan terbaru menggunakan dataset yang lebih
kompleks.
KATA KUNCI
Kata kunci maksimal 5 kata
Analisa sentimen, word2vec, TFIDF, DNN
PENDAHULUAN
Penelitian Dasar merupakan riset yang memuat temuan baru atau pengembangan ilmu pengetahuan
dari kegiatan riset yang terdiri dari tahapan penentuan asumsi dan dasar hukum yang akan digunakan,
formulasi konsep dan/ atau aplikasi formulasi dan pembuktian konsep fungsi dan/ atau karakteristik
penting secara analitis dan eksperimental.
Pendahuluan penelitian tidak lebih dari 1000 kata yang terdiri dari:
A. Latar belakang dan rumusan permasalahan yang akan diteliti
B. Pendekatan pemecahan masalah
C. State of the art dan kebaruan
D. Peta jalan (road map) penelitian 5 tahun kedepan (jika dalam bentuk konsorsium harus dilengkapi
dengan roadmap penelitian konsorsium)
E. Sitasi disusun dan ditulis berdasarkan sistem nomor sesuai dengan urutan pengutipan, mengikuti
format Vancouver
Berkembangnya teknologi yang dibuktikan dengan penggunaan internet oleh masyarakat dengan
ekonomi bawah, menengah dan atas yang semakin luas. Dalam penelitian Mohammad
Soleymani dkk [1] dinyatakan bahwa salah satu media untuk mengekspresikan pendapat adalah
melalui World Wide Web (WWW). Hal tersebut membuktikan bahwa internet menjadi media
yang didahulukan manusia untuk mempermudah kehidupan mereka dan mengungkapkan ide
maupun opini subjektif terhadap sesuatu. Internet menyediakan beragam layanan dengan
beberapa fungsi seperti komunikasi, promosi, dan sebagainya. Dengan banyaknya layanan
tersebut, maka akan menumpuk data yang kompleks, yang disebut sebagai big data.
Berdasarkan Vinay Kumar Jain dkk [2] dan Gabriel Cánepa [3] bahwa sebuah proses analisa
sentimen adalah penggunaan beberapa metode untuk mengetahui polaritas bahasa yang
terkandung dalam bentuk opini, ekspresi, dan perilaku yang ditimbulkan orang terhadap entitas
seperti; manusia, topik pembicaraan, jasa dan entitas lain. Sedangkan polaritas merupakan
orientasi dari emosi yang diekspresikan manusia melalui kalimat. Polaritas tersebut dapat dibagi
menjadi tiga kelas seperti positif, negatif dan netral. Analisa sentimen terhadap opini manusia
dilakukan berdasarkan prinsip bahwa semua ujaran pengguna terhadap suatu entitas tertentu
dapat dimanfaatkan sebagai dasar pengambilan keputusan yang tepat guna dan sasaran. Contoh
dari penerapan analisa sentimen yaitu; sebuah perusahaan ingin memahami tingkat kepuasan
pelanggan terhadap produk yang ditawarkan dan yang dapat memberikan manfaat kepada
pelanggan. Hal tersebut kemudian diwujudkan dalam bentuk umpan balik pelanggan terhadap
produk yang mereka gunakan berupa komentar dan masukan. Contoh lain dalam ranah partai
politik yaitu pada pihak tertentu yang ingin mengetahui tingkat kepentingan publik untuk
memilih partai tertentu. Oleh sebab itu, penelitian di bidang analisis sentimen layak dilakukan
sebagai bahan pendukung dalam pengambilan keputusan yang lebih efektif. Dalam hal ini,
penelitian berfokus pada analisa sentimen dalam domain ulasan film.
Devika dkk [4], menyatakan bahwa terdapat beberapa bidang analisis sentimen termasuk
klasifikasi subjektivitas, inferensi opini, klasifikasi sentimen, ironi dan sarkasme, pengambilan
pendapat, dan lain-lain. Dalam beberapa pandangan, emosi yang mengandung beberapa
pengertian internal seperti sentimen, tidak sepenuhnya memanifestasikan dirinya sebagai
ekspresi. Dari berbagai macam ekspresi atau manifestasi opini dari manusia, yang menjadi
batasan masalah dalam penelitian ini ialah analisa sentimen dalam bentuk teks pada ulasan film.
Dalam pernyataan [5] disimpulkan empat ketegori pendekatan dalam bidang analisa sentimen;
a). opinion-based yang dibagi menjadi dua sub-pendekatan yaitu sentiment class dan context
class, b). volume-based yang menekankan pada jumlah dokumen, c). gabungan antara opinion-
based dan volume-based, d). dan emoji-based yang mengkategorikan polaritas dokumen
berdasarkan pada emoji. Polaritas yang dianalisis dibagi menjadi dua dimensi kelas dan
dikategorikan sebagai DLSA (Document Length Sentiment Analysis): positive dan negative
classes [6], [7], [8]. Media analisis sentimen banyak berkutat pada pernyataan orang-orang di
media sosial seperti Facebook, Twitter, Instagram, dan lain sebagainya. Analisis sentimen secara
umum dibedakan menjadi dua pendekatan: lexicon-based dengan menggunakan pedoman kamus
kata dan machine learning dengan membangun model untuk menentukan orientasi dari dokumen
klasifikasi.
Penelitian [9] menggunakan dua fitur yang dihasilkan dari pendekatan berbasis machine learning
dan berbasis leksikon. Akan tetapi dalam penerapannya, ada tendensi terhadap ambiguitas
seleksi fitur, dikarenakan pendekatan yang diusulkan tersebut tidak memilah secara spesifik fitur
yang akan diproses untuk klasifikasi. Dalam penelitian [10] juga disebutkan teknik untuk
menganalisa sentimen menggunakan algoritma deep learning untuk proses klasifikasi dan teknik
fitur seleksi word2vec yang diterapkan pada data masukan. Sedangkan untuk menangani data
masukan baru, digunakan teknik k-means ++. Dari penelitian tersebut dinyatakan bahwa
algoritma k-means ++ untuk klaster data baru, lebih baik daripada yang terdahulu yaitu k-means
tradisional. Terdapat dua model teknik word2vec yang digunakan. Pertama adalah model skip-
gram dengan tujuan untuk memprediksi konteks (dapat berupa kalimat) dengan masukan satu
kata. Kedua adalah continuous bag-of-word (CBoW) dengan tujuan memprediksi sebuah kata
dengan masukan sebuah konteks. Penelitian [11] melakukan penanganan data baru dengan
menggunakan teknik pembobotan fitur.
Dalam penelitian lain dinyatakan bahwa untuk menganalisa sentimen terhadap suatu ujaran,
maka dibutuhkan teknik untuk memilah fitur yang berbobot dan signifikan yang akan diproses
pada fase klasifikasi. Teknik yang digunakan berbasis pada pembobotan fitur dan seleksi fitur.
Dalam [12], [13], [14], [10] dan [15] dinyatakan tentang pentingnya seleksi dan ekstraksi fitur.
Penelitian [16] menyatakan bahwa proses seleksi fitur dilakukan guna mengurangi dimensi fitur
dan menghilangkan fitur yang tidak relevan maupun tidak memiliki signifikansi untuk proses
analisa. Akan tetapi, terminologi dengan frekuensi kemunculan yang tinggi pada suatu dokumen,
seringkali tidak begitu signifikan. Penelitian [13] dan [17] menyatakan bahwa teknik word2vec
hanya mengambil sample dari terminologi tersebut, oleh karena itu, dapat menghilangkan
informasi yang signifikan. Dalam artian bahwa teknik tersebut hanya memodelkan konteks lokal
bukan konteks global dari kata sehingga tidak dapat membedakan kata dengan konteks yang
sama tetapi berbeda polaritas sentimennya. Contoh konteks lokal ialah “this food tested
delicious”. Sedangkan konteks global merupakan keseluruhan data yang digunakan. Hal tersebut
dapat mengakibatkan akurasi klasifikasi menjadi rendah dikarenakan adanya kesamaan vektor
kata. Konteks lokal dimaksudkan sebagai kata-kata yang ada dalam satu kalimat, sedangkan
konteks global dimaksudkan sebagai kalimat-kalimat yang ada dalam satu paragraf atau
paragraf-paragraf dalam satu dokumen.
Dalam algoritma deep learning, setiap kata dianggap sebagai bagian dari kalimat. Oleh karena
itu informasi yang penting tidak hilang seperti dalam aspek kedekatan makna dan hubungan
setiap terminologi dalam suatu dokumen. Deep learning juga robust terhadap model representasi
terminologi yang berbeda-beda seperti bag-of-word dan teknik feature vector [18]. Atas dasar
bahwa komputer tidak dapat memahami konsep kata untuk memproses bahasa alami, maka
dibutuhkan mekanisme representasi teks. Mekanisme yang digunakan dalam penelitian ini
adalah pemanfaatan word vector, dengan memetakan kata atau frase kedalam vektor bilangan
asli. Word2vec digunakan sebagai representasi fitur dalam penelitian ini yang diadopsi dari
beberapa penelitian [12], [13], [14], [10] dan [15].
Dengan dasar bahwa komputer tidak dapat mengolah data berbentuk kata secara langsung akan
tetapi mengolah bilangan, maka dari itu dilakukan proses pengubahan term menjadi vektor
bilangan asli. Pengubahan kata atau term ini disebut sebagai teknik representasi term atau fitur.
Teknik yang digunakan untuk menganalisa aspek semantik kata dalam penelitian ini ialah
gabungan antara word2vec dan tf-idf. Penggabungan ini dilakukan guna menutupi kekurangan
teknik representasi fitur tf-idf yang hanya menghitung kemunculan kata dan memboboti kata
yang paling banyak muncul tanpa menganalisa aspek semantik kata. Berdasar pada [14] teknik
word2vec mengubah kata menjadi vektor dan menyimpannya dalam ruang vektor. Setiap kata
dalam dokumen mempunyai vektor sendiri dalam ruang tersebut. Berikut tabulasi beberapa
penelitian terkait yang dilakukan peneliti sebelumnya:
Preprocessing: Preprocessing:
Lemmatization Case Transformation
Lemmatization
Tokenization Filtering
Case Transformation Stop-word Removal
Tokenization
Filtering
Stop-word Removal
Pelatihan:
Deep Neural Network
Model
Hasil klasifikasi
Evaluasi
Preprocessing
Dalam tahap ini dilakukan beberapa teknik yang diterapkan pada data ulasan film mentah.
Beberapa teknik tersebut digambarkan pada Gambar 2.
Lemmatization Case
transformation
Tahun ke-1
Bulan
No Nama Kegiatan 1 2 3 4 5 6 7 8 9 10 11 12
Perencanaan dan pengumpulan
1
informasi
2 Penyusunan instrumen
3 Pengumpulan dataset
4 Analisis dataset
5 Eksperimen
6 Penyusunan laporan
7 Penulisan artikel ilmiah
DAFTAR PUSTAKA
Sitasi disusun dan ditulis berdasarkan sistem nomor sesuai dengan urutan pengutipan, mengikuti
format Vancouver. Hanya pustaka yang disitasi pada usulan penelitian yang dicantumkan dalam
Daftar Pustaka.
[1] M. Soleymani, D. Garcia, B. Jou, B. Schuller, S. F. Chang, and M. Pantic, “A survey
of multimodal sentiment analysis,” Image Vis. Comput., vol. 65, pp. 3–14, 2017.
[2] V. K. Jain, S. Kumar, and S. L. Fernandes, “Extraction of emotions from multilingual
text using intelligent text processing and computational linguistics,” J. Comput. Sci.,
vol. 21, pp. 316–326, 2017.
[3] B. J. Gabriel Cánepa, What You Need to Know About Machine Learning, no. April.
2000.
[4] M. D. Devika, C. Sunitha, and A. Ganesh, “Sentiment Analysis: A Comparative
Study on Different Approaches,” Procedia Comput. Sci., vol. 87, pp. 44–49, 2016.
[5] I. El Alaoui, Y. Gahi, R. Messoussi, Y. Chaabi, A. Todoskoff, and A. Kobi, “A novel
adaptable approach for sentiment analysis on big social data,” J. Big Data, vol. 5, no.
1, 2018.
[6] P. G. Preethi, V. Uma, and A. Kumar, “Temporal sentiment analysis and causal rules
extraction from tweets for event prediction,” Procedia Comput. Sci., vol. 48, no. C,
pp. 84–89, 2015.
[7] C. Hung and S. J. Chen, “Word sense disambiguation based sentiment lexicons for
sentiment classification,” Knowledge-Based Syst., vol. 110, pp. 224–232, 2016.
[8] Y. Ko, J. Park, and J. Seo, “Improving text categorization using the importance of
sentences,” Inf. Process. Manag., vol. 40, no. 1, pp. 65–79, 2004.
[9] R. Bandana, “Sentiment Analysis of Movie Reviews Using Heterogeneous Features,”
2018 2nd Int. Conf. Electron. Mater. Eng. Nano-Technology, pp. 1–4, 2018.
[10] K. Chakraborty and S. Bhattacharyya, “Comparative Sentiment Analysis on a Set of
Movie Reviews Using Deep Learning Approach,” Int. Conf. Adv. Mach. Learn.
Technol. Appl., vol. 723, pp. 311–318, 2018.
[11] K. Kim, “An improved semi-supervised dimensionality reduction using feature
weighting: Application to sentiment analysis,” Expert Syst. Appl., vol. 109, pp. 49–65,
2018.
[12] M. Abdel Fattah, “New term weighting schemes with combination of multiple
classifiers for sentiment analysis,” Neurocomputing, vol. 167, pp. 434–442, 2015.
[13] Y. Parikh, A. Palusa, and S. Kasthuri, “Efficient Word2Vec Vectors for Sentiment
Analysis to Improve Commercial Movie Success,” in Advanced Computational and
Communication, 2018, vol. 706.
[14] J. Abonyi, B. Feil, and A. Abraham, “Comparative Evaluation of Various Feature
Weighting Methods on Movie Reviews,” in Computational Intelligence in Data
Mining, 2019, vol. 29, no. 1, pp. 3–12.
[15] M. Avinash and E. Sivasankar, “A Study of Feature Extraction Techniques for
Sentiment Analysis,” in Emerging Technologies in Data Mining and Information,
2019, vol. 813.
[16] C. Shang, M. Li, S. Feng, Q. Jiang, and J. Fan, “Feature selection via maximizing
global information gain for text classification,” Knowledge-Based Syst., vol. 54, pp.
298–309, 2013.
[17] D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, and B. Qin, “Learning Sentiment-
Specific Word Embedding for Twitter Sentiment Classification,” Proc. 52nd Annu.
Meet. Assoc. Comput. Linguist. (Volume 1 Long Pap., pp. 1555–1565, 2014.
[18] S. Sohangir, D. Wang, A. Pomeranets, and T. M. Khoshgoftaar, “Big Data: Deep
Learning for financial sentiment analysis,” J. Big Data, vol. 5, no. 1, 2018
PERSEľUJUAN PENGUSUL
ľanggal Pengiíiman ľanggal Peísetujuan Nama Pimpinan Sebutan Jabatan Unit Nama Unit Lembaga
Pembeíi Peísetujuan Pengusul
- - - - -
Komentaí : -