Anda di halaman 1dari 11

“Twitter Sentiment Analysis Using Fuzzy Integral Classifier Fusion”

Journal of Information Science, 2019, pp. 1–17. Mehdi Emadi and Maseud Rahgozar, ISSN:
01655515, 17416485, DOI: 10.1177/0165551519828627, Publisher: SAGE Publications Ltd
United States, Quartiles: Q1 terindeks Scopus.

Nama : 1. Irwansyah Saputra - G6601202021


2. Dinar Ajeng Kristiyanti - G6601201005
3. Slamet Riyanto - G6601202026
Jenis Tugas : Tugas Review Paper Jurnal
Mata Kuliah : Teori Komputasi Cerdas
Strata : Doktor
Dosen Pengampu : Prof. Dr. Ir. Agus Buono, M.Si., M.Kom.,

Departemen Ilmu Komputer


Fakultas Matematika IPA
IPB University
Bogor
I. Latar Belakang Masalah
Media sosial seperti Twitter mengumpulkan banyak opini pengguna tentang produk atau
kejadian. Statistik menunjukkan bahwa Twitter merupakan media sosial populer setelah
Facebook. Sebagian besar perusahaan dan organisasi tertarik untuk mengetahui opini banyak
orang tentang aktivitasnya terutama dari Twitter. Oleh karena itu, alat dan teknik yang kuat
diperlukan untuk mengekstraksi pendapat pengguna dari media sosial yang baru dikembangkan
ini. Salah satu teknik yang dapat digunakan untuk menyelesaikan masalah ini adalah analisis
sentimen. Teknik ini dapat mengidentifikasi opini, emosi, dan evaluasi opini positif dan
negatif. Permasalahan utama dalam menerapkan teknik Natural Language Processing (NLP)
pada analisis sentimen ini terutama dari data twitter adalah bahwa gaya dan subbahasa yang
populer di media ini sangat berbeda dari teks tipikal dalam bentuk media lain, misalnya media
cetak. Sub-bahasa di twitter memiliki area yang terbatas dalam jumlah teks yang dapat
diketikkan sebagai aspirasi menyampaikan opini yaitu 144 karakter. Sehingga salah satu solusi
mengatasi permasalahan tersebut adalah dengan memilih tweet yang relevan di awal,
menggunakan pengklasifikasi secara manual, dimana data yang sudah dilabeli dari sejumlah
dataset tweet tersebut selanjutnya akan dipelajari. Pada penelitian sebelumnya, nyatanya hanya
beberapa tweet yang diberi label karena kurangnya waktu dan tenaga, hal ini dapat
menyebabkan hasil klasifikasi yang kurang optimal.
Dalam literatur, berbagai istilah telah digunakan untuk menunjukkan analisis sentimen,
seperti penambangan opini, klasifikasi emosi, dan klasifikasi polaritas. Implementasi metode
seperti klasifikasi klasik dan pelabelan telah diterapkan untuk menghasilkan klasifikasi yang
optimal namun metode tersebut masih banyak kekurangan. Selain menggunakan metode
tersebut, pendekatan lain dengan cara mengumpulkan data berlabel (labelled data) dari domain
lain, hasilnya menunjukkan bahwa akurasi lebih baik pada peristiwa yang sama namun untuk
masalah baru tidak terlalu akurat.
Penelitian lain mengungkapkan bahwa perbedaan penerapan metode klasifikasi
menunjukkan perilaku yang berbeda. Dengan kata lain, perbedaan perilaku ini menandakan
tingkat kepekaan terhadap distribusi kata atau fitur lain dari subbahasa. Dalam kondisi tertentu,
bisa jadi beberapa pengklasifikasi mungkin tidak dapat mempelajari kelas-kelas khusus,
sementara yang lain mungkin dapat mengatasinya dengan lebih baik.
Penelitian ini bertujuan memperkenalkan proses baru untuk peningkatan akurasi analisis
sentiment Twitter melalui fusi pengklasifikasi integral fuzzy (Fuzzy Integral) dalam hal ini
Choquet Fuzzy Integral (CFI). Selain itu, peneliti juga ingin mewujudkan pengambilan
keputusan yang lebih baik dengan menggabungkan metode klasifikasi supervised dan
unsupervised dalam Analisa sentimen ini.

II. Metode Penelitian

Penelitian ini menggunakan metode studi literature terkait penelitian sebelumnya yang
relevan dengan topik penelitian diantaranya: metode berbasis grafik untuk mendeteksi
subyektifitas tweet, klasifikasi SVM yang berfungsi membuat grafik untuk polaritas, serta
metode fusi untuk meningkatkan akurasi analisis sentimen. Metode fusi menggabungkan
pendekatan pembelajaran mesin dan orientasi sentimen untuk meningkatkan kinerjanya.
Metode analisis sentimen berbasis data mining konvensional menggunakan proses bertahap
untuk mempelajari dan mengekstrak polaritas pesan pada microblog. Umumnya, kumpulan
data sentimen Twitter berlabel digunakan dalam langkah supervised learning. Dalam
penelitian ini menyarankan pendekatan hibrida yang menggunakan pendekatan supervised dan
unsupervised.
Berikut metode klasifikasi teks popular pada poin (a) dan metode klasifikasi teks yang
diusulkan pada poin (b) dapat dilihat pada gambar di bawah ini:

Gambar 1. Metode Klasifikasi Teks Popular Dan Metode Klasifikasi Teks Yang
Diusulkan
Berikut ini metode yang diusulkan untuk analisis sentimen, diantaranya:

Analisis Sentimen Menggunakan Metode yang Diusulkan


1. Persiapkan Sebagian Kecil Data Tagged
a. Ambil sebagian kecil dataset dari tweet kejadian terakhir yang tersedia.
b. Beri tanda sentimen secara manual pada tweet tersebut.
c. Pisahkan dataset tersebut ke dalam himpunan data training 80% dan data
development 20%.
2. Belajar Model Dasar
a. Ajari dataset himpunan data latih menggunakan model SVM.
b. Ajari dataset himpunan data latih menggunakan model NB.
c. Ajari dataset himpunan data latih menggunakan model MaxEnt.
3. Membuat Profil Keputusan
a. Untuk setiap ti tweet di himpunan data uji
1) d1 = dapatkan keputusan dari model SVM untuk ti
2) d2 = dapatkan keputusan dari model NB untuk ti
3) d3 = dapatkan keputusan dari model MaxEnt untuk ti
4) d4 = dapatkan keputusan dari metode berbasis NLP untuk ti
b. Masukkan catatan (d1, d2, d3, d4, RealTag) ke dalam set data latih fusi.
4. Latih Model Fusion
Gunakan set data latih fusi untuk mempelajari ukuran μ menggunakan algoritma HLMS
(Heuristic Least Mean Squares).
5. Buat Keputusan untuk Tweet Baru
a. Untuk memberi label tweet baru yang tersedia tj
1) b1 = ambil keputusan dari model SVM untuk tj
2) b2 = ambil keputusan dari model NB untuk tj
3) b3 = ambil keputusan dari model MaxEnt untuk tj
4) b4 = ambil keputusan dari metode berbasis NLP untuk tj
b. Buat keputusan akhir menggunakan CFI berdasarkan catatan masukan (μ, b1, b2,
b3, b4)

Dataset

Untuk menunjang penelitian yang akan dilakukan, penelti menggunakan dataset


yang berasal dari riset sebelumnya. Dataset yang digunakan terdiri dari 4 (empat)
karakteristik yang berbeda dalam hal data training, ukuran uji, keberadaan, jumlah tweet
netral serta perbedaan keseimbangan antara tweet positif dan negatif dari Twitter,
diantaranya:
1. Sentimen Twitter Stanford (Go et al, 2019), yang mencakup data posting Twitter,
komentar pengguna tentang produk dan kejadian, dan waktu posting. Dataset ini
berisi 1.600.000 data training (diberi tag semi-otomatis) dan 498 data pengujian
(diberi tag secara manual) Mengingat fase fusi, peneliti membagi data pengujian
menjadi kumpulan pengembangan dan data pengujian. Sebanyak 248 tweet
digunakan untuk mempelajari model fusi dan 250 tweet dipilih untuk menguji
sistem fusi akhir.
2. SemEval-2016 Subtask D Two-Point Scale (positif / negatif) (Nakov et al, 2016).
Pada dataset ini dibandingkan dengan tweet netral, ada lebih banyak tweet negatif
dan positif dalam dataset ini.
3. Dataset Film (Chen et al, 2012), dipilih dikarenakan berisi banyak tweet netral.
4. Korpus Sentimen Twitter Stanford (STS) (Saif dan Alani, 2012), pada dataset ini
tidak memiliki tweet netral. Untuk setiap dataset, sebagai cara standar, satu bagian
dari data digunakan untuk pelatihan dan bagian lainnya digunakan untuk pengujian
(Tabel 2). Namun, dalam Kumpulan Data Film, seluruh data diberikan sebagai
masukan tanpa dipisahkan untuk pelatihan dan pengujian. Untuk set data ini, kami
membuat set pengujian dan set pelatihan dengan metode validasi silang 10 kali
lipat.
Spesifikasi dari dataset, dapat dilihat pada tabel 1 berikut.
Tabel 1. Spesifikasi Dataset
Tipe
Dataset Tweets Negatif Positif Netral
(latih/uji)
Sentimen Twitter Stanford (Go Latih 1600k 570k 590k 440k
et al, 2019), Uji 498 177 182 139
SemEval-2016 Subtask D
Latih 2914 1762 963 189
Two-Point Scale (positif /
Uji 1956 1272 561 123
negatif) (Nakov et al, 2016)
Dataset Film (Chen et al, Latih 1500 96 420 984
2012), Uji a - - -
Korpus Sentimen Twitter
Latih 60000 30000 30000 -
Stanford (STS) (Saif dan Alani,
Uji 1000 530 470 -
2012)
Catatan : a merupakan hasil data uji dengan metode 10-fold cross validation

III. State of The Art

Lima pendekatan klasifikasi sentimen digunakan dalam penelitian-penelitian sebelumnya.


Dalam pendekatan NLP murni, beberapa teknik NLP digunakan untuk analisis sentimen, tidak
ada pendekatan pembelajaran mesin yang digunakan. Pendekatan ini tidak membutuhkan data
berlabel. Namun, banyak penelitian telah dikembangkan berdasarkan kombinasi teknik NLP
dan algoritma pembelajaran mesin. Pendekatan ini membutuhkan set data yang diberi label
secara manual untuk melatih model pengklasifikasi, diantaranya dapat dilihat pada gambar
berikut.

Gambar 2. State Of The Art dalam Penelitian ini

Berikut state of the art dirangkum dalam tabel berikut:

Tabel 2. State Of The Art dalam Penelitian ini

No. Penelitian Jenis Metode Hasil


Klasifikasi
1 FBM-Yahoo! at RepLab 2012 Unsupervised NLP (Lexicon Akurasi
(Chenlo et al, 2012) Semantic) belum
Lexicon-based sentiment optimal
analysis: comparative evaluation
of six sentiment lexicons (Khoo
dan Johnkhan, 2018)
Arabic senti-lexicon: constructing
publicly available language
resources for Arabic sentiment
analysis.
(Al-Moslmi et al, 2018)
2 A sentimental education: Unsupervised Graph-Based Akurasi
sentiment analysis using Clustering belum
subjectivity summarization based optimal
on minimum cuts
(Pang dan Lee, 2004)
3 An assessment study of features Supervised Praproses dan Tidak
and meta-level features in Twitter ekstraksi fitur berpengaruh
sentiment analysis berbasis NLP kuat terhadap
(Carvalho dan Plastino, 2016) akurasi
4 Sentiment analysis and opinion Supervised Praproses NLP Akurasi
mining (Liu, 2012) meningkat,
namun
dataset harus
dilabeli
lengkap
5 Multi-domain sentiment Supervised Pendekatan Akurasi
classification with classifier Pengklasifikasi sangat baik
combination (Li et al, 2011) Fusi
Predicting sentiment-mention
associations in product reviews
(Vaswani, 2012)

a. Choquet Fuzzy Integral


Pengukuran fuzzy digunakan untuk menangani masalah keputusan multi kriteria. Ada
beberapa kriteria atau atribut yang terbatas. Pengukuran fuzzy didasarkan pada atribut ini.
Fuzzy mengukur model pentingnya setiap atribut berdasarkan hubungannya dengan keputusan
yang benar. Perlu untuk mempertimbangkan pentingnya setiap atribut dalam membuat
keputusan akhir dan efek dua dimensi serta multiplikasi dari atribut dalam membuat keputusan
akhir.
Misalnya, mempertimbangkan tiga pengklasifikasi: A, B dan C. Dengan pendekatan
pembobotan klasik, misalnya operator OWA, jika kita menggunakan vektor bobot dengan tiga
nilai bobot (0,5, 0,3, 0,2). Dalam keputusan akhir, 0,5 akan menjadi nilai kepentingan A. 0,3
adalah nilai kepentingan B dan 0,2 adalah nilai kepentingan C. Namun, untuk operator integral
fuzzy, peneliti menggunakan 8 ukuran fuzzy untuk ketiga pengklasifikasi ini.
Peneliti menghitung nilai kepentingan untuk setiap anggota himpunan pangkat dari
himpunan kelas {{}, {A}, {B}, {C}, {A, B}, {A, C}, {B, C} , {A, B, C}}. Contoh ukuran μ
untuk himpunan kelas {A, B, C} disajikan pada Tabel 3. Untuk setiap himpunan Z (Z adalah
himpunan bagian dari himpunan atribut), μ (Z) didefinisikan sebagai bobot pentingnya semua
atribut di Z.
Misalnya, peneliti ingin membuat keputusan ketika tiga orang memiliki ide yang berbeda.
Mereka memiliki pengetahuan sebelumnya tentang situasi yang sama yang dihadapi di masa
lalu. Jika A dan B mengatakan hal yang sama, mereka secara kolektif memberikan jawaban
yang benar. Oleh karena itu, nilai keanggotaan {A, B} adalah 1. Definisi 1 menyajikan
spesifikasi formal dari ukuran fuzzy.
Tabel 3. Contoh pengukuran fuzzy untuk himpunan {A, B, C}
X μ (X)
{} 0.000000
{A} 0.140625
{B} 0.281250
{C} 0.281250
μ
{A, B} 0.911011
{A, C} 0.977428
{B, C} 0.355469
{A, B, C} 1.000000

Definisi 1
Sebagai contoh (diskrit) ukuran fuzzy, μ, adalah fungsi himpunan dari himpunan X ke
bilangan real dalam domain [0, 1] (μ: P (X)! [0, 1]). P (X) adalah kumpulan daya X, dan X
adalah kumpulan fitur [11]. μ sebagian besar memenuhi dua kendala:
1. μ (0) = 0, μ (X) = 1
2. A5B) μ (A) ≤ μ (B)
Peneliti memberikan ukuran fuzzy yang dihitung ke operator integral Choquet integral.
Choquet Integral membuat keputusan menggunakan ukuran ini.

Definisi 2 mengungkapkan fungsi formal Choquet integral.


μ adalah ukuran fuzzy pada himpunan X, di mana x (i) merupakan elemen dari X.
Discrete Choquet Integral merupakan fungsi dari X ke R + dengan sehubungan dengan μ dan
didefinisikan sebagai berikut:
𝑛
𝐶𝜇(𝑓) = ∑𝑖=1(f(𝑋(𝑖) ) − 𝑓(𝑋(𝑖−1 ) )). 𝜇(𝐴𝑖 )
Dalam persamaan (1), f adalah vektor dan memiliki nilai untuk setiap atribut di X (di mana
x (i) ∈ X). Urutan x (i) terkait dengan nilai atribut di f dalam urutan menaik. f (x (i)) adalah
nilai atribut x (i) dalam vektor f. Selanjutnya, f (x (0)) = 0 dan Ai = fx (i), ..., x (n) g.
Asumsikan bahwa peneliti memiliki tiga pengklasifikasi: A, B dan C. Peneliti ingin
menggabungkan hasil pengklasifikasi ini menggunakan CFI. Di sini, peneliti menjelaskan CFI
dengan sebuah contoh. Peneliti membuat pesanan untuk kemungkinan nilai label kelas.
Misalnya, kami memiliki tiga nilai sentimen: 4 untuk netral, 6 untuk positif dan 2 untuk negatif.
Dalam contoh contoh pembuatan keputusan akhir, jika pengklasifikasi A menebak nilai yang
lebih kecil (VA), maka ukuran μ dari {A, B, C} dianggap. Nilai prediksi pengklasifikasi A
(VA) dikalikan dengan ukuran μ terkait. Kemudian, kita pertimbangkan B dan C. Jika
pengklasifikasi C memprediksi nilai yang lebih besar (VC) daripada pengklasifikasi B (VB),
peneliti menambahkan nilai B dikurangi nilai C dikalikan dengan koefisien μ {B, C} ke nilai
hasil sebelumnya. Terakhir, peneliti mempertimbangkan nilai C dengan koefisien μ {C}.
Jumlah dari ketiga kelipatan ini memberikan keputusan akhir (μ ({A, B, C}) × (VA - 0) + μ
({B, C}) × (VB - VC) + μ ({C}) × VC).

b. Menemukan keragaman pengklasifikasi


Fase berikutnya adalah penggunaan fusi data untuk membuat keputusan akhir. Pertama,
keragaman pengklasifikasi harus diukur untuk memastikan apakah pengklasifikasi dan metode
yang dipilih saling melengkapi. Keragaman pengklasifikasi diperlukan untuk fusi yaitu item
yang diberi label secara tidak benar oleh satu pengklasifikasi diberi label dengan benar oleh
pengklasifikasi lain. Berbagai ukuran keragaman telah dibahas dalam literatur untuk
mendapatkan pengklasifikasi yang beragam. Dalam pemgukuran keragaman berpasangan,
kami membuat Konfusen matriks untuk nilai prediksi kedua pengklasifikasi. Salah satu ukuran
keragaman yang paling terkenal adalah ukuran ρ. Di sini, ρ = 1 menunjukkan tidak ada
keragaman, sedangkan ρ = - 1 menunjukkan keragaman lengkap. Dalam banyak kasus,
diharapkan memiliki kinerja yang dapat diterima dengan ρ <1 [7]. Dalam persamaan (2), a
mewakili jumlah kasus di mana kedua pengklasifikasi membuat tebakan yang benar; b
mewakili jumlah kasus dimana pengklasifikasi pertama membuat tebakan yang salah, tetapi
pengklasifikasi kedua membuat tebakan yang benar; c mewakili jumlah kasus di mana
pengklasifikasi kedua membuat tebakan yang salah, tetapi pengklasifikasi pertama membuat
tebakan yang benar; dan d mewakili jumlah kasus di mana kedua pengklasifikasi salah
menebak.
a. d − b. c
= (2)
√(a + c)(d + c)(a + b)(d + b)
Sebagai contoh  = 0.59, maka:
(328x89) − (22𝑥59)
= = 0.59
√(328 + 59)(89 + 22)(328 + 22)(89 + 59)
Ukuran keragaman lain yang terkenal adalah ukuran statistik Q, yang dinyatakan dalam
persamaan (3). Jika Q = 1, tidak ada keanekaragaman, sedangkan jika Q = -1, keanekaragaman
lengkap ada. Jika Q <1, maka fusi keluaran pengklasifikasi dapat diterima.
ad − bc
𝑄= (3)
ad + bc
(328x89) − (22x59)
𝑄= = 0.91
(328x59) + (22x59)

IV. Hasil dan Pembahasan


Eksperimen menunjukkan bahwa metode berbasis NLP tidak memiliki akurasi yang baik.
Tabel 3 merangkum bahwa metode analisis sentimen berbasis NLP (bernama SCNLP)
menunjukkan hasil terburuk. Metode SVM tidak bermasalah dan dengan demikian mencapai
akurasi yang lebih baik.
Eksperimen dilakukan dalam dua bagian. Pada bagian pertama, hanya tiga
pengklasifikasi (MaxEnt, NB dan SVM) yang digunakan (Fusion - NLP). Di bagian kedua, tiga
pengklasifikasi dan metode berbasis NLP digabungkan (Fusion + NLP). Fusion + NLP yang
digunakan dalam fusi CFI mendapatkan akurasi terbaik untuk semua dataset. Pengujian
dilakukan dengan 10-fold cross-validation. Data pelatihan dibagi menjadi dua bagian (20%
untuk pengembangan dan 80% untuk pelatihan). Untuk masing-masing dari 10 set pengujian
(dihasilkan menggunakan 10 kali lipat validasi silang), peneliti memiliki lima pengaturan
berbeda dari set pengembangan dan data pelatihan (dihasilkan menggunakan pendekatan lima
kali lipat).
Tabel 4. Hasil Penelitian Berupa Nilai Akurasi dari Semua Metode untuk Setiap
Dataset

Fusion + Fusion
Dataset MaxEnt NB SVM SCNLP - NLP
NLP

Stanford 0.7989 0.7430 0.8045 0.5514 0.8145 0.7989

STS 0.82 0.748 0.824 0.522 0.836 0.8104

SemEval- 0.6558
0.6472 0.6258 0.5031 0.5225 0.6664
2016
Movie 0.7680 0.7398 0.7672 0.5966 0.8379 0.8162

Gambar grafik hasil penelitian berupa nilai akurasi dari semua metode untuk setiap dataset,
dapat dilihat pada gambar berikut:

Gambar 3. Hasil Penelitian Berupa Nilai Akurasi dari Semua Metode untuk Setiap
Dataset

V. Kesimpulan dan Saran


Metode berbasis NLP murni yang diusulkan memiliki akurasi rendah, namun ketika
metode tersebut digabungkan dengan machine learning (misalnya SVM, Naïve Bayes dan
MaxEnt), dapat mencapi akurasi yang lebih tinggi berdasarkan perlakukan yang berbeda.
Selain itu, meskipun data training dan data testing kecil, fusi data integral fuzzy berfungsi
dengan baik untuk meningkatkan akurasi analisis sentimen Twitter. Eksperimen yang telah
dilakukan menunjukkan bahwa kombinasi informasi dengan bantuan operator CFI
memberikan akurasi lebih baik dibandingkan algoritma lainnya.
Saran untuk pengembangan penelitian selanjutnya adalah menggunakan Graph-based
clustering method sebagai teknik klasifikasinya, kemudian pendekatan fuzzy integral
diterapkan atau dikomparasikan ke semua metode machine learning yang digunakan untuk
memperkaya hasil penelitian sehingga didapatkan hasil nilai akurasi yang lebih baik dari yang
sudah ada.

Anda mungkin juga menyukai