Analisis Sentimen Cyberbullying Pada Komentar Instagram Dengan Metode Klasifikasi Support Vector Machine

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X
Vol. 2, No. 11, November 2018, hlm. 4704-4713 http://j-ptiik.ub.ac.id
Analisis Sentimen Cyberbullying pada Komentar Instagram dengan Metode

Klasifikasi Support Vector Machine
Wanda Athira Luqyana1, Imam Cholissodin2, Rizal Setya Perdana3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya
Email: 1wandathira@gmail.com, 2imamcs@ub.ac.id, 3rizalespe@ub.ac.id
Abstrak
Instagram merupakan media sosial yang paling populer pada zaman sekarang. Pengguna yang dimulai
dari anak-anak, remaja hingga orang dewasa turut mendongkrak popularitas Instagram. Namun, media
sosial ini tidak lepas dari bahaya cyberbullying yang sering dilakukan oleh pengguna khususnya pada
kolom komentar. Dengan data statistik yang telah didapatkan, bahwa 42% remaja berusia 12-20 tahun
telah menjadi korban cyberbullying. Bahaya cyberbullying tentunya meresahkan banyak orang
dikarenakan dampak yang ditimbulkan, maka dari itu dapat dilakukan suatu analisis sentimen pada
kolom komentar Instagram yang berupaya untuk mengetahui sentimen dari setiap komentar. Analisis
sentimen merupakan suatu cabang ilmu dari text mining yang digunakan untuk mengekstrak,
memahami, dan mengolah data teks. Untuk mengetahui setiap sentimen pada komentar digunakan fitur
Term Frequency-Inverse Document Frequency (TF-IDF) dan metode klasifikasi Support Vector
Machine (SVM). Dokumen yang berisi 400 data yang diambil secara luring (offline) dengan total fitur
1799. Dokumen komentar dibagi menjadi 70% data latih dan 30% data uji. Berdasarkan pengujian yang
dilakukan didapatkan parameter terbaik pada metode SVM yaitu dengan nilai degree kernel polynomial
sebesar 2, nilai learning rate sebesar 0,0001, dan jumlah iterasi maksimum yang digunakan adalah 200
kali. Dari pengujian tersebut didapatkan hasil akurasi tertinggi sebesar 90% pada komposisi data latih
50% dan komposisi data uji 50%.
Kata kunci: Instagram, cyberbullying, analisis sentimen, support vector machine, svm
Abstract
Instagram is the most popular social media in these recent days. The users who start from kids,
teenagers to adults, have the role in boosting the popularity of Instagram. However, this social media
could not be seperated from the dangers of cyberbullying which is done often by the users, especially in
the comment column. The dangers of cyberbullying are certainly worried many people because of the
impact it has. Therefore, a sentiment analysis in Instagram comment column can be done in order to
find out the sentiments in each comment. Sentiment analysis is a branch of text mining science which is
used to extract, understand, and cultivate the data. This research used Term Frequency-Inverse
Document Frequency (TF-IDF) and Support Vector Machine (SVM) classification method to examine
the sentiments in each comment. Data consisted of 400 data which taken offline have a total 1799
features. The comment document is divided into 70% of training data and 30% of test data. Based on
the tests performed, the best parameters obtained in the SVM method are the degree of polynomial
kernel 2, the average of learning rate of 0.0001, and the maximum number of iterations which is 200
times. From these result, it obtained that the highest accuracy is 90%, 50% in the training data
composition and 50% composition of test data.
Keywords: instagram, cyberbullying, sentiment analysis, support vector machine, svm
tercatat kurang lebih 800 juta orang (Yusuf,

1. PENDAHULUAN 2017). Pengguna Instagram tentunya tak hanya
Instagram merupakan media sosial yang orang dewasa namun anak-anak dan remaja ikut
pada dasarnya berfungsi untuk berbagi foto menggunakan media sosial ini.
maupun vídeo pada sesama pengguna. Sejak Pemanfaatan yang beragam dari pengguna
September 2017 pengguna aktif instagram telah Instagram dibuat sebagai akun pribadi, baik
Fakultas Ilmu Komputer

Universitas Brawijaya 4704
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 4705
untuk orang biasa maupun artis hingga menjadi & Shetty, 2017).
sarana bisnis perseorangan. Namun dari manfaat Dari berbagai referensi penelitian yang
penggunaan Instagram masih banyak pengguna telah dilakukan, metode Support Vector
yang belum memahami etika-etika dalam Machine menjadi salah satu pilihan metode yang
bersosialisasi pada dunia maya. Permasalahan akan digunakan peneliti dalam analisis sentimen.
tersebut terjadi dengan adanya tindakan Hal ini menjadi topik peneliti untuk memberikan
cyberbullying. solusi terhadap cyberbullying yang terjadi di
Cyberbullying yang merupakan tindakan media sosial Instagram.
bullying yang sering terjadi di dunia maya.
Banyak pengguna yang masih belum menyadari 2. TINJAUAN PUSTAKA
bahwa ulasan atau komentar yang dilontarkan 2.1. Analisis Sentimen
merupakan tindakan cyberbullying. Hal ini Analisis sentimen merupakan salah satu
tentunya menjadi salah satu peringatan bagi cabang ilmu dari text mining, natural language
pengguna, orangtua, kerabat, maupun program, dan artificial intelegence. Proses yang
pemerintah agar dapat meminimalisir perbuatan dilakukan oleh analisis sentimen untuk
merugikan tersebut. memahami, mengekstrak, dan mengolah data
Cyberbullying yang telah terjadi di teks secara otomatis sehingga menjadi suatu
Indonesia dialami oleh seorang remaja asal informasi yang bermanfaat (Akbari, et al., 2012).
Indonesia yang berusia 13 tahun di bulan April Selain itu analisis sentimen merupakan bidang
2017. Hal tegrsebut terjadi ketika remaja itu ilmu yang menganalisis pendapat, sikap,
berniat untuk membagikan tiket secara gratis evaluasi, dan penilaian terhadap suatu peristiwa,
kepada khalayak umum dengan beberapa syarat. topik, organisasi, maupun perseorangan (Liu,
Namun hal ini memberikan dampak negatif 2012).
untuk dirinya. Berbagai kabar tidak baik tersebar
2.2. Text Mining
secara cepat di dunia maya dan pada akhirnya Text mining adalah ilmu yang bertujuan
muncul komentar negatif yang bersifat untuk memproses teks agar menjadi informasi
menyakiti hati anak. Sebagai dampaknya remaja yang diperoleh dari peramalan pola dan
yang berkeseharian riang, menjadi murung dan kecenderungan melalui pola statistik. (Jiawei, et
selalu menangis (Muttya, 2017). Permasalahan al., 2012). Text mining bertujuan untuk
cyberbullying pada kolom komentar Instagram menganalisis pendapat, sentiment, evaluasi,
menjadi hal yang penting untuk dikaji sebagai sikap, penilaian, emosi seseorang seihngga dapat
pemrosesan teks diketahui apakah berkenaan dengan suatu topik,
Analisis sentimen sangat diperlukan dalam layanan, organisasi, individidu, atau kegiatan
menyaring komentar-komentar di media sosial. tertentu (Liu, 2012). Penggunaan dari text
Analisis sentimen pada komentar dilakukan mining dilakukan untuk klasterisasi, klasifiasi,
untuk mengetahui komentar yang bersifat information retrieval, dan information
negatif dan komentar yang bersifat positif. Dari extraction (Berry & Kogan, 2010).
analisis tersebut dapat dilakukan tindakan
preventif baik untuk korban maupun pelaku. 2.2.1. Pre-processing
Dalam melakukan analisis sentimen Pre-processing merupakan tahap awal dari
diperlukan metode yang menunjang klasfikasi. text mining untuk mengubah data sesuai dengan
Metode yang digunakan adalah Support Vector format yang dibutuhkan. Proses ini dilakukan
Machine (SVM), berdasarkan hasil penelitian untuk menggali, mengolah dan mengatur
analisis sentimen sebelumnya yang dilakukan infomasi dan untuk menganalisis hubungan
oleh Putranti dan Winarko. Pada penelitian tekstual dari data terstruktur dan data tidak
tersebut dilakukan analisis sentimen pada objek testruktur (Nugroho, 2016).
Twitter dengan mengimplementasikan metode
Maximum Entropy dan SVM dan menghasilkan 2.2.1.1. Case Folding
nilai akurasi sebesar 86,81% (Putranti & Case folding merupakan tahapan awal pada
Winarko, 2014). Penelitian analisis sentimen Pre-processing yang bertujuan untuk mengubah
lainnya dilakukan dengan membandingkan hasil setiap bentuk kata menjadi sama. Hal ini
akurasi metode Naïve Bayes dan SVM. dilakukan dengan mengubah kata menjadi lower
Berdasarkan penelitian tersebut didapatkan case atau huruf kecil.
SVM adalah metode klasifikasi yang baik untuk 2.2.1.2. Data Cleaning
analisis sentimen dengan hasil akurasil 98% (K Data cleaning merupakan proses
Fakultas Ilmu Komputer, Universitas Brawijaya
pembersihan kata dengan menghilangkan memenuhi pada cyberbullying seperti, flaming,

delimiter koma (,), titik (.), dan tanda baca harrassment, cyberstalking, dan lainnya
lainnya. Pembersihan kata bertujuan untuk (Pratiwi, 2017).
mengurangi noise. Pemilihan kata yang dilontarkan menjadi
kunci utama apakah seseorang mengarah pada
2.2.1.3. Normalisasi Bahasa tindakan bullying atau tidak. Contoh kata yang
Pada tahapan Pre-processing dilakukan tergolong pada kata positif dan kata negatif
normalisasi bahasa terhadap kata tidak baku. digambarkan pada Tabel 1 dan Tabel 2:
Tahapan ini bertujuan untuk mengembalikan
bentuk penulisan dari masing-masing kata yang Tabel 1. Contoh kata positif
sesuai dengan Kamus Besar Bahasa Indonesia
Positif
(KBBI). Proses ini dilakukan dengan
mencocokkan setiap kata pada dokumen data Cekatan Berani
latih maupun data uji dengan kata yang ada pada
Sesuai Suci
kamus Bahasa tidak baku (Darma, 2017).
Indah Teliti
2.2.1.4. Stopword Removal
Wibawa Unggul
Stopword merupakan daftar kata umum
yang tidak memiliki arti penting dan tidak Sabar Pesona
digunakan. Pada proses ini kata umum akan
dihapus untuk mengurangi jumlah kata yang
disimpan oleh sistem (Manning, et al., 2009). Tabel 2. Contoh kata negatif
Negatif
2.2.1.5. Stemming
Stemming merupakan proses untuk mencari Abnormal Pengecut
stem (kata dasar) dari kata hasil stopword Aneh Banci
removal (filtering). Terdapat dua aturan dalam
melakukan stemming yaitu dengan pendekatan Bodoh Buruk
kamus dan pendekatan aturan (Utomo, 2013). Gila Jelek
2.2.1.6. Tokenisasi Khianat Munafik
Tokenisasi adalah proses untuk memotong
documen menjadi pecahan kecil yang dapat
berupa bab, sub-bab, paragraf, kalimat, dan kata 2.4. Pembobotan TF-IDF
(token). Pada proses ini akan menghilangkan Term Frequency-Inverse Document
whitespace. Frequency (TF-IDF) adalah metode yang
digunakan untuk menghitung bobotan setiap
2.3. Cyberbullying kata yang telah diekstrak. Penggunaan metode
Berkembangnya teknologi memberikan ini umumnya dilakukan untuk mengihitung kata
pengaruh terhadap kehidupan sosial. Seperti umum yang ada pada information retrieval.
pada tindakan bullying. Mulanya tindakan Model pembobotan TF-IDF merupakan metode
bullying menyerang secara fisik maupun yang mengintegrasikan model term frequency
psikologi secara langsung, namun kini tindakan (tf) dan inverse document frequency (idf).Term
tersebut dapat dilakukan pada dunia maya yang frequency (tf) merupakan proses untuk
dikenal dengan cyberbullying. Cyberbullying menghitung jumlah kemunculan term dalam satu
merupakan suatu tindakan tidak menyenangkan dokumen dan inverse document frequency (idf)
yang dilalukan secara sengaja dan terus menerus digunakan untuk menghitung term yang muncul
melalui teks elektronik (Stauffer, et al., 2012). di berbagai dokumen (komentar) yang dianggap
sebagai term umum, yang dinilai tidak penting
Berdasarkan sumber lain mengatakan (Akbari, et al., 2012).
bahwa cyberbullying merupakan tindakan Tahapan pembobotan dengan TF-IDF
bullying yang dilakukan pada dunia cyber. adalah:
Dalam tindakan cyberbullying dapat dibagi
1. Hitung term frequency tft,d
menjadi beberapa kriteria dan dilakukan secara
berulang-ulang. Terdapat beberapa aspek yang 2. Hitung weighting term frequency (Wtf)

1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 data a

𝑊𝑡𝑓𝑡,𝑑 = { (1)
0, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒 𝑛𝑒𝑤𝑚𝑎𝑥 = nilai normalisasi maksimum
3. Hitung document frequency (df) 𝑛𝑒𝑤𝑚𝑖𝑛 = nilai normalisasi minimum
4. Hitung bobot inverse document frequency
(idf) 2.5.2. Skor Sentimen
𝑁
𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔10 (2) Pembobotan Lexicon Based lainnya
𝑑𝑓𝑡
dilakukan oleh Peng dengan mempertimbangkan
5. Hitung nilai bobot TF-IDF
skor sentimen dari setiap komentar. Tahapan
𝑊𝑡,𝑑 = 𝑊𝑡𝑓𝑡,𝑑 × 𝑖𝑑𝑓𝑡 (3)
yang perlu dilalui pada pembobotan Lexicon
Ketarangan: Based menggunakan perhitungan skor sentimen
adalah sebagai berikut (Peng, 2011):
tft,d = frekuensi term 1. Memuat kamus, termasuk kata-kata dan
𝑊𝑡𝑓𝑡,𝑑 = bobot frekuensi term POS tags
df = jumlah frekuensi dokumen yang 2. Parse komentar ke dalam POS tags. Hanya
kata yang memiliki tag yang benar yang
mengandung term
akan dihitung.
N = jumlah total dokumen
3. Hitung skor sentimen pada setiap komentar.
𝑊𝑡,𝑑 = bobot TF-IDF Skor sentimen dihitung dengan mencari
jumlah kata bersentimen positif dan kata
2.5. Lexicon Based Features bersentimen negatif. Skor sentimen
Lexcion Based Features merupakan suatu didapatkan dari jumlah polaritas sentimen
kesepakatan dalam pendekatan yang meliputi positif dikurangi dengan jumlah polaritas
frase, bentuk ekspresi, atau konten yang berupa sentimen negatif.
teks yang umumnya terdapat pada obrolan,
4. Kalimat yang merupakan kalimat negatif
dialog, post, review, dan lainnya.
diperhitungkan dengan menambahkan
Lexcion Based Features merupakan tanda minus ke skor sentimen.
pendekatan yang menggunakan suatu kamus
2.6. Algoritme Support Vector Machine
sentimen berisi kata positif dan kata negatif yang
Support Vector Machine atau SVM
dibandingkan dan dicocokkan dengan kata pada
merupakan salah satu teknik untuk memprediksi
kalimat untuk diketahui tingkat polaritasnya
yang baik dalam pengklasifikasian dan regresi
(Peng, 2011).
(Santosa, 2007). Penggunaan algoritme SVM
2.5.1. Normalisasi Min-Max yang bertujuan untuk klasifikasi teks dengan
Berdasarkan penelitian yang dilakukan oleh
menggunakan bobot indeks term sebagai fitur,
Rofiqoh dilakukan pembobotan lexicon
dirintis oleh Thorsten Joachim. Pembelajaran
menggunakan metode normalisasi min-max
SVM telah dipopulerkan sejak tahun 1992 oleh
dengan nilai maksimum 0,9 dan nilai minimum
Boser, Guyon, dan Vapnik (Paramita, 2008).
0,1 (Rofiqoh, 2017). Hal ini diperuntukan untuk
SVM merupakan metode yang dapat
menormalisasi data sehingga data tersebut
menyelesaikan permasalahan secara linier
berada pada range tertentu (Junaedi, et al.,
maupun permasalahan non-linier. Dalam
2011). Tujuan dalam menormalisasi data ialah
menyelesaikan permasalah non-linier digunakan
untuk meminimalisir kesalahan pada proses data
konsep kernel pada ruang kerja berdimensi
mining (Wirawan & Eksistyanto, 2015). Rumus
tinggi, dengan mencari hyperplane yang dapat
matematika yang digunakan dalam metode ini
memaksimalkan margin antar kelas data.
adalah:
Hyperplane berguna dalam memisahkkan 2
𝑣 −𝑚𝑖𝑛𝑎
𝑣𝑖′ = 𝑚𝑎𝑥𝑖 (𝑛𝑒𝑤𝑚𝑎𝑥 − 𝑛𝑒𝑤𝑚𝑖𝑛) + 𝑛𝑒𝑤𝑚𝑖𝑛 kelompok class +1 dan class –1 dimana setiap
𝑎 −𝑚𝑖𝑛𝑎
class memiliki pattern masing-masing.
(4)
Dalam mengambil keputusan dengan
Keterangan: metode SVM digunakan fungsi kernel
𝑣𝑖′ = hasil normalisasi data ke-i 𝐾 (𝑥𝑖 , 𝑥𝑑 ). Kernel yang digunakan pada
𝑣𝑖 = data yang dinormalisasi data ke-i penelitian ditunjukkan pada Persamaan 5:
𝑚𝑖𝑛𝑎 = data minimum pada kumpulan 𝐾 (𝑥𝑖 , 𝑥𝑑 ) = ( 𝑋𝑖𝑇 𝑋𝑗 + 𝐶)𝑑 , 𝛾 > 0 (5)
data a Pemrosesan yang dilakukan pada data latih
𝑚𝑎𝑥𝑎 = data maksimum pada kumpulan digunakan algoritme sequential training karena

merupakan algoritme yang sederhana tanpa untuk menentukan kelas prediksi. Secara umum
memakan waktu yang banyak (Vijayakumar, sistem dideskripsikan pada Gambar 1.
1999) dengan tahapan perhitungan: Mulai
1. Inisialisasi terhadap berbagai parameter,
seperti 𝑎𝑖 , γ, C, dan ε. Input: Dokumen Data
Latih dan Data Uji
𝛼𝑖 = alfa, untuk mencari support vector
γ = konstanta gamma untuk mengontrol
kecepatan Praproses
C = variabel slack
ε = epsilon digunakan untuk mencari nilai
error Pembobotan Kata (TF-IDF)
2. Hitung matriks Hessian yang didapat dari

perkalian antar kernel polynomial dan y yang
Lexicon Based Features
merupakan vector bernilai 1 dan -1.
Persamaan dari matriks Hessian adalah:
𝐷𝑖𝑗 = 𝑦𝑖 𝑦𝑗 (𝐾(𝑥𝑖 , 𝑥𝑗 ) + 𝜆2 ) (6)
Support Vector Machine
3. Lakukan perhitungan berikut hingga interasi
data i hingga j:
a. 𝐸𝑖 = ∑𝑖𝑗 𝑎𝑗 𝐷𝑖𝑗 (7) Output: Kelas Positif
atau Negatif
b. 𝛿𝛼𝑖 = min(max[ γ(1 − 𝐸𝑖 ), 𝛼𝑖 ] , 𝐶 − 𝛼𝑖
(8) Selesai
c. 𝛼𝑖 = 𝛼𝑖 + 𝛿𝛼𝑖 (9)
4. Lakukan ketiga langkah diatas secara Gambar 1. Deskripsi Umum Sistem
berulang hingga mencapai batas maksimum 3.2. Pre-processing
iterasi
5. Proses sequential learning dari tahap 1 Pre-processing merupakan tahapan awal
hingga 4 akan mendapatkan nilai dari support yang akan dilalui dalam memproses teks. Pada
vector (SV), dimana nilai SV = (𝛼𝑖 > penelitian ini akan dilakukan tahapan Pre-
𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑𝑆𝑉). Setelah itu, perlu dilakukan processing dengan tahapan case folding, data
perhitungan pada nilai bias b yang diperoleh cleaning, normalisasi kata tidak baku, stopword
dari Persamaan 10. removal, stemming, dan tokenisasi. Alur proses
pada tahapan ini akan ditunjukkan pada Gambar
1
𝑏 = − (∑𝑁 − 𝑁 +
𝑖=0 𝛼𝑖 𝑦𝑖 𝐾(𝑥𝑖 , 𝑥 ) + ∑𝑖=0 𝛼𝑖 𝑦𝑖 𝐾(𝑥𝑖 , 𝑥 ) 2.
2
(10) Mulai
Praproses
6. Untuk mengetahui hasil klasifikasi teks pada
kelas sentimen tertentu maka dilakukan Input: Dokumen Data
proses perhitungan fungsi f(x). Jika hasil dari Latih dan Data Uji
fungsi tersebut bernilai negatif, maka

dokumen terklasifikasi pada sentimen kelas Case Folding
negatif cyberbullying. Jika nilai fungsi
bernilai positif, maka dokumen terklasifikasi
pada kelas sentimen positif cyberbullying. Data Cleansing
Fungsi f(x) diperoleh pada Persamaan 11.
𝑓(𝑥) = ∑𝑚 𝑖=0 𝛼𝑖 𝑦𝑖 𝐾 (𝑥𝑖 , 𝑥 ) + 𝑏 (11)
Normalisasi Bahasa
3. METODE USULAN
3.1 Alur Proses Sistem Stopword Removal
Tahapan dalam melakukan analisis
sentimen dengan metode klasifikasi SVM A
dimulai dengan input data yang berupa data latih
dan data uji yang kemudian diproses pada
tahapan pre-processing hingga proses klasfikasi

A didapat berdasarkan bobot pada setiap fitur

dokumen teks. Alur proses metode Support
Vector Machine ditunjukkan pada Gambar 4.
Stemming
Support Vector Machine Mulai
Input: Dokumen Data

Tokenisasi
Latih dan Data Uji
(Hasil TF-IDF)
Output: Hasil Membentuk matriks dan matriks

Praproses transpos dari hasil TF-IDF
Kembali Perhitungan Kernel
Gambar 2. Alur proses Pre-processing

Perhitungan Matriks Hessian
3.3. Pembobotan TF-IDF
Data yang telah melaui tahapan Pre-
Perhitungan sequential
processing telah siap untuk diolah. Pada data training SVM
mentah tersebut akan dilakukan proses
pembobotan pada setiap kata (term) dan Perhitungan bias
memberikan hasil akhir berupa bobot TF-IDF.
Hasil dari pembobotan ini yang akan digunakan
dalam proses klasifikasi dengan metode SVM. Perhitungan testing
Alur prosesnya ditunjukkan pada Gambar 3.
Pembobotan TF-IDF Output: Kelas Positif
Mulai atau Negatif
Input: Dokumen Data

Kembali
Latih dan Data Uji (Hasil
Pre-processing teks)
Gambar 4. Alur proses Support Vector Machine
Tentukan Fitur Kata
4. PENGUJIAN DAN ANALISIS
Hitung nilai TF
Pengujian yang telah dilakukan pada
beberapa parameter Support Vector Machine.
Parameter SVM yang diuji adalah nilai degree
Hitung nilai Wtf kernel polynomial, iterasi maksimum, dan
konstanta learning rate.
Hitung nilai DF dan IDF
NILAI DEGREE KERNEL
POLYNOMIAL
Accuracy Precision
Hitung nilai TF-IDF Recall F-measure
100%
Output: Nilai TF-IDF 80%

PROSENTASE
60%
Kembali
40%
Gambar 3. Alur proses Pembobotan TF-IDF
20%
3.4. Support Vector Machine
0%
Metode Support Vector Machine 2 3 4 5 6
merupakan metode yang digunakan untuk TINGKAT DEGREE
analisis sentimen pada penelitian ini. Hasil yang Gambar 5. Grafik hasil pengujian pengaruh
akan ditentukan dengan metode ini adalah nilai degree
klasifikasi kelas positif dan kelas negatif yang

Pada Gambar 5 ditunjukkan nilai akurasi 𝛼𝑖 tersebut menjadi pembentukan support

terbaik terletak pada nilai degree = 2, yaitu 80% vector.
dan diikuti oleh nilai precision, recall, dan f- KONSTANTA LEARNING RATE
measure. Nilai akurasi pada degree 3 hingga 6 Accuracy Precision
cenderung konstan, yang mana nilai akurasinya Recall F-Measure
menunjukkan pada prosentase 50%. Nilai recall 100%
yang didapatkan pada degree 3 hingga 6 dapat
PROSENTASE
mencapai 100% menunjukkan bahwa sistem
telah berjalan efektif, dikarenakan hasil yang 50%
diberikan sistem terhadap data yang relevan
lebih besar atau seimbang. Dengan begitu dapat
0%
disimpulkan bahwa nilai degree yang paling 0,0001 0,0005 0,001 0,025 0,05
optimal ketika pada degree 2 dengan LEARNING RATE
memperoleh tingkat akurasi tertinggi sebesar Gambar 7. Grafik hasil pengujian iterasi
80%. Dengan meningkatnya nilai degree pada maksimum
kernel polynomial berpengaruh terhadap hasil
perhitungan matriks Hessian yang berfungsi Hasil pengujian yang ditunjukkan oleh
dalam mencari nilai optimum pada setiap Gambar 7 menunjukkan nilai konstanta learning
dokumen data, dimana hasil dari matriks hessian rate terbaik ketika 0,0001. Hal ini ditunjukkan
digunakan untuk menghitung besar nilai error dengan tingkat akurasi yang mencapai 79,38%.
rate pada setiap dokumen dan berpengaruh Konstanta learning rate berfungsi untuk
terhadap pembentukan nilai support vector. mengontrol kecepatan pada proses training dan
bergantung pada jumlah iterasi untuk mencapai
konvergensi. Dari hasil pengujian ditunjukkan
ITERASI MAKSIMUM bahwa nilai optimal konstanta learning rate
100%
adalah 0,0001 dan terjadi ketika iterasi
PROSENTASE
75% maksimum mencapai 200 kali. Perubahan nilai

50% learning rate pada sistem memengaruhi nilai 𝛿𝛼.
Karena learning rate menjadi salah satu
25%
kandidat nilai yang berpengaruh dalam
0% pembentukan nilai alfa dan pembentukan
Recall
Recall
Recall
Recall
Accuracy
Accuracy
Accuracy
Accuracy
himpunan support vector. Semakin

meningkatnya nilai learning rate berdampak
pada proses pelatihan yang semakin cepat,
100 200ITERASI300 400 sehingga tingkat ketelitian menjadi berkurang.
Gambar 6. Grafik hasil pengujian iterasi
maksimum Waktu Komputasi
400
Dari pengujian iterasi maksimum
300
didapatkan bahwa nilai akurasi paling baik
detik
ketika iterasi maksimum sebanyak 200 kali. Hal 200

ini ditunjukkan oleh Gambar 6, dimana iterasi 100
maksimum 200 memiliki tingkat akurasi sebesar
0
66.67% dan akurasi mengalami penurunan 0 100 200 300 400 500
ketika iterasi maksimumnya adalah 300 kali Iterasi
dengan tingkat akurasi 62,50%. Namun
Gambar 8. Grafik hasil pengujian iterasi
peningkatan jumlah iterasi secara terus-menerus
maksimum terhadap waktu komputasi sistem
tidak menandakan perbaikan akurasi. Penurunan
tingkat akurasi terjadi karena pada tahapan
Pengujian waktu komputasi (running time)
sequential learning akan mengalami perubahan
pada sistem dilakukan terhadap iterasi
nilai 𝛼𝑖 . Perubahan nilai 𝛼𝑖 yang berpengaruh
maksimum yang dilakukan. Seiring dengan
pada penurunan tingkat akurasi ini karena nilai
bertambahnya iterasi maksimum, maka akan
𝛼𝑖 yang menjadi tidak konvergen yang dapat
meningkatkan waktu komputasi yang
dibuktikan dengan perubahan nilai 𝛼𝑖 . Nilai dari

direpresentasikan dalam satuan waktu detik. Lexicon Based Features bertujuan untuk
Ditunjukkan pada Gambar 8, bahwa waktu mencari pengaruh implementasi Lexicon Based
komputasi terbaik sistem dalam menyelesaikan Features terhadap tingkat akurasi sistem.
klasifikasi adalah dengan menggunakan 100 kali Tahapan pengujian ini akan membandingkan
iterasi maksimum. Waktu yang dibutuhkan yaitu sistem ketika Lexicon Based Features
selama 254.6124172 detik. diimplementasikan dan ketika Lexicon Based
Features tidak diimplementasikan.
Tahapan pengujian pengaruh implementasi
LEXICON BASED FEATURES

Tanpa Lexicon Lexicon Min-Max Lexicon Skor Sentimen
100%
100%
100%
94,44%
92,68%
91,11%
89,47%
89,06%
88,46%
86,79%
86,32%
85,71%
87,5%
84,72%
87,0%
84,47%
90%
83,33%
85,5%
81,42%
81,25%
81,25%
87%
80,26%
82,5%
82,5%
79,55%
79,17%
79,17%
85%
76,67%
76,67%
76,25%
76,03%
82%
75,83%
75,41%
75,25%
80%
73,56%
71,25%
71,25%
71,05%
75%
68,09%
69,7%
66,67%
70%
63,33%
69%
68%
65%
57,5%
60%
55%
46,15%
50%
40%
30%
18,18%
RECALL
RECALL
RECALL
F-MEASURE
RECALL
F-MEASURE
RECALL
F-MEASURE
F-MEASURE
F-MEASURE
ACCURACY
ACCURACY
ACCURACY
ACCURACY
ACCURACY
PRECISION
PRECISION
PRECISION
PRECISION
PRECISION
50:50 60:40 70:30 80:20 90:10
Gambar 9. Grafik hasil pengujian pengaruh penerapan tanpa lexicon based features
Dari hasil pengujian diketahui bahwa proses Features dengan perhitungan skor sentimen.
klasifikasi yang dilakukan tanpa Pada satu komposisi data, akurasi yang
mengimplementasikan metode Lexicon Based didapatkan pada kedua cara implementasi
Features memiliki tingkat akurasi yang lebih Lexicon Based Features tidak terdapat
baik dibandingkan dengan proses klasifikasi perbedaan. Namun ketika pengujian yang
yang mengimplementasikan metode Lexicon dilakukan pada komposisi data latih dan data uji
Based Features. Pengaruh implementasi dari lainnya memberikan tingkat akurasi yang cukup
metode Lexicon Based Features yaitu pada berbeda. Penyebab perbedaan yang terjadi
penggunaan kamus lexicon yang masih umum dikarenakan hasil yang didapatkan ketika
(tidak terfokus pada cyberbullying), namun data menghitung matriks Hessian. Pengaruh
yang digunakan merupakan data yang bersifat perbedaan hasil yang signifikan dari perhitungan
variatif dan kompleks. Kamus lexicon yang matriks Hessian dapat memberikan dampak
digunakan hanyalah berbentuk kata, namun dalam pembentukan support vector.
dalam mengenali sifat sentimen dari kalimat Selain pengujian implementasi Lexicon
cyberbullying dibutuhkan kamus yang lebih Based Features dan tanpa Lexicon Based
spesifik yaitu kamus yang terdapat bentuk frase. Features, dapat dilihat bahwa terdapat pengujian
Prosentase akurasi terbaik mencapai 90% pada pada komposisi data latih dan data uji. Tingkat
sistem yang tidak mengimplementasikan akurasi terbaik sebesar 90% yang didapatkan
Lexicon Based Features. pada 50% komposisi data latih dan 50%
Didapatkan bahwa rata-rata akurasi Lexicon komposisi data uji pada sistem yang tidak
Based Features dengan normalisasi min-max mengimplementasikan algoritme Lexicon Based
lebih baik dibandingkan dengan Lexicon Based Features. Namun seiring dengan bertambahnya

komposisi data latih, tingkat akurasi semakin tambahan data untuk data latih baik yang
menurun. Hal ini terjadi karena adanya over- bersentimen positif cyberbullying
fitting, yaitu pada proses training (pelatihan) maupun yang bersentimen negatif
data telah dimodelkan dengan sangat baik, cyberbullying.
sehingga memungkinkan noise data telah 2. Data diklasifikasikan menjadi tiga kelas
dipelajari dan menyebabkan data uji tidak dapat sentimen, yaitu sentimen positif
diprediksi dengan baik. cyerbullying, netral, dan negatif
Selain itu terdapat perubahan nilai precision cyberbullying. Hasil klasifikasi dari
dan recall pada pengujian komposisi data latih ketiga kelas tersebut dapat diketahui
dan data uji. Perubahan nilai precision
polaritas dari setiap sentimennya.
disebabkan oleh perubahan jumlah prediksi data
3. Dapat diimplementasikan suatu metode
yang diklasifikasikan sebagai kelas positif.
Meningkatnya nilai precision dikarenakan
optimasi dalam ekstraksi fitur yang
rendahnya hasil prediksi kelas data yang tidak berguna dalam mengidentifikasikan teks
disesuai dengan keinginan (query). Namun berdasarkan makna perkata, frase, dan
meningkatnya nilai recall berkebalikan dengan kalimat.
nilai precision. Hal ini dikarenakan dengan 4. Tahapan evaluasi sistem dapat
seiring peningkatan nilai recall, kelas data yang mempertimbangkan konsep macro average
ditemukan telah relevan dengan keinginan dan micro average untuk mengevaluasi
(query). Peningkatan nilai recall menunjukkan kinerja sistem, sehingga dapat
bahwa sistem telah berjalan dengan efektif. meningkatkan kinerja dalam
mengklasifikasi multi-label.
5. KESIMPULAN DAN SARAN 5. Sistem dapat dikembangkan menjadi
suatu produk yang bersifat preventif bagi
Dari hasil pengujian yang telah dilakukan, pengguna baik yang membaca kolom
dapat ditarik beberapa kesimpulan dalam komentar maupun yang mengunggah
analisis sentimen cyberbullying pada komentar
suatu komentar.
Instagram yang menerapkan metode SVM. Hal
yang disimpulkan dari penelitian ini adalah
6. DAFTAR PUSTAKA
sebagi berikut:
1. Support Vector Machine dapat digunakan Akbari, M. I. H. A. D., Astri Novianty S.T., M.
dalam menganalisis sentimen cyerbullying & Casi Setianingsih S.T., M., 2012.
pada kolom komentar Instagram. Hasil Analisis Sentimen Menggunakan Metode
klasifikasi berupa kelas positif dan negatif Learning Vector Quantization. Telkom
yang dibedakan menjadi sentimen positif University .
cyberbullying dan sentimen negatif Berry, M. & Kogan, J., 2010. Text Mining
cyberbullying. Application and Theory. In: Wiley: United
2. Berdasarkan hasil pengujian yang Kingdom .
dilakukan didapatkan tingkat akurasi Darma, I. M. B. S., 2017. Penerapan Sentimen
terbaik sebesar 90%, precision sebesar Analisis Acara Televisi Pada Twitter
94,44%, 85% recall sebesar dan f-measure Menggunakan Support Vector Machine dan
sebesar 89,47% dengan komposisi data Algoritma Genetika sebagai Metode
latih 50% dan data uji 50% dan tanpa Seleksi Fitur.
mengimplementasikan algoritme Lexicon
Based Features. Jiawei, H., Kamber, M. & Pei, J., 2012. Data
Mining: Concepts and Techniques Third
Berdasarkan penelitian yang telah Edition. MA: Morgan Kaufmann.
dilakukan, masih terdapat beberapa
kekurangan yang perlu diperbaiki maupun Junaedi, H., Budianto, H., Maryati, J. & Melani,
dikembangkan dari penelitian ini. Saran yang Y., 2011. Data Transformation Pada Data
diberikan untuk dilakukan pada penelitian mining. Prosiding Konferensi Nasional
berikutnya adalah: "Inovasi dalam Desain dan Teknologi" -
IDeaTech.
1. Data yang digunakan untuk proses
klasifikasi didapatkan secara real time K, S. T. & Shetty, J., 2017. Sentiment Analysis
yang kemudian dapat dimasukkan sebagai of Product Reviews: A Review.

International Conference on Inventive Yusuf, O., 2017. Naik 100 Juta, Berapa Jumlah
Communication and Computational Pengguna Instagram Sekarang?. [Online]
Technologies. Tersedia di:
<http://tekno.kompas.com/read/2017/09/29
Liu, B., 2012. Sentiment Analysis and Opinion
/06304447/naik-100-juta-berapa-jumlah-
Mining. In: Chicago: Morgan & Claypool
pengguna-instagram-sekarang> [Diakses
Publisher.
11 Februari 2018].
Manning, C., Raghavan, P. & Schütze, H., 2009.
An Introduction to Information Retrieval.
Cambridge: Cambridge University Press.
Muttya, A., 2017. Kompas.com. [Online]
Tersedia di:
<http://entertainment.kompas.com/read/20
17/04/28/060000410/gara-
gara.tiket.bts.putri.uya.kuya.dapat.ancama
n> [Diakses 23 Agustus 2017].
Nugroho, G. A. P., 2016. Analisis Sentimen Data
Twitter Menggunakan K-Means Clustering.
Paramita, 2008. Penerapan Support Vector
Machine untuk Ekstraksi Informasi dari
Dokumen Teks. Laporan Tugas Akhir ,
Program Studi Teknik Informatika, STEI
Institut Teknologi Bandung.
Peng, W., 2011. Generate Adjective Sentiment
Dictionary for Social Media Sentiment
Analysis Using Constrained Nonnegative
Matrix Factorization. s.l.:s.n.
Pratiwi, A., 2017. Cyberbullying [Interview] (18
Oktober 2017).
Putranti, N. D. & Winarko, E., 2014. Analisis
Sentimen Twitter untuk Teks Berbahasa
Indonesia dengan Maximum Entropy dan
Support Vector Machine. IJCCS, Volume
8, pp. 91-100.
Santosa, B., 2007. Data Mining Teknik
Pemanfaatan Data untuk Keperluan Bisnis.
Yogyakarta : Graha Ilmu.
Stauffer, S., Heath, M. A., Coyne, S. M. &
Ferrin, S., 2012. High School Teachers
Perceptions of Cyberbullying Prevention
and Intervention Strategies. Psychology in
the Schools, Volume 49.
Utomo, M. S., 2013. Implementasi Stemmer
Tala pada Aplikasi Berbasis Web. Jurnal
Teknologi Informasi DINAMIK, Volume
18, pp. 41-45.
Vijayakumar, W. S., 1999. Sequential Support
Vector Classifiers and Regression.
International Conference on Soft
Computing, Issue SOCO'99, pp. 610-619.

Analisis Sentimen Cyberbullying Pada Komentar Instagram Dengan Metode Klasifikasi Support Vector Machine

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Analisis Sentimen Cyberbullying Pada Komentar Instagram Dengan Metode Klasifikasi Support Vector Machine

Diunggah oleh

Hak Cipta:

Format Tersedia

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-ISSN: 2548-964X

Vol. 2, No. 11, November 2018, hlm. 4704-4713 http://j-ptiik.ub.ac.id

Analisis Sentimen Cyberbullying pada Komentar Instagram dengan Metode

tercatat kurang lebih 800 juta orang (Yusuf,

Fakultas Ilmu Komputer

pembersihan kata dengan menghilangkan memenuhi pada cyberbullying seperti, flaming,

Fakultas Ilmu Komputer, Universitas Brawijaya

1 + 𝑙𝑜𝑔10 𝑡𝑓𝑡,𝑑 , 𝑖𝑓 𝑡𝑓𝑡,𝑑 > 0 data a

Fakultas Ilmu Komputer, Universitas Brawijaya

2. Hitung matriks Hessian yang didapat dari

fungsi tersebut bernilai negatif, maka

Fakultas Ilmu Komputer, Universitas Brawijaya

A didapat berdasarkan bobot pada setiap fitur

Input: Dokumen Data

Output: Hasil Membentuk matriks dan matriks

Kembali Perhitungan Kernel

Gambar 2. Alur proses Pre-processing

Input: Dokumen Data

Output: Nilai TF-IDF 80%

Fakultas Ilmu Komputer, Universitas Brawijaya

Pada Gambar 5 ditunjukkan nilai akurasi 𝛼𝑖 tersebut menjadi pembentukan support

75% maksimum mencapai 200 kali. Perubahan nilai

himpunan support vector. Semakin

ketika iterasi maksimum sebanyak 200 kali. Hal 200

Fakultas Ilmu Komputer, Universitas Brawijaya

LEXICON BASED FEATURES

Fakultas Ilmu Komputer, Universitas Brawijaya

Fakultas Ilmu Komputer, Universitas Brawijaya

Fakultas Ilmu Komputer, Universitas Brawijaya

Anda mungkin juga menyukai