Proposan Ta
Proposan Ta
1301162754
ADINDA SUCI REZEKY TAMI BATUBARA
1301162754
ADINDA SUCI REZEKY TAMI BATUBARA
Calon Pembimbing
Lembar Persetujuan........................................................................................................1
ABSTRAK........................................................................................................................2
1. PENDAHULUAN.....................................................................................................4
1.1. Latar Belakang.................................................................................................4
1.2. Perumusan Masalah.........................................................................................5
1.3. Tujuan...............................................................................................................5
1.4. Batasan Masalah..............................................................................................5
1.5. Rencana Kegiatan............................................................................................6
1.6. Jadwal Kegiatan...............................................................................................6
2. KAJIAN PUSTAKA................................................................................................7
2.1. Twitter................................................................................................................7
2.2. Social Network Analysis....................................................................................7
2.3. Community Detection........................................................................................7
2.4. Louvain Method................................................................................................8
2.5. Text Mining.......................................................................................................8
2.5.1. Term Frequency-Inverse Document Frequency (TF-IDF)..........................8
2.5.2. Bag of Word (BoW)......................................................................................8
2.6. Preprocessing....................................................................................................8
2.6.2. Tokenisasi......................................................................................................9
2.7. Sentiment Analysis............................................................................................9
2.8. Support Vector Machine (SVM).......................................................................9
3. PERANCANGAN SISTEM...................................................................................10
3.1. Gambaran Umum Sistem..............................................................................10
3.2. Tahapan Sistem..............................................................................................11
DAFTAR PUSTAKA.....................................................................................................15
1. PENDAHULUAN
1.1. Latar Belakang
Twitter merupakan media sosial dengan pertumbuhan tercepat sejak tahun
2006 menurut MIT Technology Review (2013. Pengguna Twitter di Indonesia
pada tahun 2014 mencapai 20 juta pengguna aktif (Luckman, 2014). Twitter
digunakan tidak hanya untuk media bertukar informasi, media iklan produk dan
media kampanye partai-partai politik. Namun, Twitter juga dapat digunakan
sebagai media propaganda bagi kelompok-kelompok yang memiliki tujuan
tertentu. Propaganda tersebut dapat berupa masalah sosial ataupun masalah
politik. Salah satu masalah sosial yang sering dibahas saat ini adalah masalah
lingkungan. Pada penelitian ini akan membahas mengenai masalah sosial yaitu
pada permasalahan lingkungan di Twitter..
Penelitian yang terkait adalah pada penelitian Conover [1]. Pada penelitian
tersebut, jumlah retweet menunjukkan segregasi komunitas yang jelas (untuk
melihat kecendrungan suatu pengguna), sedangkan mention network didominasi
oleh satu komunitas (single community). Penelitian tersebut juga membandingkan
akurasi prediksi model berbasis komunitas dengan dua model berbasis konten
(teks cuitan dan hastags). Prediksi model berbasis komunitas dibangun dari
retweet network yang dapat mengungguli prediksi model berbasis konten (dengan
akurasi 95 vs 91%) [2]. Berdasarkan penelitian diatas, dapat dinyatakan bahwa
pengaruh retweet menjadi ukuran pengaruh yang paling menjanjikan di Twitter,
dan deteksi komunitas pada retweet network akan memungkinkan menghasilkan
komunitas yang paling berpengaruh. Namun dalam domain lingkungan, segregasi
komunitas dianggap belum maksimal[8]. Oleh karena itu, penelitian ini akan
mengkarakterisasikan komunitas tidak hanya pada anggota yang berpengaruh,
tetapi juga pada topik diskusi yang umum diperbincangkan dan sentimen.
Analisis sentimen telah diterapkan pada beberapa domain di Twitter [3],
terutama pada prediksi saham [4], dan pemilu. Ada beberapa kontroversi apakah
analisis Twitter dapat digunakan untuk memprediksi pemilu Gayo-Avello
memberikan survei berbagai penelitian [5]. Pada penelitan tersebut menerapkan
analisis sentimen pada Twitter untuk memantau pemilihan presiden Slovenia pada
2012 dan pemilihan parlemen Bulgaria pada 2013 [6]. Namun, penelitian tersebut
dilakukan berdasarkan pendekatan pada volume cuitan atau penggunaan analisis
sentimen yang masih sederhana dengan menghitung kata-kata sentimen positif
dan negatif dalam cuitan. Maka, penelitian ini akan menggunakan pendekatan
Supervised Machine Learning yaitu klasifikasi SVM untuk menentukan sentimen
topik yang dipilih untuk mengidentifikasi kecenderungan sentimen setiap
komunitas terhadap suatu topik.
1.2. Perumusan Masalah
Berdasarkan latar belakang yang telah dikemukakan diatas, maka permasalahan
yang akan dibahas dalam penelitian ini adalah sebagai berikut:
a. Bagaimana meng-karakterisasikan suatu komunitas tidak hanya pada
anggota yang berpengaruh, tetapi juga pada topik diskusi yang umum
diperbincangkan?
b. Bagaimana pendekatan SVM dapat mengidentifikasi kecendrungan
sentimen terhadap suatu topik di komunitas?
1.3. Tujuan
Tujuan dari penelitian ini adalah sebagai berikut:
a. Meng-karakterisasikan suatu komunitas tidak hanya pada anggota yang
berpengaruh, tetapi juga pada topik diskusi yang umum diperbincangkan.
b. Mengidentifikasi kecendrungan sentimen terhadap suatu topik di
komunitas dengan pendekatan SVM.
1.4. Batasan Masalah
Berdasarkan latar belakang dan rumusan masalah diatas, maka batasan
masalah yang akan dibahas dalam penelitian ini adalah sebagai berikut:
a. Data cuitan yang digunakan berdasarkan re-tweet dari pengguna mengenai
masalah lingkungan.
b. Data cuitan yang diambil tidak real-time, melainkan hasil pengumpulan
dalam jangka waktu tertentu (Maret 2018-Desember 2018)
c. Tidak menangani masalah misspelling.
d. Metode yang digunakan untuk mengidentifikasi kecenderungan sentimen
pada komunitas adalah Support Vector Machine.
1.5. Rencana Kegiatan
1. Studi Literatur
Studi literatur adalah pencarian informasi atau referensi pendukung pada
penelitian ini. Referensi dapat berupa jurnal, buku, maupun artikel yang
ada di internet.
2. Pengumpulan Data
Pengumpulan data diproleh dari data Twittter koresponden yang telah
bersedia untuk diambil datanya untuk dijadikan bahan penelitian.
3. Penerapan Metode
Metode yang digunkan pada penelitian ini adalah metode Support Vector
Machine(SVM). Metode tersebut akan dibuat dengan Bahasa
pemprograman python.
4. Pengujian Metode
Pengujian dilakuakn pada sistem yang telah dibuat dengan data yang
sudah dikumpulkan sebelumnya. Penguian tersebut dilakukan untuk
mengetahui seberapa besar akurasi dari penerapan metode tersebut.
5. Analisis dan Hasil
Melakukan analisia terhadap hasil yang telah diterapkan.
Bulan
Kegiatan
1 2 3 4 5 6
Studi Literatur
Pengumpulan Data
Penerapan Metode
Pengujian Metode
Analisis Hasil
2. KAJIAN PUSTAKA
2.1. Twitter
Twitter merupakan microblogging dan layanan social network yang
memungkinkan pengguna untuk salingg follow satu sama lain. Twitter adalah
salah satu layanan microblogging yang paling terkenal, dimana banyak komunitas
menggunakannya. Pengguna Twitter dapat mengirim dan menerima cuitan yang
merupakan pesan teks terdiri atas 140 karakter. Twitter memiliki beberapa fitur
yang digunakan secara umum oleh pengguna yaitu follow, re-tweet, hastag,
mention, reply dan cuitan.
1
Q= ∑ ¿¿
2 m i, j
Keterangan:
Ai , j menunjukkan bobot edge antara node i dan j;
k ik j jumlah dari bobot edge yang terhubung degan node i dan j;
m jumlah dari semua bobot edge dalam graph;
ci c j komunitas dari node; dan
δ fungsi δ ( c i c j ) = 1 jika x=y, 0 untuk lainnya
Pada penelitian ini, community detection digunakan untuk menemukan
komunitas yang terbentuk dari interaksi yang ada pada suatu jaringan sosial.
Tujuan dari pengelompokan adalah mengelompokkan data berdasarkan tingkat
kesamaan satu sama lain (keterhubungan) yang berbeda dengan kelompok
lainnya.
2.4. Louvain Method
Deteksi komunitas akan menggunkan algoritma Louvain Method. Metode
ini mempartisi node jaringan dengan cara yang memaksimalkan modularitas
jaringan. Modularitas adalah ukuran kepadatan komunitas dalam jaringan. Metode
ini adalah salah satu jenis unsupervised learning yang yang memaksimalkan
bobot sebaran untuk setiap komunitas, dimana sebaran menjumlahkan kualitas
bobot node ke komunitas dengan mengevaluasi seberapa jauh kepadat node yang
terhubung dalam suatu komunitas, dibandingkan dengan seberapa terhubung
mereka dalam jaringan acak. (Blondel, 2008).
2.6. Preprocessing
Preprocessing data adalah proses pembersihan dan mempersiapkan teks
untuk klasifikasi (Haddi, Liu, & Shi, 2013). Preprocessing juga dapat diartikan
juga sebagai tahapan dimana data mentah akan diolah menjadi data yang
berkualitas. Tahapan ini dibutuhkan untuk mendapatkan data yang berkualitas dan
juga untuk meningkatkan efisiensi pada proses pencarian informasi. Serta tahapan
ini guna sebagai pembersihan pada teks dengan menghilangkan bagian-bagian
yang tidak diperlukan, yang bertujuan untuk mengurangi noise dan missing value,
sehingga memudahkan proses selanjutnya.
2.6.1. Stopwords
Stopword adalah metode untuk menyaring kata dalam dokumen untuk
mendapatkan data yang berkualitas. Stopword dapat berupa kata tanpa arti atau
tidak mengandung informasi. Kata-kata pada stopwords dianggap terlalu sering
berada diantara dokumen dan kata yang muncul dalam dokumen tersebut tidak
dapat membantu pemahaman suatu dokumen dan tentunya harus dihilangkan.
Stopwords yang digunakan dapat melakukan sedikit perubahan pada list-nya
seperti symbol(“.”, “-“, “#”, “$”, “% “, dan lainnya).
2.6.2. Tokenisasi
Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang
menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan
men-scan kalimat dengan pemisah white space (spasi, tab, dan newline)
(Mustaqhfiri, 2011). Token yang digunakan pada makalah ini adalah unigram pada
tokenisasi . Unigram adalah token yang terdiri dari hanya satu kata.
2.7. Sentiment Analysis
Analisis sentimen atau opinion mining merupakan proses memahami,
mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan
informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen
dilakukan untuk melihat pendapat atau kecendrungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung berpandangan atau beropini
negatif atau positif (B. Liu. 2010). Analisis sentimen adalah kegiatan melakukan
analisa terhadap pendapat, opini, sikap atau emosi seseorang mengenai suatu
produk, topik atau permasalahan tertentu sehingga bisa diketahui hal tersebut
masuk kedalam sentimen positif, negatif atau netral.
I ( u )= ∑ w ( eu ,v )
eu ,v ∊E (G )
Keterangan:
I (u) pengguna yang berpengaruh.
eu, v menunjukkan bahwa konten pengguna u telah di-re tweet oleh pengguna
v.
w e u , v menjadi bobot untuk edge e u , v yang menunjukkan berapa kali pengguna v
me-retweet konten dari pengguna u.
Berbeda dalam menentukan komunitas yang berpengaruh yang mana dapat
ditentukan melalui pengguna berpengaruh terhadap komunitas. Komunitas
berpengaruh dapat didefinisikan sebagai pengaruh kumulatif dari semua
penggunanya, sehingga dapat didefinisikan sebagai berikut:
I (C)=∑ I ( u )=¿ ∑
u ∊C u∊C (∑
eu ,v∊ E ( G) )
w ( eu , v ) ¿ (2)
Keterangan:
I (C) komunitas yang berpengaruh.
I (u) pengguna yang berpengaruh.
eu, v menunjukkan bahwa konten pengguna u telah di-re tweet oleh pengguna
v.
w e u , v menjadi bobot untuk edge e u , v yang menunjukkan berapa kali pengguna v
me-retweet konten dari pengguna u.
e. Analisis Konten
Keterangan:
TF i(t) menunjukkan jumlah kemunculan term t dalam dokumen d i.
DF (t) jumlah dokumen setiap t muncul.
Term frequency-inverse document frequency(TFiDF) digunakan untuk
mengukur pentingnya term untuk dokumen dalam kumpulan dokumen[12].
Selanjutnya, prosedur di atas akan digunakan untuk merangkum dan
merepresentasikan perbedaan topik dalam konten setiap komunitas. Identifikasi
dan representasi konten tersebut dilakukan dengan menampilkan jumlah tertinggi
TF iDF yang dirangking term dari BoW vector yang dibuat untuk komunitas yang
dipilih. Cara tersebut dapat melihat topik yang diminati dalam suatu komunitas.
Untuk mengidentifikasi kecendrungan komunitas yang berbeda terhadap
topik tertentu yang diminati, terlebih dahulu harus mengambil cuitan individu
untuk membentuk topik tertentu. penelitian ini akan menggunakan filtering
procedure berdasarkan kesamaan dokumen untuk mendapatkan cuitan yang
berada di sekitar topik tertentu(query). Setiap cuitan dari dataset diperlakukan
sebagai dokumen individual dan ditransformasikan menjadi vektor BoW, adapun
proses filtering akan bekerja sebagai berikut:
1. Vocabulary V dari domain tertentu adalah semua cuitan yang unik yang
diproleh untuk domain yang ditargetkan, dari v dasar dari vetor dokumen
dibuat oleh text preprocessing (stemming,stop-word removal,n-gram)
yang menghasilkan term t 1, … ,t N .
2. Setiap cuitan tw i, i∈ {1, … ,m}, dari dataset D, vector BoW vi dari term
frequency TF i(t) untuk setiap term t dalam tw i dibangun dan
dinormalisasikan.
3. Model BoW dari domain yang diperiksa dapat diwakili oleh matriks M
dengan baris vi untuk setiap tw i ∈D.
4. Dataset D difilter menurut query q yang diubah menjadi vector BoW
yang dinormalisasikan q.
5. Kesamaan antara query q dan cuitan tw i ∈D dihitung sebagai s = M · q :
s1 q1
[]
⋮
sm
= [ m 1,1 ⋯ m 1 ,n
⋮ ¿ ¿ ]
⋯ ¿ mm , n ¿ .
[]
⋮
qn
(4)
Keterangan:
si, i∈ {1, ..., m} persamaan cosinus antara vektor query q dan vi
yang mewakili cuitan tw i.
mi , j frekuensi dari term(dinormalisasi) dari term t j , pada
cuitan tw i
vi vector BoW
q topik yang dipilih
tw i setiap cuitan
f. Analisis Sentimen
Pada penelitian ini akan menggunaka support vector machine (SVM) untuk
menentukan kecendrungan sentimen terhdap topik dari suatu komunitas.
Penentuan sentimen dari komunitas yang berbeda mengenai suatu topik tertentu
dapat dihitung sebagai berikut:
1. Pertama, untuk setiap komunitas, cuitan yang diposting oleh
penggunanya dipilih.
2. Kedua, sentimen dari setiap cuitan ditentukan dan dihitung berdasarkan
jumlah re-tweetnya.
3. Ketiga, menentukan sentimen negatif dan positif dari cuitan dikumpulkan
untuk setiap pengguna dan dijumlahkan semua pengguna yang ada
didalam komunitas tersebut.
4. Terakhir, kecendrungan dari komuitas terhadap komunitas tertentu
dihitung sebagai polaritas dari jumlah yang ditentukan sentiment
multiplied oleh rasio dari sentimen yang membawa cuitan (subjektivitas)
dari masing-masing komunitas.
DAFTAR PUSTAKA
[4] J. Bollen, "Twitter mood predicts the stock market," J.Comput. Sci.2(1), p. 1–8,
(2011).
[11] N. C. a. J. Taylor, "An Introduction to Support Vector Machine and Other Kernel-
based Learning Methods," Cambridge:Cambridge University Press, 2000.
[12] R. Feldman,
"TextMiningHandbook:AdvancedApproachesinAnalyzingUnstructuredData,"
Cambridge UniversityPress,NewYork,NY,USA, (2006).