Anda di halaman 1dari 17

Kecendrungan Sentimen dengan Pendekatan SVM

pada Komunitas yang Berpengaruh di Twitter

Proposal Tugas Akhir

Kelas MK Penulisan Proposal (CCH4A3)

1301162754
ADINDA SUCI REZEKY TAMI BATUBARA

Program Studi Sarjana Teknik Informatika


Fakultas Informatika
Universitas Telkom
Bandung
2019
Lembar Persetujuan

Kecendrungan Sentimen dengan Pendekatan SVM


pada Komunitas yang Berpengaruh di Twitter
Sentimen Leaning with SVM
of Influential Comunities in Twitter

1301162754
ADINDA SUCI REZEKY TAMI BATUBARA

Proposal ini diajukan sebagai usulan pembuatan tugas akhir pada


Program Studi Sarjana Teknik Informatika
Fakultas Informatika Universitas Telkom

Bandung, 31 Oktober 2019


Menyetujui,

Calon Pembimbing

Dr. Warih Maharani, ST., MT


01780020
ABSTRAK
Twitter adalah situs social network populer yang telah memiliki jutaan pengguna
yang tersebar di berbagai belahan dunia. Twitter digunakan tidak hanya untuk
media bertukar informasi, media iklan produk dan media kampanye partai-partai
politik. Namun, Twitter juga dapat digunakan sebagai media propaganda bagi
kelompok-kelompok yang memiliki tujuan tertentu. Propaganda tersebut dapat
berupa masalah sosial ataupun masalah politik. Pada penelitian ini akan
membahas mengenai masalah sosial yaitu pada permasalahan lingkungan di
Twitter. Tujuan dari penelitian ini adalah untuk mengkarakterisasikan suatu
kelompok (komunitas) yang berpengaruh dan kecendrungan sentimen pada
komunitas tersebut di dalam Twitter. Ada tiga tahap yang digunakan dalam
mengkarakterisasikan komunitas dan kecendrungan sentimen. Pertama,
mengidentifikasi pengguna yang berpengaruh dan komunitas melalui analysis
network dari re-twets. Pengukuran pengguna yang berpengaruh dan komunitas
menggunakan algoritma community detection dengan menggunakan metode
Louvain. Kedua, melakukan klasifikasi content-based dari komunitas sesuai topik
yang sering dibahas. Pendekatan text mining digunakan untuk mengidentifikasi
topik yang dibahas oleh komunitas. Ketiga, melakukan analisis sentimen dari
cuitan untuk mengidentifikasi kecendrungan setiap komunitas terhadap suatu
topik pembahasan. Analisis sentimen menggunakan kalsifikasi SVM untuk
menentukan kecendrungan sentimen dari topik yang dibahas.
Kata Kunci: Analisis Sentimen, Komunitas, Twitter,Support Vector Machine.
DAFTAR ISI

Lembar Persetujuan........................................................................................................1
ABSTRAK........................................................................................................................2
1. PENDAHULUAN.....................................................................................................4
1.1. Latar Belakang.................................................................................................4
1.2. Perumusan Masalah.........................................................................................5
1.3. Tujuan...............................................................................................................5
1.4. Batasan Masalah..............................................................................................5
1.5. Rencana Kegiatan............................................................................................6
1.6. Jadwal Kegiatan...............................................................................................6
2. KAJIAN PUSTAKA................................................................................................7
2.1. Twitter................................................................................................................7
2.2. Social Network Analysis....................................................................................7
2.3. Community Detection........................................................................................7
2.4. Louvain Method................................................................................................8
2.5. Text Mining.......................................................................................................8
2.5.1. Term Frequency-Inverse Document Frequency (TF-IDF)..........................8
2.5.2. Bag of Word (BoW)......................................................................................8
2.6. Preprocessing....................................................................................................8
2.6.2. Tokenisasi......................................................................................................9
2.7. Sentiment Analysis............................................................................................9
2.8. Support Vector Machine (SVM).......................................................................9
3. PERANCANGAN SISTEM...................................................................................10
3.1. Gambaran Umum Sistem..............................................................................10
3.2. Tahapan Sistem..............................................................................................11
DAFTAR PUSTAKA.....................................................................................................15
1. PENDAHULUAN
1.1. Latar Belakang
Twitter merupakan media sosial dengan pertumbuhan tercepat sejak tahun
2006 menurut MIT Technology Review (2013. Pengguna Twitter di Indonesia
pada tahun 2014 mencapai 20 juta pengguna aktif (Luckman, 2014). Twitter
digunakan tidak hanya untuk media bertukar informasi, media iklan produk dan
media kampanye partai-partai politik. Namun, Twitter juga dapat digunakan
sebagai media propaganda bagi kelompok-kelompok yang memiliki tujuan
tertentu. Propaganda tersebut dapat berupa masalah sosial ataupun masalah
politik. Salah satu masalah sosial yang sering dibahas saat ini adalah masalah
lingkungan. Pada penelitian ini akan membahas mengenai masalah sosial yaitu
pada permasalahan lingkungan di Twitter..
Penelitian yang terkait adalah pada penelitian Conover [1]. Pada penelitian
tersebut, jumlah retweet menunjukkan segregasi komunitas yang jelas (untuk
melihat kecendrungan suatu pengguna), sedangkan mention network didominasi
oleh satu komunitas (single community). Penelitian tersebut juga membandingkan
akurasi prediksi model berbasis komunitas dengan dua model berbasis konten
(teks cuitan dan hastags). Prediksi model berbasis komunitas dibangun dari
retweet network yang dapat mengungguli prediksi model berbasis konten (dengan
akurasi 95 vs 91%) [2]. Berdasarkan penelitian diatas, dapat dinyatakan bahwa
pengaruh retweet menjadi ukuran pengaruh yang paling menjanjikan di Twitter,
dan deteksi komunitas pada retweet network akan memungkinkan menghasilkan
komunitas yang paling berpengaruh. Namun dalam domain lingkungan, segregasi
komunitas dianggap belum maksimal[8]. Oleh karena itu, penelitian ini akan
mengkarakterisasikan komunitas tidak hanya pada anggota yang berpengaruh,
tetapi juga pada topik diskusi yang umum diperbincangkan dan sentimen.
Analisis sentimen telah diterapkan pada beberapa domain di Twitter [3],
terutama pada prediksi saham [4], dan pemilu. Ada beberapa kontroversi apakah
analisis Twitter dapat digunakan untuk memprediksi pemilu Gayo-Avello
memberikan survei berbagai penelitian [5]. Pada penelitan tersebut menerapkan
analisis sentimen pada Twitter untuk memantau pemilihan presiden Slovenia pada
2012 dan pemilihan parlemen Bulgaria pada 2013 [6]. Namun, penelitian tersebut
dilakukan berdasarkan pendekatan pada volume cuitan atau penggunaan analisis
sentimen yang masih sederhana dengan menghitung kata-kata sentimen positif
dan negatif dalam cuitan. Maka, penelitian ini akan menggunakan pendekatan
Supervised Machine Learning yaitu klasifikasi SVM untuk menentukan sentimen
topik yang dipilih untuk mengidentifikasi kecenderungan sentimen setiap
komunitas terhadap suatu topik.
1.2. Perumusan Masalah
Berdasarkan latar belakang yang telah dikemukakan diatas, maka permasalahan
yang akan dibahas dalam penelitian ini adalah sebagai berikut:
a. Bagaimana meng-karakterisasikan suatu komunitas tidak hanya pada
anggota yang berpengaruh, tetapi juga pada topik diskusi yang umum
diperbincangkan?
b. Bagaimana pendekatan SVM dapat mengidentifikasi kecendrungan
sentimen terhadap suatu topik di komunitas?
1.3. Tujuan
Tujuan dari penelitian ini adalah sebagai berikut:
a. Meng-karakterisasikan suatu komunitas tidak hanya pada anggota yang
berpengaruh, tetapi juga pada topik diskusi yang umum diperbincangkan.
b. Mengidentifikasi kecendrungan sentimen terhadap suatu topik di
komunitas dengan pendekatan SVM.
1.4. Batasan Masalah
Berdasarkan latar belakang dan rumusan masalah diatas, maka batasan
masalah yang akan dibahas dalam penelitian ini adalah sebagai berikut:
a. Data cuitan yang digunakan berdasarkan re-tweet dari pengguna mengenai
masalah lingkungan.
b. Data cuitan yang diambil tidak real-time, melainkan hasil pengumpulan
dalam jangka waktu tertentu (Maret 2018-Desember 2018)
c. Tidak menangani masalah misspelling.
d. Metode yang digunakan untuk mengidentifikasi kecenderungan sentimen
pada komunitas adalah Support Vector Machine.
1.5. Rencana Kegiatan
1. Studi Literatur
Studi literatur adalah pencarian informasi atau referensi pendukung pada
penelitian ini. Referensi dapat berupa jurnal, buku, maupun artikel yang
ada di internet.
2. Pengumpulan Data
Pengumpulan data diproleh dari data Twittter koresponden yang telah
bersedia untuk diambil datanya untuk dijadikan bahan penelitian.
3. Penerapan Metode
Metode yang digunkan pada penelitian ini adalah metode Support Vector
Machine(SVM). Metode tersebut akan dibuat dengan Bahasa
pemprograman python.
4. Pengujian Metode
Pengujian dilakuakn pada sistem yang telah dibuat dengan data yang
sudah dikumpulkan sebelumnya. Penguian tersebut dilakukan untuk
mengetahui seberapa besar akurasi dari penerapan metode tersebut.
5. Analisis dan Hasil
Melakukan analisia terhadap hasil yang telah diterapkan.

1.6. Jadwal Kegiatan


Adapun jadwal kegiatan yang akan dilakukan dalam melakukan penelitian ini,
yaitu:
Tabel 1 Jadwal Kegiatan

Bulan
Kegiatan
1 2 3 4 5 6

Studi Literatur
Pengumpulan Data
Penerapan Metode
Pengujian Metode
Analisis Hasil
2. KAJIAN PUSTAKA
2.1. Twitter
Twitter merupakan microblogging dan layanan social network yang
memungkinkan pengguna untuk salingg follow satu sama lain. Twitter adalah
salah satu layanan microblogging yang paling terkenal, dimana banyak komunitas
menggunakannya. Pengguna Twitter dapat mengirim dan menerima cuitan yang
merupakan pesan teks terdiri atas 140 karakter. Twitter memiliki beberapa fitur
yang digunakan secara umum oleh pengguna yaitu follow, re-tweet, hastag,
mention, reply dan cuitan.

2.2. Social Network Analysis


Social Network Analysis (SNA) adalah sebuah studi yang mempelajari
tentang hubungan manusia dengan memanfaatkan teori graf [8]. SNA adalah
metode yang digunakan untuk menginvestigasi aspek relasi pada struktur data [9].
SNA merupakan metode yang digunakan untuk mengetahui hubungan informal
antar individu dengan menganalisa struktur dari hubungan sosial dalam suatu
kelompok. Pada social network, individu atau orang digambarkan sebagai node
atau titik. Sedangkan relasi yang terjadi antar individu digambarkan dengan edge
atau link. Jaringan sosial adalah sebuah peta yang terdiri atas banyak orang
dimana didalamnya terdapat relasi antar individunya [10].

2.3. Community Detection


Community detection merupakan pengelompokan yang melakukan
pemisahan kedalam sejumlah kelompok berdasarkan karakterisasi tertentu.
Masalah yang penting dalam jaringan sosial adalah menemukan komunitas
pengguna atau community detection berdasarkan isi pesan dan hubungan dengan
pengguna lain. Hubungan tersebut dapat diketahui berdasarkan kesamaan konten
antar pengguna, lokasi dan lain-lain. Bentuk umum perhitungan community
detection (Blondel , 2008:2) adalah,

1
Q= ∑ ¿¿
2 m i, j
Keterangan:
Ai , j menunjukkan bobot edge antara node i dan j;
k ik j jumlah dari bobot edge yang terhubung degan node i dan j;
m jumlah dari semua bobot edge dalam graph;
ci c j komunitas dari node; dan
δ fungsi δ ( c i c j ) = 1 jika x=y, 0 untuk lainnya
Pada penelitian ini, community detection digunakan untuk menemukan
komunitas yang terbentuk dari interaksi yang ada pada suatu jaringan sosial.
Tujuan dari pengelompokan adalah mengelompokkan data berdasarkan tingkat
kesamaan satu sama lain (keterhubungan) yang berbeda dengan kelompok
lainnya.
2.4. Louvain Method
Deteksi komunitas akan menggunkan algoritma Louvain Method. Metode
ini mempartisi node jaringan dengan cara yang memaksimalkan modularitas
jaringan. Modularitas adalah ukuran kepadatan komunitas dalam jaringan. Metode
ini adalah salah satu jenis unsupervised learning yang yang memaksimalkan
bobot sebaran untuk setiap komunitas, dimana sebaran menjumlahkan kualitas
bobot node ke komunitas dengan mengevaluasi seberapa jauh kepadat node yang
terhubung dalam suatu komunitas, dibandingkan dengan seberapa terhubung
mereka dalam jaringan acak. (Blondel, 2008).

2.5. Text Mining


Text mining merupakan penambangan data yang berupa teks dimana
sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari
kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa
keterhubungan antar dokumen (Zulianto, 2013). Text mining dapat menemukan
pola dari suatu teks, sumber-sumber data yang akan diolah adalah dari koleksi
dokumen. Pada penelitian ini akan menggunkaan text mining untuk
mengidentifikasi konten dan melihat pembicaraan dari kelompok pengguna yang
berbeda.

2.5.1. Term Frequency-Inverse Document Frequency (TF-IDF)


Menurut (Mulyana, 2012) Term Frequency-Inverse Document Frequency
(TF-IDF) adalah cara pemberian bobot hubungan suatu kata (term) terhadap
dokumen. Metode ini menggabungkan dua konsep untuk perhitungan bobotnya,
yaitu term frequency(TF) dan document frequency(DF). Term frequency(TF)
adalah frekuensi kemunculan kata (t) pada dokumen (d). Sedangkan, document
frequency adalah banyaknya kalimat dimana suatu kata (t) muncul.

2.5.2. Bag of Word (BoW)


Bag of word adalah sebuah konsep yang diambil dari analisis teks, yaitu
merepresentasikan dokumen sebagai sebuah kantung informasi-informasi penting
tanpa mengurutkan setiap katanya. BoW juga dapat dikatakan sebagai kumpulan
kata-kata unik dalam teks dokumen untuk membentuk urutan yang berbeda
kemudian dihitung frekuensi kemunculannya.

2.6. Preprocessing
Preprocessing data adalah proses pembersihan dan mempersiapkan teks
untuk klasifikasi (Haddi, Liu, & Shi, 2013). Preprocessing juga dapat diartikan
juga sebagai tahapan dimana data mentah akan diolah menjadi data yang
berkualitas. Tahapan ini dibutuhkan untuk mendapatkan data yang berkualitas dan
juga untuk meningkatkan efisiensi pada proses pencarian informasi. Serta tahapan
ini guna sebagai pembersihan pada teks dengan menghilangkan bagian-bagian
yang tidak diperlukan, yang bertujuan untuk mengurangi noise dan missing value,
sehingga memudahkan proses selanjutnya.

2.6.1. Stopwords
Stopword adalah metode untuk menyaring kata dalam dokumen untuk
mendapatkan data yang berkualitas. Stopword dapat berupa kata tanpa arti atau
tidak mengandung informasi. Kata-kata pada stopwords dianggap terlalu sering
berada diantara dokumen dan kata yang muncul dalam dokumen tersebut tidak
dapat membantu pemahaman suatu dokumen dan tentunya harus dihilangkan.
Stopwords yang digunakan dapat melakukan sedikit perubahan pada list-nya
seperti symbol(“.”, “-“, “#”, “$”, “% “, dan lainnya).

2.6.2. Tokenisasi
Tokenizing adalah proses pemotongan string input berdasarkan tiap kata yang
menyusunnya. Pemecahan kalimat menjadi kata-kata tunggal dilakukan dengan
men-scan kalimat dengan pemisah white space (spasi, tab, dan newline)
(Mustaqhfiri, 2011). Token yang digunakan pada makalah ini adalah unigram pada
tokenisasi . Unigram adalah token yang terdiri dari hanya satu kata.
2.7. Sentiment Analysis
Analisis sentimen atau opinion mining merupakan proses memahami,
mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan
informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen
dilakukan untuk melihat pendapat atau kecendrungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung berpandangan atau beropini
negatif atau positif (B. Liu. 2010). Analisis sentimen adalah kegiatan melakukan
analisa terhadap pendapat, opini, sikap atau emosi seseorang mengenai suatu
produk, topik atau permasalahan tertentu sehingga bisa diketahui hal tersebut
masuk kedalam sentimen positif, negatif atau netral.

2.8. Support Vector Machine (SVM)


Support Vector Machine merupakan salah satu metode klasifikasi dengan
menggunakan machine learning (supervised learning) yang memprediksi kelas
berdasarkan model atau pola dari hasil proses training. SVM adalah salah satu
teknik yang baru dibandingkan dengan teknik lain, tetapi memiliki performansi
yang lebih baik di berbagai bidang aplikasi seperti bioinformatics, pengenalan
tulisan tangan, klasifikasi teks dan lain sebagainya [11]. Metode pembelajaran ini
ialah supervised, membutuhkan ketersediaan data berlabel. Fungsi pemetaan ini
bisa berupa fungsi klasifikasi atau fungsi regres (Wang,2005).
3. PERANCANGAN SISTEM
3.1. Gambaran Umum Sistem
Gambaran umum sistem merupakan alur proses sistem secara garis besar,
dimana dapat digambarkan menggunakan diagram maupun flowchart. Pada
penelitian ini akan menggunakan flowchart sebagai gambaran umum sistem,
adapun gambaran umum sistem sebagai berikut:

Gambar 1 Gambaran Umum Sistem


3.2. Tahapan Sistem
a. Crawling Data
Pada tahap pertama, dilakukan crawling data yang mana bertujuan untuk
mengumpulkan data. Data yang diambil adalah data berupa pengguna dan cuitan
beserta atribut-atributnya. Crawling data dilakukan dengan menggunakan Twitter
search API (Application Programming Interface). Twitter search API digunakan
untuk memudahkan dalam mengelola query search di konten Twitter. Pada
penelitian ini data yang diambil menggunakan Twitter search API adalah data
yang berhubungan dengan masalah lingkungan.
b. Feature Selection
Pada tahap ini, dilakukan feature selection yang digunakan untuk menentukan
fitur. Feature selection merupakan tahap penting karena dapat menghilangkan
fitur yang terdapat noisy. Fitur yang yang diambil adalah re-tweeet dari pengguna.
Selanjutnya, Re-tweet network akan dibangun untuk melihat pengguna yang
berada didalam relasi re-tweet tersebut, misalnya antara dua pengguna
menunjukkan bahwa salah satu pengguna me re-tweet yang lain atau sebaliknya.
c. Dataset
Dataset yang digunakan dalam penelitian ini adalah dataset yang diproleh dari
tahap sebelumnya yaitu data re-tweet dari pengguna. Dataset tersebut dapat
digunakan selanjutnya untuk proses pendeteksian komunitas, menentukan
pengguna yang berpengaruh atau komunitas yang berpengaruh.
d. Deteksi Komunitas dengan Louvain
Pada penelitian ini detection comunity akan menggunakan metode Louvain[7]
untuk re-tweet network. Metode ini mempartisikan node jaringan dengan cara
yang memaksimalkan modularitas jaringan. Perhitungan modularitas dilakukan
untuk menentukan bahwa simpul yang memiliki ikatan lebih erat dengan simpul
yang lain dari pada keseluruhan jaringan adalah simpul yang tergabung dalam
komunitas yang sama. Semakin padat suatu network menunjukkan hubungan antar
node yang semakin erat, atau semakin banyak node yang saling terhubung.
Selanjutnya, mengidentifikasi pengguna yang paling berpengaruh dalam jaringan,
yaitu pengguna yang kontennya paling banyak dibagikan. Re-tweet network dapat
direpresentasikan sebagai graph G terarah, dengan edge E(G).
Pengguna yang berpengaruh I (u) dapat didefinisikan sebagai (1)
berikut:

I ( u )= ∑ w ( eu ,v )
eu ,v ∊E (G )

Keterangan:
I (u) pengguna yang berpengaruh.
eu, v menunjukkan bahwa konten pengguna u telah di-re tweet oleh pengguna
v.
w e u , v menjadi bobot untuk edge e u , v yang menunjukkan berapa kali pengguna v
me-retweet konten dari pengguna u.
Berbeda dalam menentukan komunitas yang berpengaruh yang mana dapat
ditentukan melalui pengguna berpengaruh terhadap komunitas. Komunitas
berpengaruh dapat didefinisikan sebagai pengaruh kumulatif dari semua
penggunanya, sehingga dapat didefinisikan sebagai berikut:

I (C)=∑ I ( u )=¿ ∑
u ∊C u∊C (∑
eu ,v∊ E ( G) )
w ( eu , v ) ¿ (2)

Keterangan:
I (C) komunitas yang berpengaruh.
I (u) pengguna yang berpengaruh.
eu, v menunjukkan bahwa konten pengguna u telah di-re tweet oleh pengguna
v.
w e u , v menjadi bobot untuk edge e u , v yang menunjukkan berapa kali pengguna v
me-retweet konten dari pengguna u.

e. Analisis Konten

Setelah dilakukan penentuan pengguna yang bepengaruh dan komunitas


selanjutnya dilakukan analisis konten dari komunitas untuk melihat jenis konten
apa yang diminati. Pendekatan text mining dapat digunakan untuk
mengidentifikasi konten dan melihat apa yang dibicarakan oleh komunitas
pengguna yang berbeda. Pendekatan text mining yang digunakan sebagai berikut:
1. Untuk setiap komunitas pengguna gi, i∈ {1, … ,N}, membuat dokumen
d i yang menggabungkan semua konten yang telah di publish pengguna
komunitas gi.

2. Vocabulary (yaitu, kumpulan term) yang digunakan oleh komunitas { g1,


… , g N } diproleh dari dokumen {d 1, … ,d N }.
3. Untuk setiap term t dari vocabulary.
4. Untuk setiap dokumen, {d 1, … ,d N } membuat bag of words(BoW) vector
dimana setiap nilai term dalam vector adalah nilai TF iDF pada term t dari
vocabulary:
(3)
N
TF i DF (t )=TF i(t). log
DF (t)

Keterangan:
TF i(t) menunjukkan jumlah kemunculan term t dalam dokumen d i.
DF (t) jumlah dokumen setiap t muncul.
Term frequency-inverse document frequency(TFiDF) digunakan untuk
mengukur pentingnya term untuk dokumen dalam kumpulan dokumen[12].
Selanjutnya, prosedur di atas akan digunakan untuk merangkum dan
merepresentasikan perbedaan topik dalam konten setiap komunitas. Identifikasi
dan representasi konten tersebut dilakukan dengan menampilkan jumlah tertinggi
TF iDF yang dirangking term dari BoW vector yang dibuat untuk komunitas yang
dipilih. Cara tersebut dapat melihat topik yang diminati dalam suatu komunitas.
Untuk mengidentifikasi kecendrungan komunitas yang berbeda terhadap
topik tertentu yang diminati, terlebih dahulu harus mengambil cuitan individu
untuk membentuk topik tertentu. penelitian ini akan menggunakan filtering
procedure berdasarkan kesamaan dokumen untuk mendapatkan cuitan yang
berada di sekitar topik tertentu(query). Setiap cuitan dari dataset diperlakukan
sebagai dokumen individual dan ditransformasikan menjadi vektor BoW, adapun
proses filtering akan bekerja sebagai berikut:
1. Vocabulary V dari domain tertentu adalah semua cuitan yang unik yang
diproleh untuk domain yang ditargetkan, dari v dasar dari vetor dokumen
dibuat oleh text preprocessing (stemming,stop-word removal,n-gram)
yang menghasilkan term t 1, … ,t N .

2. Setiap cuitan tw i, i∈ {1, … ,m}, dari dataset D, vector BoW vi dari term
frequency TF i(t) untuk setiap term t dalam tw i dibangun dan
dinormalisasikan.
3. Model BoW dari domain yang diperiksa dapat diwakili oleh matriks M
dengan baris vi untuk setiap tw i ∈D.
4. Dataset D difilter menurut query q yang diubah menjadi vector BoW
yang dinormalisasikan q.
5. Kesamaan antara query q dan cuitan tw i ∈D dihitung sebagai s = M · q :

s1 q1

[]

sm
= [ m 1,1 ⋯ m 1 ,n
⋮ ¿ ¿ ]
⋯ ¿ mm , n ¿ .
[]

qn
(4)

Keterangan:
si, i∈ {1, ..., m} persamaan cosinus antara vektor query q dan vi
yang mewakili cuitan tw i.
mi , j frekuensi dari term(dinormalisasi) dari term t j , pada
cuitan tw i
vi vector BoW
q topik yang dipilih
tw i setiap cuitan
f. Analisis Sentimen
Pada penelitian ini akan menggunaka support vector machine (SVM) untuk
menentukan kecendrungan sentimen terhdap topik dari suatu komunitas.
Penentuan sentimen dari komunitas yang berbeda mengenai suatu topik tertentu
dapat dihitung sebagai berikut:
1. Pertama, untuk setiap komunitas, cuitan yang diposting oleh
penggunanya dipilih.
2. Kedua, sentimen dari setiap cuitan ditentukan dan dihitung berdasarkan
jumlah re-tweetnya.
3. Ketiga, menentukan sentimen negatif dan positif dari cuitan dikumpulkan
untuk setiap pengguna dan dijumlahkan semua pengguna yang ada
didalam komunitas tersebut.
4. Terakhir, kecendrungan dari komuitas terhadap komunitas tertentu
dihitung sebagai polaritas dari jumlah yang ditentukan sentiment
multiplied oleh rasio dari sentimen yang membawa cuitan (subjektivitas)
dari masing-masing komunitas.
DAFTAR PUSTAKA

[1] M. Conover, "Political polarization on Twitter," Proc.Fifth Intl.Conf.onWeblogs and


Social Media (ICWSM).AAAI,PaloAlto,California, (2011).

[2] M. Conover, "Predicting the political alignment of Twitter users,"


Privacy,Security,RiskandTrust,2011IEEE Third Intl.Conf.on Social
Computing,pp.192–199.IEEE,Piscataway,NewJersey, (2011).

[3] A. Agarwal, "Sentimen analysis of Twitter data," Proceedings of theWorkshop on


Languages in Social Media,pp.30–38.Association for Computational
Linguistics,Stroudsburg,PA, USA, (2011).

[4] J. Bollen, "Twitter mood predicts the stock market," J.Comput. Sci.2(1), p. 1–8,
(2011).

[5] Gayo-Avello, "Ameta-analysisofstate-of-the-art electoral prediction from Twitter


data," Soc.Sci.Comput.Rev. 31(6), p. 649–679, (2013).

[6] Smailovi´c, "Sentimen Analysis in Streams of Microblogging Posts," PhD thesis,Jožef


Stefan International Postgraduate School,Ljubljana,Slovenia, (2014).

[7] V. Blondel, "Fastunfoldingofcommunitiesinlargenetworks," J.Stat.Mech.:


TheoryExp.2008(10),10008, (2008).

[8] T. M. a. K. Alexander, "Social Network Analysis for Startups," O'Reilly., (2011).

[9] S. John, "Social Network Analysis Theory and Application," (2011).

[10] e. a. Susanto Budi, "Penerapan Social Network Analysis dalam Penentuan


Centrality," Fakultas Teknologi Informasi. Universitas Kristen Duta Wacana.
Yogyakarta.

[11] N. C. a. J. Taylor, "An Introduction to Support Vector Machine and Other Kernel-
based Learning Methods," Cambridge:Cambridge University Press, 2000.

[12] R. Feldman,
"TextMiningHandbook:AdvancedApproachesinAnalyzingUnstructuredData,"
Cambridge UniversityPress,NewYork,NY,USA, (2006).

Anda mungkin juga menyukai