Anda di halaman 1dari 19

BAB IV

HASIL

IV.1. Data yang Digunakan

Dalam penelitian ini data yang digunakan adalah sentimen masyarakat

terkait Covid-19 pada media sosial twitter. Teknik pengambilan data

menggunakan teknik crawling yang merupakan fasilitas yang diberikan pihak

twitter berupa twitter API kepada developmen untuk pengambilan data pada sosial

media twitter. Hasil crawling sebanyak 600 tweet dengan pembagian data training

dan data testing, yang memiliki ekstensi csv.

Gambar IV.1 Data Set

IV.2. Arsitektur Umum

Proses analisis dilakukan sebelum melakukan perancangan. Dilakukan

analisis untuk mendapatkan kebutuhan dari sistem yang akan dikembangkan.

Sistem ini bertujuan untuk identifikasi sentimen masyarakat terkait Covid-19

pada media sosial twitter menggunakan Algoritma Latent Semantic Indexing

(LSI) dan algoritma Naive Bayes. Untuk dapat membangun sistem ini, diperlukan

26
27

beberapa tahapan yaitu tahap preprocessing, tahapan case folding, tahapan

tekonisasi dan tahap stopword removal.

Tf-Chi

Gambar IV.2 Arsitektur Umum


28

Pada penelitian ini, arsitektur umum dari perancangan sistem ditunjukkan pada
Gambar diatas, dimana kerja sistem ini dibagi menjadi beberapa bagian:
1. Input
Mengumpulkan data tweet dan komentar masyarakat mengenai COVID-19
melalui Teknik crawling. Data yang digunakan terdiri dari dua jenis yaitu data
training dan data testing.
2. Preprocessing
Tahap preprocessing dilakukan untuk mempersiapkan agar teks dapat diubah
menjadi lebih terstruktur. Tahap preprocessing ini terbagi menjadi beberapa
tahap, yaitu:
a. Case Folding
Case Folding merupakan tahapan mengubah setiap huruf pada kata yang
akan menjadi huruf kecil atau huruf besar sehingga jenis huruf yang akan
diproses menjadi seragam dan dapat mempermudah tahapan.
Tweet Isi tweet Case Folding
Tweet1 Stop hoax dan ujaran kebencian, stop hoax dan ujaran kebencian,
mari bersama – sama melawan mari bersama – sama melawan
corona. corona.
Tweet2 Vaksin juga tidak berpengaruh ya vaksin juga tidak berpengaruh ya
tapi cuma meminimalisir saja tapi cuma meminimalisir saja
gejala covid terhadap imun. gejala covid terhadap imun.
Tweet3 Salah satu sisi baik dari corona, salah satu sisi baik dari corona,
pengeluaran menurun drastis pengeluaran menurun drastis

b. Tokenization
Tokenisasi merupakan tahapan penguraian teks dalam sebuah paragraf,
kalimat atau halaman menjadi potongan-potongan yang disebut token untuk
kemudian akan dianalisa .Tujuan dari tokenization yaitu kata-kata dalam
sebuah paragraf, kalimat atau halaman diubah menjadi satuan kata.

Tweet Isi tweet


Tweet1 stop hoax dan ujaran kebencian, mari bersama – sama melawan
corona.
29

Tweet2 vaksin juga tidak berpengaruh ya tapi cuma meminimalisir saja


gejala covid terhadap imun.
Tweet3 salah satu sisi baik dari corona, pengeluaran menurun drastis

Tokenisasi Tweet1
stop hoax dan ujaran Kebencian
mari bersama sama melawan corona

Tokenisasi Tweet2
vaksin juga tidak berpengaruh ya tapi cuma
meminimalisir saja gejala covid terhadap imun

Tokenisasi Tweet3
salah satu sisi baik dari
corona pengeluaran menurun drastis

c. Stopwords Removal
Stopwords Removal merupakan proses penghapusan kata yang termasuk di
dalam daftar stopwords yang ada didalam file .csv yang dianggap tidak
berpengaruh dalam kalimat. Contoh kata yang termasuk stop-word
adalah“yang”, “dan”,“di”, “dari”, “sedang”, “ke”, “ini”, “oleh” ,”untuk” dan
lain sebagainya.
Tweet Isi tweet Case Folding
Tweet1 stop hoax dan ujaran kebencian, stop hoax ujaran kebencian
mari bersama sama melawan mari sama sama melawan
corona corona
Tweet2 vaksin juga tidak berpengaruh ya vaksin juga tidak pengaruh ya
tapi cuma meminimalisir saja gejala tapi cuma minimalis saja gejala
covid terhadap imun covid terhadap imun
Tweet3 salah satu sisi baik dari corona salah satu sisi baik dari corona
pengeluaran menurun drastis pengeluaran menurun drastis
30

d. Stemming
Stemming merupakan proses pengubahan kata yang menggandung imbuhan
menjadi kata dasar dengan menghapus awalan dan akhiran yang terdapat
pada suatu kata, tujuannya untuk melakukan pengelompokan kata-kata yang
diturunkan dari sebuah data stem yang umum dan kata dasar.

Tweet Isi tweet Case Folding


Tweet1 stop hoax ujaran kebencian mari stop hoax ujaran benci mari sama
sama sama melawan corona sama lawan corona
Tweet2 vaksin juga tidak pengaruh ya tapi vaksin juga tidak pengaruh ya tapi
cuma minimalis saja gejala covid cuma minimalis saja gejala covid
terhadap imun terhadap imun
Tweet3 salah satu sisi baik dari corona salah satu sisi baik dari corona
pengeluaran menurun drastis pengeluaran menurun drastis

3. Feature Extraction
Proses selanjutnya adalah ekstraksi fitur dengan cara pengubahan kata kedalam
bentuk angka agar dapat diidentifikasi. Pengubahan kata kedalam bentuk angka
dilakukan dengan pembobotan dengan Term Frequency (TF). Hasil dari proses
ini akan dilanjutkan dengan menerapkan Chi-Square (Chi2) yang berupa
metode statistika pengujian hipotesis data diskrit yang mengevaluasi korelasi
antar dua variabel dan menentukan apakah variabel tersebut tidak berkaitan
atau saling terkait.
Tabel IV.1 Hasil Term Frequency
Tfi (term frequency)
Terms
Marah Kecewa Senang
bersama 1 0 0
benci 1 0 0
baik 0 0 1
corona 1 0 1
cuma 0 1 0
covid 0 1 0
drastis 0 0 1
31

Tabel IV.1 Hasil Term Frequency (Lanjutan)


Tfi (term frequency)
Terms
Marah Kecewa Senang
gejala 0 1 0
hadap 0 1 0
hoax 1 0 0
imun 0 1 0
keluar 0 0 1
lawan 1 0 0
minimal 0 1 0
mari 1 0 0
pengaruh 0 1 0
sama 1 0 0
stop 1 0 0
salah 0 0 1
satu 0 0 1
sisi 0 0 1
tidak 0 1 0
turun 0 0 1
tapi 0 1 0
ujar 1 0 0
vaksin 0 1 0

Dengan menggunakan bantuan dari tabel Tf (Term Frequency), maka kita dapat
mencari nilai Chi2 dengan menggunakan
2
N ( AD−CB)
persamaan Chi2, yaitu: 𝝌 𝟐 (t,c) =
( A+C )(B+ D)( A+ B)(C+ D)
Keterangan persamaan:
A: Banyaknya dokumen dalam kategori c yang mengandung term t
B: Banyaknya dokumen yang bukan kategori c tetapi mengandung term t
C: Banyaknya dokumen dalam kategori c tetapi tidak mengandung term t
D: Banyaknya dokumen yang bukan kategori c dan tidak mengandung term t
N: Total keseluruhan dokumen
t: Kata
32

c: Kelas / kategori

Tabel IV.2 Hasil Naive Bayes


Se Mar Kec Sen Chi
Kata Mar Kec
n A B C D A B C D A B C D Mar Kec Sen
benci 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.610 0.437
6
6923 86 247
baik 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
corona 1 0 1 17 8 1 1 1 10 2 0 17 7 1 1
1.270 0.390
5
0.27 588 625
cuma 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
covid 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
drastis 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
gejala 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
hadap 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
hoax 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.610 0.437
6
6923 86 247
imun 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
keluar 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
lawan 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
33

minima 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
l 7
9231 385 247
pengar 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
uh 7
9231 385 247
sama 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
stop 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
salah 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
satu 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
ujar 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247

4. Implementasi Algoritma Latent Semantic Indexing

Data training diidentifikasi dengan Algoritma Latent Semantic Indexing sesuai

dengan label yang sudah diberikan, kemudian dilakukan pemodelan terhadap

data berita. Untuk data testing juga diidentifikasi menggunakan Algoritma

Latent Semantic Indexing. Data testing diuji dengan kecocokan pola pada

model yang sudah ada. Langkah-langkah menghitung Algoritma Latent

Semantic Indexing, yaitu:

Langkah 1 : Hitung A T A

10 4 3

ATA= 4 11 4

3 4 9
34

Langkah 2 : Temukan determinan sehingga |A TA-CI|=0. Hasil determinan ini

digunakan untuk mendapatkan Eigenvalue dan singular value yang akan

bermanfaat untuk membentuk matrik S.

[ ] ( [ ]) [ ]
10 4 3 1 0 0 10−c 4 3
4 11 4 C∗ 0 1 0 = 4 11−c 3
0 0 1 3 4 9−c
ATA-CI = 3 4 9 -

Untuk menghitung eigenvalue dari matrix di atas, saya menggunakan

bantuan Wolfram. Dari tool ini saya mendapatkan 3 buah nilai c1 = 17.4693, c2 =

6.66237, c3 = 5.86837, dimana |c1| > |c2| > |c3|. Dari nilai eigenvalue tersebut,

kita dapat menghitung Singular value sebagai berikut :

S1 = √ 17.4693 = 4.1796
S2 = √ 6.66237 = 2.5811
S3 = √ 5.86837 = 2.4224

[ ][ ]
1
S 0 0 4.1796 0 0
2
S= 0 S 0 = 0 2.5811 0
3
0 0 S 0 0 2.4224

[ ]
0.2392 0 0
S =
-1
0 0.3874 0
0 0 0.4128

Langkah 3: Hitung Eigenvector dengan mengevaluasi (ATA-ciI)Xi=0.

Berdasarkan hasil Wolfram saat menghitung Eigenvalue pada langkah 2

diperoleh Eigenvector adalah sebagai berikut 

V1 = (1.09552, 1.29568, 1)

V2 = (-1.96184, 0.886972, 1)
35

V3 = (0.116321, -0.870149, 1)

Dari setiap Eigenvector tersebut, kita normalisasikan dengan membagi setiap nilai

dari tiap Eigenvector dengan panjang tiap vektor:

|V1| = √ ( 1.09552 )2+(1.29568)2+(1)2 = 1.9695

|V2| = √ (−1.96184 )2 +(0.886972)2 +(1)2 = 2.3739

|V3| = √ ( 0.116321 )2+(−0.870149)2 +(1)2 = 1.3306

V1 = (0.556242701, 0.657872556, 0.50774308)

V2 = (-0.826420658, 0.373634946, 0.421247735)

V3 = (0.0874199609, −0.653952352, 1.969500008)

Langkah 4 : Bentuk matrik V dengan menggunakan hasil dari kalkulasi

normalisasi Eigenvector sebagai kolom dalam matrik V

[ ]
0.5562 −0.8264 0.0874
V = 0.6578 0.3736 −0.6539
0.5077 0.4212 1.9695

[ ]
0.5562 0.6578 0.5077
V = −0.8264 0.3736 0.4212
T

0.0874 −0.6539 1.9695

Langkah 5 : Bentuk matrik U dengan U= AVS-1


36

[ ]
0.15735 0.14473 −0.26993
0.13304 −0.32015 0.03607
0.41183 −0.01224 0.57916
0.15735 0.14473 −0.26993
0.41183 −0.01224 0.57916
0.27879 0.30791 0.54308
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
0.13304 −0.32015 0.03607
0.13304 −0.32015 0.03607
0.13304 −0.32015 0.03607
U=
0.12144 0.16317 0.81301
0.29039 −0.17541 −0.23385
0.13304 −0.32015 0.03607
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
0.41183 −0.01224 0.57916
0.13304 −0.32015 0.03607
0.15735 0.14473 −0.26993
0.12144 0.16317 0.81301
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993

Tahapan perhitungan SVD ini dapat dikatakan sebagai sebuah langkah lanjut

dalam proses indexing dalam sistem Information Retrieval. Dalam hal ini, setelah

mendapatkan SVD, biasanya akan dilakukan tahapan berikutnya yaitu untuk

pengurangan ukuran dimensi, sebanyak k. Untuk nilai k yang terbaik memang

perlu untuk dilakukan percobaan, sehingga penentuan nilai k yang optimal

menjadi kesempatan terbuka luas untuk diteliti oleh para matematikawan. Dalam

contoh kita ini, dimisalkan nilai k=2, sehingga kita akan mereduksi dimensi SVD

menjadi:
37

[]
0.15735 0.14473
0.13304 −0.32015
0.41183 −0.01224
0.15735 0.14473
0.41183 −0.01224
0.27879 0.30791
0.12144 0.16317
0.15735 0.14473
0.13304 −0.32015
0.13304 −0.32015
0.13304 −0.32015
Uk =
0.12144 0.16317
0.29039 −0.17541
0.13304 −0.32015
0.12144 0.16317
0.15735 0.14473
0.41183 −0.01224
0.13304 −0.32015
0.15735 0.14473
0.12144 0.16317
0.12144 0.16317
0.15735 0.14473

Sk = [ 4.1796
0
0
2.5811 ]

[ ]
0.5562 −0.8264
Vk = 0.6578 0.3736
0.5077 0.4212

Vkt = [−0.8264
0.5562 0.6578 0.5077
0.3736 0.4212 ]
Seperti yang sudah kita ketahui bahwa matrik A berisi sekumpulan n dokumen. Se

dangkan matrik V harus berisi n baris, dimana setiap baris berisi koordinat dari se

buah vektor dokumen. Untuk sebuah dokumen, vektor d adalah d = dTUS-1. Dala


38

m LSI, setiap query dapat diperlakukan sebagai sebuah dokumen, sehingga vekto

r q adalah q = qTUS-1. Terkait dengan reduksi dimensi sebesar k, maka vektor dok

umen, d, dan vektor query, q, dapat dituliskan sebagai:

d = dTUkSk-1

q = qTUkSk-1

Dengan perlakuan tersebut, maka antara vektor query, q, dan sebuah vektor doku

men, d, dapat dihitung koefisien similarity dengan cosinus sebagai berikut :

sim(q,d)=sim(qTUkSk-1, dTUkSk-1)

Sekarang kita dapat menghitung rangking semua dokumen terhadap query yang di

berikan. Misal query yang diberikan adalah sisi baik pandemi corona. Vektor qu

ery dapat dibentuk sebagai berikut :

q = qTUkSk-1
39

[]
0.15735 0.14473
0.13304 −0.32015
0.41183 −0.01224
0.15735 0.14473
0.41183 −0.01224
0.27879 0.30791
0.12144 0.16317
0.15735 0.14473
0.13304 −0.32015
0.13304 −0.32015
0.13304 −0.32015
q = [0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0]
0.12144 0.16317
0.29039 −0.17541
0.13304 −0.32015
0.12144 0.16317
0.15735 0.14473
0.41183 −0.01224
0.13304 −0.32015
0.15735 0.14473
0.12144 0.16317
0.12144 0.16317
0.15735 0.14473

[ 0.23926
0
0
0.38743]= [0.30420 -0.02137]

Dengan terbentuknya vektor untuk query tersebut, maka sekarang kita dapat

menghitung koefisien similarity menggunakan cosinus antara query dengan tiap

dokumen, sebagai berikut:

q.d
sim(q, d) =
|q|∨d∨¿ ¿

( 0.30420 )( 0.5562 )+(−0.02137)(−0.8264)


sim(q, d1) = = 0.612750173
√(0.30420)2+¿ ¿ ¿
( 0.30420 )( 0.6578 )+(−0.02137)(0.3736)
sim(q, d2) = = 0.630379057
√(0.30420)2+¿ ¿ ¿
40

( 0.30420 )( 0.5077 ) +(−0.02137)(0.4212)


sim(q, d3) = = 0.477334416
√(0.30420)2 +¿ ¿ ¿
Dari hasil perhitungan koefisien similarity tersebut, dapat dituliskan urutan

dokumen yang paling dekat dengan query adalah D2, D1, D3.

IV.3 Perancangan Antarmuka

Perancangan antarmuka merupakan tahapan yang menjelaskan aur kerja

sistem, tahapan ini diharapkan dapat membuat pengguna lebih tertarik dan

mendapatkan kemudahan dalam pengaplikasian siste tersebut.

1. Perancangan Antarmuka Sistem

Adapun perancangan antarmuka sistem pada penelitian ini adalah sebagai

berikut :

Gambar IV.3 Perancangan Sistem

2. Perancangan Antarmuka Dashboard

Perancangan Menu Dashboard terdiri dari judul aplikasi, nama dan npm

mahasiswa, logo universitas dan nama universitas. Seperti gambar dibawah ini:
41

Gambar IV.4 Perancangan Menu Dashboard

3. Perancangan Menu Data Training

Perancangan Menu Data Training terdiri dari form lokasi data training,

button open dan hasil data training. Seperti gambar dibawah ini:
42

Gambar IV.5 Perancangan Menu Data Training

4. Perancangan Menu Data Testing

Perancangan Menu Data Testing terdiri dari form upload data testing, form

case folding, button submit dan hasil preprosecing. Seperti gambar dibawah ini:
43

Gambar IV.6 Perancangan Menu Data Testing

5. Perancangan Laporan

Perancangan Menu Laporan terdiri dari hasil perhitungan algoritma

algoritma latent semantic indexing (LSI) dan naive bayes pada sentimen

masyarakat terhadap pandemik COVID-19. Seperti gambar dibawah ini:


44

Gambar IV.7 Perancangan Menu Laporan

Anda mungkin juga menyukai