Bab 4

BAB IV
HASIL
IV.1. Data yang Digunakan
Dalam penelitian ini data yang digunakan adalah sentimen masyarakat
terkait Covid-19 pada media sosial twitter. Teknik pengambilan data
menggunakan teknik crawling yang merupakan fasilitas yang diberikan pihak
twitter berupa twitter API kepada developmen untuk pengambilan data pada sosial
media twitter. Hasil crawling sebanyak 600 tweet dengan pembagian data training
dan data testing, yang memiliki ekstensi csv.
Gambar IV.1 Data Set
IV.2. Arsitektur Umum
Proses analisis dilakukan sebelum melakukan perancangan. Dilakukan
analisis untuk mendapatkan kebutuhan dari sistem yang akan dikembangkan.
Sistem ini bertujuan untuk identifikasi sentimen masyarakat terkait Covid-19
pada media sosial twitter menggunakan Algoritma Latent Semantic Indexing
(LSI) dan algoritma Naive Bayes. Untuk dapat membangun sistem ini, diperlukan
26
27
beberapa tahapan yaitu tahap preprocessing, tahapan case folding, tahapan
tekonisasi dan tahap stopword removal.
Tf-Chi
Gambar IV.2 Arsitektur Umum

28
Pada penelitian ini, arsitektur umum dari perancangan sistem ditunjukkan pada
Gambar diatas, dimana kerja sistem ini dibagi menjadi beberapa bagian:
1. Input
Mengumpulkan data tweet dan komentar masyarakat mengenai COVID-19
melalui Teknik crawling. Data yang digunakan terdiri dari dua jenis yaitu data
training dan data testing.
2. Preprocessing
Tahap preprocessing dilakukan untuk mempersiapkan agar teks dapat diubah
menjadi lebih terstruktur. Tahap preprocessing ini terbagi menjadi beberapa
tahap, yaitu:
a. Case Folding
Case Folding merupakan tahapan mengubah setiap huruf pada kata yang
akan menjadi huruf kecil atau huruf besar sehingga jenis huruf yang akan
diproses menjadi seragam dan dapat mempermudah tahapan.
Tweet Isi tweet Case Folding
Tweet1 Stop hoax dan ujaran kebencian, stop hoax dan ujaran kebencian,
mari bersama – sama melawan mari bersama – sama melawan
corona. corona.
Tweet2 Vaksin juga tidak berpengaruh ya vaksin juga tidak berpengaruh ya
tapi cuma meminimalisir saja tapi cuma meminimalisir saja
gejala covid terhadap imun. gejala covid terhadap imun.
Tweet3 Salah satu sisi baik dari corona, salah satu sisi baik dari corona,
pengeluaran menurun drastis pengeluaran menurun drastis
b. Tokenization
Tokenisasi merupakan tahapan penguraian teks dalam sebuah paragraf,
kalimat atau halaman menjadi potongan-potongan yang disebut token untuk
kemudian akan dianalisa .Tujuan dari tokenization yaitu kata-kata dalam
sebuah paragraf, kalimat atau halaman diubah menjadi satuan kata.
Tweet Isi tweet

Tweet1 stop hoax dan ujaran kebencian, mari bersama – sama melawan
corona.
29
Tweet2 vaksin juga tidak berpengaruh ya tapi cuma meminimalisir saja

gejala covid terhadap imun.
Tweet3 salah satu sisi baik dari corona, pengeluaran menurun drastis
Tokenisasi Tweet1
stop hoax dan ujaran Kebencian
mari bersama sama melawan corona
Tokenisasi Tweet2
vaksin juga tidak berpengaruh ya tapi cuma
meminimalisir saja gejala covid terhadap imun
Tokenisasi Tweet3
salah satu sisi baik dari
corona pengeluaran menurun drastis
c. Stopwords Removal
Stopwords Removal merupakan proses penghapusan kata yang termasuk di
dalam daftar stopwords yang ada didalam file .csv yang dianggap tidak
berpengaruh dalam kalimat. Contoh kata yang termasuk stop-word
adalah“yang”, “dan”,“di”, “dari”, “sedang”, “ke”, “ini”, “oleh” ,”untuk” dan
lain sebagainya.
Tweet1 stop hoax dan ujaran kebencian, stop hoax ujaran kebencian
mari bersama sama melawan mari sama sama melawan
corona corona
Tweet2 vaksin juga tidak berpengaruh ya vaksin juga tidak pengaruh ya
tapi cuma meminimalisir saja gejala tapi cuma minimalis saja gejala
covid terhadap imun covid terhadap imun
Tweet3 salah satu sisi baik dari corona salah satu sisi baik dari corona
30
d. Stemming
Stemming merupakan proses pengubahan kata yang menggandung imbuhan
menjadi kata dasar dengan menghapus awalan dan akhiran yang terdapat
pada suatu kata, tujuannya untuk melakukan pengelompokan kata-kata yang
diturunkan dari sebuah data stem yang umum dan kata dasar.

Tweet1 stop hoax ujaran kebencian mari stop hoax ujaran benci mari sama
sama sama melawan corona sama lawan corona
Tweet2 vaksin juga tidak pengaruh ya tapi vaksin juga tidak pengaruh ya tapi
cuma minimalis saja gejala covid cuma minimalis saja gejala covid
terhadap imun terhadap imun
Tweet3 salah satu sisi baik dari corona salah satu sisi baik dari corona
3. Feature Extraction
Proses selanjutnya adalah ekstraksi fitur dengan cara pengubahan kata kedalam
bentuk angka agar dapat diidentifikasi. Pengubahan kata kedalam bentuk angka
dilakukan dengan pembobotan dengan Term Frequency (TF). Hasil dari proses
ini akan dilanjutkan dengan menerapkan Chi-Square (Chi2) yang berupa
metode statistika pengujian hipotesis data diskrit yang mengevaluasi korelasi
antar dua variabel dan menentukan apakah variabel tersebut tidak berkaitan
atau saling terkait.
Tabel IV.1 Hasil Term Frequency
Tfi (term frequency)
Terms
Marah Kecewa Senang
bersama 1 0 0
benci 1 0 0
baik 0 0 1
corona 1 0 1
cuma 0 1 0
covid 0 1 0
drastis 0 0 1
31
Tabel IV.1 Hasil Term Frequency (Lanjutan)

Tfi (term frequency)
Terms
Marah Kecewa Senang
gejala 0 1 0
hadap 0 1 0
hoax 1 0 0
imun 0 1 0
keluar 0 0 1
lawan 1 0 0
minimal 0 1 0
mari 1 0 0
pengaruh 0 1 0
sama 1 0 0
stop 1 0 0
salah 0 0 1
satu 0 0 1
sisi 0 0 1
tidak 0 1 0
turun 0 0 1
tapi 0 1 0
ujar 1 0 0
vaksin 0 1 0
Dengan menggunakan bantuan dari tabel Tf (Term Frequency), maka kita dapat
mencari nilai Chi2 dengan menggunakan
2
N ( AD−CB)
persamaan Chi2, yaitu: 𝝌 𝟐 (t,c) =
( A+C )(B+ D)( A+ B)(C+ D)
Keterangan persamaan:
A: Banyaknya dokumen dalam kategori c yang mengandung term t
B: Banyaknya dokumen yang bukan kategori c tetapi mengandung term t
C: Banyaknya dokumen dalam kategori c tetapi tidak mengandung term t
D: Banyaknya dokumen yang bukan kategori c dan tidak mengandung term t
N: Total keseluruhan dokumen
t: Kata
32
c: Kelas / kategori
Tabel IV.2 Hasil Naive Bayes

Se Mar Kec Sen Chi
Kata Mar Kec
n A B C D A B C D A B C D Mar Kec Sen
benci 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.610 0.437
6
6923 86 247
baik 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
corona 1 0 1 17 8 1 1 1 10 2 0 17 7 1 1
1.270 0.390
5
0.27 588 625
cuma 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
covid 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
drastis 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
gejala 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
hadap 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
hoax 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.610 0.437
6
6923 86 247
imun 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
7
9231 385 247
keluar 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
lawan 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
33
minima 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
l 7
9231 385 247
pengar 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
uh 7
9231 385 247
sama 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
stop 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
salah 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
satu 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
ujar 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
4. Implementasi Algoritma Latent Semantic Indexing
Data training diidentifikasi dengan Algoritma Latent Semantic Indexing sesuai
dengan label yang sudah diberikan, kemudian dilakukan pemodelan terhadap
data berita. Untuk data testing juga diidentifikasi menggunakan Algoritma
Latent Semantic Indexing. Data testing diuji dengan kecocokan pola pada
model yang sudah ada. Langkah-langkah menghitung Algoritma Latent
Semantic Indexing, yaitu:
Langkah 1 : Hitung A T A
10 4 3
ATA= 4 11 4
3 4 9
34
Langkah 2 : Temukan determinan sehingga |A TA-CI|=0. Hasil determinan ini
digunakan untuk mendapatkan Eigenvalue dan singular value yang akan
bermanfaat untuk membentuk matrik S.
[ ] ( [ ]) [ ]
10 4 3 1 0 0 10−c 4 3
4 11 4 C∗ 0 1 0 = 4 11−c 3
0 0 1 3 4 9−c
ATA-CI = 3 4 9 -
Untuk menghitung eigenvalue dari matrix di atas, saya menggunakan
bantuan Wolfram. Dari tool ini saya mendapatkan 3 buah nilai c1 = 17.4693, c2 =
6.66237, c3 = 5.86837, dimana |c1| > |c2| > |c3|. Dari nilai eigenvalue tersebut,
kita dapat menghitung Singular value sebagai berikut :
S1 = √ 17.4693 = 4.1796
S2 = √ 6.66237 = 2.5811
S3 = √ 5.86837 = 2.4224
[ ][ ]
1
S 0 0 4.1796 0 0
2
S= 0 S 0 = 0 2.5811 0
3
0 0 S 0 0 2.4224
[ ]
0.2392 0 0
S =
-1
0 0.3874 0
0 0 0.4128
Langkah 3: Hitung Eigenvector dengan mengevaluasi (ATA-ciI)Xi=0.
Berdasarkan hasil Wolfram saat menghitung Eigenvalue pada langkah 2
diperoleh Eigenvector adalah sebagai berikut
V1 = (1.09552, 1.29568, 1)
V2 = (-1.96184, 0.886972, 1)
35
V3 = (0.116321, -0.870149, 1)
Dari setiap Eigenvector tersebut, kita normalisasikan dengan membagi setiap nilai
dari tiap Eigenvector dengan panjang tiap vektor:
|V1| = √ ( 1.09552 )2+(1.29568)2+(1)2 = 1.9695
|V2| = √ (−1.96184 )2 +(0.886972)2 +(1)2 = 2.3739
|V3| = √ ( 0.116321 )2+(−0.870149)2 +(1)2 = 1.3306
V1 = (0.556242701, 0.657872556, 0.50774308)
V2 = (-0.826420658, 0.373634946, 0.421247735)
V3 = (0.0874199609, −0.653952352, 1.969500008)
Langkah 4 : Bentuk matrik V dengan menggunakan hasil dari kalkulasi
normalisasi Eigenvector sebagai kolom dalam matrik V
[ ]
0.5562 −0.8264 0.0874
V = 0.6578 0.3736 −0.6539
0.5077 0.4212 1.9695
[ ]
0.5562 0.6578 0.5077
V = −0.8264 0.3736 0.4212
T
0.0874 −0.6539 1.9695
Langkah 5 : Bentuk matrik U dengan U= AVS-1

36
[ ]
0.15735 0.14473 −0.26993
0.13304 −0.32015 0.03607
0.41183 −0.01224 0.57916
0.15735 0.14473 −0.26993
0.41183 −0.01224 0.57916
0.27879 0.30791 0.54308
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
0.13304 −0.32015 0.03607
0.13304 −0.32015 0.03607
0.13304 −0.32015 0.03607
U=
0.12144 0.16317 0.81301
0.29039 −0.17541 −0.23385
0.13304 −0.32015 0.03607
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
0.41183 −0.01224 0.57916
0.13304 −0.32015 0.03607
0.15735 0.14473 −0.26993
0.12144 0.16317 0.81301
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
Tahapan perhitungan SVD ini dapat dikatakan sebagai sebuah langkah lanjut
dalam proses indexing dalam sistem Information Retrieval. Dalam hal ini, setelah
mendapatkan SVD, biasanya akan dilakukan tahapan berikutnya yaitu untuk
pengurangan ukuran dimensi, sebanyak k. Untuk nilai k yang terbaik memang
perlu untuk dilakukan percobaan, sehingga penentuan nilai k yang optimal
menjadi kesempatan terbuka luas untuk diteliti oleh para matematikawan. Dalam
contoh kita ini, dimisalkan nilai k=2, sehingga kita akan mereduksi dimensi SVD
menjadi:
37
[]
0.15735 0.14473
0.13304 −0.32015
0.41183 −0.01224
0.15735 0.14473
0.41183 −0.01224
0.27879 0.30791
0.12144 0.16317
0.15735 0.14473
0.13304 −0.32015
0.13304 −0.32015
0.13304 −0.32015
Uk =
0.12144 0.16317
0.29039 −0.17541
0.13304 −0.32015
0.12144 0.16317
0.15735 0.14473
0.41183 −0.01224
0.13304 −0.32015
0.15735 0.14473
0.12144 0.16317
0.12144 0.16317
0.15735 0.14473
Sk = [ 4.1796
0
0
2.5811 ]
[ ]
0.5562 −0.8264
Vk = 0.6578 0.3736
0.5077 0.4212
Vkt = [−0.8264
0.5562 0.6578 0.5077
0.3736 0.4212 ]
Seperti yang sudah kita ketahui bahwa matrik A berisi sekumpulan n dokumen. Se
dangkan matrik V harus berisi n baris, dimana setiap baris berisi koordinat dari se
buah vektor dokumen. Untuk sebuah dokumen, vektor d adalah d = dTUS-1. Dala

38
m LSI, setiap query dapat diperlakukan sebagai sebuah dokumen, sehingga vekto
r q adalah q = qTUS-1. Terkait dengan reduksi dimensi sebesar k, maka vektor dok
umen, d, dan vektor query, q, dapat dituliskan sebagai:
d = dTUkSk-1
q = qTUkSk-1
Dengan perlakuan tersebut, maka antara vektor query, q, dan sebuah vektor doku
men, d, dapat dihitung koefisien similarity dengan cosinus sebagai berikut :
sim(q,d)=sim(qTUkSk-1, dTUkSk-1)
Sekarang kita dapat menghitung rangking semua dokumen terhadap query yang di
berikan. Misal query yang diberikan adalah sisi baik pandemi corona. Vektor qu
ery dapat dibentuk sebagai berikut :
q = qTUkSk-1
39
[]
0.15735 0.14473
0.13304 −0.32015
0.41183 −0.01224
0.15735 0.14473
0.41183 −0.01224
0.27879 0.30791
0.12144 0.16317
0.15735 0.14473
0.13304 −0.32015
0.13304 −0.32015
0.13304 −0.32015
q = [0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0]
0.12144 0.16317
0.29039 −0.17541
0.13304 −0.32015
0.12144 0.16317
0.15735 0.14473
0.41183 −0.01224
0.13304 −0.32015
0.15735 0.14473
0.12144 0.16317
0.12144 0.16317
0.15735 0.14473
[ 0.23926
0
0
0.38743]= [0.30420 -0.02137]
Dengan terbentuknya vektor untuk query tersebut, maka sekarang kita dapat
menghitung koefisien similarity menggunakan cosinus antara query dengan tiap
dokumen, sebagai berikut:
q.d
sim(q, d) =
|q|∨d∨¿ ¿
( 0.30420 )( 0.5562 )+(−0.02137)(−0.8264)

sim(q, d1) = = 0.612750173
√(0.30420)2+¿ ¿ ¿
( 0.30420 )( 0.6578 )+(−0.02137)(0.3736)
sim(q, d2) = = 0.630379057
√(0.30420)2+¿ ¿ ¿
40
( 0.30420 )( 0.5077 ) +(−0.02137)(0.4212)

sim(q, d3) = = 0.477334416
√(0.30420)2 +¿ ¿ ¿
Dari hasil perhitungan koefisien similarity tersebut, dapat dituliskan urutan
dokumen yang paling dekat dengan query adalah D2, D1, D3.
IV.3 Perancangan Antarmuka
Perancangan antarmuka merupakan tahapan yang menjelaskan aur kerja
sistem, tahapan ini diharapkan dapat membuat pengguna lebih tertarik dan
mendapatkan kemudahan dalam pengaplikasian siste tersebut.
1. Perancangan Antarmuka Sistem
Adapun perancangan antarmuka sistem pada penelitian ini adalah sebagai
berikut :
Gambar IV.3 Perancangan Sistem
2. Perancangan Antarmuka Dashboard
Perancangan Menu Dashboard terdiri dari judul aplikasi, nama dan npm
mahasiswa, logo universitas dan nama universitas. Seperti gambar dibawah ini:
41
Gambar IV.4 Perancangan Menu Dashboard
3. Perancangan Menu Data Training
Perancangan Menu Data Training terdiri dari form lokasi data training,
button open dan hasil data training. Seperti gambar dibawah ini:
42
Gambar IV.5 Perancangan Menu Data Training
4. Perancangan Menu Data Testing
Perancangan Menu Data Testing terdiri dari form upload data testing, form
case folding, button submit dan hasil preprosecing. Seperti gambar dibawah ini:
43
Gambar IV.6 Perancangan Menu Data Testing
5. Perancangan Laporan
Perancangan Menu Laporan terdiri dari hasil perhitungan algoritma
algoritma latent semantic indexing (LSI) dan naive bayes pada sentimen
masyarakat terhadap pandemik COVID-19. Seperti gambar dibawah ini:

44
Gambar IV.7 Perancangan Menu Laporan

Bab 4

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Bab 4

Diunggah oleh

Hak Cipta:

Format Tersedia

BAB IV

IV.1. Data yang Digunakan

Dalam penelitian ini data yang digunakan adalah sentimen masyarakat

terkait Covid-19 pada media sosial twitter. Teknik pengambilan data

menggunakan teknik crawling yang merupakan fasilitas yang diberikan pihak

dan data testing, yang memiliki ekstensi csv.

Gambar IV.1 Data Set

IV.2. Arsitektur Umum

Proses analisis dilakukan sebelum melakukan perancangan. Dilakukan

analisis untuk mendapatkan kebutuhan dari sistem yang akan dikembangkan.

Sistem ini bertujuan untuk identifikasi sentimen masyarakat terkait Covid-19

pada media sosial twitter menggunakan Algoritma Latent Semantic Indexing

beberapa tahapan yaitu tahap preprocessing, tahapan case folding, tahapan

tekonisasi dan tahap stopword removal.

Gambar IV.2 Arsitektur Umum

Tweet Isi tweet

Tweet2 vaksin juga tidak berpengaruh ya tapi cuma meminimalisir saja

Tweet Isi tweet Case Folding

Tabel IV.1 Hasil Term Frequency (Lanjutan)

Tabel IV.2 Hasil Naive Bayes

4. Implementasi Algoritma Latent Semantic Indexing

Data training diidentifikasi dengan Algoritma Latent Semantic Indexing sesuai

dengan label yang sudah diberikan, kemudian dilakukan pemodelan terhadap

data berita. Untuk data testing juga diidentifikasi menggunakan Algoritma

model yang sudah ada. Langkah-langkah menghitung Algoritma Latent

Semantic Indexing, yaitu:

Langkah 2 : Temukan determinan sehingga |A TA-CI|=0. Hasil determinan ini

digunakan untuk mendapatkan Eigenvalue dan singular value yang akan

bermanfaat untuk membentuk matrik S.

Untuk menghitung eigenvalue dari matrix di atas, saya menggunakan

bantuan Wolfram. Dari tool ini saya mendapatkan 3 buah nilai c1 = 17.4693, c2 =

kita dapat menghitung Singular value sebagai berikut :

Langkah 3: Hitung Eigenvector dengan mengevaluasi (ATA-ciI)Xi=0.

Berdasarkan hasil Wolfram saat menghitung Eigenvalue pada langkah 2

diperoleh Eigenvector adalah sebagai berikut

dari tiap Eigenvector dengan panjang tiap vektor:

|V1| = √ ( 1.09552 )2+(1.29568)2+(1)2 = 1.9695

|V2| = √ (−1.96184 )2 +(0.886972)2 +(1)2 = 2.3739

|V3| = √ ( 0.116321 )2+(−0.870149)2 +(1)2 = 1.3306

V1 = (0.556242701, 0.657872556, 0.50774308)

V2 = (-0.826420658, 0.373634946, 0.421247735)

V3 = (0.0874199609, −0.653952352, 1.969500008)

Langkah 4 : Bentuk matrik V dengan menggunakan hasil dari kalkulasi

normalisasi Eigenvector sebagai kolom dalam matrik V

0.0874 −0.6539 1.9695

Langkah 5 : Bentuk matrik U dengan U= AVS-1

mendapatkan SVD, biasanya akan dilakukan tahapan berikutnya yaitu untuk

pengurangan ukuran dimensi, sebanyak k. Untuk nilai k yang terbaik memang

perlu untuk dilakukan percobaan, sehingga penentuan nilai k yang optimal

buah vektor dokumen. Untuk sebuah dokumen, vektor d adalah d = dTUS-1. Dala

umen, d, dan vektor query, q, dapat dituliskan sebagai:

men, d, dapat dihitung koefisien similarity dengan cosinus sebagai berikut :

ery dapat dibentuk sebagai berikut :

menghitung koefisien similarity menggunakan cosinus antara query dengan tiap

dokumen, sebagai berikut:

( 0.30420 )( 0.5562 )+(−0.02137)(−0.8264)

( 0.30420 )( 0.5077 ) +(−0.02137)(0.4212)

IV.3 Perancangan Antarmuka

Perancangan antarmuka merupakan tahapan yang menjelaskan aur kerja

mendapatkan kemudahan dalam pengaplikasian siste tersebut.

1. Perancangan Antarmuka Sistem

Adapun perancangan antarmuka sistem pada penelitian ini adalah sebagai

Gambar IV.3 Perancangan Sistem