HASIL
twitter berupa twitter API kepada developmen untuk pengambilan data pada sosial
media twitter. Hasil crawling sebanyak 600 tweet dengan pembagian data training
(LSI) dan algoritma Naive Bayes. Untuk dapat membangun sistem ini, diperlukan
26
27
Tf-Chi
Pada penelitian ini, arsitektur umum dari perancangan sistem ditunjukkan pada
Gambar diatas, dimana kerja sistem ini dibagi menjadi beberapa bagian:
1. Input
Mengumpulkan data tweet dan komentar masyarakat mengenai COVID-19
melalui Teknik crawling. Data yang digunakan terdiri dari dua jenis yaitu data
training dan data testing.
2. Preprocessing
Tahap preprocessing dilakukan untuk mempersiapkan agar teks dapat diubah
menjadi lebih terstruktur. Tahap preprocessing ini terbagi menjadi beberapa
tahap, yaitu:
a. Case Folding
Case Folding merupakan tahapan mengubah setiap huruf pada kata yang
akan menjadi huruf kecil atau huruf besar sehingga jenis huruf yang akan
diproses menjadi seragam dan dapat mempermudah tahapan.
Tweet Isi tweet Case Folding
Tweet1 Stop hoax dan ujaran kebencian, stop hoax dan ujaran kebencian,
mari bersama – sama melawan mari bersama – sama melawan
corona. corona.
Tweet2 Vaksin juga tidak berpengaruh ya vaksin juga tidak berpengaruh ya
tapi cuma meminimalisir saja tapi cuma meminimalisir saja
gejala covid terhadap imun. gejala covid terhadap imun.
Tweet3 Salah satu sisi baik dari corona, salah satu sisi baik dari corona,
pengeluaran menurun drastis pengeluaran menurun drastis
b. Tokenization
Tokenisasi merupakan tahapan penguraian teks dalam sebuah paragraf,
kalimat atau halaman menjadi potongan-potongan yang disebut token untuk
kemudian akan dianalisa .Tujuan dari tokenization yaitu kata-kata dalam
sebuah paragraf, kalimat atau halaman diubah menjadi satuan kata.
Tokenisasi Tweet1
stop hoax dan ujaran Kebencian
mari bersama sama melawan corona
Tokenisasi Tweet2
vaksin juga tidak berpengaruh ya tapi cuma
meminimalisir saja gejala covid terhadap imun
Tokenisasi Tweet3
salah satu sisi baik dari
corona pengeluaran menurun drastis
c. Stopwords Removal
Stopwords Removal merupakan proses penghapusan kata yang termasuk di
dalam daftar stopwords yang ada didalam file .csv yang dianggap tidak
berpengaruh dalam kalimat. Contoh kata yang termasuk stop-word
adalah“yang”, “dan”,“di”, “dari”, “sedang”, “ke”, “ini”, “oleh” ,”untuk” dan
lain sebagainya.
Tweet Isi tweet Case Folding
Tweet1 stop hoax dan ujaran kebencian, stop hoax ujaran kebencian
mari bersama sama melawan mari sama sama melawan
corona corona
Tweet2 vaksin juga tidak berpengaruh ya vaksin juga tidak pengaruh ya
tapi cuma meminimalisir saja gejala tapi cuma minimalis saja gejala
covid terhadap imun covid terhadap imun
Tweet3 salah satu sisi baik dari corona salah satu sisi baik dari corona
pengeluaran menurun drastis pengeluaran menurun drastis
30
d. Stemming
Stemming merupakan proses pengubahan kata yang menggandung imbuhan
menjadi kata dasar dengan menghapus awalan dan akhiran yang terdapat
pada suatu kata, tujuannya untuk melakukan pengelompokan kata-kata yang
diturunkan dari sebuah data stem yang umum dan kata dasar.
3. Feature Extraction
Proses selanjutnya adalah ekstraksi fitur dengan cara pengubahan kata kedalam
bentuk angka agar dapat diidentifikasi. Pengubahan kata kedalam bentuk angka
dilakukan dengan pembobotan dengan Term Frequency (TF). Hasil dari proses
ini akan dilanjutkan dengan menerapkan Chi-Square (Chi2) yang berupa
metode statistika pengujian hipotesis data diskrit yang mengevaluasi korelasi
antar dua variabel dan menentukan apakah variabel tersebut tidak berkaitan
atau saling terkait.
Tabel IV.1 Hasil Term Frequency
Tfi (term frequency)
Terms
Marah Kecewa Senang
bersama 1 0 0
benci 1 0 0
baik 0 0 1
corona 1 0 1
cuma 0 1 0
covid 0 1 0
drastis 0 0 1
31
Dengan menggunakan bantuan dari tabel Tf (Term Frequency), maka kita dapat
mencari nilai Chi2 dengan menggunakan
2
N ( AD−CB)
persamaan Chi2, yaitu: 𝝌 𝟐 (t,c) =
( A+C )(B+ D)( A+ B)(C+ D)
Keterangan persamaan:
A: Banyaknya dokumen dalam kategori c yang mengandung term t
B: Banyaknya dokumen yang bukan kategori c tetapi mengandung term t
C: Banyaknya dokumen dalam kategori c tetapi tidak mengandung term t
D: Banyaknya dokumen yang bukan kategori c dan tidak mengandung term t
N: Total keseluruhan dokumen
t: Kata
32
c: Kelas / kategori
minima 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
l 7
9231 385 247
pengar 0 1 0 17 9 1 0 1 9 0 1 18 8 1 0
0.51 1.765 0.437
uh 7
9231 385 247
sama 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
stop 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
salah 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
satu 0 0 1 17 9 1 0 1 10 1 0 19 7 0 1
0.51 0.610 2.466
6
9231 86 346
ujar 1 0 0 18 8 0 1 1 10 1 0 18 8 1 0
2.07 0.555 0.437
7
6923 556 247
Latent Semantic Indexing. Data testing diuji dengan kecocokan pola pada
Langkah 1 : Hitung A T A
10 4 3
ATA= 4 11 4
3 4 9
34
[ ] ( [ ]) [ ]
10 4 3 1 0 0 10−c 4 3
4 11 4 C∗ 0 1 0 = 4 11−c 3
0 0 1 3 4 9−c
ATA-CI = 3 4 9 -
6.66237, c3 = 5.86837, dimana |c1| > |c2| > |c3|. Dari nilai eigenvalue tersebut,
S1 = √ 17.4693 = 4.1796
S2 = √ 6.66237 = 2.5811
S3 = √ 5.86837 = 2.4224
[ ][ ]
1
S 0 0 4.1796 0 0
2
S= 0 S 0 = 0 2.5811 0
3
0 0 S 0 0 2.4224
[ ]
0.2392 0 0
S =
-1
0 0.3874 0
0 0 0.4128
V1 = (1.09552, 1.29568, 1)
V2 = (-1.96184, 0.886972, 1)
35
V3 = (0.116321, -0.870149, 1)
Dari setiap Eigenvector tersebut, kita normalisasikan dengan membagi setiap nilai
[ ]
0.5562 −0.8264 0.0874
V = 0.6578 0.3736 −0.6539
0.5077 0.4212 1.9695
[ ]
0.5562 0.6578 0.5077
V = −0.8264 0.3736 0.4212
T
[ ]
0.15735 0.14473 −0.26993
0.13304 −0.32015 0.03607
0.41183 −0.01224 0.57916
0.15735 0.14473 −0.26993
0.41183 −0.01224 0.57916
0.27879 0.30791 0.54308
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
0.13304 −0.32015 0.03607
0.13304 −0.32015 0.03607
0.13304 −0.32015 0.03607
U=
0.12144 0.16317 0.81301
0.29039 −0.17541 −0.23385
0.13304 −0.32015 0.03607
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
0.41183 −0.01224 0.57916
0.13304 −0.32015 0.03607
0.15735 0.14473 −0.26993
0.12144 0.16317 0.81301
0.12144 0.16317 0.81301
0.15735 0.14473 −0.26993
Tahapan perhitungan SVD ini dapat dikatakan sebagai sebuah langkah lanjut
dalam proses indexing dalam sistem Information Retrieval. Dalam hal ini, setelah
menjadi kesempatan terbuka luas untuk diteliti oleh para matematikawan. Dalam
contoh kita ini, dimisalkan nilai k=2, sehingga kita akan mereduksi dimensi SVD
menjadi:
37
[]
0.15735 0.14473
0.13304 −0.32015
0.41183 −0.01224
0.15735 0.14473
0.41183 −0.01224
0.27879 0.30791
0.12144 0.16317
0.15735 0.14473
0.13304 −0.32015
0.13304 −0.32015
0.13304 −0.32015
Uk =
0.12144 0.16317
0.29039 −0.17541
0.13304 −0.32015
0.12144 0.16317
0.15735 0.14473
0.41183 −0.01224
0.13304 −0.32015
0.15735 0.14473
0.12144 0.16317
0.12144 0.16317
0.15735 0.14473
Sk = [ 4.1796
0
0
2.5811 ]
[ ]
0.5562 −0.8264
Vk = 0.6578 0.3736
0.5077 0.4212
Vkt = [−0.8264
0.5562 0.6578 0.5077
0.3736 0.4212 ]
Seperti yang sudah kita ketahui bahwa matrik A berisi sekumpulan n dokumen. Se
dangkan matrik V harus berisi n baris, dimana setiap baris berisi koordinat dari se
m LSI, setiap query dapat diperlakukan sebagai sebuah dokumen, sehingga vekto
r q adalah q = qTUS-1. Terkait dengan reduksi dimensi sebesar k, maka vektor dok
d = dTUkSk-1
q = qTUkSk-1
Dengan perlakuan tersebut, maka antara vektor query, q, dan sebuah vektor doku
sim(q,d)=sim(qTUkSk-1, dTUkSk-1)
Sekarang kita dapat menghitung rangking semua dokumen terhadap query yang di
berikan. Misal query yang diberikan adalah sisi baik pandemi corona. Vektor qu
q = qTUkSk-1
39
[]
0.15735 0.14473
0.13304 −0.32015
0.41183 −0.01224
0.15735 0.14473
0.41183 −0.01224
0.27879 0.30791
0.12144 0.16317
0.15735 0.14473
0.13304 −0.32015
0.13304 −0.32015
0.13304 −0.32015
q = [0 0 1 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0]
0.12144 0.16317
0.29039 −0.17541
0.13304 −0.32015
0.12144 0.16317
0.15735 0.14473
0.41183 −0.01224
0.13304 −0.32015
0.15735 0.14473
0.12144 0.16317
0.12144 0.16317
0.15735 0.14473
[ 0.23926
0
0
0.38743]= [0.30420 -0.02137]
Dengan terbentuknya vektor untuk query tersebut, maka sekarang kita dapat
q.d
sim(q, d) =
|q|∨d∨¿ ¿
dokumen yang paling dekat dengan query adalah D2, D1, D3.
sistem, tahapan ini diharapkan dapat membuat pengguna lebih tertarik dan
berikut :
Perancangan Menu Dashboard terdiri dari judul aplikasi, nama dan npm
mahasiswa, logo universitas dan nama universitas. Seperti gambar dibawah ini:
41
Perancangan Menu Data Training terdiri dari form lokasi data training,
button open dan hasil data training. Seperti gambar dibawah ini:
42
Perancangan Menu Data Testing terdiri dari form upload data testing, form
case folding, button submit dan hasil preprosecing. Seperti gambar dibawah ini:
43
5. Perancangan Laporan
algoritma latent semantic indexing (LSI) dan naive bayes pada sentimen