Anda di halaman 1dari 41

PROPOSAL TESIS

ANALISIS KOMBINASI ALGORITMA LATENT SEMANTIC


INDEXING (LSI) DAN NAIVE BAYES
PADA SENTIMEN MASYARAKAT TERHADAP
PANDEMIK COVID-19

Disusun Oleh:
Edi Suranta Sembiring
NIM. 2017000022

PROGRAM STUDI ILMU KOMPUTER PROGRAM MAGISTER


FAKULTAS TEKNIK DAN ILMU KOMPUTER
UNIVERSITAS POTENSI UTAMA
MEDAN
2021
2
i
ii
KATA PENGANTAR

Assalamu‘alaikum Wr. Wb.


Puji dan syukur penulis panjatkan atas kehadirat Tuhan Yang Maha Esa,
karena berkat rahmat dan hidayah-Nya penulis dapat menyelesaikan Skripsi ini
dengan baik dan tepat padawaktunya.
Adapun judul tesis yang penulis susun adalah “Analisis Kombinasi
Algoritma Latent Semantic Indexing (LSI) dan Naive Bayes Pada Sentimen
Masyarakat Terhadap Pandemik Covid-19”. Dalam proses penulisan proposal
tesis ini penulis menemui banyak kesulitan namun berkat bantuan, bimbingan,
saran serta motivasi baik berupa materil maupun moril dari semua pihak maka
pada akhirnya proposal tesis ini dapat diselesaikan dengan baik.
Maka dengan selesainya penyusunan proposal tesis ini, penulis
mengucapkan terima kasih yang sebesar – besarnya untuk seluruh pihak yang
membantu. Pada kesempatan ini penulis mengucapkan terima kasih kepada :
1. Ibu Dr. Roslina, M.I.T., selaku Pembimbing I, yang telah memberikan waktu,
arahan, saran, serta motivasi sehingga penulis dapat menyelesaikan Proposal
Tesis ini dengan baik.
2. Ibu Dr. Rika Rosnelly, S.Kom., M.Kom., selaku Pembimbing II, sekaligus
Rektor Universitas Potensi Utama yang telah memberikan waktu, arahan,
saran, serta motivasi sehingga penulis dapat menyelesaikan Proposal tesis ini
dengan baik.
3. Ibu Hj. Nuriandy, BA., selaku Pembina Yayasan Potensi Utama Medan.
4. Bapak H. Bob Subhan Riza, ST, M.Kom, selaku Ketua Yayasan Potensi
Utama Medan.
5. Ibu Lili Tanti, M.Kom, selaku Wakil Rektor I Universitas Potensi Utama.
6. Ibu Ratih Puspasari, M.Kom, selaku Dekan Fakultas Teknik dan Ilmu
Komputer Universitas Potensi Utama.
7. Ibu Dr. Wanayumini, S. Kom, M. Kom., selaku Ketua Program Studi Ilmu
Komputer Program Magister Universitas Potensi Utama.

i
8. Bpk/Ibu Dosen Prodi Ilmu Komputer Program Magister Universitas Potensi
Utama yang selalu mensupport, sehingga saya dapat menyelesaikan proposal
ini dengan tepat waktu.
9. Bapak Drs. H. Ahmad Julham, M.Pd., MM Selaku Pembina Yayasan Haji
Maksum Abidin Sholeh yang selalu memberikan dukungan sehingga penulis
dapat menyelesaikan penulisan proposal tesis ini tepat waktu.
10. Bapak Dr. Muhammad Sadri, MM Selaku Ketua STKIP AL MAKSUM
LANGKAT yang selalu memberikan support dukungan baik materil maupun
moril kepada saya dalam menyelesaikan proposal tesis ini tepat waktu.
11. Ayahanda Jendam Sembiring dan Ibunda Rahmawati beserta Kakak Saya
Winda Astuti Sembiring, M.Pd, Adik Saya Jetti Putri Jayanti, S.Tr. Keb, dan
Istri Saya Rina Irwani Manurung, S.Tr.Keb, yang selalu memberikan
dukungan baik materil maupun moril kepada saya dalam menyelesaikan
penulisan proposal tesis ini.
12. Rekan – rekan kerja saya yang sudah membantu dan mendukung dalam
menyelasikan masalah – masalah yang ada dalam penulisan proposal tesis ini.
13. Untuk rekan kerja saya di ruangan Pradana Khairi Azhar, M.Psi, Azri
Ranualdy Sugma, M.Psi, Ridho Prayoga, S.Pd, Muhammad Bagus Ridwan,
S.Pd, Sutik Lestari, M.Si, yang selalu memberikan dukungan, motivasi, dan
masukan sehingga penulis dapat menyelesaikan penulisan proposal tesis ini
tepat waktu.
14. Teman – teman kelas Pascasarjana Ilmu Komputer stambuk 2020 yang telah
membantu dan memberikan masukan serta dukungan kepada penulis dalam
menyelesaikan proposal tesis ini.
Sesungguhnya penulis menyadari bahwa proposal tesis ini memiliki banyak
kekurangan dan masih jauh dari kesempurnaan, untuk itu penulis mengharapkan
kritik dan saran yang bersifat membangun demi penyempurnaan proposal tesis ini.
Semoga proposal tesis ini dapat memberikan manfaat bagi pembaca maupun
penulis.

ii
Wassalamu’alaikum Wr. Wb.
Medan, Agustus 2021
Penulis,

Edi Suranta Sembiring


NIM. 2017000022

iii
DAFTAR ISI

Kata Pengantar.......................................................................................................i
Daftar Isi................................................................................................................iv
Daftar Gambar.......................................................................................................v
Daftar Tabel...........................................................................................................vi
Daftar Lampiran.................................................................................................. vii
Ringkasan..............................................................................................................viii
BAB I Pendahuluan...............................................................................................1
I.1. Latar Belakang................................................................................................1
I.2. Rumusan Masalah...........................................................................................4
I.3. Tujuan Penelitian............................................................................................4
1.4. Manfaat Penelitian..........................................................................................5
1.5. Batasan Masalah.............................................................................................5
1.6. Sistematika Pembahasan................................................................................6
BAB II Tinjauan Pustaka.......................................................................................8
II.1. Algoritma Latent Semantic Indexing (LSI)....................................................8
II.2. Algoritma Naive Bayes..................................................................................9
II.3. Analisis Sentimen Masyarakat.......................................................................12
II.4. Bahasa Pemrograman Python........................................................................14
II.5. Twitter............................................................................................................15
II.6. Twitter API....................................................................................................15
BAB III Metodologi Penelitian.............................................................................20
III.1. Pendahuluan ................................................................................................20
III.2. Kerangka Kerja Penelitian............................................................................20
III.2. Metode Pengumpulan Data..........................................................................21
Daftar Pustaka

iv
DAFTAR GAMBAR

Gambar II.1. Contoh Sentimen Masyarakat.........................................................14


Gambar II.2. Arsitektur Twitter API....................................................................16
Gambar III.1. Kerangka Kerja Penelitian.............................................................21

v
DAFTAR TABEL

Tabel II.1. Penelitian Terkait dengan Algoritma LSI dan Naive Bayes................19

vi
DAFTAR LAMPIRAN

Lampiran I. Lembar Pengesahan Proposal Tesis


Lampiran II. Lembar Persetujuan Seminar Proposal Tesis

vii
RINGKASAN

Coronavirus disease 2019 (COVID-19) saat ini telah menjadi sebuah


pandemik yang menyebar ke seluruh dunia dengan sangat cepat, termasuk
Indonesia. Di Indonesia sendiri pasien yang terinfeksi COVID-19 telah menyebar
ke 34 Provinsi dan 432 Kabupaten/Kota dengan total 1,511,712 terkonfirmasi
covid-19. Hal ini telah mengganggu berbagai sektor dalam negara termasuk
perekonomian. Kondisi ini membuat pemerintah pusat maupun daerah
mengeluarkan berbagai kebijakan untuk mencegah penyebaran COVID-19.
Latent Semantic Indexing. Metode Latent Semantic Indexing adalah metode yang
diimplementasikan di dalam IR system dalam mencari dan menemukan informasi
berdasarkan makna keseluruhan (conceptual topic atau meaning) dari sebuah
dokumen bukan hanya makna kata per kata. Naive bayes merupakan
pengklasifikasian dengan metode probabilitas dan statistik, algoritma naïve bayes
dapat dimanfaatkan dalam bidang keilmuan salahsatunya yaitu memprediksi
peluang di masa depan berdasarkan pengalaman dimasa sebelumnya. Dalam
uraian yang telah dikemukakan diatas, penulis mengemukakan lebih lanjut
tentang bagaimana menentukan prediksi mahasiswa baru dengan judul : “Analisis
Kombinasi Algoritma Latent Semantic Indexing (Lsi) Dan Naive Bayes Pada
Sentimen Masyarakat Terhadap Pandemik Covid-19”.

viii
BAB I

PENDAHULUAN

I.1. Latar Belakang

Coronavirus disease 2019 (COVID-19) saat ini telah menjadi sebuah

pandemik yang menyebar ke selu ruh dunia dengan sangat cepat, termasuk

Indonesia. Di Indonesia sendiri pasien yang terinfeksi COVID-19 telah menyebar

ke 34 Provinsi dan 432 Kabupaten/Kota dengan total 1,511,712 terkonfirmasi

covid-19 (COVID-19, 2021). Hal ini telah mengganggu berbagai sektor dalam

negara termasuk perekonomian. Kondisi ini membuat pemerintah pusat maupun

daerah mengeluarkan berbagai kebijakan untuk mencegah penyebaran COVID-

19, misalnya dengan physical distancing, menggunakan masker dan mencuci

tangan secara berkala, hingga pembatasan pergerakan orang dan moda

transportasi. Dengan kebijakan yang dibuat pemerintah terhadap pola hidup baru

mengakibatkan respon positif dan negatif bagi masyarakat, sehingga

mengakibatkan masyarakat mengapresiasikan pendapat dan perasaan dengan

berbagai cara.

Media sosial merupakan sarana dalam menyampaikan perasaan, seringkali

digunakan untuk mengungkapkan emosi mengenai sesuatu hal, baik memuji

ataupun mencela. Salah satu media sosial yang banyak dimanfaatkan masyarakat

untuk beropini adalah Twitter. Twitter dianggap dapat mencurahkan segala

pemikiran atau opini pengguna karena akses yang mudah, jumlah follower

(pengikut) yang tidak terbatas, jumlah karakter yang singkat yaitu hanya 280

1
karakter sehingga dapat menyampaikan maksud dan tujuan pengguna twitter

2
2

dengan jelas, singkat dan padat. Twitter sebagai salah satu media sosial populer

dimana penggunanya dapat mengekspresikan opini yang objektif tentang topik

yang berbeda. (Coletta. et al, 2014)

Emosi dapat dikelompokkan menjadi emosi positif dan emosi negatif.

Emosi manusia dapat dikategorikan menjadi lima emosi dasar yaitu cinta, senang,

sedih, marah dan takut. Emosi cinta dan senang termasuk kedalam emosi positif.

Emosi sedih, marah, dan takut merupakan emosi negatif. Dalam menganalisis

sentimen masyarakat diperlukanlah klasifikasi suatu opini baik positif maupun

negatif pada twitter. Namun jika mengklasifikasi dengan cara manual akan

membutuhkan waktu dan usaha yang banyak dalam pelaksanaannya. Oleh karena

itu, dibutuhkan sebuah cara dalam mengklasifikasi suatu opini tersebut dengan

lebih cepat dan akurat. Salah satunya penggunaan Text Mining yang berfungsi

untuk menganalisis atau mengelompokkan dokumen atau teks dari sejumlah besar

dokumen atau teks.

Analisis sentimen atau opinion mining merupakan proses memahami,

mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan

informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen

akan mengklasifikasikan polaritas teks dalam kalimat atau dokumen untuk

mengetahui apakah pendapat yang diungkapkan dalam kalimat atau dokumen

tersebut positif atau negatif. Besarnya pengaruh dan manfaat dari analisis

sentimen menyebabkan penelitian dan aplikasi berbasis analisis sentimen

berkembang pesat. Penggunaan analisis sentiment dapat diterapkan pada opini

masyarakat terhadap pandemik COVID-19.


3

Beberapa penelitian yang telah dilakukan seperti yang dilakukan oleh

Tuhuteru (2020) melakukan penelitian Analisis sentimen masyarakat terhadap

pembatasan sosial berksala besar menggunakan algoritma support vector

machine. Tujuan dari penelitian tersebut ialah untuk mengetahui bagaimana

sentimen masyarakat terhadap rencana penerapan PSBB di Kota Ambon melalui

tweet dan komentar di platform media sosial menggunakan analisis sentimen.

Dengan memanfaatkan media sosial Twitter, dengan data 1075 tweet dan

komentar, data training sebanyak 350 dan data testing sebanyak 725, dan

memperoleh hasil sentimen positif sebesar 28%, sentimen negatif sebesar 27%,

dan sentimen netral sebesar 45%.

Alkadri et al. (2019) Analisis Sentimen Ulasan Video Animasi

Menggunakan Metode Latent Semantic Indexing. Pengujian dilakukan sebanyak

19 kali dengan menggunakan masukkan k-rank yang berbeda-beda. Berdasarkan

hasil pengujian, sistem ini menghasilkan akurasi optimal di k-rank = 10 yaitu

sebesar 86% sehingga dapat disimpulkan bahwa penggunaan metode latent

semantic indexing baik digunakan untuk mencari relevansi antar dokumen.

Metode yang digunakan dalam penelitian ini adalah Latent Semantic

Indexing dan Naive Bayes. Kekuatan algoritma Latent Semantic Indexing adalah

membuat perolehan informasi menjadi lebih akurat dikarnakan Latent Semantic

Indexing mengambil informasi menggunakan singular value

decomposition (SVD) atau dekomposisi nilai tunggal. Sedangkan kekuatan Naive

Bayes antara lain data yang dipakai tidak perlu menggunakan data yang banyak

dan perhitungan nya lebih cepat dan efisien. (Rantoso, 2018)


4

Berdasarkan berbagai penjelasan diatas maka dalam penyusunan tesis ini,

penulis memilih judul “ANALISIS KOMBINASI ALGORITMA LATENT

SEMANTIC INDEXING (LSI) DAN NAIVE BAYES PADA SENTIMEN

MASYARAKAT TERHADAP PANDEMIK COVID-19”.

I.2. Rumusan Masalah

Berdasarkan latar belakang yang telah diuraikan sebelumnya, maka penulis

merumuskan masalah:

COVID-19 merubah tatanan kehidupan yang mengakibatkan pemerintah

mengeluarkan kebijakan baru yang memberikan dampak terhadap masyarakat,

sehingga masyarakat memiliki opini yang berbeda dan mengungkapkannya

dengan berbagai cara salah satunya melalui media sosial twitter yang memberikan

sentimen positif atau negatif dan akan diklasifikasikan dalam 3 emosi yaitu

gembira, marah atau kecewa.

I.3. Tujuan Penelitian

Adapun tujuan penulis dalam proposal tesis ini adalah :

1. Untuk Menerapkan kombinasi algoritma Latent Semantic Indexing (LSI)

dan metode Naive bayes dalam klasifikasi sentimen masyarakat terhadap

COVID-19.

2. Untuk menganalisis kombinasi algoritma Latent Semantic Indexing (LSI)

dan metode Naive bayes dalam klasifikasi sentimen masyarakat terhadap

COVID-19.
5

3. Untuk Mendapatkan tingkat akurasi sistem yang dibangun dengan

kombinasi algoritma Latent Semantic Indexing (LSI) dan metode Naive

bayes dalam klasifikasi sentimen masyarakat terhadap COVID-19.

I.4. Manfaat Penelitian

Adapun manfaat dari penerapan kombinasi algoritma Latent Semantic

Indexing (LSI) dan metode Naive bayes dalam klasifikasi sentimen masyarakat

terhadap COVID-19 yaitu:

1. Bagi Mahasiswa:

a. Untuk Membantu mahasiswa dalam menerapkan kombinasi algoritma

Latent Semantic Indexing (LSI) dan metode Naive bayes.

b. Informasi apa saja yang dapat dihasilkan dengan menerapkan algoritma

Latent Semantic Indexing (LSI) dan metode Naive bayes dalam

klasifikasi sentimen masyarakat terhadap COVID-19.

c. Untuk membantu mahasiswa dalam memahami algoritma Latent

Semantic Indexing (LSI) dan metode Naive bayes.

2. Bagi Kampus: Membantu pihak kampus dalam penelitian selanjutnya.

3. Bagi Peneliti:

a. Untuk membantu peneliti agar dapat mengetahui dan menerapkan hasil

uji coba algoritma Latent Semantic Indexing (LSI) dan metode Naive

bayes.

b. Untuk membantu peneliti dalam menerapkan algorima yang lebih baik.

I.5. Batasan Masalah

Sehubungan dengan perkembangan teknologi yang terus menerus


6

berkembang dan penulis juga masih dalam tahap pengembangan, penulis

membuat batasan sebagai berikut:

1. Data diambil pada platfom media sosial Twitter.

2. Sistem yang dibangun hanya akan melakukan klasifikasi terhadap Sentimen

Masyarakat Terhadap COVID-19 Berdasarkan Komentar di Twitter.

3. Output sistem berupa hasil klasifikasi terhadap Sentimen Masyarakat

Terhadap COVID-19 dengan ekspresi gembira, marah dan kecewa.

I.6. Sistematika Pembahasan

Sistematika penulisan pada tesis ini dapat dijabarkan sebagai berikut:

BAB I PENDAHULUAN

Pada bab pendahuluan, tentang hal – hal yang dibahas yaitu latar

belakang, rumusan masalah, batasan masalah, tujuan penelitian,

manfaat penelitian, metodologi penelitian, dan sistematika

penulisan.

BAB II LANDASAN TEORI

Pada bab ini berisi teori – teori yang digunakan untuk memahami

permasalahan yang diangkat pada penelitian ini. Teori – teori

mengenai Algoritma Latent Semantic Indexing (LSI), metode

Naive Bayes dan membahas tentang sentimen masyarakat tentang

COVID-19.

BAB III METODE PENELITIAN

Pada bab metode penelitian berisi tentang perancangan sistem,

arsitektur umum, alur kerja sistem dalam bentuk use case


7

diagram dan user interface.

BAB IV ANALISIS DAN PERANCANGAN

Pada bab ini, akan dijelaskan implementasi dan pembahasan dari

rancangan aplikasi dari penelitian yang telah dibuat pada bab 3.

Hasil dari pengujian aplikasi dan implementasi juga akan

dijabarkan pada bab ini.

BAB V IMPLEMENTASI DAN HASIL

Pada bab ini, berisi kesimpulan dan ringkasan dari rancangan

yang dibahas pada bab 3 dan hasil penelitian yang dijelaskan pada

bab 4. Pada bab ini juga dimuat saran–saran untuk pengembangan

penelitian yang selanjutnya.

BAB VI PENUTUP

Pada Bab penutup ini berisi kesimpulan, saran atau kritik untuk

pengembangan selanjutnya.
BAB II

TINJAUAN PUSTAKA

II.1. Algoritma Latent Semantic Indexing (LSI)

Algoritma Latent Semantic Indexing (LSI) merupakan salah satu bentuk

teknik proses temu kembali dengan menggunakan Vector Space Model (VSM),

untuk menemukan informasi yang relevan. Fungsi matematis di dalam LSI

mampu menemukan hubungan semantik antar kata. (Semara, 2015)

Selain itu menurut Alkadri et. Al, 2015 Latent Semantic Indexing (LSI)

adalah algoritma yang melakukan prediksi sebuah kelas berdasarkan pola yang

dihasilkan oleh proses data training yang diciptakan oleh Vladimir Vapnik dan

merupakan salah satu metode klasifikasi dengan menggunakan metode machine

learning (supervised learning). Pemberian garis batas (Hyperlane) dalam

melakukan klasifikasi agar memisahkan antara sebuah opini yang berorientasi

positif dan negatif. Secara intuitif, suatu garis pembatas yang baik adalah

memiliki jarak terbesar ke titik data pelatihan terdekat dari setiap kelas karena

pada umunya semakin besar margin, semakin redah error generalisasi dari

pemilah. Margin merupakan jarak dari suatu titik vektor di suatu kelas terhadap

hyperplane.

Representasi dari LSI pada persamaan 2.1


' T −1
q =q ∙ U k ∙ S k (2.1)

8
9

Keterangan:

q ' = query vector representasi dari LSI

q = transpose TDM dari pembobotan ternormalisasi TFIDF query U k =


T
8
reduksi dimensi k dari matriks U
−1
Sk = inverse dari reduksi dimensi k matriks S.

II.2. Algoritma Naive Bayes

Naive Bayes adalah model klasifikasi dengan menggunakan metode

probabilitas dan statistik yang dikemukakan oleh seorang ilmuwan Inggris yang

bernama Thomas Bayes. Olson dan Delen (2008) dalam Costa, Fonseca, Santana,

de Araújo, and Rego (2017) menjelaskan bahwa Naïve Bayes untuk setiap class

decision akan menghitung probabilitas dengan syarat bahwa decision class

bernilai benar, mengingatvektor informasi objek. Algoritma naiver bayes akan

melakukan asumsi bahwa object atrubut sifatnya adalah independen.

Kemungkinan yang terlibat dalam menghasilkan prediksi dihitung sebagai jumlah

frekuensi dari tabel keputusan master.

Akan tetapi, menurut Han dan Kamber (2011) dalam (Ngai, Hu, Wong,

Chen, & Sun, 2011), proses dari metode Naïve Bayes simpel sebagai berikut:

1. Variable D akan menjadi tupple set training dan label yang terkait dengan

kelas. Biasanya, setiap vektor atribut n-dimensi akan mewakili tuple, ini

mengilustrasikan bahwa pengukuran n dibuat pada tuple daripada atribut n,

dimana masing-masing adalah A1, A2, A3, .... An


10

2. Misalkan pada kasus tersebut ada kelas m, yaitu C1, C2, C3, .... Cm , maka

diberi sebuah tuple, yaitu X. Classifier akan melakukan prediksi X yang

masuk kelompok memiliki probabilitas posterior tertinggi, dimana kondisi

disebutkan pada X. Artinya, classifier naive bayes akan memprediksi bahwa

X tuple milik kelas Ci jika dan hanya jika, terdapat pada persamaan 2.2:

P(C | X ) P(C | X ) for1j m, j i> (2.2)


i j

Jadi memaksimalkan P (Ci | X). Ci kelas P (Ci | X) dimaksimalkan disebut

sebagai hipotesis posterior maksimal. Dengan teorema Bayes, terdapat pada

persamaan 2.3:

(2.3)

Dimana:

P(Ci|X), merupakankemungkinan hipotesis Ciapabila diberikan fakta X.

P(X|Ci), adalah proses mencari nilai parameter dengan kemungkinan terbesar.

P(Ci), adalah kemungkinan sebelumnya dari X

P(X), merupakan jumlah kemungkinan x yg muncul

1. Apabila Probability (X) adalah tetap untuk semua kelas, maka hanya

Probabilitas (X|Ci) P (Ci) yang perlu dioptimalkan. Jika P(X|prior) tidak

diketahui, maka biasanya akan dianggap masuk kedalam kelas yang sama,

yaitu P (C1) = P (C2) = P (Cm), maka oleh karena itu akan dimaksimalkan P

(X | Ci). Jika tidak, maka akan dimaksimalkan P (X | Ci) P (Ci). Selalu ingat

bahwa probabilitas class priori dapat prediksi oleh P (Ci) = |Ci,D | / |, dimana

|Ci,D | / | merupakan jumlah tuple pelatihan kelas Ci di D.

2. Menimbang bahwa dataset memiliki bermacam-macam atribut, maka akan


11

sangat sulit dalam melakukan komputasi dalam menghitung Probailitas (X|

Ci). Supaya dapat mengurangi perhitungandalam mengevaluasiP(X|Ci),

maka dibuatlah asumsi naïve independensikelasbersyarat. Hal ini apabila

classifier menganggap bahwa nilaidari atribut merupakan kondisional

independen satusama lain, maka akan diberikan label class dari tuple,

dimana terdapat pada persamaan 2.4:

(2.4)

Oleh karena itu, dengan mudah dapat diperkirakan bahwa probabilitas P(X1|

Ci), P(X2|Ci), ....,P (Xn|Ci) dari pelatihan tuple. Selalu ingat bahwa nilai Xk

mengacu pada nilai atribut Ak untuk X. Juga dilihat untuk semua atribut, apakah

atribut itu bersifat kategorikal atau continuous-value, misalnya, dalam

menentukan Probabilitas (X | Ci) harus dipertimbangkan beberapa hal seperti

dibawah ini:

a. Apabila Akbersifat kategorikal, maka Probailitas (Xk | Ci) merupakan jumlah

class tupple Ci di D memiliki nilai Xk untuk atribut Ak, nilai ini kemudian

dibagi dengan | Ci, D |jumlah class tupple Ci dalam D.

b. Apabila Akbersifat continuousvalued, maka harus dilakukan lebih banyak

pekerjaan, akan tetapi perhitungan nya cukup simpel. Suatu atribut yang

bersifat continuousvaluebiasanya diasumsikan memiliki distribusi Gaussian

dengan rerata μ dan standardeviasi σ, didefinisikan dengan persamaan 2.5 :


12

(2.5)

Selanjutnya, dilakukan perhitungan μCi dan σCi, yang mana itu merupakan

deviasi mean dan standard masing-masing atribut k untuk tuple class

training Ci. Selanjutnya, digunakan keduakuantitas dalam Persamaan,

bersamaan dengan xk, dalam memprediksikan P (xk | Ci).

3. Dalam meramalkan class label x, P(X|Ci)P(Ci) dilakukan evaluasi untuk

setiap kelas Ci. Classifier akan melakukan prediksi class label dari x tuple

adalah kelas daripada Ci, terdapat pada persamaan 2.6:


13

(2.6)

Dengan kata lain, class label yang diprediksi merupakan Cidi mana P(X | Ci)

P(Ci) adalah bernilai maksimal. Bayessian Classifier memiliki tingkat error

minimal jika dibandingkan dengan classifier yang lainnya. Akan tetapi, dalam

prakteknya hal seperti ini tidaklahsering terjadi, dikarenakan ketidakakuratan

dugaan yang dibuat untuk penggunaannya, misalkan kondisi kelas yang berdiri

sendiri, dan kurangnya data kemungkinan yang disediakan. Bayessian Classifier

juga dapat berguna untuk memberikan pembenaran secara teoritis dalam

mengklasifikasikan hal lain yang tidak menggunakan teorema Bayessian secara

eksplisit.

II.3. Analisis Sentimen Masyarakat

Analisis sentimen merupakan metode pembelajaran mesin untuk

mengekstrak, mengidentifikasi, atau sebaliknya mencirikan isi sentiment dari

sebuah teks. Sentiment analysis atau opinion mining mengacu pada bidang yang

luas dari pengolahan bahasa alami, komputasi linguistik dan text mining yang

bertujuan menganalisis pendapat, sentimen, evaluasi, sikap, penilaian dan emosi

seseorang berkenaan dengan suatu topik, produk, layanan, organisasi, individu,

ataupun kegiatan tertentu. (Munawar dan Abdul, 2018) Dampak dari analisis

sentimen adalah perkembangan pada penelitian dan analisis sentimen berbasis

aplikasi sangat pesat. Bahkan di Amerika ada sekitar 20-30 perusahaan yang

berfokus pada layanan analisis sentimen. (Ajeng ea al, 2018)

Analisis sentimen dilakukan untuk menentukan apakah opini atau komentar


14

terhadap suatu permasalahan, memiliki kecenderungan positif atau negatif dan

dapat dijadikan sebagai acuan dalam meningkatkan suatu pelayanan, ataupun

meningkatkan kualitas produk. Penggunaan analisis sentimen dapat diterapkan

pada opini masyarakat terhadap COVID-19. Hal ini disebabkan oleh beberapa

faktor seperti penulisan kata yang disingkat, penggunaan bahasa modern atau

slang, salah dalam mengetik huruf dan tidak baku dalam penulisan opini calon

maupun para pendukung. Teknik yang berkembang untuk penggalian dokumen

teks saat ini adalah text mining. (Budi, 2017) Text mining dapat diolah untuk

berbagai macam keperluan diantaranya adalah untuk summarization, pencarian

dokumen teks dan sentimen analisis.

Salah satu contoh sentimen terhadap COVID-19 adalah terdapat pada akun

twitter dengan nama akun @khairaTM, @khairaTM membuat tweet pada

halaman berandanya pada tanggal 31 Desember 2020 dengan status “Kenyataan

kayak gini, while banyak influencer, selebgram, artis, selebtweet masih bilang

covid isnt real dan hanya konspirasi sambil posting foto ngumpul2 liburan tanpa

masker”. Sehingga memberikan dampak respon 36 Retweets, 3 Quote Tweets dan

263 Likes.
15

Gambar II.1 Contoh Sentimen Masyarakat


(Sumber: Twitter, 2021)

II.4. Bahasa Pemrograman Python

Bahasa pemrograman yang digunakan dalam penelitian ini adalah bahasa

pemrogrman Python. Menurut Harrington (2014), bahasa pemrogrman python

merupakan bahasa pemrograman yang memiliki banyak fitur, interaktif, object

oriented dan juga bahasa python adalah bahasa pemrograman tingkat tinggi (High

Level Language). Bahasa pemrograman python merupakan bahasa formal yang

miliki aturandan format sendiri. Python adalah bahasa pemrograman tingkat tinggi

yang diciptakan oleh Guido Van Rossum di Amsterdam Belandapada tahun 1989
16

(Syaikhuriza, Aliyadi, & Prasetyo, 2018). Sebagai bahasa tingkat tinggi, python

memberikan berbagai kemudahan dalam penulisan suatu kode program.

Kemudahan bahasa pemrograman python terdapat pada sintaks nya yang terbilang

sederhana sehingga memudahkan para pengembang untuk merancangan sebuah

program. Beberapa Operating System yang berbasis pada IoT menggunakan

python sebagai bahasa pemrograman.

II.5. Twitter

Twitter merupakan salah satu sosial media yang sudah populer selama

beberapa tahun belakangan ini. Twitter mampu masuk sebagai salah satu media

sosial yang paling banyak digunakan masyarakat dan bersaing dengan situs besar

seperti Facebook. Twitter dimulai dengan satu pertanyaan: “What’s happening?”

dan dijawab hanya dalam 140 karakter saja.

Tweet entity atau disebut juga sebagai konten tweet adalah konten/ isi dari

tweet itu sendiri. Tweet entity tersebut adalah: teks dari tweet itu sendiri, hashtag

(#), mention (@), retweet (RT), url, emoticons, media. C menyediakan

Application Programming Interface (API) untuk mengakses datanya. Termasuk

update status, operasi pencarian dan akses pengguna timeline.

II.6. Twitter API

Data twitter merupakan sumber data yang kaya serta beragam dan dapat di

gunakan untuk mengungkap informasi tentang topik yang kita inginkan. Data ini

dapat digunakan dalam penggunaan yang berbeda-beda seperti menemukan kasus

yang sedang popular, prediksi, kategorisasi berdasarkan tag atau kata kunci

tertentu, mengukur sentimen merek maupun mengumpulkan umpan balik tentang


17

produk layanan baru. Hal tersebut memicu para programmer atau developer untuk

mengembangkan kreatifitas dalam membangun suatu sistem berdasarkan data

melimpah yang dimiliki oleh twitter tersebut. Oleh karena itu, twitter

menyediakan API programming yang dapat dikembangkan oleh pihak ketiga

untuk membangun suatu aplikasi baru.

Gambar II.2. Arsitektur Twitter API


(Sumber: Hutagalung, 2018)

Twitter API tersedia untuk berbagai platform dan bahasa pemrograman.

Untuk menggunakannya dibutuhkan pemasangan paket-paket tertentu serta

melengkapi library dari twitter API itu sendiri. (Hutagalung, 2018) Pengembang

yang ingin mengimplementasikan twitter API melalui bahasa pemrograman

Hypertext Prepocessor (PHP) dapat menggunakan twitter OAuth, yaitu PHP

library untuk berkomunikasi dengan Twitter API. Hasil yang didapat akan

diekstrak dalam bentuk format data JSON yang bisa diolah sebelum disimpan ke

dalam database. Ada 3 bagian penting dari platform twitter, yakni:

1. OAuth Authentication
18

OAuth dapat memungkinkan pengguna untuk mengakses situs twitter yang

dimiliki pengguna tanpa harus melalui dari situs twitter. Otentikasi

dibutuhkan untuk sign in ke akun twitter yang dimiliki pengguna. Sign in

adalah tahapan yang harus dilalui pengguna untuk dapat masuk ke akun

twitter-nya. Otentikasi application-user diperlukan untuk mendapatkan user-

specific API. Dengan kata lain, ketika kita mulai untuk mengakses API

twitter menggunakan akun pengguna, pengguna akan diarahkan menuju

twitter untuk mengotorisasi aplikasi kita. Twitter akan memberikan akses

token yang akan berakhir sampai pengguna tidak lagi menggunakannya.

Pengembang akan menggunakan token-token tersebut untuk otentikasi

aplikasi yang akan dibuat atas nama akun pengembang sebagai pengguna.

2. Representational state transfer (REST) API

Cara paling umum yang digunakan oleh pengembang untuk mendapatkan

akses data twitter adalah melalui REST API. REST API menggunakan token

yang akan diperoleh melalui OAuth sehingga sistem yang kita buat akan

melakukan permintaan (request) kepada twitter untuk menarik data tertentu.

Misalnya, kita akan mengakses data status pengguna. REST API dapat

memenuhi kebutuhan para pengembang aplikasi twitter.

3. Streaming API OAuth Authentication

Streaming API memungkinkan pengguna untuk menerima postingan-

postingan dan pemberitahuan secara real-time dari twitter. Namun,

membutuhkan kinerja yang tinggi dan koneksi yang harus selalu ada antara

server dengan twitter. Ada tiga variasi pada twitter streaming API, yakni :
19

a. The Public Stream, hal ini memungkinkan sistem untuk memonitor data

publik di twitter, seperti tweet yang dibagikan secara publik, filter

hashtag dan sebagainya.

b. The User Stream, hal ini memungkinkan untuk melacak aliran tweet

pengguna secara real-time.

Site Stream, site stream membutuhkan persetujuan terlebih dahulu dari

pihak twitter yang memungkinkan sistem untuk memonitor real-time twitter feeds

untuk sejumlah besar pengguna. Tujuan dari implementasi streaming adalah untuk

melacak peristiwa yang masuk secepat mungkin dan mengolahnya pada suatu

aplikasi tertentu menggunakan REST API untuk mendapatkan data yang lebih

dalam. Penggunaan REST API memiliki berbagai batasan-batasan yang diberikan

oleh twitter. Penting bagi pengembang untuk menggunakan dan bertanggung

jawab atas penggunaan twitter API dengan merencanakan batasan-batasan

aktivitas dalam sistem yang dibuat dan memantau respon-respon yang ada.
20

Tabel II.1 Penelitian Terkait dengan Algoritma Latent Semantic Indexing Dan Naive Bayes

No Nama Penulis Publish Judul Pembahasan


1 Hennie Tuhuteru Information System Analisis Sentimen Masyarakat Terhadap Dengan memanfaatkan media sosial Twitter, dengan data 1075 tweet
(2020) Development (ISD). Pembatasan Sosial Berksala Besar dan komentar, data training sebanyak 350 dan data testing sebanyak
Vol. 5 No. 2 Juli 2020 Menggunakan Algoritma Support 725, dan memperoleh hasil sentimen positif sebesar 28%, sentimen
Vector Machine negatif sebesar 27%, dan sentimen netral sebesar 45%.

2 Sisferi Hikmawan, Jurnal Kajian Ilmiah Sentimen Analisis Publik Terhadap Joko Penelitian ini menjadikan kata kunci “Jokowi” dan “Covid” untuk
dkk (2019) (JKI). Vol. 20 No. 2 Widodo Terhadap Wabah COVID-19 mencari sesering apa kata kunci ini dipakai dengan membandingkan
(Mei 2020) Menggunakan Metode Machine tiga metode machine learning, yaitu metode Naive Bayes, Support
Learning Vector Machine dan KNN. Penelitian ini menghasilkan accuracy
84.58%, precision 82.14% dan recall 85.82%.
3 Sutrisno, dkk Jurnal Pengembangan Analisis Sentimen Ulasan Video Pada penelitian ini, pengujian dilakukan sebanyak 19 kali dengan
(2019) Teknologi Informasi Animasi Menggunakan Metode Latent menggunakan masukkan k-rank yang berbeda-beda. Berdasarkan
dan Ilmu Komputer. Semantic Indexing hasil pengujian, sistem ini menghasilkan akurasi optimal di k-rank =
Vol. 3, No. 1, Januari 10 yaitu sebesar 86%.
2019
4 Hilda Rachmi Jurnal Evolusi Volume Penerapan Principal Component Pada penelitian ini, keakuratan yang dihasilkan dari algoritma
(2017) 5 No 2 – 2017. Analysis Dan Genetic Algorithm Pada Support Vector Machine sebesar 86.00%, setelah dioptimalkan
Analisis Sentimen Review Pengiriman dengan menggunakan Principal Component Analysis dan Genetic
Barang Menggunakan Algoritma Algorithm accuracy telah meningkat menjadi 97%.
Support Vector Machine
5 Jenal Abidin Universitas Komputer Pembangunan Kamus Bahasa Indonesia Hasil dari penelitian ini dengan penggabungan algoritma Algoritma
(2017) Indonesia 2017 Kata Tidak Baku Menggunakan Latent Semantic Indexing dan Damerau levenshtein Distance terbukti
Algoritma Latent Semantic Indexing menghasilkan sebuah modul preprocessing teks yang efektif dalam
Dan Damerau levenshtein Distance membangun kamus Bahasa Indonesia kata tidak baku.

6 Andrian Marcus, International Recovering Documentation to Pencarian informasi dengan Latent Semantic Indexing
Jonathan I. Maletic Conference on Source-Code Traceability Links digunakan untuk mengidentifikasi secara otomatis tautan dari
21

No Nama Penulis Publish Judul Pembahasan


Software using Latent Semantic Indexing dokumentasi sistem. Hasil ini dibandingkan dengan hasil
Engineering (ICSE eksperimen sejenis lainnya dari identifikasi tautan keterlacakan
03) menggunakan berbagai jenis teknik pencarian informasi.
Metode yang disajikan terbukti memberikan hasil yang baik
dengan perbandingan dan selain itu, ini adalah metode yang
berbiaya rendah dan sangat fleksibel untuk berlaku sehubungan
dengan pra-pemrosesan dan/atau penguraian kode sumber dan
dokumentasi.
7. I Rish International Joint An empirical study of the naive Klasifikasi dengan Naive Bayes sangat memudahkan
Conferences on Bayes classifier pembelajaran dengan mengasumsikan bahwa fitur diberikan
Artificial secara independen kelas. Pendekatan peneliti dengan
Intelligence menggunakan simulasi Monte Carlo yang memungkinkan studi
sistematis tentang akurasi klasifikasi untuk beberapa kelas
masalah yang dihasilkan secara acak. Hasil adalah akurasi
Naive Bayes tidak berkorelasi langsung dengan derajat
dependensi fitur diukur sebagai informasi mutual
classconditional antara fitur.
BAB III

METODOLOGI PENELITIAN

III.1. Pendahuluan
Pada bab ini menjelaskan metedologi penelitian apa yang akan digunakan

untuk penyelesaian masalah pada penelitian ini. Pada metedologi penelitian ini

akan sangat membantu penulis dalam menyelesaikan masalah karena berguna

dalam menemukan suatu kebenaran, terkait dengan permasalahan yang sedang

dikaji. Pada proses metedologi penelitian ini dilakukan dengan menggunakan tiga

tahap penelitian yaitu pada Tahap pertama dilakukannya studi literatur yang

diambil dari penelitian – penelitian terdahulu yang sudah ada yang dapat

menghasilkan sebuah proposal penelitian. Tahap kedua yaitu dilakukannya proses

pemodelan dan perancangan sistem dengan cara pengumpulan data dan

bagaimana cara dalam menganalisis data yang akan diterapkan terhadap algoritma

yang digunakan. Tahap ketiga yaitu di lakukannya proses pemilihan tools yang

akan digunakan dalam mengimplementasi proses analisa data dan proses uji coba

hasil penelitian

III.2. Kerangka Kerja Penelitian

Untuk membantu dalam penyusunan penelitian ini, maka perlu adanya

susunan kerangka kerja yang jelas tahapan-tahapannya. Kerangka kerja ini

merupakan langkah-langkah yang akan dilakukan dalam penyelesaian masalah

yang akan dibahas. Adapun kerangka kerja penelitian yang di gunakan seperti

terlihat pada gambar 3.1

22
23

Gambar III.1 Kerangka Kerja Penelitian

Berdasarkan kerangka kerja penelitian yang telah digambarkan di atas, maka

dapat diuraikan pembahasan masing-masing tahap dalam penelitian adalah

sebagai berikut:

1. Tahap Pertama

a. Mengumpulkan Data

Pada tahap ini dilakukannya proses pengumpulan data yang akan

digunakan dalam menganalisis pola sentimen masyarakat terhadap

COVID-19. Data yang digunakan yaitu tweet yang didapat dari

platform sosial media twitter.


24

b. Memahami Studi Literatur

Pada tahapan ini dilakukannya proses pembelajaran terhadap

algoritma latent semantic indexing (LSI) dan naïve bayes untuk

menentukan pola sentimen masyarakat terhadap COVID-19 melalui

buku – buku, jurnal – jurnal untuk mendapatkan dasar pengetahuan

dalam melakukan penelitian selanjutnya.

c. Analisis algoritma latent semantic indexing (LSI) dan naïve bayes

Pada Tahapan Ini Dilakukannya Proses Analisis data terhadap data

yang ada dengan menerapkan algoritma latent semantic indexing

(LSI) dan naïve bayes dalam menentukan pola pendaftaran mahasiswa

baru.

d. Pengolahan Data

Pada tahapan ini dilakukannya pengolahan data yang terdiri dari

beberapa tahapan. Pada algoritma latent semantic indexing (LSI),

setelah nilai probabilitas atribut dan kelas sudah didapatkan, maka

selanjutnya melakukan perhitungan probabilitas akhir untuk setiap

kelas terhadap data sentimen masyarakat terhadap COVID-19 atau

data uji, sedangkan pada algoritma naïve bayes dilakukan untuk

menentukan output sentimen masyarakat yaitu: senang, sedih dan

marah berdasarkan nilai yang dihasilkan algoritma latent semantic

indexing (LSI).

2. Tahap Kedua

a. Memilih Atribut
25

Setelah Tahap pertama selesai dilakukan maka masuk kepada tahap

kedua yang dimana dipilihlah atribut yang digunakan untuk

mengetahui apa saja yang paling mempengaruhi proses sentimen

masyarakat terhadap COVID-19.

b. Proses Cleaning

Pada Data Cleaning atau Praprocessing data merupakan proses yang

dimana setelah data diseleksi maka proses selanjutnya data di cek

terlebih dahulu agar tidak terdapat data noise atau duplicate data, data

yang tidak perlu, data yang redudance.

c. Proses Transformasi

Proses transformasi data yaitu data di transformasikan dengan

menganalisis atribut dan melakukan proses transformasi data ke

format yang dapat dibaca oleh aplikasi yang dibangun.

3. Tahap Ketiga

Hasil preprocessing data yaitu data yang sudah di transformasikan

dengan menganalisis atribut dan melakukan proses transformasi data

dengan feature extration dengan hasil pembobotan.

4. Tahap Keempat

a. Perhitungan Menggunakan algoritma latent semantic indexing (LSI)

Pada tahap ini dilakukan perhitungan algoritma latent semantic

indexing (LSI) berdasarkan nilai perhitungan pembobotan berdasarkan

sentimen masyarakat terhadap COVID-19 pada sosial media twitter.


26

b. Melakukan penentuan output sentimen masyarakat terhadap COVID-

19 dengan menerapkan algoritma naïve bayes.

5. Tahap Kelima

Membangun sistem yang mnerapkan kombinasi algoritma latent

semantic indexing (LSI) dan naïve bayes untuk menentukan pola

sentimen masyarakat terhadap COVID-19.

6. Tahap Keenam

Melakukan pengujian sistem yang dibangun dalam menerapkan

kombinasi algoritma latent semantic indexing (LSI) dan naïve bayes

untuk sentimen masyarakat terhadap COVID-19.

7. Tahap Ketujuh

Mendapatkan hasil uji sistem dengan tingkat akurasi kombinasi algoritma

latent semantic indexing (LSI) dan naïve bayes untuk menentukan

sentimen masyarakat terhadap COVID-19.


DAFTAR PUSTAKA

Abidin, J. (2017). Pembangunan kamus bahasa Indonesia kata tidak baku


menggunakan algoritma latent semantic indexing dan damerau-levenshtein
distance. Universitas Komputer Indonesia
Ajeng, D, K., Hairul, A, U., Wahyudi, M., Amin, R., & Marlinda, L,. (2018).
Comparison of SVM & Naïve Bayes Algorithm for Sentiment Analysis Toward
West Java Governor Candidate Period 2018-2023 Based on Public Opinion on
Twitter. International Conference on Cyber and IT Service Management
(CITSM 2018) Inna Parapat Hotel – Medan, August 7-9, 2018.
Alkadri, F, D., Sari, Y, A., & Sutrisno. (2019). Analisis Sentimen Ulasan Video
Animasi Menggunakan Metode Latent Semantic Indexing. Jurnal
Pengembangan Teknologi Informasi dan Ilmu Komputer. Vol. 3, No. 1, Januari
2019, hlm. 503-509.
Coletta, L, F, S., Nadia F, F., Eduardo, R, H., & Estevam, R, H. (2014).
Combining Classification and Clustering for Tweet Sentiment Analysis.
University of Sao Paulo (USP) at Sao Carlos, Brazil.
Costa, E. B., Fonseca, B., Santana, M. A., de Araújo, F. F., & Rego, J. (2017).
Evaluating the effectiveness of educational data mining techniques for early
prediction of students' academic failure in introductory programming courses.
Computers in Human Behavior, 73, 247-256.
Harrington, A. N. (2014). Hands-On Python A Tutorial Introduction for
Beginners
Hikmawan, S., Pardamean, A., & Khasanah, S, N. (2019). Sentimen analisis
publik terhadap Joko Widodo terhadap wabah COVID-19 menggunakan
metode machine learning. Jurnal Kajian Ilmiah (JKI). Vol. 20 No. 2 (Mei
2020), Halaman: 167 – 176.
Munawar & Rahim A. (2018). Model Analisis Sentiment Di Pilkada Jawa Barat
2018. JIK: Jurnal Ilmu Komputer Volume 3 Nomor 2, Desember 2018.
Ngai, E. W., Hu, Y., Wong, Y. H., Chen, Y., & Sun, X. (2011). The application of
data mining techniques in financial fraud detection: A classification
framework and an academic review of literature. Decision support systems,
50(3), 559-569.
Rachmi, H. (2017). Penerapan Principal Component Analysis dan Genetic
Algorithm pada Analisis Sentimen Review Pengiriman Barang Menggunakan
Algoritma Support Vector Machine. Jurnal Evolusi Volume 5 No 2 – 2017.
Rantoso, Eko (2018) Sistem Pakar Diagnosa Penyakit Yang Disertai Demam
Menggunakan Metode Naive Bayes Classifier. Universitas Mercu Buana
Yogyakarta
Semara, H, P,. (2015). Penentuan Emosi Berdasarkan Lirik Lagu Menggunakan
Sistem Temu Kembali Informasi Dengan Metode Latent Semantic Indexing
(LSI). Fakultas Teknik Universitas Udayana. 2015.
Syaikhuriza, F., Aliyadi, A., & Prasetyo, A. (2018). RANCANG BANGUN
JEMURAN OTOMATIS BERBASIS WEB DENGAN KENDALI
RASPBERRY PI. KOMPUTEK, 2(2), 44-47.
Tuhuteru, H. (2020). Analisis Sentimen Masyarakat Terhadap Pembatasan
Sosial Berksala Besar Menggunakan Algoritma Support Vector Machine.
Information System Development (ISD). Vol. 5 No. 2 Juli 2020

Anda mungkin juga menyukai