Disusun Oleh:
Edi Suranta Sembiring
NIM. 2017000022
i
8. Bpk/Ibu Dosen Prodi Ilmu Komputer Program Magister Universitas Potensi
Utama yang selalu mensupport, sehingga saya dapat menyelesaikan proposal
ini dengan tepat waktu.
9. Bapak Drs. H. Ahmad Julham, M.Pd., MM Selaku Pembina Yayasan Haji
Maksum Abidin Sholeh yang selalu memberikan dukungan sehingga penulis
dapat menyelesaikan penulisan proposal tesis ini tepat waktu.
10. Bapak Dr. Muhammad Sadri, MM Selaku Ketua STKIP AL MAKSUM
LANGKAT yang selalu memberikan support dukungan baik materil maupun
moril kepada saya dalam menyelesaikan proposal tesis ini tepat waktu.
11. Ayahanda Jendam Sembiring dan Ibunda Rahmawati beserta Kakak Saya
Winda Astuti Sembiring, M.Pd, Adik Saya Jetti Putri Jayanti, S.Tr. Keb, dan
Istri Saya Rina Irwani Manurung, S.Tr.Keb, yang selalu memberikan
dukungan baik materil maupun moril kepada saya dalam menyelesaikan
penulisan proposal tesis ini.
12. Rekan – rekan kerja saya yang sudah membantu dan mendukung dalam
menyelasikan masalah – masalah yang ada dalam penulisan proposal tesis ini.
13. Untuk rekan kerja saya di ruangan Pradana Khairi Azhar, M.Psi, Azri
Ranualdy Sugma, M.Psi, Ridho Prayoga, S.Pd, Muhammad Bagus Ridwan,
S.Pd, Sutik Lestari, M.Si, yang selalu memberikan dukungan, motivasi, dan
masukan sehingga penulis dapat menyelesaikan penulisan proposal tesis ini
tepat waktu.
14. Teman – teman kelas Pascasarjana Ilmu Komputer stambuk 2020 yang telah
membantu dan memberikan masukan serta dukungan kepada penulis dalam
menyelesaikan proposal tesis ini.
Sesungguhnya penulis menyadari bahwa proposal tesis ini memiliki banyak
kekurangan dan masih jauh dari kesempurnaan, untuk itu penulis mengharapkan
kritik dan saran yang bersifat membangun demi penyempurnaan proposal tesis ini.
Semoga proposal tesis ini dapat memberikan manfaat bagi pembaca maupun
penulis.
ii
Wassalamu’alaikum Wr. Wb.
Medan, Agustus 2021
Penulis,
iii
DAFTAR ISI
Kata Pengantar.......................................................................................................i
Daftar Isi................................................................................................................iv
Daftar Gambar.......................................................................................................v
Daftar Tabel...........................................................................................................vi
Daftar Lampiran.................................................................................................. vii
Ringkasan..............................................................................................................viii
BAB I Pendahuluan...............................................................................................1
I.1. Latar Belakang................................................................................................1
I.2. Rumusan Masalah...........................................................................................4
I.3. Tujuan Penelitian............................................................................................4
1.4. Manfaat Penelitian..........................................................................................5
1.5. Batasan Masalah.............................................................................................5
1.6. Sistematika Pembahasan................................................................................6
BAB II Tinjauan Pustaka.......................................................................................8
II.1. Algoritma Latent Semantic Indexing (LSI)....................................................8
II.2. Algoritma Naive Bayes..................................................................................9
II.3. Analisis Sentimen Masyarakat.......................................................................12
II.4. Bahasa Pemrograman Python........................................................................14
II.5. Twitter............................................................................................................15
II.6. Twitter API....................................................................................................15
BAB III Metodologi Penelitian.............................................................................20
III.1. Pendahuluan ................................................................................................20
III.2. Kerangka Kerja Penelitian............................................................................20
III.2. Metode Pengumpulan Data..........................................................................21
Daftar Pustaka
iv
DAFTAR GAMBAR
v
DAFTAR TABEL
Tabel II.1. Penelitian Terkait dengan Algoritma LSI dan Naive Bayes................19
vi
DAFTAR LAMPIRAN
vii
RINGKASAN
viii
BAB I
PENDAHULUAN
pandemik yang menyebar ke selu ruh dunia dengan sangat cepat, termasuk
covid-19 (COVID-19, 2021). Hal ini telah mengganggu berbagai sektor dalam
transportasi. Dengan kebijakan yang dibuat pemerintah terhadap pola hidup baru
berbagai cara.
ataupun mencela. Salah satu media sosial yang banyak dimanfaatkan masyarakat
pemikiran atau opini pengguna karena akses yang mudah, jumlah follower
(pengikut) yang tidak terbatas, jumlah karakter yang singkat yaitu hanya 280
1
karakter sehingga dapat menyampaikan maksud dan tujuan pengguna twitter
2
2
dengan jelas, singkat dan padat. Twitter sebagai salah satu media sosial populer
Emosi manusia dapat dikategorikan menjadi lima emosi dasar yaitu cinta, senang,
sedih, marah dan takut. Emosi cinta dan senang termasuk kedalam emosi positif.
Emosi sedih, marah, dan takut merupakan emosi negatif. Dalam menganalisis
negatif pada twitter. Namun jika mengklasifikasi dengan cara manual akan
membutuhkan waktu dan usaha yang banyak dalam pelaksanaannya. Oleh karena
itu, dibutuhkan sebuah cara dalam mengklasifikasi suatu opini tersebut dengan
lebih cepat dan akurat. Salah satunya penggunaan Text Mining yang berfungsi
untuk menganalisis atau mengelompokkan dokumen atau teks dari sejumlah besar
informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen
tersebut positif atau negatif. Besarnya pengaruh dan manfaat dari analisis
Dengan memanfaatkan media sosial Twitter, dengan data 1075 tweet dan
komentar, data training sebanyak 350 dan data testing sebanyak 725, dan
memperoleh hasil sentimen positif sebesar 28%, sentimen negatif sebesar 27%,
Indexing dan Naive Bayes. Kekuatan algoritma Latent Semantic Indexing adalah
Bayes antara lain data yang dipakai tidak perlu menggunakan data yang banyak
merumuskan masalah:
dengan berbagai cara salah satunya melalui media sosial twitter yang memberikan
sentimen positif atau negatif dan akan diklasifikasikan dalam 3 emosi yaitu
COVID-19.
COVID-19.
5
Indexing (LSI) dan metode Naive bayes dalam klasifikasi sentimen masyarakat
1. Bagi Mahasiswa:
3. Bagi Peneliti:
uji coba algoritma Latent Semantic Indexing (LSI) dan metode Naive
bayes.
BAB I PENDAHULUAN
Pada bab pendahuluan, tentang hal – hal yang dibahas yaitu latar
penulisan.
Pada bab ini berisi teori – teori yang digunakan untuk memahami
COVID-19.
yang dibahas pada bab 3 dan hasil penelitian yang dijelaskan pada
BAB VI PENUTUP
Pada Bab penutup ini berisi kesimpulan, saran atau kritik untuk
pengembangan selanjutnya.
BAB II
TINJAUAN PUSTAKA
teknik proses temu kembali dengan menggunakan Vector Space Model (VSM),
Selain itu menurut Alkadri et. Al, 2015 Latent Semantic Indexing (LSI)
adalah algoritma yang melakukan prediksi sebuah kelas berdasarkan pola yang
dihasilkan oleh proses data training yang diciptakan oleh Vladimir Vapnik dan
positif dan negatif. Secara intuitif, suatu garis pembatas yang baik adalah
memiliki jarak terbesar ke titik data pelatihan terdekat dari setiap kelas karena
pada umunya semakin besar margin, semakin redah error generalisasi dari
pemilah. Margin merupakan jarak dari suatu titik vektor di suatu kelas terhadap
hyperplane.
8
9
Keterangan:
probabilitas dan statistik yang dikemukakan oleh seorang ilmuwan Inggris yang
bernama Thomas Bayes. Olson dan Delen (2008) dalam Costa, Fonseca, Santana,
de Araújo, and Rego (2017) menjelaskan bahwa Naïve Bayes untuk setiap class
Akan tetapi, menurut Han dan Kamber (2011) dalam (Ngai, Hu, Wong,
Chen, & Sun, 2011), proses dari metode Naïve Bayes simpel sebagai berikut:
1. Variable D akan menjadi tupple set training dan label yang terkait dengan
kelas. Biasanya, setiap vektor atribut n-dimensi akan mewakili tuple, ini
2. Misalkan pada kasus tersebut ada kelas m, yaitu C1, C2, C3, .... Cm , maka
X tuple milik kelas Ci jika dan hanya jika, terdapat pada persamaan 2.2:
persamaan 2.3:
(2.3)
Dimana:
1. Apabila Probability (X) adalah tetap untuk semua kelas, maka hanya
diketahui, maka biasanya akan dianggap masuk kedalam kelas yang sama,
yaitu P (C1) = P (C2) = P (Cm), maka oleh karena itu akan dimaksimalkan P
(X | Ci). Jika tidak, maka akan dimaksimalkan P (X | Ci) P (Ci). Selalu ingat
bahwa probabilitas class priori dapat prediksi oleh P (Ci) = |Ci,D | / |, dimana
independen satusama lain, maka akan diberikan label class dari tuple,
(2.4)
Oleh karena itu, dengan mudah dapat diperkirakan bahwa probabilitas P(X1|
Ci), P(X2|Ci), ....,P (Xn|Ci) dari pelatihan tuple. Selalu ingat bahwa nilai Xk
mengacu pada nilai atribut Ak untuk X. Juga dilihat untuk semua atribut, apakah
dibawah ini:
class tupple Ci di D memiliki nilai Xk untuk atribut Ak, nilai ini kemudian
pekerjaan, akan tetapi perhitungan nya cukup simpel. Suatu atribut yang
(2.5)
Selanjutnya, dilakukan perhitungan μCi dan σCi, yang mana itu merupakan
setiap kelas Ci. Classifier akan melakukan prediksi class label dari x tuple
(2.6)
Dengan kata lain, class label yang diprediksi merupakan Cidi mana P(X | Ci)
minimal jika dibandingkan dengan classifier yang lainnya. Akan tetapi, dalam
dugaan yang dibuat untuk penggunaannya, misalkan kondisi kelas yang berdiri
eksplisit.
sebuah teks. Sentiment analysis atau opinion mining mengacu pada bidang yang
luas dari pengolahan bahasa alami, komputasi linguistik dan text mining yang
ataupun kegiatan tertentu. (Munawar dan Abdul, 2018) Dampak dari analisis
aplikasi sangat pesat. Bahkan di Amerika ada sekitar 20-30 perusahaan yang
pada opini masyarakat terhadap COVID-19. Hal ini disebabkan oleh beberapa
faktor seperti penulisan kata yang disingkat, penggunaan bahasa modern atau
slang, salah dalam mengetik huruf dan tidak baku dalam penulisan opini calon
teks saat ini adalah text mining. (Budi, 2017) Text mining dapat diolah untuk
Salah satu contoh sentimen terhadap COVID-19 adalah terdapat pada akun
kayak gini, while banyak influencer, selebgram, artis, selebtweet masih bilang
covid isnt real dan hanya konspirasi sambil posting foto ngumpul2 liburan tanpa
263 Likes.
15
oriented dan juga bahasa python adalah bahasa pemrograman tingkat tinggi (High
miliki aturandan format sendiri. Python adalah bahasa pemrograman tingkat tinggi
yang diciptakan oleh Guido Van Rossum di Amsterdam Belandapada tahun 1989
16
(Syaikhuriza, Aliyadi, & Prasetyo, 2018). Sebagai bahasa tingkat tinggi, python
Kemudahan bahasa pemrograman python terdapat pada sintaks nya yang terbilang
II.5. Twitter
Twitter merupakan salah satu sosial media yang sudah populer selama
beberapa tahun belakangan ini. Twitter mampu masuk sebagai salah satu media
sosial yang paling banyak digunakan masyarakat dan bersaing dengan situs besar
Tweet entity atau disebut juga sebagai konten tweet adalah konten/ isi dari
tweet itu sendiri. Tweet entity tersebut adalah: teks dari tweet itu sendiri, hashtag
Data twitter merupakan sumber data yang kaya serta beragam dan dapat di
gunakan untuk mengungkap informasi tentang topik yang kita inginkan. Data ini
yang sedang popular, prediksi, kategorisasi berdasarkan tag atau kata kunci
produk layanan baru. Hal tersebut memicu para programmer atau developer untuk
melimpah yang dimiliki oleh twitter tersebut. Oleh karena itu, twitter
melengkapi library dari twitter API itu sendiri. (Hutagalung, 2018) Pengembang
library untuk berkomunikasi dengan Twitter API. Hasil yang didapat akan
diekstrak dalam bentuk format data JSON yang bisa diolah sebelum disimpan ke
1. OAuth Authentication
18
adalah tahapan yang harus dilalui pengguna untuk dapat masuk ke akun
specific API. Dengan kata lain, ketika kita mulai untuk mengakses API
aplikasi yang akan dibuat atas nama akun pengembang sebagai pengguna.
akses data twitter adalah melalui REST API. REST API menggunakan token
yang akan diperoleh melalui OAuth sehingga sistem yang kita buat akan
Misalnya, kita akan mengakses data status pengguna. REST API dapat
membutuhkan kinerja yang tinggi dan koneksi yang harus selalu ada antara
server dengan twitter. Ada tiga variasi pada twitter streaming API, yakni :
19
a. The Public Stream, hal ini memungkinkan sistem untuk memonitor data
b. The User Stream, hal ini memungkinkan untuk melacak aliran tweet
pihak twitter yang memungkinkan sistem untuk memonitor real-time twitter feeds
untuk sejumlah besar pengguna. Tujuan dari implementasi streaming adalah untuk
melacak peristiwa yang masuk secepat mungkin dan mengolahnya pada suatu
aplikasi tertentu menggunakan REST API untuk mendapatkan data yang lebih
aktivitas dalam sistem yang dibuat dan memantau respon-respon yang ada.
20
Tabel II.1 Penelitian Terkait dengan Algoritma Latent Semantic Indexing Dan Naive Bayes
2 Sisferi Hikmawan, Jurnal Kajian Ilmiah Sentimen Analisis Publik Terhadap Joko Penelitian ini menjadikan kata kunci “Jokowi” dan “Covid” untuk
dkk (2019) (JKI). Vol. 20 No. 2 Widodo Terhadap Wabah COVID-19 mencari sesering apa kata kunci ini dipakai dengan membandingkan
(Mei 2020) Menggunakan Metode Machine tiga metode machine learning, yaitu metode Naive Bayes, Support
Learning Vector Machine dan KNN. Penelitian ini menghasilkan accuracy
84.58%, precision 82.14% dan recall 85.82%.
3 Sutrisno, dkk Jurnal Pengembangan Analisis Sentimen Ulasan Video Pada penelitian ini, pengujian dilakukan sebanyak 19 kali dengan
(2019) Teknologi Informasi Animasi Menggunakan Metode Latent menggunakan masukkan k-rank yang berbeda-beda. Berdasarkan
dan Ilmu Komputer. Semantic Indexing hasil pengujian, sistem ini menghasilkan akurasi optimal di k-rank =
Vol. 3, No. 1, Januari 10 yaitu sebesar 86%.
2019
4 Hilda Rachmi Jurnal Evolusi Volume Penerapan Principal Component Pada penelitian ini, keakuratan yang dihasilkan dari algoritma
(2017) 5 No 2 – 2017. Analysis Dan Genetic Algorithm Pada Support Vector Machine sebesar 86.00%, setelah dioptimalkan
Analisis Sentimen Review Pengiriman dengan menggunakan Principal Component Analysis dan Genetic
Barang Menggunakan Algoritma Algorithm accuracy telah meningkat menjadi 97%.
Support Vector Machine
5 Jenal Abidin Universitas Komputer Pembangunan Kamus Bahasa Indonesia Hasil dari penelitian ini dengan penggabungan algoritma Algoritma
(2017) Indonesia 2017 Kata Tidak Baku Menggunakan Latent Semantic Indexing dan Damerau levenshtein Distance terbukti
Algoritma Latent Semantic Indexing menghasilkan sebuah modul preprocessing teks yang efektif dalam
Dan Damerau levenshtein Distance membangun kamus Bahasa Indonesia kata tidak baku.
6 Andrian Marcus, International Recovering Documentation to Pencarian informasi dengan Latent Semantic Indexing
Jonathan I. Maletic Conference on Source-Code Traceability Links digunakan untuk mengidentifikasi secara otomatis tautan dari
21
METODOLOGI PENELITIAN
III.1. Pendahuluan
Pada bab ini menjelaskan metedologi penelitian apa yang akan digunakan
untuk penyelesaian masalah pada penelitian ini. Pada metedologi penelitian ini
dikaji. Pada proses metedologi penelitian ini dilakukan dengan menggunakan tiga
tahap penelitian yaitu pada Tahap pertama dilakukannya studi literatur yang
diambil dari penelitian – penelitian terdahulu yang sudah ada yang dapat
bagaimana cara dalam menganalisis data yang akan diterapkan terhadap algoritma
yang digunakan. Tahap ketiga yaitu di lakukannya proses pemilihan tools yang
akan digunakan dalam mengimplementasi proses analisa data dan proses uji coba
hasil penelitian
yang akan dibahas. Adapun kerangka kerja penelitian yang di gunakan seperti
22
23
sebagai berikut:
1. Tahap Pertama
a. Mengumpulkan Data
baru.
d. Pengolahan Data
indexing (LSI).
2. Tahap Kedua
a. Memilih Atribut
25
b. Proses Cleaning
terlebih dahulu agar tidak terdapat data noise atau duplicate data, data
c. Proses Transformasi
3. Tahap Ketiga
4. Tahap Keempat
5. Tahap Kelima
6. Tahap Keenam
7. Tahap Ketujuh