Anda di halaman 1dari 19

PENGELOMPOKKAN PERILAKU MASYARAKAT

INDONESIA TERHADAP COVID-19 MENGGUNAKAN


METODE K-NN DENGAN MEDIA TWITTER

Oleh:
RUDY RACHMAN
1815025025

MUHAMMAD RISKI
1815025045

PROGRAM STUDI INFORMATIKA


FAKULTAS TEKNIK
UNIVERSITAS MULAWARMAN

SAMARINDA
2020
PENGELOMPOKKAN PERILAKU MASYARAKAT INDONESIA TERHADAP
COVID-19 MENGGUNAKAN METODE K-NN DENGAN MEDIA TWITTER

ABSTRAK

Pandemi Corona Virus Disease-19 atau yang biasa disebut dengan CoViD-19 telah mengubah pola
perilaku kehidupan masyarakat di dunia. Sektor industri, ekonomi, dan berbagai sektor lainnya terkena
dampak dari pandemi yang berasal dari Wuhan, China ini. Indonesia juga termasuk negara yang paling
merasakan dampak dari pandemi CoViD-19. Masyarakat juga sangat dianjurkan menerapkan protokol
kesehatan seperti menggunakan masker, menjaga jarak sosial sebesar 1-2 meter, dan rajin untuk mencuci
tangan. Dampak tersebut menyebabkan banyak masyarakat yang mengeluh seperti pemasukan berkurang,
bosan di rumah saja, dll., sehingga banyak masyarakat yang menulis keluhannya melalui Twitter. Tujuan
yang ingin dicapai adalah, mengaplisikan metode K-NN untuk mengklasifikasikan perilaku masyarakat
agar bisa membantu mengetahui perilaku masyarakat Indonesia selama menghadapi pandemi. Data dapat
dikumpulkan dengan mudah karena masyarakat selalu aktif menggunakan media sosial tersebut selama
pandemi ini, pengumpulan dilakukan dengan menggunakan API yang telah disediakan oleh Twitter,
dengan 9:1 untuk data train dan data test, total 150 tweet. Metode yang digunakan dalam penelitian ini
adalah K-Nearest Neighbor untuk mengklasifikasi tweet test dari data test atau input pengguna, untuk
pembobotan teks di dataset dan tweet test mengaplikasikan TF-IFD, dan pengghitungan jarak antar titik
untuk menghitung jarak terdekat untuk pengaplikasian menggunakan Manhattan Distance. Pengujian
yang diharapkan adalah dengan mengubah nilai K untuk mendapatkan hasil yang paling optimal, dan
sesuai dengan penilaian yang ada.

Kata kunci: CoViD-19, Indonesia, K-NN, TF-IFD, Perilaku Masyarakat, dan Twitter

2
PENGELOMPOKKAN PERILAKU MASYARAKAT INDONESIA TERHADAP
COVID-19 MENGGUNAKAN METODE K-NN DENGAN MEDIA TWITTER

ABSTRACT

Corona Virus Disease-19 pandemic or we can call it CoViD-19 had changed way to live of people in the
world. Industry, economic, and another sector had affected due pandemic that originated from Wuhan,
China. Indonesia is one of country that really affected from this pandemic. The people really be advised
to use mask, keep distance between 1-2 meter, and wash their hands diligently. That impact caused many
people like their income become reduced, feel really bored because only stay at home, and so on, that is
why many people write their complain at Twitter. This research had main goal to applicate K-NN method
to classify people is behaviour so that can help to know about Indonesian people behaviour when facing
pandemic. Data can be collected easily because many people become more active at that social media
because pandemic, data collected by using API that Twitter has provided, with 9:1 for data train and
data test, total all of data is 150 tweets. Method that used on this research is K-Nearest Neighbor to
classify tweet test from data test or user input, for text weighting at dataset and tweet test we applicate
TF-IFD method, and distance calculation we used Manhattan Distance. The testing result expected by
changing K result to get the most optimal result, and in accordance with existing assessments.

Keywords: CoViD-19, Indonesia, K-NN, TF-IFD, Sentiment Analyse, Twitter

3
KATA PENGANTAR

Puji syukur kepada Tuhan Yang Maha Esa sehingga dapat menyelesaikan proposal
dengan judul “PENGELOMPOKKAN PERILAKU MASYARAKAT TERHADAP
COVID-19 MENGGUNAKAN METODE K-NN DENGAN MEDIA TWITTER”.
Proposal ini disusun sebagai salah satu tahapan dalam menyelesaikan UJIAN AKHIR
MATA KULIAH ETIKA DAN PROFESIONAL INFORMATIKA pada program studi
Informatika Fakultas Teknik, Universitas Mulawarman.
Oleh karena itu, pada kesempatan ini kami ingin mengucapkan terima kasih kepada
semua pihak yang telah mendukung serta membantu kami selama proses penyusunan
proposal, kepada:
1. Orangtua dan saudara-saudara kami atas doa, bimbingan serta kasih sayangnya.
2. Ir. Muhammad Dahlan Balfas, S.T., M.T., selaku Dekan Fakultas Teknik,
Universitas Mulawarman.
3. Dr. Anindita Septiarini, S.T., M.Cs., selaku Plt. Koordinator Program Studi
Informatika
4. Dr. Ir. Hamdani, S.T., M.Cs., IPM., dan Novianti Puspitasari, S.Kom., M.Eng.,
yang selalu memberikan arahan dan masukkan terhadap penelitian ini.
5. Segenap Dosen Program Studi Informatika, yang telah memberikan ilmu
pengetahuan selama mengikuti perkuliahan.
6. Rekan-rekan seperjuangan yang terus memberikan dukungan semangat demi
terselesainya tugas ini.

Kami menyadari bahwa proposal ini tidak luput dari berbagai kekurangan. oleh karena
itu, semua kritik dan saran yang bersifat memperbaiki demi kesempurnaan sangat
diharapkan.

Samarinda, 12:21

Rudy Rachman dan Muhammad Riski


1815025025 dan 1815025045

4
DAFTAR ISI

halaman

ABSTRAK i
ABSTRACT ii
KATA PENGANTAR iii
DAFTAR ISI iv
DAFTAR GAMBAR vi
BAB I PENDAHULUAN 1
1.1. Latar Belakang 1
1.2. Rumusan Masalah 2
1.3. Batasan Masalah 3
1.4. Tujuan Penelitian 3
1.5. Manfaat Penelitian 3
1.6. Kontribusi Penelitian 4
BAB II TINJAUAN PUSTAKA 5
2.1. Penelitian Terkait 5
2.2. Perbedaan Penelitian Sebelumnya 6
2.3. Teori Pendukung 6
2.3.1. Manhattan Distance 6
BAB IIIMETODOLOGI PENELITIAN 7
3.1. Tahapan Pelaksanaan Penelitian 7
3.2. Pengumpulan Data 7
3.3. Perancangan Data 8
3.4. Perancangan Proses 9
3.5. Perancangan Tampilan 12
3.6. Perancangan Pengujian 13
DAFTAR PUSTAKA 14

5
DAFTAR GAMBAR

Gambar 3.1 Tampilan POSTMAN dengan Fitur Recent Search 8


Gambar 3.2 Tampilan Data Training yang Sudah Diberi Label 9
Gambar 3.3 Diagram Alur Proses Pengelompokkan Perilaku Masyarakat dengan
Twitter 11
Gambar 3.4 Diagram Sub Proses Preproses Teks 12
Gambar 3.5 Tampilan dari Rancangan Aplikasi 13

6
7

1 BAB I
PENDAHULUAN

1.1. Latar Belakang

Pandemi Corona Virus Disease-19 atau yang biasa disebut dengan CoViD-19
telah mengubah pola perilaku kehidupan masyarakat di dunia. Sektor industri, ekonomi,
dan berbagai sektor lainnya terkena dampak dari pandemi yang berasal dari Wuhan,
China ini. Indonesia juga termasuk negara yang paling merasakan dampak dari pandemi
CoViD-19. Tanggal 29 Februari hingga 29 Mei 2020, Indonesia mengeluarkan status
darurat bencana (Koesmawardhani, 2020).
Pernyataan tersebut membuat berbagai tempat seperti mall dan jalan menjadi sepi,
tempat nongkrong (kafe, warteg, restoran, dll.) banyak dilarang untuk beroperasi makan
di tempat (dine-in) untuk mengurangi penyebaran CoViD-19. Masyarakat juga sangat
dianjurkan menerapkan protokol kesehatan seperti menggunakan masker, menjaga jarak
sosial sebesar 1-2 meter, dan rajin untuk mencuci tangan. Dampak tersebut
menyebabkan banyak masyarakat yang mengeluh seperti pemasukan berkurang, bosan
di rumah saja, dll., sehingga banyak masyarakat yang menulis keluhannya melalui
Twitter.
Twitter merupakan media sosial yang populer di Indonesia, banyak masyarakat
maya Indonesia yang menggunakan Twitter untuk curhat, melakukan interaksi,
melakukan role-playing, berkeluh kesah, dll. Banyak dampak positif yang bisa kita
dapatkan di Twitter, namun tentu ada dampak negatif juga, seperti Twitter bisa menjadi
tempat untuk menyebarkan berita palsu, ujaran kebencian, pembullian siber, dll.
Berita palsu yang beredar selama masa pandemi semakin marak, sehingga hal
tersebut menyebabkan masyarakat menjadi resah dan tidak percaya terhadap pemerintah
(Buana, 2020). Twitter, walau menjadi tempat persebaran berita palsu dan berbau
negatif, banyak masyarakat menjadikan Twitter sebagai sarana yang sangat baik untuk
memberi dukungan moral terhadap garda terdepan (dokter, tenaga kesehatan, dan
relawan), ajakan untuk mematuhi protokol kesehatan, penekanan dan mengedukasi
masyarakat untuk mengetahui berita palsu yang beredar, dll.
8

Data dapat dikumpulkan dengan mudah karena masyarakat selalu aktif


menggunakan media sosial tersebut selama pandemi ini, pengumpulan dilakukan
dengan menggunakan API (Application Peripheral Interface) yang telah disediakan
oleh Twitter, dengan 9:1, dengan total 150 tweet. Nilai sembilan untuk tweet yang
dipilih dan diberi label untuk data training, dan sisanya untuk tweet yang dipilih secara
acak dipilih untuk data test.
Pengolahan data yang kami lakukan adalah setelah mengumpulkan tweet, kami
akan melakukan berbagai tahap preprosesing kata agar bisa menjadi kata kunci untuk
mengklasifikasi sikap/perilaku masyarakat. Pengelompokkan pada penelitian ini, kami
menggunakan metode K-NN. Metode ini sangat cocok untuk mengklasifikasi perilaku
masyarakat Indonesia apakah masyarakat tersebut termasuk perilaku yang patuh
terhadap protokol kesehatan (positif), atau tidak mematuhi protokol kesehatan, bahkan
mengajak, menyebarluaskan, atau menyampaikan pernyataan yang bersifat palsu
(negatif) (Buana, 2020).
Oleh sebab itu, penelitian ini mengangkat judul “PENGELOMPOKKAN
PERILAKU MASYARAKAT INDONESIA TERHADAP COVID-19
MENGGUNAKAN METODE K-NN DENGAN MEDIA TWITTER” menggunakan
metode K-NN (K-Nearest Neighbors), untuk mengklasifikasi perilaku masyarakat. Hal
ini bertujuan agar dapat mengklasifikasi perilaku masyarakat di Indonesia dari tweet di
Twitter, agar pemerintah bisa mengetahui dan merencanakan langkah yang tepat untuk
meningkatkan kembali moral masyarakat. Penelitian ini juga digunakan untuk
memenuhi tugas akhir mata kuliah Etika Profesi.

1.2. Rumusan Masalah

Berdasarkan latar belakang penelitian, maka yang menjadi rumusan masalah


dalam penelitian ini adalah,
1. Bagaimana melakukan pemrosesan tweet dari Twitter?
2. Bagaimana pengelompokkan dari hasil pemrosesan tweet dengan menggunakan
metode K-NN?
9

1.3. Batasan Masalah

Penelitian ini disusun berdasarkan data-data yang diperoleh. Karena luasnya


bidang yang dihadapi maka ruang lingkup masalah dibatasi sebagai berikut:
1. Data yang kami ambil hanya 150 tweet, yang mana perbandingan untuk data training
dan test adalah 1:9.
2. Metode pemrosesan teks dilakukan dengan menggunakan library yang sudah ada
guna mempercepat proses pemrosesan.

1.4. Tujuan Penelitian

Dalam penelitian ini, tujuan yang ingin dicapai adalah, mengaplisikan metode K-
NN untuk mengklasifikasikan perilaku masyarakat agar dapat digunakan untuk
penelitian lainnya, juga penelitian ini untuk membantu mengetahui perilaku masyarakat
Indonesia selama menghadapi pandemi.

1.5. Manfaat Penelitian

Penelitian ini diharapkan dapat memberikan manfaat pada berbahai pihak,


khususnya:
1. Penulis
Mengembangkan wawasan penulis dalam mengimplementasikan/menerapkan
metode K-NN dalam pengklasfikasian perilaku masyarakat yang digolongkan menjadi
dua yaitu positif (ajakan mengikuti protokol kesehatan, memberi dukungan moral antar
sesama) dan negatif (menyebarkan berita palsu dan membuat resah masyarakat,
membulli, menghina, dll.,).
2. Mahasiswa
Penelitian ini dapat memberikan pengetahuan kepada mahasiswa bagaimana metode
K-NN dapat menyelesaikan masalah pengelompokkan perilaku masyarakat dan menjadi
referensi khususnya bagi mahasiswa di bidang Informatika yang dapat membantu
proses pembelajaran.
10

3. Instansi Pemerintah
Dengan adanya hasil analisa dari penelitian ini, diharapkan menjadi model penerapan
dalam menyelesaikan masalah moral masyarakat dalam menghadapi masalah pandemi
ini. Semoga pandemi ini cepat berlalu dan kembali menjadi kehidupan seperti biasa.

1.6. Kontribusi Penelitian

Dengan adanya hasil analisa penelitian ini diharapkan menjadi model penerapan
pengelompokkan perilaku masyarakat dalam menghadapi situasi pandemi, serta
membantu berbagai penelitian terkait pengelompokkan perilaku masyarakat dalam
menghadapi situasi yang cukup sulit.
11

2 BAB II
TINJAUAN PUSTAKA

2.1. Penelitian Terkait

Dalam rangka mendukung penelitian ini, maka dilakukan kajian dengan


mempelajari penelitian-penelitian terkait yang telah dilakukan sebelumnya. Daftar
penelitian terkait sebagai berikut:
1. K-Nearest Neighbors untuk analisis sentimen pada agen travel, data yang digunakan
pada penelitian tersebut berasal dari situs review travel yaitu
https://www.trustpilot.com/categories/travel_holidays, data terdiri dari 100 review
positif dan 100 review negatif. Pengelompokkan pada penelitian ini adalah
menggunakan nilai AUC-nya. Penelitian ini menggunakan 10-fold cross validation
untuk pengujian model, di mana setiap bagian akan dibentuk secara acak, prinsipnya
adalah 1:9, 1 bagian menjadi data testing dan lainnya akan menjadi data training
menggunakan aplikasi rapidminder. Hasil K-NN di penelitian ini yang paling
optimal adalah menggunakan nilai K=8, dengan nilai accuracy sebesar 87,00% dan
nilai AUC-nya sebesar 0.916 yang artinya nilainya Excellent Classification
(Ernawati dan Wati, 2018).
2. TF-IDF untuk mengetahui syarah hadist, pada penelitian ini metode TF-IDF
digunakan untuk memproses dan memberi bobot nilai pada teks agar teks tersebut
bisa digunakan untuk menghitung kedekatan jarak antar dokumen, dokumen yang
akan diteliti merupakan hadits Bahasa Indonesia yang akan digunakan sebagai
query berserta syarah-nya (sebagai dokumen relevan) yang akan diproses dan
disimpan dalam database MYSQL. Pemrosesan teks dibagi menjadi 3 yaitu
Tokenizing, Stopword Removal, Stemming. Proses selanjutnya yaitu pembobotan
teks dengan menghitung TF-IDF (Melita dkk., 2018).

2.2. Perbedaan Penelitian Sebelumnya


12

Berdasarkan referensi yang terkait, maka didapatkan perbedaan penelitian yang


terdahulu sebagai dasar penelitian ini. Data yang diamati untuk proses K-NN berbeda
dengan penelitian sebelumnya, pada penelitian ini kami menggunakan data yang
dikumpulkan dari API Twitter, terkait CoViD-19 di Indonesia. Klasifikasi pada
penelitian ini juga berbeda dengan peneltian yang menjadi landasan, pada penelitian ini
kami hanya menggunakan dua kelas yaitu positif dan negatif.
Metode TF-IDF tidak akan jauh berbeda untuk pemrosesan dan pemberian bobot
dari penelitian yang menjadi landasan. Objek yang diamati juga berbeda dari
penggunaan TF-IDF.

2.3. Teori Pendukung

Penelitian ini juga menggunakan satu teori pendukung antara lain.

2.3.1. Manhattan Distance


Manhattan Distance merupakan algoritma yang digunakan untuk menghitung
jarak terdekat dari kedua titik. Manhattan Distance pada penelitian ini digunakan untuk
menghitung jarak terdekat sehingga bisa diklasifikasikan apakah tweet yang diuji
termasuk dalam kelas positif atau negatif.
13

3 BAB III
METODOLOGI PENELITIAN

3.1. Tahapan Pelaksanaan Penelitian

Penelitian ini dilakukan dengan dua orang, langkah pertama yang kami lakukan
untuk melakukan penelitian ini adalah kami menentukan masalah yang ingin kami teliti
untuk menyelesaikan tugas akhir Etika Profesi, kemudian kami merangkai latar
belakang subjek penelitian kami, selanjutnya kami melakukan pengumpulan berbagai
landasan teori dari macam jurnal dan hasil yang baik dan cocok untuk penelitian kami
sudah tertulis di Bab II, kami juga menyimpulkan bahwa untuk pengelompokkan
perilaku masyarakat kami bagi menjadi dua yaitu positif untuk tweet seperti ajakan
untuk melakukan protokol kesehatan, berita yang tidak hoax (informatif), dorongan
moral untuk tenaga medis, dokter, relawan, bahkan antar sesama, dll., dan untuk negatif
seperti menyebarkan berita palsu, cyber bullying, ajakan untuk tidak mematuhi protokol
kesehatan, dll.
Langkah berikutnya kami melakukan pengumpulan data. Data yang dikumpulkan
menggunakan API yang sudah disediakan oleh Twitter, data tersebut kami cari
menggunakan berbagai macam kata kunci/keywords yang berkaitan dengan CoViD-19,
kemudian data tersebut diproses dengan metode tertentu, dan melakukan pemberian
label untuk data training, karena data yang kami peroleh dari Twitter tidak memiliki
label yang positif dan negatif. Kami mulai mengolah data setelah mendapatkan data
yang sesuai dengan batasan dan menerapkan metode yang sudah tertulis di bab
sebelumnya.

3.2. Pengumpulan Data

Pengumpulan data dilakukan dengan menggunakan API yang telah disediakan di


Twitter. Proses pengambilan data, kami menggunakan aplikasi POSTMAN. Aplikasi
tersebut akan melakukan request GET terhadap Twitter untuk mendapatkan informasi-
informasi terkait pencarian. API Twitter yang kami gunakan adalah Twitter API v2.
14

API tersebut merupakan API yang masih dalam versi Beta, namun memiliki fitur
yang cukup memuaskan seperti pengumpulan/pengambilan informasi dari Twitter
dengan keyword tertentu. Keyword yang kami gunakan di pencarian Gambar 3.1 adalah
“Covid Indonesia”.

Gambar 3.1 Tampilan POSTMAN dengan Fitur Recent Search

3.3. Perancangan Data

Perancangan data dilakukan setelah, mengumpulkan total seluruh data training.


Data tersebut setelah diambil dari POSTMAN, kami mengolah data tersebut agar bisa
diakses dalam bentuk CSV. Kami menggunakan perintah program sederhana untuk
mengambil bagian “text” saja dari JSON (format file dari POSTMAN), kemudian kami
memberi label pada data CSV untuk menjadi data training dengan menggunakan
aplikasi Microsoft Excel. Label untuk data positif adalah satu (1) dan untuk negatif
adalah nol (0).
15

Gambar 3.2 Tampilan Data Training yang Sudah Diberi Label

3.4. Perancangan Proses

Setelah data terkumpul dan terproses ke CSV. Kami mulai melakukan pemrosesan
data dengan melakukan preprosesing teks terlebih dahulu. Terdapat 3 tahapan dalam
preprosesing teks di penelitian kami, antara lain
1. Tokenizer, berfungsi untuk mengubah teks menjadi lower case (huruf kecil),
menghapus tanda baca dan angka, tag user lain pada tweet, tulisan RT, dan
memisahkan kata-kata tersebut menjadi array/larik,
2. Stopword Removal/Filtering, berfungsi untuk menghapus kata-kata tidak penting
pada deskripsi, seperti di, ke, dan, dll., kemudian kata tersebut dihilangkan dari
array/larik penyimpanan kata yang diproses,
3. Stemming, berfungsi untuk mengubah kata-kata yang tidak baku menjadi baku
(sesuai dengan KBBI), semisal kata yang disingkat, imbuhan, berulangan, dll.,
contoh seperti kata mmg menjadi memang, mhn menjadi mohon, kadang-kadang
menjadi kadang, mf menjadi maaf, dll.
Kata yang sudah dipreprosesing akan dihitung bobotnya dengan menggunakan
metode TF-IDF. Persamaan dari TF-IDF antara lain.
16

Keterangan dari persamaan di atas adalah


 Bobot kriteria dari dokumen (per baris dataset) di i (), kata (),
 Frekuensi dari suatu kata yang muncul dalam satu dokumen,
 Jumlah seluruh dokumen yang ada,
 Total dokumen yang memiliki kata tersebut.
Bobot dari kata yang didapat dari metode TF-IDF akan menjadi poin penting
untuk menghitung jarak, agar data test bisa diketahui kelasnya. Penghitungan jarak
antara data test dan train menggunakan Manhattan Distance, persamaannya antara lain,

Keterangan:
 jarak dari nilai dataset ke datatest,
 nilai di dataset,
 nilai di datatest,
Urutkan data jarak dari yang terdekat ke terjauh, dan tetapkan nilai K agar
menghasilkan hasil yang paling optimal. Aliran proses bisa dilihat di Gambar 3.3 dan
Gambar 3.4.
17

Gambar 3.3 Diagram Alur Proses Pengelompokkan Perilaku Masyarakat dengan Twitter
18

Gambar 3.4 Diagram Sub Proses Preproses Teks

3.5. Perancangan Tampilan

Tampilan yang akan kami buat adalah dari text pane sederhana untuk menginput
satu tweet test (selain dari data test), button untuk melakukan pengelompokkan perilaku
masyarakat dengan tweet test dengan dataset, dan satu text box untuk melihat hasil
output kelasnya, dapat dilihat di Gambar 3.5. Tampilan dari output data test, akan
ditampilkan secara CLI (Command-Line Interface).
19

Gambar 3.5 Tampilan dari Rancangan Aplikasi

3.6. Perancangan Pengujian

Skenario pengujian akan dilakukan dengan menggunakan perubahan nilai K. Nilai


K yang kisarannya antara 1-10, untuk mencari nilai paling optimal, dan menilai hasil
apakah sesuai dengan penilaian yang ada.

Anda mungkin juga menyukai