Muhammad Ilham Ramadhon

ANALISIS SENTIMEN TERHADAP PEMINDAHAN
IBU KOTA INDONESIA PADA MEDIA SOSIAL

TWITTER MENGGUNAKAN METODE ALGORITMA
K-NEAREST NEIGHBOR (K-NN)
SKRIPSI
Oleh
Muhammad Ilham Ramadhon
11140910000103
PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF
HIDAYATULLAH JAKARTA
2020 M / 1441 H
ANALISIS SENTIMEN TERHADAP PEMINDAHAN
IBU KOTA INDONESIA PADA MEDIA SOSIAL
TWITTER MENGGUNAKAN METODE ALGORITMA
K-NEAREST NEIGHBOR (K-NN)
SKRIPSI
Untuk Memenuhi Persyaratan Memperoleh Gelar Sarjana Komputer
Fakultas Sains dan Teknologi
Disusun Oleh :
11140910000103
PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS ISLAM NEGERI SYARIF
HIDAYATULLAH JAKARTA
2020 M/1441 H
PERNYATAAN ORISINALITAS
i
UIN SYARIF HIDAYATULLAH JAKARTA
LEMBAR PERSETUJUAN PEMBIMBING
“ANALISIS SENTIMEN TERHADAP PEMINDAHAN IBU

KOTA INDONESIA PADA MEDIA SOSIAL TWITTER
MENGGUNAKAN METODE ALGORITMA K-NEAREST
NEIGHBOR (K-NN)”
SKRIPSI
Sebagai Salah Satu Syarat Untuk

Memperoleh Gelar Sarjana Komputer (S.Kom)
Oleh :

11140910000103
Menyetujui,
Dosen Pembimbing I, Dosen Pembimbing II,
Arini, MT Fitri Mintarsih, M.Kom
NIP. 19760131 200901 2 001 NIP. 197212233 200710 2 004
Mengetahui,
Ketua Program Studi Teknik Informatika
Dr. Imam Marzuki Shofi, M.T.
NIP. 19720205 200801 1 010
ii
LEMBAR PENGESAHAN
Skripsi berjudul “Analisis Sentimen Terhadap Pemindahan Ibu Kota Indonesia

Pada Media Sosial Twitter Menggunakan Metode Algoritma K-Nearest
Neighbor (K-NN)” yang ditulis oleh Muhammad Ilham Ramadhon, NIM
11140910000103 telah diujikan dalam sidang munaqasyah Fakultas Sains dan
Teknologi UIN Syarif Hidayatullah Jakarta pada 10 Februari 2020. Skripsi ini telah
diterima sebagai salah satu syarat memperoleh gelar Sarjana Komputer (S.Kom)
pada Program Studi Teknik Informatika.
Jakarta, 10 Februari 2020
Tim Penguji,
Penguji I, Penguji II,
Dewi Khairani, M.Sc Fenty Eka Muzayyana A, M.Kom
NIP. 19820522 201101 2 009 NIP. 19760805 200912 2 003
Tim Pembimbing,
Dosen Pembimbing I, Dosen Pembimbing II,
Arini, MT Fitri Mintarsih, M.Kom
NIP. 19760131 200901 2 001 NIP. 19721223 200710 2 004
Mengetahui
Dekan Ketua Program
Fakultas Sains dan Teknologi Studi Teknik Informatika,
Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud Dr. Imam Marzuki Shofi, M.T.
NIP. 19690404 200501 2 005 NIP. 19720205 200801 1 010
iii
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI
iv
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Allah SWT, karena atas nikmat dan
rahmat-Nya sehingga penulis dapat menyeselaikan skripsi ini. Penulisan skripsi ini
dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai salah satu
syarat untuk mencapai gelar Sarjana Komputer Program Studi Teknik Informatika
Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.
Proses penyeselaian skripsi ini tidak lepas dari berbagai bantuan, dukungan, saran,
dan kritik yang telah penulis dapatkan, oleh karena itu dalam kesempatan ini
peneliti ingin mengucapkan terima kasih kepada:
1. Kedua orang tua penulis, yaitu Bapak Senen dan Ibu Siti Wachidah serta
keluarga besar yang telah mencurahkan kasih saying dan selalu memberikan
dukungan penuh serta iringan do’a kepada penulis dalam menyeselaikan
skripsi ini.
2. Ibu Prof. Dr. Lily Surraya Eka Putri. M.Env.Stud, selaku Dekan Fakultas
Sains dan Teknologi
3. Bapak Imam Marzuki Shofi, M.T., selaku ketua Program Studi Teknik
Informatika, serta Bapak Andrew Fiade M.Kom., selaku sekretaris Program
Studi Teknik Informatika
4. Ibu Arini, MT selaku dosen pembimbing satu.
5. Ibu Fitri Mintarsih, M.Kom selaku dosen pembimbing kedua.
6. Seluruh Dosen, Staff Karyawan Fakultas Sains dan Teknologi, khususnya
Program Studi Teknik Informatika yang telah memberikan bantuan dan
kerjasama dari awal perkuliahan.
7. Teman-teman seperjuangan Teknik Informatika CCIT angkatan 2014
khusunya TI-A, dan TI-B. Terima kasih buat semua kenangan dan
kebersamaan selama ini.
8. Sahabat baik, teman berbagi cerita, canda tawa bersama semasa kuliah, yaitu:
Azhar, Amir, M. Taufik, Desy, Adi, dan Mahdi.
9. Teman-teman yang memberikan support dan semangat selalu, yaitu warsep
family.
v
10. Seluruh pihak yang secara langsung maupun tidak langsung membantu
penulis dalam menyelesaikan skripsi ini.
Akhir kata, penulis menyadari bahwa dalam penyajian skripsi ini masih jauh
dari sempurna. Apabila ada kebenaran dari makalah ini maka kebenaran tersebut
datangnya dari Allah SWT, tetapi apabila ada kesalahan dalam makalah ini maka
kesalahan ini berasal dari penulis. Semoga Allah SWT meridhoi segala usaha kita.
Wassalamualaikum Wr. Wb
Jakarta, 10 Februari 2020

11140910000103
vi
Nama : Muhammad Ilham Ramadhon
Program Studi : Teknik Informasi
Judul : Analisis Sentimen Komentar Terhadap Pmindahan
Ibu Kota Indonesia Pada Media Sosial Twitter
Menggunakan Metode Algoritma K-Nearest
Neighbor (K-NN)
ABSTRAK
Analisis sentimen merupakan jenis natural language yaitu pengolahan kata untuk
mengetahui opini, sikap atau mood masyarakat tentang suatu hal tertentu.
Pengolahan kata dalam penelitian ini berkaita dengan proses klasifikasi dokumen
tekstual ke dalam sentimen positif dan sentimen negatif. Data diperoleh dari media
sosial twitter berkaitan dengan komentar masyarakat terhadap pemindahan ibu kota
Indonesia dari Jakarta ke Kalimantar Timur dengan keyword ibu kota baru,
pemindahan ibu kota, dan ibu kota pindah sebanyak 1.000 komentar menggunakan
teknik crawling data. Pada penelitian ini penulis menggunakan algoritma K-Nearest
Neighbor (K-NN) dalam melakukan pengklasifikasian terhadap data uji dan data
latih menggunakan pendekatan lexicon dalam klasifikasi data uji. Penelitian ini
bertujuan untuk mengetahui tingkat akurasi, error rate, presisi, f-measure, dan
recall dengan menggunakan algoritma K-Nearest Neighbor (K-NN). Pengujian juga
dilakukan terhadap penentuan nilai k pada algoritma K-Nearest Neighbor (K-NN)
untuk mencari parameter terbaik. Kesimpulan dari pada pengambilan data pertama
pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik
yaitu sebesar 62% dengan nilai k adalah k=9. Pada pengambilan data kedua
pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik
yaitu sebesar 64% dengan nilai k adalah k=5. Saran untuk peneliti selanjutnya dapat
mengembangkan teks selain bahasa Indonesia dan dapat mengklasifikasi yang
mengandung gambar. Lalu peningkatan koleksi kamus, ekstraksi fitur bigram,
trigram, quadgram dan seterusnya. Kemudian dalam fitur hitung akurasi dapat
menggunakan metode algoritma lain.
Kata kunci : Analisis Sentimen, Perbandingan, Twitter, klasifikasi, K-

Nearest Neighbor (K-NN), Lexicon.
Daftar Pustaka : 24 (2003 - 2018)
Jumlah Halaman : VI BAB + xv Halaman + 106 Halaman + 19 Gambar + 45
Tabel
vii
Name : Muhammad Ilham Ramadhon
Study Program : Informatics Engineering
Title : Analysis Sentimen Comment of Indonesian Capital
Movements on Twitter Sosial Media Using the K-
Nearest Neighbor (K-NN)
ABSTRACT
Sentimen Analysis is a type of natural language that is word processing to find out
people's opinions, attitudes or moods about a particular thing. Word processing in
this study is related to the process of classifying textual documents into positive and
negatif sentimens. Data obtained from sosial media Twitter related to netizens'
comments on moving the Indonesian capital from Jakarta to East Kalimantan with
the keyword new capital, moving capital, and moving the capital of 1.000 comments
using data crawling techniques. In this study the authors to classification the
performance of the K-Nearest Neighbor (K-NN) and training data using the lexicon
approach in the classification of test data. This study aims to determine the level of
accuracy, precision, recall by using the K-Nearest Neighbor (K-NN). Testing is also
carried out on determining the value of k on the K-Nearest Neighbor (K-NN)
algorithm to find the best parameters. The conclusion of the first data collection
testing the K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy
that is equal to 62% with the value of k is k = 9. In taking the second data testing
K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy that is equal
to 64% with the value of k is k = 5. Suggestions for future researchers can develop
texts other than Indonesian and can classify those containing images. Then an
increase in dictionary collections, feature extraction of bigram, quadgram,
trigrams and so on. Then the accuracy calculation feature can use other algorithm
methods.
Keywords :Sentimen analysis, Comparison, Twitter, Classification, K-

Nearest Neighbor (K-NN), Lexicon.
Bibliography : 24 (2003-2018)
Page Number : VI Chapters + xv Pages + 106 Pages + 19 Pictures + 45
Tables
viii
DAFTAR ISI
LEMBAR PERSETUJUAN PEMBIMBING ...................................................... i
LEMBAR PENGESAHAN ................................................................................. iii
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI.............................. iv
KATA PENGANTAR ............................................................................................v
ABSTRAK ........................................................................................................... vii
ABSTRACT ......................................................................................................... viii
DAFTAR ISI ......................................................................................................... ix
DAFTAR GAMBAR .......................................................................................... xiii
DAFTAR TABEL .............................................................................................. xiv
BAB I PENDAHULUAN .......................................................................................1
1.1 Latar Belakang ......................................................................................... 1
1.2 Rumusan Masalah .................................................................................... 6
1.3 Batasan Masalah ....................................................................................... 6
1.3.1 Proses ................................................................................................ 6
1.3.2 Metode............................................................................................... 7
1.3.3 Tools .................................................................................................. 7
1.4 Tujuan Penelitian ...................................................................................... 7
1.5 Manfaat Penelitian .................................................................................... 7
1.6 Metodologi Penelitian .............................................................................. 8
1.6.1 Pengumpulan Data ............................................................................ 8
1.6.2 Analisis Pengembangan Sistem ........................................................ 8
1.7 Sistematika Penulisan ............................................................................... 9
ix
BAB II LANDASAN TEORI ..............................................................................10
2.1 Analisis Sentimen ................................................................................... 10
2.1.1 Level Analisis Sentimen ................................................................. 10
2.2 Pemindahan Ibu Kota ............................................................................. 11
2.3 Twitter .................................................................................................... 12
2.3.1 Twitter API ..................................................................................... 14
2.3.2 Sentimen Analisis pada Twitter ...................................................... 15
2.3.3 Struktur Data Twitter ...................................................................... 15
2.4 Natural Language Proccessing (NLP) ................................................... 16
2.5 Emosi ...................................................................................................... 17
2.6 Text Mining............................................................................................. 19
2.7 Pre-proccessing ...................................................................................... 21
2.8 Klasifikasi ............................................................................................... 22
2.9 Metode Lexicon ...................................................................................... 23
2.9.1 Kamus Lexicon ................................................................................ 24
2.10 Metode K-Nearest Neighbour (K-NN) ................................................... 26
2.11 Confussion Matrix .................................................................................. 28
2.12 Metode Simulasi ..................................................................................... 29
2.12.1 Problem Formulation ...................................................................... 30
2.12.2 Conceptual Model ........................................................................... 30
2.12.3 Collection of Input/Output Data ...................................................... 31
2.12.4 Modelling Phase.............................................................................. 31
2.12.5 Simulation Phase............................................................................. 31
2.12.6 Verification, Validation and Experimentation ................................ 32
x
2.12.7 Output Analysis Phase .................................................................... 32
2.13 Studi Literatur ......................................................................................... 32
2.14 Studi Pustaka .......................................................................................... 39
BAB III METODE PENELITIAN .....................................................................40
3.1 Metode Pengumpulan Data .................................................................... 40
3.1.1 Studi Pustaka ................................................................................... 40
3.1.2 Studi Literatur ................................................................................. 40
3.1.3 Observasi ......................................................................................... 40
3.2 Metode Simulasi ..................................................................................... 41
3.2.1 Problem Formulasi (Formulasi Masalah) ....................................... 41
3.2.2 Conceptual Model (Pemodelan Konsep) ........................................ 42
3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau

Keluaran Data) .............................................................................................. 42
3.2.4 Modelling Phase (Tahap Permodelan) ........................................... 43
3.2.5 Simulation Phase (Tahap Simulasi) ................................................ 43
3.2.6 Conclusion (Verification, Validation, and Experimentation) ......... 43
3.2.7 Output Analysis Phase (Fase Analisa Hasil) .................................. 43
3.3 Skenario Pengujian ................................................................................. 44
3.4 Alur Penelitian ........................................................................................ 44
BAB IV IMPLEMENTASI ................................................................................46
4.1 Problem Formulation ............................................................................. 46
4.2 Conceptual Model .................................................................................. 46
4.2.1 Conceptual Model Text Mining....................................................... 46
xi
4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon
......................................................................................................... 48
4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN 49
4.3 Collection Input/Output Data ................................................................. 51
4.4 Modelling Phase ..................................................................................... 52
4.4.1 Konstruksi Pendekatan Lexicon ...................................................... 52
4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual ....................... 55
4.5 Simulation Phase .................................................................................... 81
4.5.1 Tahap Pengujian Data Uji ............................................................... 82
4.6 Verification, Validation and Experimentation ....................................... 83
4.7 Output Analysis Phase............................................................................ 83
BAB V HASIL DAN PEMBAHASAN ...............................................................84
5.1 Verification, Validation and Experimentation ....................................... 84
5.2 Output Analysis Phase............................................................................ 85
5.2.1 Analisis Sentimen Komentar Mengenai Pemindahan Ibu Kota

Indonesia Menggunakan Metode Algoritma K-NN ....................................... 85
5.2.2 Analisis Implementasi Dan Kinerja Dari Metode Algoritma K-NN 85
BAB VI KESIMPULAN DAN SARAN..............................................................95
6.1 Kesimpulan ............................................................................................. 95
6.1 Saran ....................................................................................................... 95
DAFTAR PUSTAKA ...........................................................................................96
LAMPIRAN ..........................................................................................................98
xii
DAFTAR GAMBAR
Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia
Indonesia) .............................................................................................................. 12
Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger,
2007) ..................................................................................................................... 20
Gambar 3. 1 Tahapan Pengambilan Data Twitter ................................................. 41
Gambar 3. 2 Alur Penelitian.................................................................................. 45
Gambar 4. 1 Contoh Case Folding ....................................................................... 46
Gambar 4. 2 Contoh Filtering ............................................................................... 47
Gambar 4. 3 Contoh Tokenizing ........................................................................... 47
Gambar 4. 4 Contoh Normalisasi .......................................................................... 47
Gambar 4. 5 Contoh Stopword .............................................................................. 48
Gambar 4. 6 Contoh Stemming ............................................................................. 48
Gambar 4. 7 Proses Case Folding ......................................................................... 49
Gambar 4. 8 Proses Filtering ................................................................................ 50
Gambar 4. 9 Proses Tokenizing ............................................................................. 50
Gambar 4. 10 Proses Normalisasi ......................................................................... 50
Gambar 4. 11 Proses Stopwords ........................................................................... 50
Gambar 4. 12 Proses Stemming ............................................................................. 50
Gambar 4. 13 Hasil Crawling Data ....................................................................... 52
Gambar 5. 1 Grafik K-NN Data I .......................................................................... 91
Gambar 5. 2 Grafik K-NN Data II ........................................................................ 92
xiii
DAFTAR TABEL
Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia) ..... 2
Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015) ........... 12
Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001) ........ 18
Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012) .................................................. 22
Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM ...................................... 27
Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012) ..................................... 29
Tabel 2. 6 Studi Literatur Sejenis .......................................................................... 35
Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya ................................. 37
Tabel 4. 1 Tokenizing ............................................................................................ 53
Tabel 4. 2 Normalisasi .......................................................................................... 54
Tabel 4. 3 Identifikasi Setiap Kata Pada Query .................................................... 54
Tabel 4. 4 Dokumen data latih .............................................................................. 55
Tabel 4. 5 Hasil case folding pada data latih ........................................................ 56
Tabel 4. 6 Filtering ............................................................................................... 57
Tabel 4. 7 Hasil Tokenizing pada data latih .......................................................... 57
Tabel 4. 8 Hasil normalisasi pada data latih ......................................................... 58
Tabel 4. 9 Hasil stopwords data latih .................................................................... 59
Tabel 4. 10 Hasil Stemming Pada Data Latih ....................................................... 60
Tabel 4. 11 Hasil proses indexing ......................................................................... 60
Tabel 4. 12 Hasil pembobotan kata tf.................................................................... 62
Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi) ................................. 64
Tabel 4. 14 Query Uji............................................................................................ 69
Tabel 4. 15 Tokenizing Data Uji ........................................................................... 69
Tabel 4. 16 Normalisasi Data Uji .......................................................................... 69
Tabel 4. 17 Stopwords Data Uji ............................................................................ 69
Tabel 4. 18 Stemming Data Uji ............................................................................. 69
Tabel 4. 19 Query Uji............................................................................................ 70
Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih ................................. 70
Tabel 4. 21 Hasil perkalian skalar antara query dan data latih ............................. 75
Tabel 4. 22 Hasil panjang setiap dokumen ........................................................... 78
xiv
Tabel 4. 23 Cosine Similarity ................................................................................ 80
Tabel 4. 24 Hasil Perhitungan Tabel ..................................................................... 81
Tabel 4. 25 Faktor-faktor dalam proses simulasi .................................................. 81
Tabel 4. 26 Pengujian I ......................................................................................... 82
Tabel 4. 27 Pengujian II ........................................................................................ 83
Tabel 5. 1 Hasil akurasi K-NN dengan k = 1 ........................................................ 86
Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9 ....................................................... 87
Tabel 5. 5 Hasil akurasi K-NN dengan k =10 ....................................................... 87
Tabel 5. 10 Hasil akurasi K-NN dengan k =10 ..................................................... 90
Tabel Lampiran 1 Hasil Data Pertama .................................................................. 98
Tabel Lampiran 2 Hasil Data Kedua.................................................................. 101
xv
BAB I
PENDAHULUAN
1.1 Latar Belakang
Ibu kota dalam Kamus Besar Bahasa Indonesia (KBBI) adalah kota tempat
kedudukan pusat pemerintahan suatu negara, tempat dihimpun unsur administratif,
yaitu eksekutif, legislatif dan yudikatif. Dalam praktik pemerintahan, hampir setiap
tingkatan administrasi pemerintahan memiliki ibu kota dan pada kenyataannya di
beberapa negara, pusat pemerintahan tidak berkedudukan di ibu kota. Sehingga, ibu
kota adalah kota atau munisipalitas penting atau utama di sebuah negara, negara
bagian, provinsi, atau wilayah administratif lainnya, yang menjadi pusat
administrasi pemerintahan.
Secara konstitusional, Jakarta ditetapkan sebagai ibu kota Indonesia melalui
undang-undang Nomor 10 Tahun 1964. Jakarta telah menjadi pusat pemerintahan
sejak masih benama Batavia pada masa Hindia Belanda Pada awal abad ke-20 ada
upaya lebih pemerintah Hindia Belanda untuk mengubah lokasi ibu kota Batavia ke
Bandung, walaupun gagal karena depresi besar dan perang dunia II. Kemudian
setelah menjadi wacana selama puluhan tahun, Presiden Joko Widodo
mengumumkan pemindahan ibu kota negara ke Kalimantan Timur pada tahun
2019.
Usulan pemindahan ibu kota Indonesia dari Jakarta ke lokasi lainnya telah
didiskusikan sejak kepresidenan Soekarno hingga Susilo Bambang Yudhoyono
untuk membuat ide pusat politik dan administrasi baru, karena masalah lingkungan
dan overpopulasi Jakarta. Ada tiga pedapat utama proposal ini :
 Pindahkan ibu kota resmi, seperti Brasil memindahkan ibu kotanya dari Rio de
Janerio ke Brasilia.
 Pisahkan pusat administratif dan Jakarta masih menjadi ibu kota resmi, seperti
Malaysia memindahkan pusat administrasinya ke Putrajaya.
 Jakarta masih tetap sebagai ibu kota dan pusat administatif.
Akan tetapi lokasi ibu kota sudah beberapa kali berpindah tempat saat pada
zaman dahulu saat Belanda melakukan agresi militer sehingga ibu kota beberapa
1
2
kali sempat dipindahkan ke kota yang lebih aman.Ini beberapa urutan tabel sejarah
ibu kota Indonesia, yaitu :
Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia)
Tanggal Ibu kota Catatan

17 Agustus 1945 Jakarta Proklamasi kemerdekaan Indonesia dilaksanakan
oleh Soekarno dan Mohammad Hatta di Jalan
Pengangsaan Timur No. 56, Jakarta. Sejak saat itu,
Jakarta menjadi ibu kota Republik Indonesia secara
de facto.
4 Januari 1946 Yogyakarta Jakarta diduduki oleh Netherlands Indies Civil
Administration (NICA) sehingga ibu kota negara
harus dipindahkan ke Yogyakarta. Pemerintah
Republik Indonesia melakukan pemindahan secara
diam-diam pada tengah malam dengan
menggunakan kereta api
19 Desember 1948 Bukit Yogyakarta diserang oleh pasukan militer Belanda
Tinggi dalam Agresi Militer Belanda II, sehingga Presiden
Soekarno dan Wakil Presiden Mohammad Hatta
ditangkap dan diasingkan di Pulau Bangka.
Sjafruddin Prawiranegara mendapat amanat untuk
membentuk pemerintahan darurat di Bukit Tinggi
yang dikenal dengan Pemerintahan Darurat Republik
Indonesia (PDRI).
6 Juli 1949 Yogyakarta Soekarno dan Hatta kembali dari pengasingan ke
Yogyakarta. Sjafruddin Prawiranegara
mengembalikan amanat pemerintahan negara dan
membubarkan PDRI secara resmi pada 13 Juli 1949.
Yogyakarta kemudian menjadi ibu kota Republik
Indonesia, yang merupakan negara bagian dari

3
Republik Indonesia Serikat (RIS) yang dibentuk

pada 27 Desember 1949.
17 Agustus 1949 Jakarta RIS dibubarkan dan Jakarta kembali menjadi ibu
kota Republik Indonesia secara de facto.
28 Agustus 1961 Jakarta Jakarta secara de jure menjadi ibu kota Indonesia
dengan keluarnya Peraturan Presiden Nomor 2
Tahun 1961. Status sebagai ibu kota negara tersebut
diperkuat melalui Undang-Undang Nomor 10 Tahun
1964.
26 Agustus 2019 Jakarta Presiden Joko Widodo mengumumkan pemindahan
ibu kota Indonesia ke Kalimantan Timur. Ibu kota
baru tersebut akan dibangun di antara Kabupaten
Kutai Kartanegara dan Kabupaten Penajam Paser
Utara, dan ditargetkan mulai dapat digunakan pada
tahun 2024.
Melalui rapat terbatas pemerintah pada tanggal 29 April 2019, Presiden Joko
Widodo memutuskan untuk memindahkan ibu kota negara ke pulau Kalimantan.
Pemindahan ibu kota ini tertuang dalam rencana pembangungan jangka menengah
nasional 2020-2024. Pada 26 Agustus 2019, Presiden Joko Widodo mengumumkan
ibu kota baru akan dibangun di wilayah administratif Kabupaten Penajam Paser
Utara dan Kabupaten Kutai Kartanegara, Kalimantan Timur.
Menurut Presiden Joko Widodo dipilihnnya Kabupaten Penajam Paser Utara
dan Kabupaten Kutai Kartanegara, Kalimantan Timur, yaitu:
 Resiko bencana kecil terjadi, seperti : bencana banjir, gempa bumi, tsunami,
kebakaran hutan, dan gunung berapi.
 Lokasi geografi berada di tengah kepulauan Indonesia,
 Yang mana dekat dengan wilayah kota yang berkembang, yaitu Balikpapan dan
Samarinda.
 Lahan sudah dikuasai pemerintah 180 ribu hektar.

4
Dengan fenomena pemindahan ibu kota Indonesia tersebut, para masyarakat

banyak yang memberi tanggapan setuju maupun tanggapan bersifat tidak setuju
yang dipublikasikan di berbagai media sosial, salah satunya adalah Twitter.
Twitter adalah tempat yang tepat berbagi ide, bank gagasan, tempat
mengumpulkan informasi, untuk microblogging mengalami banyak perkembangan,
terhitung pada 2018 Twitter menyebutkan ada 126 juta pengguna aktif setiap
harinya selama kuartal empat (Q4). Rata-rata jumlah pengguna harian di Q4 adalah
126 juta, naik sembilan persen dari tahun ke tahun. Banyak pengguna yang
melakukan posting ekspresi dan pendapat mereka terhadap sebuah produk layanan,
isu-isu politik atau hal-hal yang sedang viral.
Data yang dirilis oleh Asosiasi Penyelenggara Jasa Internet Indonesia (APJII)
menyatakan bahwa pengguna aktif Twitter di Indonesia di 2018 mencapai 1,7 %
(2.9 juta). Berdasarkan data tersebut Twitter berada pada posisi kelima. Terdapat
beberapa media sosial lainnya yang paling sering digunakan di Indonesia antara lain
Facebook sebanyak 50,7% (86,7 juta), Instagram sebanyak 17,8% (30,4 juta),
Youtube sebanyak 15,1% (25,5 juta), dan Linked sebanyak 0,4% (684 Ribu).
Twitter memungkinkan pengguna untuk berbagi pesan menggunkan teks pendek
yang disebut dengan tweet.
Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu
hal, baik memuji ataupun mencela. Emosi dapat dikelompokkan menjadi emosi
positif dan emosi negatif. Emosi manusia dapat dikategorikan menjadi lima emosi
dasar yaitu cinta, senang, sedih, marah dan takut. Emosi cinta dan senang termasuk
kedalam emosi positif. Emosi sedih, marah, dan takut merupakan emosi negatif
(Shaver & Fraley, 2001).
Dengan Twitter salah satu media sosial yang sering kali digunakan banyak
orang dalam memberikan pendapatnya tentang berbagai hal tidak terkecuali
masyarakat yang memberikan pendapatnya akan fenomena pemindahan ibu kota
Indonesia. Masyarakat memberikan pendapat setuju maupun tidak setuju dengan
berbagai alasan yang diungkapkan melalui cuitan di dalam Twitter.
Twitter berfokus pada pengembangan pendekatan analisis sentimen yang
dirancang khusus untuk tweet. Analisis sentimen pada Twitter dilakukan untuk

5
melihat pendapat atau kecenderungan opini terhadap nilai akurasi. Akurasi dihitung
dengan menghitung persentasi jumlah data latih dan data uji.
Solusi algoritma klasifikasi yang peneliti gunakan adalah K-Nearest
Neighbor. Peneliti memilih K-Nearest Neighbor karena penelitian sudah
melakukan tinjauan pustaka dari beberapa metode sejenis sebelumnya, diantaranya
adalah sebagai berikut : Penelitian yang dilakukan oleh Azhar, 2018, analisis
kinerja algoritma Naïve Bayes dan K-Nearest Neighbor pada sentimen analisis
dengan pendekatan lexicon. Sosial media yang diambil sentimennya adalah Twitter
API. Proses NLP yang digunakan adalah case folding, filtering, tokenizing,
normalisasi, stopwords, dan stemming. Dengan mempunyai kelebihan yaitu nilai K-
NN pada tingkat akurasi k=5 dengan tingkat akurasi mencapai 77%
Penelitian yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian
analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah sebesar
74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa algoritma K-NN
merupakan metode yang sesuai dengan klasifikasi text dan memiliki performa yang
tinggi.
Penelitian yang dilakukan oleh Nurjanah, Perdana &Fauzi, 2017, analisis
sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada media
sosial twitter mengggunakan K-NN. Sosial media yang diambil sentimennya adalah
Twitter API. Proses NLP yang digunakan adalah tokenizing, case folding,
cleansing, filterisasi, dan stemming. Dengan mempunyai kelebihan yaitu Tingkat
akurasi pembobotan tekstual mencapai 82,50% dan non-tekstual 60% sedangkan
gabungan keduanya mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang
merupakan k optimal, dan konstanta α=0,8 dan β=0,2 %..
Adapun beberapa hal yang menjadikan keunikan tersendiri dari penelitian
lainnya adalah
 Pada penelitian ini akan dilakukan klasifikasi orientasi sentimen dengan
menggunakan algoritma K-Nearest Neighbor (K-NN), sehingga untuk
mengetahui seberapa besar peningkatan akurasi. Algoritma K-NN pada
penelitian ini akan bertindak sebagai algoritma yang akan melakukan klasifikasi
hasil orientasi sentimen.

6
 Data latih pada penelitian penulis diklasifikasikan sentimennya menggunakan

metode lexicon based.
 Proses pengklasifikasian teks menggunakan pemecahan satu kata (tokenisasi).
 Pengambilan data tweet yaitu 1.000 tweet, dimana 900 tweet digunakan sebagai
data latih dan 100 tweet digunakan sebagai data uji.
 Peneliti juga akan mengukur tingkat akurasi, error rate, f-measure, recall dan
presisi menggunakan algoritma K-Nearest Neighbor (K-NN).
Berdasarkan latar belakang permasalahan diatas, maka penulis bermaksud
untuk menyusun skripsi berjudul “Analisis Sentimen Komentar Terhadap
Pemindahan Ibu Kota Indonesia Pada Media Sosial Twitter Menggunakan
Metode Algoritma K-Nearest Neighbor (K-NN)” dari judul tersebut diharapkan
penulis akan mendapatkan tingkat akurasi dari algoritma tersebut dalam
menentukan orientasi sentimen.
1.2 Rumusan Masalah
Berdasarkan latar belakang, maka rumusan masalah adalah sebagai berikut :
1. Apa pendapat warganet terhadap pemindahan ibukota dari media sosial
Twitter?
2. Berapa tingkat akurasi metode K-Nearest Neighbor (K-NN) dalam
memprediksi pendapat warganet terhadap pemindahan ibu kota Indonesia
pada media sosial Twitter?
1.3 Batasan Masalah
Batasan-batasan masalah pada penelitian ini mencakup tiga aspek, yaitu
proses, metode, dan tools antara lain sebagai berikut:
1.3.1 Proses
Proses yang digunakan dalam penelitian ini yaitu:
1. Klasifikasi sentimen dibagi menjadi tiga, yaitu sentimen positif, negatif
dan netral.
2. Tweet yang dianalisis tidak mengandung gambar.
3. Menggunakan fitur pembobotan kata TF-IDF pada algoritma K-NN.
4. Nilai k yang digunakan pada algoritma K-NN adalah k=1, k=3, k=5,
k=9 dan k=10

7
5. Pengambilan data dilakukan pada periode 10 Oktober 2019 – 23

Oktober 2019 dan 23 Januari 2020 – 02 Februari 2020 dengan kata
kunci ibu kota pindah, ibu kota baru dan pemindahan ibu kota.
6. Proses pengklasifikasikan teks pada data latih yang digunakan
menggunakan proses pemecah satu kata (tokenisasi).
1.3.2 Metode
Adapun metode yang digunakan dalam penelitian ini yaitu:
1. Metode yang digunakan dalam klasifikasi sentimen terhadap data latih
adalah menggunakan pendekatan lexicon.
2. Metode pengembangan sistem yang digunakan adalah metode
prototyping.
1.3.3 Tools
Berikut ini merupakan tools yang digunakan untuk merancang dan
membangun aplikasi ini:
1. Menggunakan bahasa pemrograman PHP.
2. Menggunakan MySQL untuk menyimpan data.
1.4 Tujuan Penelitian
Adapun tujuan penelitian ini adalah sebagai berikut
1. Untuk mengetahui pendapat warganet mengenai pemindahan ibu kota
Indonesia dari media sosial Twitter.
2. Untuk mengetahui tingkat akurasi dari metode K-Nearest Neighbor (K-
NN) dalam memprediksi pendapat warganet terhadap pemindahan ibu kota
Indonesia pada media sosial Twitter
1.5 Manfaat Penelitian
Manfaat penulisan adalah sebagai berikut :
 Bagi Penulis
1. Untuk memenuhi salah satu syarat kelulusan strata satu (S1) Program
Studi Teknik Informatika Fakultas Sains dan Teknologi
2. Menerapkan ilmu-ilmu yang diperoleh selama perkuliahan.
 Bagi Universitas

8
1. Mengetahui kemampuan mahasiswa dalam menguasai materi yang

telah diperoleh selama masa kuliah.
2. Mengetahui kemampuan mahasiswa dalam menerapkan ilmunya dan
sebagai bahan evaluasi.
 Bagi Pembaca
1. Menambah wawasan pembaca mengenai metode algoritma K-Nearest
Neighbor (K-NN) dalam melakukan analisis orientasi sentimen
terhadap data Twitter.
2. Membantu pembaca dalam menerapkan metode algoritma K-Nearest
Neighbor (K-NN) dalam aplikasi berbasis PHP.
1.6 Metodologi Penelitian
Metodologi penelitian adalah suatu cara atau teknik yang sistematis untuk
mengerjakan atau menyeselaikan suatu penelitian. Adapun metodologi yang
digunakan dalam penulisan untuk menyeselaikan berbagai permasalahan yang
ditemukan adalah sebagai berikut:
1.6.1 Pengumpulan Data
Penulis memperoleh data dilakukan dengan studi kepustakaan dan studi
literatur, yaitu dengan mencari buku-buku yang berkaitan serta jurnal-jurnal
sebagai referensi dan melakukan observasi dengan cara crawling data dari
Twitter.
1.6.2 Analisis Pengembangan Sistem
Pada penelitian ini penulis melakukan simulasi terhadap sistem yang
dibuat. Adapun langkah-langkah yang dilakukan yaitu (Madani, Kazmi, &
Mahlknecht, 2010):
1. Problem formulation
2. Conceptual model
3. Input output data
4. Modelling
5. Simulation
6. Verification, validation, experimentation and output analysis

9
1.7 Sistematika Penulisan

Penyusunan laporan terdiri dari lima bab sebagai berikut :
BAB I PENDAHULUAN
Bab ini membahas tentang gambaran umum isi tugas akhir yang meliputi latar
belakang masalah, rumusan masalah, batasan masalah, tujuan, manfaat
penelitian, metodologi penelitian dan sistematika penulisan.
BAB II TINJAUAN PUSTAKA
Bab ini menyajikan tentang teori-teori yang bersumber dari buku, jurnal dan
e-book berhubungan dengan fakta atau kasus yang sedang dibahas.
BAB III METODOLOGI PENELITIAN
Bab ini membahas langkah-langkah yang dilaksanakan dalam proses
penelitian berkaitan dengan pengumpulan data dan metode yang digunakan
dalam melakukan simulasi.
BAB IV PERANCANGAN DAN PENGUJIAN SISTEM
Bab ini berisi tentang simulasi sistem dari perancangan sampai pengujian
sistem sesuai dengan metode yang digunakan pada sistem.
BAB V HASIL DAN PEMBAHASAN
Bab ini membahas tentang output yang dihasilkan berdasarkan analisis
perancangan dan implementasi yang dilakukan pada sistem.
BAB VI PENUTUP
Bab ini berisi mengenai beberapa kesimpulan dan saran berdasarkan
pembahasan pada bab-bab sebelumnya.

BAB II
LANDASAN TEORI
2.1 Analisis Sentimen
Analisis sentimen adalah bidang studi yang menganalisis pendapat, sentimen,
evaluasi, penilaian, sikap dan emosi seseorang terhadap sebuah produk, organisasi,
individu, masalah, peristiwa atau topik (Liu, 2012). Analisis sentimen dilakukan
untuk melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk
melihat pendapat terhadap sebuah masalah, atau dapat juga untuk identifikasi
kecendurungan hal yang menjadi topik pembicaraan. Analisis sentimen dalam
penelitian ini adalah proses pengelompokkan tweet ke dalam lima emosi yaitu
emosi senang, emosi cinta, emosi sedih, emosi marah dan emosi takut.
Pengaruh dan manfaat dari analisis sentimen menyebabkan penelitian
mengenai analisis sentimen berkembang pesat. Di Amerika kurang lebih 20-30
perusahaan yang memfokuskan pada layanan analisis sentimen (Liu, 2012).
Manfaat sentimen analisis dalam dunia usaha antara lain untuk melakukan
pemantauan terhadap suatu produk. Secara cepat dapat digunakan sebagai alat
bantu untuk melihat respon masyarakat terhadap suatu produk, sehingga dapat
diambil langkah strategis berikutnya.
Pada umumnya sentimen analisis merupakan klasifikasi tetapi kenyataannya
tidak semudah proses kualifikasi biasa karena terkait penggunaan bahasa, dimana
terdapat ambigu dalam penggunaan kata serta perkembangan bahasa itu sendiri.
2.1.1 Level Analisis Sentimen
Analisis sentimen terdiri dari tiga level analisis yaitu :
1. Level dokumen
Level dokumen menganalisis satu dokumen penuh dan mengklasifikasikan
dokumen tersebut memiliki sentimen positif atau negatif. Level analisis ini
berasumsi bahwa keseluruhan dokumen hanya berisi opini tentang satu
entitas saja. Level analisis ini tidak cocok diterapkan pada dokumen yang
membandingkan lebih dari satu entitas (Liu, 2012).
2. Level kalimat
10
11
Level kalimat menganalisis satu kalimat dan menentukan tiap kalimat

sentimen bernilai positif, netral, atau negatif. Sentimen netral berarti
kalimat tersebut bukan opini (Liu, 2012).
3. Level Entitas dan Aspek
Level aspek tidak melakukan analisis pada konstruksi bahasa (dokumen,
paragraf, kalimat, klausa, atau frase) melakukan langsung pada opini itu
sendiri. Hal ini didasari bahwa opini terdiri dari sentimen (positif dan
negatif) dan target dari opini tersebut. Tujuan level analisis ini adalah
untuk menemukan sentimen entitas pada tiap aspek yang dibahas (Liu,
2012).
2.2 Pemindahan Ibu Kota
Menurut Kepala Bapennas upaya pemindahan ibu kota Indonesia dimulai
pada tahun 2019 pada masa kepresidenan Joko Widodo. Melalui rapat terbatas
pemerintah pada tanggal 29 April 2019, Joko Widodo memutuskan untuk
memindahkan ibu kota negara ke luar pulau Jawa. Pemindahan ibu kota ini tertuang
dalam rencana pembangunan jangka menengah nasional 2020-2024. Pada 26
Agustus 2019, Presiden Joko Widodo mengumumkan bahwa ibu kota baru akan
dibangun di wilayah administratif Kabupaten Penajam Paser Utara dan Kabupaten
Kutai Kartanegara, Kalimantan Timur.
Latar belakang pemindahan ibu kota Indonesia sebenarnya sudah
didiskusikan pada era kepresidenan Soekarno hingga era Susilo Bambang
Yudhoyono. Dimana membuat pusat politik dan administrasi yang baru, karena
masalah lingkungan dan overpopulasi Jakarta. Menurut Presiden Jokowi, alasan
memilihh di Penajam Pasir Utara dan Kutai Kertanegara dijadikan lokasi ibu kota
baru adalah kecilnya resiko bencana alam di wilayah itu, lokasi yang ada di tengah-
tengah Indonesia, lokasi di dekat kota Balikpapan dan Samarinda yang sudah
berkembang, infrastruktur yang relatif lengkap, dan adanya 180 hektar tanah yang
telah dikuasai pemerintah. Rencana pemerintah dalam pengumuman 26 Agustus
2019, Joko Widodo menyebutkan pemerintah akan segera merancang undang-
undang untuk pemindahan ibu kota untuk disetujui Dewan Perwakilan Rakyat
(DPR). Pembangunan akan dimulai pada 2020, dan pemindahan akan dilakukan

12
bertahap dimulai dari 2024. Dan terdapat polemik masyarakat akan pro dan kontra
pemindahan ibu kota Indonesia ini.
Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia Indonesia)
2.3 Twitter
Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh Twitter
Inc., yang menawarkan jaringan sosial berupa microblog sehingga memungkinkan
penggunanya untuk mengirim dan membaca pesan tweet (Twitter, 2013).
Microblog adalah adalah satu jenis alat komunikasi online berupa pengguna dapat
memperbarui status tentang mereka yang sedang memikirkan dan melakukan
sesuatu, apa pendapat mereka tentang suatu objek atau fenomena tertentu. Tweet
adalah teks tulisan hingga 140 karakter yang ditampilkan pada halaman profil
pengguna. Tweet bisa dilihat secara publik, namun pengirim dapat membatasi
pengiriman pesan ke daftar teman-teman mereka saja. Pengguna dapat melihat
tweet pengguna lain yang dikenal dengan sebutan pengikut (follower).
Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015)
No Sosial Media Kelebihan Kekurangan

1. Twitter 1. Mudah dalam 1. Penulisan teks
menemukan akun terbatas, maksimal 4
figure. foto dalam satu tweet,
2. Interkasi yang video dan audio di
dihasilkan cepat dan tempat lain
deras karena 2. Umur keterbacaan
konten lebih sedikit

13
maksimal waktu daripada Facebook

respon balik 30 menit yaitu hanya 3 jam
3. Mesin pencari sedangkan Facebook
terbanyak kedua 5 jam.
setelah Google
4. Performa aplikasi
Twitter lebih cepat
dibuka karena hanya
sinkronisasi teks
dalam ukuran kecil
dan foto dalam jumlah
terbatas.
5. Konektivitas internet
lebih cepat
6. Tracking dan
monitoring secara
real time
7. Media sosial pertama
yang mempopulerkan
hastag dan sampai
sekarang adalah satu-
satunya yang
memiliki fitur
trending yang paling
akurat berdasarkan
hastag dan keyword.
2. Facebook 1. Mempunyai banyak 1. Dari kecepatan
fitur seperti chat, interaksi Facebook
inbox, game. lebih lambat dari
2. Jumlah teks tidak Twitter
terbatas, upload foto

14
tidak terbatas dan 2. Tidak mudah dalam

dapat melakukan menemukan akun
tagging video dan figur
foto. 3. Aplikasi yang
3. Umur konten lebih membutuhkan
lama dari Twitter memory yang besar.
4. Segi kecepatan
konektivitas lambat
karena banyaknya
sinkronisasi konten.
2.3.1 Twitter API
Application Programming Interface (API) merupakan fungsi-fungsi /
perintah-perintah untuk menggantikan bahasa yang digunakan dalam system
calls dengan bahasa yang lebih terstruktur dan mudah dimengerti oleh
programmer. Fungsi yang dibuat dengan menggunakan API tersebut kemudian
akan memanggil system calls sesuai dengan sistem operasinya. Tidak tertutup
kemungkinan nama dari system calls sama dengan nama di API. Twitter
menyediakan API yang diperuntukkan untuk developer yang ada pada website
https://developer.Twitter.com. Twitter API terdiri dari 3 bagian yaitu :
a. Search API
Search API dirancang untuk memudahkan user dalam mengelola query
Search di konten Twitter. User dapat menggunakannya untuk mencari tweet
berdasarkan keywords khusus atau mencari tweet lebih spesifik berdasarkan
username Twitter. Search API juga menyediakan akses pada data trending
topic.
b. REST API
REST API memperbolehkan developer untuk mengakses inti dari Twitter
seperti timeline, status update dan informasi user. REST API digunakan
dalam membangun sebuah aplikasi Twitter yang kompleks yang memerlukan
inti dari Twitter
c. Streaming API

15
Streaming API digunakan developer untuk kebutuhan yang lebih intensif

seperti melakukan penelitian dan analisis data. Streaming API dapat
menghasilkan aplikasi yang dapat mengetahui statistik status update, follower
dan lain sebagainya.
2.3.2 Sentimen Analisis pada Twitter
Definisi analisis sentimen Twitter pada dasarnya merujuk pada pendapat
komentar yang ada pada media Twitter. Pesan Twitter lebih mudah untuk
dilakukan analisis karena penulisan yang dibatasi. Kalimat seringkali memuat
pendapat tunggal, meskipun tidak bersifat mutlak bahwa setiap kalimat berisi
pendapat tunggal. Dalam kasus lain terdapat kalimat dengan pendapat lebih dari
satu pada suatu kalimat namun ini hanya sebagian kecil (Liu, 2016).
Pada dasarnya sentimen analisis merupakan tahapan klasifikasi. Namun
tahapan klasifikasi sentimen pada Twitter yang tidak terstruktur menyebabkan
sedikit lebih sulit dibanding dengan klasifikasi dokumen terstruktur. Langkah
pertama adalah untuk mengklasifikasikan apakah kalimat mengungkapkan
pendapat atau tidak. Langkah kedua adalah mengklasifikasikan kalimat-kalimat
pendapat menjadi positif dan kelas negatif.
2.3.3 Struktur Data Twitter
Untuk mendalami permasalahan analisis sentimen Twitter diperlukan
pemahaman terhadap struktur data Twitter itu sendiri. Twitter menjadi sumber
yang hampir tak terbatas yang digunakan pada text classification. Menurut Go
(2009), terdapat banyak karakteristik pada tweet Twitter. Pesan pada Twitter
memiliki banyak attribute yang unik, yang membedakan dari media sosial
lainnya:
1. Twitter memiliki maksimal panjang karakter yaitu 140 karakter.
2. Twitter menyediakan data yang bisa diakses secara bebas dengan
menggunakan Twitter API, mempermudah saat proses pengumpulan tweet
dalam jumlah yang sangat banyak.
3. Pengguna Twitter mem-posting pesan melalui banyak media berbeda untuk
mengungkapkan pendapat tentang suatu topik atau kejadian tertentu,

16
sehingga merupakan sumber yang bagus dalam menemukan pendapat orang

lain.
4. Terdapat ragam topik didalamnya. Setiap pengguna dapat menuliskan topik
apapun pada pesan Twitter.
2.4 Natural Language Proccessing (NLP)
Natural Language Processing (NLP) adalah salah satu bidang ilmu komputer
yang merupakan cabang dari kecerdasan buatan, dan bahasa (linguistik) yang
berkaitan dengan interaksi antara komputer dan bahasa alami manusia, seperti
bahasa Indonesia atau bahasa Inggris. Tujuan utama dari studi NLP adalah
membuat mesin yang mampu mengerti dan memahami makna bahasa manusia lalu
memberikan respon yang sesuai (Rio, 2016).
Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI
yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang
secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa
yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu
supaya maksud dari user bisa dipahami dengan baik oleh komputer. Ada berbagai
terapan aplikasi dari NLP. Diantaranya adalah chatbot (aplikasi yang membuat user
bisa seolah-olah melakukan komunikasi dengan komputer), stemming atau
lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar
pengenalan fungsi setiap kata dalam kalimat), summarization (ringkasan dari
bacaan), translation tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang
memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan
oleh user (www.socs.binus.ac.id, 2013).
Berdasarkan (Putstejovsky & Stubbs, 2012) dalam penerapannya, tujuan NLP
untuk memahami bahasa manusia ini memiliki bahasa tantangan, yang antara lain
adalah sebagai berikut:
1. Penandaan kelas kata (part of speech tagging). Sulit untuk menandai kelas kata
(kata benda, kata kerja, kata sifat) suatu kata dalam teks karena pengelasan kata
sangat bergantung kepada konteks penggunaanya.

17
2. Segmentasi teks. Penentuan segmentasi sulit dilakukan pada bahasa tulis yang
tidak memiliki pembatas kata spesifik seperti (Mandarin, Thailand dan Jepang)
serta bahasa lisan yang terkadang membaurkan bunyi antar kata.
3. Disambiguasi makna kata. Banyak kata yang memiliki lebih dari satu makna
baik dalam bentuk homonim maupun polisemi. Pembedaan makna hanya dapat
dilakukan dengan melihat konteks penggunaan.
4. Ambiguitas sintak. Suatu bahasa memiliki berbagai kemungkinan struktur
kalimat. Pemilihan struktur yang paling tepat biasanya membutuhkan gabungan
informasi semantik dan kontekstual.
Diluar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk
berbagai tugas yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang
populer dalam penerapan NLP adalah sebagai berikut:
1. Pemerolehan Informasi. Pencarian dokumen yang relevan, pencarian informasi
yang spesifik di dalam dokumen, serta pembuatan metadata.
2. Penjawaban pertanyaan. Secara otomatis menjawab pertanyaan yang diajukan
dengan bahasa alami dengan jawaban bahasa alami pula.
3. Perangkuman otomatis. Pembuatan versi singkat berisi butir-butir penting dari
suatu dokumen dengan menggunakan program komputer.
4. Penerjemahan mesin. Penerjemahan otomatis dari suatu bahasa alami ke bahasa
lain.
5. Pengenalan wicara. Pengubahan bahasa lisan menjadi masukan yang dikenali
oleh mesin, misalnya pada pendiktean bahasa lisan kepada komputer untuk
menghasilkan bahasa tulis atau pelaksanaan suatu perintah oleh komputer
berdasarkan bahasa lisan dari manusia.
6. Pengenalan karakter optis. Pengubahan penulisan tangan atau teks tercetak
menjadi dokumen yang dapat dikenali oleh mesin.
2.5 Emosi
Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan
fisiologis dan biologis serta menimbulkan kecenderungan untuk melakukan
tindakan. Twitter seringkali digunakan dalam mengungkapkan emosi mengenai
sesuatu hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat

18
dilakukan menggunakan analisis sentimen. Analisis sentimen dapat juga

dimanfaatkan untuk menggali opini public tentang suatu topik
1. Emosi Dasar
Emosi yang dimiliki manusia dikategorikan menjadi lima emosi dasar yaitu
cinta, senang, marah, takut, dan sedih. Emosi cinta dan senang merupakan emosi
positif. Emosi marah, takut, dan sedih merupakan emosi negatif (Shaver,
Murdaya, dan Fraley, 2001).
2. Kosakata Emosi
Peneliitian terhadap 124 kosa kata emosi di Indonesia menghasilkan dua
kelompok besar yaitu kosa kata emosi positif dan negatif. Pengelompokkan kosa
kata emosi positif terdiri dari dua emosi dasar yaitu cinta dan senang.
Kelompokkan kosa kata emosi negatif terdiri dari tiga emosi dasar, yaitu marah,
takut dan sedih (Shaver, Murdaya, dan Fraley, 2001).
Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001)
Superordinat Emosi Dasar Subordinat

Positif Cinta Ingin, kepingin, hasrat,
birahi, terangsang, gairah,
demen, suka, terpesona,
setia, kangen, rindum,
kasih, sayang, hati, mesra,
kemesraan, asmara,
mesra, cinta
Positif Senang Kepuasan, puas, berani,
yakin, ikhlas, tulus, besar
hati, sabar, tabah, rendah
hati, bangga, kagum, asik,
suka cita, bahagia,
senang, gembira, ceria,
riang, damai, aman,
tentram, lega

19
Negatif Marah Bosan, jenuh, cemberut,

curiga, kesel, sebel,
emosi, benci, dengki,
gemas, gregetan,
ngambek, tersinggungm
naik pitam, marah,
berang, geram
Negatif Takut Gentar, takut, berdebar,
kalut, gusar, cemas,
gundahh, khawatir,
waswas, galau, gelisah,
risau
Negatif Sedih Patah hati, kecil hati,
simpati, malu, iba,
kasihan, sendu, sedih,
duka, sakit hati, sesal,
menyesal, frustasi,
penyesalan, remuk hati,
patah hati, haru, prihatin
2.6 Text Mining
Menurut (Mooney, 2006), Text Mining memiliki definisi menambang data
yang berupa teks sumber data biasanya didapatkan dari dokumen, dan tujuannya
adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat
dilakukan analisa keterhubungan antar dokumen. Berikut ini merupakan tahapan
dari text mining :
1. Tahap tokenizing
Tahap tokenizing adalah tahap pemotongan string input berdasarkan tiap kata
yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut:
a. Manajemen pengetahuan (teks input)
b. Manajemen pengetahuan (hasil tokenizing)
2. Tahap filtering

20
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing.
Bisa menggunakan stoplist (membuang kata yang kurang penting) dan wordslist
(menyimpan kata yang penting). Contoh dari tahap ini adalah sebagai berikut:
a. Manajemen pengetahuan adalah sebuah konsep baru (hasil token).
b. Manajemen pengetahuan konsep baru (hasil filtering)
3. Tahap stemming
Tahap stemming adalah adalah tahap mencari root kata dari teks yang
dimasukan. Contoh dari tahap ini adalah sebagai berikut:
a. Memasukan (teks input)
b. Masuk (hasil stemming)
4. Tahap analisis
Tahap analisis adalah tahap penentuan seberapa jauh keterhubungan antara kata-
kata dengan dokumen yang ada.
Berikut gambaran sistem arsitektur text mining yang dicantumkan pada buku
(Feldman, R., & Sanger, 2007)
Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger, 2007)
Penelitian di bidang text mining menangani masalah yang berkaitan dengan

representasi teks, klasifikasi, clustering, ekstraksi informasi atau pencarian dan
pemodelan pola. Dalam hal ini pemilihan karakteristik, juga domain penelitan dan
prosedur penelitian menjadi peran penting. Oleh karena itu, adaptasi dari algoritma
data mining dari teks yang diketahui sangat diperlukan. Maka dari itu untuk
mencapai hal ini seringkali berdasarkan penelitian sebelumnya text mining
bergantung pada information retrieval, natural language processing dan
information extraction. Selain itu juga penerapan metode data mining dan statistik
juga diterapkan untuk menangani masalah ini (Hotho, Nurnberger, & Paaß, 2005).

21
Information Retrieval (IR) adalah menemukan bahan (biasanya dokumen)

dari suatu keadaan yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan
informasi dari dalam kumpulan data yang besar (biasanya disimpan di dalam
komputer) (Manning, dkk. 2009). Natural Language Processing (NLP) bertujuan
untuk mencapai hasil yang lebih baik dalam pemahaman bahasa alami dengan
menggunakan komputer. Sedangkan Ekstraksi Informasi (IE) bertujuan untuk
menemukan informasi tertentu dari dokumen teks yang kemudian Ini disimpan
dalam basis data seperti pola sehingga dapat digunakan dan dimanfaatkan (Hotho
et al., 2005).
(Hotho et al., 2005) juga mengatakan bahwa pada penelitian text mining
diperlukan tahapan text preprocessing pada koleksi dokumen dan menyimpan
informasi tersebut dalam struktur data. Pendekatan text mining didasarkan pada
pemikiran bahwa dokumen teks dapat diwakili oleh satu set kata-kata, yaitu
dokumen teks digambarkan berdasarkan pada set kata-kata yang terkandung di
dalamnya.
2.7 Pre-proccessing
Pre-processing dalam proses klasifikasi dokumen digunakan untuk
membangun sebuah indeks dari koleksi dokumen. Indeks adalah himpunan term
yang menunjukkan isi atau topik yang dikandung oleh dokumen (Indriani, 2014)
Pembuatan inverted index harus melibatkan konsep linguistic processing
yang bertujuan meng-ekstra term-term penting dari dokumen yang dipresentasikan
sebagai bag-of-words. Ekstraksi term biasanya melibatkan tiga operasi utama,
antara lain:
a. Pemisahan rangkaian term (tokenization). Tokenization adalah tugas
memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token
atau potongan kata tunggal atau termed words. Tahapan ini juga menghilangkan
karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke
bentuk huruf kecil (lower case).
b. Penghapusan stop-words. Stopwords didefinisikan sebagai term yang tidak
berhubungan (irrelevant) dengan subyek utama dari database meskipun kata

22
tersebut sering kali hadir di dalam dokumen. Contoh stopwords adalah adanya,
adapun, agak, dll.
c. Stemming. Kata-kata yang muncul di dalam dokumen sering mempunyai banyak
varian morfologik. Karena itu, setiap kata yang bukan stop-words direduksi ke
stemmed words (term) yang cocok yaitu kata tersebut distem untuk mendapatkan
bentuk akarnya dengan menghilangkan awalan atau akhiran. Dengan cara ini,
diperoleh kelompok kata yang cocok dimana kata-kata di dalam kelompok
tersebut merupakan varian sintaktis dari satu sama lain dan dapat menghimpun
hanya satu kata per kelompok. Sebagai contoh kata terdaftar, pendaftaran
berbagi-pakai term, stem, umum, daftar, dan dapat diperlakukan sebagai bentuk
lain dari kata ini (Indriani, 2014).
2.8 Klasifikasi
Klasifikasi merupakan suatu metode untuk mengelompokkan sebuah objek
ke dalam kelompok atau kelas tertentu (Syafitri, 2010). Algoritma klasifikasi yang
banyak digunakan secara luas, yaitu Decision atau Classification Trees, Bayesian
Classifiers atau Naïve Bayes Classifiers, Neural Networks, Analisa Statistik,
Algoritma Genetika, Rough Sets, K-Nearest Neighbor , Metode Rule Based,
Memory Based Reasoning, dan Support Vector Machines (SVM) (Leidiyana,
2013). Proses ini dilakukan agar data atau citra dapat dikategorikan dalam suatu
kelas tertentu yang telah ditentukan.
Sebuah sistem klasifikasi juga harus diukur kinerjanya guna melihat tingkat
akurasi dan kesalahan dari sistem tersebut. Umumnya, pengukuran kinerja
klasifikasi dilakukan dengan matriks konfusi (confussion matrix). Matriks konfusi
merupakan tabel pencatat hasil kerja klasifikasi. Tabel 2.2 merupakan contoh
matriks konfusi yang melakukan klasifikasi masalah biner pada dua kelas yaitu
kelas 0 dan 1. Setiap set dalam matriks menyatakan jumlah record / data dari
kelas i yang hasil prediksinya masuk ke kelas j. Misalnya, set adalah jumlah
data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data
dalam kelas 1 yang dipetakan secara salah kelas 0 (Prasetyo, 2012).
Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012)

23
Kelas hasil prediksi (j)
Kelas = 1 Kelas = 0
Kelas Asli (i) Kelas = 1 (True Positive) (False Negatif)
Kelas = 0 (False Positive) (True Negatif)
Berdasarkan isi matriks konfusi, dapat diketahui jumlah data dari masing-
masing kelas yang diklasifikasikan secara benar, yaitu (𝑓10+ 𝑓01) kuantitas matriks
konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error.
Beradasarkan jumlah data yang diklasifikasi secara benar, maka dapat diketahui
akurasi hasil prediksi, dan dengan mengetahui jumlah data yang diklasifikasikan
secara salah, dapat diketahui laju error dari prediksi yang dilakukan. Dua kuantitas
ini digunakan sebagai matrik kinerja klasifikasi (Prasetyo, 2012).
Untuk menghitung akurasi digunakan formula sebagai berikut:
Untuk menghitung laju error (kesalahan prediksi) digunakan formula
2.9 Metode Lexicon

Lexicon based merupakan metode yang sederhana, layak dan praktis untuk
analisis sentimen dari data media sosial. Data yang cocok dengan metode Lexicon
Based yaitu data kuesioner, data Twitter, data facebook, atau media sosial lainnya
yang berupa opini pelanggan tentang suatu produk atau pelayanan jasa (Matulatuwa
et al., 2017).
Lexicon based didasarkan pada asumsi bahwa orientasi sentimen kontekstual
adalah jumlah dari orientasi sentimen setiap kata atau frase. Metode lexicon dapat
digunakan untuk mengekstrak sentimen dari blog dengan mengkombinasi lexical
knowledge dan klasifikasi teks. Metode lexicon dapat dibuat secara manual atau
diperluas secara otomatis dari seed of words (Matulatuwa et al., 2017).
Kamus adalah komponen penting dalam sistem yang menggunakan lexicon
based. Kamus digunakan dalam proses normalisasi kalimat dan ekstraksi kata
kunci. Berikut adalah contoh kamus dan isinya (Matulatuwa et al., 2017).

24
1. Positive keywords: baik, bagus, bisa, ok, cepat, akurat, aman, senang.
2. Negative keywords: acuh, ambigu, bodoh, gagal, abnormal, susah, lambat.
3. Negation keywords: seharusnya, bukan, tidak
Hu, dkk. 2004 dikutip Liu, 2012 mengusulkan algoritma berbasis lexicon
untuk aspek menentukan orientasi sentimen. Orientasi sentimen kalimat itu
ditentukan dengan menjumlahkan nilai orientasi semua kata sentimen di kalimat.
Sebuah kata positif diberi nilai sentimen dari +1 dan kata negatif diberi nilai
sentimen dari -1. Kata negasi dan kata-kata yang bertentangan (misalnya, tetapi dan
namun) juga dipertimbangkan. Ada empat langkah dalam menentukan orientasi
sentimen berdasarkan pendekatan lexicon yaitu :
1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu
atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam
sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata
negatif diberikan skor sentimen -1. Contoh “Kualitas lampu penerangan ini tidak
baik [ +1 ], tapi daya nya tahan lama [ +1 ]". Dari contoh tersebut kata baik
bernilai +1 dan tahan lama bernilai +1 karna termasuk kata positif.
2. Terapkan sentimen shifter adalah kata-kata dan frase yang dapat mengubah
orientasi sentimen. Ada beberapa jenis shifter kata negasi seperti tidak, tidak
pernah, dan tidak ada adalah jenis yang paling umum. Berdasarkan hal tersebut
kalimat menjadi “Kualitas lampu penerangan ini tidak baik [ -1 ], tapi daya nya
tahan lama [ +1 ]" karena kata negasi "tidak".
3. Agregat : Pada langkah ini berlaku fungsi agregasi pendapat dengan skor
sentimen yang dihasilkan untuk menentukan orientasi akhir dari sentimen.
𝑤𝑖𝑆𝑂
𝑠𝑐𝑜𝑟𝑒(𝑓) = ∑ (𝑃𝑒𝑟𝑠𝑎𝑚𝑎𝑎𝑛 2.3)
𝑑𝑖𝑠(𝑤𝑖, 𝑓)
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (Positif dan Negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan.
2.9.1 Kamus Lexicon
Dalam pendekatan analisis sentimen dengan menggunakan lexicon, kamus
merupakan komponen penting dalam ekstraksi kata sentimen. Menggunakan

25
pendekatan kamus untuk mengumpulkan kata-kata sentimen adalah pendekatan

yang jelas karena sebagian besar kamus misalnya, WordsNet mengandung sinonim
dan antonim untuk setiap kata. Jadi secara sederhana, teknik atau pendekatan ini
adalah dengan menggunakan beberapa kata sentimen benih untuk dijadikan acuan
dan kemudian dicocokan berdasarkan sinonimnya dan struktur antonim dari kamus.
Secara khusus, metode ini berfungsi sebagai berikut: satu set kecil kata
sentimen dengan orientasi positif atau negatif yang diketahui kemudian
dikumpulkan secara manual. Algoritma ini kemudian menghitung banyaknya kata
dengan mencari di WordsNet atau kamus lain sesuai dengan sinonim dan
antonimnya. Kata-kata yang ditemukan akan dimasukkan ke dalam daftar positif
atau negatif. Proses berakhir ketika tidak ada kata-kata baru yang dapat ditemukan.
Setelah proses selesai, langkah pemeriksaan digunakan untuk menghitung agregat
positif atau negatif. (Bhonde, 2015)
Kamus yang digunakan dalam pendekatan lexicon diantaranya kamus
lexicon positif, kamus lexicon negatif, kamus lexicon negasi, KBBI, kamus kata
dasar, dan kamus stopwords.
a. Kamus positif
Kamus positif digunakan untuk meyeleksi kata-kata yang termasuk kedalam
sentimen positif dari suatu kalimat atau query yang akan ditentukan
sentimennya. Kamus positif pada penelitian ini sebanyak 1.185 kata. Sumber
data didapatkan dari GITHUB, https://github.com/masdevid/ID-OpinionWords.
b. Kamus negatif
Kamus negatif digunakan untuk meyeleksi kata-kata yang termasuk kedalam
sentimen negatif dari suatu kalimat atau query yang akan ditentukan
sentimennya. Kamus negatif pada penelitian ini sebanyak 2.403 kata. Sumber
data didapatkan dari GITHUB, https://github.com/masdevid/ID-OpinionWords.
c. Kamus negasi
Kamus negasi digunakan untuk mendeteksi suatu kalimat atau query yang telah
ditentukan sentimennya baik positif maupun negatif, apakah sentimen tersebut
diikuti kata negasi. Sentimen yang diikuti kata negasi akan memiliki perubahan
nilai sentimen dari yang sebelumnya. Kamus negasi yang digunakan pada

26
penelitian ini sebanyak 10 kata. Sumber data didapatkan dari GITHUB,

https://github.com/jakaprata/Analisis-Sentimen-Twitter-Dengan-Klasifikasi-
Naive-Bayes-menggunakan-PHP/blob/master/negation.txt
d. Kamus kata dasar dan KBBI
Kamus kata dasar dan KBBI digunakan untuk melakukan proses stemming
dalam tahapan natural language processing. Stemming merupakan pengubahan
kata berimbuhan menjadi kata dasar. Dalam proses ini dibutuhkan kamus kata
dasar dan KBBI sebagai penyeleksian kata yang sesuai. Kamus kata dasar dan
KBBI yang digunakan dalam penelitian ini sebanyak 29.932 kata dan 61.640
kata. Sumber data didapatkan dari GITHUB :
https://github.com/nolimitid/nolimit-kamus/blob/master/kata-dasar/kata-dasar-
all.txt
https://github.com/geovedi/indonesian-wordslist/blob/master/00-indonesian-
wordslist.lst
e. Kamus stopwords
Kamus stopwords digunakan untuk penyeleksian kata-kata yang dianggap tidak
penting. Proses ini dilakukan untuk mempercepat proses klasifikasi data. Kamus
stopwords yang digunakan dalam penelitian ini sebanyak 1.023 kata. Sumber
data didapatkan dari GITHUB,
https://github.com/masdevid/IDStopwords/blob/master/id.Stopwords.02.01.201
6.txt
2.10 Metode K-Nearest Neighbour (K-NN)
K-NN adalah algoritma untuk mengklasifikasi objek baru berdasarkan atribut
dan training samples (data latih). Dimana hasil dari sampel uji yang baru
diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. Algoritma K-NN
menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari sampel uji yang
baru (Krisandi, Prihandono, & Bayes, 2013). Data latih akan dibangun dengan
memperhatikan keseimbangan dokumen satu sama lain. Adapun algortima K-NN
dapat dijelaskan (Kurniawan, 2012) dengan keterangan berikut:

27
a. Hitung jarak antara data sampel (data uji) dengan data latih yang telah dibangun.
Salah satu persamaan dalam menghitung jarak kedekatan dapat menggunakan
persamaan cosine similirity.
b. Menentukan parameter nilai k = jumlah tetanggaan terdekat.
c. Mengurutkan jarak terkecil dari data sample
d. Pasangkan kategori sesuai dengan kesesuaian
e. Cari jumlah terbanyak dari tetanggaan terdekat. Kemudian tetapkan kategori.
Jarak yang digunakan dalam penelitian ini adalah cosine similarity.
∑ 𝑘 (𝑑1 𝑑𝑘)
𝐶𝑜𝑠(𝑖, 𝑘) =
2 2
√∑ 𝑘 𝑑𝑖𝑘 √∑ 𝑘 𝑑𝑗𝑘
Keterangan :
∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k
2
√∑ 𝑘 𝑑𝑖𝑘 = panjang vektor i
2
√∑ 𝑘 𝑑𝑗𝑘 = panjang vektor k
Algoritma K-NN (Krisandi et al., 2013) adalah algoritma yang menentukan

nilai jarak pada pengujian data testing dengan data training berdasarkan nilai
terkecil dari nilai ketetanggaan terdekat didefinisikan sebagai berikut:
𝐷𝑛𝑛(𝑐1 𝑐2) = 𝑚𝑖𝑛1≤𝑖≤𝑟,1≤𝑗≤𝑠 𝑑(𝑦𝑖 , 𝑧𝑖 )
Perbandingan algoritma K-NN, Naïve Bayes dan SVM:
Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM
K-Nearest Neighbor Naïve Bayes Support Vector Machine

Tangguh terhadap data Menghasilkan akurasi Tingkat akurasi yang
noise, apabila yang lebih maksimal baik tapi memiliki waktu
menggunakan data latih kalau digunakan proses yang cukup lama
yang cukup banyak. menggunakan data latih dibandingkan dengan K-
yang secara real time. NN menggunakan data
latih yang cukup banyak.

28
Mampu memberikan Menghasilkan akurasi Tingkat akurasi baik dan

performa yang baik yang lebih baik jika tidak dipengaruhi besar
untuk data yang bersifat menggunakan data uji kecilnya data uji.
independent (tidak yang sedikit.
memiliki ketergantungan
kata)
Mencari jarak terdekat Dalam perhitungan hanya Merupakan linear
yang akan dievaluasi membutuhkan parameter classifier dan
dengan k tetangga mean dan varians dari dikembangkan juga non-
variabel yang dibutuhkan linear dengan
untuk klasifikasi. memasukkan konsep
kernel pada ruang kerja
dimensi tinggi
Melakukan pembobotan Hanya mencari Membuat sequential
kata untuk setiap kata probabilitas pada setiap training, dengan
pada dokumen latih, kata pada data latih, menginialisasi kemudian
kemudian menghitung kemudian mencari kata menghitung matrix
kemiripan vektor pada data uji yang sesuai hessian dan mulai dari
dokumen uji dengan dengan data latih, data pertama sampai
dokumen latih kemudian hitung nilai terakhir dihitung secara
menggunakan cosine probailitas dokumen lalu terus menerus sampai
similarity dan urutkan mengkalikannya dan menemukan iterasi
jarak lalu tentukan nilai k membandingkan maksimum tercapai.
dan tentukan kategori kemudian mencari nilai
dokumen berdasarkan probabilitas terbesar.
nilai ecludian terdekat.
2.11 Confussion Matrix
Dalam mengukur tingkat akurasi sistem orientasi sentimen, maka digunakan
tabel confussion matrix. Confussion matrix adalah sebuah tabel yang menyatakan
jumlah data uji yang benar diklasifikasikan dan jumlah data uji yang salah

29
diklasifikasikan (Prasetyo, 2012). Contoh confussion matrix untuk klasifikasi biner

ditunjukkan pada tabel berikut:
Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012)
Kelas Sebenarya Kelas hasil prediksi

Positif = 1 Negatif = 0
Positif = 1 TP FN
Negatif = 0 FP TN
Keterangan untuk tabel diatas dinyatakan sebagai berikut :
1. True Positif (TP), yaitu jumlah dokumen dari kelas 1 yang benar dan
diklasifikan sebagai kelas 1.
2. True Negatif (TN), yaitu jumlah dokumen dari kelas 0 yang benar
diklasifikasikan sebagai kelas 0.
3. False Positif (FP), yaitu jumlah dokumen dari kelas 0 yang salah
4. False Negatif (FN) yaitu jumlah dokumen dari kelas 1 yang salah
TP + TN
akurasi =
TP + FN + FP + TN
2.12 Metode Simulasi
Simulasi adalah suatu metodologi untuk melaksanakan percobaan dengan
menggunakan model dari suatu sistem nyata (Siagian, 1987). Menurut Hasan
(2002), simulasi merupakan suatu metode pengambilan keputusan dengan
mencontoh atau mempergunakan gambaran sebenarnya dari suatu sistem
kehidupan dunia nyata tanpa harus mengalaminya pada keadaaan yang
sesungguhnya.
Simulasi adalah suatu teknik yang dapat digunakan untuk memecahkan
model-model dari golongan yang luas. Golongan atau kelas ini sangat luasnya
sehingga dapat dikatakan “Jika semua cara yang lain gagal, cobalah simulasi”
(Schroeder, 1997).
Ada berbagai jenis lifecycle menurut (Madani et al., 2014) yang dapat
digunakan untuk studi pada pemodelan dan simulasi. Terdapat langkah-langkah

30
dasar yang harus dipertimbangkan dalam melakukan studi simulasi. Lifecycle tidak
harus diartikan sebagai sebuah sekuensial yang strict, bersifat iteratif, dan kadang
juga bertransisi dalam arah yang berlawanan. Demikian juga, beberapa langkah
terkadang dapat dilewati atau di-skip sesuai dengan kompleksitas aplikasi. Hal ini
sangat dianjurkan untuk menggunakan siklus spiral dengan pengembangan
incremental yaitu pada langkah 2-8, yang dapat menyebabkan revisi untuk fase
sebelumnya. Setiap fase dalam siklus spiral harus berakhir sebuah prototype yang
sudah dapat bekerja yang sudah lebih fungsionalitas dari siklus sebelumnya.
(Madani et al., 2014) memberikan suatu tahapan dalam melakukan studi
simulasi. Adapun tahapan-tahapan tersebut adalah sebagai berikut.
2.12.1 Problem Formulation
Setiap studi seharusnya dimulai dengan statemen terhadap masalah.
Proses simulasi dimulai dengan masalah yang memerlukan pemecahan atau
pemahaman. Sebagai contoh seperti kasus sebuah perusahaan kargo mencoba
untuk mengembangkan strategi baru untuk truk pengiriman atau astronom
mencoba untuk memahami bagaimana nebula terbentuk. Pada tahap ini, harus
dipahami perilaku dari sebuah sistem, organize operasi sistem sebagai obyek
dalam rangka percobaan. Kemudian perlu dianalisis berbagai alternatif solusi
dengan menyelidiki hasil sebelumnya untuk masalah yang sama. Solusi yang
paling diterima harus dipilih (menghilangkan tahap ini dapat menyebabkan
pemilihan solusi yang salah). Jika masalah melibatkan analisis kinerja, ini adalah
titik di mana bisa didefinisikan matrik kinerja (berdasarkan variabel output) dan
fungsi tujuan (yaitu, kombinasi dari beberapa matrik) (Madani et al., 2014).
2.12.2 Conceptual Model
Langkah ini terdiri dari pengembangan deskripsi tingkat tinggi dari
struktur dan perilaku atau behavior sebuah sistem dan mengidentifikasi semua
benda dengan atribut dan interface mereka. Pada tahap ini harus ditentukan apa
saja variabel statenya, bagaimana mereka berhubungan, dan mana yang penting
untuk penelitian. Pada langkah ini, aspek-aspek kunci dari requierements
dinyatakan. Selama definisi model konseptual, perlu diungkapkan fitur yang
penting. Kemudian mendokumentasikan informasi-untuk non-fungsional

31
misalnya, perubahan masa depan, perilaku unintuitive, dan hubungan sistem

dengan lingkungan (Madani et al., 2014).
2.12.3 Collection of Input/Output Data
Pada tahap ini, kita harus mempelajari sistem untuk memperoleh data
input / output. Untuk melakukannya, harus diamati dan mengumpulkan atribut
yang dipilih pada tahap sebelumnya. Isu penting lainnya selama fase ini adalah
pemilihan ukuran sampel yang valid secara statistik dan format data yang dapat
diproses dengan komputer. Akhirnya, kita harus memutuskan mana attribut yang
stokastik dan yang deterministik. Dalam beberapa kasus, tidak ada sumber data
yang bisa dikumpulkan (misalnya, untuk sistem yang belum ada). Dalam kasus
tersebut, kita perlu mencoba untuk mendapatkan set data dari sistem yang sama
(jika tersedia). Pilihan lain adalah dengan menggunakan pendekatan stokastik
untuk menyediakan data yang diperlukan melalui generasi nomor acak (Madani
et al., 2014).
2.12.4 Modelling Phase
Pada tahap pemodelan, kita harus membangun representasi rinci dari
sistem berdasarkan model konseptual dan koleksi data yang dikumpulkan.
Model ini dibangun dengan mendefinisikan objek, atribut, dan metode
menggunakan paradigma yang dipilih. Pada titik ini, spesifikasi model dibuat,
termasuk set persamaan yang mendefinisikan perilaku dan struktur. Setelah
menyelesaikan definisi ini, kita harus berusaha untuk membangun struktur awal
model (mungkin berkaitan variabel sistem dan matrik kinerja). Harus berhati-
hati dalam menjelaskan setiap asumsi dan penyederhanaan dan juga dalam
mengumpulkan atribut ke EF (Entity Framework) model (Madani et al., 2014).
2.12.5 Simulation Phase
Selama tahap simulasi, kita harus memilih mekanisme untuk
menerapkan model (dalam banyak kasus menggunakan komputer dan bahasa
pemrograman yang memadai serta tools yang tepat), dan model simulasi yang
dibangun. Selama langkah ini, mungkin diperlukan untuk menentukan algoritma
dan menerjemahkannya ke dalam program komputer. Pada tahap ini, kita juga
harus membangun model EF untuk proses simulasi (Madani et al., 2014).

32
2.12.6 Verification, Validation and Experimentation

Pada tahap-tahap sebelumnya, tiga model yang berbeda dibangun:
model konseptual (spesifikasi), model sistem (desain), dan model simulasi
(executable program). Kita perlu untuk memverifikasi dan memvalidasi model
ini. Verifikasi terkait dengan konsistensi internal antara tiga model. Validasi
difokuskan pada korespondensi antara model dan realitas: adalah hasil simulasi
yang konsisten dengan sistem yang dianalisis. Sementara itu pada fase
experimentation, kita harus mengevaluasi hasil dari simulator, menggunakan
korelasi statistik untuk menentukan tingkat presisi untuk matrik kinerja. Fase ini
dimulai dengan desain eksperimen, dengan menggunakan teknik yang berbeda.
Beberapa teknik ini meliputi analisis sensitivitas, optimasi,dan seleksi
(dibandingkan dengan sistem alternatif) (Madani et al., 2014).
2.12.7 Output Analysis Phase
Pada tahap analisis output, output simulasi dianalisis untuk memahami
perilaku sistem. Output ini digunakan untuk memperoleh tanggapan tentang
perilaku sistem yang asli. Pada tahap ini, alat visualisasi dapat digunakan untuk
membantu proses tersebut. Tujuan dari visualisasi adalah untuk memberikan
pemahaman yang lebih dalam tentang sistem yang sedang diselidiki dan
membantu dalam mengeksplorasi set besar data numerik yang dihasilkan oleh
simulasi (Madani et al., 2014).
2.13 Studi Literatur
Pada penelitian ini studi literatur sejenis digunakan oleh penulis sebagai
bahan untuk mengevaluasi dan sekaligus referensi penelitian yang akan dilakukan.
Hal ini dimaksudkan agar ada perbedaan pada penelitian ini dibandingkan dengan
penelitian-penelitian sebelumnya dan menjadi penelitian yang bermanfaat. Berikut
adalah literatur sejenis yang digunakan dan perbedaannya dengan penelitian ini :
1. Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor Pada Sentimen
Analisis Dengan Pendekatan Lexicon (Azhar, 2018).
Topik yang diambil adalah analisis kinerja algoritma Naïve Bayes dan K-
Nearest Neighbor pada sentimen analisis dengan pendekatan lexicon. Sosial
media yang diambil sentimennya adalah Twitter API. Proses NLP yang

33
digunakan adalah case folding, filtering, tokenizing, normalisasi, stopwords, dan

stemming. Dengan mempunyai kelebihan yaitu nilai K-NN pada tingkat akurasi
k=5 dengan tingkat akurasi mencapai 77% menggunakan dataset hasil crawling
data dengan kata kunci pilpres 2019 dan Jokowi. Lalu perbandingan antara
algoritma Naïve Bayes dengan K-NN selisih tingkat akurasi mencapai 4%.
Terdapat kekurangan sistem hanya bisa mengunakan data teks dan berbahasa
Indonesia, tidak tedapat metode orientasi teknis bigram, dan kurangnya koleksi
kamus sentimen.
2. Penerapan Metode K-Nearest Neighbor untuk analisis sentimen review game
pada Android oleh Sucitra Sahara, 2016
Topik yang diambil adalah penerapan metode K-Nearest Neighbor untuk
analisis review game pada android dengan menggunakan media sosial yang
diambil sentimennya adalah Twitter API. Lalu mengunakan algoritma K-NN
dengan proses metode Natural Languange Processing, yaitu; tokenizing,
stopwards dan stemming. Dengan mempunyai kelebihan K-NN berhasil
mendapatkan tingkat akurasi sebesar 74,50% menggunakan feature weighting
(pembobotan kata). Dan terdapat kekurangan yaitu pelabelan data latih
dilakukan secara manual.
3. Analisis sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada
media sosial Twitter mengggunakan K-NN (Nurjanah, Perdana &Fauzi, 2017).
Topik yang diambil adalah analisis sentimen terhadap tayangan televisi
berdasarkan opini masyarakat pada media sosial twitter mengggunakan K-NN.
Sosial media yang diambil sentimennya adalah Twitter API. Proses NLP yang
digunakan adalah tokenizing, case folding, cleansing, filterisasi, dan stemming.
Dengan mempunyai kelebihan yaitu Tingkat akurasi pembobotan tekstual
mencapai 82,50% dan non-tekstual 60% sedangkan gabungan keduanya
mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang merupakan k
optimal, dan konstanta α=0,8 dan β=0,2 %. Terdapat kekurangan Jika nilai
konstanta α =0, maka proses klasifikasi hanya menggunakan pembobotan
jumlah retweet saja. Sedangkan jika nilai β = 0, maka klasififkasi hanya
menggunakan pembobotan teks saja.

34
4. Analisis Sentimen pada Acara Televisi Mengunnakan Improved K-Nearest

Neighbor oleh Willa Oktinas, 2017.
Topik yang diambil adalah analisis sentimen pada acara televisi
menggunakan Improved K-Nearest Neighbor dengan menggunakan sosial
media yang diambil sentimen analisis adalah Twitter. Lalu tahapan yang
digunakan adalah Pre-Processing, yaitu cleansing, filtering, tokenizing,
stopward removal, dan stemming. Kemudian Fitur seleksi TF-IDF dengan
klasifikasi K-NN. Dengan kelebihan adalah hasil akurasi terbesar yang didapat
pada saat k=`10 sebesar 90% menggunakan cosine similarity. Dan terdapat
kekurangan, yaitu membutuhkan waktu yang lama pada saat pengujian.
5. Komparasi metode K-Nearest Neighbor dan Support Vector Machine pada
sentimen review kamera oleh Rustiana & Rahayu, 2017
Topik yang diambil adalah Komparasi metode K-Nearest Neighbor dan
Support Vector Machine pada sentimen review kamera dengan media sosial
yang diambil sentimen analisisnya adalah Twitter. Dengan Natural Languange
Processing menggunakan tokenizing, stopwords, stemming. Dengan kelebihan
yaitu Akurasi pada K-NN sebesar 79% dan Akurasi pada SVM sebesar 72%.
Akan tetapi memiliki kekurangan Pelabelan data latih dilakukan secara manual,
kurangnya tahapan proses NLP menyebabkan seleksi fitur ada yang tidak sesuai
dengan klasifikainya

35
Tabel 2. 6 Studi Literatur Sejenis
Nama Azhar, 2018 Sucitra Sahara, Nurjanah, Perdana, Willa Oktinas, 2017 Rustiana & Peneliti
Penulis 2016 & Fauzi, 2017 Rahayu, 2017 Sekarang
Topik Analisis Kinerja Penerapan Analisis Sentimen Analisis Sentimen Komparasi Analisis
Algoritma Naïve Metode K-Nearest Terhadap Tayangan pada Acara Televisi metode K-Nearest Sentimen
Bayes dan K- Neighbor untuk Televisi Berdasarkan Mengunnakan Neighbor dan Pemindahan Ibu
Nearest Neighbor analisis sentimen Opini Masyarakat Improved K-Nearest Support Vector Kota Indonesia
Pada Sentimen review game pada pada Media Sosial Neighbor. Machine pada Pada Media
Analisis Dengan android Twitter sentimen review Sosial Twitter
Pendekatan menggunakan kamera Menggunakan
Lexicon Metode k-NN Metode
Algoritma K-NN
Media Sosial Twitter Twitter Twitter Twitter Twitter Twitter
Algoritma Naïve Bayes dan K-NN K-NN K-NN K-NN dan SVM K-NN
Yang K-NN
Digunakan

36
Metode Case Folding, Tokenizing, Tokenizing , Case Cleansing, Filtering, Tokenizing, Case Folding,
Natural Filtering, Stopwords,dan folding, Cleansing, Tokenizing, Stopwords, dan Filtering,
Languange Tokenizing, Stemming Filterisasi, dan Stopward Removal, Stemming Tokenizing,
Processing Normalization, Stemming dan Stemming Normalization,
Yang Stopwords, dan Stopwords, dan
Digunakan Stemming Stemming
Kelebihan nilai K-NN pada K-NN berhasil Tingkat akurasi Dengan kelebihan Dengan kelebihan Nilai K-NN pada
tingkat akurasi mendapatkan pembobotan tekstual adalah hasil akurasi yaitu Akurasi k=9 akurasi
k=5 dengan tingkat akurasi mencapai 82,50% terbesar yang didapat pada K-NN mencapai 62%.
tingkat akurasi sebesar 74,50%, dan non-tekstual pada saat k=`10 sebesar 79% dan Lalu percobaan
mencapai 77%. menggunakan 60% sedangkan sebesar 90% Akurasi pada kedua mendapat
Algoritma Naïve feature weighting gabungan keduanya menggunakan SVM sebesar akurasi sebesar
Bayes dengan K- (pembobotan mencapai 83,33%. Cosine Similarity 72% 64% untuk K-
NN selisih tingkat kata) Nilai k yang NN.
akurasi mencapai digunakan yaitu k = 3
4% yang merupakan k
optimal, dan
konstanta α=0,8 dan
β=0,2.

37
Kekurangan sistem hanya bisa Pelabelan data Jika nilai konstanta α Dan terdapat Akan tetapi Sistem ini hanya
mengunakan data latih dilakukan =0, maka proses kekurangan, yaitu memiliki dapat
teks dan secara manual klasifikasi hanya membutuhkan waktu kekurangan mengklasifikasi
berbahasa menggunakan yang lama pada saat Pelabelan data data teks
Indonesia, tidak pembobotan jumlah pengujian latih dilakukan berbahasa
tedapat metode retweet saja. secara manual, Indonesia dan
orientasi teknis Sedangkan jika nilai kurangnya diharapkan
bigram, dan β = 0, maka tahapan proses dapat berjalan di
kurangnya koleksi klasififkasi hanya NLP semua platfrom.
kamus sentimen. menggunakan menyebabkan Kurangnya
pembobotan teks seleksi fitur ada koleksi kampus
saja. yang tidak sesuai sehingga dapat
dengan lebih maksimal.
klasifikainya
Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya
Nama Azhar, 2018 Sucitra Sahara, Nurjanah, Willa Oktinas, Rustiana & Peneliti Sekarang
Penulis 2016 Perdana, & Fauzi, 2017 Rahayu, 2017
2017

38
Seleksi Fitur Menggunakan menggunakan Menggunakan Menggunakan Menggunakan Menggunakan

Untuk pembobotan TF- feature weighting pembobotan pembobotan TF- pembobotan TF- pembobotan TF-
Klasifikasi IDF (pembobotan kata) Tekstual dan Non IDF IDF IDF.
Tekstual
Labelling Labelling data Pelabelan data Data latih terdiri Pelabelan data Pelabelan data Data latih terdiri
Data Latih lmenggunakan dilakukan masih dari 280 data dan dilakukan masih dilakukan masih dari 900 tweet
Lexicon Based. secara manual data uji terdiri dari secara manual. secara manual dengan
Data latih terdiri 120 data. Terdapat Terdapat 3 menggunakan
dari 900 tweet 2 kategori kategori sentimen, metode
dengan 300 sentimen, yaitu yaitu sentimen pendekatan
sentimen positif, positif dan positif, negatif, lexicon. Data uji
300 sentimen negatif. dan netral. terdiri dari 100
negatif dan 300 tweet.
sentimen netral
Tahapan Pengujian dua kali, Pengujian Pengujian Pengujian Pengujian Pengujian
Data pertama dilakukan dilakukan dengan dilakukan 3 kali, dilakukan dilakukan dua dilakukan dua kali
Pengujian kombinasi 10 skenario, yang menggunakan sebanyak 10 kali kali, yaitu dimana.
algoritma Naïve mana nilai k dari 1- pembobotan dengan nilai k=1- pengujian K-NN Pengujian

39
Bayes dan K-NN 10 yang kemudian tekstual, non- 10. Didapatkan dan SVM yang pertama dilakukan
dengan labelling didapatkan nilai k tekstual dan hasil akurasi kemudian dengan algoritma
lexicon dan 10 mendapatkan penggabungan. tertinggi dengan dibandingkan K-NN 62%. Lalu
pengujian kedua akurasi yang paling Nilai k yang nilai k=10 sebesar sehingga percobaan kedua
dibandingkan tinggi. digunakan k=3 90%. didapatkan bahwa mendapat akurasi
dengan algoritma dan konstanta K-NN lebih baik sebesar 64%
Naïve Bayes dan K- α=0,8 dan β=0,2 dari SVM dengan untuk K-NN
NN tanpa lexicon. nilai 79% dan
72%.
2.14 Studi Pustaka
Fokus utama suatu tinjauan atau literature review dalam suatu penelitian adalah mengetahui apakah para peneliti lain telah
menemukan jawaban untuk pertanyaan-pertanyaan penelitian yang kita rumuskan. Jika dapat menemukan jawaban pertanyaan
penelitian tersebut dalam berbagai pustaka atau laporan hasil penelitian yang paling aktual, maka kita tidak perlu melakukan penelitian
yang sama. Kita harus memilih topik lain atau menyempurnakan hasil penelitian yang telah ada sehingga topik tersebut menjadi lebih
spesifik.

BAB III
METODE PENELITIAN
3.1 Metode Pengumpulan Data
Pada penelitian ini penulis mengumpulkan data dan informasi yang dapat
menunjang proses dalam penelitian dimana proses pengumpulan data sebagai
berikut
3.1.1 Studi Pustaka
Studi pustaka dilakukan dengan pengumpulan teori-teori yang berkaitan
dengan penulisan skripsi sebagai bahan untuk melengkapi penelitian ini. Sumber
teori berasal dari buku referensi, hasil penelitian (jurnal dan skripsi) dan artikel-
artikel terkait. Selain itu peneliti juga mengunjungi situs-situs yang terkait
aplikasi natural language processing, text mining, pendekatan lexicon, dan
Algoritma K-Nearest Neighbor (K-NN). Pustaka-pustaka yang dijadikan acuan
dapat dilihat di daftar pustaka. Pustaka-pustaka yang dijadikan acuan dapat
dilihat di daftar pustaka sebanyak 16 studi pustaka yang terdiri dari 1 buku, 1 e-
book, 10 jurnal, 4 sumber literatur elektronik.
3.1.2 Studi Literatur
Merupakan sumber data sekunder dalam penelitian. Studi literatur
dilakukan dengan pengumpulan teori-teori yang berkaitan dengan penulisan riset
sebagai bahan untuk melengkapi penelitian. Sumber teori berasal dari buku
referensi, hasil penelitian (jurnal dan skripsi), dan artikel terkait. Dapat dilihat di
(Tabel 2.6 dan Tabel 2.7)
3.1.3 Observasi
Peneliti melakukan observasi data dari Twitter API tentang pendapat atau
komentar netizen terhadap berita pemindahan ibu kota Indonesia pada tahun
2019 ini. Dimana mulai berita isu-isu lokasi tempat yang akan dijadikan ibu kota
baru Indonesia, politik, ekonomi keuangan yang ada di dalam berita pemindahan
ibu kota Indonesia tersebut. Crawling data dimulai dari tanggal10 Oktober 2019
hingga 23 Oktober 2019 untuk pengambilan data pertama dan 23 Januari 2020
hingga 03 Februari 2020 untuk pengambilan data kedua. Untuk developer yang
terdapat pada website https://developers.twitter.com/. Setelah data didapatkan
40
41
dari Twitter API dalam bentuk XML, kemudian data tersebut disimpan langsung
menuju ke database MySQL. Pengambilan data dilakukan sebanyak 1.000 tweet
dengan 900 tweet dijadikan data latih dan 100 tweet dijadikan data uji.
Gambar 3. 1 Tahapan Pengambilan Data Twitter
3.2 Metode Simulasi

Metode yang digunakan pada penelitian ini yakni metode simulasi, berikut
langkah-langkah metode simulasi.
3.2.1 Problem Formulasi (Formulasi Masalah)
Pada tahap formulasi masalah, penulis melakukan identifikasi masalah
berdasarkan hasil penelitian sebelumnya (pada tabel 2.6 dan 2.7). Penelitian
sebelumnya berkaitan dengan Algortima K-NN. Penelitian yang dilakukan

42
Azhar nilai K-NN pada tingkat akurasi k=5 mencapai 77% dan selisisih tingkat
akurasi mencapai 4% pada algoritma Naïve Bayes kemudian tidak adanya
metode orientasi teknis bigram dan kurang koleksi kamus sentimen. Sedangkan
pada peneliti yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian
analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah
sebesar 74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa
algoritma K-NN merupakan metode yang sesuai dengan klasifikasi text dan
memiliki performa yang tinggi.
Pada penelitian ini, data yang digunakan adalah tweet berbahasa Indonesia
yang terdapat pada Twitter. Terdapat batasan penulisan yaitu sebanyak 140
karakter didalam tweet. Terbatasnya penulisan membuat pengguna Twitter
seringkali menuliskan pesan berupa singkatan. Selain itu juga pengguna Twitter
dapat mengungkapkan ekspresi mereka dengan penggunaan huruf berlebihan
pada pesan Twitter. Hal ini menjadi suatu permasalahan dalam menentukan
orientasi sentimen analisis pada Twitter. Untuk itu diperlukan suatu algoritma
yang mampu mengatasi pesan Twitter yang mengandung sentimen sekaligus
dapat menyeleksi kata singkatan dan kata berlebih kemudian merubahnya
dengan kata yang dapat dijadikan fitur.
3.2.2 Conceptual Model (Pemodelan Konsep)
Dalam penelitian ini pemodelan konsep membahas keseluruhan penelitian
ini berkaitan dengan input, proses dan output. Pertama dengan
mengidentifikasikan input pada penelitian ini, yaitu tweet yang berisikan opini
warganet terkait pemindahan ibu kota Indonesia. Kedua, tweet yang telah
dikumpulkan kemudian diolah dan diproses dengan pendekatan lexicon sebagai
pelabelan terhadap data latih. Menggunakan metode algoritma K-NN klasifikasi
data uji. Hasilnya akan menghitung confussion matrix yang mempunyai keluaran
diantaranya tingkat akurasi, error rate, presisi, f-measure dan recall.
3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau
Keluaran Data)
Data komentar yang didapat dari Twitter API dijadikan input pada
penelitian ini dalam aplikasi berbasis PHP. Pengambilan data dilakukan

43
sebanyak 1.000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet
dijadikan data uji. Periode pengambilan data dibagi menjadi 2, yaitu data
pertama dari 10 Oktober 2019 hingga 23 Oktober 2019 dan 23 Januari 2020
hingga 03 Februari 2020. Data latih akan diolah menggunakan pendekatan
lexicon, sementara data uji akan diolah menggunakan metode algoritma K-
Nearest Neighbor.
3.2.4 Modelling Phase (Tahap Permodelan)
Pada tahap pemodelan, penulis membuat rancangan model sistem yang
akan dibuat. Pemodelan yang dibuat yaitu pemodelan pedekatan lexicon sebagai
metode pemberian label otomatis pada data latih dan pemodelan dengan
algoritma K-NN untuk klasifikasi data uji.
3.2.5 Simulation Phase (Tahap Simulasi)
Penulis melakukan simulasi pada aplikasi sentimen analisis ini. Simulasi
yang akan dilakukan adalah dengan melakukan input data set latih dan uji,
melakukan pelabelan terhadap data latih secara otomatis dengan lexicon based
untuk dikelompokkan sentimennya, melakukan pelatihan terhadap data latih dan
melakukan klasifikasi data uji dengan algoritma K-NN serta menghasilkan
tingkat akurasi, error rate, presisi dan recall dari algoritma yang dijadikan
penelitian.
3.2.6 Conclusion (Verification, Validation, and Experimentation)
Untuk membuat kesimpulan, penulis terlebih dahulu melakukan uji
verifikasi, validasi dan ekperimen. Verifikasi dan validasi bertujuan untuk
menyakinkan hasil dari aplikasi orientasi sentimen dengan menggunakan
algoritma K-NN. Sedangkan eksperimen bertujuan untuk mengevaluasi hasil
simulasi aplikasi.
3.2.7 Output Analysis Phase (Fase Analisa Hasil)
Penulis melakukan analisa terhadap output-output berdasarkan skenario
yang akan dilakukan yaitu melakukan perbandingan dengan hasil klasifikasi
algoritma K-NN dengan data latih dan data uji yang sama, serta menghitung
tingkat akurasi, error rate, presisi, f-measure dan recall dari algoritma yang
dijadikan penelitian.

44
3.3 Skenario Pengujian

Setelah aplikasi sudah menjadi suatu perangkat lunak yang siap untuk
dipakai, maka perlu dilakukan pengujian terhadap aplikasi tersebut. Skenario
pengujian yang dilakukan adalah sebagai berikut:
1. Pengujian pertama pada pengambilan data tanggal 10 Oktober 2019- 23 Oktober
2019 menggunakan algoritma K-Nearest Neighbor.
Pengujian ini dilakukan untuk mengklasifikasikan data uji ke dalam kelas
sentimen positif, netral atau negatif menggunakan algoritma K-Nearest
Neighbor. Pengujian dilakukan berdasarkan penentuan nilai k pada algoritma K-
NN yaitu k=1, k=3, k=5, k=9, k=10. Perhitungan tingkat akurasi, error rate,
presisi, dan recall akan ditentukan dengan menggunakan model confussion
matrix dari kombinasi algoritma tersebut.
2. Pengujian kedua pada pengambilan data tanggal 23 Januari 2020- 02 Februari
2020 menggunakan algoritma K-Nearest Neighbor.
Pengujian ini dilakukan untuk mengklasifikasikan data uji ke dalam kelas
sentimen positif, netral atau negatif menggunakan algoritma K-Nearest
Neighbor. Pengujian dilakukan berdasarkan penentuan nilai k pada algoritma K-
NN yaitu k=1, k=3, k=5, k=9, k=10. Perhitungan tingkat akurasi, error rate,
presisi, dan recall akan ditentukan dengan menggunakan model confussion
matrix dari kombinasi algoritma tersebut.
3.4 Alur Penelitian
Alur Penelitian merupakan suatu alur diagram yang menjelaskan proses
berjalannya sebuah penelitian. Dalam penelitian ini, penulis mengacu pada alur
penelitian sebagai berikut:

45
Gambar 3. 2 Alur Penelitian

BAB IV
IMPLEMENTASI
4.1 Problem Formulation
Pada penelitian ini, penulis memformulasikan masalah penelitian pada
algoritma K-Nearest Neighbor sebagai klasifikasi hasil orientasi sentimen dengan
klasifikasi sentimen data latih menggunakan metode lexicon based. Kemudian
didapatkan pendapat warganet terhadap pemindahan ibu kota Indonesia pada media
sosial Twitter dan juga tingkat akurasi metode K-Nearest Neighbor (K-NN) dalam
memprediksi pendapat warganet terhadap pemindahan ibu kota Indonesia pada
media sosial Twitter.
4.2 Conceptual Model
Berdasarkan Conceptual Model pada Subbab 3.2.2, berikut ini penjelasan
sebagai berikut :
4.2.1 Conceptual Model Text Mining
Dalam penelitian ini text mining berkaitan dengan tahapan pre-
proccessing dokumen Dari data pre-proccessing akan di dapat dataset dengan
variasi fitur. Tahapan yang dilakukan dari dokumen pre-processing dijelaskan
dibawah ini.
1. Case Folding
Tahapan case folding, adalah proses penyeragaman bentuk huruf. Teks
dilakukan proses perubahan dari huruf besar menjadi huruf kecil.
Gambar 4. 1 Contoh Case Folding
2. Filtering
Tahapan filtering, adalah proses untuk membersihkan dokumen kegiatan yang
dilakukan adalah proses penghapusan karakter selain utf-8, url link, hashtag dan
mention.
46
47
Gambar 4. 2 Contoh Filtering
3. Tokenizing
Tahapan tokenizing, teks dilakukan proses penghapusan semua tanda baca dan
memecah kata
Gambar 4. 3 Contoh Tokenizing
4. Normalisasi
Tahapan Normalisasi, teks dilakukan proses pernormalisasian terhadap kata
berlebihan dan kata singkatan dengan mengganti sesuai kaidah dalam kamus
Kamus Besar Bahasa Indonesia (KBBI). Pada tahapan ini setiap dijumpai kata
yang memiliki penggunaan huruf berlebih dan kata singkatan akan diubah
menjadi kata baku.
Gambar 4. 4 Contoh Normalisasi
5. Stopwards
Tahapan stopwords dan stemming, teks dilakukan proses menghapus kata kata
yang dianggap tidak penting (stopwords) dan pengubahan kata berimbuhan
menjadi kata dasar (stemming). Adapun variasi imbuhan dalam hal ini antara lain
adalah prefik (awalan), suffik (akhiran), infik (sisipan), dan confik (kombinasi
awalan dan akhiran). Proses stemming dilakukan dengan menggunakan bantuan
KBBI. Pada tahap ini kata-kata yang bersifat stopwords akan dibuang hal ini

48
dikarenakan stopwords dianggap sebagai kata tidak penting atau tidak berguna
dan tahapan ini juga dapat menekan penggunaan waktu dalam menentukan hasil.
Gambar 4. 5 Contoh Stopword
6. Stemming Nazief dan Andriani

Selanjutnya dilakukan proses stemming dimana kata berimbuhan akan diubah
dalam bentuk kata dasar dengan menggunakan algoritma nazief dan adriani.
Gambar 4. 6 Contoh Stemming
4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon

Berikut ini merupakan alur klasifikasi sentimen dengan pendekatan
lexicon.
a. Membangun kamus sentimen yang terbagi menjadi kamus sentimen positif
dan kamus sentimen negatif.
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem.
Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus
negatif berjumlah 2.403 kata (sumber github).
b. Membangun kamus negasi
Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata (sumber
github).
c. Pre-proccessing query yang terdiri dari 4 proses yaitu case folding, filtering,
tokenizing dan normalisasi.
d. Identifikasi setiap kata sentimen pada query.
e. Identifikasi kata negasi pada query yang ditemukan sentimennya
f. Menentukan orientasi sentimen pada query, dengan cara melakukan hitung
score.

49
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan
Untuk contoh penggunaan rumus diatas akan diterangkan pada sub bab 4.4.1 yaitu
konstruksi pendekatan lexicon.
4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN
Berikut ini merupakan alur Tahap Pelatihan Algoritma K-Nearest
Neighbor :
1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan
negatif dalam penelitian ini dibangun kamus positif dan negatif secara sistem.
Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus
negatif berjumlah 2.403 kata.
2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
3. Melakukan crawling data, yaitu dengan 1000 tweet dimana 900 tweet untuk
data latih dan 100 tweet untuk data uji. Dengan kata kunci pemindahan ibu
kota, ibu kota pindah, dan ibu kota baru
4. Pelatihan data latih. Pelatihan data latih dilakukan dengan cara membangun
inverted index (indexing) dan pembobotan kata menggunakan teknik TF-IDF.
Pelatihan dilakukan sebagai data pembelajaran oleh mesin k-NN. Tahapan
yang dilakukan adalah mengumpulkan dokumen yang didapat dari kumpulan
tweets berisi sentimen sebagai data latih, kemudian dilakukan proses pre-
proccessing query dalam enam tahapan dan terakhir melakukan indexing dan
pembobotan kata per kata data latih.
 Case Folding
Gambar 4. 7 Proses Case Folding
 Filtering

50
Gambar 4. 8 Proses Filtering
 Tokenizing
Gambar 4. 9 Proses Tokenizing
 Normalisasi
Gambar 4. 10 Proses Normalisasi
 Stopwords
Gambar 4. 11 Proses Stopwords
 Stemming
Gambar 4. 12 Proses Stemming
5. Indexing (Pembuatan inverted index)

Pada tahap ini, dilakukan proses pengindeksan pada setiap token. Pada
inverted index akan tersimpan informasi berupa kata, yang mengandung kata
tersebut dan frekuensi kemunculan kata tersebut pada suatu dokumen.
6. Pembobotan Kata
Hasil dari indexing pada proses selanjutnya akan dihitung nilai bobotnya.
Pada penelitian ini digunakan jenis perhitungan pembobotan lokal dengan
menggunakan TF (term frekuency) dan pembobotan global dengan
menggunakan IDF (inverse dokument frekuency).

51
a. Klasifikasi query uji sementara (sentimen sementara) dengan algoritma k-

Nearest Neighbor.
1. Melakukan pre-proccessing query data uji. Proses yang terlibat adalah
casefolding, filtering, tokenizing, normalisasi, stopwords dan stemming..
2. Menghitung kedekatan kemiripan query dengan persamaan consine
similarity
∑ 𝑘(𝑑1 𝑑𝑘)
𝐶𝑜𝑠(𝑖, 𝑘) = .....................................................................(4.2)
2 ∑ 𝑘𝑑2
√∑ 𝑘 𝑑𝑖𝑘 √ 𝑗𝑘
Keterangan :
∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k
2
√∑ 𝑘 𝑑𝑖𝑘 = panjang vektor i
2
√∑ 𝑘 𝑑𝑗𝑘 = panjang vektor k
3. Menentukan nilai k pada algoritma k-NN.

4. Menyimpulkan orientsi sentimen sementara dengan persamaan
𝐷𝑛𝑛(𝑐1 𝑐2) = 𝑚𝑖𝑛1≤𝑖≤𝑟,1≤𝑗≤𝑠 𝑑(𝑦𝑖 , 𝑧𝑖 )..................................................(4.3)
5. Tahapan klasifikasi query uji sementara dengan algortima k-NN dapat
dilihat pada Sub Bab 4.4.2 Konstruksi algoritma K-NN secara manual.
4.3 Collection Input/Output Data
Crawling data merupakan tahap awal berupa pengumpulan data untuk
diproses menuju tahap text mining. Dalam proses crawling data penggunaan twitter
API sebagai sarana dan pintu untuk mengambil data berupa tweet dari media sosial
twitter. Selain itu pengumpulan data berkaitan dengan kamus-kamus yang akan
digunakan, yang terdiri dari kamus positif dan kamus negatif, kamus kata dasar,
kamus KBBI, dan kamus stopwords.
Dalam proses crawling data yang dibutuhkan adalah berupa pendapat
warganet dalam tweet di media sosial Twitter yang berisi sentimen positif (berisi
emosi senang, mendukung, suka, dan menyambut gembira), sentimen negatif
(berisi emosi kecewa, sedih, dan marah) dan sentimen netral.

52
Untuk mengambil crawling data tersebut membutukan kata kunci dalam

menentukannya. Kata kunci atau filter untuk mengambilnya adalah pemindahan ibu
kota, ibu kota baru dan ibu kota pindah. Kemudian semua pendapat warganet baik
berupa warga negara Indonesia, warga negara Indonesia yang berada di luar negeri,
maupun warga negara asing yang sudah mendapatkan kebangsaan Indonesia kita
ambil akan tetapi tentu saja dengan kata kunci filter diatas. Untuk pengambilan data
dilakukan dua kali, untuk pengambilan data pertama dilakukan pada periode 10
Oktober 2019 – 23 Oktober 2019 dan pengambilan data kedua dilakukan pada
periode 23 Januari 2020 – 02 Februari 2020. Untuk jumlah data dibutuhkan
sebanyak 1000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet dijadikan
data uji.
Gambar 4. 13 Hasil Crawling Data
4.4 Modelling Phase

4.4.1 Konstruksi Pendekatan Lexicon
Pada proses ini akan menentukan sentimen twitter menggnakan
pendekatan lexicon. Penggunaan pendekatan lexicon bertujuan menciptakan data
latih dan kemudian menentukan orientasi sentimen dari unit teks melalui data
latih dan kemudian menentukan orientasi sentimen dari unit teks melalui
beberapa fungsi berdasarkan kamus positif dan negatif. Proses ini sangat
bergantung dan memperhatikan pada kamus sentimen yang akan dibangun guna
mendapatkan akurasi sentimen yang baik. Secara keseluruhan konstruksi
analisis orientasi sentimen dengan pendekatan lexicon dapat dijelaskan secara
berikut :
1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan negatif

53
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus
sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif
berjumlah 2.403 kata.
2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
3. Pre-processing query
Contoh data latih yang ditentukan sentimennya dengan menggunakan metode
lexicon
Tweet : “@onoo04 Pejabat yang terhormat lebih baik kita menabung untuk
membuat ibu kota baru jangan berhutang karena hutang kita udah gede. Kasian
pemerintah masa depan akan menanggung pembayarannya #IbuKotaBaru
#puisimalam #bacotsantuy”
 Case Folding (mengubah huruf kapital menjadi huruf kecil)
@onoo04 pejabat yang terhormat lebih baik kita menabung untuk membuat ibu
kota baru jangan berhutang karena hutang kita udah gede. kasian pemerintah
masa depan akan menanggung pembayarannya. #ibukotabaru #puisimalam
#bacotsantuy
 Filtering (menghilangkan karakter khusus, tanda baca dan angka)
pejabat yang terhormat lebih baik kita menabung untuk membuat ibu kota baru
jangan berhutang karena hutang kita udah gede. kasian pemerintah masa depan
akan menanggung pembayarannya
 Tokenizing (menghapus semua tanda baca dan memecah kata)
Tabel 4. 1 Tokenizing
pejabat yang terhormat lebih

baik kita menabung untuk
membuat ibu kota baru
jangan berhutang karena hutang
kita sudah besar kasian
pemerintah masa depan akan
menanggung pembayarannya
 Normalisasi kata.
Pada penelitian ini normalisasi dilakukan dua kali. Pertama normalisasi kata
yang memiliki kata berlebih dan tidak sesuai dengan standar ejaan KBBI. Kedua

54
normalisasi kata tidak baku yang diubah menjadi kata baku sesuai ejaan KBBI.
Selanjutnya, kata-kata pada data latih dibandingkan dengan kata yang terdapat
pada kamus KBBI. Jika kata pada data latih tidak sesuai dengan kata pada KBBI
maka akan dilakukan normalisasi. Berikut ini merupakan hasil dari normalisasi
kata:
Tabel 4. 2 Normalisasi
pejabat yang terhormat lebih

baik kita menabung untuk
membuat ibu kota baru
jangan berhutang karena hutang
kita sudah besar kasian
pemerintah masa depan akan
menanggung pembayarannya
 Identifikasi setiap kata sentimen pada query

Tahap selanjutnya adalah mengekstrasi kata-kata yang memiliki sentimen positif
dan negatif. Caranya adalah dengan membandingkan kata pada data latih dengan
kata pada kamus lexicon sentimen positif, negatif dan negasi.
Tabel 4. 3 Identifikasi Setiap Kata Pada Query
Positif Negatif
terhormat
berhutang
hutang
Baik
membuat
2 kata 3 kata
Pada proses ini tidak ada kata yang teridentifikasi sebagai kata negasi. Sehingga
kata sebelumnya tidak berubah
 Menentukan Sentimen
Setelah keyword berhasil diekstrak, selanjutnya masing-masing keyword
dihitung kemunculannya. Jumlah keyword terbanyak, maka akan diambil
sentimennya.
Berikut perhitungan score:

55
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan
2 + (−3)
𝑠𝑐𝑜𝑟𝑒(𝑓) = = −1
1
Hasil perhitungan score adalah -1, sehingga dapat disimpulkan dokumen
memiliki sentimen negatif.
4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual
Proses analisis sentimen pemindahan ibu kota pada media sosial Twitter
menggunakan metode algoritma K-NN akan dijelaskan di bawah ini :
a. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan
negatif
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus
sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif
berjumlah 2.403 kata.
b. Membangun kamus negasi
Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
c. Pelatihan data latih (inverted index dan pembobotan kata)
Untuk lebih jelas nya, berikut adalah contoh pembuatan inverted index dan
pembobotan kata pada data latih secara keseluruhan.
1. Mengumpulkan dokumen yang didapat dari kumpulan tweet berisi sentimen
sebagai data latih. Sebagai contoh digunakan 9 dokumen sebagai data latih.
Tabel 4. 4 Dokumen data latih
Dok(n) Isi Tweet Sentimen

Tweet
1. #Prabowo Dukung Pemerintah Pindahkan Ibu Positif
Kota https://t.co/tpocXQdSwP #nasional
#ibukotabaru #jokowi
2. Setelah temui Jokowi, Prabowo tegaskan Positif
dukung pemindahan Ibukota. #verta
#vertanews #JokowiPrabowo #ibukotabaruâ€¦
https://t.co/9VrF7izaRq
3. Dampak Negatif Kebijakan Presiden Joko Negatif
Widodo Pindahkan Ibu Kota ke Kaltim, 38 Kg
Narkoba Masuk¦ https://t.co/85jUima1p1

56
4. Pemkab Penajam Paser Utara ingin secepatnya Positif

ada penyesuaian rencana tata ruang wilayah
alias RTRW seiring dengan realisasi¦
https://t.co/hYHwIbI34h
5. Isu #BPJS #RUPP #KebakaranHutan Negatif
#IbukotaPindah mana yg lg viral
6. Waktunya mengawal mandat dari rakyat Netral
Indonesia. #WeLoveYou
#BersamaBangunNegeri
#03PersatuanIndonesia #JokowiLagiâ€¦
https://t.co/jXaqeFU0Hh
7. 9.#Kota baru yg semata untuk menciptakan Netral
peluang investasi, untuk hedge funds.
Penciptaan #kota yang tidak ada hubungannya¦
https://t.co/xfPI574nIh
8. 4.ambil contoh #urbanisasi di negara Timur Negatif
Tengah, seperti Dubai, Doha, dengan bangunan
yg tampak absurd. Untuk siapa¦
https://t.co/PobH0xqXsq
9. 6.Sumberdaya yang begitu besar dimobilisasi Netral
bagi memproduksi #kota baru, yg ironisnya pd
akhirnya tidak ada penghuninya¦
https://t.co/sEWGAnwq4m
2. Case Folding
Tabel 4. 5 Hasil case folding pada data latih

Tweet
1. #prabowo dukung pemerintah pindahkan ibu Positif
kota https://t.co/tpocxqdswp #nasional
#ibukotabaru #jokowi
2. setelah temui jokowi, prabowo tegaskan Positif
dukung pemindahan ibukota. #verta
#vertanews #jokowiprabowo #ibukotabaru????
https://t.co/9vrf7izarq
3. dampak negatif kebijakan presiden joko Negatif
widodo pindahkan ibu kota ke kaltim, 38 kg
narkoba masuk¦ https://t.co/85juima1p1
4. pemkab penajam paser utara ingin secepatnya Positif
alias rtrw seiring dengan reâ€¦
https://t.co/hyhwibi34h
5. isu #bpjs #rupp #kebakaranhutan Negatif
#ibukotapindah mana yg lg viral

57
6. waktunya mengawal mandat dari rakyat Netral

indonesia. #weloveyou #bersamabangunnegeri
#03persatuanindonesia #jokowilagi????
https://t.co/h2k6pxvhbv
7. 9.#kota baru yg semata untuk menciptakan Netral
peluang investasi, untuk hedge funds.
penciptaan #kota yang tidak ada hubungan¦
https://t.co/xfpi574nih
8. 4.ambil contoh #urbanisasi di negara timur Negatif
tengah, seperti dubai, doha, dengan bangunan
yg tampak absurd. untuk siaâ€¦
https://t.co/pobh0xqxsq
9. 6.sumberdaya yang begitu besar dimobilisasi Netral
bagi memproduksi #kota baru, yg ironisnya pd
https://t.co/sewganwq4m
3. Filtering
Tabel 4. 6 Filtering

Tweet
1. dukung pemerintah pindahkan ibu kota Positif
2. setelah temui jokowi, prabowo tegaskan Positif
dukung pemindahan ibukota.
3. dampak negatif kebijakan presiden joko Negatif
widodo pindahkan ibu kota ke kaltim, 38 kg
narkoba masukâ€¦
4. pemkab penajam paser utara ingin secepatnya Positif
alias rtrw seiring dengan realisasi¦
5. isu mana yg lg viral Negatif
6. waktunya mengawal mandat dari rakyat Netral
indonesia.
7. 9. baru yg semata untuk menciptakan peluang Netral
investasi, untuk hedge funds. penciptaan yang
tidak ada hubungannya¦
8. 4.ambil contoh di negara timur tengah, seperti Negatif
dubai, doha, dengan bangunan yg tampak
absurd. untuk siapa¦
9. 6.sumberdaya yang begitu besar dimobilisasi Netral
bagi memproduksi baru, yg ironisnya pd
4. Tokenizing
Tabel 4. 7 Hasil Tokenizing pada data latih

58
Dok(1) Dok(2) Dok(3) Dok(4) Dok(5)

dukung setelah dampak pemkab isu
pemerintah temui negatif penajam mana
pindahkan jokowi kebijakan paser yg
ibu prabowo presiden utara lg
kota tegaskan joko ingin viral
dukung widodo secepatnya
pemindahan pindahkan ada
ibukota ibu penyesuaian
kota rencana
ke tata
kaltim ruang
kg wilayah
narkoba alias
masuk rtrw
seiring
dengan
realisasi
Dok(6) Dok(7) Dok(8) Dok(9)
waktunya baru ambil sumberdaya
mengawal yg contoh yang
mandat semata di begitu
dari untuk negara besar
rakyat menciptakan timur dimobilisasi
indonesia peluang tengah bagi
investasi seperti memproduksi
untuk dubai baru
hedge doha yg
funds dengan ironisnya
penciptaan bangunan pd
yang yg akhirnya
tidak tampak tidak
ada absurd ada
hubungannya untuk penghuninya
siapa
5. Normalisasi
Tabel 4. 8 Hasil normalisasi pada data latih

dukung setelah dampak pemkab isu
pemerintah temui negatif penajam mana
pindahkan jokowi kebijakan paser yg
kota prabowo presiden utara lg
tegaskan joko ingin viral

59
dukung widodo secepatnya

pemindahan pindahkan ada
ibukota ibu penyesuaian
kota rencana
ke tata
kaltim ruang
kg wilayah
narkoba alias
masuk rtrw
seiring
dengan
realisasi
waktunya baru ambil sumberdaya
mengawal yg contoh yang
mandat semata di begitu
dari untuk negara besar
rakyat menciptakan timur dimobilisasi
indonesia peluang tengah bagi
investasi seperti memproduksi
untuk dubai baru
hedge doha yg
funds dengan ironisnya
penciptaan bangunan pada
yang yg akhirnya
tidak tampak tidak
ada absurd ada
hubungannya untuk penghuninya
siapa
6. Stopwords
Tabel 4. 9 Hasil stopwords data latih

dukung temui dampak pemkab isu
pemerintah jokowi negatif penajam viral
pindahkan prabowo kebijakan paser
ibu tegaskan presiden utara
dukung joko secepatnya
pemindahan widodo penyesuaian
ibukota pindahkan rencana
kaltim tata
kg ruang
narkoba wilayah
masuk alias

60
rtrw
seiring
realiasi
mengawal menciptakan ambil sumberdaya
mandat peluang contoh dimobilisasi
rakyat investasi negara memproduksi
indonesia hedge timur ironisnya
funds dubai penghuninya
penciptaan doha
hubungannya bangunan
absurd
7. Stemming
Tabel 4. 10 Hasil Stemming Pada Data Latih

dukung temu dampak pemkab isu
perintah jokowi negatif najam viral
pindah prabowo bijak paser
tegas presiden utara
dukung joko cepat
pindah widodo sesuai
ibukota pindah rencana
kaltim tata
kg ruang
narkoba wilayah
masuk alias
rtrw
iring
realisasi
awal cipta ambil sumberdaya
mandat peluang contoh mobilisasi
rakyat investasi negara memproduksi
indonesia hedge timur huni
funds dubai
cipta doha
hubung bangun
absurd
8. Indexing (pembuatan inverted index). Berikut ini hasil dari indexing pada data
latih.
Tabel 4. 11 Hasil proses indexing
Kosa Kata (Dokumen : Frekuensi)

61
dukung 1:1, 2:1

perintah 1:1
pindah 1:1, 2:1, 3:1
temu 2:1
jokowi 2:1
prabowo 2:1
tegas 2:1
ibukota 2:1
dampak 3:1
negatif 3:1
bijak 3:1
presiden 3:1
joko 3:1
widodo 3:1
kaltim 3:1
Kg 3:1
narkoba 3:1
masuk 3:1
pemkab 4:1
najam 4:1
paser 4:1
utara 4:1
cepat 4:1
sesuai 4:1
rencana 4:1
tata 4:1
ruang 4:1
wilayah 4:1
alias 4:1
rtrw 4:1
iring 4:1
realisasi 4:1
isu 5:1
viral 5:1
awal 6:1
mandat 6:1
rakyat 6:1
indonesia 6:1
cipta 7:2
peluang 7:1
investasi 7:1
hedge 7:1
funds 7:1
hubung 7:1

62
ambil 8:1
contoh 8:1
negara 8:1
timur 8:1
dubai 8:1
doha 8:1
bangun 8:1
absurd 8:1
sumberdaya 9:1
mobilisasi 9:1
memproduksi 9:1
Huni 9:1
Keterangan :
Kosa kata : kata tunggal yang terdapat dalam dokumen
Dokumen frekuensi : frekuensi kata dalam dokumen
1. Pembobotan kata. Berikut ini hasil dari pembobotan kata terhadap kata hasil
indexing
Tabel 4. 12 Hasil pembobotan kata tf
Kosa Kata Tf(D1) Tf(D2) Tf(D3) Tf(D4) Tf(D5) Tf(D6) Tf(D7) Tf(D8) Tf(D9) Df
dukung 1 1 0 0 0 0 0 0 0 2
perintah 1 0 0 0 0 0 0 0 0 1
pindah 1 1 1 0 0 0 0 0 0 3
temu 0 1 0 0 0 0 0 0 0 1
jokowi 0 1 0 0 0 0 0 0 0 1
prabowo 0 1 0 0 0 0 0 0 0 1
tegas 0 1 0 0 0 0 0 0 0 1
ibukota 0 1 0 0 0 0 0 0 0 1
dampak 0 0 1 0 0 0 0 0 0 1
negatif 0 0 1 0 0 0 0 0 0 1
bijak 0 0 1 0 0 0 0 0 0 1
presiden 0 0 1 0 0 0 0 0 0 1
joko 0 0 1 0 0 0 0 0 0 1
widodo 0 0 1 0 0 0 0 0 0 1
kaltim 0 0 1 0 0 0 0 0 0 1
kg 0 0 1 0 0 0 0 0 0 1
narkoba 0 0 1 0 0 0 0 0 0 1
masuk 0 0 1 0 0 0 0 0 0 1
pemkab 0 0 0 1 0 0 0 0 0 1
najam 0 0 0 1 0 0 0 0 0 1
paser 0 0 0 1 0 0 0 0 0 1
utara 0 0 0 1 0 0 0 0 0 1

63
cepat 0 0 0 1 0 0 0 0 0 1
sesuai 0 0 0 1 0 0 0 0 0 1
rencana 0 0 0 1 0 0 0 0 0 1
tata 0 0 0 1 0 0 0 0 0 1
ruang 0 0 0 1 0 0 0 0 0 1
wilayah 0 0 0 1 0 0 0 0 0 1
alias 0 0 0 1 0 0 0 0 0 1
rtrw 0 0 0 1 0 0 0 0 0 1
iring 0 0 0 1 0 0 0 0 0 1
realisasi 0 0 0 1 0 0 0 0 0 1
isu 0 0 0 0 1 0 0 0 0 1
viral 0 0 0 0 1 0 0 0 0 1
awal 0 0 0 0 0 1 0 0 0 1
mandat 0 0 0 0 0 1 0 0 0 1
rakyat 0 0 0 0 0 1 0 0 0 1
indonesia 0 0 0 0 0 1 0 0 0 1
cipta 0 0 0 0 0 0 2 0 0 1
peluang 0 0 0 0 0 0 1 0 0 1
investasi 0 0 0 0 0 0 1 0 0 1
hedge 0 0 0 0 0 0 1 0 0 1
funds 0 0 0 0 0 0 1 0 0 1
hubung 0 0 0 0 0 0 1 0 0 1
ambil 0 0 0 0 0 0 0 1 0 1
contoh 0 0 0 0 0 0 0 1 0 1
negara 0 0 0 0 0 0 0 1 0 1
timur 0 0 0 0 0 0 0 1 0 1
dubai 0 0 0 0 0 0 0 1 0 1
doha 0 0 0 0 0 0 0 1 0 1
bangun 0 0 0 0 0 0 0 1 0 1
absurd 0 0 0 0 0 0 0 1 0 1
sumberdaya 0 0 0 0 0 0 0 0 1 1
mobilisasi 0 0 0 0 0 0 0 0 1 1
memproduk 0 0 0 0 0 0 0 0 1 1
si
huni 0 0 0 0 0 0 0 0 1 1
Perhitungan Idf
𝑛
𝑖𝑑𝑓(𝑡) = log ( )
𝑑𝑓(𝑡)
Keterangan :
n = jumlah dokumen dalam corpus
df(t) = document frequency / jumlah dokumen dalam corpus yang mengandung
term t

64
Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi)
Kosa df Idf w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
Kata
dukung 2 0.6532125 0.6532125 0.65321251
0 0 0 0 0 0 0
1 1 4
perintah 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
pindah 3 0.4771212 0.4771212 0.47712125
0 0 0 0 0 0 0
5 5 5
temu 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
jokowi 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
prabowo 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
tegas 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
ibukota 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
dampak 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
negatif 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1

65
bijak 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
presiden 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
joko 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
widodo 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
kaltim 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
kg 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
narkoba 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
masuk 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
pemkab 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
najam 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
paser 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
utara 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1

66
cepat 1 0.9542425 0.9542425

0 0 0 0 0 0 0 0
1 1
sesuai 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
rencana 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
tata 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
ruang 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
wilayah 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
alias 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
rtrw 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
iring 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
realisasi 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
isu 1 0.9542425 0.954242
0 0 0 0 0 0 0 0
1 51
viral 1 0.9542425 0.954242
0 0 0 0 0 0 0 0
1 51

67
awal 1 0.9542425 0.9542425

0 0 0 0 0 0 0 0
1 1
mandat 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
rakyat 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
indonesi 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
a 1 1
cipta 1 0.9542425 1.9084850
0 0 0 0 0 0 0 0
1 19
peluang 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
investasi 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
hedge 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
funds 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
hubung 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
ambil 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
contoh 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251

68
negara 1 0.9542425 0.954

0 0 0 0 0 0 0 0
1 24251
timur 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
dubai 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
doha 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
bangun 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
absurd 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
sumberd 1 0.9542425 0.954
0 0 0 0 0 0 0 0
aya 1 24251
mobilisa 1 0.9542425 0.954
0 0 0 0 0 0 0 0
si 1 24251
mempro 1 0.9542425 0.954
0 0 0 0 0 0 0 0
duksi 1 24251
huni 1 0.9542425 0.954
0 0 0 0 0 0 0 0
1 24251
Keterangan :
idf : inverse dokumen frequency
tf(n) : term frequency (frekuensi kata) pada dokumen ke-n

69
a. Klasifikasi query uji dengan algoritma K-NN

1. Pre-proccessing query uji
Pada tahapan ini dilakukan seleksi kalimat netral dengan menggunakan kamus
sentimen yang ada.
Tabel 4. 14 Query Uji
Query Uji : kita dukung perintah Presiden Jokowi pindahkan ibu kota
Indonesia :#IbuKotaBaru #IbuKotaPindah #Jokowi
a. Case Folding
kita dukung perintah presiden jokowi pindahkan ibu kota indonesia
#ibukotabaru #ibukotapindah #jokowi
b. Filtering
c. Tokenizing
Tabel 4. 15 Tokenizing Data Uji

d. Normalisasi
Tabel 4. 16 Normalisasi Data Uji
kita Dukung presiden jokowi pindahkan ibu kota indonesia

e. Stopwords
Tabel 4. 17 Stopwords Data Uji
dukung perintah presiden jokowi pindahkan indonesia

f. Stemming
Tabel 4. 18 Stemming Data Uji
dukung perintah presiden Jokowi pindah indonesia

g. Pembobotan kata
Hasil pembobotan kata setelah pre-processing diatas adalah kata kinerja dan
bagus berjumlah satu.
Hasil dari pre-proccessing adalah “dukung presiden jokowi pindah indonesia”.

70
2. Menghitung kedekatan kemiripan query uji dengan data latih menggunakan rumus consine similarity
Untuk lebih jelasnya, tahapan ini akan dijelaskan sebagai lanjutan contoh dari proses pre-proccessing query diatas. Sebagai contoh
query yang sudah dilakukan pre-proccessing sebagai berikut.
Tabel 4. 19 Query Uji
Query : dukung perintah presiden jokowi pindah indonesia
Sebelum menghitung consine similarity terlebih dahulu dilakukan tahapan-tahapan berikut :

 Menghitung bobot setiap kata dalam dokumen query uji terhadap bobot data latih.
Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih
Kosa df Idf w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
Kata
dukung 2 0.653212 0.653212 0.653212 0.653212
0 0 0 0 0 0 0
51 51 51 51
perintah 1 0.954242 0.954242 0.954242
0 0 0 0 0 0 0 0
51 51 51
pindah 3 0.477121 0.477121 0.477121 0.477121 0.477121
0 0 0 0 0 0
25 25 25 25 25
temu 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
jokowi 1 0.954242 0.954242 0.954242
0 0 0 0 0 0 0 0
51 51 51

71
prabowo 1 0.954242 0.954242

0 0 0 0 0 0 0 0 0
51 51
tegas 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
ibukota 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
dampak 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
negatif 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
bijak 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
presiden 1 0.954242 0.954242 0.954242
0 0 0 0 0 0 0 0
51 51 51
joko 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
widodo 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
kaltim 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
kg 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
narkoba 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51

72
masuk 1 0.954242 0.954242

0 0 0 0 0 0 0 0 0
51 51
pemkab 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
najam 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
paser 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
utara 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
cepat 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
sesuai 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
rencana 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
tata 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
ruang 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
wilayah 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
alias 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51

73
rtrw 1 0.954242 0.954242

0 0 0 0 0 0 0 0 0
51 51
iring 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
realisasi 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
isu 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
viral 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
awal 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
mandat 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
rakyat 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
indonesi 1 0.954242 0.954242 0.954242
0 0 0 0 0 0 0 0
a 51 51 51
cipta 1 0.954242 1.9084
0 0 0 0 0 0 0 0 0
51 8502
peluang 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
51 4251
investasi 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
51 4251

74
hedge 1 0.954242 0.9542

0 0 0 0 0 0 0 0 0
51 4251
funds 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
51 4251
hubung 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
51 4251
ambil 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
contoh 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
negara 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
timur 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
dubai 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
doha 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
bangun 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
absurd 1 0.954242 0.95424
0 0 0 0 0 0 0 0 0
51 251
sumberd 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
aya 51 4251

75
mobilisa 1 0.954242 0.9542

0 0 0 0 0 0 0 0 0
si 51 4251
mempro 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
duksi 51 4251
huni 1 0.954242 0.9542
0 0 0 0 0 0 0 0 0
51 4251
 Selanjutnya berdasarkan perhitungan bobot tersebut, hitung panjang vektor setiap dokumen. Tahapan yang dilakukan adalah sebagai
berikut :
1. Hitung hasil perkalian skalar antara query uji dan 9 dokumen lainnya (data latih).
Tabel 4. 21 Hasil perkalian skalar antara query dan data latih
Asal_dokumen_perkalian_skalar (WQ*WDi)
w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
0.42668659 0.42668659 0 0 0 0 0 0 0
0.91057877 0 0 0 0 0 0 0 0
0.22764469 0.22764469 0.22764469 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0.91057877 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0

76
0 0 0.91057877 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0

77
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1.564910 1.564910 1.138223 0 0 0.910579 0 0 0

78
2. Hitung panjang setiap dokumen, termasuk query uji. Caranya dengan mengkuadratkan bobot setiap kata dalam setiap dokumen,
jumlahkan nilai kuadrat dan terakhir akarkan.
Tabel 4. 22 Hasil panjang setiap dokumen
w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
0.42668659 0.42668659 0.42668659 0 0 0 0 0 0 0
0.91057877 0.91057877 0 0 0 0 0 0 0 0
0.22764469 0.22764469 0.22764469 0.22764469 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0.91057877 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0.91057877 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0

79
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0 0.91058 0 0 0 0
0 0 0 0 0 0.91058 0 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0.91057877 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0 3.64232 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0 0.91058 0

80
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
4.29665 1.564910047 5.207225114 9.33343236 12.74810274 1.821158 3.642315067 8.195209 7.28463 3.642315
2.07283534 1.250963647 2.281934511 3.05506667 3.570448534 1.349503 1.908485019 2.862728 2.699005 1.908485
 Terapkan rumus consine similarity. Hitung kemiripan query dengan 9 dokumen lainnya (data latih).
Tabel 4. 23 Cosine Similarity
Cos(Q,D1) = 1.564910/ (2.07283534* 1.250963647) =1.564910/ 2.593041657= 0.603503628
Cos(Q,D2) = 1.564910/ (2.07283534* 2.281934511) = 1.564910/ 4.730074499= 0.330842579
Cos(Q,D3) = 1.138223/ (2.07283534*3.05506667) = 1.138223/ 6.332650161= 0.179738882
Cos(Q,D4) = 0 / (2.07283534*3.570448534) = 0 / 7.400951902= 0
Cos(Q,D5) = 0 / (2.07283534*1.349503) = 0 / 2.797297= 0
Cos(Q,D6) = 0.910579/ (2.07283534*1.908485019) = 0.910579/ 3.955975193= 0.230178078
Cos(Q,D7) = 0 / (2.07283534*2.862728) = 0/ 5.933963= 0
Cos(Q,D8) = 0 / (2.07283534*2.699005) = 0/ 5.594594= 0
Cos(Q,D9) = 0 / (2.07283534*1.908485) = 0 / 3.955975= 0

81
Hasil perhitungan dalam tabel :
Tabel 4. 24 Hasil Perhitungan Tabel
3. Menentukan besar nilai k pada algoritma K-NN

(D1) (D2) (D3) (D4) (D5) (D6) (D7) (D8) (D9)
0.603503628 0.330842579 0.179738882 0 0 0.230178078 0 0 0
Menentukan nilai k pada algoritma K-NN. Nilai k merupakan parameter yang

akan membatasi ketetanggaan terdekat yang akan diproses pada tahap selanjutnya.
Ditentukan nilai k pada algoritma K-NN adalah 1. Sehingga berdasarkan nilai
tersebut ketetanggaan terdekat dengan query adalah sebagai berikut :
Setelah diurutkan (dari yang memiliki nilai terbesar)
1 2 3 4 5 6 7 8 9
D1 D2 D6 D3 D4 D5 D7 D8 D9
4. Menyimpulkan orientasi sentimen sementara dengan persamaan 4.3
D1 = 0.603503628
D1 = Positif (Dokumen ke satu memiliki sentimen positif)
Dnn(c1,c2) = Positif
Dapat disimpulkan bahwa query uji memiliki sentimen Positif
4.5 Simulation Phase
Dalam tahap dimulai ini akan dilakukan simulasi aplikasi yang dimulai dari
input data mentah yang telah diambil dari Twitter API, tahap pelatihan, tahap
pengujian dan penilaian tingkat akurasi, presisi, f-measure dan recall algoritma K-
NN.
Adapun faktor-faktor dalam proses simulasi dapat dilihat
Tabel 4. 25 Faktor-faktor dalam proses simulasi
Variabel / Parameter
Tahap Simulasi
Simulasi
Tahap klasifikasi sentimen data latih
Faktor 1
dengan metode lexicon based
Tahap pelatihan data pada data latih
Faktor 2
berdasarkan sentimen dan

82
penghitungan bobot menggunakan

TF-IDF
Tahap pengujian data dengan
Algoritma K-NN berdasarkan nilai k
Faktor 3
pada algoritma K-NN adalah 1,3,5,9
dan 10
Tahap pengujian akurasi Algoritma K-
Faktor 4 NN tahap menggunakan model
Confussion matrix
Variabel atau parameter simulasi yang digunakan dalam melakukan
skenario-skenario pengujian yaitu dengan menggunakan metode lexicon based dan
Algoritma K-Nearest Neighbor. Metode lexicon based digunakan untuk
memudahkan penulis dalam klasifikasi sentimen 900 data latih dan 100 data uji,
sementara Algoritma K-Nearest Neighbor digunakan untuk ekstraksi keyword pada
data latih (hasil ekstrasi data latih akan digunakan sebagai variabel input pada tahap
pengujian) dan klasifikasi sentimen 100 data uji dengan mengambil probabilitas
tertinggi. Pada penelitian ini Algoritma K-NN tersebut akan dibandingkan tingkat
akurasinya dan diambil tingkat akurasi tertinggi.
4.5.1 Tahap Pengujian Data Uji
Pengujian yang dilakukan adalah untuk mengklasifikasikan data uji kedalam
kelas positif, negatif atau netral dengan menggunakan algoritma K-NN. Proses
pengklasifikasian data uji akan dilakukan kedalam 5 skenario yaitu berdasarkan
penentuan nilai k pada algoritma K-NN dengan nilai k=1, k=3, k=5, k=9 dan k=10.
Pada tahapan ini terdapat informasi sejauh mana tingkat keberhasilan
kombinasi algoritma tersebut dalam mengklasifikasikan data uji kedalam kelasnya
yang dihitung berdasarkan tingkat akurasi, error rate, presisi, recall dan f-measure.
Berdasarkan pengujian dibagi menjadi dua, yaitu tahapan pengujian K-NN
dengan pengambilan data pertama pada tanggal 10 Oktober 2019 – 21 Oktober 2019
dan pengambilan data kedua pada tanggal 23 Januari 2020 – 02 Februari 2020.
1. Pengujian Data Pertama (10 Oktober 2019 – 21 Oktober 2019)
Tabel 4. 26 Pengujian I

83
Tingkat k
(%) 1 3 5 9 10
Akurasi 59% 56% 61% 62% 58%
Error Rate 41% 44% 39% 38% 42%
Recall 54% 48% 64% 62% 67%
Presisi 69% 56% 57% 59% 58%
F-Measure 61% 52% 61% 61% 63%
2. Pengujian Data Kedua (23 Januari 2020 – 02 Februari 2020)
Tabel 4. 27 Pengujian II
Tingkat k
(%) 1 3 5 9 10
Akurasi 59% 59% 64% 60% 62%
Error Rate 41% 41% 36% 40% 38%
Recall 80% 80% 73% 80% 80%
Presisi 74% 74% 81% 82% 82%
F-Measure 77% 77% 77% 81% 81%
4.6 Verification, Validation and Experimentation

Pembahasan pada sub bab ini akan dibahas pada BAB 5
4.7 Output Analysis Phase
Pembahasan pada sub bab ini akan dibahas pada BAB 5

BAB V
HASIL DAN PEMBAHASAN
5.1 Verification, Validation and Experimentation
Verifikasi dilakukan untuk memastikan bahwa setiap tahapan pada bab-bab
sebelumnya saling memiliki hubungan, dalam hal ini setiap tahapan bab akan diulas
kembali untuk memastikan tiap tahap tersebut saling terkait.
Dari tahapan problem formulation (formulasi masalah) dilakukan
pembahasan mengenai cara identifikasi masalah untuk dirumuskan dalam penulisan
skripsi, sehingga dari permasalahan tersebut dapat dikembangkan menjadi
pemodelan konsep sebagai solusi. Selanjutnya pada tahapan conceptual model
(pemodelan konsep), dilakukan pembahasan konsep secara keseluruhan pada
aplikasi analisis orientasi meliputi input, proses, eksperimen dan output yang
diharapkan. Pada tahapan collection input / output data, membahas input dan output
data. Berlanjut ke tahapan modelling phase (pemodelan) yang mana fase ini
berkaitan dengan mengolah data input dan output yang telah dibuat pada tahapan
sebelumnya. Pada dilakukan perhitungan sampel dan konstruksi klasifikasi
sentimen data latih menggunakan pendekatan lexicon, perhitungan sampel dan
konstruksi klasifikasi data uji menggunakan metode algoritma K-NN secara manual
untuk dapat dijadikan acuan dalam pembuatan aplikasi pada skripsi ini. Berikutnya
pada tahapan terakhir adalah simulation (simulasi), yaitu dengan melakukan
simulasi pada aplikasi analisis orientasi sentimen yang fungsinya
mengimplementasikan pemodelan-pemodelan manual yang sebelumnya. Oleh
karena itu pada setiap tahapan dapat dipastikan memiliki keterkaitan, karena setiap
tahapan yang dibuat akan berpengaruh untuk membuat tahapan selanjutnya. Maka
pada tahapan-tahapan yang dibahas pada bab sebelumnya harus sudah terverifikasi
sesuai dengan ketentuan verifikasi yang ada.
84
85
Dalam proses validasi dilakukan pengujian kebenaran sistem dengan

melakukan perbandingan antara kinerja algoritma K-NN dengan yang dihitung
secara manual dengan hasil aplikasi analisis orientasi sentimen sehingga
menghasilkan keakuratan sistem. Kemudian dilakukan eksperimen dengan
membandingkan hasil skenario yaitu hasil klasifikasi sentimen data uji
menggunakan algoritma K-NN dengan membandingkan hasil skenario-skenario
yang ada. Dari eksperimen tersebut dilakukan analisis outputnya yang akan dibahas
pada tahap selanjutnya yaitu output analysis phase.
5.2 Output Analysis Phase
Dalam melakukan analisis output, dilakukan terhadap hasil klasifikasi
sentimen publik terhadap pemindahan ibu kota Indonesia dengan menggunakan
algoritma K-NN. Output ini didapatkan dari aplikasi berbasis web menggunakan
bahasa pemrogaman PHP dan database MySQL yang dibangun sendiri oleh penulis
untuk membantu penelitian. Semua analisis dijelaskan sebagai berikut :
5.2.1 Analisis Sentimen Komentar Mengenai Pemindahan Ibu Kota
Indonesia Menggunakan Metode Algoritma K-NN
Pada Sub bab ini dijelaskan output hasil klasifikasi sentimen 100 data uji
yang diambil dari komentar masyarakat terhadap pemindahan ibu kota Indonesia
dari Twitter, karena klasifikasi menggunakan algoritma K-NN serta
menggunakan metode pendekatan lexicon pada data latih untuk mengetahui
sebenarnya dari 100 data uji tersebut, maka pada penelitian ini terdapat lima
output hasil klasifikasi sentimen dimasukkan ke dalam BAB LAMPIRAN.
Pendapat warganet mengenai pemindahan ibu kota Indonesia, pada data
pertama terdapat 44 data bersentimen netral dan pada data kedua terdapat 41 data
bersentimen positif. Jadi banyak masyarakat yang mendukung mengenai
pemindahan ibu kota Indonesia dan ada juga yang bersifat netral atau tidak
peduli terhadap pemindahan ibu kota Indonesia.
5.2.2 Analisis Implementasi Dan Kinerja Dari Metode Algoritma K-NN
Sub-bab ini akan menjelaskan mengenai hasil tingkat akurasi terhadap
kombinasi algoritma K-NN. Pada algoritma K-NN akan dilakukan pengujian
terhadap nilai k=1, 3, 5, 9 dan 10. Data latih yang digunakan adalah berjumlah 900

86
dokumen. Dan 100 dokumen data uji baru. Nilai kombinasi antara kedua algoritma
dengan akurasi tertinggi akan digunakan pada sistem analisis orientasi sentimen ini.
 Hasil akurasi data pertama (10 Oktober 2019 – 23 Oktober 2019)
a. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 1.
Tabel 5. 1 Hasil akurasi K-NN dengan k = 1
Sentimen Kelas hasil prediksi

Positif Negatif Netral
Kelas Positif a=20 b=4 c=13
Sebenarnya Negatif d=3 e=14 f=9
Netral g=6 h=6 i=25
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
20 + 14 + 25
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100
20 + 4 + 13 + 3 + 14 + 9 + 6 + +25
59
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 59%
100
b. Hasil tingkat akurasi algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 3.

Netral g=19 h=3 i=25
sebagai berikut :
18 + 13 + 25
18 + 4 + 15 + 5 + 13 + 8 + 19 + 3 + 25
56
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 56%
100

87
c. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 5.

sebagai berikut :
24 + 14 + 23
24 + 7 + 11 + 3 + 14 + 3 + 10 + 5 + 23
61
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 61%
100
d. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 9.
Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9

sebagai berikut :
23 + 13 + 26
23 + 6 + 10 + 3 + 13 + 1 + 11 + 7 + 26
62
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 62%
100
e. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 10
Tabel 5. 5 Hasil akurasi K-NN dengan k =10

88

Sebenarnya Negatif d=4 f=11 f=11
sebagai berikut :
25 + 11 + 22
25 + 4 + 14 + 3 + 11 + 1 + 9 + 11 + 22
58
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 58%
100
 Hasil akurasi data kedua (23 Januari 2020 – 10 Februari 2020)
a Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 1.

Netral g=8 h=3 i=11
sebagai berikut :
36 + 12 + 11
36 + 5 + 8 + 4 + 12 + 3 + 5 + 16 + 11
59
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 59%
100
b Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 3.


89

Netral g=8 h=3 i=11
sebagai berikut :
36 + 12 + 11
36 + 5 + 8 + 4 + 12 + 3 + 5 + 16 + 11
59
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 59%
100
c Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN
sama dengan 5.

Netral g=4 h=3 i=15
sebagai berikut :
33 + 16 + 15
33 + 4 + 4 + 4 + 16 + 3 + 8 + 13 + 15
64
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 64%
100
d Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 9.


90
sebagai berikut :
36 + 13 + 11
36 + 7 + 1 + 0 + 13 + 10 + 9 + 13 + 11
60
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 60%
100
e Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN
sama dengan 10
Tabel 5. 10 Hasil akurasi K-NN dengan k =10

sebagai berikut :
36 + 15 + 11
36 + 7 + 1 + 0 + 15 + 10 + 9 + 11 + 11
62
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 62%
100
Keterangan :
a jumlah record positif yang diklasifikasikan sebagai positif
b jumlah record positif yang diklasifikasikan sebagai negatif
c jumlah record positif yang diklasifikasikan sebagai netral
d jumlah record negatif yang diklasifikasikan sebagai positif
e jumlah record negatif yang diklasifikasikan sebagai negatif
f jumlah record negatif yang diklasifikasikan sebagai netral
g jumlah record netral yang diklasifikasikan sebagai positif
h jumlah record netral yang diklasifikasikan sebagai negatif
i jumlah record netral yang diklasifikasikan sebagai netral
Secara keseluruhan hasil eksperimen ke 10 skenario pada penelitian ini
dirangkum berdasarkan gambar sebagai berikut :

91
 Hasil pengujian data pertama
K-NN Data I
80
68 67
70 64
60 61 60 62 62 62
59 57 59 60 58 58
60 54 56 56
52
48
50
40
30
20
10
0
Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10
Akurasi Presisi F-Measure Recall
Gambar 5. 1 Grafik K-NN Data I
Berdasarkan grafik pada gambar diatas maka didapatkan hasil analisis

sebagai berikut :
1. Pada eksperimen pertama, K-NN dengan parameter k=1 menghasilkan tingkat
akurasi sebesar 59% dengan error rate sebesar 41%, f-measure sebesar 0,606,
presisi sebesar 0,689 dan recall sebesar 54%.
2. Pada eksperimen kedua, K-NN dengan parameter k=3 menghasilkan tingkat
presisi sebesar 0,562 dan recall sebesar 48%. Pada eksperimen kedua tingkat
akurasi mengalami penurunan 3% pada paramater k=3.
3. Pada eksperimen ketiga, K-NN dengan parameter k=5 menghasilkan tingkat
presisi sebesar 0,571 dan recall sebesar 64%. Eksperimen ketiga mengalami
peningkatan akurasi 5% dibandingkan sebelumnya.
4. Pada eksperimen keempat, K-NN dengan parameter k=9 menghasilkan
tingkat akurasi sebesar 62% dengan error rate sebesar 38%, f-measure
sebesar 0,605, presisi sebesar 0,589 dan recall sebesar 62%. Eksperimen
keempat peningkatan akurasi 1 % dari eksperimen ketiga.
5. Pada eksperimen kelima, K-NN dengan parameter k=10 menghasilkan tingkat

92
presisi sebesar 0,581 dan recall sebesar 67%. Eksperimen kelima mengalami
penurunan akurasi sebesar 4% dari eksperimen sebelumnya dalam algoritma
K-NN.
6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat
tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan
tingkat akurasi sebesar 62% pada parameter k = 9. Sementara tingkat terendah
akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 3 dengan
tingkat akurasi sebesar 56%.
7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kelima sebesar
67%, Semakin tinggi nilai recall yang dihasilkan maka sistem dapat
memprediksi kelas yang diidentifikasi dengan benar.
8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang
tertinggi ada pada eksperimen kelima sebesar 0,625. Sementara nilai f-
measure terkecil ada pada eksperimen kedua sebesar 0,562 diikuti dengan
tingkat akurasi yang paling rendah. Artinya nilai f-measure menunjukan
semakin tinggi nilai f-measure (mendekati nilai 1) yang dihasilkan semakin
bagus kerja klasifikasi dalam memprediksi.
 Hasil pengujian data kedua
K-NN Data II
90
80 80 80 81 80 80 81 80
80 76 76 76
73 73 73
70 67
64 62
59 59 60
60
50
40
30
20
10
0
Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10
Akurasi Presisi F-Measure Recall
Gambar 5. 2 Grafik K-NN Data II

93
Berdasarkan grafik pada gambar diatas maka didapatkan hasil analisis

sebagai berikut :
1. Pada eksperimen pertama, K-NN dengan parameter k=1 menghasilkan tingkat
akurasi yang dihasilkan pada skenario pertama sebesar 59%, error rate
sebesar 41%, recall sebesar 80%, presisi sebesar 0,735 dan f-measure sebesar
0,766.
2. Pada eksperimen kedua, K-NN dengan parameter k=3 menghasilkan tingkat
akurasi yang dihasilkan pada skenario kedua sebesar 59%, error rate sebesar
41%, recall sebesar 80%, presisi sebesar 0,735 dan f-measure sebesar 0,766.
Pada eksperimen kedua akurasi stabil atau sama dengan pertama.
3. Pada eksperimen ketiga, K-NN dengan parameter k=5 menghasilkan tingkat
akurasi yang dihasilkan pada skenario ketiga sebesar 64%, error rate sebesar
Eksperimen ketiga mengalami peningkatan akurasi 5% dibandingkan
sebelumnya.
4. Pada eksperimen keempat, K-NN dengan parameter k=9 menghasilkan
tingkat akurasi yang dihasilkan pada skenario keempat sebesar 60%, error
rate sebesar 40%, recall sebesar 80%, presisi sebesar 0,818 dan f-measure
sebesar 0,809. Eksperimen keempat penurunan akurasi 4 % dari eksperimen
ketiga.
5. Pada eksperimen kelima, K-NN dengan parameter k=10 menghasilkan tingkat
akurasi yang dihasilkan pada skenario kelima sebesar 62%, error rate sebesar
Eksperimen kelima mengalami peningkatan akurasi sebesar 2% dari
eksperimen sebelumnya dalam algoritma K-NN.
6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat
tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan
tingkat akurasi sebesar 64% pada parameter k = 5. Sementara tingkat terendah
akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 1 dan 3
dengan tingkat akurasi sebesar 59%.

94
7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kesatu, ketiga
dan kesembilan sebesar 80%. Semakin tinggi nilai recall yang dihasilkan
maka sistem dapat memprediksi kelas yang diidentifikasi dengan benar.
8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang
tertinggi ada pada eksperimen keempat dan kelima sebesar 0,809. Sementara
nilai f-measure terkecil ada pada eksperimen kesatu dan kedua sebesar 0,766
diikuti dengan tingkat akurasi yang paling rendah. Artinya nilai f-measure
menunjukan semakin tinggi nilai f-measure (mendekati nilai 1) yang
dihasilkan semakin bagus kerja klasifikasi dalam memprediksi..

BAB VI
KESIMPULAN DAN SARAN
6.1 Kesimpulan
Berdasarkan rumusan masalah dan penejelasan yang telah peneliti
deskripsikan pada bab sebelumnya, maka peneliti dapat menarik kesimpulan
sebagai berikut:
1. Pendapat warganet mengenai pemindahan ibu kota Indonesia, pada data pertama
terdapat 44 data bersentimen netral dan pada data kedua terdapat 41 data
bersentimen positif. Jadi banyak masyarakat yang mendukung mengenai
pemindahan ibu kota Indonesia dan ada juga yang bersifat netral atau tidak
peduli terhadap pemindahan ibu kota Indonesia.
2. Nilai k optimal dalam melakukan proses klasifikasi algoritma K-NN mencapai
tingkat akurasi pada k=9 dengan tingkat akurasi mencapai 62% dan error rate
sebesar 38%, recall sebesar 62%, presisi sebesar 0,589 dan f-measure sebesar
0,605. Sedangkan pada pengumpulan data kedua K-NN memiliki tingkat akurasi
yang dihasilkan pada skenario ketiga sebesar 64%, error rate sebesar 36%,
recall sebesar 73%, presisi sebesar 0,805 dan f-measure sebesar 0,767
6.1 Saran
Ada beberapa hal yang perlu dipertimbangkan untuk mengembangkan
aplikasi ini agar lebih baik, yaitu:
1. Sistem ini hanya dapat mengklasifikasi data teks berbahasa Indonesia saja dan
tidak mengklasifikasi gambar. Diharapkan dapat dikembangkan dalam berbagai
bahasa dan mengklasifikasi yang mengandung gambar. Diharapkan dalam
pengembangan sistem selanjutnya, sistem ini dapat diaplikasikan pada semua
platfrom.
2. Diharapakan dalam pengembangan sistem selanjutnya, sistem ini dapat
ditambah fitur ekstraksi bigram, trigram, quadgram dan seterusnya. Adanya
peningkatan koleksi kamus sentimen khususnya dalam bahasa Inggris dan fitur
hitung akurasi dengan metode lain sehingga diharapkan dapat meningkatkan
akurasi.
95
DAFTAR PUSTAKA
Al-Bahra. 2010. Analisis dan Desain Sistem Informasi. Graha Ilmu.
Anonim. 2018. http://socs.binus.ac.id/2013/06/22/natural-language-processing
Asosiasi Penyelenggara Jasa Internet Indonesia (APJII). 2018. apjii.or.id/survei2017
Azhar (2018). Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor
pada Sentimen Analisis Dengan Pendekatan Lexicon pada Twitter
Bagir Muhammad, Indah Ayu Yuliani. 2012. Database Introduction. Depok: CCIT-
FTUI.
Bhonde, Rhesma et al.(2015). Sentimen Analysis Based on Dictionary Approach.
Feldman, R., & Sanger, J. (2007). Advanced Approaches in Analyzing Unstructured
Data, The Text Mining Handbook. New York: Cambirdge.
Kadir, A. (2012). Algoritma dan Pemrograman Menggunakan C & C++. (B. R. W,
Ed.) (1st ed.). Yogyakarta: Andi
Krisandi, Nobertus.,dkk (2013). Algoritma K-Nearest Neighbor Dalam Klasifikasi
Data Hasil Produksi Kelapa Sawit Pada PT.Minamas Kecamatan Parindu.
Buletin Ilmiah Math.Stat. dan Terapannya (Bimaster) Volume 02, No.01
2013: hal. 33-38
Liu, B. (2012). Sentimen Analysis and Opinion Mining. (H. Graeme, Ed.) (1st ed.).
Chicago : Morgan & Claypool Publisher. Retrieved from
https://www.cs.uic.edu/~liub/FBS/SentimenAnalysis-and-
OpinionMining.pdf
Liu, B. (2015). Sentimen Analysis: Opinion Mining, Sentimen, and Emotions. (H.
Graeme, Ed.) (1st ed.). Chicago : Morgan & Claypool Publisher. Retrieved
from https://www.cs.uic.edu/~liub/FBS/chapter-1-and-chapter-2.pdf
Matulatuwa, F. M., Studi, P., Sistem, M., Informasi, F. T., Kristen, U., & Wacana,
S. (2017). Text Mining dengan Metode Lexicon Based untuk Sentimen
Analysis Pelayanan PT. POS Indonesia Melalui Media Sosial Twitter
Jurnal, (September).
Madani, S. A., Kazmi, J., & Mahlknecht, S. (2014). Wireless sensor networks:
modeling and simulation. InTech.
96
97
Munir, R. (2011). Algoritma dan pemrograman : Dalam bahasa pascal dan C.

Bandung: Informatika.
Nurjanah, W. E., Perdana, R. S., & Fauzi, M. A. (2017). Analisis Sentimen
Terhadap Tayangan Televisi Berdasarkan Opini Masyarakat pada Media
Sosial Twitter menggunakan Metode K-Nearest Neighbor dan
Pembobotan Jumlah Retweet, 1(12), 1750–1757.
Oktinas, Willa (2017). Analisis Sentimen Pada Acara Televisi Menggunakan
Improved K-Neasrest Neighbor Tugas Akhir Teknik Informatika. Medan:
Universitas Sumatra Utara
Prasetyo, E. (2012). Data Mining Konsep dan Aplikasi Menggunakan Matlab (1st
ed.).
Pustejovsky, James. 2012. Natural Language Annotation For Machine Learning.
Oreilly Media.
Raharjo, B., Heryanto, I., & Rk, E. (2012). Modul Pemrograman Web HTML, PHP
& MYSQL. Bandung: Modula.
Sucitra Sahara (2016). Penerapan Metode K-Nearest Neighbors untuk analisis
sentimen review game pada Android
Rustina, Rahayu 2017. Komparasi metode K-Nearest Neighbor dan Support Vector
Machine pada sentimen review kamera
Twitter. (2013). Pengertian Twitter.
www.socs.binus.ac.id. (2013). Natural Language Processing. Retrieved March 15,
2019, from http://socs.binus.ac.id/2013/06/22/NATURAL-LANGUAGE-
PROCESSING

LAMPIRAN
Hasil Pengambilan Data Pertama :
Tabel Lampiran 1 Hasil Data Pertama
Data Klasifikasi algoritma K-NN dengan 5 parameter Kelas

ke-n k=1 k=3 k=5 k=9 k=10 Sebenarnya
1 NETRAL POSITIF POSITIF POSITIF POSITIF NETRAL
2 POSITIF POSITIF POSITIF POSITIF POSITIF NEGATIF
3 NETRAL NETRAL POSITIF POSITIF POSITIF NETRAL
4 POSITIF POSITIF POSITIF POSITIF POSITIF NETRAL
5 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF
6 POSITIF POSITIF POSITIF POSITIF POSITIF POSITIF
7 POSITIF POSITIF POSITIF POSITIF NETRAL NEGATIF
9 NETRAL NETRAL NETRAL NETRAL NETRAL NETRAL
10 NETRAL NETRAL NEGATIF NETRAL NETRAL NEGATIF
15 POSITIF POSITIF POSITIF NETRAL POSITIF NETRAL
17 NEGATIF NETRAL NETRAL NETRAL NETRAL POSITIF
18 NEGATIF NEGATIF NETRAL NETRAL NETRAL NETRAL
19 NEGATIF NETRAL POSITIF POSITIF POSITIF POSITIF
21 NEGATIF NEGATIF POSITIF POSITIF POSITIF POSITIF
23 NETRAL POSITIF NETRAL POSITIF POSITIF NETRAL
98
99

28 NETRAL NETRAL NETRAL NEGATIF NEGATIF NEGATIF
29 NETRAL POSITIF POSITIF NETRAL POSITIF POSITIF
31 NETRAL NETRAL NETRAL NETRAL NETRAL NEGATIF
32 NEGATIF NETRAL NEGATIF NETRAL NETRAL NETRAL
38 NEGATIF NETRAL NETRAL NETRAL NETRAL NEGATIF
41 NEGATIF POSITIF POSITIF POSITIF POSITIF POSITIF
42 NETRAL POSITIF POSITIF NETRAL NETRAL NEGATIF
43 POSITIF POSITIF NETRAL POSITIF POSITIF NETRAL
46 POSITIF POSITIF POSITIF NETRAL POSITIF NETRAL
48 NETRAL NETRAL NETRAL NETRAL NETRAL POSITIF
49 NEGATIF NEGATIF NEGATIF NETRAL POSITIF NETRAL
50 NETRAL NETRAL NETRAL NETRAL POSITIF NETRAL
53 NETRAL POSITIF POSITIF POSITIF POSITIF NEGATIF

100
54 NETRAL NETRAL POSITIF NEGATIF NEGATIF POSITIF

58 NEGATIF NEGATIF NEGATIF NEGATIF NEGATIF NETRAL
63 POSITIF NEGATIF POSITIF POSITIF POSITIF POSITIF
67 NETRAL NETRAL POSITIF NETRAL NETRAL POSITIF
68 NEGATIF NEGATIF NEGATIF NEGATIF NETRAL NEGATIF
70 NETRAL NEGATIF NEGATIF NEGATIF NEGATIF POSITIF
71 NEGATIF NETRAL POSITIF NETRAL NETRAL NETRAL
72 NEGATIF POSITIF POSITIF POSITIF POSITIF NETRAL
74 NETRAL NEGATIF NEGATIF NEGATIF NEGATIF POSITIF
80 POSITIF NETRAL NEGATIF NETRAL POSITIF POSITIF

101

85 NETRAL NETRAL POSITIF POSITIF POSITIF POSITIF
86 NETRAL NETRAL POSITIF POSITIF POSITIF NEGATIF
87 NETRAL NETRAL NETRAL POSITIF POSITIF POSITIF
90 NEGATIF NEGATIF POSITIF POSITIF POSITIF NEGATIF
93 NEGATIF NEGATIF NEGATIF NEGATIF NETRAL NEGATIF
94 POSITIF POSITIF POSITIF POSITIF NETRAL NEGATIF
95 POSITIF NETRAL NETRAL NETRAL NETRAL POSITIF
96 POSITIF NETRAL NETRAL NETRAL NETRAL POSITIF
Hasil Pengambilan Data Kedua :
Tabel Lampiran 2 Hasil Data Kedua
Data Klasifikasi algoritma K-NN dengan 5 parameter Kelas

ke-n k=1 k=3 k=5 k=9 k=10 Sebenarnya

102

24 POSITIF POSITIF NETRAL NETRAL NETRAL POSITIF
28 NEGATIF NEGATIF NEGATIF POSITIF POSITIF NEGATIF
29 NETRAL NETRAL NEGATIF NETRAL NETRAL POSITIF
30 POSITIF POSITIF NETRAL NEGATIF NEGATIF NETRAL
38 POSITIF POSITIF POSITIF NEGATIF NEGATIF NETRAL
40 NETRAL NETRAL NETRAL NEGATIF NEGATIF NEGATIF

103

42 NEGATIF NEGATIF NEGATIF NETRAL NETRAL NETRAL
46 NEGATIF NEGATIF NEGATIF NETRAL POSITIF POSITIF
47 POSITIF POSITIF POSITIF NEGATIF NEGATIF NEGATIF
48 POSITIF POSITIF NEGATIF NEGATIF NEGATIF NEGATIF
49 NEGATIF NEGATIF NEGATIF NETRAL NETRAL POSITIF
54 NETRAL NETRAL NETRAL POSITIF POSITIF NEGATIF
70 POSITIF POSITIF POSITIF NETRAL NETRAL NEGATIF

104

72 NEGATIF NEGATIF NEGATIF NETRAL NEGATIF NEGATIF
75 NETRAL NETRAL NETRAL NEGATIF NEGATIF NETRAL
77 NEGATIF NEGATIF NEGATIF NETRAL NETRAL NEGATIF
79 NEGATIF NEGATIF NETRAL NETRAL NETRAL POSITIF
84 NEGATIF NEGATIF NEGATIF POSITIF NETRAL POSITIF
88 NETRAL NETRAL NEGATIF NETRAL NEGATIF NEGATIF
92 NETRAL NETRAL NEGATIF NEGATIF NEGATIF NEGATIF

Muhammad Ilham Ramadhon

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Muhammad Ilham Ramadhon

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS SENTIMEN TERHADAP PEMINDAHAN

IBU KOTA INDONESIA PADA MEDIA SOSIAL

PROGRAM STUDI TEKNIK INFORMATIKA

PROGRAM STUDI TEKNIK INFORMATIKA

“ANALISIS SENTIMEN TERHADAP PEMINDAHAN IBU

Sebagai Salah Satu Syarat Untuk

Muhammad Ilham Ramadhon

Dosen Pembimbing I, Dosen Pembimbing II,

Arini, MT Fitri Mintarsih, M.Kom

NIP. 19760131 200901 2 001 NIP. 197212233 200710 2 004

Ketua Program Studi Teknik Informatika

Dr. Imam Marzuki Shofi, M.T.

NIP. 19720205 200801 1 010

Skripsi berjudul “Analisis Sentimen Terhadap Pemindahan Ibu Kota Indonesia

Dewi Khairani, M.Sc Fenty Eka Muzayyana A, M.Kom

NIP. 19820522 201101 2 009 NIP. 19760805 200912 2 003

Arini, MT Fitri Mintarsih, M.Kom

NIP. 19760131 200901 2 001 NIP. 19721223 200710 2 004

NIP. 19690404 200501 2 005 NIP. 19720205 200801 1 010

Jakarta, 10 Februari 2020

Muhammad Ilham Ramadhon

Kata kunci : Analisis Sentimen, Perbandingan, Twitter, klasifikasi, K-

Keywords :Sentimen analysis, Comparison, Twitter, Classification, K-

LEMBAR PERSETUJUAN PEMBIMBING ...................................................... i

LEMBAR PENGESAHAN ................................................................................. iii

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI.............................. iv

KATA PENGANTAR ............................................................................................v

ABSTRAK ........................................................................................................... vii

ABSTRACT ......................................................................................................... viii

DAFTAR ISI ......................................................................................................... ix

DAFTAR GAMBAR .......................................................................................... xiii

DAFTAR TABEL .............................................................................................. xiv

BAB I PENDAHULUAN .......................................................................................1

1.1 Latar Belakang ......................................................................................... 1

1.2 Rumusan Masalah .................................................................................... 6

1.3 Batasan Masalah ....................................................................................... 6

1.3.1 Proses ................................................................................................ 6

1.3.3 Tools .................................................................................................. 7

1.4 Tujuan Penelitian ...................................................................................... 7

1.5 Manfaat Penelitian .................................................................................... 7

1.6 Metodologi Penelitian .............................................................................. 8

1.6.1 Pengumpulan Data ............................................................................ 8

1.6.2 Analisis Pengembangan Sistem ........................................................ 8

1.7 Sistematika Penulisan ............................................................................... 9

2.1 Analisis Sentimen ................................................................................... 10

2.1.1 Level Analisis Sentimen ................................................................. 10

2.2 Pemindahan Ibu Kota ............................................................................. 11

2.3 Twitter .................................................................................................... 12

2.3.1 Twitter API ..................................................................................... 14

2.3.2 Sentimen Analisis pada Twitter ...................................................... 15

2.3.3 Struktur Data Twitter ...................................................................... 15

2.4 Natural Language Proccessing (NLP) ................................................... 16

2.5 Emosi ...................................................................................................... 17

2.6 Text Mining............................................................................................. 19

2.7 Pre-proccessing ...................................................................................... 21

2.8 Klasifikasi ............................................................................................... 22

2.9 Metode Lexicon ...................................................................................... 23

2.9.1 Kamus Lexicon ................................................................................ 24

2.10 Metode K-Nearest Neighbour (K-NN) ................................................... 26

2.11 Confussion Matrix .................................................................................. 28

2.12 Metode Simulasi ..................................................................................... 29

2.12.1 Problem Formulation ...................................................................... 30

2.12.2 Conceptual Model ........................................................................... 30