SKRIPSI
Oleh
Muhammad Ilham Ramadhon
11140910000103
SKRIPSI
Untuk Memenuhi Persyaratan Memperoleh Gelar Sarjana Komputer
Fakultas Sains dan Teknologi
Disusun Oleh :
Muhammad Ilham Ramadhon
11140910000103
i
UIN SYARIF HIDAYATULLAH JAKARTA
LEMBAR PERSETUJUAN PEMBIMBING
Oleh :
Menyetujui,
Mengetahui,
ii
UIN SYARIF HIDAYATULLAH JAKARTA
LEMBAR PENGESAHAN
Tim Pembimbing,
Dosen Pembimbing I, Dosen Pembimbing II,
Mengetahui
Dekan Ketua Program
Fakultas Sains dan Teknologi Studi Teknik Informatika,
Prof. Dr. Lily Surraya Eka Putri, M.Env.Stud Dr. Imam Marzuki Shofi, M.T.
iii
UIN SYARIF HIDAYATULLAH JAKARTA
PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI
iv
UIN SYARIF HIDAYATULLAH JAKARTA
KATA PENGANTAR
Puji syukur penulis panjatkan kepada Allah SWT, karena atas nikmat dan
rahmat-Nya sehingga penulis dapat menyeselaikan skripsi ini. Penulisan skripsi ini
dilakukan dalam rangka memenuhi salah satu syarat untuk mencapai salah satu
syarat untuk mencapai gelar Sarjana Komputer Program Studi Teknik Informatika
Fakultas Sains dan Teknologi Universitas Islam Negeri Syarif Hidayatullah Jakarta.
Proses penyeselaian skripsi ini tidak lepas dari berbagai bantuan, dukungan, saran,
dan kritik yang telah penulis dapatkan, oleh karena itu dalam kesempatan ini
peneliti ingin mengucapkan terima kasih kepada:
1. Kedua orang tua penulis, yaitu Bapak Senen dan Ibu Siti Wachidah serta
keluarga besar yang telah mencurahkan kasih saying dan selalu memberikan
dukungan penuh serta iringan do’a kepada penulis dalam menyeselaikan
skripsi ini.
2. Ibu Prof. Dr. Lily Surraya Eka Putri. M.Env.Stud, selaku Dekan Fakultas
Sains dan Teknologi
3. Bapak Imam Marzuki Shofi, M.T., selaku ketua Program Studi Teknik
Informatika, serta Bapak Andrew Fiade M.Kom., selaku sekretaris Program
Studi Teknik Informatika
4. Ibu Arini, MT selaku dosen pembimbing satu.
5. Ibu Fitri Mintarsih, M.Kom selaku dosen pembimbing kedua.
6. Seluruh Dosen, Staff Karyawan Fakultas Sains dan Teknologi, khususnya
Program Studi Teknik Informatika yang telah memberikan bantuan dan
kerjasama dari awal perkuliahan.
7. Teman-teman seperjuangan Teknik Informatika CCIT angkatan 2014
khusunya TI-A, dan TI-B. Terima kasih buat semua kenangan dan
kebersamaan selama ini.
8. Sahabat baik, teman berbagi cerita, canda tawa bersama semasa kuliah, yaitu:
Azhar, Amir, M. Taufik, Desy, Adi, dan Mahdi.
9. Teman-teman yang memberikan support dan semangat selalu, yaitu warsep
family.
v
UIN SYARIF HIDAYATULLAH JAKARTA
10. Seluruh pihak yang secara langsung maupun tidak langsung membantu
penulis dalam menyelesaikan skripsi ini.
Akhir kata, penulis menyadari bahwa dalam penyajian skripsi ini masih jauh
dari sempurna. Apabila ada kebenaran dari makalah ini maka kebenaran tersebut
datangnya dari Allah SWT, tetapi apabila ada kesalahan dalam makalah ini maka
kesalahan ini berasal dari penulis. Semoga Allah SWT meridhoi segala usaha kita.
Wassalamualaikum Wr. Wb
vi
UIN SYARIF HIDAYATULLAH JAKARTA
Nama : Muhammad Ilham Ramadhon
Program Studi : Teknik Informasi
Judul : Analisis Sentimen Komentar Terhadap Pmindahan
Ibu Kota Indonesia Pada Media Sosial Twitter
Menggunakan Metode Algoritma K-Nearest
Neighbor (K-NN)
ABSTRAK
Analisis sentimen merupakan jenis natural language yaitu pengolahan kata untuk
mengetahui opini, sikap atau mood masyarakat tentang suatu hal tertentu.
Pengolahan kata dalam penelitian ini berkaita dengan proses klasifikasi dokumen
tekstual ke dalam sentimen positif dan sentimen negatif. Data diperoleh dari media
sosial twitter berkaitan dengan komentar masyarakat terhadap pemindahan ibu kota
Indonesia dari Jakarta ke Kalimantar Timur dengan keyword ibu kota baru,
pemindahan ibu kota, dan ibu kota pindah sebanyak 1.000 komentar menggunakan
teknik crawling data. Pada penelitian ini penulis menggunakan algoritma K-Nearest
Neighbor (K-NN) dalam melakukan pengklasifikasian terhadap data uji dan data
latih menggunakan pendekatan lexicon dalam klasifikasi data uji. Penelitian ini
bertujuan untuk mengetahui tingkat akurasi, error rate, presisi, f-measure, dan
recall dengan menggunakan algoritma K-Nearest Neighbor (K-NN). Pengujian juga
dilakukan terhadap penentuan nilai k pada algoritma K-Nearest Neighbor (K-NN)
untuk mencari parameter terbaik. Kesimpulan dari pada pengambilan data pertama
pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik
yaitu sebesar 62% dengan nilai k adalah k=9. Pada pengambilan data kedua
pengujian algoritma K-Nearest Neighbor (K-NN) dengan tingkat akurasi terbaik
yaitu sebesar 64% dengan nilai k adalah k=5. Saran untuk peneliti selanjutnya dapat
mengembangkan teks selain bahasa Indonesia dan dapat mengklasifikasi yang
mengandung gambar. Lalu peningkatan koleksi kamus, ekstraksi fitur bigram,
trigram, quadgram dan seterusnya. Kemudian dalam fitur hitung akurasi dapat
menggunakan metode algoritma lain.
vii
UIN SYARIF HIDAYATULLAH JAKARTA
Name : Muhammad Ilham Ramadhon
Study Program : Informatics Engineering
Title : Analysis Sentimen Comment of Indonesian Capital
Movements on Twitter Sosial Media Using the K-
Nearest Neighbor (K-NN)
ABSTRACT
Sentimen Analysis is a type of natural language that is word processing to find out
people's opinions, attitudes or moods about a particular thing. Word processing in
this study is related to the process of classifying textual documents into positive and
negatif sentimens. Data obtained from sosial media Twitter related to netizens'
comments on moving the Indonesian capital from Jakarta to East Kalimantan with
the keyword new capital, moving capital, and moving the capital of 1.000 comments
using data crawling techniques. In this study the authors to classification the
performance of the K-Nearest Neighbor (K-NN) and training data using the lexicon
approach in the classification of test data. This study aims to determine the level of
accuracy, precision, recall by using the K-Nearest Neighbor (K-NN). Testing is also
carried out on determining the value of k on the K-Nearest Neighbor (K-NN)
algorithm to find the best parameters. The conclusion of the first data collection
testing the K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy
that is equal to 62% with the value of k is k = 9. In taking the second data testing
K-Nearest Neighbor (K-NN) algorithm with the best level of accuracy that is equal
to 64% with the value of k is k = 5. Suggestions for future researchers can develop
texts other than Indonesian and can classify those containing images. Then an
increase in dictionary collections, feature extraction of bigram, quadgram,
trigrams and so on. Then the accuracy calculation feature can use other algorithm
methods.
viii
UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR ISI
1.3.2 Metode............................................................................................... 7
ix
UIN SYARIF HIDAYATULLAH JAKARTA
BAB II LANDASAN TEORI ..............................................................................10
x
UIN SYARIF HIDAYATULLAH JAKARTA
2.12.7 Output Analysis Phase .................................................................... 32
xi
UIN SYARIF HIDAYATULLAH JAKARTA
4.2.2 Conceptual Model Klasifikasi Sentimen dengan Pendekatan Lexicon
......................................................................................................... 48
LAMPIRAN ..........................................................................................................98
xii
UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR GAMBAR
Gambar 2. 1 Rencana Pemindahan Ibu Kota Indonesia (Sumber : Wikipedia
Indonesia) .............................................................................................................. 12
Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger,
2007) ..................................................................................................................... 20
Gambar 3. 1 Tahapan Pengambilan Data Twitter ................................................. 41
Gambar 3. 2 Alur Penelitian.................................................................................. 45
Gambar 4. 1 Contoh Case Folding ....................................................................... 46
Gambar 4. 2 Contoh Filtering ............................................................................... 47
Gambar 4. 3 Contoh Tokenizing ........................................................................... 47
Gambar 4. 4 Contoh Normalisasi .......................................................................... 47
Gambar 4. 5 Contoh Stopword .............................................................................. 48
Gambar 4. 6 Contoh Stemming ............................................................................. 48
Gambar 4. 7 Proses Case Folding ......................................................................... 49
Gambar 4. 8 Proses Filtering ................................................................................ 50
Gambar 4. 9 Proses Tokenizing ............................................................................. 50
Gambar 4. 10 Proses Normalisasi ......................................................................... 50
Gambar 4. 11 Proses Stopwords ........................................................................... 50
Gambar 4. 12 Proses Stemming ............................................................................. 50
Gambar 4. 13 Hasil Crawling Data ....................................................................... 52
Gambar 5. 1 Grafik K-NN Data I .......................................................................... 91
Gambar 5. 2 Grafik K-NN Data II ........................................................................ 92
xiii
UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR TABEL
Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia) ..... 2
Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015) ........... 12
Tabel 2. 2 Kosakata Emosi (Sumber : Shaver, Murdaya, dan Fraley, 2001) ........ 18
Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012) .................................................. 22
Tabel 2. 4 Perbandingan K-NN, Naive Bayes dan SVM ...................................... 27
Tabel 2. 5 Confussion Matrix (Sumber : Prasetyo, 2012) ..................................... 29
Tabel 2. 6 Studi Literatur Sejenis .......................................................................... 35
Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya ................................. 37
Tabel 4. 1 Tokenizing ............................................................................................ 53
Tabel 4. 2 Normalisasi .......................................................................................... 54
Tabel 4. 3 Identifikasi Setiap Kata Pada Query .................................................... 54
Tabel 4. 4 Dokumen data latih .............................................................................. 55
Tabel 4. 5 Hasil case folding pada data latih ........................................................ 56
Tabel 4. 6 Filtering ............................................................................................... 57
Tabel 4. 7 Hasil Tokenizing pada data latih .......................................................... 57
Tabel 4. 8 Hasil normalisasi pada data latih ......................................................... 58
Tabel 4. 9 Hasil stopwords data latih .................................................................... 59
Tabel 4. 10 Hasil Stemming Pada Data Latih ....................................................... 60
Tabel 4. 11 Hasil proses indexing ......................................................................... 60
Tabel 4. 12 Hasil pembobotan kata tf.................................................................... 62
Tabel 4. 13 Perhitungan IDF(Inverse Dokumen Frekuensi) ................................. 64
Tabel 4. 14 Query Uji............................................................................................ 69
Tabel 4. 15 Tokenizing Data Uji ........................................................................... 69
Tabel 4. 16 Normalisasi Data Uji .......................................................................... 69
Tabel 4. 17 Stopwords Data Uji ............................................................................ 69
Tabel 4. 18 Stemming Data Uji ............................................................................. 69
Tabel 4. 19 Query Uji............................................................................................ 70
Tabel 4. 20 Hasil Pembobotan Query Uji dengan data latih ................................. 70
Tabel 4. 21 Hasil perkalian skalar antara query dan data latih ............................. 75
Tabel 4. 22 Hasil panjang setiap dokumen ........................................................... 78
xiv
UIN SYARIF HIDAYATULLAH JAKARTA
Tabel 4. 23 Cosine Similarity ................................................................................ 80
Tabel 4. 24 Hasil Perhitungan Tabel ..................................................................... 81
Tabel 4. 25 Faktor-faktor dalam proses simulasi .................................................. 81
Tabel 4. 26 Pengujian I ......................................................................................... 82
Tabel 4. 27 Pengujian II ........................................................................................ 83
Tabel 5. 1 Hasil akurasi K-NN dengan k = 1 ........................................................ 86
Tabel 5. 2 Hasil akurasi K-NN dengan k = 3 ........................................................ 86
Tabel 5. 3 Hasil akurasi K-NN dengan k = 5 ........................................................ 87
Tabel 5. 4 Hasil Akurasi K-NN dengan k = 9 ....................................................... 87
Tabel 5. 5 Hasil akurasi K-NN dengan k =10 ....................................................... 87
Tabel 5. 6 Hasil akurasi K-NN dengan k = 1 ........................................................ 88
Tabel 5. 7 Hasil akurasi K-NN dengan k = 3 ........................................................ 88
Tabel 5. 8 Hasil akurasi K-NN dengan k = 5 ........................................................ 89
Tabel 5. 9 Hasil akurasi K-NN dengan k = 9 ........................................................ 89
Tabel 5. 10 Hasil akurasi K-NN dengan k =10 ..................................................... 90
Tabel Lampiran 1 Hasil Data Pertama .................................................................. 98
Tabel Lampiran 2 Hasil Data Kedua.................................................................. 101
xv
UIN SYARIF HIDAYATULLAH JAKARTA
BAB I
PENDAHULUAN
1.1 Latar Belakang
Ibu kota dalam Kamus Besar Bahasa Indonesia (KBBI) adalah kota tempat
kedudukan pusat pemerintahan suatu negara, tempat dihimpun unsur administratif,
yaitu eksekutif, legislatif dan yudikatif. Dalam praktik pemerintahan, hampir setiap
tingkatan administrasi pemerintahan memiliki ibu kota dan pada kenyataannya di
beberapa negara, pusat pemerintahan tidak berkedudukan di ibu kota. Sehingga, ibu
kota adalah kota atau munisipalitas penting atau utama di sebuah negara, negara
bagian, provinsi, atau wilayah administratif lainnya, yang menjadi pusat
administrasi pemerintahan.
Secara konstitusional, Jakarta ditetapkan sebagai ibu kota Indonesia melalui
undang-undang Nomor 10 Tahun 1964. Jakarta telah menjadi pusat pemerintahan
sejak masih benama Batavia pada masa Hindia Belanda Pada awal abad ke-20 ada
upaya lebih pemerintah Hindia Belanda untuk mengubah lokasi ibu kota Batavia ke
Bandung, walaupun gagal karena depresi besar dan perang dunia II. Kemudian
setelah menjadi wacana selama puluhan tahun, Presiden Joko Widodo
mengumumkan pemindahan ibu kota negara ke Kalimantan Timur pada tahun
2019.
Usulan pemindahan ibu kota Indonesia dari Jakarta ke lokasi lainnya telah
didiskusikan sejak kepresidenan Soekarno hingga Susilo Bambang Yudhoyono
untuk membuat ide pusat politik dan administrasi baru, karena masalah lingkungan
dan overpopulasi Jakarta. Ada tiga pedapat utama proposal ini :
Pindahkan ibu kota resmi, seperti Brasil memindahkan ibu kotanya dari Rio de
Janerio ke Brasilia.
Pisahkan pusat administratif dan Jakarta masih menjadi ibu kota resmi, seperti
Malaysia memindahkan pusat administrasinya ke Putrajaya.
Jakarta masih tetap sebagai ibu kota dan pusat administatif.
Akan tetapi lokasi ibu kota sudah beberapa kali berpindah tempat saat pada
zaman dahulu saat Belanda melakukan agresi militer sehingga ibu kota beberapa
1
UIN SYARIF HIDAYATULLAH JAKARTA
2
kali sempat dipindahkan ke kota yang lebih aman.Ini beberapa urutan tabel sejarah
ibu kota Indonesia, yaitu :
Tabel 1. 1 Sejarah Lokasi Ibu Kota Indonesia (Sumber : Wikipedia Indonsia)
melihat pendapat atau kecenderungan opini terhadap nilai akurasi. Akurasi dihitung
dengan menghitung persentasi jumlah data latih dan data uji.
Solusi algoritma klasifikasi yang peneliti gunakan adalah K-Nearest
Neighbor. Peneliti memilih K-Nearest Neighbor karena penelitian sudah
melakukan tinjauan pustaka dari beberapa metode sejenis sebelumnya, diantaranya
adalah sebagai berikut : Penelitian yang dilakukan oleh Azhar, 2018, analisis
kinerja algoritma Naïve Bayes dan K-Nearest Neighbor pada sentimen analisis
dengan pendekatan lexicon. Sosial media yang diambil sentimennya adalah Twitter
API. Proses NLP yang digunakan adalah case folding, filtering, tokenizing,
normalisasi, stopwords, dan stemming. Dengan mempunyai kelebihan yaitu nilai K-
NN pada tingkat akurasi k=5 dengan tingkat akurasi mencapai 77%
Penelitian yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian
analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah sebesar
74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa algoritma K-NN
merupakan metode yang sesuai dengan klasifikasi text dan memiliki performa yang
tinggi.
Penelitian yang dilakukan oleh Nurjanah, Perdana &Fauzi, 2017, analisis
sentimen terhadap tayangan televisi berdasarkan opini masyarakat pada media
sosial twitter mengggunakan K-NN. Sosial media yang diambil sentimennya adalah
Twitter API. Proses NLP yang digunakan adalah tokenizing, case folding,
cleansing, filterisasi, dan stemming. Dengan mempunyai kelebihan yaitu Tingkat
akurasi pembobotan tekstual mencapai 82,50% dan non-tekstual 60% sedangkan
gabungan keduanya mencapai 83,33%. Nilai k yang digunakan yaitu k = 3 yang
merupakan k optimal, dan konstanta α=0,8 dan β=0,2 %..
Adapun beberapa hal yang menjadikan keunikan tersendiri dari penelitian
lainnya adalah
Pada penelitian ini akan dilakukan klasifikasi orientasi sentimen dengan
menggunakan algoritma K-Nearest Neighbor (K-NN), sehingga untuk
mengetahui seberapa besar peningkatan akurasi. Algoritma K-NN pada
penelitian ini akan bertindak sebagai algoritma yang akan melakukan klasifikasi
hasil orientasi sentimen.
10
UIN SYARIF HIDAYATULLAH JAKARTA
11
bertahap dimulai dari 2024. Dan terdapat polemik masyarakat akan pro dan kontra
pemindahan ibu kota Indonesia ini.
2.3 Twitter
Twitter adalah sebuah situs web yang dimiliki dan dioperasikan oleh Twitter
Inc., yang menawarkan jaringan sosial berupa microblog sehingga memungkinkan
penggunanya untuk mengirim dan membaca pesan tweet (Twitter, 2013).
Microblog adalah adalah satu jenis alat komunikasi online berupa pengguna dapat
memperbarui status tentang mereka yang sedang memikirkan dan melakukan
sesuatu, apa pendapat mereka tentang suatu objek atau fenomena tertentu. Tweet
adalah teks tulisan hingga 140 karakter yang ditampilkan pada halaman profil
pengguna. Tweet bisa dilihat secara publik, namun pengirim dapat membatasi
pengiriman pesan ke daftar teman-teman mereka saja. Pengguna dapat melihat
tweet pengguna lain yang dikenal dengan sebutan pengikut (follower).
Tabel 2. 1 Perbandingan Twitter Dengan Facebook (Kompasiana, 2015)
2. Segmentasi teks. Penentuan segmentasi sulit dilakukan pada bahasa tulis yang
tidak memiliki pembatas kata spesifik seperti (Mandarin, Thailand dan Jepang)
serta bahasa lisan yang terkadang membaurkan bunyi antar kata.
3. Disambiguasi makna kata. Banyak kata yang memiliki lebih dari satu makna
baik dalam bentuk homonim maupun polisemi. Pembedaan makna hanya dapat
dilakukan dengan melihat konteks penggunaan.
4. Ambiguitas sintak. Suatu bahasa memiliki berbagai kemungkinan struktur
kalimat. Pemilihan struktur yang paling tepat biasanya membutuhkan gabungan
informasi semantik dan kontekstual.
Diluar dari kesulitan-kesulitan tersebut, NLP telah berhasil diterapkan untuk
berbagai tugas yang semula hanya dapat dilakukan oleh manusia. Beberapa bidang
populer dalam penerapan NLP adalah sebagai berikut:
1. Pemerolehan Informasi. Pencarian dokumen yang relevan, pencarian informasi
yang spesifik di dalam dokumen, serta pembuatan metadata.
2. Penjawaban pertanyaan. Secara otomatis menjawab pertanyaan yang diajukan
dengan bahasa alami dengan jawaban bahasa alami pula.
3. Perangkuman otomatis. Pembuatan versi singkat berisi butir-butir penting dari
suatu dokumen dengan menggunakan program komputer.
4. Penerjemahan mesin. Penerjemahan otomatis dari suatu bahasa alami ke bahasa
lain.
5. Pengenalan wicara. Pengubahan bahasa lisan menjadi masukan yang dikenali
oleh mesin, misalnya pada pendiktean bahasa lisan kepada komputer untuk
menghasilkan bahasa tulis atau pelaksanaan suatu perintah oleh komputer
berdasarkan bahasa lisan dari manusia.
6. Pengenalan karakter optis. Pengubahan penulisan tangan atau teks tercetak
menjadi dokumen yang dapat dikenali oleh mesin.
2.5 Emosi
Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan
fisiologis dan biologis serta menimbulkan kecenderungan untuk melakukan
tindakan. Twitter seringkali digunakan dalam mengungkapkan emosi mengenai
sesuatu hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing.
Bisa menggunakan stoplist (membuang kata yang kurang penting) dan wordslist
(menyimpan kata yang penting). Contoh dari tahap ini adalah sebagai berikut:
a. Manajemen pengetahuan adalah sebuah konsep baru (hasil token).
b. Manajemen pengetahuan konsep baru (hasil filtering)
3. Tahap stemming
Tahap stemming adalah adalah tahap mencari root kata dari teks yang
dimasukan. Contoh dari tahap ini adalah sebagai berikut:
a. Memasukan (teks input)
b. Masuk (hasil stemming)
4. Tahap analisis
Tahap analisis adalah tahap penentuan seberapa jauh keterhubungan antara kata-
kata dengan dokumen yang ada.
Berikut gambaran sistem arsitektur text mining yang dicantumkan pada buku
(Feldman, R., & Sanger, 2007)
Gambar 2. 2 Sistem Arsitektur Text Mining (Sumber :Feldman, R., & Sanger, 2007)
tersebut sering kali hadir di dalam dokumen. Contoh stopwords adalah adanya,
adapun, agak, dll.
c. Stemming. Kata-kata yang muncul di dalam dokumen sering mempunyai banyak
varian morfologik. Karena itu, setiap kata yang bukan stop-words direduksi ke
stemmed words (term) yang cocok yaitu kata tersebut distem untuk mendapatkan
bentuk akarnya dengan menghilangkan awalan atau akhiran. Dengan cara ini,
diperoleh kelompok kata yang cocok dimana kata-kata di dalam kelompok
tersebut merupakan varian sintaktis dari satu sama lain dan dapat menghimpun
hanya satu kata per kelompok. Sebagai contoh kata terdaftar, pendaftaran
berbagi-pakai term, stem, umum, daftar, dan dapat diperlakukan sebagai bentuk
lain dari kata ini (Indriani, 2014).
2.8 Klasifikasi
Klasifikasi merupakan suatu metode untuk mengelompokkan sebuah objek
ke dalam kelompok atau kelas tertentu (Syafitri, 2010). Algoritma klasifikasi yang
banyak digunakan secara luas, yaitu Decision atau Classification Trees, Bayesian
Classifiers atau Naïve Bayes Classifiers, Neural Networks, Analisa Statistik,
Algoritma Genetika, Rough Sets, K-Nearest Neighbor , Metode Rule Based,
Memory Based Reasoning, dan Support Vector Machines (SVM) (Leidiyana,
2013). Proses ini dilakukan agar data atau citra dapat dikategorikan dalam suatu
kelas tertentu yang telah ditentukan.
Sebuah sistem klasifikasi juga harus diukur kinerjanya guna melihat tingkat
akurasi dan kesalahan dari sistem tersebut. Umumnya, pengukuran kinerja
klasifikasi dilakukan dengan matriks konfusi (confussion matrix). Matriks konfusi
merupakan tabel pencatat hasil kerja klasifikasi. Tabel 2.2 merupakan contoh
matriks konfusi yang melakukan klasifikasi masalah biner pada dua kelas yaitu
kelas 0 dan 1. Setiap set dalam matriks menyatakan jumlah record / data dari
kelas i yang hasil prediksinya masuk ke kelas j. Misalnya, set adalah jumlah
data dalam kelas 1 yang secara benar dipetakan ke kelas 1, dan adalah data
dalam kelas 1 yang dipetakan secara salah kelas 0 (Prasetyo, 2012).
Tabel 2. 3 Klasifikasi (Sumber: Prasetyo, 2012)
Kelas = 1 Kelas = 0
Kelas Asli (i) Kelas = 1 (True Positive) (False Negatif)
Kelas = 0 (False Positive) (True Negatif)
Berdasarkan isi matriks konfusi, dapat diketahui jumlah data dari masing-
masing kelas yang diklasifikasikan secara benar, yaitu (𝑓10+ 𝑓01) kuantitas matriks
konfusi dapat diringkas menjadi dua nilai, yaitu akurasi dan laju error.
Beradasarkan jumlah data yang diklasifikasi secara benar, maka dapat diketahui
akurasi hasil prediksi, dan dengan mengetahui jumlah data yang diklasifikasikan
secara salah, dapat diketahui laju error dari prediksi yang dilakukan. Dua kuantitas
ini digunakan sebagai matrik kinerja klasifikasi (Prasetyo, 2012).
Untuk menghitung akurasi digunakan formula sebagai berikut:
1. Positive keywords: baik, bagus, bisa, ok, cepat, akurat, aman, senang.
2. Negative keywords: acuh, ambigu, bodoh, gagal, abnormal, susah, lambat.
3. Negation keywords: seharusnya, bukan, tidak
Hu, dkk. 2004 dikutip Liu, 2012 mengusulkan algoritma berbasis lexicon
untuk aspek menentukan orientasi sentimen. Orientasi sentimen kalimat itu
ditentukan dengan menjumlahkan nilai orientasi semua kata sentimen di kalimat.
Sebuah kata positif diberi nilai sentimen dari +1 dan kata negatif diberi nilai
sentimen dari -1. Kata negasi dan kata-kata yang bertentangan (misalnya, tetapi dan
namun) juga dipertimbangkan. Ada empat langkah dalam menentukan orientasi
sentimen berdasarkan pendekatan lexicon yaitu :
1. Tandai kata yang mengandung sentimen : untuk setiap kalimat yang berisi satu
atau lebih kata sentimen, langkah ini menandai semua kata dan frasa dalam
sentimen kalimat. Setiap kata positif diberikan skor sentimen +1 dan setiap kata
negatif diberikan skor sentimen -1. Contoh “Kualitas lampu penerangan ini tidak
baik [ +1 ], tapi daya nya tahan lama [ +1 ]". Dari contoh tersebut kata baik
bernilai +1 dan tahan lama bernilai +1 karna termasuk kata positif.
2. Terapkan sentimen shifter adalah kata-kata dan frase yang dapat mengubah
orientasi sentimen. Ada beberapa jenis shifter kata negasi seperti tidak, tidak
pernah, dan tidak ada adalah jenis yang paling umum. Berdasarkan hal tersebut
kalimat menjadi “Kualitas lampu penerangan ini tidak baik [ -1 ], tapi daya nya
tahan lama [ +1 ]" karena kata negasi "tidak".
3. Agregat : Pada langkah ini berlaku fungsi agregasi pendapat dengan skor
sentimen yang dihasilkan untuk menentukan orientasi akhir dari sentimen.
𝑤𝑖𝑆𝑂
𝑠𝑐𝑜𝑟𝑒(𝑓) = ∑ (𝑃𝑒𝑟𝑠𝑎𝑚𝑎𝑎𝑛 2.3)
𝑑𝑖𝑠(𝑤𝑖, 𝑓)
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (Positif dan Negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan.
2.9.1 Kamus Lexicon
Dalam pendekatan analisis sentimen dengan menggunakan lexicon, kamus
merupakan komponen penting dalam ekstraksi kata sentimen. Menggunakan
6.txt
2.10 Metode K-Nearest Neighbour (K-NN)
K-NN adalah algoritma untuk mengklasifikasi objek baru berdasarkan atribut
dan training samples (data latih). Dimana hasil dari sampel uji yang baru
diklasifikasikan berdasarkan mayoritas dari kategori pada K-NN. Algoritma K-NN
menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari sampel uji yang
baru (Krisandi, Prihandono, & Bayes, 2013). Data latih akan dibangun dengan
memperhatikan keseimbangan dokumen satu sama lain. Adapun algortima K-NN
dapat dijelaskan (Kurniawan, 2012) dengan keterangan berikut:
a. Hitung jarak antara data sampel (data uji) dengan data latih yang telah dibangun.
Salah satu persamaan dalam menghitung jarak kedekatan dapat menggunakan
persamaan cosine similirity.
b. Menentukan parameter nilai k = jumlah tetanggaan terdekat.
c. Mengurutkan jarak terkecil dari data sample
d. Pasangkan kategori sesuai dengan kesesuaian
e. Cari jumlah terbanyak dari tetanggaan terdekat. Kemudian tetapkan kategori.
Jarak yang digunakan dalam penelitian ini adalah cosine similarity.
∑ 𝑘 (𝑑1 𝑑𝑘)
𝐶𝑜𝑠(𝑖, 𝑘) =
2 2
√∑ 𝑘 𝑑𝑖𝑘 √∑ 𝑘 𝑑𝑗𝑘
Keterangan :
∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k
2
√∑ 𝑘 𝑑𝑖𝑘 = panjang vektor i
2
√∑ 𝑘 𝑑𝑗𝑘 = panjang vektor k
dasar yang harus dipertimbangkan dalam melakukan studi simulasi. Lifecycle tidak
harus diartikan sebagai sebuah sekuensial yang strict, bersifat iteratif, dan kadang
juga bertransisi dalam arah yang berlawanan. Demikian juga, beberapa langkah
terkadang dapat dilewati atau di-skip sesuai dengan kompleksitas aplikasi. Hal ini
sangat dianjurkan untuk menggunakan siklus spiral dengan pengembangan
incremental yaitu pada langkah 2-8, yang dapat menyebabkan revisi untuk fase
sebelumnya. Setiap fase dalam siklus spiral harus berakhir sebuah prototype yang
sudah dapat bekerja yang sudah lebih fungsionalitas dari siklus sebelumnya.
(Madani et al., 2014) memberikan suatu tahapan dalam melakukan studi
simulasi. Adapun tahapan-tahapan tersebut adalah sebagai berikut.
2.12.1 Problem Formulation
Setiap studi seharusnya dimulai dengan statemen terhadap masalah.
Proses simulasi dimulai dengan masalah yang memerlukan pemecahan atau
pemahaman. Sebagai contoh seperti kasus sebuah perusahaan kargo mencoba
untuk mengembangkan strategi baru untuk truk pengiriman atau astronom
mencoba untuk memahami bagaimana nebula terbentuk. Pada tahap ini, harus
dipahami perilaku dari sebuah sistem, organize operasi sistem sebagai obyek
dalam rangka percobaan. Kemudian perlu dianalisis berbagai alternatif solusi
dengan menyelidiki hasil sebelumnya untuk masalah yang sama. Solusi yang
paling diterima harus dipilih (menghilangkan tahap ini dapat menyebabkan
pemilihan solusi yang salah). Jika masalah melibatkan analisis kinerja, ini adalah
titik di mana bisa didefinisikan matrik kinerja (berdasarkan variabel output) dan
fungsi tujuan (yaitu, kombinasi dari beberapa matrik) (Madani et al., 2014).
2.12.2 Conceptual Model
Langkah ini terdiri dari pengembangan deskripsi tingkat tinggi dari
struktur dan perilaku atau behavior sebuah sistem dan mengidentifikasi semua
benda dengan atribut dan interface mereka. Pada tahap ini harus ditentukan apa
saja variabel statenya, bagaimana mereka berhubungan, dan mana yang penting
untuk penelitian. Pada langkah ini, aspek-aspek kunci dari requierements
dinyatakan. Selama definisi model konseptual, perlu diungkapkan fitur yang
penting. Kemudian mendokumentasikan informasi-untuk non-fungsional
Nama Azhar, 2018 Sucitra Sahara, Nurjanah, Perdana, Willa Oktinas, 2017 Rustiana & Peneliti
Penulis 2016 & Fauzi, 2017 Rahayu, 2017 Sekarang
Topik Analisis Kinerja Penerapan Analisis Sentimen Analisis Sentimen Komparasi Analisis
Algoritma Naïve Metode K-Nearest Terhadap Tayangan pada Acara Televisi metode K-Nearest Sentimen
Bayes dan K- Neighbor untuk Televisi Berdasarkan Mengunnakan Neighbor dan Pemindahan Ibu
Nearest Neighbor analisis sentimen Opini Masyarakat Improved K-Nearest Support Vector Kota Indonesia
Pada Sentimen review game pada pada Media Sosial Neighbor. Machine pada Pada Media
Analisis Dengan android Twitter sentimen review Sosial Twitter
Pendekatan menggunakan kamera Menggunakan
Lexicon Metode k-NN Metode
Algoritma K-NN
Media Sosial Twitter Twitter Twitter Twitter Twitter Twitter
Algoritma Naïve Bayes dan K-NN K-NN K-NN K-NN dan SVM K-NN
Yang K-NN
Digunakan
Metode Case Folding, Tokenizing, Tokenizing , Case Cleansing, Filtering, Tokenizing, Case Folding,
Natural Filtering, Stopwords,dan folding, Cleansing, Tokenizing, Stopwords, dan Filtering,
Languange Tokenizing, Stemming Filterisasi, dan Stopward Removal, Stemming Tokenizing,
Processing Normalization, Stemming dan Stemming Normalization,
Yang Stopwords, dan Stopwords, dan
Digunakan Stemming Stemming
Kelebihan nilai K-NN pada K-NN berhasil Tingkat akurasi Dengan kelebihan Dengan kelebihan Nilai K-NN pada
tingkat akurasi mendapatkan pembobotan tekstual adalah hasil akurasi yaitu Akurasi k=9 akurasi
k=5 dengan tingkat akurasi mencapai 82,50% terbesar yang didapat pada K-NN mencapai 62%.
tingkat akurasi sebesar 74,50%, dan non-tekstual pada saat k=`10 sebesar 79% dan Lalu percobaan
mencapai 77%. menggunakan 60% sedangkan sebesar 90% Akurasi pada kedua mendapat
Algoritma Naïve feature weighting gabungan keduanya menggunakan SVM sebesar akurasi sebesar
Bayes dengan K- (pembobotan mencapai 83,33%. Cosine Similarity 72% 64% untuk K-
NN selisih tingkat kata) Nilai k yang NN.
akurasi mencapai digunakan yaitu k = 3
4% yang merupakan k
optimal, dan
konstanta α=0,8 dan
β=0,2.
Kekurangan sistem hanya bisa Pelabelan data Jika nilai konstanta α Dan terdapat Akan tetapi Sistem ini hanya
mengunakan data latih dilakukan =0, maka proses kekurangan, yaitu memiliki dapat
teks dan secara manual klasifikasi hanya membutuhkan waktu kekurangan mengklasifikasi
berbahasa menggunakan yang lama pada saat Pelabelan data data teks
Indonesia, tidak pembobotan jumlah pengujian latih dilakukan berbahasa
tedapat metode retweet saja. secara manual, Indonesia dan
orientasi teknis Sedangkan jika nilai kurangnya diharapkan
bigram, dan β = 0, maka tahapan proses dapat berjalan di
kurangnya koleksi klasififkasi hanya NLP semua platfrom.
kamus sentimen. menggunakan menyebabkan Kurangnya
pembobotan teks seleksi fitur ada koleksi kampus
saja. yang tidak sesuai sehingga dapat
dengan lebih maksimal.
klasifikainya
Tabel 2. 7 Keunikan Peneliti Dengan Peneliti Sebelumnya
Nama Azhar, 2018 Sucitra Sahara, Nurjanah, Willa Oktinas, Rustiana & Peneliti Sekarang
Penulis 2016 Perdana, & Fauzi, 2017 Rahayu, 2017
2017
Bayes dan K-NN 10 yang kemudian tekstual, non- 10. Didapatkan dan SVM yang pertama dilakukan
dengan labelling didapatkan nilai k tekstual dan hasil akurasi kemudian dengan algoritma
lexicon dan 10 mendapatkan penggabungan. tertinggi dengan dibandingkan K-NN 62%. Lalu
pengujian kedua akurasi yang paling Nilai k yang nilai k=10 sebesar sehingga percobaan kedua
dibandingkan tinggi. digunakan k=3 90%. didapatkan bahwa mendapat akurasi
dengan algoritma dan konstanta K-NN lebih baik sebesar 64%
Naïve Bayes dan K- α=0,8 dan β=0,2 dari SVM dengan untuk K-NN
NN tanpa lexicon. nilai 79% dan
72%.
2.14 Studi Pustaka
Fokus utama suatu tinjauan atau literature review dalam suatu penelitian adalah mengetahui apakah para peneliti lain telah
menemukan jawaban untuk pertanyaan-pertanyaan penelitian yang kita rumuskan. Jika dapat menemukan jawaban pertanyaan
penelitian tersebut dalam berbagai pustaka atau laporan hasil penelitian yang paling aktual, maka kita tidak perlu melakukan penelitian
yang sama. Kita harus memilih topik lain atau menyempurnakan hasil penelitian yang telah ada sehingga topik tersebut menjadi lebih
spesifik.
40
UIN SYARIF HIDAYATULLAH JAKARTA
41
dari Twitter API dalam bentuk XML, kemudian data tersebut disimpan langsung
menuju ke database MySQL. Pengambilan data dilakukan sebanyak 1.000 tweet
dengan 900 tweet dijadikan data latih dan 100 tweet dijadikan data uji.
Azhar nilai K-NN pada tingkat akurasi k=5 mencapai 77% dan selisisih tingkat
akurasi mencapai 4% pada algoritma Naïve Bayes kemudian tidak adanya
metode orientasi teknis bigram dan kurang koleksi kamus sentimen. Sedangkan
pada peneliti yang dilakukan oleh Sucitra Sahara, 2016, dilakukan penelitian
analisis sentimen terhadap game android. Akurasi yang dihasilkan adalah
sebesar 74,5%. Pengujian yang dilakukan memberikan kesimpulan bahwa
algoritma K-NN merupakan metode yang sesuai dengan klasifikasi text dan
memiliki performa yang tinggi.
Pada penelitian ini, data yang digunakan adalah tweet berbahasa Indonesia
yang terdapat pada Twitter. Terdapat batasan penulisan yaitu sebanyak 140
karakter didalam tweet. Terbatasnya penulisan membuat pengguna Twitter
seringkali menuliskan pesan berupa singkatan. Selain itu juga pengguna Twitter
dapat mengungkapkan ekspresi mereka dengan penggunaan huruf berlebihan
pada pesan Twitter. Hal ini menjadi suatu permasalahan dalam menentukan
orientasi sentimen analisis pada Twitter. Untuk itu diperlukan suatu algoritma
yang mampu mengatasi pesan Twitter yang mengandung sentimen sekaligus
dapat menyeleksi kata singkatan dan kata berlebih kemudian merubahnya
dengan kata yang dapat dijadikan fitur.
3.2.2 Conceptual Model (Pemodelan Konsep)
Dalam penelitian ini pemodelan konsep membahas keseluruhan penelitian
ini berkaitan dengan input, proses dan output. Pertama dengan
mengidentifikasikan input pada penelitian ini, yaitu tweet yang berisikan opini
warganet terkait pemindahan ibu kota Indonesia. Kedua, tweet yang telah
dikumpulkan kemudian diolah dan diproses dengan pendekatan lexicon sebagai
pelabelan terhadap data latih. Menggunakan metode algoritma K-NN klasifikasi
data uji. Hasilnya akan menghitung confussion matrix yang mempunyai keluaran
diantaranya tingkat akurasi, error rate, presisi, f-measure dan recall.
3.2.3 Collection of Input/Output Data (Pengumpulan Masukan atau
Keluaran Data)
Data komentar yang didapat dari Twitter API dijadikan input pada
penelitian ini dalam aplikasi berbasis PHP. Pengambilan data dilakukan
sebanyak 1.000 tweet dengan 900 tweet dijadikan data latih, dan 100 tweet
dijadikan data uji. Periode pengambilan data dibagi menjadi 2, yaitu data
pertama dari 10 Oktober 2019 hingga 23 Oktober 2019 dan 23 Januari 2020
hingga 03 Februari 2020. Data latih akan diolah menggunakan pendekatan
lexicon, sementara data uji akan diolah menggunakan metode algoritma K-
Nearest Neighbor.
3.2.4 Modelling Phase (Tahap Permodelan)
Pada tahap pemodelan, penulis membuat rancangan model sistem yang
akan dibuat. Pemodelan yang dibuat yaitu pemodelan pedekatan lexicon sebagai
metode pemberian label otomatis pada data latih dan pemodelan dengan
algoritma K-NN untuk klasifikasi data uji.
3.2.5 Simulation Phase (Tahap Simulasi)
Penulis melakukan simulasi pada aplikasi sentimen analisis ini. Simulasi
yang akan dilakukan adalah dengan melakukan input data set latih dan uji,
melakukan pelabelan terhadap data latih secara otomatis dengan lexicon based
untuk dikelompokkan sentimennya, melakukan pelatihan terhadap data latih dan
melakukan klasifikasi data uji dengan algoritma K-NN serta menghasilkan
tingkat akurasi, error rate, presisi dan recall dari algoritma yang dijadikan
penelitian.
3.2.6 Conclusion (Verification, Validation, and Experimentation)
Untuk membuat kesimpulan, penulis terlebih dahulu melakukan uji
verifikasi, validasi dan ekperimen. Verifikasi dan validasi bertujuan untuk
menyakinkan hasil dari aplikasi orientasi sentimen dengan menggunakan
algoritma K-NN. Sedangkan eksperimen bertujuan untuk mengevaluasi hasil
simulasi aplikasi.
3.2.7 Output Analysis Phase (Fase Analisa Hasil)
Penulis melakukan analisa terhadap output-output berdasarkan skenario
yang akan dilakukan yaitu melakukan perbandingan dengan hasil klasifikasi
algoritma K-NN dengan data latih dan data uji yang sama, serta menghitung
tingkat akurasi, error rate, presisi, f-measure dan recall dari algoritma yang
dijadikan penelitian.
2. Filtering
Tahapan filtering, adalah proses untuk membersihkan dokumen kegiatan yang
dilakukan adalah proses penghapusan karakter selain utf-8, url link, hashtag dan
mention.
46
UIN SYARIF HIDAYATULLAH JAKARTA
47
3. Tokenizing
Tahapan tokenizing, teks dilakukan proses penghapusan semua tanda baca dan
memecah kata
4. Normalisasi
Tahapan Normalisasi, teks dilakukan proses pernormalisasian terhadap kata
berlebihan dan kata singkatan dengan mengganti sesuai kaidah dalam kamus
Kamus Besar Bahasa Indonesia (KBBI). Pada tahapan ini setiap dijumpai kata
yang memiliki penggunaan huruf berlebih dan kata singkatan akan diubah
menjadi kata baku.
5. Stopwards
Tahapan stopwords dan stemming, teks dilakukan proses menghapus kata kata
yang dianggap tidak penting (stopwords) dan pengubahan kata berimbuhan
menjadi kata dasar (stemming). Adapun variasi imbuhan dalam hal ini antara lain
adalah prefik (awalan), suffik (akhiran), infik (sisipan), dan confik (kombinasi
awalan dan akhiran). Proses stemming dilakukan dengan menggunakan bantuan
KBBI. Pada tahap ini kata-kata yang bersifat stopwords akan dibuang hal ini
dikarenakan stopwords dianggap sebagai kata tidak penting atau tidak berguna
dan tahapan ini juga dapat menekan penggunaan waktu dalam menentukan hasil.
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan
Untuk contoh penggunaan rumus diatas akan diterangkan pada sub bab 4.4.1 yaitu
konstruksi pendekatan lexicon.
4.2.3 Conceptual Model Klasifikasi Sentimen dengan Algoritma K-NN
Berikut ini merupakan alur Tahap Pelatihan Algoritma K-Nearest
Neighbor :
1. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan
negatif dalam penelitian ini dibangun kamus positif dan negatif secara sistem.
Kamus sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus
negatif berjumlah 2.403 kata.
2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
3. Melakukan crawling data, yaitu dengan 1000 tweet dimana 900 tweet untuk
data latih dan 100 tweet untuk data uji. Dengan kata kunci pemindahan ibu
kota, ibu kota pindah, dan ibu kota baru
4. Pelatihan data latih. Pelatihan data latih dilakukan dengan cara membangun
inverted index (indexing) dan pembobotan kata menggunakan teknik TF-IDF.
Pelatihan dilakukan sebagai data pembelajaran oleh mesin k-NN. Tahapan
yang dilakukan adalah mengumpulkan dokumen yang didapat dari kumpulan
tweets berisi sentimen sebagai data latih, kemudian dilakukan proses pre-
proccessing query dalam enam tahapan dan terakhir melakukan indexing dan
pembobotan kata per kata data latih.
Case Folding
Filtering
Tokenizing
Normalisasi
Stopwords
Stemming
6. Pembobotan Kata
Hasil dari indexing pada proses selanjutnya akan dihitung nilai bobotnya.
Pada penelitian ini digunakan jenis perhitungan pembobotan lokal dengan
menggunakan TF (term frekuency) dan pembobotan global dengan
menggunakan IDF (inverse dokument frekuency).
Keterangan :
∑ 𝑘 (𝑑1 𝑑𝑘) = vektor dot produk dari i dan k
2
√∑ 𝑘 𝑑𝑖𝑘 = panjang vektor i
2
√∑ 𝑘 𝑑𝑗𝑘 = panjang vektor k
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus
sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif
berjumlah 2.403 kata.
2. Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
3. Pre-processing query
Contoh data latih yang ditentukan sentimennya dengan menggunakan metode
lexicon
Tweet : “@onoo04 Pejabat yang terhormat lebih baik kita menabung untuk
membuat ibu kota baru jangan berhutang karena hutang kita udah gede. Kasian
pemerintah masa depan akan menanggung pembayarannya #IbuKotaBaru
#puisimalam #bacotsantuy”
Case Folding (mengubah huruf kapital menjadi huruf kecil)
@onoo04 pejabat yang terhormat lebih baik kita menabung untuk membuat ibu
kota baru jangan berhutang karena hutang kita udah gede. kasian pemerintah
masa depan akan menanggung pembayarannya. #ibukotabaru #puisimalam
#bacotsantuy
Filtering (menghilangkan karakter khusus, tanda baca dan angka)
pejabat yang terhormat lebih baik kita menabung untuk membuat ibu kota baru
jangan berhutang karena hutang kita udah gede. kasian pemerintah masa depan
akan menanggung pembayarannya
Tokenizing (menghapus semua tanda baca dan memecah kata)
Tabel 4. 1 Tokenizing
normalisasi kata tidak baku yang diubah menjadi kata baku sesuai ejaan KBBI.
Selanjutnya, kata-kata pada data latih dibandingkan dengan kata yang terdapat
pada kamus KBBI. Jika kata pada data latih tidak sesuai dengan kata pada KBBI
maka akan dilakukan normalisasi. Berikut ini merupakan hasil dari normalisasi
kata:
Tabel 4. 2 Normalisasi
Positif Negatif
terhormat
berhutang
hutang
Baik
membuat
2 kata 3 kata
Pada proses ini tidak ada kata yang teridentifikasi sebagai kata negasi. Sehingga
kata sebelumnya tidak berubah
Menentukan Sentimen
Setelah keyword berhasil diekstrak, selanjutnya masing-masing keyword
dihitung kemunculannya. Jumlah keyword terbanyak, maka akan diambil
sentimennya.
Berikut perhitungan score:
Keterangan :
w i SO = Jumlah (score) fitur ke i setiap sentimen (positif dan negatif)
dis (wi,f) = Jumlah fitur yang berhasil ditemukan
2 + (−3)
𝑠𝑐𝑜𝑟𝑒(𝑓) = = −1
1
Hasil perhitungan score adalah -1, sehingga dapat disimpulkan dokumen
memiliki sentimen negatif.
4.4.2 Konstruksi Algoritma K-Nearest Neighbor Manual
Proses analisis sentimen pemindahan ibu kota pada media sosial Twitter
menggunakan metode algoritma K-NN akan dijelaskan di bawah ini :
a. Membangun kamus sentimen yang terbagi menjadi sentimen positif dan
negatif
Dalam penelitian ini dibangun kamus positif dan negatif secara sistem. Kamus
sentimen positif dalam penelitian ini berjumlah 1.185 kata dan kamus negatif
berjumlah 2.403 kata.
b. Membangun kamus negasi
Kamus negasi yang digunakan dalam penelitian ini sebanyak 10 kata.
c. Pelatihan data latih (inverted index dan pembobotan kata)
Untuk lebih jelas nya, berikut adalah contoh pembuatan inverted index dan
pembobotan kata pada data latih secara keseluruhan.
1. Mengumpulkan dokumen yang didapat dari kumpulan tweet berisi sentimen
sebagai data latih. Sebagai contoh digunakan 9 dokumen sebagai data latih.
Tabel 4. 4 Dokumen data latih
rtrw
seiring
realiasi
Dok(6) Dok(7) Dok(8) Dok(9)
mengawal menciptakan ambil sumberdaya
mandat peluang contoh dimobilisasi
rakyat investasi negara memproduksi
indonesia hedge timur ironisnya
funds dubai penghuninya
penciptaan doha
hubungannya bangunan
absurd
7. Stemming
Tabel 4. 10 Hasil Stemming Pada Data Latih
ambil 8:1
contoh 8:1
negara 8:1
timur 8:1
dubai 8:1
doha 8:1
bangun 8:1
absurd 8:1
sumberdaya 9:1
mobilisasi 9:1
memproduksi 9:1
Huni 9:1
Keterangan :
Kosa kata : kata tunggal yang terdapat dalam dokumen
Dokumen frekuensi : frekuensi kata dalam dokumen
1. Pembobotan kata. Berikut ini hasil dari pembobotan kata terhadap kata hasil
indexing
Tabel 4. 12 Hasil pembobotan kata tf
Kosa Kata Tf(D1) Tf(D2) Tf(D3) Tf(D4) Tf(D5) Tf(D6) Tf(D7) Tf(D8) Tf(D9) Df
dukung 1 1 0 0 0 0 0 0 0 2
perintah 1 0 0 0 0 0 0 0 0 1
pindah 1 1 1 0 0 0 0 0 0 3
temu 0 1 0 0 0 0 0 0 0 1
jokowi 0 1 0 0 0 0 0 0 0 1
prabowo 0 1 0 0 0 0 0 0 0 1
tegas 0 1 0 0 0 0 0 0 0 1
ibukota 0 1 0 0 0 0 0 0 0 1
dampak 0 0 1 0 0 0 0 0 0 1
negatif 0 0 1 0 0 0 0 0 0 1
bijak 0 0 1 0 0 0 0 0 0 1
presiden 0 0 1 0 0 0 0 0 0 1
joko 0 0 1 0 0 0 0 0 0 1
widodo 0 0 1 0 0 0 0 0 0 1
kaltim 0 0 1 0 0 0 0 0 0 1
kg 0 0 1 0 0 0 0 0 0 1
narkoba 0 0 1 0 0 0 0 0 0 1
masuk 0 0 1 0 0 0 0 0 0 1
pemkab 0 0 0 1 0 0 0 0 0 1
najam 0 0 0 1 0 0 0 0 0 1
paser 0 0 0 1 0 0 0 0 0 1
utara 0 0 0 1 0 0 0 0 0 1
cepat 0 0 0 1 0 0 0 0 0 1
sesuai 0 0 0 1 0 0 0 0 0 1
rencana 0 0 0 1 0 0 0 0 0 1
tata 0 0 0 1 0 0 0 0 0 1
ruang 0 0 0 1 0 0 0 0 0 1
wilayah 0 0 0 1 0 0 0 0 0 1
alias 0 0 0 1 0 0 0 0 0 1
rtrw 0 0 0 1 0 0 0 0 0 1
iring 0 0 0 1 0 0 0 0 0 1
realisasi 0 0 0 1 0 0 0 0 0 1
isu 0 0 0 0 1 0 0 0 0 1
viral 0 0 0 0 1 0 0 0 0 1
awal 0 0 0 0 0 1 0 0 0 1
mandat 0 0 0 0 0 1 0 0 0 1
rakyat 0 0 0 0 0 1 0 0 0 1
indonesia 0 0 0 0 0 1 0 0 0 1
cipta 0 0 0 0 0 0 2 0 0 1
peluang 0 0 0 0 0 0 1 0 0 1
investasi 0 0 0 0 0 0 1 0 0 1
hedge 0 0 0 0 0 0 1 0 0 1
funds 0 0 0 0 0 0 1 0 0 1
hubung 0 0 0 0 0 0 1 0 0 1
ambil 0 0 0 0 0 0 0 1 0 1
contoh 0 0 0 0 0 0 0 1 0 1
negara 0 0 0 0 0 0 0 1 0 1
timur 0 0 0 0 0 0 0 1 0 1
dubai 0 0 0 0 0 0 0 1 0 1
doha 0 0 0 0 0 0 0 1 0 1
bangun 0 0 0 0 0 0 0 1 0 1
absurd 0 0 0 0 0 0 0 1 0 1
sumberdaya 0 0 0 0 0 0 0 0 1 1
mobilisasi 0 0 0 0 0 0 0 0 1 1
memproduk 0 0 0 0 0 0 0 0 1 1
si
huni 0 0 0 0 0 0 0 0 1 1
Perhitungan Idf
𝑛
𝑖𝑑𝑓(𝑡) = log ( )
𝑑𝑓(𝑡)
Keterangan :
n = jumlah dokumen dalam corpus
df(t) = document frequency / jumlah dokumen dalam corpus yang mengandung
term t
Kosa df Idf w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
Kata
dukung 2 0.6532125 0.6532125 0.65321251
0 0 0 0 0 0 0
1 1 4
perintah 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
pindah 3 0.4771212 0.4771212 0.47712125
0 0 0 0 0 0 0
5 5 5
temu 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
jokowi 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
prabowo 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
tegas 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
ibukota 1 0.9542425
0 0.95424251 0 0 0 0 0 0 0
1
dampak 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
negatif 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
bijak 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
presiden 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
joko 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
widodo 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
kaltim 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
kg 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
narkoba 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
masuk 1 0.9542425
0 0 0.95424251 0 0 0 0 0 0
1
pemkab 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
najam 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
paser 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
utara 1 0.9542425 0.9542425
0 0 0 0 0 0 0 0
1 1
Query Uji : kita dukung perintah Presiden Jokowi pindahkan ibu kota
Indonesia :#IbuKotaBaru #IbuKotaPindah #Jokowi
a. Case Folding
kita dukung perintah presiden jokowi pindahkan ibu kota indonesia
#ibukotabaru #ibukotapindah #jokowi
b. Filtering
kita dukung perintah presiden jokowi pindahkan ibu kota indonesia
c. Tokenizing
Tabel 4. 15 Tokenizing Data Uji
2. Menghitung kedekatan kemiripan query uji dengan data latih menggunakan rumus consine similarity
Untuk lebih jelasnya, tahapan ini akan dijelaskan sebagai lanjutan contoh dari proses pre-proccessing query diatas. Sebagai contoh
query yang sudah dilakukan pre-proccessing sebagai berikut.
Kosa df Idf w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
Kata
dukung 2 0.653212 0.653212 0.653212 0.653212
0 0 0 0 0 0 0
51 51 51 51
perintah 1 0.954242 0.954242 0.954242
0 0 0 0 0 0 0 0
51 51 51
pindah 3 0.477121 0.477121 0.477121 0.477121 0.477121
0 0 0 0 0 0
25 25 25 25 25
temu 1 0.954242 0.954242
0 0 0 0 0 0 0 0 0
51 51
jokowi 1 0.954242 0.954242 0.954242
0 0 0 0 0 0 0 0
51 51 51
Selanjutnya berdasarkan perhitungan bobot tersebut, hitung panjang vektor setiap dokumen. Tahapan yang dilakukan adalah sebagai
berikut :
1. Hitung hasil perkalian skalar antara query uji dan 9 dokumen lainnya (data latih).
Tabel 4. 21 Hasil perkalian skalar antara query dan data latih
Asal_dokumen_perkalian_skalar (WQ*WDi)
w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
0.42668659 0.42668659 0 0 0 0 0 0 0
0.91057877 0 0 0 0 0 0 0 0
0.22764469 0.22764469 0.22764469 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0.91057877 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0
1.564910 1.564910 1.138223 0 0 0.910579 0 0 0
2. Hitung panjang setiap dokumen, termasuk query uji. Caranya dengan mengkuadratkan bobot setiap kata dalam setiap dokumen,
jumlahkan nilai kuadrat dan terakhir akarkan.
Tabel 4. 22 Hasil panjang setiap dokumen
w(Q) w(D1) w(D2) w(D3) w(D4) w(D5) w(D6) w(D7) w(D8) w(D9)
0.42668659 0.42668659 0.42668659 0 0 0 0 0 0 0
0.91057877 0.91057877 0 0 0 0 0 0 0 0
0.22764469 0.22764469 0.22764469 0.22764469 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0.91057877 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0.91057877 0 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0.91057877 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0.91057877 0 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0.91057877 0 0 0 0 0
0 0 0 0 0 0.91058 0 0 0 0
0 0 0 0 0 0.91058 0 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0.91057877 0 0 0
0.91057877 0 0 0 0 0 0.91057877 0 0 0
0 0 0 0 0 0 0 3.64232 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0.91058 0 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0.91058 0
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
0 0 0 0 0 0 0 0 0 0.91058
4.29665 1.564910047 5.207225114 9.33343236 12.74810274 1.821158 3.642315067 8.195209 7.28463 3.642315
2.07283534 1.250963647 2.281934511 3.05506667 3.570448534 1.349503 1.908485019 2.862728 2.699005 1.908485
Terapkan rumus consine similarity. Hitung kemiripan query dengan 9 dokumen lainnya (data latih).
Tabel 4. 23 Cosine Similarity
Cos(Q,D1) = 1.564910/ (2.07283534* 1.250963647) =1.564910/ 2.593041657= 0.603503628
Cos(Q,D2) = 1.564910/ (2.07283534* 2.281934511) = 1.564910/ 4.730074499= 0.330842579
Cos(Q,D3) = 1.138223/ (2.07283534*3.05506667) = 1.138223/ 6.332650161= 0.179738882
Cos(Q,D4) = 0 / (2.07283534*3.570448534) = 0 / 7.400951902= 0
Cos(Q,D5) = 0 / (2.07283534*1.349503) = 0 / 2.797297= 0
Cos(Q,D6) = 0.910579/ (2.07283534*1.908485019) = 0.910579/ 3.955975193= 0.230178078
Cos(Q,D7) = 0 / (2.07283534*2.862728) = 0/ 5.933963= 0
Cos(Q,D8) = 0 / (2.07283534*2.699005) = 0/ 5.594594= 0
Cos(Q,D9) = 0 / (2.07283534*1.908485) = 0 / 3.955975= 0
Variabel / Parameter
Tahap Simulasi
Simulasi
Tahap klasifikasi sentimen data latih
Faktor 1
dengan metode lexicon based
Tahap pelatihan data pada data latih
Faktor 2
berdasarkan sentimen dan
Tingkat k
(%) 1 3 5 9 10
Akurasi 59% 56% 61% 62% 58%
Error Rate 41% 44% 39% 38% 42%
Recall 54% 48% 64% 62% 67%
Presisi 69% 56% 57% 59% 58%
F-Measure 61% 52% 61% 61% 63%
2. Pengujian Data Kedua (23 Januari 2020 – 02 Februari 2020)
Tabel 4. 27 Pengujian II
Tingkat k
(%) 1 3 5 9 10
Akurasi 59% 59% 64% 60% 62%
Error Rate 41% 41% 36% 40% 38%
Recall 80% 80% 73% 80% 80%
Presisi 74% 74% 81% 82% 82%
F-Measure 77% 77% 77% 81% 81%
84
UIN SYARIF HIDAYATULLAH JAKARTA
85
dokumen. Dan 100 dokumen data uji baru. Nilai kombinasi antara kedua algoritma
dengan akurasi tertinggi akan digunakan pada sistem analisis orientasi sentimen ini.
Hasil akurasi data pertama (10 Oktober 2019 – 23 Oktober 2019)
a. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 1.
Tabel 5. 1 Hasil akurasi K-NN dengan k = 1
c. Hasil tingkat akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN sama
dengan 5.
Tabel 5. 3 Hasil akurasi K-NN dengan k = 5
Berdasarkan hasil pengujian dari tabel diatas dapat diambil nilai akurasi
sebagai berikut :
36 + 13 + 11
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100
36 + 7 + 1 + 0 + 13 + 10 + 9 + 13 + 11
60
𝑎𝑘𝑢𝑟𝑎𝑠𝑖 = × 100 = 60%
100
e Hasil Tingkat Akurasi Algoritma K-NN dengan nilai k pada algoritma K-NN
sama dengan 10
Tabel 5. 10 Hasil akurasi K-NN dengan k =10
K-NN Data I
80
68 67
70 64
60 61 60 62 62 62
59 57 59 60 58 58
60 54 56 56
52
48
50
40
30
20
10
0
Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10
Akurasi Presisi F-Measure Recall
presisi sebesar 0,581 dan recall sebesar 67%. Eksperimen kelima mengalami
penurunan akurasi sebesar 4% dari eksperimen sebelumnya dalam algoritma
K-NN.
6. Dari kelima eksperimen/skenario K-NN yang dilakukan peneliti, tingkat
tertinggi akurasi ada pada eksperimen keempat algoritma K-NN dengan
tingkat akurasi sebesar 62% pada parameter k = 9. Sementara tingkat terendah
akurasi jatuh pada eksperimen kedua algoritma K-NN parameter k = 3 dengan
tingkat akurasi sebesar 56%.
7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kelima sebesar
67%, Semakin tinggi nilai recall yang dihasilkan maka sistem dapat
memprediksi kelas yang diidentifikasi dengan benar.
8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang
tertinggi ada pada eksperimen kelima sebesar 0,625. Sementara nilai f-
measure terkecil ada pada eksperimen kedua sebesar 0,562 diikuti dengan
tingkat akurasi yang paling rendah. Artinya nilai f-measure menunjukan
semakin tinggi nilai f-measure (mendekati nilai 1) yang dihasilkan semakin
bagus kerja klasifikasi dalam memprediksi.
Hasil pengujian data kedua
K-NN Data II
90
80 80 80 81 80 80 81 80
80 76 76 76
73 73 73
70 67
64 62
59 59 60
60
50
40
30
20
10
0
Unigram k=1 Unigram k=3 Unigram k=5 Unigram k=9 Unigram k=10
Akurasi Presisi F-Measure Recall
7. Perhitungan recall tertinggi pada K-NN jatuh pada eksperimen kesatu, ketiga
dan kesembilan sebesar 80%. Semakin tinggi nilai recall yang dihasilkan
maka sistem dapat memprediksi kelas yang diidentifikasi dengan benar.
8. Perhitungan f-measure terhadap algoritma K-NN kelima eksperimen yang
tertinggi ada pada eksperimen keempat dan kelima sebesar 0,809. Sementara
nilai f-measure terkecil ada pada eksperimen kesatu dan kedua sebesar 0,766
diikuti dengan tingkat akurasi yang paling rendah. Artinya nilai f-measure
menunjukan semakin tinggi nilai f-measure (mendekati nilai 1) yang
dihasilkan semakin bagus kerja klasifikasi dalam memprediksi..
95
UIN SYARIF HIDAYATULLAH JAKARTA
DAFTAR PUSTAKA
Al-Bahra. 2010. Analisis dan Desain Sistem Informasi. Graha Ilmu.
Anonim. 2018. http://socs.binus.ac.id/2013/06/22/natural-language-processing
Asosiasi Penyelenggara Jasa Internet Indonesia (APJII). 2018. apjii.or.id/survei2017
Azhar (2018). Analisis Kinerja Algoritma Naïve Bayes dan K-Nearest Neighbor
pada Sentimen Analisis Dengan Pendekatan Lexicon pada Twitter
Bagir Muhammad, Indah Ayu Yuliani. 2012. Database Introduction. Depok: CCIT-
FTUI.
Bhonde, Rhesma et al.(2015). Sentimen Analysis Based on Dictionary Approach.
Feldman, R., & Sanger, J. (2007). Advanced Approaches in Analyzing Unstructured
Data, The Text Mining Handbook. New York: Cambirdge.
Kadir, A. (2012). Algoritma dan Pemrograman Menggunakan C & C++. (B. R. W,
Ed.) (1st ed.). Yogyakarta: Andi
Krisandi, Nobertus.,dkk (2013). Algoritma K-Nearest Neighbor Dalam Klasifikasi
Data Hasil Produksi Kelapa Sawit Pada PT.Minamas Kecamatan Parindu.
Buletin Ilmiah Math.Stat. dan Terapannya (Bimaster) Volume 02, No.01
2013: hal. 33-38
Liu, B. (2012). Sentimen Analysis and Opinion Mining. (H. Graeme, Ed.) (1st ed.).
Chicago : Morgan & Claypool Publisher. Retrieved from
https://www.cs.uic.edu/~liub/FBS/SentimenAnalysis-and-
OpinionMining.pdf
Liu, B. (2015). Sentimen Analysis: Opinion Mining, Sentimen, and Emotions. (H.
Graeme, Ed.) (1st ed.). Chicago : Morgan & Claypool Publisher. Retrieved
from https://www.cs.uic.edu/~liub/FBS/chapter-1-and-chapter-2.pdf
Matulatuwa, F. M., Studi, P., Sistem, M., Informasi, F. T., Kristen, U., & Wacana,
S. (2017). Text Mining dengan Metode Lexicon Based untuk Sentimen
Analysis Pelayanan PT. POS Indonesia Melalui Media Sosial Twitter
Jurnal, (September).
Madani, S. A., Kazmi, J., & Mahlknecht, S. (2014). Wireless sensor networks:
modeling and simulation. InTech.
96
UIN SYARIF HIDAYATULLAH JAKARTA
97
98
UIN SYARIF HIDAYATULLAH JAKARTA
99