Tesis Siti Masturoh

ANALISIS SENTIMEN E-WALLET OVO DAN DANA PADA
ULASAN GOOGLE PLAY MENGGUNAKAN ALGORITMA

K-NEAREST NEIGHBOR
TESIS
SITI MASTUROH
14002167
MAGISTER PROGRAM STUDI ILMU KOMPUTER

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2019
ANALISIS SENTIMEN E-WALLET OVO DAN DANA PADA
ULASAN GOOGLE PLAY MENGGUNAKAN ALGORITMA K-
NEAREST NEIGHBOR
TESIS
Diajukan sebagai salah satu syarat untuk memperoleh gelar Magister
Ilmu Komputer (M.Kom)
SITI MASTUROH
14002167
MAGISTER PROGRAM STUDI ILMU KOMPUTER

SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER
NUSA MANDIRI
JAKARTA
2020
Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri
v
KATA PENGANTAR
Puji syukur alhamdullillah, penulis panjatkan kehadirat Allah, SWT, yang

telah melimpahkan rahmat dan karunia-Nya, sehingga pada akhirnya penulis dapat
menyelesaikan tesis ini tepat pada waktunya. Dimana tesis ini penulis sajikan dalam
bentuk buku yang sederhana. Adapun judul tesis, yang penulis ambil sebagai
berikut “Analisis Sentimen E-Wallet OVO dan DANA Pada Ulasan Google Play
Menggunakan Algoritma K-Nearest Neighbor”.
Tujuan penulisan tesis ini dibuat sebagai salah satu untuk mendapatkan
gelar Ilmu Komputer (S2) (M.Kom) pada Program Studi Ilmu Komputer (S2)
Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri.
Sebagai bahan penulisan diambil berdasarkan hasil penelitian (eksperimen),

observasi dan beberapa sumber literatur yang mendukung penulisan ini. Penulis
menyadari bahwa tanpa bimbingan dan dorongan dari semua pihak, maka
penulisan Tesis ini tidak akan lancar. Untuk itu ijinkanlah penulis kesempatan
ini untuk mengucapkan ucapan terima kasih yang sebesar-besarnya kepada :
1. Orang tua, aa dan adik tercinta yang telah memberikan dukungan moral
maupun spritual.
2. Ibu Dr. Dwiza Riana, S.Si, M.M, M.Kom, Selaku Ketua STMIK Nusa Mandiri
Jakarta.
3. Bapak Arif Hidayat, S.S, M.Hum, Selaku Plt. Wakil Ketua II Bidang Non
Akademik STMIK Nusa Mandiri Jakarta.
4. Bapak Dr. Hilman Ferdinandus Pardede, M.Eng selaku Ketua Program Studi
Magister Ilmu Komputer STMIK Nusa Mandiri Jakarta.
5. Bapak Dr. Lindung Parningotan Manik, M.T.I selaku Dosen Pembimbing
Tesis.
6. Bapak/ibu dosen STMIK Nusa Mandiri Jakarta yang telah memberikan
ilmu kepada Penulis selama menempuh pendidikan S2.
7. Julid, Siti Nurlela, Yulianti, Staf Waket II (Risca, Rangga dan Taopik), dan
Shofwan Zamzami yang selalu memberikan Semangat.

vi
8. Rekan-rekan mahasiswa dan mahasiswi kelas 14.01.4A.
9. Dan saya sendiri terimakasih sudah berjuang sampai saat ini.
Serta semua pihak yang terlalu banyak untuk disebut satu persatu
sehingga terwujudnya penulisan ini. Penulis menyadari bahwa penulisan tesis ini
masih jauh sekali dari sempurna, untuk itu penulis mohon kritik dan saran yang
bersifat membangun demi kesempurnaan penulisan dimasa yang akan datang.
Akhir kata semoga tesis ini dapat berguna bagi penulis khususnya dan bagi
para pembaca yang berminat pada umumnya.
Jakarta, 02 Januari 2020
Siti Masturoh
Penulis

vii
viii
DAFTAR GAMBAR
Halaman
2.1. Tahapan Proses Knowladge Discovery in Database ............................... 7

2.2. User Interface Gata Framework ............................................................ 15
2.3. Hasil Preprocessing menggunakan aplikasi Gata Framework ................ 16
2.4. Kurva ROC ........................................................................................... 19
2.5. Pengujian Multinomial Naive Bayes-Levenshtein Distance dengan variasi
teks pre-processing ...................................................................................... 24
2.6. Kerangka Pemikiran .............................................................................. 30
3.1. Contoh Review Komentar Pengguna OVO ............................................ 32
4.1. Desain Model Preprocessing Data Menggunakan Gata Framework ...... 40
4.2. Desain Model Preprocessing Data Menggunakan RapidMiner .............. 40
4.3. Desain Model OVO ............................................................................... 41
4.4. Desin Model DANA ............................................................................. 42
4.5. Desain Prosess Cross Validation Untuk KKN OVO .............................. 44
4.6. Desain Prosess Cross Validation Untuk KKN DANA ........................... 45

xvii
DAFTAR TABEL
Halaman
1.1. Penilaian Rating Bintang Pengguna Aplikasi ......................................... 2

2.1. Performance Keakurasian AUC ............................................................ 19
2.2. Model Confusion Matrix ....................................................................... 20
2.3. Tabel Pengujian Nilai K ........................................................................ 22
2.4. Perbandingan Cross Validation dari Naive Bayes Clasifier Tanpa
Feature Selection dan Dengan Feature Selection ......................................... 23
2.5. Hasil Pengujian Sistem .......................................................................... 25
2.6. Rangkuman Penelitian Terkait ............................................................... 25
3.1. Review Pengguna OVO dan DANA ...................................................... 32
3.2. Spesifikasi Komputer ............................................................................ 34
4.1. Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses Tokenization
Regexp .......................................................................................................... 36
4.2. Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses Indonesian
Stemming ..................................................................................................... 36
4.3.Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses
Transformation: Not (Negative) ................................................................... 37
4.4. Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses indonesian
stop word removal ....................................................................................... 37
4.6. Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses tokenization
Pada RapidMiner ......................................................................................... 38
4.7. Perbandingan Teks Sebelum dan Sesudah Dilakukan Proses Filter Token
By Length ..................................................................................................... 39
4.8. Hasil Review Pengguna OVO 5 Kelas Dengan Nilai K 1 ........................ 45
4.9. Hasil Review Pengguna OVO 5 Kelas Dengan Nilai K 2 ........................ 46
4.10. Hasil Review Pengguna OVO 5 Kelas Dengan Nilai K 3 ...................... 46
4.17. Hasil Review Pengguna OVO 5 Kelas Dengan Nilai K 10 .................... 49
4.26. Hasil Review Pengguna OVO 5 Kelas Dengan Nilai K 100 .................. 53
xiii
xiv
4.77. Hasil Review Pengguna DANA 5 Kelas Dengan Nilai K 1 ................... 70
4.86. Hasil Review Pengguna DANA 5 Kelas Dengan Nilai K 10 ................. 74
4.95. Hasil Review Pengguna DANA 5 Kelas Dengan Nilai K 100 ............... 77
4.118. Hasil Review Pengguna DANA 2 Kelas Dengan Nilai K 100 ............. 85
xv
4.146. Hasil Rangkuman Pengujian OVO .................................................... 95
4.147. Hasil Rangkuman Pengujian DANA .................................................. 96
xvi
DAFTAR ISI
Halaman
HALAMAN SAMPUL ............................................................................. i
HALAMAN JUDUL ............................................................................... ii
HALAMAN PERNYATAAN ORISINALITAS ..................................... iii
HALAMAN PENGESAHAN .................................................................. iv
HALAMAN LEMBAR KONSULTASI ................................................. v
KATA PENGANTAR ............................................................................. vi
HALAMAN PE RNYATAAN PERSETUJUAN PUBLIKASI KARYA
ILMIAH UNTUK KEPENTINGAN AKADEMIS ................................. viii
ABSTRAK. ............................................................................................... ix
ABSTRACT ............................................................................................. x
DAFTAR ISI ............................................................................................ xi
DAFTAR TABEL .................................................................................... xiii
DAFTAR GAMBAR. ............................................................................... xvii
BAB 1 PENDAHULUAN ........................................................................ 1

1.1. Latar Belakang Penulisan. .......................................................... 1
1.2. Identifikasi Masalah .................................................................. 4
1.3. Tujuan Penelitian ....................................................................... 4
1.4. Ruang Lingkup Penelitian. ......................................................... 5
1.5. Hipotesis .................................................................................... 5
1.6. Sistematika Penulisan ................................................................ 6
BAB 2 LANDASAN TEORI .................................................................... 8

2.1. Tinjauan Pustaka ........................................................................ 8
2.1.1. Data Mining ..................................................................... 9
2.1.2. Text Mining ...................................................................... 9
2.1.3. Analisis Sentimen ............................................................ 9
2.1.4. Text Processing ............................................................... 11
2.1.5. Klasifikasi ........................................................................ 12
2.1.6. K-Nearest Neighbor ......................................................... 13
2.1.7. Gata Framework............................................................... 14
2.1.8. RapidMiner ..................................................................... 16
2.1.9. K-Fold Cross Validation ................................................. 18
2.1.10. ROC Curve .................................................................... 18
2.1.11. Confusion Matrix ........................................................... 19
2.2. Tinjauan Studi............................................................................ 21
2.2.1. Penelitian Terkait ............................................................ 21
2.3. Tinjauan Objek Penelitian .......................................................... 27
2.3.1. OVO ............................................................................... 27
2.3.2. DANA ............................................................................. 28
2.4. Kerangka Pemikiran ................................................................... 29
BAB 3 METODOLOGI PENELITIAN .................................................. 31

3.1. Perancangan Penelitian .............................................................. 31
xi
3.2. Pengumpulan Data Awal ............................................................ 32
3.3. Pengolahan Data Awal ............................................................... 32
3.4. Metode yang di Usulkan............................................................. 33
3.5. Eksperimen dan Hasil Pengujian ................................................ 34
3.6. Evaluasi dan Hasil Validasi ....................................................... 34
BAB 4 PEMBAHASAN DAN HASIL ..................................................... 35

4.1. Pembahasan ............................................................................... 35
4.2. Desain Modelling ....................................................................... 41
4.2.1. Modelling OVO ............................................................... 41
4.2.2. Modelling DANA ............................................................ 42
4.3. Desain Proses Model ................................................................. 44
4.3.1. Desain Proses Model OVO .............................................. 44
4.3.2. Desain Proses Model DANA ........................................... 45
4.4. Hasil Pengujian .......................................................................... 45
4.4.1. Hasil Pengujian K-Nearest Neighbor Pada OVO ............. 45
4.4.1.1. Hasil Pengujian OVO 5 Kelas ............................. 45
4.4.2. Hasil Pengujian K-Nearest Neighbor Pada DANA ................. 70
4.4.2.1. Hasil Pengujian DANA 5 Kelas .......................... 70
BAB 5. PENUTUP ................................................................................... 98

5.1. Kesimpulan. ............................................................................... 98
5.2. Saran. ......................................................................................... 99
DAFTAR REFERENSI ............................................................................ 100

DAFTAR RIWAYAT HIDUP .................................................................. 103

xii
ABSTRAK
Nama : Siti Masturoh

NIM : 14002167
Program Studi : Ilmu Komputer (S2)
Jenjang : Strata Dua (S2)
Konsentrasi : Data Mining
Judul : “Analisis Sentimen E-Wallet OVO dan DANA
Pada Ulasan Google Play Menggunakan
Algoritma K-Nearest Neighbor”
E-wallet atau dikenal juga dengan istilah dompet digital belakangan popularitasnya
makin menanjak, penetrasi pembayaran lewat mobile ini pun hampir menginjak
angka 30%, berdasarkan hasil studi dari lembaga riset independen FT Confidential
Research. Banyak orang mulai merasakan manfaat dompet digital seperti
menawarkan kepraktisan, efisiensi, keamanan, hingga promo dan diskon layaknya
kartu kredit. Dari beberapa produk E-Wallet peneliti mengambil studi kasus yaitu
produk OVO dan DANA dengan mengambil hasil ulasan pada Google Play. Ulasan
dari pengguna sering digunakan sebagai alat yang efektif dan efisien dalam
menemukan informasi terhadap suatu produk atau jasa. Para pengguna internet
biasanya akan melihat ulasan suatu produk terlebih dahulu sebelum menggunakan
suatu produk, karena review dari pengguna lain dapat menyediakan informasi
terbaru dari produk tersebut. Namun untuk memantau dan mengorganisir opini
masyarakat bukanlah hal yang mudah. Opini yang dimuat di media sosial
jumlahnya terlalu banyak untuk diproses secara manual. Oleh sebab itu peneliti
ingin mengetahui sejauh mana analisis review pengguna aplikasi E-Wallet
berdasarkan pemberian bintang (*) setelah menggunakan aplikasi tersebut. Metode
yang digunakan dalam penelitian ini menggunakan algoritma K-Nearest Neighbor
pada klasifikasi 3 kelompok kelas, kelas pertama terdiri dari lima kelas yaitu dari
rating 1 sampai dengan rating 5, kelas kedua terdiri dari dua kelas yaitu rating 1 dan
rating 5, terakhir kelas ketiga terdiri dari tiga kelas dengan mengelompokan rating
1 dan 2 sebagai status negatif, rating 3 netral dan rating 4 5 kedalam status positif,
dan mencari nilai accuray terbaik dari aplikasi E-Wallet OVO dan DANA, serta
mencari nilai k terbaik. Hasil dari penelitian ini dengan metode K-Neaarest
Neighbor dengan nilai k=1 pada OVO/DANA mendapatkan nilai akurasi yang
paling tinggi karena menghasilkan Accuracy pada OVO dengan menggunakan 2
kelas 84.86 % sedangkan pada DANA dengan menggunakan 2 kelas 86.64%.
Kata kunci:
E-Wallet, OVO dan DANA, Ulasan, K-Nearest Neighbor

ix
ABSTRACT
Name : Siti Masturoh

NIM : 14002167
Study of Program : Ilmu Komputer (S2)
Levels : Strata Dua (S2)
Concentration : Data Mining
Title : “Analisis Sentimen E-Wallet OVO dan DANA
Pada Ulasan Google Play Menggunakan
Algoritma K-Nearest Neighbor”
E-wallet, also known as digital wallet, has recently gained popularity, the
penetration of payments via mobile has almost reached 30%, based on the results
of a study by an independent research institute, FT Confidential Research. Many
people are starting to feel the benefits of digital wallets such as offering
practicality, efficiency, security, to promos and discounts like a credit card. From
some E-Wallet products, researchers took case studies, namely OVO and DANA
products by taking the results of reviews on Google Play. User reviews are often
used as an effective and efficient tool in finding information about a product or
service. Internet users will usually see a product review first before using a product,
because reviews from other users can provide the latest information from the
product. But to monitor and organize public opinion is not easy. Opinions posted
on social media are too numerous to be processed manually. Therefore the
researcher wants to know the extent of the analysis of user reviews of the E-Wallet
application based on giving a star (*) after using the application. The method used
in this study uses the K-Nearest Neighbor algorithm in the classification of 3 class
groups, the first class consists of five classes, namely from rating 1 to rating 5, the
second class consists of two classes namely rating 1 and rating 5, finally the third
class consists of the three classes by classifying ratings 1 and 2 as negative status,
neutral 3 rating and rating 4 5 into positive status, and finding the best accuracy
value from the OVO and FUN E-Wallet application, and looking for the best k
value. The results of this study with the K-Neaarest Neighbor method with a value
of k = 1 on OVO / DANA get the highest accuracy value because it produces
Accuracy on OVO by using 2 classes 84.86% while in DANA using 2 classes
86.64%.
Keywords:
E-Wallet, OVO and DANA, Review, K-Nearest Neighbor

x
BAB I
PENDAHULUAN
1.1 Latar Belakang Penulisan

E-wallet atau dikenal juga dengan istilah dompet digital belakangan
popularitasnya makin menanjak, penetrasi pembayaran lewat mobile ini pun
hampir menginjak angka 30%, berdasarkan hasil studi dari lembaga riset
independen FT Confidential Research. Banyak orang mulai merasakan manfaat
dompet digital seperti menawarkan kepraktisan, efisiensi, keamanan, hingga
promo dan diskon layaknya kartu kredit.
Sementara OVO yang sudah bekerja sama dengan Grab dan Tokopedia,
diterima oleh 70% pusat perbelanjaan di Indonesia termasuk kafe, bioskop,
penyelenggara parkir, dan supermarket. Pendatang baru DANA, menyediakan
fitur meliputi pembelian pulsa, tagihan listrik dan telepon, pembayaran PDAM,
iuran BPJS, cicilan kartu kredit, serta transfer DANA antarpengguna..
Google Play adalah layanan konten digital milik Google yang terdiri dari toko
produk-produk online merupakan musik/lagu, buku, aplikasi, permainan,
ataupun pemutar media berbasis awan. Google Play dapat diakses melalui web,
aplikasi android (Play Store), dan Google TV. Dalam Google Play dilengkapi
dengan adanya fitur berisi ulasan dari para pengguna yang dapat digunakan untuk
melihat ulasan dari pengguna aplikasi. Ulasan dari pengguna sering digunakan
sebagai alat yang efektif dan efisien dalam menemukan informasi terhadap suatu
produk atau jasa. Bahwa penelitian baru-baru ini menemukan hampir 50% dari
pengguna internet bergantung pada rekomendasi word-of-mouth (opini) sebelum
menggunakan suatu produk, karena review dari pengguna lain dapat
menyediakan informasi terbaru dari produk tersebut berdasarkan perspektif
pengguna-pengguna lain yang sudah menggunakan produk tersebut. (Aditya et
al.2019)
1
2
Tabel 1.1. Penilaian rating bintang pengguna aplikasi

No Bintang Keterangan
1 Sangat Bagus
2 Bagus
3 Cukup
4 Kurang
5 Sangat Kurang
Sumber : Telah diolah kembali berdasarkan pencarian di google play
Ulasan dari pengguna sering digunakan sebagai alat yang efektif dan
efisien dalam menemukan informasi terhadap suatu produk atau jasa. Para
pengguna internet biasanya akan melihat ulasan suatu produk terlebih dahulu
sebelum menggunakan suatu produk, karena review dari pengguna lain dapat
menyediakan informasi terbaru dari produk tersebut. Namun untuk memantau
dan mengorganisir opini masyarakat bukanlah hal yang mudah. Opini yang
dimuat di media sosial jumlahnya terlalu banyak untuk diproses secara manual.
Oleh sebab itu peneliti ingin mengetahui sejauh mana analisis review pengguna
aplikasi E-Wallet berdasarkan pemberian bintang (*) setelah menggunakan
aplikasi tersebut.
Untuk penelitian ini fokus utamanya adalah analisa sentimen e-wallet
pengguna aplikasi OVO dan DANA yang ada di situs google play dimana untuk
pengambilan datanya pada 03 oktober 2019 – 03 desember 2019 (kurun waktu 2
bulan). Citra merek yang baik tentunya akan membentuk opini yang baik pula
dari konsumen tentang suatu produk/jasa, dan diharapkan akan mendorong
terjadinya proses penggunaan oleh konsumen, dan begitu sebaliknya. analisa
sentimen e-wallet pengguna OVO dan DANA bisa dipengaruhi oleh beberapa
hal yang belum menjadi perhatian baik dari pihak OVO dan DANA. Hal ini
mungkin terjadi karena adanya beberapa faktor yang harus diperbaiki dan belum
diketahui oleh pihak OVO dan DANA.

3
Berdasarkan penjelasan tersebut maka diperlukan sebuah cara agar dapat

mengklasifikasikan suatu isi dari ulasan yang menjadi sebuah pengetahuan baru
yaitu berupa kesimpulan hasil ulasan mengenai aplikasi E-Wallet yang ada di
dalam ulasan google play. Hal tersebut dimungkinkan dengan menggunakan
analisis sentimen. Analisis sentimen merupakan proses memahami, mengekstrak
dan mengolah data tekstual secara otomatis untuk mendapatkan informasi
sentimen yang terkandung dalam suatu kalimat. Besarnya pengaruh dan manfaat
dari analisis sentimen menyebabkan penelitian dan aplikasi berbasis analisis
sentimen berkembang pesat (Buntoro, 2017). Analisis sentimen dilakukan untuk
menentukan apakah opini atau komentar terhadap suatu permasalahan, memiliki
kecenderungan positif atau negatif dan dapat dijadikan sebagai acuan dalam
meningkatkan suatu pelayanan, ataupun meningkatkan kualitas produk. (Nurjanah et
al.2017)
Pada penelitian yang sudah dilakukan mengenai analisis sentimen, terdapat
penelitian tentang Analisis Sentimen E-Wallet Pada Google Play Menggunakan
Algoritma Naive Bayes Berbasis Particle Swarm Optimization. Pada penelitian
tersebut, pencarian data berdasarkan hasil review di google playstore mengenai
aplikasi e-wallet pada aplikasi OVO. Data yang sudah didapat dilabeli positif dan
negatif. Setelah itu dilakukan preprocessing yaitu yang pertama kali dilakukan
proses tokenization yaitu melakukan memecah sekumpulan karakter (kalimat)
menjadi potongan karakter atau kata-kata sesuai kebutuhan, selanjunyan proses
Stemming menghilangkan imbuhan yang terdapat pada masing-masing kata
sehingga menjadi kata dasar dengan menggunakan indonesian stemming untuk
review berbahasa Indoensia, selanjutny proses Indonesian Stopword Removal
dalam proses ini kata-kata yang tidak relevan akan dihapus, terakhir proses
Transform Case untuk mengubah huruf kapital yang masih ada pada text akan
diubah menjadi huruf kecil semua. Algoritma klasifikasi yang digunakan yaitu
Naïve Bayes Classifier berbasis Particle Swarm Optimization. Akurasi yang
terbaik dalam penelitian ini adalah dengan model algoritma Naive Bayes
Classifier dengan feature selection dan dibandingkan dengan model Naive Bayes

4
Classifier tanpa feature selection bahwa penggunaan feature selection Particle

Swarm Optimization (PSO) dapat meningkatkan nilai dari Accuracy dan AUC.
Peningkatan yang didapatkan sangat signifikan yang sebelumnya model Naive
Bayes Classifier tanpa feature selection hanya menghasilkan 82.30% dan nilai
AUC 0.780 setelah ditambahkan penggunaan feature selection menjadi 83.60%
untuk accuracy dan nilai AUC 0.801 (Aditya et al. 2019)
Di dalam penelitian ini, akan dibahas tahapan yang dilalui untuk
melakukan proses analisis sentimen terhadap analisis review pengguna OVO dan
DANA. Dimulai dari tahap preprocessing sampai tahap analisis sentimen dengan
menggunakan algoritma K-Nearest Neighbor serta bagaimana mengukur kualitas
hasil analisis dengan mencari nilai k terbaik.
1.2 Identifikasi Masalah

Berdasarkan latar belakang masalah yang telah diuraikan, maka dalam
penelitian ini permasalahan yang akan dirumuskan diantaranya adalah :
1. Bagaimanakah gambaran umum data review pengguna OVO dan DANA
dengan pengambilan data dalam jangka waktu 2 bulan dengan menggunakan
algoritma klasifikasi untuk teks berbahasa indonesia berdasarkan jumlah
skor bintang dengan menggunakan 3 kategori yang berbeda yaitu pertama
untuk 5 kelas yaitu skor bintang 1 sampai dengan bintang 5, kedua untuk 2
kelas penilaian skor bintang 1 dan 5 saja, ketiga untuk 3 kelas
mengelompokan bintang 1 2 kedalam kategori negative bintang 3 netral dan
bintang 4 5 katerogi positive sehingga kelas 3 pernyataan positive negatif
dan netral?
2. Manakah nilai accuracy tertinggi dari ke tiga kategori dalam analisis
sentimen e-wallet OVO dan DANA dalam ulasan google play dengan
menggunakan algoritma klasifikasi k-nearest neighbor (KNN), serta
manakah aplikasi e-wallet DANA dan OVO yang memiliki nilai accuracy
tertinggi.

5
3. Manakah nilai K yang terbaik dalam mengklasifikasi data analisis e-wallet

OVO dan DANA pada ulasan google play dengan menggunakan algoritma
klasifikasi k-nearest neighbor (KNN)
1.3 Tujuan Penelitian

Adapun tujuan dari penelitian yang dilakukan dalam tesis ini sebagai berikut
:
1. Mengklasifikasi analisis ulasan pengguna 2 aplikasi e-wallet yaitu OVO dan
DANA dengan proses Text Mining menggunakan metode algoritma K-
Nearest Neighbor (KNN) dalam menentukan akurasi.
2. Mencari nilai Accuracy terbaik berdasarkan nilai K pada algoritma K-
Nearest Neighbor (KNN).
3. Mencari nilai K terbaik pada algoritma K-Nearest Neighbor (KNN).
1.4 Ruang Lingkup Penelitian

Ruang lingkup masalah sudah ditentukan untuk menghindari perluasan
pembahasan dalam penelitian ini, antara lain :
1. Data yang diklasifikasi hanya ulasan pengguna OVO dan DANA pada google
play dalam kurung waktu 03 Oktober 2019 sampai dengan 03 Desember 2019
(2 bulan).
2. Ulasan pada aplikasi yang akan diklasifikasi adalah teks berbahasa indonesia
(meliputi bahasa formal dan non formal).
3. Metode yang digunakan untuk analisis sentimen menggunakan algoritma K-
nearest neighbor (KNN), dengan membandingkan hasil penelitian 5 kelas
(bintang 1 sampai bintang 5) hasil penilaian 2 kelas (bintang 1 dan bintang 5)
dan 3 kelas (Negative, Netral dan Positive).
4. Mencari nilai K dari nilai K 1 sampai jumlah dataset.

6
1.5 Hipotesis
Dalam penelitian ini, penulis mengambil hipotesis dalam proses analisis
sentimen e-wallet OVO dan DANA pada ulasan google play penyeleksian
perubahan signifikan hasil perhitungan dari nilai k pada Algoritma algoritma K-
nearest neighbor (KNN).
H0 = Penyeleksian perubahan signifikan hasil perhitungan antara 5 kelas, 2
kelas dan 3 kelas pada ulasan OVO dan DANA
H1 = Penyeleksian tidak ada perubahan signifikan hasil perhitungan antara 5
kelas, 2 kelas dan 3 kelas pada ulasan OVO dan DANA
1.6 Sistematika Penulisan

Sistematika penulisan yang digunakan dalam penulisan ini adalah sebagai
berikut:
BAB I PENDAHULUAN
Membahas mengenai latar belakang penulisan, permasalahan
penelitian, manfaat dan tujuan penelitian serta ruang lingkup
penelitian.
BAB II LANDASAN TEORI

Membahas tentang landasan teori yang melandasi penelitian yang
mencakup tinjauan studi dan tinjauan pustaka serta teori-teori
lainnya yang mendukung dalam proses penelitian ini.
BAB III METODOLOGI PENELITIAN

Berisi tentang metode penelitian yang membahas tentang
perancangan metode penelitian serta konsep dari penelitian yang
nantinya akan digunakan sebagai solusi dalam penyelesaian
masalah yang diangkat dalam penelitian ini.

7
BAB IV HASIL DAN PEMBAHASAN

Menampilkan hasil dari eksperimen, baik sebelum maupun
sesudah model diterapkan. Membandingkan hasil dari kedua
model untuk melihat tingkat akurasi yang paling tinggi.
BAB V PENUTUP
Membahas kesimpulan dan kekurangan penelitian, serta
kelebihan dari model yang digunakan.

BAB II
LANDASAN TEORI
2.1. Tinjauan Pustaka

Tinjauan pustaka dilakukan dengan menggunakan referensi dari buku-buku
ataupun artikel yang penulis dapatkan melalui media internet sebagai acuan
penulisan ini, berikut adalah pengertian-pengertian mengenai penulisan yang akan
dibahas.
2.1.1. Data Mining

Data mining adalah proses ekstraksi pengetahuan dari sekelompok data yang
besar. Salah satu teknik dalam data mining adalah klasifikasi. Klasifikasi dilakukan
untuk mengelompokkan sekumpulan data ke dalam kelas-kelas yang telah
ditentukan terlebih dahulu berdasarkan kesamaan karakteristik yang dimiliki
(Eransa, 2016). Data mining bisa dikatakan sebagai pencarian otomatis pola dalam
basis data besar, menggunakan teknik komputasional campuran dari statistik,
pembelajaran mesin dan pengenalan pola (Prasetyo, 2014).
Ada istilah lain yang mempunyai makna yang sama dengan data mining yaitu
knowledge discovery in database (KDD). KDD bertujuan untuk memanfaatkan data
dalam basis data dengan mengolahnya sehingga menghasilkan informasi baru yang
berguna.
Sumber: (Wahyudi et al, 2017)

Gambar 2.1. Tahapan Proses Knowladge Discovery in Database

8
9
Secara garis besar gambar diatas, menjelaskan langkah-langkah utama dalam

proses KDD yaitu sebagai berikut (Wahyudi et al, 2017, p. 2):
1. Data Selection
Pemilihan data dari sekumpulan data operasional yang perlu dilakukan
sebelum tahap penggalian informasi dalam Knowledge Discovery In Database
(KDD) dimulai. Data hasil seleksi yang digunakan untuk proses data mining,
disimpan dalam suatu berkas, terpisah dari data operasional.
2. Processing
Processing dimana proses pembersihan data mencakup membuang duplikasi
data, memeriksa data inkonsisten, dan memperbaiki kesalahan data.
3. Transformation
Pada tahap ini, membuat data menjadi lebih baik menggunakan metode reduksi
dimensi dan transformasi atribut.
Coding adalah proses transformasi pada data yang telah dipilih, sehingga
data tersebut sesuai untuk proses data mining. Proses coding dalam Knowledge
Discovery Database (KDD) merupakan proses kreatif dan sangat bergantung
pada jenis atau pola informasi yang dicari dalam basis data.
4. Proses mining
Proses mining adalah proses mencari pola atau informasi dalam data
terpilih dengan menggunakan teknik atau metode tertentu. Teknik metode
atau algoritma yang tepat sangat bergantung pada tujuan dan proses
Knowledge Discovery Database (KDD) secara keseluruhan.
5. Interpretation (evaluasi)
Tahapan ini merupakan bagian dari proses Knowledge Discovery Database
(KDD) yang disebut Interpretation. Pola ini melihat apakah ada sesuatu
yang baru dan menarik dan dilakukan iterasi jika diperlukan. Tahap ini akan
diketahui apakah pola atau informasi yang ditemukan bertentangan dengan
fakta atau hipotesis yang ada sebelumnya. Tahap Evaluasi, tahap ini dilakukan
evaluasi dan penerjemahan dari pola yang didapat.

10
2.1.2. Text Mining

Text mining umumnya mencakup kategorisasi informasi atau teks,
mengelompokkan teks, ekstraksi entitas atau konsep, pengembangan dan
perumusan taksonomi umum. Text mining berkenaan dengan informasi terstruktur
atau tekstual ekstraksi informasi yang bermakna dan pengetahuan dari jumlah
besar teks (Hashimi et al. 2015).
Feldman (2007) mengungkapkan Text mining adalah sebagai proses
ekstraksi implisit pengetahuan dari data tekstual. Karena pengetahuan implisit
yang merupakan output dari text mining tidak ada dalam penyimpanan tertentu, itu
harus dibedakan dari informasi yang diperoleh dari penyimpanan (Zhao, 2013).
Text mining mengacu pada proses ekstraksi pengetahuan yang diperlukan
langsung untuk membuat keputusan penting dari data tekstual. text mining adalah
tipe khusus dari data mining dan harus dibedakan dari data mining tradisional di
mana pengetahuan diekstrak dari item data relasional (Zhao, 2013).
Text mining adalah salah satu bidang khusus dari data mining. Hanya saja,
yang membedakannya adalah pada sumber datanya, dimana text mining
bersumber dari kumpulan dokumen atau teks. Sesuai dengan buku The Text
mining Handbook, text mining dapat didefinisikan sebagai suatu proses menggali
informasi dimana seorang user berinteraksi dengan sekumpulan dokumen
menggunakan tools analisis yang merupakan komponen-komponen dalam data
mining yang salah satunya adalah klasifikasi. Pada proses klasifikasi ini, dokumen
akan dikelompokkan ke dalam kategori yang sesuai berdasarkan pola yang dibuat
pada proses training.
2.1.3. Analisis Sentimen

Analisis sentimen atau opinion mining adalah studi komputasional dari
opini-opini orang, sentimen, dan emosi melalui entitas dan atribut yang
dimiliki yang diekspresikan dalam bentuk teks. Analisis sentimen ini dapat
mengelompokkan polaritas dari teks dalam kalimat atau dokumen untuk
mengetahui apakah opini pada kalimat atau dokumen tersebut apakah termasuk
positif atau negatif (Rofiqoh et al. 2017)

11
Analisis sentimen atau opinion mining merupakan proses memahami,

mengekstrak dan mengolah data tekstual secara otomatis untuk mendapatkan
informasi sentimen yang terkandung dalam suatu kalimat opini. Analisis sentimen
dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah
masalah atau objek oleh seseorang, apakah cenderung berpandangan atau beropini
negatif atau positif. Salah satu contoh penggunaan analisis sentimen dalam dunia
nyata adalah identifikasi kecenderungan pasar dan opini pasar terhadap suatu objek
barang. Besarnya pengaruh dan manfaat dari analisis sentimen menyebabkan
penelitian dan aplikasi berbasis analisis sentimen berkembang pesat. Bahkan di
Amerika terdapat sekitar 20-30 perusahaan yang memfokuskan pada layanan
analisis sentimen (Buntoro, 2017).
Tujuan dari analisa sentimen adalah untuk menentukan perilaku atau opini
dari seorang penulis dengan memperhatikan suatu topik tertentu. Perilaku bisa
mengindikasikan alasan, opini atau penilaian, kondisi kecenderungan bagaimana si
penulis ingin mempengaruhi pembaca (Arifin, 2016).
Sentimen analisis juga dapat menyatakan perasaan emosional sedih,
gembira, atau marah. D. Osimo, and F. Mureddu (2010) mengungkapkan dalam
(Sarlan et al.2015) bahwa sentimen analisis memiliki banyak aplikasi domain
termasuk akuntansi, hukum, penelitian, hiburan, pendidikan, teknologi, politik, dan
pemasaran.
Menurut Medhat (Medhat et al. 2014) Analisis Sentimen dapat dianggap
sebagai proses klasifikasi yang memiliki 3 tingkat klasifikasi utama adalah tingkat
dokumen, pada tingkat kalimat dan pada tingkat aspek.
Langkah-langkah yang umumnya ditemukan pada klasifikasi teks analisa
sentimen adalah :
1. Definisikan domain dataset
Pengumpulan dataset yang melingkupi suatu domain, misalnya dataset review
film, dataset eview produk, dan lain sebagainya.
2. Preprocessing
Preprocessing bertujuan untuk mempersiapkan teks menjadi data yang akan
mengalami pengolahan pada tahap berikutnya. Tahap pemrosesan awal yang

12
umumnya dilakukan dengan proses Tokenization , stopwords removal, dan

stemming.
3. Transfromation
Pada tahap ini hasil yang diperoleh dari tahap text preprocessing akan melalui
proses transformasi. Proses representasi angka yang dihitung dari data tekstual.
Binary representation yang umumnya digunakan dan hanya menghitung
kehadiran dan ketidakhadiran sebuah kata di dalam dokumen. Berapa kali
sebuah kata muncul di dalam suatu dokumen juga digunakan skema
pembobotan dari data tekstual. Proses yang umumnya digunakan yaitu TF-IDF,
Binary transformation, dan Frequency transformation.
4. Feature Selection
Pemilihan fitur (feature selection) bisa membuat pengklasifikasi lebih
efisien/efektif dengan mengurangi jumlah data untuk dianalisa dengan
mengidentifikasi fitur yang relevan yang selanjutnya akan diproses. Metode
pemilihan fitur yang biasanya digunakan adalah Expert Knowledge, Minimum
Frequency, Information gain, Chi-Square, dan lain sebagainya.
5. Classification
Classification adalah proses untuk menemukan model atau fungsi yang
menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk
memperkirakan kelas yang tidak diketahui dari suatu objek. Proses
klasifikasi umumnya menggunakan pengklasifikasi seperti Naïve Bayes,
Support Vector Machine, dan lain sebagainya.
6. Interpretation/Evaluation
Tahap evaluasi biasanya menghitung akurasi, recall, precision, dan F-1.
2.1.4. Text Processing

Proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya
untuk proses dalam data mining, yang biasanya akan menjadi nilai-nilai numerik.
Proses ini sering disebut Text Preprocessing (Siregar et al. 2019).Setelah data
menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan
sebagai sumber data yang dapat diolah lebih lanjut. Beberap proses yang dilakukan
adalah sebagai berikut:

13
1. Case Folding
Case Folding adalah mengubah semua huruf dalam dokumen menjadi huruf
kecil. Hanya huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain huruf
dihilangkan dan dianggap delimiter.
2. Tokenizing
Tokenizing yaitu proses penguraian deskripsi yang semula berupa kalimat-
kalimat menjadi kata-kata dan menghilangkan delimiter-delimiter seperti tanda
titik (.), koma (,), tanda kutip (“), tanda kurung (()), spasi dan karakter angka
yang ada pada kata tersebut.
3. Stopword removal atau Filtering
Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Bisa
menggunakan algoritma stoplist (membuang kata yang kurang penting) atau
wordlist (menyimpan kata penting). Stoplist / stopword adalah kata-kata yang
tidak deskriptif yang dapat dibuang. Contoh stopword adalah “yang”, “dan”,
“di”, dan lain-lain.
2.1.5. Klasifikasi
Klasifikasi merupakan suatu proses yang bertujuan untuk menentukan suatu
obyek kedalam suatu kelas atau kategori yang sudah ditentukan sebelumnya.
Menurut (Susilowati et al. 2015) klasifikasi adalah proses dari pembangunan
terhadap suatu model yang mengklasifikan suatu objek sesuai dengan atribut-
atributnya. Klasifikasi data ataupun dokumen juga dapat dimulai dari membangun
aturan klasifikasi tertentu yang menggunakan data training yang sering disebut
sebagai tahapan pembelajaran dan pengujian digunakan sebagai data testing
(Raharjo and Winarko, 2014).
Klasifikasi adalah salah satu pembelajaran yang paling umum di data
mining. Klasifikasi didefinisikan sebagai bentuk analisis data untuk mengekstrak
model yang akan digunakan untuk memprediksi label kelas. Kelas dalam klasifikasi
merupakan atribut dalam satu set data yang paling unik yang merupakan variabel
bebas dalam statistik (Sartika and Indra, 2017).
Klasifikasi data terdiri dari dua proses yaitu tahap pembelajaran dan tahap
pengklasifikasian. Tahap pembelajaran merupakan tahapan dalam pembentukan

14
model klasifikasi, sedangkan tahap pengklasifikasian merupakan tahapan

penggunaan model klasifikasi untuk memprediksi label kelas dari suatu data.
Contoh sederhana dari teknik data mining klasifikasi adalah pengklasifikasian
hewan berdasarkan atribut jumlah kaki, habitat dan organ pernafasannya akan
diklasifikasikan ke dalam dua label kelas yaitu unggas dan ikan. Label kelas unggas
adalah data yang memiliki jumlah kaki dua, habitatnya di darat, dan organ
pernafasannya menggunakan paru-paru, sedangkan label kelas ikan adalah data
yang memiliki jumlah kaki nol (tidak memiliki kaki), habitat di air, dan organ
pernafasannya menggunakan insang. Banyak algoritma yang dapat digunakan
dalam pengklasifikasian data, namun dalam penelitian ini hanya akan
menggunakan satu algoritma saja, yakni K-Nearest Neighbor (K-NN)
2.1.6. K-Nearest Neighbor

Algoritma K-Nearsest Neighbor merupakan sebuah metode untuk
melakukan klasifikasi terhadap objek baru berdasarkan tetangga terdekatnya dan
kelas yang paling banyak muncul yang akan menjadi hasil klasifikasi (Witten,
Frank, & Hall, 2011) .
K-Nearest Neighbor merupakan metode untuk melakukan klasifikasi terhadap
objek
berdasarkan data training yang menggunakan jarak terdekat atau kemiripan
terhadap objek tersebut. Pada fase pembelajaran, algoritma ini hanya melakukan
penyimpanan vektor-vektor fitur dan klasifikasi dari data pembelajaran. Pada fase
klasifikasi, fitur-fitur yang sama dihitung untuk data test (yang klasifikasinya tidak
diketahui). Jarak dari vektor yang baru ini terhadap vektor data pembelajaran
dihitung, dan diambil sejumlah K yang paling mendekati. Titik yang baru
klasifikasinya diprediksi termasuk pada klasifikasi terbanyak dari titik-titik tersebut
(Siregar et al. 2019).
Kelebihan dari K-NN adalah dapat digunakan untuk memecahkan
permasalahan multiclas (Aburomman, Bin, & Reaz, 2015) namun, K-NN memiliki
masalah untuk menemukan tetangga terdekat pada titik query dari database yang
digunakan (Liaw, Wu, & Leou, 2010).

15
Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru

berdasarkan atribut dan sample-sample dari training data. Algoritma K-Nearest
Neighbor menggunakan Neighborhood Classification sebagai nilai prediksi dari
nilai instance yang baru (Ernawati and Wati, 2018).
Klasifikasi teks menggunakan metode KNN akan menghasilkan nilai yang
lebih optimal jika menggunakan rumus cosine similarity untuk pembobotan tiap-
tiap kata pada dokumen teks yang akan diproses. Sebelum menghitung nilai cosine
similarity, harus melakukan tahapan dalam proses pembobotan kata yaitu tf, df, idf,
tf-idf. Setelah pembobotan kata selesai, selanjutnya yaitu menghitung kemiripan
antar dokumen menggunakan rumus cosine similarity (Nurjanah et al. 2017)
Persamaan dari cosine similarity ditunjukkan pada Persamaan. Yaitu
𝑑𝑗 . 𝑞 ∑𝑡𝑖=1(𝑤𝑖𝑗 . 𝑤𝑖𝑞 )
𝐶𝑜𝑠𝑆𝑖𝑚(𝑞, 𝑑𝑗 ) = = (2.1)
|𝑑𝑗 |.|𝑞|
√∑𝑡𝑖=1 𝑤𝑖𝑗
2 .√∑𝑡 𝑤 2
𝑖=1 𝑖𝑞
Keterangan:
𝐶𝑜𝑠𝑆𝑖𝑚(𝑞, 𝑑𝑗 ) : Nilai kemiripan antara dokumen (q) dengan dokumen latih ke j (
𝑑1 )
t : Jumlah term (kata)
d : dokumen
q : kata kunci (query)
𝑤𝑖𝑗 : Bobot term (kata) ke i pada dok.latih j
𝑤𝑖𝑞 : Bobot term (kata) ke i pada dok.uji q
2.1.7. Gata Framework

Pada tahap preprocessing text dalam penelitian ini menggunakan sebuah
aplikasi tool preprocessing text mining online dengan alamat website
http://www.gataframework.com yang dibuat oleh Dr.Windu Gata, M.Kom. Dengan
menggunakan aplikasi ini kita dapat mengimport file yang berisi aduan ataupun
komentar. Berikut adalah tampilan web aplikasinya.

16
Gambar 2.2. user interface gata framework

Sumber : http://www.gataframework.com/text
Dengan menggunakan Gata Framework kita akan dimudahkan dalam
menggunakan tools tahapan preprocessing seperti dibawah ini :
a. Tokenization : Regexp
Tokenization : Regexp memiliki fungsi melakukan pemecahan kalimat yang
ada dalam sebuah file menjadi kata.
b. Indonesian Stemming
Indonesian Stemming memiliki fungsi menemukan kata dasar dari sebuah kata.
Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan,
sisipan, akhiran dan confixes (kombinasi dari awalan dan akhiran) pada kata
turunan.
c. Transformation : Not (Negative)
Transformation : Not (Negative) memiliki fungsi untu mengubah kata tidak
didalam negatif menjadi berhubungan dengan kata selanjutnya, agar tidak
dihilangkan dalam proses stemming. Contoh : tidak jelas menjadi tidak_jelas.
d. Indonesian Stop Word Removal
Indonesian Stop Word Removal memiliki fungsi menghilangkan kata
penghubung di dalam sebuah kalimat yang dimasukan.

17
Berikut ini adalah hasil proses preprocessing dengan menggunakan aplikasi

gata framework.
Gambar 2.3. Hasil Preprocessing menggunakan aplikasi Gata Framework

Sumber : penelitian 2020
2.1.8. RapidMiner
RapidMiner merupakan perangakat lunak yang bersifat terbuka (open
source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data
mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai
teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna
sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang
lebih 500 operator data mining, termasuk operator untuk input, output, data
preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri sendiri
untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada
produknya sendiri. RapidMiner ditulis dengan munggunakan bahasa java sehingga
dapat bekerja di semua sistem operasi (C, 2013).
RapidMiner sebelumnya bernama YALE (Yet Another Learning
Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh
RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit
dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL
(GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi

18
yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara. RapidMiner

sebagai software open source untuk data mining tidak perlu diragukan lagi karena
software ini sudah terkemuka di dunia. RapidMiner menempati peringkat pertama
sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data-
mining pada 2010-2011.
RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang
sebuah pipeline analitis. GUI ini akan menghasilkan file XML )Extensible Markup
Language) yang mendefenisikan proses analitis keingginan pengguna untuk
diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan
analis secara otomatis.
RapidMiner memiliki beberapa sifat sebagai berikut
1. Ditulis dengan bahsa pemrograman Java sehingga dapat dijalankan di berbagai
sistem operasi.
2. Proses penemuan pengetahuan dimodelkan sebagai operator trees.
3. Representasi XML internal untuk memastikan format standar pertukaran data.
4. Bahasa scripting memungkinkan untuk eksperimen skala besar dan otomatisasi
eksperimen.
5. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin
penangan data.
6. Memiliki GUI, command line mode, dan Jawa API yang dapat dipanggil dari
program lain.
Beberapa fitur dari RapidMiner, antara lain:
a. Banyaknya algoritma data mining, seperti decision tree dan self-
organization map.
b. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree
chart dan 3D Scatter plots.
c. Banyaknya variasi plugin, seperti text plugin utuk melakukan analisis text.
d. Menyediakan prosedur data mining dan machine learning termasuk: ETL
(extraction, transformation loading), data preprocessing, visualisasi,
modelling
dan evaluasi.

19
e. Proses data mining tersusun atar operator-operator yang nestable,

dideskripsikan dengan XML, dan dibuat dengan GUI.
2.1.9. K-Fold Cross Validation

K-Fold Cross Validation adalah teknis validasi yang membagi data kedalam
K bagian dan kemudian masing-masing bagian akan dilakukan proses klasifikasi.
Dengan menggunakan k-fold cross validation akan dilakukan percobaan sebanyak
K. Tiap percobaan akan melakukan menggunakan satu data testing dan k-1 bagian
akan menjadi data training. Kemudian data testing itu akan di tukar dengan satu
buah data training sehingga untuk setiap percobaan akan didapatkan data testing
yang berbeda-beda. Sedangkan data testing adalah data yang belum penah dipakai
sebagai pembelajaran. Dalam penelitian ini nilai K yang digunakan berjumlah 10
atau 10-fold cross validtion.
2.1.10. ROC Curve

ROC Cuve adalah cara lain untuk menguji kinerja pengklasifikasi
(Goruescu, 2011). Sebuah grafik ROC adalah plot dengan tingkat positif salah (FP)
pada sumbu X dan tingkat benar (TP) pada sumbu Y. Titik (0,1) adalah klasifikasi
sempurna yang mengklasifikasi semua kasus positif dan kasus negatif dengan
benar, karena tingkat positif salah (FP) adalah 0 (tidak ada), dan tingkat positif
benar (TP) adalah 1. Titik (0,0) merupakan sebuah klasifikasi yang memprediksi
setiap kasus menjadi negatif, sedangkan titik (1,1) sesuai dengan sebuah klasifikasi
yang memprediksi setiap kasus menjadi positif. Titik (1,0) adalah klasifikasi yang
tidak benar untuk semua klasifikasi.
Dalam banyak kasus klasifikasi memiliki parameter yang dapat digunakan
untuk meningkatkan TP atau menurunkan FP. Setiap pengaturan parameter
menyediakan pasangan FP dan TP dan serangkaian pasangan tersebut dapat
digunakan untuk menentukan ROC Curve. Klasifikasi non-parameter diwakili oleh
titik ROC tunggal sesuai dengan pasangannya (FP, TP).

20
Gambar 2.4. Kurva ROC

Sumber : (https://sitimasyithah.wordpress.com/2016/10/22/analisis-data-pemilu)
Performance keakurasian Area Under Curve dapat diklasifikasikan
menjadi lima kelompok yang terlihat pada tabel 2.1. sebagai berikut :
Tabel 2.1. Performance Keakurasian AUC
Performance Klasifikasi
0.90 – 1.00 Excellent Classification
0.80 – 0.90 Good Classification
0.70 – 0.80 Fair Classification
0.60 – 0.70 Poor Classification
0.50 – 0.60 Failure
2.1.11. Confusion Matrix

Confusion matrix adalah alat (tools) visualisasi yang biasa digunakan
supervised learning (Gorunescu, 2011). Tiap kolom pada matriks adalah contoh
dalam kelas prediksi, sedangkan setiap baris mewakili kejadian di kelas yang
sebenarnya. Confusion matrix digunakan sebagai indikasi aturan sifat klasifikasi

21
(diskriminan). Confusion matrix ini berisi jumlah elemen yang telah

dikelompokkan dengan benar atau tidak benar untuk setiap kelas. Salah satu
manfaat dari confusion matrix adalah mudah untuk melihat sistem confusion dua
kelas. Untuk setiap contoh di test set, akan membandingkan kelas yang
sebenarnya dengan kelas classifier. Contoh positif (negatif) yang diklasifikasikan
dengan benar oleh classifier disebut True Positive (true negative), contoh positif
(negatif) yang salah diklasifikasikan adalah disebut False Negative (false positive)
(Rokach et,al. 2015)
Evaluasi model klasifikasi didasarkan pada pengujian untuk
memperkirakan obyek yang benar dan yang salah, urutan pengujian ditabulasikan
adalah confusion matrix dimana kelas yang diprediksi ditampilkan di bagian atas
matriks dan kelas yang diamati di sisi kiri. Setiap sel berisi angka yang menunjukan
beberapa banyak kasus yang sebenarnya dari kelas yang diamati untuk diprediksi
(Hastuti, 2012).
Tabel 2.2. Model Confusion Matrix
Actual Positive Class Actual Negative Class
Predictive Positive Class True Positive (TP) False Positive (FN)
Predictive Negative False Negative (FN) True Negative (TN)
Class
True Positive adalah jumlah record positif yang diklasifikasikan sebagai

positif, false positive adalah jumlah record negatif yang diklasifikasikan sebagai
positif, false negative adalah jumlah record positif yang diklasifikasikan sebagai
negatif, true negative adalah jumlah record negative yang diklasifikasikan sebagai
negatif, kemudian masukkan data uji. Setelah data uji dimasukkan ke dalam
confusion matrix, nilai-nilai yang telah dimasukkan tersebut untuk dihitung jumlah
sensitivity (recall), specificacy, precission, dan accuracy. Sensitivity digunakan
untuk membandingkan jumlah true positive terhadap jumlah record yang positif
sedangkan specificity adalah perbandingan jumlah true negatives terhadap jumlah
record yang negatif. Untuk menghitung performa dari model klasifikasi dapat
dihitung dengan menggunakan beberapa cara yaitu : (Hossin & Sulaiman, 2015)
 Accuracy

22
Dengan menggunakan rumus dibawah ini akan di dapatkan akurasi dari matriks
yang mengukur tentang rasio kebenaran dari prediksi dari seluruh data yang
dievaluasi
𝑇𝑃+𝑇𝑁
(2.2)
𝑇𝑃+𝐹𝑁+𝑇𝑃+𝐹𝑁
 Precission
Dengan menggunakan rumus dibawah akan mengukur pola positif yang
diprediksi dengan benar dari total pola yang diprediksi dikelas positif.
𝑇𝑃
(2.3)
𝑇𝑃+𝐹𝑃
 Recall
Dengan menggunakan rumus dibawah akan mengukur fraksi positif yang
diklasifikasi dengan benar.
𝑇𝑃
(2.4)
𝑇𝑃+𝐹𝑁
Keterangan:
TP = jumlah true positive
TN = jumlah true negative
FP = jumlah false positive
FN = jumlah false negative
2.2. Tinjauan Studi

2.2.1. Penelitian Terkait
Beberapa penelitian terkait dengan pemberian klasifikasi terhadap analisa
sentimen yang telah dilakukan. Tinjauan dari studi literatur yang terkait dengan
pembahasan penggunaan algoritma klasifikasi untuk analisa review pengguna OVO
dan DANA menggunakan algoritma K-Nearest Neighbor sebuah analisa sentimen
banyak dipakai pada penelitian sebelumnya dengan menggunakan metode-metode
algoritma klasifikasi seperti C4.5, Naive Bayes dan Support Vector Machine
(SVM), Berikut hasil penelitian algoritma klasifikasi text mining berdasarkan
literatur yang berhasil dikumpulkan:
1. Model Penelitian Nurjanah, et el, (2017)

23
Penelitian (Nurjanah et al. 2017) dengan judul Analisis Sentimen Terhadap

Tayangan Televisi Berdasarkan Opini Masyarakat Pada Media Sosial Twitter
Mengunakan Metode K-Nearest Neighbor dan Pembobotan Jumlah Retweet. Dari
penelitian yang telah dilakukan, maka dapat ditarik kesimpulan bahwa Analisis
Sentimen dapat digunakan untuk mengetahui sentimen masyarakat khususnya
netizen Twitter terhadap tayangan televisi. Tujuannya membantu masyarakat
menentukan sentimen yang terdapat pada twit opini Bahasa Indonesia yang ada di
Twitter. Setelah dilakukan analisis sentimen, terlihat berapa banyak sentimen
terhadap tayangan televisi.
Data yang digunakan berupa opini masyarakat terhadap tayangan televisi pada
twitter sejumlah 400. Dari hasil pengujian akurasi menggunakan pembobotan
tekstual diperoleh 82,50%, menggunakan pembobotan non-tekstual 60%, dan
menggunakan penggabungan keduanya 83,33% dengan nilai k=3 dan konstanta
perkalian yang tepat α=0,8 dan β=0,2. Berikut tabel pengujian nilai k :
Tabel 2.3. Tabel pengujian nilai k
No Nilai k Accuracy Precision Recall F-Measure
1 2 70% 62,76% 98,33% 76,62%
2 3 80,83% 72,28% 100% 83,91%
3 4 72,50% 64,51% 100% 78,43%
4 5 71,66% 63,82% 100% 77,92%
5 6 72,50% 64,51% 100% 78,43%
6 7 71,66% 63,82% 100% 77,92%
7 8 73,33% 65,21% 100% 78,94%
8 9 74,14% 65,93% 100% 79,47%
9 10 69,16% 61,85% 100% 76,43%
10 15 65,83% 59,40% 100% 74,53%
11 20 62,50% 57,14% 100% 72,72%
12 25 62,50% 57,14% 100% 72,72%
13 30 61,66% 56,60% 100% 72,28%
14 35 55% 52,63% 100% 68,96%
15 40 52,50% 51,28% 100% 67,79%
16 45 51,66% 50,84% 100% 67,41%
17 50 51,66% 50,84% 100% 67,41%

24
18 100 50% 50% 100% 66,67%

19 200 50% 50% 100% 66,67%
20 280 50% 50% 100% 66,67%
Sumber : Penelitian (Nurjanah et al. 2017)
2. Model Penelitian Aditya, dkk 2019
Penelitian (Aditya et al.2019) dengan judul penelitian Analisis Sentimen E-
Wallet Pada Google Play Menggunakan Algoritma Naive Bayes Berbasis Particle
Swarm Optimization. Pada penelitian ini menganalisis data dari ulasan google play
dengan pencarian aplikasi e-wallet OVO. Penelitian tersebut menggunakan
algoritma Naive Bayes berbasis Particle Swarm Optimization dan hasil dari cross
validation NB tanpa FS adalah 82.30 % untuk accuracy dan 0.780 untuk AUC.
Sedangkan untuk NB dengan FS adalah 83.60 % untuk accuracy dan 0.801 untuk
AUC. Peningkatan sangat signifikan dengan penggunaan Feature Selection (FS)
Particle Swarm Optimization. Berikut tabel 2.4. penjelasan perbandingan cross
validation dari naive bayes classifier tanpa feature selection dan dengan feature
selection.
Tabel 2.4. Perbandingan cross validation dari naive bayes classifier tanpa feature
selection dan dengan feature selection
NBC tanpa FS NBC + FS Selisih

Accuracy 82.30% 83.60% 1.3%
AUC 0.780 0.801 0.021
Sumber : Saputra, et el, 2019
Dari tabel tersebut dijelaskan bahwa selisih nilai accuracy naive bayes tanpa
Feature Selection (FS) Particle Swarm Optimization dengan Feature Selection (FS)
Particle Swarm Optimization sebesar 1.3 %, sedangkan nilai AUC
perbandingannya sebesar 0.021.
3. Model Penelitian Gunawan, dkk 2017
Model penelitian (Gunawan et al. 2017) dengan judul penelitian Analisis
Sentimen Pada Ulasan Aplikasi Mobile Menggunakan Naive Bayes dan
Normalisasi Kata Berbasis Levenshtein Distance (Studi Kasus Aplikasi BCA
Mobile). Penelitian ini menggunakan normalisasi kata berbasis Levenshtein

25
distance. Berdasarkan pengujian, nilai akurasi tertinggi terdapat pada perbandingan

data latih 70% dan data uji 30%. Hasil akurasi tertinggi dari pengujian
menggunakan nilai edit <=2 adalah 100%, nilai edit tertinggi kedua didapat pada
nilai edit <=1 dengan akurasi 96,4%, sedangkan nilai edit dengan akurasi terendah
diperoleh pada nilai edit <=4 dan <=5 dengan akurasi 66,6%. Hasil dari pengujian
Naive Bayes-Levenshtein Distance memiliki nilai akurasi tertinggi yaitu 96,9%
dibandingkan dengan pengujian Naive Bayes tanpa Levenshtein Distance dengan
nilai akurasi 94,4%. Berikut gambar 2.5. Pengujian Multinomial Naive Bayes-
Levenshtein Distance dengan variasi teks pre-processing.
Gambar 2.5. Pengujian Multinomial Naive Bayes-Levenshtein Distance

dengan variasi teks pre-processing
Sumber : Penelitian (Gunawan et al.2017)
4. Model Penelitian Siregar, dkk 2019
Penelitan (Siregar et al. 2019) dengan judul penelitian Klasifikasi Sentiment
Analisys Pada Komentar Peserta Diklat Menggunakan Metode K-Nearest
Neighbor. Pada penelitian ini hasil pengujian klasifikasi komentar yang dilakukan
dengan menggunakan data komentar pada bulan Agustus sebanyak 64 komentar.

26
Setelah dilakukan analisa sentimen pada komentar maka didapatkan sebanyak 59

komentar dianalisa dengan benar dan sebanyak 5 komentar hasil analisanya tidak
tepat. Setelah semua komentar dianalisa maka data yang digunakan untuk
selanjtnya diklasifikasikan sebanyak 52 data komentar dengan sentimen negatif dan
didapatkan data sebanyak 49 komentar diklasikasikan dengan benar atau sama
dengan data hasil klasifikasi yang dilakukan secara konvensional oleh staff bagian
PEM dan sebanyak 3 data komentar yang tidak sama dengan data hasil klasifikasi
yang dilakukan oleh staff bagian PEM. Setelah itu menentukan nilai k. Tabel 2.4. hasil
pengujian sistem
Tabel 2.4. Hasil Pengujian Sistem
Uji Data Data Jumlah Analisa Jumlah Jumlah Tingkat
Ke- Uji Training Sentimen Komentar Klasifikasi Akurasi
Benar Negatif Benar
1 64 11 59 52 38 73,07%
2 64 20 59 52 41 78,84%
3 64 120 59 52 49 94,23%
Sumber : Penelitian (Siregar et al. 2019)
Berdasarkan hasil tabel 2.4. dapat disimpulkan bahwa pengujian ke 3 mempunyai nilai
akurasi tertinggi sebesar 94,23%.
5. Model Penelitian Salam, dkk 2018
Model penelitian salam, dkk 2018 dengan judul penelitian Analisis Sentimen Data
Komentar Sosial Media Facebook dengan K-Nearest Neighbor (Studi Kasus Pada Akun
Jasa Ekspedisi Barang J&T Exspress Indonesia. Pada penelitian ini data uji coba sebanyak
6 kali dengan rata-rata nilai accuracy tertinggi adalah 79,21% sedangkan accuracy terendah
70.3%.
Tabel 2.6. Rangkuman Penelitian Terkait
Penulis Judul Metode Hasil
Analisis Sentimen K-Nearest pengujian akurasi
Winda Estu
Terhadap Tayangan Neighbor menggunakan
Nurjanah, Rizal
Televisi Berdasarkan pembobotan
Setya Perdana,
Opini Masyarakat tekstual diperoleh
Mochammad Ali
Pada Media Sosial 82,50%,
Fauzi
Twitter Mengunakan menggunakan

27
Metode K-Nearest pembobotan non-

Neighbor dan tekstual 60%, dan
Pembobotan Jumlah menggunakan
Retweet penggabungan
keduanya 83,33%
dengan nilai k=3
dan konstanta
perkalian yang
tepat α=0,8 dan
β=0,2
Analisis Sentimen E- Naive Bayes hasil dari cross
Suwanda Aditya
Wallet Pada Google Berbasis validation NB
Saputra, Didi
Play Menggunakan Particle tanpa FS adalah
Rosiyadi , Windu
Algoritma Naive Swarm 82.30 % untuk
Gata, Syepry
Bayes Berbasis Optimization accuracy dan
Maulana Husain
Particle Swarm 0.780 untuk AUC.
Optimization Sedangkan untuk
NB dengan FS
adalah 83.60 %
untuk accuracy
dan 0.801 untuk
AUC
Analisis Sentimen Naive Bayes Hasil dari
Pada Ulasan Aplikasi dan pengujian Naive
Ferly Gunawan,
Mobile Menggunakan Normalisasi Bayes-
M. Ali Fauzi,
Naive Bayes dan Kata Berbasis Levenshtein
Putra Pandu
Normalisasi Kata Levenshtein Distance memiliki
Adikara
Berbasis Levenshtein Distance nilai akurasi
Distance (Studi Kasus tertinggi yaitu
Aplikasi BCA Mobile) 96,9%
dibandingkan
dengan pengujian

28
Naive Bayes tanpa

Levenshtein
Distance dengan
nilai akurasi
94,4%
Zuhdiyyah Ulfah Klasifikasi Sentiment K-Nearest akurasi tertinggi
Siregar, Riki Ruli Analisys Pada Neighbor sebesar 94,23%
A. Siregar, Komentar Peserta

Rakhmat Arianto Diklat Menggunakan
Metode K-Nearest
Neighbor
Abu Salam, Junta Analisis Sentimen Data K-Nearest nilai accuracy
Zeniarja, Rima Komentar Sosial Media Neighbor tertinggi adalah
Septiyan Facebook dengan K- 79,21% sedangkan

Nearest Neighbor (Studi accuracy terendah
Uswatun
Kasus Pada Akun Jasa 70.3%
Khasanah
Ekspedisi Barang J&T
Exspress Indonesia
2.3.Tinjauan Objek Penelitian

2.3.1. OVO
OVO adalah sebuah aplikasi smart yang memberikan layanan pembayaran
dan transaksi secara online (OVO Cash). Pengguna juga bisa berkesempatan untuk
mengumpulkan poin setiap kali melakukan transaksi pembayaran melalui OVO.
Secara umum, OVO Cash dapat digunakan untuk berbagai macam
pembayaran yang telah bekerja sama dengan OVO menjadi lebih cepat. Sedangkan
OVO Points adalah loyalty rewards bagi yang melakukan transaksi dengan
menggunakan OVO Cash di merchant-merchant rekanan OVO. Untuk OVO Points
sendiri, dapat ditukarkan dengan berbagai penawaran menarik hingga ditukarkan
dengan transaksi di merchant rekanan OVO. OVO menawarkan kemudahan
transaksi tanpa mengharuskan nasabahnya membawa cash terlalu banyak. Salah

29
non-tunai aja, DANA juga bisa Anda gunakan untuk beli token listrik, beli pulsa,
kirim saldo sampai bayar BPJS. Dengan menggunakan aplikasi DANA pengguna
bisa mendapatkan banyak bonus seperti voucher dan cashback tak terduga dan tentu
saja menguntungkan.
2.4. Kerangka Pemikiran

Dalam menyelesaikan penelitian ini, penulis membuat sebuah kerangka
pemikiran yang digunakan sebagai acuan dalam penelitian ini sehingga penelitian
dapat dilakukan dengan baik. Permasalahan pada penelitian ini adalah belum
diketahuinya metode yang tepat dengan akurasi terbaik untuk klasifikasi opini yang
memiliki sentimen dengan 5 kelas (rating 1 -5), 2 kelas (rating 1 dan 5) dan 3 kelas
(negatif, netral dan positif) terhadap review pengguna OVO dan DANA dengan
menggunakan metode yang digunakan adalah algoritma K-Nearest Neighbor
dengan dilakukan pengujian terhadap kinerja algoritma-algoritma tersebut dengan
menggunakan cross validation.
Sumber : Penelitian (2020)
Gambar 2.6. Kerangka Pemikiran

30
Pada gambar 2.6. menunjukan kerangka berpikir dari penelitian ini.

Pemahaman mengenai Review yang berasal dari Google Play akan dilakukan proses
pengambilan review pengguna aplikasi OVO dan DANA.
Sebelum melakukan klasifikasi review yang berasal dari google play,
terlebih dahulu mengenal proses pre-prosesing yang adalah cara untuk menemukan
informasi yang terkandung didalam teks yang dijadikan sumber data penelitian.
Peneliti disini menggunakan bantuan pre-processing menggunakan
gataframework.
Data training yang telah dilakukan adalah menemukan confusion matrik
(accuracy), Recall Presicall dan ROC Curva (AOC).

BAB III
METODOLOGI PENELITIAN
3.1. Perancangan Penelitian

Pada dasarnya, penelitian merupakan suatu investigasi yang terorganisir,
yang dilakukan untuk menyajikan suatu informasi, dan memecahkan masalah.
Metode penelitian yang digunakan penulis menggunakan metode penelitian yang
penulis gunakan melalui beberapa tahapan beikut:
1. Pengumpulan Data
Data yang digunakan untuk melakukan eksperimen dikumpulkan melalui
review pada google play.
2. Pengolahan Data Awal
Model dipilih berdasarkan kesesuaian data dengan metode yang paling baik
dari beberapa metode pengklasifikasian teks yang sudah digunakan oleh
beberapa peneliti sebelumnnya. Pada penelitian ini, model yang digunakan
adalah algoritma K-Nearest Neighbor.
3. Metode yang Diusulkan
Metode yang disusulkan yaitu K-Nearest Neighbor dengan mencari nilai k
yang terbaik untuk menemukan nilai accuracy dan kappa yang tinggi.
4. Eksperimen dan Pengujian Metode
Eksperimen yang dilakukan peneliti menggunakan framework RapidMiner
9.2. untuk mengolah data review sebagai alat bantu pengukuran sehingga
menghasilkan akurasi yang akurat.
5. Evaluasi dan Validasi Hasil Evaluasi
Evaluasi berfungsi untuk mengetahui berapa akurasi dari model algoritma yang
diusulkan. Validasi digunakan untuk melihat perbandingan hasil akurasi dari
model yang digunakan dengan hasil yang telah ada sebelumnya. Teknik
validasi yang digunakan adalah Cross Validation.

31
32
3.2. Pengumpulan Data Awal

Peneliti menggunakan data review pengguna aplikasi OVO dan DANA pada
google play yang memberikan komentar dengan mengambil data testing untuk
OVO 500 dan DANA 500, untuk menetukan status review komentar pengguna
Dana, Ovo yang ada di google play berdasarkan perolehan “bintang”
Gambar 3.1. contoh review komentar pengguna OVO

Jumlah pencarian data review pengguna OVO dan DANA pada google play
dapat disampaikan pada tabel dibawah ini.
Tabel 3.1. Review pengguna OVO dan Dana
Review Jumlah Bintang
No
Pengguna 1 2 3 4 5 Total
1 OVO 100 100 100 100 100 500
2 DANA 100 100 100 100 100 500
Total Data 1000
Sumber: Telah diolah kembali berdasarkan pencarian di google play
3.3. Pengolahan Data Awal

Pada tahap ini dilakukan klasifikasi teks atau sentimen dengan tahapan
preprocessing agar teks yang memiliki isi yang tidak sempurna seperti data yang
hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada
juga atribut-atribut data yang tidak relevan. Data tersebut lebih baik dibuang karena
keberadaannya bisa mengurangi mutu atau akurasi. Teks yang belum diolah
biasanya memiliki karakteristik dimensi yang tinggi, terdapat noise pada data dan

33
terdapat struktur teks yang tidak baik. Untuk itu, dalam pengolahan data awal, text
mining harus melalui beberapa tahapan yang disebut dengan preprocessing.
Tahapan preprocessing yang dapat dilakukan, yaitu :
1. Tokenize
Tokenize merupakan proses untuk memisah-misahkan kata. Proses memotong
setiap kata dalam teks dan mengubah huruf dalam dokumen menjadi huruf kecil.
Hanya huruf yang diterima, sedangkan karakter khusus atau tanda baca akan
dihilangkan.
2. Indonesian Stemming
Proses untuk mencari kata dasar (root) dari tiap kata hasil dari proses filtering
yang terdapat dalam suatu dokumen. Pencarian root sebuah kata dapat
memperkecil hasil indeks tanpa harus menghilangkan makna
3. Transformation : Not (Negative)
Pada tahapan ini dilakukan untuk menghilangkan kata-kata ambigu seperti kata
tidak konsisten yang mengandung arti positif
4. Stopwords Removal
Proses menghilangkan kata-kata yang sering muncul namun tidak memiliki
pengaruh apapun dalam ekstraksi sentimen suatu review. Kata yang termasuk
seperti kata penunjuk waktu, kata tanya.
5. Filter Tokens (By Length)
Menurut Langgeni bahwa filter token (by length) merupakan proses mengambil
kata-kata penting dari hasil token. Dalam proses ini, kata-kata yang memiliki
panjang tertentu akan dihapus.
3.4. Metode yang di Usulkan

Metode yang penulis usulkan adalah penggunaan 1 (satu) jenis metode
algoritma yaitu K-Nearest Neighbor (KNN). Penulis membandingkan ke tiga
kelompok kelas dari ulasan bintang 1 sampai 5, bintang 1 dan 5, dan Negative
Netral Positive. metode algoritma tersebut untuk diketahui metode algoritma
terbaik untuk diterapkan karena merupakan teknik machine learning yang populer
untuk klasifikasi teks serta memiliki performa yang baik pada banyak domain. KNN
merupakan metode yang mampu bekerja dengan baik pada set data dengan dimensi

34
tinggi, namun KNN juga memiliki masalah pada penentuan parameter. Hal ini dapat
dilakukan dengan uji coba terhadap nilai parameter dan memilih nilai yang
menghasilkan akurasi terbaik. Untuk itu penulis melakukan klasifikasi
menggunakan algorima K-Nearest Neighbor (KNN).
3.5. Eksperimen dan Hasil Pengujian

Proses eksperimen yang dilakukan penulis dengan menggunakan aplikasi
Rapid Miner 9.2. Sedangkan untuk pengujian model dilakukan menggunakan
dataset review pengguna aplikasi Ovo dan Danagopay pada google play. Spesifikasi
komputer yang penulis gunakan dalam penelitian ini dapat dilihat pada tabel 3.1.
Tabel 3.2. Spesifikasi Komputer
Processor AMD E2-2000 APU with Radeon(tm)
HD Graphics 1.75 GHz
Memori 4.00 GB
Harddisk 320 GB
Sistem Operasi Microsoft Windows 7
Aplikasi Text Mining RapidMiner versi 9.2
3.6. Evaluasi dan Hasil Validasi

Pada tahap ini diusulkan model untuk analisis review pengguna OVO dan
DANA dengan menerapkan algoritma K-Nearest Neighbor (KNN) dengan
menambahkan feature selection yaitu sample bootstrapping dan smote upsampling.
Dalam penelitian menggunakan validasi standar yaitu 10 fold cross-validation
dimana proses ini membagi data secara acak ke dalam 10 bagian. Proses pengujian
dimulai dengan pembentukan model dengan data pada bagian pertama. Model yang
terbentuk akan diujikan pada 9 bagian data sisanya.
Proses yang dilakukan setelah melakukan pengujian yaitu mengukur
performance dari algoritma klasifikasi text mining yang dipakai. Dalam penelitian
ini performance yang diukur menggunakan nilai accuracy, kappa dan AUC.

BAB IV
PEMBAHASAN DAN HASIL
4.1. Pembahasan
Data training yang digunakan pada saat pengujian data diambil dari ulasan
Pengujian data dilakukan dengan menggunakan opini public tentang aplikasi E-
Wallet OVO dan DANA. Data yang diambil sebanyak 1.000 data training, dengan
masing-masing 500 data untuk OVO dan DANA. Kemudian data tersebut
dilakukan training dataset sehingga didapatkan accuracy dan kappa. Dibawah ini
akan dijelaskan lebih rinci mengenai hasil penelitian yang di peroleh.
4.1.1. Klasifikasi Text menggunakan K-Nearest Neighbor (K-NN)
Berikut merupakan tahapan-tahapan dalam melakukan pengolahan data:
1. Pengumpulan Data
Review mengenai ulasan pada google play terhadap aplikasi E-Wallet OVO dan
DANA kemudian di kelompokan ke dalam 3 kelompok kelas, kelas pertama
terdiri dari 5 kelas yaitu rating 1 sampai dengan rating 5, kelas kedua terdiri
dari 2 kelas yaitu rating 1 dan 5, kelas ke tiga yaitu terdiri dari 3 kelas dengan
mengelompokan rating 1 dan 2 sebagai label negatif, rating 3 sebagai label
netral dan rating 4 dan 5 sebagai label positif.
2. Data Preprocessing
Tahap data preparation merupakan tahap dengan proses penyiapan data yang
bertujuan untuk mendapatkan data yang bersih dan siap untuk digunakan dalam
penelitian. Dalam text minning tahapan awal yang akan dilakukan adalah tahap
text preprocesing, pada tahap ini peneliti menggunakan tools Gata framework
dan Rapidminer. Berikut merupakan tahapan yang dilakukan dalam text
preprocessing :
a. Tokenization Regular Expression (Regexp)
Dalam proses tokenisasi ini, semua kata yang ada di dalam tiap dokumen
akan dikumpulkan dan dihilangkan tanda baca, serta dihilangkan juga
simbol, serta karakter khusus ataupun bukan huruf. Tabel 4.3. menunjukan
perbandingan teks sebelum dan sesudah dilakukannya proses Tokenization
Regexp.

35
36
Tabel 4.1. perbandingan teks sebelum dan sesudah dilakukan proses

Tokenization Regexp
Proses Tokenization Regexp
Data Sebelum Data Sesudah
Susah kalau mau top up atau isi susah kalau mau top up atau isi
saldo, hanya bisa melalui atm atau saldo hanya bisa melalui atm atau
m-banking. Promo yang mbanking promo yang disediakan
disediakan kadang tidak dapat kadang tidak dapat digunakan
digunakan. Cashback yang cashback yang diberikan kadang
diberikan kadang juga tidak sesuai juga tidak sesuai nominalnya
nominalnya. Komplain via email komplain via email juga tidak
juga tidak segera dicarikan solusi segera dicarikan solusi atau tidak
atau tidak ada tindak lanjutnya. ada tindak lanjutnya
b. Indonesian Stemming
Proses Indonesian Stemming adalah proses untuk mencari kata dasar (root)
dari tiap kata hasil dari proses filtering yang terdapat dalam suatu dokumen.
Pencarian root sebuah kata dapat memperkecil hasil indeks tanpa harus
menghilangkan makna. Tabel 4.2 menunjukan perbandingan teks sebelum
dan sesudah dilakukannya proses Indonesian Stemming.
Tabel 4.2. perbandingan teks sebelum dan sesudah dilakukannya proses
Indonesian Stemming.
Proses Indonesian Stemming
susah kalau mau top up atau isi susah kalau mau top up atau isi
saldo hanya bisa melalui atm atau saldo hanya bisa lalu atm atau
mbanking promo yang disediakan mbanking promo yang sedia
kadang tidak dapat digunakan kadang tidak dapat guna cashback
cashback yang diberikan kadang yang beri kadang juga tidak sesuai
juga tidak sesuai nominalnya nominal komplain via email juga
komplain via email juga tidak tidak segera cari solusi atau tidak
segera dicarikan solusi atau tidak ada tindak lanjut
ada tindak lanjutnya

37
c. Transformation : Not (Negative)

Pada tahapan ini dilakukan untuk menghilangkan kata-kata ambigu seperti
kata tidak konsisten yang mengandung arti positif. Tabel 4.3. menunjukan
perbandingan teks sebelum dan sesudah dilakukannya proses
Transformation : Not (Negative).
Tabel 4.3. perbandingan teks sebelum dan sesudah dilakukannya proses
Transformation: Not (Negative).
Proses Transformation: Not (Negative)
susah kalau mau top up atau isi susah kalau mau top up atau isi
saldo hanya bisa lalu atm atau saldo hanya bisa lalu atm atau
mbanking promo yang sedia mbanking promo yang sedia
kadang tidak dapat guna cashback kadang tidak_dapat guna cashback
yang beri kadang juga tidak sesuai yang beri kadang juga tidak_sesuai
nominal komplain via email juga nominal komplain via email juga
tidak segera cari solusi atau tidak tidak_segera cari solusi atau
ada tindak lanjut tidak_ada tindak lanjut
d. Indonesian Stop Word Removal

Pada tahap ini proses pembuangan stop word, untuk mengetahui suatu kata
masuk ke dalam stop word atau tidak relevan. Adapun term yang
memperoleh dari tahap tokenisasi dicek dalam suatu daftar stopword,
apabila sebuah kata masuk kedalam daftar stop word maka kata tersebut
tidak akan diproses lebih lanjut. Tabel 4.4. memunjukan perbandingan teks
sebelum dan sesudah dilakukannya proses indonesian stop word removal.
4.4 Perbandingan teks sebelum dan sesudah dilakukannya proses
indonesian stop word removal.
Indonesian Stop Word Removal
susah kalau mau top up atau isi susah top up isi saldo hanya atm
saldo hanya bisa lalu atm atau mbanking promo sedia kadang
mbanking promo yang sedia tidak_dapat cashback kadang
kadang tidak_dapat guna cashback tidak_sesuai nominal komplain via
yang beri kadang juga tidak_sesuai email tidak_segera cari solusi
nominal komplain via email juga tidak_ada tindak
tidak_segera cari solusi atau
tidak_ada tindak lanjut

38
e. Tokenazation
Hasil dari indonesian stop word removal dilanjutkan oleh proses
tokenazation dari RapidMiner yaitu semua kata yang ada didalam tiap
dokumen dikumpulkan dan dihilangkan tanda baca, serta dihilangkan jika
terdapat simbol, karakter khusus atau apapun yang bukan huruf dan
memecah kalimat menjadi perkata. Tabel 4.6. menunjukan perbandingan
teks sebelum dan sesudah dilakukan proses tokenization pada rapidminer.
Tabel 4.6. Perbandingan teks sebelum dan sesudah dilakukan proses
tokenization pada rapidminer.
Proses Tokenization pada Rapidminer
susah top up isi saldo hanya atm Susah
mbanking promo sedia kadang Top
tidak_dapat cashback kadang Up
tidak_sesuai nominal komplain via Saldo
email tidak_segera cari solusi Hanya
tidak_ada tindak Atm
Mbangking
Promo
Sedia
Kadang
Tidak_dapat
Cashback
Kadang
Tidak_sesuai
Nominal
Komplain
Via
Email
Tidak_segera
Cari
Solusi
Tidak_ada
Tindak
f. Filter Token (by Length)

Hasil dari proses tokenization pada rapidminer dilanjutkan oleh proses
filter tokens (by Length) proses ini kata-kata yang memiliki panjang
karakter kurang dari 4 dan lebih dari 25 akan dihapus, seperti kata di, ada,
oleh yang merupakan kata-kata yang tidak mempunyai makna tersendiri

39
jika dipisahkan dengan kata yang lain dan tidak terkait dengan kata sifat
yang berhubungan dengan sentimen. Tabel 4.7. menunjukan perbandingan
teks sebelum dan sesudah dilakukan proses filter token by
Tabel 4.7. Perbandingan teks sebelum dan sesudah dilakukan proses filter
token by length
Proses Filter Token (by Length)
Hanya Hanya
Atm Mbangking
Mbangking Promo
Promo Sedia
Sedia Kadang
Kadang Tidak_dapat
Tidak_dapat Cashback
Cashback Kadang
Kadang Tidak_sesuai
Tidak_sesuai Nominal
Nominal Komplain
Komplain Email
Via Tidak_segera
Email Cari
Tidak_segera Solusi
Cari Tidak_ada
Solusi Tindak
Tidak_ada
Tindak

40
Gambar 4.1. desain model Preprocessing Data Menggunakan Gata

Framework
Gambar 4.1 di atas menunjukan desain model preprocessing data
menggunakan gata framework. Langkah-langkah yang dilakukan adalah
mengunggah file excel dengan format .xls kemudian memilih teknik
preprocessing yang akan dilakukan. Teknik yang dipilih dalam gata
framework pada penelitian ini antara lain, Tokenization : Regexp,
Indonesian Stemming, Transformation: Not (Negative), indonesian Stop
Word Removal seperti yang sudah dijelaskan lebih rinci dalam sub sub bab
sebelumnya.
Gambar 4.2. desain model prepocessing data menggunakan

RapidMiner
Sumber : Hasil Penelitian 2020
Gambar 4.2. diatas menunjukan desain model preprocessing data
menggunakan operator process document pada RapidMiner. Tahapan
yang dilakukan adalah Tokenize, Filter Stopwords (Dictonary) dan Filter
Token (by length)

41
4.2. Desain Modelling

Merupakan fase pemilihan teknik mining dengan menentukan algoritma yang
akan digunakan. Tools yang digunakan adalah RapidMiner 9.5. Hasil pengujian
model yang dilakukan adalah mengklasifikasikan data review aplikasi E-Wallet
OVO dan DANA menggunakan algoritma K-Nearest Neighbor.
4.4.1 Modelling OVO
Gambar 4.3. Desain Model OVO

Berdasarkan gambar 4.3 dapat dilihat desain model algoritma K-Nearest Neighbor
pada OVO dalam 3 kategori kelas, kategori pertama terdiri dari 5 kelas dari rating
1 sampai dengan 5, pada desain model untuk 5 kelas diawali dengan operator Read
Excel, Multiply, Select Attribut, Set Role, Process Document, Remove Correlated
Attributes, Cross Validation. Selanjutnya untuk desain model 2 kelas rating 1 dan
rating 5 diawali operator Read Excel, Multiply, Filter Example 1, Filter Example 5,
Append, Select Attribut, Set Role, Process Document, Remove Correlated
Attributes, Cross Validation. Terakhir model untuk 3 kelas diawali dengan operator
Read Excel, Multiply, Select Attribut, Set Role, Process Document, Remove
Correlated Attributes, Cross Validation.

42
4.2.2 Modelling DANA
Gambar 4.4. Desain Model DANA

Berdasarkan gambar 4.4 dapat dilihat desain model algoritma K-Nearest Neighbor
pada DANA dalam 3 kategori kelas, kategori pertama terdiri dari 5 kelas dari rating
1 sampai dengan 5, pada desain model untuk 5 kelas diawali dengan operator Read
Excel, Multiply, Select Attribut, Set Role, Process Document, Remove Correlated
Attributes, Cross Validation. Selanjutnya untuk desain model 2 kelas rating 1 dan
rating 5 diawali operator Read Excel, Multiply, Filter Example 1, Filter Example 5,
Append, Select Attribut, Set Role, Process Document, Remove Correlated
Attributes, Cross Validation. Terakhir model untuk 3 kelas diawali dengan operator
Read Excel, Multiply, Select Attribut, Set Role, Process Document, Remove
Correlated Attributes, Cross Validation.
Keterangan:
a. Read Excel, ini dapat digunakan untuk memuat data dari spreadsheet Microsoft
Excel. Operator ini dapat membaca data dari Excel 95, 97, 2000, XP, dan 2003.
Pengguna harus menentukan spreadsheet mana di buku kerja yang harus
digunakan sebagai tabel data. Tabel harus memiliki format sehingga setiap
baris adalah contoh dan setiap kolom mewakili atribut. Harap perhatikan
bahwa baris pertama lembar Excel mungkin digunakan untuk nama atribut
yang dapat ditunjukkan oleh parameter. Tabel data dapat ditempatkan di mana
saja pada lembar dan dapat berisi instruksi pemformatan sewenang-wenang,

43
baris kosong dan kolom kosong. Nilai data yang hilang di Excel harus
ditunjukkan oleh sel kosong atau oleh sel yang hanya berisi "?".
b. Sample Bootsrapping, Operator ini berbeda dari operator pengambilan sampel
lainnya karena menggunakan pengambilan sampel dengan penggantian. Dalam
pengambilan sampel dengan penggantian, pada setiap langkah semua contoh
memiliki probabilitas yang sama untuk dipilih. Setelah contoh dipilih untuk
sampel, sampel tetap menjadi kandidat untuk diseleksi dan dapat dipilih
kembali pada langkah selanjutnya yang akan datang. Jadi sampel dengan
penggantian dapat memiliki contoh yang sama beberapa kali. Lebih penting
lagi, sampel dengan penggantian dapat digunakan untuk menghasilkan sampel
yang ukurannya lebih besar dari ContohSet asli. Jumlah contoh dalam sampel
dapat ditentukan secara absolut atau relatif tergantung pada pengaturan
parameter sampel.
c. Multiply, mengambil Objek RapidMiner dari port input dan mengirimkan
salinannya ke port output. Setiap port yang terhubung membuat salinan
independen. Jadi mengubah satu salinan tidak berpengaruh pada salinan
lainnya.
d. Select Attributes, menyediakan berbagai jenis filter untuk mempermudah
pemilihan atribut. Kemungkinannya adalah misalnya: Pemilihan Atribut secara
langsung. Seleksi dengan ekspresi reguler atau hanya memilih Atribut tanpa
nilai yang hilang. Lihat tipe filter atribut atribut untuk deskripsi terperinci dari
berbagai jenis filter.
e. Set Role, setiap data yang ada terbagi menjadi beberapa baris data prediksi
sesuai posisi pada saat diambilnya data tersebut, masing-masing data prediksi
juga memiliki kolom atribut koordinat sesuai dengan kasus. Set Role berfungsi
untuk membedakan baris penamaan atribut koordinat dan prediksi posisi yang
akan di masukan kedalam kategori ‘label’ agar pada saat pengkategorian data
‘label’ tidak ikut serta terhitung dan merubah hasil.
f. Process Documents, merupakan pre processing pada RapidMiner
g. Remove Correlated Attributes, dapat digunakan untuk menghapus atribut
berkorelasi atau tidak berkorelasi tergantung pada pengaturan parameter
khususnya parameter hubungan filter.

44
h. Smote Usampling, Pada langkah pertama, ExampleSet disaring untuk hanya

mempertimbangkan contoh-contoh kelas minoritas. Setelah itu pencarian di k
tetangga terdekat untuk semua contoh dilakukan. Algoritma kemudian memilih
contoh acak dan tetangga terdekat acak untuk contoh ini. Contoh baru dibuat
yang berada di garis antara dua contoh.
i. Validasi (Cross Validation), merupakan operator yang memiliki dua subproses
: subproses Training dan subproses Testing. Subproses Training digunakan
untuk melatih suatu model. Model yang telah dilatih (diuji atau diproses
terlebih dahulu) kemudian diterapkan dalam subproses Testing. Kinerja model
akan diukur selama fase Testing.
j. Filter Examples, digunakan untuk memilih operator yang diperlukan.
k. Append, Operator ini membangun ContohSet gabungan dari dua atau lebih
ContohSetrip yang kompatibel dengan menambahkan semua contoh ke dalam
set gabungan.
4.3. Desain Proses Model

4.3.1. Desain Proses Model OVO
Berikut ini desain proses pengujian model K-Nearest Neighbor pada OVO
yang digunakan yaitu:
Gambar 4.5. Desain Proses Cross Validation untuk KNN OVO

Gambar 4.5 menjelaskan desain proses di dalam operator cross validation
KNN. Pada pengujian ini, data yang digunakan adalah data bersi yang telah melalui
preprocessing. Data tersebut diambil dari operator Read Excel, hal ini dilakukan
karena dataset disimpan dalam bentuk Excel (.xlsx). Process document from data
untuk mengkonversi data menjadi document. Process validasi terdiri dari data
training.

45
4.3.2. Desain Process DANA

Berikut ini desain proses pengujian model metode K-Nearest Neighbor pada
DANA yang digunakan yaitu:
Gambar 4.6. Desain Process Cross Validation untuk KNN DANA

Keterangan:
a. Modeling (K-NN),.
b. Apply Model, operator ini akan mengkaji set data dari operator lain, yang sering
merupakan algoritma pembelajaran. Setelah itu, model ini dapat diterapkan
pada data set lainnya. Biasanya bertujuan untuk mendapatkan prediksi pada
data yang tidak terlihat atau untuk mengubah data dengan menerapkan model
preprocessing.
c. Performance, dapat digunakan untuk semua jenis tugas belajar. Operator ini
secara otomatis menentukan jenis tugas pembelajaran dan menghitung kriteria
yang paling umum untuk jenis itu.
4.4. Hasil Pengujian

Dari hasil pemodelan yang telah dilakukan sebelumnya Berikut ini akan
dijelaskan Kurva ROC dan Confusion Matrix dari masing-masing algoritma.
4.4.1. Hasil Pengujian K-Nearest Neighbor Pada OVO
4.4.1.1.Hasil Pengujian OVO – 5 Kelas
1. Nilai k 1
Untuk hasil analisis review pengguna OVO dengan nilai k 1 sebagai berikut :
Accuracy : 76.56%
Kappa : 0.705 Kuat (Good)
Tabel 4.8. Hasil Review Pengguna OVO 5 Kelas dengan Nilai k 1

46
Class
True 1 True 2 True 3 True 4 True 5
precision
Pred. 1 110 15 32 30 27 51.40%
Pred. 2 2 83 1 0 1 95.40%
Pred. 3 0 1 79 2 0 96.34%
Pred. 4 0 2 0 58 0 96.67%
Pred. 5 2 5 2 2 75 87.21%
Class
96.49% 78.30% 69.30% 63.04% 72.82%
Recall
2. Nilai k 2
Accuracy : 53.50%
Class
Precision
Pred. 1 112 56 73 49 45 33.43%
Pred. 2 0 45 1 2 1 91.84%
Pred. 3 0 0 38 4 2 86.36%
Pred. 4 0 0 0 35 2 94.59%
Pred. 5 2 5 2 2 53 82.81%
Class
98.25% 42.45% 33.33% 38.04% 51.46%
Recall
3. Nilai k 3
Accuracy : 46.88%
Kappa : 0.329 Lumayan (Fair)
True 1 True 2 True 3 True 4 True 5 Class precision

Pred. 1 103 54 73 49 40 32.29%
Pred. 2 0 33 0 2 1 91.67%
Pred. 3 0 0 27 4 2 81.82%
Pred. 4 0 2 0 25 0 92.59%
Pred. 5 11 17 14 12 60 52.63%
Class Recall 90.35% 31.13% 23.68% 27.17% 58.25%

47
4. Nilai k 4
Accuracy : 40.65%
Class
Precision
Pred. 1 113 56 83 52 62 30.87%
Pred. 2 0 29 0 2 3 85.29%
Pred. 3 0 0 19 4 3 73.08%
Pred. 4 0 2 1 19 0 86.36%
Pred. 5 1 19 11 15 35 43.21%
Class
99.12% 27.36% 16.67% 20.65% 33.98%
recall
5. Nilai k 5
Accuracy : 41.78%
Class
Precision
Pred. 1 112 75 92 65 50 28.43%
Pred. 2 0 26 0 2 3 83.87%
Pred. 3 0 0 16 4 1 76.19%
Pred. 4 0 2 1 18 0 85.71%
Pred. 5 2 3 5 3 49 79.03%
Class
98.25% 24.53% 14.04% 19.57% 47.57%
recall
6. Nilai k 6
Accuracy : 34.79%
Kappa : 0.172 Rendah (Poor)

48
Class
Precision
Pred. 1 113 83 99 67 70 26.16%
Pred. 2 0 17 0 1 3 80.95%
Pred. 3 0 0 8 4 0 66.67%
Pred. 4 0 0 3 16 0 84.21%
Pred. 5 1 6 4 4 30 66.67%
Class
99.12% 16.04% 7.02% 17.39% 29.13%
Recall
7. Nilai k 7
Accuracy : 34.40%
Class
Precision
Pred. 1 110 85 101 70 64 25.58%
Pred. 2 0 14 0 0 3 82.35%
Pred. 3 0 0 7 3 0 70.00%
Pred. 4 2 0 4 15 0 71.43%
Pred. 5 2 7 2 4 36 70.59%
Class
96.49% 13.21% 6.14% 16.30% 34.95%
Recall
8. Nilai k 8
Accuracy : 29.30%
True 1 True 2 True 3 True 4 True 5 Class Precision

Pred. 1 113 91 103 74 83 24.35%
Pred. 2 0 9 0 0 3 75.00%
Pred. 3 0 0 4 2 0 66.67%
Pred. 4 0 0 4 12 0 75.00%
Pred. 5 1 6 3 4 17 54.84%
Class recall 99.12% 8.49% 3.51% 13.04% 16.50%

49
9. Nilai k 9
Accuracy : 28.72%
Class
Precision
Pred. 1 113 93 109 79 81 23.79%
Pred. 2 0 8 0 0 3 72.73%
Pred. 3 0 0 2 0 0 100.00%
Pred. 4 0 0 0 10 0 100.00%
Pred. 5 1 5 3 3 19 61.29%
Class
99.12% 7.55% 1.75% 10.87% 18.45%
recall
10. Nilai k 10
Accuracy : 24.76%
Class
Precision
Pred. 1 114 101 111 83 90 22.85%
Pred. 2 0 1 0 0 3 25.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 6 0 100.00%
Pred. 5 0 4 3 3 10 50.00%
Class
100.00% 0.94% 0.00% 6.52% 9.71%
Recall
11. Nilai k 20
Accuracy : 21.55%

50
Pred. 1 114 103 114 91 103 21.71%

Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 3 0 1 0 0.00%
Class
100.00% 0.00% 0.00% 0.00% 0.00%
Recall
12. Nilai k 30
Accuracy : 21.55%
Class
Precision
Pred. 1 114 106 114 92 103 21.55%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 0 0 0.00%
Class
100.00% 0.00% 0.00% 0.00% 0.00%
Recall
13. Nilai k 40
Accuracy : 21.93%

Pred. 1 114 106 114 92 101 21.63%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 0 2 100.00%
Class Recall 100.00% 0.00% 0.00% 0.00% 1.94%

51
14. Nilai k 50
Accuracy : 21.74%
Class
precision
Pred. 1 114 106 114 90 102 21.67%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 2 1 33.33%
Class
100.00% 0.00% 0.00% 0.00% 0.97%
Recall
15. Nilai k 60
Accuracy : 22.30%
Pred. 1 114 106 111 90 99 21.92%

Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 3 2 4 44.44%
Class
100.00% 0.00% 0.00% 0.00% 3.88%
Recall
16. Nilai k 70
Accuracy : 22.68%

52
Class
precision
Pred. 1 114 102 113 88 97 22.18%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 4 1 4 6 40.00%
Class
100.00% 0.00% 0.00% 0.00% 5.83%
Recall
17. Nilai k 80
Accuracy : 23.62%
Class
precision
Pred. 1 114 103 110 87 92 22.53%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 3 4 5 11 47.83%
Class
100.00% 0.00% 0.00% 0.00% 10.68%
Recall
18. Nilai k 90
Accuracy : 23.44%
Pred. 1 114 104 107 87 93 22.57%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 2 7 5 10 41.67%
Class Recall 100.00% 0.00% 0.00% 0.00% 9.71%

53
19. Nilai k 100

Accuracy : 22.68%
Class
precision
Pred. 1 114 104 113 90 97 22.01%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 2 1 2 6 54.55%
Class
100.00% 0.00% 0.00% 0.00% 5.83%
Recall
20. Nilai k 200

Accuracy : 23.06%
Class
precision
Pred. 1 113 103 110 84 94 22.42%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 1 3 4 8 9 36.00%
Class
99.12% 0.00% 0.00% 0.00% 8.74%
Recall
21. Nilai k 300

Accuracy : 23.06%

54
Class
precision
Pred. 1 95 84 87 74 76 22.84%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 19 21 27 18 27 24.11%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 1 0 0 0 0.00%
Class
83.33% 0.00% 23.68% 0.00% 0.00%
Recall
22. Nilai k 400

Accuracy : 21.17%
Kappa : -0.005 Rendah (Poor)
Class
precision
Pred. 1 42 20 45 24 20 27.81%
Pred. 2 1 1 0 0 0 50.00%
Pred. 3 71 85 69 68 83 18.35%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 0 0 0.00%
Class
36.84% 0.94% 60.53% 0.00% 0.00%
Recall
23. Nilai k 500

Accuracy : 21.55%
Pred. 1 114 106 114 92 103 21.55%
Pred. 2 0 0 0 0 0 0.00%
Pred. 3 0 0 0 0 0 0.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 0 0 0.00%
Class Recall 100.00% 0.00% 0.00% 0.00% 0.00%

55

1. Nilai k 1
Accuracy : 84.86%
Precision : 93.76%
Recall : 75.26%
AUC : 0.500
True 1 True 5 Class precision
Pred. 1 97 25 79.51%
Pred. 5 6 78 92.86%
Class Recall 94.17% 75.73%
2. Nilai k 2
Accuracy : 74.71%
Precision : 94.82%
Recall : 52.66%
AUC : 0.858
True 1 True 5 Class Precision
Pred. 1 99 48 67.35%
Pred. 5 4 55 93.22%
3. Nilai k 3
Accuracy : 79.12%
Precision : 89.16%
Recall : 68.13%
AUC : 0.875
Pred. 1 92 32 74.19%
Pred. 5 11 71 86.59%

56
4. Nilai k 4
Accuracy : 71.33%
Precision : 97.83%
Recall : 42.73%
AUC : 0.860

Pred. 1 102 58 63.75%
Pred. 5 1 45 97.83%
5. Nilai k 5
Accuracy : 72.76%
Precision : 96.08%
Recall : 46.55%
AUC : 0.843
Pred. 1 101 54 65.16%
Pred. 5 2 49 96.08%
6. Nilai k 6
Accuracy : 65.48%
Precision : 100.00%
Recall : 30.27%
AUC : 0.843
Pred. 1 103 71 59.20%
Pred. 5 0 32 100.00%

57
7. Nilai k 7
Accuracy : 66.93%
Precision : 84.96%
Recall : 37.00%
AUC : 0.815
Pred. 1 99 64 60.74%
Pred. 5 4 39 90.70%
8. Nilai k 8
Accuracy : 60.17%
Precision : 82.17%
Recall : 23.82%
AUC : 0.788
Pred. 1 99 78 55.93%
Pred. 5 4 25 86.21%
9. Nilai k 9
Accuracy : 61.17%
Precision : 79.00%
Recall : 27.64%
AUC : 0.766

Pred. 1 97 74 56.73%
Pred. 5 6 29 82.86%

58
10. Nilai k 10
Accuracy : 58.76%
Precision : 95.00%
Recall : 18.27%
AUC : 0.760
Pred. 1 102 84 54.84%
Pred. 5 1 19 95.00%
11. Nilai k 20
Accuracy : 52.45%
Precision : 85.71%
Recall : 5.91%
AUC : 0.831
Pred. 1 102 97 51.26%
Pred. 5 1 6 85.71%
12. Nilai k 30
Accuracy : 51.50%
Precision : 100.00%
Recall : 2.91%
AUC : 0.796
Pred. 1 103 100 50.74%
Pred. 5 0 3 100.00%

59
13. Nilai k 40
Accuracy : 52.93%
Precision : 100.00%
Recall : 5.93%
AUC : 0.820
Pred. 1 103 97 51.50%
Pred. 5 0 6 100.00%
14. Nilai k 50
Accuracy : 57.76%
Precision : 100.00%
Recall : 15.55%
AUC : 0.755
Pred. 1 103 87 54.21%
Pred. 5 0 16 100.00%
15. Nilai k 60
Accuracy : 56.90%
Precision : 69.44%
Recall : 24.79%
AUC : 0.705
Pred. 1 92 78 54.12%
Pred. 5 11 25 69.44%

60
16. Nilai k 70
Accuracy : 56.45%
Precision : 66.67%
Recall : 25.77%
AUC : 0.688

Pred. 1 90 77 53.89%
Pred. 5 13 26 66.67%
17. Nilai k 80
Accuracy : 58.81%
Precision : 80.50%
Recall : 30.29%
AUC : 0.652
Pred. 1 90 72 55.56%
Pred. 5 13 31 70.45%
18. Nilai k 90
Accuracy : 57.31%
Precision : 67.44%
Recall : 28.40%
AUC : 0.673
Pred. 1 89 74 54.60%
Pred. 5 14 29 67.44%

61
19. Nilai k 100

Accuracy : 59.69%
Precision : 62.92%
Recall : 53.76%
AUC : 0.621
Pred. 1 68 48 58.62%
Pred. 5 35 55 61.11%
20. Nilai k 200
Accuracy : 48.07%
Precision : 46.77%
Recall : 30.00%
AUC : 0.500
Pred. 1 70 74 48.61%
Pred. 5 33 29 46.77%
21. Nilai k 300
Accuracy : 48.07%
Precision : 46.77%
Recall : 30.00%
AUC : 0.500
Pred. 1 70 74 48.61%
Pred. 5 33 29 46.77%

62
22. Nilai k 400

Accuracy : 48.07%
Precision : 46.77%
Recall : 30.00%
AUC : 0.500
Pred. 1 70 74 48.61%
Pred. 5 33 29 46.77%
23. Nilai k 500
Accuracy : 48.07%
Precision : 46.77%
Recall : 30.00%
AUC : 0.500
Pred. 1 70 74 48.61%
Pred. 5 33 29 46.77%

1. Nilai k 1
Accuracy : 82.45%
True Negative True Netral True Positif Class Precision
Pred.
131 3 7 92.91%
Negative
Pred. Netral 17 184 24 81.78%
Pred. Positif 43 8 164 76.28%
Class Recall 68.59% 94.36% 84.10%

63
2. Nilai k 2
Accuracy : 73.32%
Kappa : 0.599 Cukup (Moderate)
True True True Class
Negative Netral Positif Precision
Pred.
133 14 26 76.88%
Negative
Pred. Netral 22 174 50 70.73%
Pred. Positif 36 7 119 73.46%
Class Recall 69.63% 89.23% 61.03%
3. Nilai k 3
Accuracy : 72.63%
Pred. Negative 96 12 26 71.64%
Pred. Netral 16 169 12 85.79%
Pred. Positif 79 14 157 62.80%
Class Recall 50.26% 86.67% 80.51%
4. Nilai k 4
Accuracy : 71.26%
Pred. Negative 138 26 55 63.01%
Pred. Netral 25 161 25 76.30%
Pred. Positif 28 8 115 76.16%
Class Recall 72.25% 82.56% 58.97%

64
5. Nilai k 5
Accuracy : 72.12%
Pred. Negative 147 24 58 64.19%
Pred. Netral 25 161 26 75.94%
Pred. Positif 19 10 111 79.29%
Class Recall 76.96% 82.56% 56.92%
6. Nilai k 6
Accuracy : 71.08%
Pred. Negative 140 31 39 66.67%
Pred. Netral 17 149 32 75.25%
Pred. Positif 34 15 124 71.68%
Class Recall 73.30% 76.41% 63.59%
7. Nilai k 7
Accuracy : 71.25%
True True
True Negative Class Precision
Netral Positif
Pred.
115 7 16 83.33%
Negative
Pred. Netral 32 167 47 67.89%
Pred. Positif 44 21 132 67.01%
Class Recall 60.21% 85.64% 67.69%

65
8. Nilai k 8
Accuracy : 67.46%
Pred.
116 7 19 81.69%
Negative
Pred. Netral 53 177 77 57.65%
Pred. Positif 22 11 99 75.00%
Class Recall 60.73% 90.77% 50.77%
9. Nilai k 9
Accuracy : 69.52%
True True Class
True Negative
Netral Positif Precision
Pred.
121 9 16 82.88%
Negative
Pred. Netral 49 173 69 59.45%
Pred. Positif 21 13 110 76.39%
Class Recall 63.35% 88.72% 56.41%
10. Nilai k 10
Accuracy : 58.35%
Pred. Netral 87 182 109 48.15%
Pred. Positif 27 7 80 70.18%
Class Recall 40.31% 93.33% 41.03%

66
11. Nilai k 20
Accuracy : 41.99%
True True Class
True Negative
Pred.
19 1 4 79.17%
Negative
Pred. Netral 155 192 158 38.02%
Pred. Positif 17 2 33 63.46%
Class Recall 9.95% 98.46% 16.92%
12. Nilai k 30
Accuracy : 36.14%
Pred.
4 1 2 57.14%
Negative
Pred. Netral 177 194 181 35.14%
Pred. Positif 10 0 12 54.55%
Class Recall 2.09% 99.49% 6.15%
13. Nilai k 40
Accuracy : 34.76%
Pred. Netral 187 195 187 34.27%
Pred. Positif 4 0 7 63.64%
Class Recall 0.00% 100.00% 3.59%

67
14. Nilai k 50
Accuracy : 35.79%
Pred.
0 0 1 0.00%
Negative
Pred. Netral 190 195 181 34.45%
Class Recall 0.00% 100.00% 6.67%
15. Nilai k 60
Accuracy : 35.28%
True True Class
True Negative
Pred.
0 0 1 0.00%
Negative
Pred. Netral 188 195 184 34.39%
Class Recall 0.00% 100.00% 5.13%
16. Nilai k 70
Accuracy : 35.11%
Pred. Netral 191 194 185 34.04%
Class Recall 0.00% 99.49% 5.13%

68
17. Nilai k 80
Accuracy : 34.59%
True True Class
True Negative
Pred.
0 0 0 0.00%
Negative
Pred. Netral 189 194 188 33.98%
Class Recall 0.00% 99.49% 3.59%
18. Nilai k 90
Accuracy : 33.73%
Pred.
0 0 0 0.00%
Negative
Pred. Netral 191 195 194 33.62%
Class Recall 0.00% 100.00% 0.51%
19. Nilai k 100

Accuracy : 33.56%
Pred. Netral 191 195 195 33.56%
Class Recall 0.00% 100.00% 0.00%

69
20. Nilai k 200

Accuracy : 33.56%
Pred.
0 0 0 0.00%
Negative
Pred. Netral 191 195 195 33.56%
Class Recall 0.00% 100.00% 0.00%
21. Nilai k 300

Accuracy : 33.56%
True True Class
True Negative
Pred.
0 0 0 0.00%
Negative
Pred. Netral 191 195 195 33.56%
Class Recall 0.00% 100.00% 0.00%
22. Nilai k 400

Accuracy : 33.73%
Pred. Netral 190 195 195 33.62%
Class Recall 0.52% 100.00% 0.00%

70
23. Nilai k 500

Accuracy : 35.45%
True True Class
True Negative
Pred.
2 1 1 50.00%
Negative
Pred. Netral 179 184 174 34.26%
Pred. Positif 10 10 20 50.00%
Class Recall 1.05% 94.36% 10.26%
4.4.2. Hasil Pengujian K-Nearest Neighbor Pada DANA

4.4.2.1.Hasil Pengujian DANA – 5 Kelas
1. Nilai k 1
Untuk hasil analisis review pengguna DANA dengan nilai k 1 sebagai berikut :
Accuracy : 74.30%
Tabel 4.77. Hasil Review Pengguna DANA 5 Kelas dengan Nilai k 1
Class
Precision
Pred. 1 89 1 2 1 2 93.68%
Pred. 3 22 109 37 30 24 49.10%
Pred. 4 0 0 50 1 0 98.04%
Pred. 5 3 3 3 70 4 84.34%
Pred. 2 0 1 0 2 75 96.15%
Class
78.07% 95.61% 54.35% 67.31% 71.43%
Recall
2. Nilai k 2
Untuk hasil analisis review pengguna dengan nilai k 1 sebagai berikut :
Accuracy : 54.82%

71
Class
Precision
Pred. 1 94 10 9 4 13 72.31%
Pred. 3 17 101 59 52 58 35.19%
Pred. 4 1 0 22 0 0 95.65%
Pred. 5 2 2 2 48 9 76.19%
Pred. 2 0 1 0 0 25 96.15%
Class
82.46% 88.60% 23.91% 46.15% 23.81%
Recall
3. Nilai k 3
Accuracy : 57.08%
Class
Precision
Pred. 1 93 11 16 8 21 62.42%
Pred. 3 8 79 33 13 38 46.20%
Pred. 4 0 0 20 2 0 90.91%
Pred. 5 12 18 20 81 17 54.73%
Pred. 2 1 6 3 0 29 74.36%
Class
81.58% 69.30% 21.74% 77.88% 27.62%
Recall
4. Nilai k 4
Accuracy : 52.37%
Class
Precision
Pred. 1 77 11 10 4 22 62.10%
Pred. 3 6 74 14 15 18 58.27%
Pred. 4 1 0 21 2 0 87.50%
Pred. 5 27 25 43 82 42 37.44%
Pred. 2 3 4 4 1 23 65.71%
Class
67.54% 64.91% 22.83% 78.85% 21.90%
Recall

72
5. Nilai k 5
Accuracy : 48.20%
Tabel 4.81 Hasil Review Pengguna DANA 5 Kelas dengan Nilai k 5
Class
Precision
Pred. 1 81 16 11 6 17 61.83%
Pred. 3 6 53 14 9 18 53.00%
Pred. 4 0 0 18 3 0 85.71%
Pred. 5 25 43 45 85 52 34.00%
Pred. 2 2 2 4 1 18 66.67%
Class
71.05% 46.49% 19.57% 81.73% 17.14%
Recall
6. Nilai k 6
Accuracy : 44.22%
Class
Precision
Pred. 1 69 12 8 8 22 57.98%
Pred. 3 5 47 14 7 16 52.81%
Pred. 4 0 0 16 1 0 94.12%
Pred. 5 39 54 51 87 52 30.74%
Pred. 2 1 1 3 1 15 71.43%
Class
60.53% 41.23% 17.39% 83.65% 14.29%
Recall
7. Nilai k 7
Accuracy : 41.77%

73
Class
Precision
Pred. 1 75 19 17 9 24 52.08%
Pred. 3 2 35 8 9 12 53.03%
Pred. 4 0 0 14 1 1 87.50%
Pred. 5 36 58 53 84 55 29.37%
Pred. 2 1 2 0 1 13 76.47%
Class
65.79% 30.70% 15.22% 80.77% 12.38%
Recall
8. Nilai k 8
Accuracy : 38.75%
Class
Precision
Pred. 1 71 22 18 10 28 47.65%
Pred. 3 2 32 10 9 12 49.23%
Pred. 4 0 0 10 0 0 100.00%
Pred. 5 40 57 54 81 54 28.32%
Pred. 2 1 3 0 4 11 57.89%
Class
62.28% 28.07% 10.87% 77.88% 10.48%
Recall
9. Nilai k 9
Accuracy : 39.12%
Class
Precision
Pred. 1 76 24 24 11 30 46.06%
Pred. 3 2 27 11 9 12 44.26%
Pred. 4 0 0 10 0 0 100.00%
Pred. 5 35 59 47 82 51 29.93%
Pred. 2 1 4 0 2 12 63.16%
Class
66.67% 23.68% 10.87% 78.85% 11.43%
Recall

74
10. Nilai k 10
Untuk hasil analisis review pengguna DANA dengan nilai k 10 sebagai berikut:
Accuracy : 39.13%
Class
Precision
Pred. 1 76 30 27 16 38 40.64%
Pred. 3 2 26 11 8 14 42.62%
Pred. 4 0 0 9 0 1 90.00%
Pred. 5 31 56 44 78 34 32.10%
Pred. 2 5 2 1 2 18 64.29%
Class
66.67% 22.81% 9.78% 75.00% 17.14%
Recall
11. Nilai k 20
Accuracy : 31.58%
True 1 True 5
3 4 2 Precision
Pred. 1 111 95 69 57 89 26.37%
Pred. 3 0 11 9 4 8 34.38%
Pred. 4 0 0 2 0 0 100.00%
Pred. 5 0 3 10 41 6 68.33%
Pred. 2 3 5 2 2 2 14.29%
Class Recall 97.37% 9.65% 2.17% 39.42% 1.90%
12. Nilai k 30
Accuracy : 27.04%

75

Pred. 1 113 103 82 78 98 23.84%
Pred. 3 0 4 5 0 4 30.77%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 1 3 25 2 80.65%
Pred. 2 1 6 2 1 1 9.09%
Class Recall 99.12% 3.51% 0.00% 24.04% 0.95%
13. Nilai k 40
Accuracy : 25.52%
True 1 True 5
3 4 2 Precision
Pred. 1 113 106 85 82 102 23.16%
Pred. 3 0 3 4 3 1 27.27%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 2 3 19 2 73.08%
Pred. 2 1 3 0 0 0 0.00%
Class Recall 99.12% 2.63% 0.00% 18.27% 0.00%
14. Nilai k 50
Accuracy : 25.34%
Pred. 1 113 107 86 82 98 23.25%
Pred. 3 1 3 4 5 4 17.65%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 1 2 17 2 77.27%
Pred. 2 0 3 0 0 1 25.00%
15. Nilai k 60
Accuracy : 28.36%

76

True 1 True 5
3 4 2 Precision
Pred. 1 113 101 84 74 91 24.41%
Pred. 3 1 11 7 6 8 33.33%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 1 22 2 88.00%
Pred. 2 0 2 0 2 4 50.00%
Class Recall 99.12% 9.65% 0.00% 21.15% 3.81%
16. Nilai k 70
Accuracy : 27.04%
Pred. 1 109 96 73 73 82 25.17%
Pred. 3 5 13 13 9 19 22.03%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 1 4 19 2 73.08%
Pred. 2 0 4 2 3 2 18.18%
Class Recall 95.61% 11.40% 0.00% 18.27% 1.90%
17. Nilai k 80
Accuracy : 29.31%
Pred. 1 112 88 76 79 87 25.34%
Pred. 3 1 23 12 8 13 40.35%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 4 15 0 78.95%
Pred. 2 1 3 0 2 5 45.45%
Class Recall 98.25% 20.18% 0.00% 14.42% 4.76%

77
18. Nilai k 90
Accuracy : 27.23%
True Class
True 1 True 3 True 4 True 2
5 Precision
Pred. 1 111 91 71 84 91 24.78%
Pred. 3 3 20 17 9 11 33.33%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 3 10 0 76.92%
Pred. 2 0 3 1 1 3 37.50%
Class
97.37% 17.54% 0.00% 9.62% 2.86%
Recall
19. Nilai k 100

Accuracy : 28.17%
Pred. 1 107 85 73 82 87 24.65%
Pred. 3 7 26 17 8 16 35.14%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 1 2 14 0 82.35%
Pred. 2 0 2 0 0 2 50.00%
Class Recall 93.86% 22.81% 0.00% 13.46% 1.90%
20. Nilai k 200

Accuracy : 27.03%

78
Class
Precision
Pred. 1 106 93 66 69 82 25.48%
Pred. 3 8 21 26 19 23 21.65%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 16 0 100.00%
Pred. 2 0 0 0 0 0 0.00%
Class
92.98% 18.42% 0.00% 15.38% 0.00%
Recall
21. Nilai k 300

Accuracy : 27.21%
True True Class
True 1 True 3 True 5
4 2 Precision
Pred. 1 96 84 74 70 86 23.41%
Pred. 3 18 30 17 16 19 30.00%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 1 18 0 94.74%
Pred. 2 0 0 0 0 0 0.00%
Class
84.21% 26.32% 0.00% 17.31% 0.00%
Recall
22. Nilai k 400

Accuracy : 27.23%
Class
Precision
Pred. 1 80 75 47 40 64 26.14%
Pred. 3 32 34 31 35 35 20.36%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 2 4 14 29 5 53.70%
Pred. 2 0 1 0 0 1 50.00%
Class
70.18% 29.82% 0.00% 27.88% 0.95%
Recall

79
23. Nilai k 500

Accuracy : 21.36%
True 1 True 5
3 4 2 Precision
Pred. 1 102 103 82 94 95 21.43%
Pred. 3 12 11 10 10 10 20.75%
Pred. 4 0 0 0 0 0 0.00%
Pred. 5 0 0 0 0 0 0.00%
Pred. 2 0 0 0 0 0 0.00%
Class Recall 89.47% 9.65% 0.00% 0.00% 0.00%

1. Nilai k 1
Accuracy : 86.64%
Precision : 90.52%
Recall : 82.89%
AUC : 0.500
Pred. 1 94 18 83.93%
Pred. 5 10 86 89.58%
2. Nilai k 2
Accuracy : 77.98%
Precision : 92.33%
Recall : 62.96%
AUC : 0.851

80

Pred. 1 97 39 71.32%
Pred. 5 7 65 90.28%
3. Nilai k 3
Accuracy : 82.31%
Precision : 78.90%
Recall : 92.64%
AUC : 0.893
Pred. 1 75 8 90.36%
Pred. 5 29 96 76.80%
4. Nilai k 4
Accuracy : 81.36%
Precision : 96.67%
Recall : 65.69%
AUC : 0.896
Pred. 1 101 36 73.72%
Pred. 5 3 68 95.77%
5. Nilai k 5
Accuracy : 80.83%
Precision : 86.16%
Recall : 75.34%
AUC : 0.871

81

Pred. 1 90 26 77.59%
Pred. 5 14 78 84.78%
6. Nilai k 6
Accuracy : 0.871
Precision : 92.99%
Recall : 58.85%
AUC : 0.869
Pred. 1 98 43 69.50%
Pred. 5 6 61 91.04%
7. Nilai k 7
Accuracy : 78.48%
Precision : 87.03%
Recall : 68.60%
AUC : 0.887
Pred. 1 92 33 73.60%
Pred. 5 12 71 85.54%
8. Nilai k 8
Accuracy : 75.62%
Precision : 94.50%
Recall : 55.12%
AUC : 0.885

82

Pred. 1 100 47 68.03%
Pred. 5 4 57 93.44%
9. Nilai k 9
Accuracy : 78.00%
Precision : 91.33%
Recall : 62.87%
AUC : 0.883
Pred. 1 97 39 71.32%
Pred. 5 7 65 90.28%
10. Nilai k 10
Accuracy : 76.57%
Precision : 98.75%
Recall : 54.12%
AUC : 0.883
Pred. 1 103 48 68.21%
Pred. 5 1 56 98.25%
11. Nilai k 20
Accuracy : 65.00%
Precision : 91.89%
Recall : 32.86%
AUC : 0.888

83

Pred. 1 101 70 59.06%
Pred. 5 3 34 91.89%
12. Nilai k 30
Accuracy : 66.90%
Precision : 100.00%
Recall : 33.59%
AUC : 0.931
Pred. 1 101 70 59.06%
Pred. 5 3 34 91.89%
13. Nilai k 40
Accuracy : 61.67%
Precision : 100.00%
Recall : 23.33%
AUC : 0.892
Pred. 1 104 80 56.52%
Pred. 5 0 24 100.00%
14. Nilai k 50
Accuracy : 60.71%
Precision : 100.00%
Recall : 21.42%
AUC : 0.904

84

Pred. 1 104 82 55.91%
Pred. 5 0 22 100.00%
15. Nilai k 60
Accuracy : 60.71%
Precision : 100.00%
Recall : 21.31%
AUC : 0.912
Pred. 1 104 82 55.91%
Pred. 5 0 22 100.00%
16. Nilai k 70
Accuracy : 55.86%
Precision : 100.00%
Recall : 11.57%
AUC : 0.910
Pred. 1 104 92 53.06%
Pred. 5 0 12 100.00%
17. Nilai k 80
Accuracy : 54.90%
Precision : 100.00%
Recall : 9.55%
AUC : 0.936

85
True
True 1 Class Precision
5
Pred. 1 104 94 52.53%
Pred. 5 0 10 100.00%
18. Nilai k 90
Accuracy : 54.43%
Precision : 100.00%
Recall : 8.73%
AUC : 0.886
Pred. 1 104 95 52.26%
Pred. 5 0 9 100.00%
19. Nilai k 100
Accuracy : 55.38%
Precision : 100.00%
Recall : 10.55%
AUC : 0.909
Pred. 1 104 93 52.79%
Pred. 5 0 11 100.00%
20. Nilai k 200

Accuracy : 47.60%
Precision : 46.99%
Recall : 40.00%
AUC : 0.500

86

Pred. 1 60 65 48.00%
Pred. 5 44 39 46.99%
21. Nilai k 300

Accuracy : 47.60%
Precision : 46.99%
Recall : 40.00%
AUC : 0.500
Pred. 1 60 65 48.00%
Pred. 5 44 39 46.99%
22. Nilai k 400
Accuracy : 47.60%
Precision : 46.99%
Recall : 40.00%
AUC : 0.500
Pred. 1 60 65 48.00%
Pred. 5 44 39 46.99%
23. Nilai k 500

Accuracy : 47.60%
Precision : 46.99%
Recall : 40.00%
AUC : 0.500

87

Pred. 1 60 65 48.00%
Pred. 5 44 39 46.99%

1. Nilai k 1
Accuracy : 75.27%
Pred. Netral 67 196 76 57.82%
Pred. Positif 1 0 120 99.17%
Class Recall 64.21% 100.00% 61.22%
2. Nilai k 2
Accuracy : 65.82%
Pred.
126 0 3 97.67%
Negative
Pred. Netral 63 196 132 50.13%
Class Recall 66.32% 100.00% 31.12%
3. Nilai k 3
Accuracy : 57.05%

88

Pred. Netral 121 196 123 44.55%
Class Recall 34.74% 100.00% 35.71%
4. Nilai k 4
Accuracy : 48.98%
Pred.
55 4 2 90.16%
Negative
Pred. Netral 133 192 156 39.92%
Class Recall 28.95% 97.96% 19.39%
5. Nilai k 5
Accuracy : 46.91%
Pred. Netral 154 194 146 39.27%
Class Recall 15.79% 98.98% 25.00%
6. Nilai k 6
Accuracy : 44.67%

89

Pred.
27 0 1 96.43%
Negative
Pred. Netral 154 196 158 38.58%
Class Recall 14.21% 100.00% 18.88%
7. Nilai k 7
Accuracy : 4.16%
Pred. Netral 167 195 145 38.46%
Pred. Positif 11 1 50 80.65%
Class Recall 6.32% 99.49% 25.51%
8. Nilai k 8
Accuracy : 40.03%
Pred.
12 0 3 80.00%
Negative
Pred. Netral 174 196 168 36.43%
Class Recall 6.32% 100.00% 12.76%
9. Nilai k 9
Accuracy : 41.58%

90

Pred. Netral 179 196 155 36.98%
Class Recall 4.21% 100.00% 19.39%
10. Nilai k 10
Accuracy : 38.83%
Pred.
7 0 3 70.00%
Negative
Pred. Netral 181 196 170 35.83%
Class Recall 3.68% 100.00% 11.73%
11. Nilai k 20
Accuracy : 35.91%
Pred. Netral 185 196 185 34.63%
Class Recall 1.58% 100.00% 5.10%
12. Nilai k 30
Accuracy : 34.71%

91

Pred.
0 0 0 0.00%
Negative
Pred. Netral 190 196 190 34.03%
Class Recall 0.00% 100.00% 3.06%
13. Nilai k 40
Accuracy : 34.20%
Pred. Netral 190 196 193 33.85%
Class Recall 0.00% 100.00% 1.53%
14. Nilai k 50
Accuracy : 33.85%
Pred.
0 0 0 0.00%
Negative
Pred. Netral 190 196 195 33.73%
Class Recall 0.00% 100.00% 0.51%
15. Nilai k 60
Accuracy : 33.68%

92

Pred. Netral 190 196 196 33.68%
Class Recall 0.00% 100.00% 0.00%
16. Nilai k 70
Accuracy : 33.85%
Pred.
0 0 0 0.00%
Negative
Pred. Netral 190 196 195 33.73%
Class Recall 0.00% 100.00% 0.51%
17. Nilai k 80
Accuracy : 33.68%
Pred. Netral 190 196 196 33.68%
Class Recall 0.00% 100.00% 0.00%
18. Nilai k 90
Accuracy : 33.68%

93

Pred.
0 0 0 0.00%
Negative
Pred. Netral 190 196 196 33.68%
Class Recall 0.00% 100.00% 0.00%
19. Nilai k 100

Accuracy : 33.68%
Pred. Netral 190 196 196 33.68%
Class Recall 0.00% 100.00% 0.00%
20. Nilai k 200

Accuracy : 34.02%
Pred.
0 0 0 0.00%
Negative
Pred. Netral 190 196 194 33.79%
Class Recall 0.00% 100.00% 1.02%
21. Nilai k 300

Accuracy : 33.85%

94

Pred. Netral 190 196 195 33.73%
Class Recall 0.00% 100.00% 0.51%
22. Nilai k 400

Accuracy : 36.77%
Pred.
0 0 0 0.00%
Negative
Pred. Netral 189 194 176 34.70%
Class Recall 0.00% 98.98% 10.20%
23. Nilai k 500

Accuracy : 36.93%
Pred. Netral 88 83 62 35.62%
Pred. Positif 94 103 124 38.63%
Class Recall 4.21% 42.35% 63.27%
4.4.3. Hasil Rangkuman Pengujian K-Nearest Neighbor Pada OVO Dan

DANA
4.4.3.1.Hasil Rangkuman Pengujian K-Nearest Neighbor Pada OVO
Berikut ini tabel 4.136 hasil pengujian data set OVO mengunakan algoritma
K-Nearest Neighbor pada ketiga kelompok kelas dengan menggunakan nilai k 1-
500.

95
Tabel 4.146 Hasil Rangkuman Pengujian OVO

Nilai Accuracy Nilai Kappa Performance Untuk 2 Kelas
No nilai k 5 2 3 5 3
Kelas Kelas Kelas Kelas Kelas Precision Recall AUC
1 1 76.56% 84.86% 82.45% 0.705 0.736 93.76% 75.26% 0.500
2 2 53.50% 74.71% 73.32% 0.412 0.599 94.82% 52.66% 0.858
3 3 46.88% 79.12% 72.63% 0.329 0.588 89.16% 68.13% 0.875
4 4 40.65% 71.33% 71.26% 0.249 0.568 97.83% 42.73% 0.860
5 5 41.78% 72.76% 72.12% 0.262 0.581 96.08% 46.55% 0.843
6 6 34.79% 65.48% 71.08% 0.172 0.566 100.00% 30.27% 0.843
7 7 34.40% 66.93% 71.25% 0.168 0.568 84.96% 37.00% 0.815
8 8 29.30% 60.17% 67.46% 0.102 0.511 82.17% 23.82% 0.788
9 9 28.72% 61.17% 69.52% 0.094 0.542 79.00% 27.64% 0.766
10 10 24.76% 58.76% 58.35% 0.043 0.373 95.00% 18.27% 0.760
11 20 21.55% 52.45% 41.99% 0.000 0.126 85.71% 5.91% 0.831
12 30 21.55% 51.50% 36.14% 0.000 0.039 100.00% 2.91% 0.796
13 40 21.93% 52.93% 34.76% 0.005 0.018 100.00% 5.93% 0.820
14 50 21.74% 57.76% 35.79% 0.003 0.033 100.00% 15.55% 0.755
15 60 22.30% 56.90% 35.28% 0.010 0.026 69.44% 24.79% 0.705
16 70 22.68% 56.45% 35.11% 0.015 0.023 66.67% 25.77% 0.688
17 80 23.62% 58.81% 34.59% 0.027 0.016 80.50% 30.29% 0.652
18 90 23.44% 57.31% 33.73% 0.025 0.003 67.44% 28.40% 0.673
19 100 22.68% 59.69% 33.56% 0.015 0.000 62.92% 53.76% 0.621
20 200 23.06% 48.07% 33.56% 0.021 0.000 46.77% 30.00% 0.500
21 300 23.06% 48.07% 33.56% 0.019 0.000 46.77% 30.00% 0.500
22 400 21.17% 48.07% 33.73% -0.005 0.003 46.77% 30.00% 0.500
23 500 21.55% 48.07% 35.45% 0.000 0.030 46.77% 30.00% 0.500
Dari tabel diatas, dapat disimpulkan bahwa :

1. Nilai accuracy tertinggi dari ketiga kelompok kelas, kelompok pertama
terdiri dari 5 kelas, kelompok ke dua terdiri dari 2 kelas, dan kelompok
ketiga terdiri dari tiga kelas. Dan nilai accuracy tertinggi yaitu dengan
menggunakan 2 kelas (rating 1 dan rating 5), dengan nilai accuracy tertinggi
84.86%, dan posisi ke dua dengan nilai accuracy 82.45% dengan
menggunakan 3 kelas (negative, netral dan positive).
2. Nilai kappa tertinggi dengan nilai 0.736 dengan menggunakan 3 kelas
(negative, netral dan positive).
3. Nilai AUC tertinggi dengan menggunakan 2 kelas sebesar 0.875 dengan
menggunakan nilai k 3
4. Nilai k terbaik untuk mencari nilai accuracy dan kappa pada semua
kelompok kelas dari percobaan nilai k dengan kelipatan 1 (1-10), kelipatan
10 (10-100) kelipatan 100 (100-500) tertinggi yaitu menggunakan nilai k 1.

96
5. Nilai k terbaik untuk mencari nilai AUC terbesar dengan menggunakan 2

kelas yaitu nilai k 3
4.4.3.2.Hasil Rangkuman Pengujian K-Nearest Neighbor Pada DANA

Berikut ini tabel 4.137 hasil pengujian data set DANA mengunakan
algoritma K-Nearest Neighbor pada ketiga kelompok kelas dengan menggunakan
nilai k 1-500.
Tabel 4.147 Hasil Rangkuman Pengujian DANA
Nilai Accuracy Nilai Kappa Performance Untuk 2 Kelas
No nilai k 5 2 3 5 3
Kelas Kelas Kelas Kelas Kelas Precision Recall AUC
1 1 74.30% 86.64% 75.27% 0.676 0.628 90.52% 82.89% 0.500
2 2 54.82% 77.98% 65.82% 0.428 0.486 92.33% 62.96% 0.851
3 3 57.08% 82.31% 57.05% 0.459 0.353 78.90% 92.64% 0.893
4 4 52.37% 81.36% 48.98% 0.401 0.232 96.67% 65.69% 0.896
5 5 48.20% 80.83% 46.91% 0.349 0.200 86.16% 75.34% 0.871
6 6 44.22% 76.52% 44.67% 0.300 0.166 92.99% 58.85% 0.869
7 7 41.77% 78.48% 4.16% 0.270 0.158 87.03% 68.60% 0.887
8 8 38.75% 75.62% 40.03% 0.231 0.096 94.50% 55.12% 0.885
9 9 39.12% 78.00% 41.58% 0.236 0.119 91.33% 62.87% 0.883
10 10 39.13% 76.57% 38.83% 0.235 0.077 98.75% 54.12% 0.883
11 20 31.58% 65.00% 35.91% 0.131 0.034 91.89% 32.86% 0.888
12 30 27.04% 66.90% 34.71% 0.072 0.016 100.00% 33.59% 0.931
13 40 25.52% 61.67% 34.20% 0.052 0.008 100.00% 23.33% 0.892
14 50 25.34% 60.71% 33.85% 0.050 0.003 100.00% 21.42% 0.904
15 60 28.36% 60.71% 33.68% 0.088 0.000 100.00% 21.31% 0.912

16 70 27.04% 55.86% 33.85% 0.071 0.003 100.00% 11.57% 0.910
17 80 29.31% 54.90% 33.68% 0.100 0.000 100.00% 9.55% 0.936
18 90 27.23% 54.43% 33.68% 0.073 0.000 100.00% 8.73% 0.886
19 100 28.17% 55.38% 33.68% 0.085 0.000 100.00% 10.55% 0.909
20 200 27.03% 47.60% 34.02% 0.071 0.005 46.99% 40.00% 0.500
21 300 27.21% 47.60% 33.85% 0.073 0.003 46.99% 40.00% 0.500
22 400 27.23% 47.60% 36.77% 0.076 0.047 46.99% 40.00% 0.500
23 500 21.36% 47.60% 36.93% 0.000 0.053 46.99% 40.00% 0.500
Dari tabel diatas, dapat disimpulkan bahwa :

1. Nilai accuracy tertinggi dari ketiga kelompok kelas, kelompok pertama
terdiri dari 5 kelas, kelompok ke dua terdiri dari 2 kelas, dan kelompok
ketiga terdiri dari tiga kelas. Dan nilai accuracy tertinggi yaitu dengan
menggunakan 2 kelas (rating 1 dan rating 5), dengan nilai accuracy tertinggi
86.64%, dan posisi ke dua dengan nilai accuracy 75.27% dengan
menggunakan 3 kelas (negative, netral dan positive).

97
2. Nilai kappa tertinggi dengan nilai 0.628 dengan menggunakan 3 kelas

(negative, netral dan positive).
3. Nilai AUC tertinggi dengan menggunakan 2 kelas sebesar 0.936 dengan
menggunakan nilai k 3
4. Nilai k terbaik untuk mencari nilai accuracy dan kappa pada semua
kelompok kelas dari percobaan nilai k dengan kelipatan 1 (1-10), kelipatan
10 (10-100) kelipatan 100 (100-500) tertinggi yaitu menggunakan nilai k 1.
5. Nilai k terbaik untuk mencari nilai AUC terbesar dengan menggunakan 2
kelas yaitu nilai k 80

BAB V
PENUTUP
5.1. Kesimpulan
Berdasarkan hasil penelitian yang telah dilakukan dilakukan, maka dapat

ditarik kesimpulan bahwa dari hasil perhitungan OVO dan DANA dengan data
yang diambil dari google play dari masing-masing OVO dan DANA sebanyak 500
menggunakan algoritma K-Nearest Neighbor dengan pengujian nilai k mulai dari 1
sampai 10 dengan kelipatan 1, 10-100 dengan kelipatan 10 dan pengujian nilai k
100-500 dengan kelipatan 100 hasil kesimpulannya sebagai berikut :
1. Hasil pengujian pada OVO dengan menggunakan 5 kelas menunjukan tingkat

akurasi tertinggi sebesar 76.56% dengan menggunakan nilai k1. Dan akurasi
terendah sebesar 21.17% dengan menggunkan nilai k 400.
2. Hasil pengujian pada OVO dengan menggunakan 2 kelas menunjukan akurasi
tertinggi sebesar 84.86% dengan menggunakan nilai k1. Dan akurasi terendah
sebesar 48.07% dengan menggunkan nilai k 200-500.
3. Hasil pengujian pada OVO dengan menggunakan 3 kelas menunjukan akurasi
tertinggi sebesar 82.45% dengan menggunakan nilai k1. Dan akurasi terendah
sebesar 33.56% dengan menggunkan nilai k 100-300.
4. Hasil pengujian pada DANA dengan menggunakan 5 kelas menunjukan tingkat
terendah sebesar 21.36% dengan menggunkan nilai k 500.
5. Hasil pengujian pada DANA dengan menggunakan 2 kelas menunjukan
terendah sebesar 47.60% dengan menggunkan nilai k 200-500.
6. Hasil pengujian pada DANA dengan menggunakan 3 kelas menunjukan
terendah sebesar 33.68% dengan menggunkan nilai k 80-100.
7. Dari kedua aplikasi e-wallet menunjukan bahwa nilai akurasi tertinggi jika
menggunakan 5 kelas di raih oleh aplikasi OVO, jika menggunakan 2 kelas

98
99
diraih oleh aplikasi DANA, dan terakhir jika menggunkan 3 kelas akurasi
tertinggi diraih oleh OVO.
8. Nilai k terbaik dari kedua aplikasi e-wallet untuk mencari nilai akurasi terbaik
dan kappa yaitu menggunakan nilai k 1, sedangkan jika mencari nilai AUC
dengan 2 kelas, nilai k terbaik pada OVO yaitu 3 sedangkan pada dana yaitu
80.
5.2. Saran
Berdasarkan hasil penelitian dapat diberikan beberapa saran sebagai berikut:
1. Kerangka kerja yang diusulkan pada penelitian ini dapat digunakan untuk
melakukan penelitian-penelitian text mining dari berbagai kumpulan dokumen
teks berbahasa indonesia yang tidak terstruktur.
2. Penelitian selanjutnya perlu coba dikembangkan dengan menggunakan data
yang lebih banyak dan pariatif.
3. Disarankan untuk pihak yang berkaitan dengan E-Wallet OVO dan DANA
untuk dapat meningkatkan dan meyakinkan publik supaya opini negatif atau
rating 1 dan 2 yang masih ada di masyarakat bisa lebih berkurang.
4. Melakukan analisis review pada pengguna aplikasi e-wallet berdasarkan
jumlah like yang didapatkan.

DAFTAR REFERENSI
Aburomman, Amin Abdula, et el. (2015) “A novel SVM-kNN-PSO ensemble

method for intrusion detection system”
https://doi.org/10.1016/j.asoc.2015.10.011
Aditya, Suwanda, et al. Analisis Sentimen E-Wallet Pada Google Play

Menggunakan Algoritma Naive Bayes Berbasis Particle Swarm
Optimization. Vol. 1, no. 10, 2019, pp. 3–8.
Arifin, Yoseph Tajul. “Komparasi Fitur Seleksi Pada Algoritma Support

Vector Machine Untuk Analisis Sentimen Review.” Jurnal Informatika
(JI) UBSI, vol. 3, no. September, 2016, pp. 191–99.
Buntoro, Asrofi Ghulam. 2017. Analisis Sentimen Calon Gubernur DKI

Jakarta 2017 di Twitter. Jakarta : Integer Journal Vol 1 No 1 Maret
2016:32-41.
C, Dennis Aprilla. “Belajar Data Mining Dengan RapidMiner.” Innovation

and Knowledge Management in Business Globalization: Theory &
Practice, Vols 1 and 2, 2013, doi:10.1007/s13398-014-0173-7.2.
Ernawati, Siti, and Risa Wati. “Penerapan Algoritma K-Nearest Neighbors

Pada Analisis Sentimen Review Agen Travel.” Jurnal Khatulistiwa
Informatika, vol. VI, no. 1, 2018, pp. 64–69,
https://ejournal.bsi.ac.id/ejurnal/index.php/khatulistiwa/article/view/38
02/2626.
Eransa, Doni. (2016, Desember, 12). Data Mining. Dipetik Mei 15, 2018, dari
https://student.uigm.ac.id/assets/file/Materi/Quiz2_BI.pdf.
Gunawan, Ferly, et al. “Analisis Sentimen Pada Ulasan Aplikasi Mobile

Menggunakan Naive Bayes Dan Normalisasi Kata Berbasis Levenshtein
Distance (Studi Kasus Aplikasi BCA Mobile).” Systemic: Information
System and Informatics Journal, vol. 3, no. 2, 2017, pp. 1–6,
doi:10.29080/systemic.v3i2.234.
Gorunescu, F. (2011). Data Mining. Intelligent Systems Reference

Library. doi:10.1007/978-3-642-19721-5
Hashimi, Hussein, et al. “Selection Criteria for Text Mining Approaches.”

Computers in Human Behavior, vol. 51, Elsevier Ltd, 2015, pp. 729–33,
doi:10.1016/j.chb.2014.10.062.
Hastuti, Khafizh. "Analisis Komparasi Algoritma Klasifikasi Data Mining

Untuk Prediksi Mahasiswa Non Aktif", Seminar Nasional Teknologi
100
101
Informasi & Komunikasi Terapan 2012 (Semantik 2012), ISBN 979-26-
0255-0
Hossin, M.1 and Sulaiman, M. N. .. “A Review on Evaluation Metrics for

Data Classification Evaluations.” International Journal of Data Mining
& Knowledge Management Process, vol. 5, no. 2, 2015, pp. 01–11,
doi:10.5121/ijdkp.2015.5201.
Http://www.gataframework.com/
Https://sitimasyithah.wordpress.com/2016/10/22/analisis-data-pemilu
Khafiizh Hastuti. “Foreword.” Seminars in Neurology, vol. 14, no. 1, 1994,

pp. 241–49.
Liaw, Yi-Ching, et el. (2010) " Fast exact k nearest neighbors search using
an orthogonal search tree" https://doi.org/10.1016/j.patcog.2010.01.003
Medhat, Walaa, et al. “Sentiment Analysis Algorithms and Applications: A

Survey.” Ain Shams Engineering Journal, vol. 5, no. 4, Faculty of
Engineering, Ain Shams University, 2014, pp. 1093–113,
doi:10.1016/j.asej.2014.04.011.
Nurjanah, Winda Estu, et al. “Analisis Sentimen Terhadap Tayangan Televisi

Berdasarkan Opini Masyarakat Pada Media Sosial Twitter
Menggunakan Metode K-Nearest Neighbor Dan Pembobotan Jumlah
Retweet.” Jurnal Pengembangan Teknologi Informasi Dan Ilmu
Komputer (J-PTIIK) Universitas Brawijaya, vol. 1, no. 12, 2017, pp.
1750–57, doi:10.1074/jbc.M209498200.
Raharjo, Suwanto, and Edi Winarko. “Klasterisasi, Klasifikasi Dan

Peringkasan Teks Berbahasa Indonesia.” Kommit 2014, vol. 8, no.
Kommit, 2014, pp. 391–401.
Rofiqoh, Umi, et al. Analisis Sentimen Tingkat Kepuasan Pengguna Penyedia

Layanan Telekomunikasi Seluler Indonesia Pada Twitter Dengan
Metode Support Vector Machine Dan Lexicon Based Features. Vol. 1,
no. 12, 2017, pp. 1725–32.
Rokach, Lior dan Oded Maimon.2015. Data mining With Decision Trees
Theory
and Applications 2nd Edition. America : World Scientific
Publishing.
Salam, Abu, et al. "Analisis Sentimen Data Komentar Sosial Media Facebook
dengan K-Nearest Neighbor (Studi Kasus Pada Akun Jasa Ekspedisi
Barang J&T Ekspress Indonesia)" Prosiding SINTAK 2018, ISBN :
978-602-8557-20-7

102
Sarlan, Aliza, et al. “Twitter Sentiment Analysis.” Conference Proceedings -
6th International Conference on Information Technology and
Multimedia at UNITEN: Cultivating Creativity and Enabling
Technology Through the Internet of Things, ICIMU 2014, 2015, pp.
212–16, doi:10.1109/ICIMU.2014.7066632.
Sartika, Dewi, and Dana Indra. “Perbandingan Algoritma Klasifikasi Naive

Bayes, Nearest Neighbour, Dan Decision Tree Pada Studi Kasus
Pengambilan Keputusan Pemilihan Pola Pakaian.” Jurnal Teknik
Informatika Dan Sistem Informasi, vol. 1, no. 2, 2017, pp. 151–61.
Siregar, Riki Ruli A., et al. “Klasifikasi Sentiment Analysis Pada Komentar
Peserta Diklat Menggunakan Metode K-Nearest Neighbor.” Kilat, vol.
8, no. 1, 2019, pp. 81–92, doi:10.33322/kilat.v8i1.421.
Susilowati, Elly, et al. “Implementasi Metode Support Vector Machine Untuk

Melakukan Klasifikasi Kemacetan Lalu Lintas Pada Twitter.” E-
Proceeding of Engineering, vol. 2, no. 1, 2015, pp. 1–7.
Prasetyo, E. (2014). Data Mining Mengolah Data Menjadi Informasi

Menggunakan Matlab. Yogyakarta: Andi Offset.
Wahyudi, Tri., Richardus E.I & M. Fauzi. (2017). Pemanfaatan Status Kredit
Nasabah Untuk Mengevaluasi Pembiayaan Kpr Pada Bank Muamalat
Indonesia Menggunakan Data Mining. Seminar Nasional Sains dan
Teknologi 2017. e-ISSN : 2460 – 8416.
Witten, Ian H, et al. (20111) "Data Mining : Practical Machine Learning

Tools And Techniques, 3rd ed. USA : Morgan Kaufmann Publishers
Is an Imprint Of Elsevier
Zhao, Yangchang, and Yangchang Zhao. “Chapter 10 – Text Mining.” R and

Data Mining, 2013, pp. 105–22, doi:10.1016/B978-0-12-396963-
7.00010-6.

Tesis Siti Masturoh

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Tesis Siti Masturoh

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS SENTIMEN E-WALLET OVO DAN DANA PADA

ULASAN GOOGLE PLAY MENGGUNAKAN ALGORITMA

MAGISTER PROGRAM STUDI ILMU KOMPUTER

MAGISTER PROGRAM STUDI ILMU KOMPUTER

Puji syukur alhamdullillah, penulis panjatkan kehadirat Allah, SWT, yang

Sebagai bahan penulisan diambil berdasarkan hasil penelitian (eksperimen),

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Jakarta, 02 Januari 2020

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

2.1. Tahapan Proses Knowladge Discovery in Database ............................... 7

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

1.1. Penilaian Rating Bintang Pengguna Aplikasi ......................................... 2

BAB 1 PENDAHULUAN ........................................................................ 1

BAB 2 LANDASAN TEORI .................................................................... 8

BAB 3 METODOLOGI PENELITIAN .................................................. 31

BAB 4 PEMBAHASAN DAN HASIL ..................................................... 35

BAB 5. PENUTUP ................................................................................... 98

DAFTAR REFERENSI ............................................................................ 100

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Nama : Siti Masturoh

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Name : Siti Masturoh

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

1.1 Latar Belakang Penulisan

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Tabel 1.1. Penilaian rating bintang pengguna aplikasi

Sumber : Telah diolah kembali berdasarkan pencarian di google play

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Berdasarkan penjelasan tersebut maka diperlukan sebuah cara agar dapat

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Classifier tanpa feature selection bahwa penggunaan feature selection Particle

1.2 Identifikasi Masalah

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

3. Manakah nilai K yang terbaik dalam mengklasifikasi data analisis e-wallet

1.3 Tujuan Penelitian

1.4 Ruang Lingkup Penelitian

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

1.6 Sistematika Penulisan

BAB II LANDASAN TEORI

BAB III METODOLOGI PENELITIAN

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

BAB IV HASIL DAN PEMBAHASAN

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

2.1. Tinjauan Pustaka

2.1.1. Data Mining

Sumber: (Wahyudi et al, 2017)

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Secara garis besar gambar diatas, menjelaskan langkah-langkah utama dalam

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

2.1.2. Text Mining

2.1.3. Analisis Sentimen

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Analisis sentimen atau opinion mining merupakan proses memahami,

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

umumnya dilakukan dengan proses Tokenization , stopwords removal, dan

2.1.4. Text Processing

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

model klasifikasi, sedangkan tahap pengklasifikasian merupakan tahapan

2.1.6. K-Nearest Neighbor

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri

Tujuan dari algoritma ini adalah untuk mengklasifikasikan obyek baru

2.1.7. Gata Framework

Program Studi Ilmu Komputer (S2) STMIK Nusa Mandiri