TUGAS AKHIR
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik
pada jurusan Teknik Informatika Fakultas Sains dan Teknologi
Universitas Islam Negeri Sunan Gunung Djati Bandung
Oleh:
BANDUNG
2023 M / 1445 H
LEMBAR PENGESAHAN
i
ABSTRAK
ii
ABSTRACT
This study aims to analyze the sentiments of Tokopedia application users on the Play
Store and App Store platforms using the K-Nearest Neighbor (KNN) algorithm. The
research methodology adopts the CRISP-DM approach, consisting of 5 stages, namely
Business Understanding, Data Understanding, Data Preparation, Modeling, and
Evaluation. The Business Understanding stage identifies a focus on improving service
quality and customer understanding of Tokopedia. Data from 1000 Play Store
comments and 1000 App Store comments were selected as the main sample, with two
sentiment labels, positive and negative. At the Data Preparation stage, data is
processed by case folding, cleansing, tokenization, normalization, removing
stopwords, stemming, and calculating the TF-IDF value. The Modeling stage explores
the results of sentiment prediction using KNN. Analysis of the prediction results shows
that the accuracy varies depending on the K value. The final results show that the
correct K value affects the prediction accuracy. In the Evaluation stage, accuracy is
evaluated for each K value. Experiments with the Play Store dataset yield variations
in performance depending on the distribution of the data. The 80:20 scheme has the
highest accuracy of 0.905. Evaluation on the App Store dataset shows consistency of
model performance, with the 90:10 and 80:20 schemes having the highest accuracy of
0.9 and 0.88 respectively. In conclusion, this study succeeded in analyzing the
sentiments of Tokopedia application users using the KNN and CRISP-DM
methodology. Sentiment analysis results provide insight into customer perceptions and
potential for service improvement. KNN implementation with the right K value can
improve the accuracy of sentiment prediction.
iii
MOTTO
iv
KATA PENGANTAR
Puji syukur kami panjatkan kepada Allah SWT atas rahmat, hidayah, dan
karunia-Nya dalam menyelesaikan skripsi ini dengan judul "Implementasi Algoritma
K-Nearest Neighbor (KNN) untuk Analisis Sentimen Pengguna Aplikasi Tokopedia"
sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik (ST.) dari Jurusan
Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Islam Negeri (UIN)
Sunan Gunung Djati Bandung. Kami tidak dapat mencapai hal ini tanpa dukungan,
bantuan, dan dorongan dari berbagai pihak yang telah memberikan kontribusi dalam
perjalanan penulisan kami. Oleh karena itu, kami ingin mengucapkan terima kasih
kepada:
Penulis
v
DAFTAR ISI
vi
3.5 Evaluation ............................................................................................................... 28
BAB IV HASIL DAN PEMBAHASAN .............................................................................. 30
4.1 Hasil Business Understanding ................................................................................ 30
4.2 Hasil Data Understanding ...................................................................................... 30
4.3 Hasil Data Preparation........................................................................................... 31
4.4 Hasil Modeling ........................................................................................................ 39
4.5 Hasil Evaluation...................................................................................................... 43
4.6 Hasil Pengujian ....................................................................................................... 50
4.7 Pembahasan............................................................................................................. 61
BAB V PENUTUP................................................................................................................. 67
5.1 Kesimpulan ............................................................................................................. 67
5.2 Saran ....................................................................................................................... 68
DAFTAR PUSTAKA ............................................................................................................ 69
vii
DAFTAR GAMBAR
viii
DAFTAR TABEL
ix
BAB I
PENDAHULUAN
1.1 Latar Belakang
Dilansir dari laman Shopery, marketplace adalah platform tempat penjual
dapat berkumpul dan menjual barang atau jasa mereka kepada pelanggan tanpa
pertemuan fisik. Perusahaan marketplace adalah penyedia platform sebagai tempat
bertemunya penjual dan pembeli. Dua pihak dapat berdagang di pasar dan
perusahaan menerima komisi untuk setiap penjualan [1].
Dalam beberapa dekade terakhir, pasar telah menjadi platform paling populer
bagi penjual bisnis untuk menjual produk mereka. Pembeli dan penjual dapat
bertemu langsung dalam satu platform untuk transaksi yang cepat, mudah, dan
sederhana. Meskipun banyak bermunculan toko online , namun marketplace tidak
bisa diremehkan. Bahkan, beberapa marketplace ternama seperti Amazon, eBay,
Alibaba dan lain sebagainya telah berperan penting dalam menghidupkan kembali
marketplace online sedunia [2].
Selain itu, marketplace juga banyak digunakan di Indonesia, dan banyak
merchant yang berjualan melalui e-commerce dan marketplace di Indonesia, tidak
hanya oleh pelaku UMKM, tetapi juga brand-brand besar telah masuk dan menjual
marketplace online. Hal ini terlihat dari laju pertumbuhan pasar Indonesia yang terus
berkembang pesat, terutama di masa pandemi. 18 marketplace terbesar di Indonesia
saja memiliki pengunjung bulanan dengan total lebih dari 500 juta pengguna [3].
Menjadi marketplace nomor 1 di Indonesia dengan rata-rata pengunjung
terbanyak adalah marketplace yang tepat di tahun 2023 yaitu Tokopedia. Menurut studi
EcommerceIQ, salah satu alasan banyak konsumen memilih Tokopedia adalah
banyaknya pilihan produk yang tersedia. Di Tokopedia sendiri, kelompok produk yang
paling banyak dicari adalah elektronik, disusul fashion dan sembako. Dari sisi penjual,
pedagang Tokopedia didominasi oleh perusahaan kecil dan menengah. Untuk
mendukung pedagang berjualan di marketplace, Tokopedia memiliki beberapa fitur
1
2
seperti fitur iklan, chat, statistik bisnis yang memungkinkan perusahaan meminjam
modal untuk mengembangkan usahanya [4].
Dalam dunia marketplace terdapat sebuah istilah yang dinamakan ulasan.
Ulasan adalah salah satu jenis testimoni yang diberikan oleh konsumen atau
pengguna yang merasa puas atau kecewa dengan produk atau jasa yang dibelinya.
Artinya, ulasan adalah jenis pernyataan atau pesan dari pelanggan tentang
pengalaman mereka berurusan dengan penjual mengenai kualitas layanan atau
barang atau layanan yang dibeli.
Secara umum, kebanyakan orang skeptis terhadap produk yang belum pernah
mereka beli atau gunakan. Apalagi untuk beberapa produk yang dapat mempengaruhi
kehidupan, seperti produk kesehatan, produk kecantikan dan lain- lain. Semua
pebisnis tahu ini. Oleh karena itu, para pedagang biasanya memasang ulasan
pengguna di halaman penjualan mereka sehingga testimoni pengguna mereka akan
meningkatkan kepercayaan calon pelanggan lain terhadap produk yang mereka jual.
Berdasarkan penjelasan tersebut dapat disimpulkan bahwa ulasan memegang
peranan yang sangat penting dalam proses pemasaran suatu produk di pasar,
khususnya di Tokopedia.
Ulasan atau komentar pengguna bertujuan untuk memberikan manfaat dan
dapat dipercaya. Mengulas konten di play store dan app store adalah cara efektif
untuk berbagi masukan bermanfaat dan membantu pengguna lain menemukan
sebuah produk, konten, dan layanan yang bagus. Dengan berbagai macam dan
banyaknya pengguna Tokopedia memberikan ulasan perlu sebuah proses untuk
menganalisis ulasan tersebut secara cepat dan tepat yang biasa disebut dengan
analisis sentimen [5].
Natural Processing Language (NLP) adalah cabang kecerdasan buatan yang
berhubungan dengan interaksi antara mesin dan manusia menggunakan bahasa
alami. Dalam hal ini menggunakan beberapa library python untuk algoritma text
mining. Salah satu pendekatan text mining di bidang NLP adalah analisis sentimen.
Pendekatan analisis sentimen digunakan untuk menganalisis informasi berupa opini
3
Problems
Opportunity
Approach
Research Development
CRISP-DM
Software Implementation
Result
LANDASAN TEORI
2.1 Marketplace
Sebuah marketplace merupakan lokasi di mana terjadi transaksi jual beli
produk atau layanan antara pembeli dan penjual, umumnya dalam bentuk daring
atau elektronik. Salah satu contoh perusahaan marketplace di Indonesia ialah
Tokopedia. Namun, penting untuk ditegaskan bahwa konsep marketplace
berbeda dengan gagasan toko online.
Toko online merujuk pada sebuah tempat ritel yang menjual produk
dalam bentuk virtual atau daring, sementara marketplace bisa diartikan sebagai
suatu wadah daring di mana berbagai individu berkumpul untuk menjalankan
transaksi jual beli. Dalam konteks marketplace, pihak penyelenggara
memainkan peran sebagai perantara antara penjual dan pembeli melalui situs
web, dengan tujuan memfasilitasi pertemuan serta transaksi yang sah antara
kedua belah pihak. (Dewa & Setyohadi, 2017).
Menurut Bakos (1991), Marketplace ialah suatu platform informasi
yang mempermudah pembeli dan penyalur untuk menukar informasi mengenai
harga dan ragam produk antara berbagai entitas organisasi. Dalam konteks yang
serupa, menurut pandangan Laudon (2000), marketplace merupakan bentuk
toko daring yang menggunakan model bisnis sebagai penumpu marketplace,
dimana pemilik toko daring hanya menjalankan peran fasilitator yang
menghimpun berbagai jenis data terkait produk dan layanan dari berbagai
penjual, sehingga pembeli memperoleh kemampuan untuk membandingkan
harga dengan lebih baik [8].
Pemanfaatan marketplace telah menjadi strategi bisnis yang diminati di
dalam lingkungan usaha guna mengatasi tantangan yang semakin kompleks,
pertambahan jumlah pesaing, dan kebutuhan untuk terus berinovasi serta
9
10
berkreasi dalam konteks global yang terus berkembang dengan cepat. Berbagai
segmen, mulai dari perusahaan besar hingga usaha mikro dan menengah, dapat
menggunakan marketplace sebagai alat distribusi produk mereka. Dengan
memilih untuk menggunakan marketplace, entitas bisnis dapat mengefisienkan
pengeluaran dalam hal pemasaran serta promosi, selain juga menghemat waktu
dan usaha yang diperlukan. Marketplace juga dianggap efisien dalam
menetapkan harga jual yang bersaing jika dibandingkan dengan kompetitor di
pasaran. Dalam marketplace Tokopedia, mayoritas penjualnya merupakan
pelaku usaha mikro, kecil, dan menengah.
Faktor signifikan dalam struktur ekonomi nasional dan lokal yang dapat
menekan perkembangan ekonomi adalah sektor Usaha Mikro Kecil Menengah
(UMKM). Dalam konteks pengaplikasian platform marketplace yang beroperasi
dengan pendekatan modern, dibutuhkan tenaga kerja yang memiliki kapabilitas
dalam memahami dinamika sistem tersebut secara cepat. Namun, belum semua
entitas UMKM memanfaatkan peluang yang ditawarkan oleh fasilitas
marketplace sebagai kanal penjualan bagi bisnis mereka, hal ini dapat
berdampak pada daya saing mereka dengan perusahaan lain yang telah
memanfaatkan marketplace sebagai sarana inovatif, efisien, dan efektif untuk
menjalankan aktivitas penjualan serta promosi.
Guna meningkatkan prestasi UMKM berbasis ekonomi kreatif, perlu
memberi perhatian khusus pada faktor-faktor seperti semangat kewirausahaan
yang mendalam, inovasi yang lebih orisinal, semangat pengusaha yang tinggi,
dan taktik pemasaran yang optimal. Diharapkan pelaku usaha dapat
menghasilkan gagasan segar, inovasi yang mencolok, serta menjaga keselarasan
antara jiwa kewirausahaan dan berbagai faktor lainnya, karena aspek-aspek ini
memiliki kapabilitas dalam membantu memperkuat struktur usaha, khususnya
dalam hal-hal krusial seperti kualitas layanan kepada pelanggan. (Putri,2019).
Dari penjelasan di atas, dapat disarikan bahwa marketplace menyimpan
berbagai kegunaan dan manfaat yang beragam. Marketplace berperan sebagai
11
perantara yang memudahkan aksi jual-beli daring antara penjual dan konsumen
dengan tingkat keamanan dan kenyamanan yang tinggi. Bagi penjual,
marketplace menjadi sarana pemasaran yang efisien karena tidak menghadapkan
biaya dan bisa mengembangkan cakupan pasarnya. Ini pun berpotensi
mempercepat perkembangan ekonomi pelaku bisnis skala kecil.
Sementara dari sudut pandang konsumen, kelebihan marketplace adalah
kenyamanan dalam berbelanja tanpa perlu meninggalkan rumah, serta
fleksibilitas untuk bertransaksi kapan saja dan di mana saja melalui peranti
mobile dengan mengunduh aplikasi yang sudah tersedia. Oleh karena itu, para
pengusaha di Indonesia memiliki peluang yang menjanjikan untuk memasarkan
produk mereka di dalam lingkungan marketplace[9].
2.2 Tokopedia
serta membentuk perusahaan startup yang sukses dan berhasil meraih status Unicorn
[11].
Mewujudkan kesetaraan dalam infrastruktur menjadi tugas yang kompleks di
Indonesia, mengingat bahwa negara ini merupakan kepulauan terbesar di dunia.
Karena alasan tersebut, banyak pedagang yang memutuskan untuk berpindah ke pusat-
pusat perkotaan besar demi mengejar peluang pasar yang lebih luas serta
menguntungkan. Upaya ini mendorong perjuangan dalam mengurangi kesenjangan
antara kota metropolitan dengan daerah-daerah kecil.
Konsumen di wilayah terpencil sering menghadapi kendala dalam memperoleh
produk yang mereka inginkan karena tantangan aksesibilitas. Kondisi ini memicu
pertambahan tingkat urbanisasi dan mengakibatkan penumpukan produk hanya di
kota-kota besar. Untuk mengatasi situasi ini, William Tanuwijaya dan Leontinus Alpha
Edison merasa penting untuk mengambil tindakan yang memungkinkan komunitas
pedesaan memperoleh barang-barang keperluan mereka dengan lebih mudah dan
ekonomis.
Tokopedia diinisiasi pada tanggal 17 Agustus 2009 dengan tujuan inti
“Pemerataan Ekonomi secara Digital”. Melalui perjalanan waktu, Tokopedia terus
memperbaharui visinya dengan melakukan beragam inovasi. Hingga hari ini,
Tokopedia terus mengembangkan kerjasama dengan mitra untuk menghadirkan
pelayanan optimal bagi para pelanggan [12].
13
analisis sentimen. Lebih banyak kategori sentimen berarti model lebih rumit dan
perlu lebih banyak data latih.
Misalnya, dalam analisis ulasan produk di marketplace dengan machine
learning, teknik ini dapat digunakan untuk mengelompokkan ulasan ke kategori
seperti positif, negatif, atau netral. Ini memberi wawasan tentang perasaan konsumen
dan bantu pedagang dalam pengambilan keputusan terkait produk [17].
1. Tentukan parameter K.
2. Hitung jarak antara data yang akan dievaluasi dengan semua pelatihan.
3. Urutkan jarak yang terbentuk (urut naik).
4. Tentukan jarak terdekat sampai urutan K.
5. Pasangkan kelas yang bersesuaian [19].
Positive Negative
Positive TP FP
Negative FN TN
Keterangan :
TP : contoh data bernilai positif yang diprediksi benar sebagai positif
TN : contoh data bernilai negatif yang diprediksi benar sebagai negatif
FP : contoh data bernilai negatif yang diprediksi salah sebagai positif
FN : contoh data bernilai positif yang diprediksi salah sebagai negatif
18
2.8 Python
Python ialah bahasa pemrograman populer dan serbaguna untuk website,
analisis data, scripting, hingga game. Python open source, digunakan gratis oleh
developer, dan memungkinkan kolaborasi. Mayoritas programmer sepakat, Python
itu bahasa pemrograman interpretatif dan fleksibel. Sintaksnya mudah dibaca dan
dipahami, cocok bahkan bagi pemula [22].
19
METODOLOGI PENELITIAN
20
21
Sebelum Sesudah
Dipakai di ip 12 ngadat, aneh dipakai di ip 12 ngadat, aneh
Nyaman belanja di toped nyaman belanja di toped
Tidak pernah mengecewakan tidak pernah mengecewakan
mantap banget tokped aseli mantap banget tokped aseli
Belanja selalu tokopedia!!! belanja selalu tokopedia!!!
Sangat membantu dalam berbelanja sangat membantu dalam berbelanja
Sukses buat tokped.. sukses buat tokped..
Cashbacknya gokil cashbacknya gokil
Tokopedia , Sangat baik dan tokopedia , sangat baik dan
terpercaya terpercaya
Sangat bagus sangat mudah dan sangat bagus sangat mudah dan
sangat cepat sangat cepat
Proses casefolding bertujuan untuk mengubah teks menjadi bentuk yang
konsisten dan dalam pemrosesan teks. Casefolding adalah proses mengubah semua
karakter pada teks menjadi huruf kecil atau huruf besar, sedangkan pada penelitian ini
penulis menggunakan casefolding untuk mengubah semua huruf jadi kecil.
Tabel 3.2 Contoh Implementasi Proses Cleansing
Sebelum Sesudah
dipakai di ip 12 ngadat, aneh dipakai di ip 12 ngadat aneh
nyaman belanja di toped nyaman belanja di toped
tidak pernah mengecewakan tidak pernah mengecewakan
mantap banget tokped aseli mantap banget tokped aseli
belanja selalu tokopedia!!! belanja selalu tokopedia
sangat membantu dalam berbelanja sangat membantu dalam berbelanja
sukses buat tokped.. sukses buat tokped
23
Sebelum Sesudah
cashbacknya gokil cashbacknya gokil
tokopedia , sangat baik dan tokopedia sangat baik dan
terpercaya terpercaya
sangat bagus sangat mudah dan sangat bagus sangat mudah dan
sangat cepat sangat cepat
Tujuan dari proses pada Tabel 3.2 adalah untuk mengidentifikasi dan
menghapus atau memodifikasi nilai-nilai yang tidak diinginkan dalam data, seperti
karakter khusus atau format yang tidak valid. Namun, tujuan dari menghapus regex
tergantung pada konteks dan jenis data yang sedang diolah.
Tabel 3.3 Contoh Implementasi Proses Tokenization
Sebelum Sesudah
dipakai di ip ngadat aneh [dipakai, di, ip, ngadat, aneh]
nyaman belanja di toped [nyaman, belanja, di, toped]
tidak pernah mengecewakan [tidak, pernah, mengecewakan]
mantap banget tokped aseli [mantap, banget, tokped, aseli]
belanja selalu tokopedia [belanja, selalu, tokopedia]
sangat membantu dalam berbelanja [sangat, membantu, dalam
berbelanja]
sukses buat tokped [sukses, buat, tokped]
cashbacknya gokil [cashbacknya, gokil]
tokopedia sangat baik dan terpercaya [tokopedia, sangat, baik, dan,
terpercaya]
sangat bagus sangat mudah dan [sangat, bagus, sangat, mudah,
sangat cepat dan, sangat, cepat]
Proses tokenization pada teks sangat penting dalam berbagai aplikasi
pemrosesan teks khususnya pada analisis sentimen. Dalam pemrosesan teks, token
menjadi unit dasar yang diolah oleh mesin untuk memahami makna dari teks tersebut.
24
Sebelum Sesudah
[dipakai, di, ip, ngadat, aneh] [dipakai, ip, ngadat, aneh]
[nyaman, belanja, di, toped] [nyaman, belanja, toped]
[tidak, pernah, mengecewakan] [mengecewakan]
[mantap, banget, tokped, aseli] [mantap, banget, tokped, aseli]
[belanja, selalu, tokopedia] [belanja, tokopedia]
[sangat, membantu, dalam [membantu, berbelanja]
berbelanja]
[sukses, buat, tokped] [sukses, tokped]
[cashbacknya, gokil] [cashbacknya, gokil]
[tokopedia, sangat, baik, dan, [tokopedia, terpercaya]
terpercaya]
[sangat, bagus, sangat, mudah, dan, [bagus, mudah, cepat]
sangat, cepat]
Tujuan utama dari stopwords removal adalah untuk meningkatkan efektivitas
dan keakuratan dalam memproses teks. Stopwords adalah kata-kata yang biasanya
muncul dalam teks seperti kata depan, kata sambung, dan kata-kata lainnya yang tidak
memiliki arti khusus dalam konteks tertentu. Ketika melakukan proses analisis teks,
stopwords sering tidak memberikan kontribusi signifikan dalam memahami isi teks dan
dapat mengurangi efisiensi dan akurasi analisis.
25
Sebelum Sesudah
[dipakai, ip, ngadat, aneh] pakai ip ngadat aneh
[nyaman, belanja, toped] nyaman belanja toped
[mengecewakan] kecewa
[mantap, banget, tokped, aseli] mantap banget tokped aseli
[belanja, tokopedia] belanja tokopedia
[membantu, berbelanja] bantu belanja
[sukses, tokped] sukses tokped
[cashbacknya, gokil] cashbacknya gokil
[tokopedia, terpercaya] tokopedia percaya
[bagus, mudah, cepat] bagus mudah cepat
Tujuan utama dari proses stemming adalah untuk meningkatkan efisiensi dan
akurasi dalam melakukan analisis teks. Dalam beberapa kasus, kata-kata dalam teks
mungkin memiliki berbagai variasi bentuk yang berbeda, dan hal ini dapat mengurangi
efisiensi dan akurasi analisis. Dengan melakukan stemming, kata-kata yang berasal dari
kata dasar yang sama dapat dihitung sebagai satu kesatuan, sehingga proses analisis
dapat dilakukan dengan lebih efisien dan akurat.
Tabel 3.6 Contoh Implementasi Proses Tf-IDF
Indeks
Indeks Istilah (Kata)
Dokumen
(0, 0) 0.5
(0, 13) 0.5
(0, 9) 0.5
(0, 15) 0.5
(1, 20) 0.62583987960545
(1, 5) 0.4654555727358646
26
Indeks
Indeks Istilah (Kata)
Dokumen
(1, 14) 0.62583987960545
(2, 10) 1.0
(3, 1) 0.5182909034319405
(3, 19) 0.44059461896295216
(3, 3) 0.5182909034319405
(3, 11) 0.5182909034319405
(4, 18) 0.7526207669831266
(4, 5) 0.6584542361514052
(5, 4) 0.8024086456077293
(5, 5) 0.5967749705324189
(6, 17) 0.761904967498719
(6, 19) 0.6476888299953735
(7, 8) 0.7071067811865475
(7, 6) 0.7071067811865475
(8, 16) 0.761904967498719
(8, 18) 0.6476888299953735
(9, 7) 0.5773502691896257
(9, 12) 0.5773502691896257
(9, 2) 0.5773502691896257
Tujuan dari proses TF-IDF adalah untuk menemukan kata-kata yang paling
penting dalam sebuah dokumen dengan cara menghitung frekuensi kemunculan kata
dalam dokumen (TF) dan memperhitungkan seberapa umum kata tersebut di seluruh
dokumen (IDF).
27
mana data dibagi menjadi k subset yang saling bergantian digunakan sebagai data
pelatihan dan pengujian. Pendekatan ini membantu mengatasi fluktuasi hasil dan
memberikan gambaran yang lebih stabil tentang performa model.
Selanjutnya, pengujian dengan pembagian rasio data, seperti 90:10, 80:20,
70:30, atau 60:40, membagi data menjadi dua bagian, satu untuk pelatihan dan yang
lainnya untuk pengujian. Evaluasi model melibatkan pengukuran metrik performa,
seperti akurasi atau F1-score, untuk memilih konfigurasi yang paling sesuai dengan
karakteristik data dan tujuan analisis penelitian ini.
3.5 Evaluation
Tahap evaluation pada analisis sentimen dilakukan untuk mengevaluasi kinerja
model dalam melakukan klasifikasi sentimen pada data uji yang belum pernah dilihat
sebelumnya. Pada tahap ini, model akan diuji dengan data uji dan evaluasi akan
dilakukan dengan menggunakan confusion matrix, akurasi, presisi, recall, f1-score,
error rate, dan cross val score. Confusion matrix digunakan untuk memahami seberapa
baik model klasifikasi dapat memprediksi kelas yang benar dan seberapa besar
kemungkinan model tersebut melakukan kesalahan dalam memprediksi kelas. Akurasi
merupakan metrik yang digunakan untuk mengukur sebeapa akurat model dalam
memprediksi sentimen pada data uji. Presisi dan recall digunakan untuk mengukur
seberapa baik model dalam mengklasifikasikan sentimen yang sebenarnya positif atau
negatif. F1-Score merupakan harmonic mean dari presisi dan recall.
Selain itu, error rate juga digunakan untuk mengetahui ukuran kesalahan model
yang menghitung berapa persen data yang salah diklasifikasikan oleh model dari total
data yang diprediksi. Setelah itu, dilakukan penghitungan cross val score yang
bertujuan untuk menghindari overfitting dan memastikan model dapat generalisasi data
yang belum pernah dilihat sebelumnya. Penting untuk diingat bahwa tahap evaluation
ini sangat penting karena dapat memberikan gambaran tentang kinerja model dalam
melakukan klasifikasi sentimen pada data yang belum pernah dilihat sebelumnya,
sehingga dapat memberikan informasi yang berguna dalam meningkatkan kualitas
model dan hasil analisis data yang lebih akurat dan dapat diandalkan.
29
BAB IV
30
31
Gambar 4.3 dan Gambar 4.4 menunjukan kode program dan hasil dari proses
cleansing. “cleansing” yang diterapkan pada kolom review dari DataFrame. Fungsi
“cleansing” menggunakan regular expression (regex) untuk menghapus atau
mengganti pola-pola tertentu dalam teks data, seperti tanda baca, angka, dan kata
tunggal.
Langkah-langkah yang dilakukan dalam fungsi `cleansing` adalah sebagai
berikut:
1. Menghapus spasi di awal dan akhir teks menggunakan “.strip(" ")”.
2. Menggunakan “re.sub” dan regex “r'[?|$|.|!_:")(-+,]'” untuk menghapus tanda
baca tertentu dari teks.
3. Menggunakan “re.sub” dan regex `r'\d+'` untuk menghapus angka dari teks.
4. Menggunakan “re.sub” dan regex “r"\b[a-zA-Z]\b"” untuk menghapus kata
tunggal (kata yang terdiri dari satu huruf) dari teks.
5. Menggunakan “re.sub” dan regex “'\s+'” untuk mengganti multiple whitespace
dengan satu spasi tunggal.
6. Mengembalikan teks yang telah di-cleansing.
Selanjutnya, fungsi “cleansing” diterapkan pada kolom review menggunakan
metode “.apply()” pada DataFrame. Dengan cara ini, setiap teks dalam kolom review
akan diproses menggunakan fungsi “cleansing” dan hasilnya akan ditugaskan kembali
ke kolom review tersebut.
bentuk kata dalam teks dapat disederhanakan menjadi bentuk dasar, memudahkan
analisis teks berbahasa Indonesia.
kata dalam teks dan menghasilkan matriks bobot TF-IDF yang disimpan dalam
variabel “text_tf”.
4. Matriks bobot TF-IDF ditampilkan dengan menggunakan “print(text_tf)”.
Proses TF-IDF memberikan bobot pada kata-kata dalam teks berdasarkan frekuensi
kemunculan kata tersebut dalam dokumen dan invers frekuensi kemunculan kata
tersebut dalam koleksi dokumen yang lebih luas. Bobot ini membantu mengidentifikasi
kata-kata yang penting dan dapat digunakan dalam berbagai analisis teks seperti
klasifikasi, penentuan topik, atau rekomendasi konten.
Berikut di bawah ini pada Gambar 4.13 dan Gambar 4.14 merupakan kode
program dan hasil proses cosine similarity :
antara matriks “text_tf” dengan dirinya sendiri. Dalam hal ini, dihitung
kemiripan antara setiap pasangan dokumen dalam matriks.
3. Hasil cosine similarity ditampilkan dengan menggunakan “print(cos_sim)”.
Cosine similarity menghasilkan matriks simetris yang menunjukkan tingkat
kesamaan antara dokumen-dokumen dalam matriks. Nilai cosine similarity berkisar
antara -1 hingga 1, dengan nilai 1 menunjukkan kemiripan sempurna antara dua
dokumen, nilai 0 menunjukkan ketidakhadiran kesamaan, dan nilai -1 menunjukkan
kebalikan antara dua dokumen.
Gambar 4.15 Proses Data Splitting Play Store dan App Store
Hasil dari proses splitting dataset ulasan pengguna Tokopedia di Play Store
menjadi subset uji dan pelatihan. Subset uji terdiri dari 200 data dengan 1000 fitur,
sementara subset pelatihan terdiri dari 800 data dengan 1000 fitur. Selain itu, output
40
juga mencantumkan jumlah data dengan sentimen positif dan negatif pada subset uji
dan pelatihan. Terdapat 99 data dengan sentimen positif dan 101 data dengan sentimen
negatif pada subset uji, sedangkan pada subset pelatihan terdapat 377 data dengan
sentimen positif dan 423 data dengan sentimen negatif. Output terakhir menunjukkan
distribusi jumlah data dengan sentimen positif (476) dan sentimen negatif (524) dalam
dataset secara keseluruhan.
Sedangkan hasil proses splitting dataset ulasan pengguna Tokopedia di App
Store dan distribusi sentimen dalam dataset. Pertama, subset uji terdiri dari 200 data
dengan 1000 fitur, sedangkan subset pelatihan terdiri dari 800 data dengan 1000 fitur.
Selanjutnya, output menyajikan jumlah data dengan sentimen positif dan negatif pada
subset uji dan pelatihan. Terdapat 163 data dengan sentimen positif dan 37 data dengan
sentimen negatif pada subset uji, sedangkan pada subset pelatihan terdapat 632 data
dengan sentimen positif dan 168 data dengan sentimen negatif. Output terakhir
menunjukkan distribusi sentimen keseluruhan dalam dataset, dengan 795 data memiliki
sentimen positif dan 205 data memiliki sentimen negatif.
Gambar 4.16 Proses Membuat Model, Melatih Model, dan Prediksi Model Play Store
dan App Store
Pada Gambar 4.16 atas, terdapat beberapa langkah penting dalam pemodelan
dan evaluasi klasifikasi menggunakan algoritma K-Nearest Neighbors (KNN). Berikut
adalah penjelasan secara rinci:
1. Import Modul. Kode ini mengimpor modul yang diperlukan untuk evaluasi
41
Jumlah Prediksi
Nilai K
Positif Negatif
1 45 61
2 94 87
3 104 99
4 110 96
42
Jumlah Prediksi
Nilai K
Positif Negatif
5 107 96
6 107 96
7 107 97
8 111 99
9 110 90
10 104 96
Jumlah Prediksi
Nilai K
Positif Negatif
1 84 26
2 128 52
3 194 26
4 135 65
5 137 63
6 142 58
7 135 65
8 138 62
9 145 55
10 144 56
43
Gambar 4.17 Proses Confusion Matrix Play Store dan App Store
Dibawah ini Tabel 4.3 dan Tabel 4.4 merupakan hasil dari proses confusion matrix
dari setiap pendekatan jumlah K sebanyak 10 kali percobaan :
Confusion Matrix
Nilai K
TN FP FN TP
1 95 6 16 83
2 99 2 24 75
3 93 8 12 87
4 93 8 15 84
5 91 10 10 89
6 90 11 15 84
7 89 12 12 87
8 88 13 14 85
9 87 14 13 86
44
Confusion Matrix
Nilai K
TN FP FN TP
10 87 14 15 84
Confusion Matrix
Nilai K
TN FP FN TP
1 24 13 16 147
2 30 7 23 140
3 24 13 11 152
4 26 11 20 143
5 23 14 12 151
6 24 13 16 147
7 23 14 12 151
8 24 13 15 148
9 24 13 14 149
10 25 12 16 147
Dalam analisis sentimen, nilai akurasi digunakan sebagai salah satu metrik
evaluasi untuk mengukur seberapa baik model dapat memprediksi sentimen dengan
benar. Tujuan dari nilai akurasi dalam analisis sentimen adalah untuk mengukur sejauh
mana model dapat membedakan antara sentimen positif dan negatif dengan akurasi
yang tinggi.
Gambar 4.18 Proses Accuracy Data Play Store dan App Store
Kode program pada Gambar 4.32 adalah perintah untuk mencetak nilai
akurasi (accuracy) antara y_test (label sebenarnya) dan predicted (label yang
diprediksi oleh model) menggunakan fungsi accuracy_score dari library atau modul
45
Pada Tabel 4.5 merupakan hasil dari percobaan atau analisis yang dilakukan
pada dataset play store. Berdasarkan data yang tersedia, dapat disimpulkan bahwa
nilai K adalah parameter dalam algoritma k-nearest neighbors (k-NN) yang
digunakan untuk klasifikasi dan regresi. Nilai K menentukan jumlah tetangga
terdekat yang digunakan untuk membuat prediksi pada setiap data poin. Di sisi lain,
nilai akurasi mengindikasikan tingkat keberhasilan model k-NN dalam melakukan
prediksi yang benar. Untuk mengukur akurasi, prediksi model dibandingkan dengan
label yang sebenarnya pada data yang diketahui. Dalam tabel ini, nilai K berkisar dari
1 hingga 10, sementara nilai akurasi berkisar antara 0.855 dan 0.9.
Sedangkan Pada Tabel 4.6 merupakan hasil dari percobaan atau analisis yang
dilakukan pada dataset app store. Dalam tabel ini, nilai K bervariasi antara 1 hingga
10 juga, sedangkan nilai akurasi berkisar antara 0.845 dan 0.88.
Dari hasil Tabel 4.5 akan diambil model yang mempunyai nilai akurasi paling
tinggi yaitu 0.9 untuk diimplementasikan dalam pengujian terhadap dataset yang
belum mempunyai label untuk diprediksi labelnya. Pada Tabel 4.6 juga akan diambil
nilai akurasi paling tinggi yaitu 0.88.
Dengan diambilnya nilai k terbaik dari kedua dataset tersebut nanti akan
dilakukan pengujian nilai k terbaik dengan data splitting berbeda-beda, mulai dari
90:10, 80:20, 70:30, dan 60:40. Setelah itu akan diimplementasikan terhadap dataset
yang belum dilabeli.
Setelah melakukan proses mencari nilai akurasi, selanjutnya yaitu proses
mencari nilai Precision, Recall, F1-Score untuk dataset play store dan app store.
Berikut pada Gambar 4.19 di bawah ini kode program dari ketiga proses ini :
47
Gambar 4.19 Proses Precision, Recall, F1-Score Play Store dan App Store
Berikut pada Tabel 4.7 dan Tabel 4.8 merupakan hasil dari proses ini :
Tabel 4.7 Hasil Proses Precision, Recall, dan F1-Score Play Store
Tabel 4.8 Hasil Proses Precision, Recall, dan F1-Score App Store
Pada Tabel 4.7 dan Tabel 4.8 menunjukkan hasil evaluasi performa beberapa
model klasifikasi dengan menggunakan metrik nilai K, precision, recall, dan F1-
Score. Setiap model memiliki nilai-nilai yang berbeda. Beberapa model memiliki
nilai K yang tinggi, tetapi precision dan F1-Score yang rendah. Ada juga model
dengan nilai-nilai yang hampir sama untuk precision, recall, dan F1-Score.
Setelah proses mencari nilai precision, recall, dan f1-score, selanjutnya
mencari nilai error rate yaitu untuk mengukur sejauh mana kualitas dan akurasi
model analisis sentimen yang digunakan. Berikut pada Gambar 4.20 kode program
proses error rate :
Gambar 4.20 Proses Error Rate Play Store dan App Store
Berikut di bawah ini pada Tabel 4.9 dan Tabel 4.10 merupakan hasil dari proses
error rate dari 10 kali percobaan :
Pada Gambar 4.21 merupakan kode program yang digunakan untuuk pengujian
label otomatis pada setiap data splitting yang dilakukan sebanyak 4 kali percobaaan.
Dimana pada “test_size” diisi dengan nilai 0.1, 0.2, 0.3, dan 0.4. Setelah proses ini
dilanjutkan dengan proses membuat grafik yang bertujuan untuk melihat jumlah data
prediksi yang dilabeli otomatis.
Gambar 4.22 Kode Program Grafik Hasil Pelabelan Otomatis Play Store
Untuk dataset app store juga dilakukan data splitting dengan 4 kali pengujian
yaitu 90:10, 80:20, 70:30, dan 60:40 dengan nilai K=3. Setiap hasil pengujian
diimplementasikan terhadap dataset yang belum dilabeli positif dan negatif.
Berikut di bawah ini pada tabel 4.13 hasil nilai akurasi dari 4 kali pengujian :
Tabel 4.13 Nilai Akurasi 4 Kali Pengujian Data App Store
Selanjutnya pada Gambar 4.34 merupakan awan kata yang isinya komentar
yang berlabel negatif dalam dataset app store. Di dalamnya terdapat kata-kata yang
menunjukkan keluhan pelanggan juga, yaitu “curang”, “ribet”, “berat”, “rugi”, “berat”,
“uninstall”, “force close”, dan “kecewa”.
4.7 Pembahasan
Algoritma K-Nearest Neighbor telah berhasil diimplementasikan untuk analisis
sentimen Tokopedia dalam penelitian ini. Metode CRISP-DM merupakan metodologi
penelitian yang diterapkan dalam penelitian ini yang terdiri dari 5 tahap yaitu Business
Understanding, Data Understanding, Data Preparation, Modeling, dan Evaluation.
Hasil dari tahap Business Understanding dalam penelitian ini
mengidentifikasikan dua masalah bisnis yang menjadi fokus utama, yakni
meningkatkan kualitas layanan dan memahami persepsi pelanggan terhadap
Tokopedia. Upaya untuk mencapai tujuan ini melibatkan pemahaman yang mendalam
terhadap lanskap bisnis, termasuk dinamika persaingan dengan platform e-commerce
lain, karakteristik pasar konsumen di Indonesia, dan kebutuhan yang diutarakan oleh
pelanggan Tokopedia.
Selain itu, dalam menggali akar permasalahan, stakeholder yang terlibat juga
diidentifikasi secara tegas, termasuk manajemen Tokopedia, tim pengembang, dan
pengguna langsung dari platform ini. Dalam konteks ini, analisis data pada tahap awal
bertujuan untuk menilai sentimen yang dirasakan oleh pelanggan terhadap Tokopedia,
serta untuk merancang peningkatan kualitas layanan berdasarkan wawasan yang
dihasilkan dari analisis tersebut.
Selanjutnya, hasil dari tahap Business Understanding ini menjadi pijakan yang
kuat dalam menetapkan pendekatan analisis yang tepat. Pendekatan tersebut, yaitu
metode analisis k-nearest neighbor, dipilih dengan cermat untuk membantu dalam
menggapai tujuan penelitian. Metode ini adalah algoritma machine learning yang
digunakan dalam klasifikasi, dan dipilih dengan pertimbangan matang untuk
mendukung pengambilan keputusan yang berdasarkan pada data dan konteks.
62
Setelah data sudah disiapkan dan sudah dibersihkan, tahap selanjutnya yaitu
modeling. Dalam tahap Modeling, hasil prediksi sentimen dari penggunaan metode
analisis k-nearest neighbor (KNN) pada dataset yang telah disiapkan dieksplorasi.
Dalam tabel-tabel berikut, hasil prediksi sentimen dari dua platform, yaitu Play Store
dan App Store, terhadap variasi nilai K (jumlah tetangga terdekat yang
dipertimbangkan dalam algoritma KNN) ditampilkan dan dianalisis.
Tabel 4.1 menunjukkan hasil prediksi sentimen pada platform Play Store.
Terlihat bahwa saat nilai K adalah 1, jumlah prediksi positif lebih rendah daripada
prediksi negatif. Namun, ketika nilai K meningkat, pola tersebut berbalik. Nilai K yang
lebih tinggi cenderung menghasilkan lebih banyak prediksi positif daripada prediksi
negatif. Hal ini menunjukkan bahwa dalam beberapa kasus, mempertimbangkan lebih
banyak tetangga terdekat dalam analisis dapat menghasilkan hasil prediksi yang lebih
konsisten dengan sentimen positif.
Pada Tabel 4.2, hasil prediksi sentimen di App Store disajikan. Dalam hal ini,
pola lebih konsisten, di mana untuk sebagian besar nilai K, jumlah prediksi positif jauh
lebih besar daripada prediksi negatif. Meskipun ada variasi dalam jumlah prediksi
negatif, pola keseluruhannya lebih mendukung sentimen positif pada aplikasi yang
diuji di App Store.
Tahap terakhir yaitu Evaluation, dimana yang intinya terdapat pada nilai
akurasi setiap nilai k. Setelah mendapatkan nilai K terbaik maka akan diujikan
modelnya untuk pengujian label otomatis untuk setiap dataset.
Tabel 4.5 dan Tabel 4.6 adalah tabel yang menunjukkan hasil akurasi dari suatu
sistem atau model yang diuji pada Play Store dan App Store dengan variasi nilai K pada
algoritma k-Nearest Neighbors (k-NN). Nilai K mengacu pada jumlah tetangga terdekat
yang digunakan dalam algoritma k-NN untuk mengklasifikasikan data.
Pada Tabel 4.5 nilai akurasi bervariasi ketika nilai K berubah. Secara umum,
nilai akurasi tampaknya naik dan turun dengan fluktuasi tertentu ketika K berubah.
Puncak akurasi terjadi pada nilai K = 3 dan K = 5 dengan akurasi 0.9. Secara
64
keseluruhan, model ini menunjukkan performa yang cukup baik dengan nilai akurasi
yang relatif tinggi.
Sedangkan pada Tabel 4.6 nilai akurasi naik dan turun saat nilai K berubah.
Puncak akurasi terjadi pada nilai K = 3 dengan akurasi 0.88. Meskipun ada fluktuasi,
model ini juga menunjukkan performa yang baik secara umum.
Kesimpulan yang dapat diambil dari dua tabel ini adalah bahwa pemilihan nilai
K dalam algoritma k-NN memainkan peran penting dalam hasil akurasi. Nilai K yang
lebih besar tidak selalu menghasilkan akurasi yang lebih tinggi, dan ada nilai K tertentu
di mana model mencapai akurasi puncak.
Pada eksperimen terkait dataset Play Store, dilakukan pendekatan data splitting
dengan empat skenario pengujian yang berbeda, yaitu 90:10, 80:20, 70:30, dan 60:40,
dengan nilai K tetap diatur sebagai 5. Dalam setiap pengujian, model
diimplementasikan pada dataset yang belum diberi label positif dan negatif. Tabel 4.11
yang disajikan sebelumnya menggambarkan hasil akurasi yang diperoleh dari empat
pengujian tersebut.
Dari hasil tersebut, terlihat bahwa performa model memiliki variasi ketika
diterapkan pada berbagai pembagian data. Skema 80:20 menghasilkan akurasi tertinggi
dengan nilai 0.905, menunjukkan kemampuan model untuk mengklasifikasikan data
dengan baik ketika 80% data digunakan untuk pelatihan dan 20% digunakan untuk
pengujian. Meskipun ada fluktuasi dalam hasil akurasi pada skenario lainnya, performa
model secara umum tetap berada pada tingkat akurasi yang tinggi, dengan akurasi
terendah adalah 0.875 pada skema 60:40.
Dalam konteks analisis dataset Play Store, Tabel 4.12 memberikan gambaran
hasil prediksi label yang diperoleh dari berbagai skema pembagian data. Tabel tersebut
menunjukkan jumlah prediksi label positif dan negatif untuk setiap skema pembagian,
yaitu 90:10, 80:20, 70:30, dan 60:40.
Pada skenario 90:10, hasil prediksi menunjukkan bahwa terdapat 379.930
prediksi label positif dan 505.162 prediksi label negatif. Pada skema 80:20, terlihat
perubahan dengan 313.764 prediksi label positif dan 571.328 prediksi label negatif.
65
Begitu pula pada skema 70:30 dan 60:40, di mana jumlah prediksi label positif secara
berturut-turut adalah 300.497 dan 290.138, sedangkan jumlah prediksi label negatif
adalah 584.595 dan 594.954.
Adapun Tabel 4.13 menyajikan hasil nilai akurasi dari empat kali pengujian
yang dilakukan pada dataset App Store dengan skema pembagian data yang berbeda.
Skema-skema pembagian yang digunakan adalah 90:10, 80:20, 70:30, dan 60:40. Dari
hasil akurasi yang diperoleh, dapat diambil beberapa pemahaman yang relevan.
Pada skenario pembagian 90:10, model berhasil mencapai akurasi sebesar 0.9,
yang mengindikasikan performa yang sangat baik dalam mengklasifikasikan data.
Ketika dilakukan pembagian data dengan skema 80:20 dan 70:30, terlihat konsistensi
dalam hasil akurasi yang diperoleh, yaitu sebesar 0.88. Hal ini menunjukkan bahwa
model memiliki kemampuan yang baik dalam menggeneralisasi pada kedua skenario
tersebut. Meskipun terjadi variasi proporsi pembagian data, performa model tetap
cukup stabil.
Pada skenario 60:40, hasil akurasi mencapai 0.87. Meskipun sedikit lebih
rendah daripada skenario pembagian data sebelumnya, akurasi ini masih dalam kisaran
yang baik dan mengindikasikan kemampuan model untuk mengklasifikasikan data
dengan cukup baik.
Tabel 4.14 memberikan kesimpulan yang sangat menarik mengenai hasil
prediksi label yang tercapai pada dataset App Store dengan berbagai skema pembagian
data. Tabel tersebut menyajikan jumlah prediksi label positif dan negatif untuk masing-
masing skema pembagian data: 90:10, 80:20, 70:30, dan 60:40.
Pada skenario 90:10, terlihat bahwa terdapat 3809 prediksi label positif dan
hanya 191 prediksi label negatif. Hal ini mengindikasikan bahwa dalam skema
pembagian ini, model lebih cenderung untuk memprediksi label positif, yang bisa jadi
dikarenakan distribusi data lebih banyak condong ke arah label positif.
Pada skenario 80:20 hingga 60:40, jumlah prediksi label positif terus
meningkat, sementara jumlah prediksi label negatif terus menurun. Ini bisa diartikan
66
bahwa model memiliki kecenderungan kuat untuk memprediksi label positif, dan
pergeseran dalam pembagian data tidak signifikan dalam mengubah pola tersebut.
BAB V
PENUTUP
5.1 Kesimpulan
Algoritma K-Nearest Neighbor (KNN) telah berhasil diimplementasikan untuk
melakukan analisis sentimen terhadap komentar pengguna aplikasi Tokopedia di
platform Play Store dan App Store. Metode CRISP-DM yang terdiri dari tahap-tahap
Business Understanding, Data Understanding, Data Preparation, Modeling, dan
Evaluation telah digunakan dengan sukses dalam memandu penelitian ini.
Berdasarkan tahap Business Understanding, dua masalah utama dalam fokus
adalah meningkatkan kualitas layanan dan memahami persepsi pelanggan terhadap
Tokopedia. Hasil analisis sentimen menunjukkan bahwa penggunaan metode analisis
KNN mampu memberikan wawasan tentang sentimen pelanggan terhadap Tokopedia.
Tahap Data Understanding dan Data Preparation memberikan dasar yang kuat
untuk proses analisis selanjutnya. Data sampel dari Play Store dan App Store telah
disiapkan, dan langkah-langkah preprocessing seperti casefolding, cleansing,
tokenization, normalisasi, penghapusan stopwords, stemming, perhitungan TF-IDF,
dan perhitungan kesamaan kosinus telah dilakukan dengan cermat.
Tahap Modeling mengungkapkan hasil prediksi sentimen dari penggunaan
metode KNN pada dataset yang telah dipersiapkan. Analisis terhadap hasil prediksi
sentimen pada platform Play Store dan App Store menunjukkan bahwa variasi nilai K
memiliki pengaruh pada akurasi prediksi. Dalam beberapa kasus, mempertimbangkan
lebih banyak tetangga terdekat dalam analisis dapat menghasilkan hasil prediksi yang
lebih konsisten dengan sentimen positif.
Pada tahap Evaluation, nilai akurasi setiap nilai K dievaluasi. Hasil evaluasi ini
menunjukkan bahwa pemilihan nilai K yang tepat memainkan peran penting dalam
mendapatkan akurasi prediksi yang optimal.
67
68
Dalam eksperimen dengan dataset Play Store, hasil pengujian pada berbagai
skenario pembagian data (90:10, 80:20, 70:30, dan 60:40) menunjukkan variasi
performa model. Skema 80:20 menghasilkan akurasi tertinggi dengan nilai 0.905,
menunjukkan bahwa model mampu mengklasifikasikan data dengan baik dalam
skenario tersebut. Meskipun terdapat fluktuasi akurasi pada skenario lainnya, performa
model secara keseluruhan tetap tinggi, dengan akurasi terendah 0.875 pada skema
60:40.
Dari hasil analisis terkait dataset Play Store, memberikan gambaran prediksi
label yang diperoleh dari berbagai skema pembagian data. Terlihat bahwa skenario
pembagian data mempengaruhi jumlah prediksi label positif dan negatif.
Pada dataset App Store, hasil akurasi dari empat pengujian dengan skema
pembagian data yang berbeda (90:10, 80:20, 70:30, dan 60:40) menunjukkan
konsistensi performa model. Skema pembagian data 90:10 dan 80:20 menghasilkan
akurasi tertinggi dengan nilai 0.9 dan 0.88 secara berturut-turut.
Kesimpulannya, penelitian ini berhasil memberikan wawasan yang mendalam
tentang sentimen pengguna aplikasi Tokopedia di platform Play Store dan App Store.
Implementasi KNN dan metodologi CRISP-DM terbukti efektif dalam mencapai tujuan
penelitian, menghasilkan pemahaman tentang persepsi pelanggan serta potensi
perbaikan layanan di masa mendatang.
5.2 Saran
Sebagai saran untuk penelitian selanjutnya, bisa dikembangkan ke dalam
bentuk web app atau deployment agar lebih sempurna. Dikarenakan penulis
mempunyai keterbatasan sehingga tidak bisa ke tahap deployment.
Selain itu, perlu ditambahkan algoritma machine learning yang lain selain KNN
agar bisa dibandingkan kinerjanya dan bisa diketahui performa terbaik dari salah satu
algoritma itu. Karena masih banyak algoritma machine learning yang berhubungan
dengan klasifikasi (supervised learning).
DAFTAR PUSTAKA
69
70