Skripsi Muna Rival

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOR
(KNN) UNTUK ANALISIS SENTIMEN PENGGUNA

APLIKASI TOKOPEDIA
TUGAS AKHIR
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik
pada jurusan Teknik Informatika Fakultas Sains dan Teknologi
Universitas Islam Negeri Sunan Gunung Djati Bandung
Oleh:
M. Rival Ridautal Lillah 1197050063
BANDUNG
2023 M / 1445 H
LEMBAR PENGESAHAN
i
ABSTRAK
Penelitian ini bertujuan untuk menganalisis sentimen pengguna aplikasi Tokopedia di

platform Play Store dan App Store menggunakan algoritma K-Nearest Neighbor
(KNN). Metodologi penelitian mengadopsi pendekatan CRISP-DM, terdiri dari 5 tahap
yaitu Business Understanding, Data Understanding, Data Preparation, Modeling, dan
Evaluation. Tahap Business Understanding mengidentifikasi fokus pada peningkatan
kualitas layanan dan pemahaman pelanggan terhadap Tokopedia. Data dari 1000
komentar Play Store dan 1000 komentar App Store dipilih sebagai sampel utama,
dengan dua label sentimen yaitu positif dan negatif. Pada tahap Data Preparation, data
diolah dengan casefolding, cleansing, tokenization, normalisasi, penghapusan
stopwords, stemming, dan perhitungan nilai TF-IDF. Tahap Modeling mengeksplorasi
hasil prediksi sentimen menggunakan KNN. Analisis terhadap hasil prediksi
menunjukkan variasi akurasi tergantung pada nilai K. Hasil akhir menunjukkan bahwa
nilai K yang tepat mempengaruhi akurasi prediksi. Pada tahap Evaluation, akurasi
dievaluasi untuk setiap nilai K. Eksperimen dengan dataset Play Store menghasilkan
variasi performa tergantung pada pembagian data. Skema 80:20 memiliki akurasi
tertinggi 0.905. Evaluasi pada dataset App Store menunjukkan konsistensi performa
model, dengan skema 90:10 dan 80:20 memiliki akurasi tertinggi masing-masing 0.9
dan 0.88. Kesimpulannya, penelitian ini berhasil menganalisis sentimen pengguna
aplikasi Tokopedia dengan menggunakan KNN dan metodologi CRISP-DM. Hasil
analisis sentimen memberikan wawasan dalam persepsi pelanggan dan potensi
perbaikan layanan. Implementasi KNN dengan nilai K yang tepat dapat meningkatkan
akurasi prediksi sentimen.
Kata Kunci: K-Nearest Neighbor (KNN), analisis sentimen, aplikasi Tokopedia,

CRISP-DM, akurasi prediksi.
ii
ABSTRACT
This study aims to analyze the sentiments of Tokopedia application users on the Play
Store and App Store platforms using the K-Nearest Neighbor (KNN) algorithm. The
research methodology adopts the CRISP-DM approach, consisting of 5 stages, namely
Business Understanding, Data Understanding, Data Preparation, Modeling, and
Evaluation. The Business Understanding stage identifies a focus on improving service
quality and customer understanding of Tokopedia. Data from 1000 Play Store
comments and 1000 App Store comments were selected as the main sample, with two
sentiment labels, positive and negative. At the Data Preparation stage, data is
processed by case folding, cleansing, tokenization, normalization, removing
stopwords, stemming, and calculating the TF-IDF value. The Modeling stage explores
the results of sentiment prediction using KNN. Analysis of the prediction results shows
that the accuracy varies depending on the K value. The final results show that the
correct K value affects the prediction accuracy. In the Evaluation stage, accuracy is
evaluated for each K value. Experiments with the Play Store dataset yield variations
in performance depending on the distribution of the data. The 80:20 scheme has the
highest accuracy of 0.905. Evaluation on the App Store dataset shows consistency of
model performance, with the 90:10 and 80:20 schemes having the highest accuracy of
0.9 and 0.88 respectively. In conclusion, this study succeeded in analyzing the
sentiments of Tokopedia application users using the KNN and CRISP-DM
methodology. Sentiment analysis results provide insight into customer perceptions and
potential for service improvement. KNN implementation with the right K value can
improve the accuracy of sentiment prediction.
Keywords: K-Nearest Neighbor (KNN), sentiment analysis, Tokopedia application,

CRISP-DM, prediction accuracy.
iii
MOTTO
“Menuntut ilmu adalah takwa. Menyampaikan ilmu

adalah ibadah. Mengulang-ulang ilmu adalah zikir.
Mencari ilmu adalah jihad.”
( Imam Ghazali )
iv
KATA PENGANTAR
Puji syukur kami panjatkan kepada Allah SWT atas rahmat, hidayah, dan
karunia-Nya dalam menyelesaikan skripsi ini dengan judul "Implementasi Algoritma
K-Nearest Neighbor (KNN) untuk Analisis Sentimen Pengguna Aplikasi Tokopedia"
sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik (ST.) dari Jurusan
Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Islam Negeri (UIN)
Sunan Gunung Djati Bandung. Kami tidak dapat mencapai hal ini tanpa dukungan,
bantuan, dan dorongan dari berbagai pihak yang telah memberikan kontribusi dalam
perjalanan penulisan kami. Oleh karena itu, kami ingin mengucapkan terima kasih
kepada:
1. Dian Sa’adillah Maylawati, S.Kom., MT., Ph.D. dan Wildan Budiawan

Zulfikar, M.Kom., selaku dosen pembimbing skripsi kami, atas bimbingan,
pengarahan, serta pencerahan dalam penyusunan skripsi ini.
2. Seluruh dosen dan tenaga kependidikan di Jurusan Teknik Informatika,
Fakultas Sains dan Teknologi, UIN Sunan Gunung Djati Bandung.
3. Keluarga kami yang selalu memberikan dukungan, doa, serta semangat dalam
menjalani proses penulisan skripsi ini.
4. Sumber-sumber referensi, penulis, peneliti, serta pihak terkait lainnya yang
telah memberikan kontribusi dalam pengembangan ilmu pengetahuan,
terutama dalam bidang teknologi informasi.
Kami menyadari bahwa skripsi ini masih jauh dari sempurna. Oleh karena itu,
kritik, saran, dan masukan dari pihak-pihak yang berkepentingan sangat kami harapkan
demi perbaikan dan pengembangan penelitian kami di masa yang akan datang.
Bandung, 13 Agustus 2023
Penulis
M Rival Ridautal Lillah
v
DAFTAR ISI
LEMBAR PENGESAHAN ..................................................................................................... i

ABSTRAK ............................................................................................................................... ii
MOTTO .................................................................................................................................. iv
KATA PENGANTAR ............................................................................................................. v
DAFTAR ISI........................................................................................................................... vi
DAFTAR GAMBAR ............................................................................................................ viii
DAFTAR TABEL .................................................................................................................. ix
BAB I PENDAHULUAN ........................................................................................................ 1
1.1 Latar Belakang .......................................................................................................... 1
1.2 Perumusan Masalah .................................................................................................. 3
1.3 Tujuan dan Manfaat .................................................................................................. 3
1.4 Batasan Masalah ....................................................................................................... 4
1.5 The State Of The Art ................................................................................................. 4
1.6 Kerangka Pemikiran.................................................................................................. 7
1.7 Sistematika Penulisan ............................................................................................... 8
BAB II LANDASAN TEORI ................................................................................................. 9
2.1 Marketplace .............................................................................................................. 9
2.2 Tokopedia ............................................................................................................... 11
2.3 Natural Language Processing (NLP) ..................................................................... 13
2.4 Analisis Sentimen ................................................................................................... 14
2.5 K-Nearest Neighbor (KNN) .................................................................................... 16
2.6 Confusion Matrix .................................................................................................... 17
2.7 Cross-Industry Standard Process for Data Mining (CRISP-DM) .......................... 18
2.8 Python ..................................................................................................................... 18
BAB III METODOLOGI PENELITIAN ........................................................................... 20
3.1 Business Understanding.......................................................................................... 21
3.2 Data Understanding................................................................................................ 21
3.3 Data Preparation .................................................................................................... 21
3.4 Modeling ................................................................................................................. 27
vi
3.5 Evaluation ............................................................................................................... 28
BAB IV HASIL DAN PEMBAHASAN .............................................................................. 30
4.1 Hasil Business Understanding ................................................................................ 30
4.2 Hasil Data Understanding ...................................................................................... 30
4.3 Hasil Data Preparation........................................................................................... 31
4.4 Hasil Modeling ........................................................................................................ 39
4.5 Hasil Evaluation...................................................................................................... 43
4.6 Hasil Pengujian ....................................................................................................... 50
4.7 Pembahasan............................................................................................................. 61
BAB V PENUTUP................................................................................................................. 67
5.1 Kesimpulan ............................................................................................................. 67
5.2 Saran ....................................................................................................................... 68
DAFTAR PUSTAKA ............................................................................................................ 69
vii
DAFTAR GAMBAR
Gambar 2. 1 Logo Tokopedia ................................................................................................. 11

Gambar 2.2 ChatGPT adalah Contoh dari NLP ...................................................................... 13
Gambar 3.1 Metodologi Penelitian ......................................................................................... 20
Gambar 3.2 Alur Proses Data Preparation ............................................................................ 21
Gambar 4.1 Proses Casefolding Data Play Store .................................................................... 31
Gambar 4.2 Proses Casefolding Data App Store..................................................................... 31
Gambar 4.3 Proses Cleansing Data Play Store ....................................................................... 32
Gambar 4.4 Proses Cleansing Data App Store ........................................................................ 32
Gambar 4.5 Proses Tokenization Data Play Store .................................................................. 33
Gambar 4.6 Proses Tokenization Data App Store .................................................................. 34
Gambar 4.7 Proses Stopwords Removal Data Play Store ...................................................... 34
Gambar 4.8 Proses Stopwords Removal Data App Store ....................................................... 35
Gambar 4.9 Proses Stemming Data Play Store ....................................................................... 36
Gambar 4.10 Proses Stemming Data App Store ...................................................................... 36
Gambar 4.11 Proses TF-IDF Data Play Store ........................................................................ 37
Gambar 4.12 Proses TF-IDF Data App Store ......................................................................... 37
Gambar 4.13 Proses Cosine Similarity Data Play Store ......................................................... 38
Gambar 4.14 Proses Cosine Similarity Data App Store .......................................................... 38
Gambar 4.15 Proses Data Splitting Play Store dan App Store ................................................ 39
Gambar 4.16 Proses Membuat Model, Melatih Model, dan Prediksi Model Play Store dan
App Store................................................................................................................................. 40
Gambar 4.17 Proses Confusion Matrix Play Store dan App Store .......................................... 43
Gambar 4.18 Proses Accuracy Data Play Store dan App Store .............................................. 44
Gambar 4.19 Proses Precision, Recall, F1-Score Play Store dan App Store .......................... 47
Gambar 4.20 Proses Error Rate Play Store dan App Store..................................................... 48
Gambar 4.21 Kode Program Pengujian Untuk Label Otomatis .............................................. 50
Gambar 4.22 Kode Program Grafik Hasil Pelabelan Otomatis Play Store ............................. 51
Gambar 4.23 Hasil Prediksi Komentar Tokopedia Play Store 90:10 ..................................... 51
Gambar 4.26 Hasil Prediksi Komentar Tokopedia App Store 90:10 ...................................... 55
Gambar 4.30 Wordcloud Dataset Play Store Berlabel Positif ................................................ 59
Gambar 4.31 Wordcloud Dataset Play Store Berlabel Negatif ............................................... 59
Gambar 4.32 Wordcloud Dataset App Store Berlabel Positif ................................................ 60
Gambar 4.33 Wordcloud Dataset App Store Berlabel Negatif ............................................... 60
viii
DAFTAR TABEL
Tabel 1.1 Kerangka Pemikiran.................................................................................................. 7

Tabel 2.1 Nilai Confusion Matrix ........................................................................................... 17
Tabel 3.1 Contoh Implementasi Proses Casefolding .............................................................. 22
Tabel 3.2 Contoh Implementasi Proses Cleansing ................................................................. 22
Tabel 3.3 Contoh Implementasi Proses Tokenization ............................................................ 23
Tabel 3.4 Contoh Implementasi Proses Stopwords Removal .................................................. 24
Tabel 3.5 Contoh Implementasi Proses Stemming .................................................................. 25
Tabel 3.6 Contoh Implementasi Proses Tf-IDF ...................................................................... 25
Tabel 3.7 Contoh Implementasi Proses Cosine Similarity ..................................................... 27
Tabel 4.1 Hasil Prediksi Sentimen Play Store ........................................................................ 41
Tabel 4.2 Hasil Prediksi Sentimen App Store ......................................................................... 42
Tabel 4.3 Hasil Confusion Matrix Play Store ........................................................................ 43
Tabel 4.4 Hasil Confusion Matrix App Store ......................................................................... 44
Tabel 4.5 Hasil Akurasi Play Store........................................................................................ 45
Tabel 4.6 Hasil Akurasi App Store......................................................................................... 45
Tabel 4.7 Hasil Proses Precision, Recall, dan F1-Score Play Store....................................... 47
Tabel 4.8 Hasil Proses Precision, Recall, dan F1-Score App Store ....................................... 47
Tabel 4.9 Hasil Error Rate Play Store ................................................................................... 48
Tabel 4.10 Hasil Error Rate App Store ................................................................................. 49
Tabel 4.11 Nilai Akurasi 4 Kali Pengujian Data Play Store ................................................... 50
Tabel 4.12 Hasil Prediksi Label Dataset Play Store ............................................................... 53
Tabel 4.13 Nilai Akurasi 4 Kali Pengujian Data App Store .................................................... 54
Tabel 4.14 Hasil Prediksi Label Dataset App Store ................................................................ 57
ix
BAB I
PENDAHULUAN
1.1 Latar Belakang
Dilansir dari laman Shopery, marketplace adalah platform tempat penjual
dapat berkumpul dan menjual barang atau jasa mereka kepada pelanggan tanpa
pertemuan fisik. Perusahaan marketplace adalah penyedia platform sebagai tempat
bertemunya penjual dan pembeli. Dua pihak dapat berdagang di pasar dan
perusahaan menerima komisi untuk setiap penjualan [1].
Dalam beberapa dekade terakhir, pasar telah menjadi platform paling populer
bagi penjual bisnis untuk menjual produk mereka. Pembeli dan penjual dapat
bertemu langsung dalam satu platform untuk transaksi yang cepat, mudah, dan
sederhana. Meskipun banyak bermunculan toko online , namun marketplace tidak
bisa diremehkan. Bahkan, beberapa marketplace ternama seperti Amazon, eBay,
Alibaba dan lain sebagainya telah berperan penting dalam menghidupkan kembali
marketplace online sedunia [2].
Selain itu, marketplace juga banyak digunakan di Indonesia, dan banyak
merchant yang berjualan melalui e-commerce dan marketplace di Indonesia, tidak
hanya oleh pelaku UMKM, tetapi juga brand-brand besar telah masuk dan menjual
marketplace online. Hal ini terlihat dari laju pertumbuhan pasar Indonesia yang terus
berkembang pesat, terutama di masa pandemi. 18 marketplace terbesar di Indonesia
saja memiliki pengunjung bulanan dengan total lebih dari 500 juta pengguna [3].
Menjadi marketplace nomor 1 di Indonesia dengan rata-rata pengunjung
terbanyak adalah marketplace yang tepat di tahun 2023 yaitu Tokopedia. Menurut studi
EcommerceIQ, salah satu alasan banyak konsumen memilih Tokopedia adalah
banyaknya pilihan produk yang tersedia. Di Tokopedia sendiri, kelompok produk yang
paling banyak dicari adalah elektronik, disusul fashion dan sembako. Dari sisi penjual,
pedagang Tokopedia didominasi oleh perusahaan kecil dan menengah. Untuk
mendukung pedagang berjualan di marketplace, Tokopedia memiliki beberapa fitur
1
2
seperti fitur iklan, chat, statistik bisnis yang memungkinkan perusahaan meminjam
modal untuk mengembangkan usahanya [4].
Dalam dunia marketplace terdapat sebuah istilah yang dinamakan ulasan.
Ulasan adalah salah satu jenis testimoni yang diberikan oleh konsumen atau
pengguna yang merasa puas atau kecewa dengan produk atau jasa yang dibelinya.
Artinya, ulasan adalah jenis pernyataan atau pesan dari pelanggan tentang
pengalaman mereka berurusan dengan penjual mengenai kualitas layanan atau
barang atau layanan yang dibeli.
Secara umum, kebanyakan orang skeptis terhadap produk yang belum pernah
mereka beli atau gunakan. Apalagi untuk beberapa produk yang dapat mempengaruhi
kehidupan, seperti produk kesehatan, produk kecantikan dan lain- lain. Semua
pebisnis tahu ini. Oleh karena itu, para pedagang biasanya memasang ulasan
pengguna di halaman penjualan mereka sehingga testimoni pengguna mereka akan
meningkatkan kepercayaan calon pelanggan lain terhadap produk yang mereka jual.
Berdasarkan penjelasan tersebut dapat disimpulkan bahwa ulasan memegang
peranan yang sangat penting dalam proses pemasaran suatu produk di pasar,
khususnya di Tokopedia.
Ulasan atau komentar pengguna bertujuan untuk memberikan manfaat dan
dapat dipercaya. Mengulas konten di play store dan app store adalah cara efektif
untuk berbagi masukan bermanfaat dan membantu pengguna lain menemukan
sebuah produk, konten, dan layanan yang bagus. Dengan berbagai macam dan
banyaknya pengguna Tokopedia memberikan ulasan perlu sebuah proses untuk
menganalisis ulasan tersebut secara cepat dan tepat yang biasa disebut dengan
analisis sentimen [5].
Natural Processing Language (NLP) adalah cabang kecerdasan buatan yang
berhubungan dengan interaksi antara mesin dan manusia menggunakan bahasa
alami. Dalam hal ini menggunakan beberapa library python untuk algoritma text
mining. Salah satu pendekatan text mining di bidang NLP adalah analisis sentimen.
Pendekatan analisis sentimen digunakan untuk menganalisis informasi berupa opini
3
publik untuk mendukung pengambilan keputusan. Tugas analisis sentimen adalah

mengklasifikasikan kumpulan kutub dari teks, kalimat, atau fitur dari keseluruhan
dokumentasi, yang aspeknya positif, netral, atau negatif [6]. Dalam analisis sentimen
juga harus menerapkan sebuah metode atau algoritma dalam kasus klasifikasi respon
pengguna Tokopedia di play store dan app store.
Algoritma k-nearest neighbor (KNN) adalah metode atau pendekatan untuk
mengklasifikasikan objek berdasarkan data training yang paling dekat dengan objek
tersebut. Data training diproyeksikan ke dalam ruang multidimensi, di mana setiap
dimensi menggambarkan properti data [7].
Dengan menerapkan algoritma K-Nearest Neighbor (KNN) tersebut nanti akan
tahu hasil implementasi algoritma ini dalam mengklasifikasikan ulasan pengguna
Tokopedia di play store dan app store. Maka dari itu penulis tertarik mengambil judul
“Implementasi Algoritma K-Nearest Neighbor (KNN) Untuk Analisis Sentimen
Pengguna Aplikasi Tokopedia”.
1.2 Perumusan Masalah

Berdasarkan latar belakang yang sudah dijelaskan di atas, maka dapat
ditemukan rumusan masalahnya yaitu :
1. Bagaimana mengimplementasikan algoritma K-Nearest Neighbor (KNN) untuk
melakukan klasifikasi analisis sentimen pengguna aplikasi Tokopedia di play
store dan app store?
2. Bagaimana hasil analisis klasifikasi sentimen pengguna aplikasi Tokopedia di
play store dan app store?
1.3 Tujuan dan Manfaat

Adapun tujuan penelitian yang dpaparkan dalam penelitian ini adalah
mengetahui hasil klasifikasi yang didapatkan dari analisis sentimen pengguna
Tokopedia di play store dan app store dengan menggunakan algoritma K-Nearest
Neighbor (KNN).
4
Adapun manfaat dari penelitian ini adalah:

a. Memberikan pengetahuan mengenai klasifikasi opini pengguna
Tokopedia di play store dan app store menggunakan algoritma K- Nearest
Neighbor (KNN).
b. Melakukan klasifikasi opini ke dalam kelas positif dan negatif dalam
jumlah yang cukup besar dengan cepat.
c. Hasil dari analisis sentimen dapat digunakan oleh pihak Tokopedia
sebagai bahan evaluasi pengembangan aplikasi Tokopedia untuk
kedepannya.
1.4 Batasan Masalah

Berdasarkan rumusan masalah, harus ada pembatasan masalah agar tema
yang terdapat di proposal ini tidak keluar pada jalurnya, di antaranya ialah sebagai
berikut:
a. Aplikasi yang diteliti yaitu Tokopedia, play store, dan app store.
b. Algoritma yang digunakan ialah K-Nearest Neighbor (KNN).
c. Sumber datanya yaitu teks yang diambil dari komentar pengguna Tokopedia
yang berasal dari situs play store dan app store.
d. Data ulasan yang digunakan yaitu sebanyak 891,092 ulasan yang diambil
pada 8 Agustus 2023 (Januari-Agustus).
1.5 The State Of The Art

Penelitian tentang analisis sentimen dan penerapan teknologi NLP sudah
banyak dilakukan di beberapa platform, seperti web atau android. Dalam melakukan
penelitian analisis sentimen yang baik diperlukan pula studi literatur sebagai tahap
metode penilitian yang dilakukan. Berikut ini adalah penelitian- penelitian terkait
analisis sentimen dengan metode-metode tertentu khusus nya pendekatan Natural
Language Processing (NLP) yang telah dilakukan, dan memenuhi tema yang cocok
dengan penelitian ini. Diantaranya:
5
1. Shima Fanissa, dkk (2018), penelitian yang dilakukan dengan judul

“Analisis Sentimen Pariwisata di Kota Malang Menggunakan Metode
Naïve Bayes dan Seleksi Fitur Query Expansion Ranking”. Penelitian ini
bertujuan untuk mengurangi jumlah fitur sehinggan dapat meningkatkan
akurasi. Dalam penelitian ini menggunakan metode Naïve Bayes.
2. Dedi Darwis, dkk (2019), penelitian yang dilakukan dengan judul
“Penerapan Algoritma Naïve Bayes Untuk Analisis Sentimen Review
Data Twitter BMKG Nasional”. Penelitian ini bertujuan untuk melakukan
pencarian positif, negatif, dan netral. Dalam penelitian ini menggunakan
metode Naïve Bayes.
3. Debby Alita dan Auliya Rahman (2020), penelitian yang dilakukan
dengan judul “Pendeteksian Sarkasme Pada Proses Analisis Sentimen
Menggunakan Random Forest Classifier”. Penelitian ini bertujuan untuk
mengekstrak atribut dan komponen dari objek yang telah dikomentari
pada setiap dokumen. Dalam penelitian ini menggunakan metode Random
Forest Classifier.
4. Winda Yulita, dkk (2021), penelitian yang dilakukan dengan judul
“Analisis Sentimen Terhadap Opini Masyarakat Tentang Vaksin Covid-
19 Menggunakan Algoritma Naïve Bayes Classifier”. Penelitian ini
bertujuan untuk menganalisis pendapat tentang vaksinasi Covid-19 di
Indonesia. Dalam penelitian ini menggunakan metode Naïve Bayes
Classifier.
5. Brian Laurensz dan Eko Sediyono (2021), penelitian yang dilakukan
dengan judul “Analisis Sentimen Masyarakat Terhadap Tindakan
Vaksinasi dalam Upaya Mengatasi Pandemi Covid-19”. Penelitian ini
bertujuan untuk mengetahui sentiment masyarakat terhadap Tindakan
vaksinasi. Dalam penelitian ini menggunakan metode SVM dan Naïve
Bayes.
6
Dengan ini penulis menyimpulkan dan menjadi bahan dalam penelitian

tugas akhir ini dalam State of The Art semua jurnal penelitiannya menggunakan
teknologi Natural Language Processing (NLP) dalam melakukan analisis
sentimen dengan berbagai metode. Dalam penelitian di atas juga mayoritas
menggunakan algoritma Naïve Bayes dengan studi kasus Twitter. Sedangkan
penelitian ini akan menggunakan dua objek penelitian yaitu play store, dan app
store dengan algoritma K-Nearest Neighbor.
7
1.6 Kerangka Pemikiran

Tabel 1.1 Kerangka Pemikiran
Problems
Banyak orang yang skeptis terhadap

produk yang belum pernah mereka beli
atau gunakan khususnya di Tokopedia
Opportunity
Adanya teknologi NLP dalam

mengklasifikasikan sentimen pengguna
Tokopedia
Approach
Algoritma K-Nearest Neighbor (KNN)
Research Development
CRISP-DM
Software Implementation
Jupyter Notebook dan Python 3.11.1
Result
Hasil analisis sentimen pengguna

Tokopedia di play store dan app store
8
1.7 Sistematika Penulisan

Sistematika penulisan ditujukan kepada pembaca agar lebih mudah dalam
memahami isi laporan penelitian. Secara garis besar sistematika penulisan laporan
ini terdiri dari:
BAB I PENDAHULUAN
Dalam bagian ini membahas latar belakang dan studi kasus penelitian ini dan
selanjutnya membahas rumusan masalah, tujuan dan manfaat penelitian, batasan
masalah, the state of the art, dan kerangka pemikiran.
BAB II LANDASAN TEORI
Pada landasan teori membahas hal-hal dasar dan teori-teori yang berkaitan dengan
analisis sentimen yang termasuk di bidang NLP dengan menggunakan algoritma
KNearest Neighbor dan berbagai hal yang mendukung dalam analisis sentimen ini.
BAB III METODOLOGI PENELITIAN
Pada bagian ini membahas tentang sumber dan jenis data serta teknik pengambilan
datanya bagaimana dan tahapan yang dilakukan dalam pembuatan penelitian serta
gambaran umum sistem yang akan dikerjakan.
BAB IV HASIL DAN PEMBAHASAN
Bagian ini menjelaskan tentang hasil pengolahan data, pengujian, serta menjelaskan
hasil analisis sentimen dari platform android dan ios.
BAB V KESIMPULAN DAN SARAN
Berisi kesimpulan yang merupakan rangkuman dari hasil penelitian ini dan berisi
saran-saran yang membangun untuk pengembangan yang lebih baik di masa yang akan
datang.
BAB II
LANDASAN TEORI
2.1 Marketplace
Sebuah marketplace merupakan lokasi di mana terjadi transaksi jual beli
produk atau layanan antara pembeli dan penjual, umumnya dalam bentuk daring
atau elektronik. Salah satu contoh perusahaan marketplace di Indonesia ialah
Tokopedia. Namun, penting untuk ditegaskan bahwa konsep marketplace
berbeda dengan gagasan toko online.
Toko online merujuk pada sebuah tempat ritel yang menjual produk
dalam bentuk virtual atau daring, sementara marketplace bisa diartikan sebagai
suatu wadah daring di mana berbagai individu berkumpul untuk menjalankan
transaksi jual beli. Dalam konteks marketplace, pihak penyelenggara
memainkan peran sebagai perantara antara penjual dan pembeli melalui situs
web, dengan tujuan memfasilitasi pertemuan serta transaksi yang sah antara
kedua belah pihak. (Dewa & Setyohadi, 2017).
Menurut Bakos (1991), Marketplace ialah suatu platform informasi
yang mempermudah pembeli dan penyalur untuk menukar informasi mengenai
harga dan ragam produk antara berbagai entitas organisasi. Dalam konteks yang
serupa, menurut pandangan Laudon (2000), marketplace merupakan bentuk
toko daring yang menggunakan model bisnis sebagai penumpu marketplace,
dimana pemilik toko daring hanya menjalankan peran fasilitator yang
menghimpun berbagai jenis data terkait produk dan layanan dari berbagai
penjual, sehingga pembeli memperoleh kemampuan untuk membandingkan
harga dengan lebih baik [8].
Pemanfaatan marketplace telah menjadi strategi bisnis yang diminati di
dalam lingkungan usaha guna mengatasi tantangan yang semakin kompleks,
pertambahan jumlah pesaing, dan kebutuhan untuk terus berinovasi serta
9
10
berkreasi dalam konteks global yang terus berkembang dengan cepat. Berbagai
segmen, mulai dari perusahaan besar hingga usaha mikro dan menengah, dapat
menggunakan marketplace sebagai alat distribusi produk mereka. Dengan
memilih untuk menggunakan marketplace, entitas bisnis dapat mengefisienkan
pengeluaran dalam hal pemasaran serta promosi, selain juga menghemat waktu
dan usaha yang diperlukan. Marketplace juga dianggap efisien dalam
menetapkan harga jual yang bersaing jika dibandingkan dengan kompetitor di
pasaran. Dalam marketplace Tokopedia, mayoritas penjualnya merupakan
pelaku usaha mikro, kecil, dan menengah.
Faktor signifikan dalam struktur ekonomi nasional dan lokal yang dapat
menekan perkembangan ekonomi adalah sektor Usaha Mikro Kecil Menengah
(UMKM). Dalam konteks pengaplikasian platform marketplace yang beroperasi
dengan pendekatan modern, dibutuhkan tenaga kerja yang memiliki kapabilitas
dalam memahami dinamika sistem tersebut secara cepat. Namun, belum semua
entitas UMKM memanfaatkan peluang yang ditawarkan oleh fasilitas
marketplace sebagai kanal penjualan bagi bisnis mereka, hal ini dapat
berdampak pada daya saing mereka dengan perusahaan lain yang telah
memanfaatkan marketplace sebagai sarana inovatif, efisien, dan efektif untuk
menjalankan aktivitas penjualan serta promosi.
Guna meningkatkan prestasi UMKM berbasis ekonomi kreatif, perlu
memberi perhatian khusus pada faktor-faktor seperti semangat kewirausahaan
yang mendalam, inovasi yang lebih orisinal, semangat pengusaha yang tinggi,
dan taktik pemasaran yang optimal. Diharapkan pelaku usaha dapat
menghasilkan gagasan segar, inovasi yang mencolok, serta menjaga keselarasan
antara jiwa kewirausahaan dan berbagai faktor lainnya, karena aspek-aspek ini
memiliki kapabilitas dalam membantu memperkuat struktur usaha, khususnya
dalam hal-hal krusial seperti kualitas layanan kepada pelanggan. (Putri,2019).
Dari penjelasan di atas, dapat disarikan bahwa marketplace menyimpan
berbagai kegunaan dan manfaat yang beragam. Marketplace berperan sebagai
11
perantara yang memudahkan aksi jual-beli daring antara penjual dan konsumen
dengan tingkat keamanan dan kenyamanan yang tinggi. Bagi penjual,
marketplace menjadi sarana pemasaran yang efisien karena tidak menghadapkan
biaya dan bisa mengembangkan cakupan pasarnya. Ini pun berpotensi
mempercepat perkembangan ekonomi pelaku bisnis skala kecil.
Sementara dari sudut pandang konsumen, kelebihan marketplace adalah
kenyamanan dalam berbelanja tanpa perlu meninggalkan rumah, serta
fleksibilitas untuk bertransaksi kapan saja dan di mana saja melalui peranti
mobile dengan mengunduh aplikasi yang sudah tersedia. Oleh karena itu, para
pengusaha di Indonesia memiliki peluang yang menjanjikan untuk memasarkan
produk mereka di dalam lingkungan marketplace[9].
2.2 Tokopedia
Gambar 2. 1 Logo Tokopedia [10]

Dalam konteks pembelian melalui internet, masyarakat saat ini sangat
mengandalkan berbagai marketplace yang terus berkembang secara signifikan. Salah
satu perusahaan e-commerce terbesar di Indonesia yang baru-baru ini melangsungkan
penawaran saham pertamanya di Bursa Efek Indonesia (BEI) adalah Tokopedia.
Perusahaan dengan ciri khas logo serta tampilan dominan berwarna hijau ini telah
hadir sejak tahun 2009 dan terus berinovasi dalam domain ekonomi digital dengan
misi memberikan kenyamanan bagi publik dalam melaksanakan pembelian dan
transaksi melalui platform daring. Kesuksesan Tokopedia tak dapat dilepaskan dari
upaya gigih pendiri dan CEO PT Tokopedia, yakni William Tanujaya, dalam merintis
12
serta membentuk perusahaan startup yang sukses dan berhasil meraih status Unicorn
[11].
Mewujudkan kesetaraan dalam infrastruktur menjadi tugas yang kompleks di
Indonesia, mengingat bahwa negara ini merupakan kepulauan terbesar di dunia.
Karena alasan tersebut, banyak pedagang yang memutuskan untuk berpindah ke pusat-
pusat perkotaan besar demi mengejar peluang pasar yang lebih luas serta
menguntungkan. Upaya ini mendorong perjuangan dalam mengurangi kesenjangan
antara kota metropolitan dengan daerah-daerah kecil.
Konsumen di wilayah terpencil sering menghadapi kendala dalam memperoleh
produk yang mereka inginkan karena tantangan aksesibilitas. Kondisi ini memicu
pertambahan tingkat urbanisasi dan mengakibatkan penumpukan produk hanya di
kota-kota besar. Untuk mengatasi situasi ini, William Tanuwijaya dan Leontinus Alpha
Edison merasa penting untuk mengambil tindakan yang memungkinkan komunitas
pedesaan memperoleh barang-barang keperluan mereka dengan lebih mudah dan
ekonomis.
Tokopedia diinisiasi pada tanggal 17 Agustus 2009 dengan tujuan inti
“Pemerataan Ekonomi secara Digital”. Melalui perjalanan waktu, Tokopedia terus
memperbaharui visinya dengan melakukan beragam inovasi. Hingga hari ini,
Tokopedia terus mengembangkan kerjasama dengan mitra untuk menghadirkan
pelayanan optimal bagi para pelanggan [12].
13
2.3 Natural Language Processing (NLP)
Gambar 2.2 ChatGPT adalah Contoh dari NLP [13]

Natural Language Processing (NLP) menjadi semakin terkenal berkat
kepopuleran Artificial Intelligence (AI), terutama melalui tren seperti ChatGPT dan
Google Bard yang mencuat pada akhir 2022 dan awal 2023. NLP adalah bagian dari
AI yang menghubungkan manusia dengan sistem melalui pemrosesan bahasa. Ini
melibatkan teknologi seperti computational linguistics, statistik, machine learning,
dan deep learning untuk mengolah bahasa manusia menjadi data yang dapat
diinterpretasi oleh komputer. NLP memiliki banyak aplikasi, termasuk pembuatan
chatbot, analisis sentimen teks, dan penerjemahan otomatis. Dalam era digital, NLP
semakin dikenal dan diharapkan memberikan dampak positif pada berbagai sektor.
Pasar AI diproyeksikan oleh Statista mencapai lebih dari 127 miliar dolar AS pada
2028 [14].
Salah satu manfaat utama dari NLP adalah kemampuannya untuk melakukan
analisis data secara akurat dan cepat. Dengan teknologi ini, pengguna dapat meneliti
banyak data sekaligus, mengurangi biaya analisis, dan memahami pasar secara lebih
baik. Selain itu, NLP juga dapat meningkatkan kepuasan pelanggan dengan
memungkinkan interaksi manusia dengan komputer melalui bahasa natural, seperti
pada chatbot atau asisten virtual.
Cara kerja NLP adalah sebagai berikut:
1. NLP akan melakukan tahap text vectorization terlebih dahulu, dimana
artinya NLP akan mengubah kata-kata dalam teks menjadi serangkaian
angka atau vektor yang dapat dimengerti oleh mesin.
14
2. Algoritma machine learning NLP memerlukan “data latih” dan

“output” yang diharapkan. Sebagai contoh, mungkin sebuah teks
seperti “saya suka produk ini” akan dimasukkan, dan output yang
diinginkan adalah “ramah”.
3. Setelah diberikan data percobaan dan output yang diharapkan, NLP
akan menggunakan metode analisis statistik untuk membangun
pemahaman berdasarkan data tersebut. Dengan demikian, algoritma
NLP akan dapat memprediksi output untuk teks yang akan datang.
4. Semakin banyak data yang dimasukkan ke dalam algoritma NLP, maka
semakin akurat output atau hasil prediksi yang dihasilkan. Hal ini
karena semakin banyak data yang diproses, maka algoritma NLP akan
memiliki lebih banyak referensi untuk dipelajari dan semakin
memahami pola dan aturan yang ada dalam data tersebut.
Ada banyak contoh penggunaan natural language processing (NLP)
dalam kehidupan sehari-hari, diantaranya adalah:
1. Pendeteksi spam
2. Mesin Penerjemah
3. Virtual assistant dan chatbot
4. Analisis sentimen media sosial [15]
2.4 Analisis Sentimen

Menurut Liu (2008), analisis sentimen atau opinion mining adalah kajian
komputasi untuk mengidentifikasi dan mengungkapkan opini, sentimen, penilaian,
emosi, atau pandangan dalam teks. Dave et al (2003) menjelaskan bahwa alat bantu
penambangan opini mengolah hasil pencarian terhadap item tertentu. Alat ini
menghasilkan daftar atribut produk seperti kualitas dan fitur, serta menghitung
akumulasi opini untuk setiap atribut (rendah, sedang, tinggi). Pengertian Sentimen
menurut Kamus Besar Bahasa Indonesia (KBBI) adalah:
15
1. Pendapat atau pandangan yang didasarkan pada perasaan yang berlebih-lebihan

terhadap sesuatu (bertentangan dng pertimbangan pikiran). Contoh: keputusan
yang dihasilkan akan tidak adil jika disertai rasa sentimen pribadi.
2. Emosi yang berlebihan. Contoh: rasa sentimen sebagai bangsa Indonesia akan
tumbuh kuat jika kita jauh dari negeri ini.
3. Iri hati; tidak senang; dendam.
4. Reaksi yang tidak menguntungkan. Contoh: penurunan harga saham hanya
disebabkan oleh sentimen pasar.
Opini menurut KBBI adalah pendapat atau pikiran atau pendirian [16].
Analisis sentimen merupakan kegiatan analisis big data yang harus dibantu
dengan algoritma supaya lebih mudah mengolahnya. Sebagai sistem yang canggih, ada
dua jenis algoritma yang biasanya dipakai oleh analisis sentimen, yaitu :
1. Lexicon Based
Metode berbasis leksikon menghitung sentimen masing-masing kata dalam
teks. Ini mengandalkan daftar kata khusus (leksikon) yang memiliki bobot sentimen.
Secara umum, nilai 1 diberikan untuk kata-kata positif yang kuat, -1 untuk kata-kata
negatif yang kuat, dan 0 untuk sentimen netral.
Nilai kata dijumlahkan dan dirata-rata untuk hasil sentimen kalimat. Dalam
jenis algoritma ini, sistem mengambil nilai sentimen kata yang telah ada. Sebagai
contoh, jika pelanggan A memberikan sentimen negatif pada “lama”, maka dalam
metode leksikon, “lama” akan selalu punya sentimen negatif.
2. Basis Machine Learning
Analisis sentimen masuk dalam kategori supervised learning di machine
learning. Prosesnya melibatkan pengelompokan sentimen berdasarkan
pembelajaran dari data latih. Dalam mengurai bahasa manusia, metode ini juga
menggunakan Natural Language Processing (NLP). Dalam machine learning, kita
bisa membangun model untuk mengklasifikasikan output menjadi sentimen yang
lebih spesifik. Contohnya, selain positif, negatif, netral, kita bisa tambahkan
kategori lain seperti senang, sedih, terkejut, takut, tergantung data latih dan tujuan
16
analisis sentimen. Lebih banyak kategori sentimen berarti model lebih rumit dan
perlu lebih banyak data latih.
Misalnya, dalam analisis ulasan produk di marketplace dengan machine
learning, teknik ini dapat digunakan untuk mengelompokkan ulasan ke kategori
seperti positif, negatif, atau netral. Ini memberi wawasan tentang perasaan konsumen
dan bantu pedagang dalam pengambilan keputusan terkait produk [17].
2.5 K-Nearest Neighbor (KNN)

K-Nearest Neighbor (KNN) adalah metode machine learning dengan algoritma
supervised learning di mana data uji baru diklasifikasikan berdasarkan mayoritas
kategori pada KNN. Tujuannya adalah mengklasifikasikan objek baru berdasarkan
atribut dan sampel latihan. Prosesnya mencari K tetangga terdekat dari data uji dan
mengklasifikasikannya berdasarkan mayoritas kategori di antara K tetangga tersebut.
KNN sering diterapkan pada klasifikasi data non-linear atau non-parametrik.
Kelebihan Algoritma KNN:
1. Algoritma KNN dapat mengatasi data noisy
2. Algoritma KNN dapat menanggulangi data yang jumlahnya besar
3. Mudah diimplementasikan
Kekurangan Algoritma KNN:
1. KNN perlu menentukan nilai dari parameter K (jumlah dari tetangga
terdekat).
2. Pembelajaran berdasarkan jarak tidak jelas mengenai jenis jarak apa yang
harus digunakan dan atribut mana yang harus digunakan untuk
mendapatkan hasil yang terbaik.
3. Daya komputasi cukup tinggi karena diperlukan perhitungan jarak dari tiap
sample uji pada keseluruhan sample latih [18].
Pengklasifikasian algoritma KNN mempunyai langkah-langkah sebagai
berikut:
17
1. Tentukan parameter K.
2. Hitung jarak antara data yang akan dievaluasi dengan semua pelatihan.
3. Urutkan jarak yang terbentuk (urut naik).
4. Tentukan jarak terdekat sampai urutan K.
5. Pasangkan kelas yang bersesuaian [19].
2.6 Confusion Matrix

Confusion matrix adalah tabel untuk mengevaluasi model klasifikasi pada
machine learning, menunjukkan jumlah data yang diklasifikasikan benar dan salah.
Tabel ini mencakup True Positive (TP), False Positive (FP), True Negative (TN),
dan False Negative (FN), merefleksikan klasifikasi benar positif, salah positif, benar
negatif, dan salah negatif. Dari sini, kita hitung evaluasi seperti akurasi, presisi,
recall, dan F1 score. Tabel ini menghasilkan empat nilai yaitu TP, FP, FN, dan TN.
Ilustrasi tabel confusion matrix dapat dilihat pada tabel 2.6.1 berikut [20].
Tabel 2.1 Nilai Confusion Matrix
Positive Negative
Positive TP FP
Negative FN TN
Keterangan :
TP : contoh data bernilai positif yang diprediksi benar sebagai positif
TN : contoh data bernilai negatif yang diprediksi benar sebagai negatif
FP : contoh data bernilai negatif yang diprediksi salah sebagai positif
FN : contoh data bernilai positif yang diprediksi salah sebagai negatif
18
2.7 Cross-Industry Standard Process for Data Mining (CRISP-DM)

CRISP-DM adalah model analisis data yang digunakan dalam data mining
oleh praktisi data. Model ini adalah standar data mining yang dikembangkan oleh
lima perusahaan: Integral Solutions Ltd (ISL), Teradata, Daimler AG, NCR
Corporation, dan OHRA. Proses pengembangannya berlangsung melalui workshop
dari 1997 hingga 1999, dengan kontribusi lebih dari 300 organisasi. CRISP-DM
pertama kali dipublikasikan pada 1999 dan menjadi salah satu model paling populer
dalam industri data mining.
Menurut survei oleh datascience-pm, model data science CRISP-DM
digunakan paling sering oleh praktisi data dengan persentase 49%. Oleh karena itu,
banyak penelitian menunjukkan bahwa CRISP-DM tetap menjadi teknik analisis data
terkemuka.
Mariscal, Marba, dan Fernandez menyebut CRISP-DM sebagai standar de
facto dalam pengembangan proyek data mining dan knowledge discovery karena
banyak digunakan. Survei "Penggunaan Metodologi dalam Proyek Data Mining"
menunjukkan penggunaan CRISP-DM mencapai 51% pada 2002 dan berkurang
menjadi 41% pada 2004. Meskipun turun 10%, penggunaan metode ini masih lebih
tinggi dari yang lain.
CRISP-DM memiliki enam tahap dalam analisis data mining: Business
Understanding, Data Understanding, Data Preparation, Modelling, Evaluation, dan
Deployment [21].
2.8 Python
Python ialah bahasa pemrograman populer dan serbaguna untuk website,
analisis data, scripting, hingga game. Python open source, digunakan gratis oleh
developer, dan memungkinkan kolaborasi. Mayoritas programmer sepakat, Python
itu bahasa pemrograman interpretatif dan fleksibel. Sintaksnya mudah dibaca dan
dipahami, cocok bahkan bagi pemula [22].
19
Pada tahun 1991, Guido van Rossum menciptakan bahasa pemrograman

Python sebagai respons terhadap bahasa pemrograman ABC. Pengembangan Python
dipengaruhi oleh ABC dan banyak mengambil inspirasi darinya. Yang membedakan
Python adalah pengembangannya yang terus menerus dengan kolaborasi dari
programmer, pengguna, dan tester, termasuk dari luar bidang IT. Python adalah bahasa
sumber terbuka dan bebas biaya, cocok untuk beragam tujuan seperti pembuatan GUI
desktop, pengembangan web, video game, dan perangkat lunak lainnya. [23].
BAB III
METODOLOGI PENELITIAN
Untuk menyelesaikan masalah ini dilakukan menggunakan metode Cross-

Industry Standard Process for Data Mining (CRISP-DM). Dalam metode ini
membahas tentang tahap-tahap untuk melakukan penelitian di bidang NLP. Metode ini
merupakan proses standar terbuka yang menggambarkan pendekatan umum yang
digunakan oleh para ahli data mining dan metode ini merupakan model analitik yang
paling banyak digunakan.
Gambar 3.1 Metodologi Penelitian

Gambar 3.1 merupakan alur dari metode CRISP-DM yang akan
diimplementasikan dalam penelitian ini. Metode ini harusnya terdiri dari 6 tahap. Akan
tetapi dalam penelitian ini pada tahap deployment itu dihapus karena tahap ini tidak
diperlukan dalam penelitian. Jadi tahapan dalam metode ini ada 5 tahap, yaitu business
understanding, data understanding, data preparation, modeling, dan evaluation.
20
21
3.1 Business Understanding

Dalam tahap ini, fokus utamanya adalah untuk memahami secara menyeluruh
tentang konteks bisnis atau masalah yang sedang diteliti. Ini merupakan langkah awal
yang penting sebelum penulis dapat merancang rencana penelitian yang tepat.
3.2 Data Understanding
Tahap Data Understanding adalah tahap kedua dalam proses analisis data yang
biasanya dilakukan dalam kerangka kerja CRISP-DM (Cross-Industry Standard
Process for Data Mining), yang merupakan pendekatan umum untuk mengelola proyek
analisis data. Tujuan utama dari tahap ini adalah untuk mendapatkan pemahaman yang
lebih dalam tentang data yang akan digunakan dalam proyek analisis.
3.3 Data Preparation
Berikut pada Gambar 3.2 merupakan alur proses dari data preparation :
Gambar 3.2 Alur Proses Data Preparation

Tahap ini bertujuan untuk mempersiapkan data agar siap digunakan pada tahap
modeling. Terdiri dari proses casefolding, cleansing, tokenization, normalization,
stopwords removal, stemming, tf-idf, dan cosine similarity.
Berikut di bawah ini Tabel 3.1 adalah merupakan contoh implementasi dari
proses casefolding :
22
Tabel 3.1 Contoh Implementasi Proses Casefolding
Sebelum Sesudah
Dipakai di ip 12 ngadat, aneh dipakai di ip 12 ngadat, aneh
Nyaman belanja di toped nyaman belanja di toped
Tidak pernah mengecewakan tidak pernah mengecewakan
mantap banget tokped aseli mantap banget tokped aseli
Belanja selalu tokopedia!!! belanja selalu tokopedia!!!
Sangat membantu dalam berbelanja sangat membantu dalam berbelanja
Sukses buat tokped.. sukses buat tokped..
Cashbacknya gokil cashbacknya gokil
Tokopedia , Sangat baik dan tokopedia , sangat baik dan
terpercaya terpercaya
Sangat bagus sangat mudah dan sangat bagus sangat mudah dan
sangat cepat sangat cepat
Proses casefolding bertujuan untuk mengubah teks menjadi bentuk yang
konsisten dan dalam pemrosesan teks. Casefolding adalah proses mengubah semua
karakter pada teks menjadi huruf kecil atau huruf besar, sedangkan pada penelitian ini
penulis menggunakan casefolding untuk mengubah semua huruf jadi kecil.
Tabel 3.2 Contoh Implementasi Proses Cleansing
Sebelum Sesudah
dipakai di ip 12 ngadat, aneh dipakai di ip 12 ngadat aneh
nyaman belanja di toped nyaman belanja di toped
tidak pernah mengecewakan tidak pernah mengecewakan
mantap banget tokped aseli mantap banget tokped aseli
belanja selalu tokopedia!!! belanja selalu tokopedia
sangat membantu dalam berbelanja sangat membantu dalam berbelanja
sukses buat tokped.. sukses buat tokped
23
Sebelum Sesudah
cashbacknya gokil cashbacknya gokil
tokopedia , sangat baik dan tokopedia sangat baik dan
terpercaya terpercaya
sangat bagus sangat mudah dan sangat bagus sangat mudah dan
sangat cepat sangat cepat
Tujuan dari proses pada Tabel 3.2 adalah untuk mengidentifikasi dan
menghapus atau memodifikasi nilai-nilai yang tidak diinginkan dalam data, seperti
karakter khusus atau format yang tidak valid. Namun, tujuan dari menghapus regex
tergantung pada konteks dan jenis data yang sedang diolah.
Tabel 3.3 Contoh Implementasi Proses Tokenization
Sebelum Sesudah
dipakai di ip ngadat aneh [dipakai, di, ip, ngadat, aneh]
nyaman belanja di toped [nyaman, belanja, di, toped]
tidak pernah mengecewakan [tidak, pernah, mengecewakan]
mantap banget tokped aseli [mantap, banget, tokped, aseli]
belanja selalu tokopedia [belanja, selalu, tokopedia]
sangat membantu dalam berbelanja [sangat, membantu, dalam
berbelanja]
sukses buat tokped [sukses, buat, tokped]
cashbacknya gokil [cashbacknya, gokil]
tokopedia sangat baik dan terpercaya [tokopedia, sangat, baik, dan,
terpercaya]
sangat bagus sangat mudah dan [sangat, bagus, sangat, mudah,
sangat cepat dan, sangat, cepat]
Proses tokenization pada teks sangat penting dalam berbagai aplikasi
pemrosesan teks khususnya pada analisis sentimen. Dalam pemrosesan teks, token
menjadi unit dasar yang diolah oleh mesin untuk memahami makna dari teks tersebut.
24
Sedangkan pada proses normalization mengubah data ke dalam format yang

seragam atau standar. Ini bertujuan untuk mengurangi ambiguitas, meningkatkan
efisiensi analisis, dan memudahkan perbandingan data. Dalam konteks pengolahan
basis data, normalisasi dapat merujuk pada proses merancang struktur basis data agar
lebih efisien dan meminimalkan duplikasi data serta menjaga integritas data. Dalam
analisis data, normalisasi dapat berarti mengubah skala data agar seragam,
memungkinkan variabel dengan skala yang berbeda untuk dibandingkan dengan adil.
Tabel 3.4 Contoh Implementasi Proses Stopwords Removal
Sebelum Sesudah
[dipakai, di, ip, ngadat, aneh] [dipakai, ip, ngadat, aneh]
[nyaman, belanja, di, toped] [nyaman, belanja, toped]
[tidak, pernah, mengecewakan] [mengecewakan]
[mantap, banget, tokped, aseli] [mantap, banget, tokped, aseli]
[belanja, selalu, tokopedia] [belanja, tokopedia]
[sangat, membantu, dalam [membantu, berbelanja]
berbelanja]
[sukses, buat, tokped] [sukses, tokped]
[cashbacknya, gokil] [cashbacknya, gokil]
[tokopedia, sangat, baik, dan, [tokopedia, terpercaya]
terpercaya]
[sangat, bagus, sangat, mudah, dan, [bagus, mudah, cepat]
sangat, cepat]
Tujuan utama dari stopwords removal adalah untuk meningkatkan efektivitas
dan keakuratan dalam memproses teks. Stopwords adalah kata-kata yang biasanya
muncul dalam teks seperti kata depan, kata sambung, dan kata-kata lainnya yang tidak
memiliki arti khusus dalam konteks tertentu. Ketika melakukan proses analisis teks,
stopwords sering tidak memberikan kontribusi signifikan dalam memahami isi teks dan
dapat mengurangi efisiensi dan akurasi analisis.
25
Tabel 3.5 Contoh Implementasi Proses Stemming
Sebelum Sesudah
[dipakai, ip, ngadat, aneh] pakai ip ngadat aneh
[nyaman, belanja, toped] nyaman belanja toped
[mengecewakan] kecewa
[mantap, banget, tokped, aseli] mantap banget tokped aseli
[belanja, tokopedia] belanja tokopedia
[membantu, berbelanja] bantu belanja
[sukses, tokped] sukses tokped
[cashbacknya, gokil] cashbacknya gokil
[tokopedia, terpercaya] tokopedia percaya
[bagus, mudah, cepat] bagus mudah cepat
Tujuan utama dari proses stemming adalah untuk meningkatkan efisiensi dan
akurasi dalam melakukan analisis teks. Dalam beberapa kasus, kata-kata dalam teks
mungkin memiliki berbagai variasi bentuk yang berbeda, dan hal ini dapat mengurangi
efisiensi dan akurasi analisis. Dengan melakukan stemming, kata-kata yang berasal dari
kata dasar yang sama dapat dihitung sebagai satu kesatuan, sehingga proses analisis
dapat dilakukan dengan lebih efisien dan akurat.
Tabel 3.6 Contoh Implementasi Proses Tf-IDF
Indeks
Indeks Istilah (Kata)
Dokumen
(0, 0) 0.5
(0, 13) 0.5
(0, 9) 0.5
(0, 15) 0.5
(1, 20) 0.62583987960545
(1, 5) 0.4654555727358646
26
Indeks
Indeks Istilah (Kata)
Dokumen
(1, 14) 0.62583987960545
(2, 10) 1.0
(3, 1) 0.5182909034319405
(3, 19) 0.44059461896295216
(3, 3) 0.5182909034319405
(3, 11) 0.5182909034319405
(4, 18) 0.7526207669831266
(4, 5) 0.6584542361514052
(5, 4) 0.8024086456077293
(5, 5) 0.5967749705324189
(6, 17) 0.761904967498719
(6, 19) 0.6476888299953735
(7, 8) 0.7071067811865475
(7, 6) 0.7071067811865475
(8, 16) 0.761904967498719
(8, 18) 0.6476888299953735
(9, 7) 0.5773502691896257
(9, 12) 0.5773502691896257
(9, 2) 0.5773502691896257
Tujuan dari proses TF-IDF adalah untuk menemukan kata-kata yang paling
penting dalam sebuah dokumen dengan cara menghitung frekuensi kemunculan kata
dalam dokumen (TF) dan memperhitungkan seberapa umum kata tersebut di seluruh
dokumen (IDF).
27
Tabel 3.7 Contoh Implementasi Proses Cosine Similarity

[[1. 0. 0. 0. 0.
0.
0. 0. 0. 0. ]
[0. 1. 0. 0. 0.3064811
9 0.27777224
0. 0. 0. 0. ]
[0. 0. 1. 0. 0.
0.
0. 0. 0. 0. ]
[0. 0. 0. 1. 0.
0.
0.28536821 0. 0. 0. ]
[0. 0.30648119 0. 0. 1.
0.39294901
0. 0. 0.48746406 0. ]
[0. 0.27777224 0. 0. 0.3929490
1 1.
0. 0. 0. 0. ]
[0. 0. 0. 0.28536821 0.
0.
1. 0. 0. 0. ]
[0. 0. 0. 0. 0.
0.
0. 1. 0. 0. ]
[0. 0. 0. 0. 0.4874640
6 0.
0. 0. 1. 0. ]
[0. 0. 0. 0. 0.
0.
0. 0. 0. 1. ]]
Proses cosine similarity bertujuan untuk menentukan seberapa dekat dua

dokumen atau teks berdasarkan kesamaan antara representasi vektor dokumen tersebut.
Dalam hal ini, setiap dokumen atau teks direpresentasikan sebagai vektor berdasarkan
jumlah kemunculan kata-kata dalam dokumen atau teks tersebut.
3.4 Modeling
Pada tahap ini dalam proses analisis data, fokus berpindah ke pembuatan dan
penilaian model berdasarkan pemahaman sebelumnya terhadap data. Dalam konteks
pengujian model, terdapat dua pendekatan umum yang digunakan untuk mengukur
kinerja dan mengoptimalkan model. Pertama, pengujian dengan nilai k 1 hingga 10, di
28
mana data dibagi menjadi k subset yang saling bergantian digunakan sebagai data
pelatihan dan pengujian. Pendekatan ini membantu mengatasi fluktuasi hasil dan
memberikan gambaran yang lebih stabil tentang performa model.
Selanjutnya, pengujian dengan pembagian rasio data, seperti 90:10, 80:20,
70:30, atau 60:40, membagi data menjadi dua bagian, satu untuk pelatihan dan yang
lainnya untuk pengujian. Evaluasi model melibatkan pengukuran metrik performa,
seperti akurasi atau F1-score, untuk memilih konfigurasi yang paling sesuai dengan
karakteristik data dan tujuan analisis penelitian ini.
3.5 Evaluation
Tahap evaluation pada analisis sentimen dilakukan untuk mengevaluasi kinerja
model dalam melakukan klasifikasi sentimen pada data uji yang belum pernah dilihat
sebelumnya. Pada tahap ini, model akan diuji dengan data uji dan evaluasi akan
dilakukan dengan menggunakan confusion matrix, akurasi, presisi, recall, f1-score,
error rate, dan cross val score. Confusion matrix digunakan untuk memahami seberapa
baik model klasifikasi dapat memprediksi kelas yang benar dan seberapa besar
kemungkinan model tersebut melakukan kesalahan dalam memprediksi kelas. Akurasi
merupakan metrik yang digunakan untuk mengukur sebeapa akurat model dalam
memprediksi sentimen pada data uji. Presisi dan recall digunakan untuk mengukur
seberapa baik model dalam mengklasifikasikan sentimen yang sebenarnya positif atau
negatif. F1-Score merupakan harmonic mean dari presisi dan recall.
Selain itu, error rate juga digunakan untuk mengetahui ukuran kesalahan model
yang menghitung berapa persen data yang salah diklasifikasikan oleh model dari total
data yang diprediksi. Setelah itu, dilakukan penghitungan cross val score yang
bertujuan untuk menghindari overfitting dan memastikan model dapat generalisasi data
yang belum pernah dilihat sebelumnya. Penting untuk diingat bahwa tahap evaluation
ini sangat penting karena dapat memberikan gambaran tentang kinerja model dalam
melakukan klasifikasi sentimen pada data yang belum pernah dilihat sebelumnya,
sehingga dapat memberikan informasi yang berguna dalam meningkatkan kualitas
model dan hasil analisis data yang lebih akurat dan dapat diandalkan.
29
BAB IV
HASIL DAN PEMBAHASAN
4.1 Hasil Business Understanding

Hasil dari tahap Business Understanding dalam penelitian tersebut adalah
teridentifikasinya dua masalah bisnis yang ingin diselesaikan, yaitu meningkatkan
kualitas layanan dan memahami persepsi pelanggan terhadap Tokopedia. Untuk
mencapai tujuan tersebut, peneliti melakukan pemahaman terhadap lingkungan bisnis
yang meliputi persaingan dengan platform e-commerce lainnya, pasar konsumen di
Indonesia, dan kebutuhan pelanggan Tokopedia.
Selain itu, stakeholder yang terlibat dalam masalah bisnis ini juga
diidentifikasi, antara lain manajemen Tokopedia, tim developer, dan pelanggan atau
pengguna Tokopedia itu sendiri. Tujuan analisis data pada tahap ini adalah untuk
memahami sentimen pelanggan terhadap Tokopedia dan meningkatkan kualitas
layanan berdasarkan temuan analisis data. Dalam penelitian ini, hasil dari tahap
Business Understanding menjadi dasar dalam menentukan metode dan teknik analisis
data yang sesuai untuk mencapai tujuan yang telah ditetapkan. Metode analisis data
yang digunakan dalam penelitian ini adalah algoritma k-nearest neighbor yaitu sebuah
metode klasifikasi machine learning yang termasuk ke dalam supervise learning.
4.2 Hasil Data Understanding

Setelah melakukan tahap business understanding selanjutnya adalah tahap data
understanding. Pada penelitian ini yaitu akan melakukan kegiatan analisis sentimen
Tokopedia menggunakan 1000 data komentar dari play store dan 1000 data dari app
store. Total 2000 komentar yang terdiri dari 2 label yaitu positif dan negatif untuk
pemodelan.
Sedangkan untuk pengujian 885.092 komentar dari play store dan 4000
komentar dari app store. Total 889.092 untuk data pengujian yang belum dilabeli.
30
31
4.3 Hasil Data Preparation

Terdiri dari proses casefolding, cleansing, tokenization, normalization,
stopwords removal, stemming, tf-idf, dan cosine similarity.
Berikut pada Gambar 4.1 dan Gambar 4.2 merupakan kode program dan hasil
dari proses casefolding :
Gambar 4.1 Proses Casefolding Data Play Store
Gambar 4.2 Proses Casefolding Data App Store

Pada Gambar 4.1 dan 4.2 tersebut adalah sebuah fungsi casefolding yang
diterapkan pada kolom review dari DataFrame “df”. Fungsi “casefolding” digunakan
untuk melakukan casefolding pada teks yang ada dalam kolom review. Langkah-
langkah yang dilakukan dalam fungsi “casefolding” adalah sebagai berikut:
32
1. Mengubah teks pada parameter “review” menjadi huruf kecil menggunakan

fungsi “.lower()”.
2. Mengembalikan teks yang sudah diubah menjadi huruf kecil.
Selanjutnya, fungsi “casefolding” diterapkan pada kolom review menggunakan
metode “.apply()” pada “df”. Dengan cara ini, setiap teks dalam kolom review akan
diproses menggunakan fungsi “casefolding” dan hasilnya akan ditugaskan kembali ke
kolom review tersebut. Terakhir, kode tersebut menampilkan 10 baris pertama dari
DataFrame dengan menggunakan “.head(10)” yang akan mencetak hasil dari
perubahan case folding yang telah dilakukan pada kolom “review”.
Gambar 4.3 Proses Cleansing Data Play Store
Gambar 4.4 Proses Cleansing Data App Store

33
Gambar 4.3 dan Gambar 4.4 menunjukan kode program dan hasil dari proses
cleansing. “cleansing” yang diterapkan pada kolom review dari DataFrame. Fungsi
“cleansing” menggunakan regular expression (regex) untuk menghapus atau
mengganti pola-pola tertentu dalam teks data, seperti tanda baca, angka, dan kata
tunggal.
Langkah-langkah yang dilakukan dalam fungsi `cleansing` adalah sebagai
berikut:
1. Menghapus spasi di awal dan akhir teks menggunakan “.strip(" ")”.
2. Menggunakan “re.sub” dan regex “r'[?|$|.|!_:")(-+,]'” untuk menghapus tanda
baca tertentu dari teks.
3. Menggunakan “re.sub” dan regex `r'\d+'` untuk menghapus angka dari teks.
4. Menggunakan “re.sub” dan regex “r"\b[a-zA-Z]\b"” untuk menghapus kata
tunggal (kata yang terdiri dari satu huruf) dari teks.
5. Menggunakan “re.sub” dan regex “'\s+'” untuk mengganti multiple whitespace
dengan satu spasi tunggal.
6. Mengembalikan teks yang telah di-cleansing.
Selanjutnya, fungsi “cleansing” diterapkan pada kolom review menggunakan
metode “.apply()” pada DataFrame. Dengan cara ini, setiap teks dalam kolom review
akan diproses menggunakan fungsi “cleansing” dan hasilnya akan ditugaskan kembali
ke kolom review tersebut.
Gambar 4.5 Proses Tokenization Data Play Store

34
Gambar 4.6 Proses Tokenization Data App Store

Kode program pada Gambar 4.5 dan Gambar 4.6 menggunakan library NLTK
untuk melakukan tokenisasi kata pada teks dalam kolom review dari DataFrame.
Fungsi “word_tokenize_wrapper” adalah sebuah fungsi yang menerapkan
“word_tokenize” pada setiap teks. Melalui metode “.apply()”, hasil tokenisasi kata
tersebut diaplikasikan pada kolom review dan menggantikan nilai sebelumnya.
Di bawah ini adalah Gambar 4.7 dan Gambar 4.8 merupakan kode program dan
hasilnya proses stopwords removal :
Gambar 4.7 Proses Stopwords Removal Data Play Store

35
Gambar 4.8 Proses Stopwords Removal Data App Store

Proses tersebut menggunakan library NLTK untuk melakukan stopwords
removal pada teks dalam kolom review dari DataFrame. Langkah-langkahnya adalah
sebagai berikut:
1. Import library NLTK dan unduh dataset stopwords.
2. Import corpus stopwords dari NLTK.
3. Baca file dataset stopwords tambahan.
4. Definisikan fungsi “stopwords_removal” untuk menghapus stopwords. Dalam
fungsi ini, dilakukan penggabungan daftar stopwords dari bahasa Indonesia dan
bahasa Inggris, serta penghapusan kata-kata tambahan yang ada dalam file
dataset stopwords.
5. Buat list kosong untuk menyimpan kata-kata yang tidak termasuk dalam
stopwords.
6. Buat fungsi “myFunc” untuk memeriksa apakah kata termasuk dalam
stopwords.
7. Gunakan filter untuk memfilter kata-kata dalam teks berdasarkan fungsi
“myFunc”.
8. Simpan kata-kata yang tidak termasuk dalam stopwords ke dalam list.
36
9. Ubah nilai kolom review dalam DataFrame menjadi kata-kata setelah

stopwords removal.
Gambar 4.9 Proses Stemming Data Play Store
Gambar 4.10 Proses Stemming Data App Store

Program pada Gambar 4.9 dan Gambar 4.10 melakukan proses stemming pada
teks dalam kolom review dari DataFrame. Dalam prosesnya, digunakan library
Sastrawi untuk Bahasa Indonesia. Setiap kata dalam teks akan diubah menjadi bentuk
dasar menggunakan StemmerFactory. Hasil stemming kemudian disimpan dalam
DataFrame baru dan juga dalam file CSV. Dengan melakukan stemming, variasi
37
bentuk kata dalam teks dapat disederhanakan menjadi bentuk dasar, memudahkan
analisis teks berbahasa Indonesia.
Gambar 4.11 Proses TF-IDF Data Play Store
Gambar 4.12 Proses TF-IDF Data App Store

Pada program tersebut, dilakukan proses TF-IDF untuk menghitung bobot kata
dalam teks pada kolom review dari DataFrame. Langkah-langkahnya adalah sebagai
berikut:
1. Mengimpor kelas “CountVectorizer” dan “TfidfVectorizer” dari library
“sklearn.feature_extraction.text”.
2. Objek “vectorizer” dari “CountVectorizer” digunakan untuk menghitung
frekuensi kata dalam teks dan menghasilkan matriks frekuensi kata yang
disimpan dalam variabel X.
3. Objek “tf” dari “TfidfVectorizer” digunakan untuk menghitung bobot TF-IDF
38
kata dalam teks dan menghasilkan matriks bobot TF-IDF yang disimpan dalam
variabel “text_tf”.
4. Matriks bobot TF-IDF ditampilkan dengan menggunakan “print(text_tf)”.
Proses TF-IDF memberikan bobot pada kata-kata dalam teks berdasarkan frekuensi
kemunculan kata tersebut dalam dokumen dan invers frekuensi kemunculan kata
tersebut dalam koleksi dokumen yang lebih luas. Bobot ini membantu mengidentifikasi
kata-kata yang penting dan dapat digunakan dalam berbagai analisis teks seperti
klasifikasi, penentuan topik, atau rekomendasi konten.
Berikut di bawah ini pada Gambar 4.13 dan Gambar 4.14 merupakan kode
program dan hasil proses cosine similarity :
Gambar 4.13 Proses Cosine Similarity Data Play Store
Gambar 4.14 Proses Cosine Similarity Data App Store

Pada Gambar 4.13 dan Gambar 4.14 tersebut, digunakan metode
“cosine_similarity” dari library “sklearn.metrics.pairwise” untuk menghitung cosine
similarity antara matriks bobot TF-IDF “text_tf” dengan dirinya sendiri. Berikut
adalah penjelasan langkah-langkahnya:
1. Pertama, mengimpor “cosine_similarity” dari “sklearn.metrics.pairwise”.
2. Metode “cosine_similarity” digunakan untuk menghitung cosine similarity
39
antara matriks “text_tf” dengan dirinya sendiri. Dalam hal ini, dihitung
kemiripan antara setiap pasangan dokumen dalam matriks.
3. Hasil cosine similarity ditampilkan dengan menggunakan “print(cos_sim)”.
Cosine similarity menghasilkan matriks simetris yang menunjukkan tingkat
kesamaan antara dokumen-dokumen dalam matriks. Nilai cosine similarity berkisar
antara -1 hingga 1, dengan nilai 1 menunjukkan kemiripan sempurna antara dua
dokumen, nilai 0 menunjukkan ketidakhadiran kesamaan, dan nilai -1 menunjukkan
kebalikan antara dua dokumen.
4.4 Hasil Modeling

Pada tahap modeling terdapat 4 proses di antaranya yaitu data splitting,
membuat model, melatih model, dan prediksi model. Berikut di bawah ini hasil dan
pembahasan terkait proses-proses yang ada di tahap modeling.
Tujuan data splitting adalah membagi dataset menjadi subset pelatihan,
pengujian, dan evaluasi. Subset pelatihan digunakan untuk melatih model, subset
pengujian digunakan untuk menguji performa model, dan subset evaluasi digunakan
untuk mengevaluasi kinerja model. Data splitting membantu memastikan bahwa model
memiliki kemampuan yang baik dalam memprediksi data baru dan memastikan
evaluasi model yang obyektif. Pada Gambar 4.15 di bawah ini merupakan kode
program dari tahap ini :
Gambar 4.15 Proses Data Splitting Play Store dan App Store
Hasil dari proses splitting dataset ulasan pengguna Tokopedia di Play Store
menjadi subset uji dan pelatihan. Subset uji terdiri dari 200 data dengan 1000 fitur,
sementara subset pelatihan terdiri dari 800 data dengan 1000 fitur. Selain itu, output
40
juga mencantumkan jumlah data dengan sentimen positif dan negatif pada subset uji
dan pelatihan. Terdapat 99 data dengan sentimen positif dan 101 data dengan sentimen
negatif pada subset uji, sedangkan pada subset pelatihan terdapat 377 data dengan
sentimen positif dan 423 data dengan sentimen negatif. Output terakhir menunjukkan
distribusi jumlah data dengan sentimen positif (476) dan sentimen negatif (524) dalam
dataset secara keseluruhan.
Sedangkan hasil proses splitting dataset ulasan pengguna Tokopedia di App
Store dan distribusi sentimen dalam dataset. Pertama, subset uji terdiri dari 200 data
dengan 1000 fitur, sedangkan subset pelatihan terdiri dari 800 data dengan 1000 fitur.
Selanjutnya, output menyajikan jumlah data dengan sentimen positif dan negatif pada
subset uji dan pelatihan. Terdapat 163 data dengan sentimen positif dan 37 data dengan
sentimen negatif pada subset uji, sedangkan pada subset pelatihan terdapat 632 data
dengan sentimen positif dan 168 data dengan sentimen negatif. Output terakhir
menunjukkan distribusi sentimen keseluruhan dalam dataset, dengan 795 data memiliki
sentimen positif dan 205 data memiliki sentimen negatif.
Gambar 4.16 Proses Membuat Model, Melatih Model, dan Prediksi Model Play Store
dan App Store
Pada Gambar 4.16 atas, terdapat beberapa langkah penting dalam pemodelan
dan evaluasi klasifikasi menggunakan algoritma K-Nearest Neighbors (KNN). Berikut
adalah penjelasan secara rinci:
1. Import Modul. Kode ini mengimpor modul yang diperlukan untuk evaluasi
41
klasifikasi, seperti “accuracy_score”, “precision_score”, “recall_score”,

“f1_score”, “classification_report”, “confusion_matrix”, dan modul untuk
KNN (“KneighborsClassifier”).
2. Membuat dan Melatih Model. Langkah ini melibatkan pembuatan objek model
“clf” menggunakan “KneighborsClassifier”. Kemudian, model tersebut dilatih
menggunakan data latih (“X_train” dan “y_train”) dengan menggunakan
metode “fit()”. Proses ini akan menghasilkan model yang siap digunakan untuk
melakukan prediksi.
3. Memprediksi Hasil. Setelah model dilatih, langkah selanjutnya adalah
melakukan prediksi pada data uji (“X_test”). Ini dilakukan dengan
menggunakan metode “predict()” pada objek model “clf”. Hasil prediksi akan
disimpan dalam variabel “predicted”, yang berisi label prediksi untuk setiap
sampel dalam data uji.
4. Output Prediksi. Pada bagian ini, hasil prediksi (“predicted”) dicetak untuk
dilihat. Ini memberikan informasi tentang label prediksi yang dihasilkan oleh
model untuk setiap sampel dalam data uji. Output ini bisa digunakan untuk
melakukan evaluasi kinerja model dan membandingkannya dengan label
sebenarnya.
Pada Tabel 4.1 dan Tabel 4.2 merupakan hasil dari prediksi label sentimen
pada model KNN dengan 10 kali percobaan :
Tabel 4.1 Hasil Prediksi Sentimen Play Store
Jumlah Prediksi
Nilai K
Positif Negatif
1 45 61
2 94 87
3 104 99
4 110 96
42
Jumlah Prediksi
Nilai K
Positif Negatif
5 107 96
6 107 96
7 107 97
8 111 99
9 110 90
10 104 96
Tabel 4.2 Hasil Prediksi Sentimen App Store
Jumlah Prediksi
Nilai K
Positif Negatif
1 84 26
2 128 52
3 194 26
4 135 65
5 137 63
6 142 58
7 135 65
8 138 62
9 145 55
10 144 56
43
4.5 Hasil Evaluation

Pada tahap evaluation terdiri dari 7 proses yaitu confusion matrix, accuracy,
precision, recall, f1-score, dan error rate. Berikut di bawah ini hasil mengenai 6
proses tersebut.
Gambar 4.17 Proses Confusion Matrix Play Store dan App Store
Dibawah ini Tabel 4.3 dan Tabel 4.4 merupakan hasil dari proses confusion matrix
dari setiap pendekatan jumlah K sebanyak 10 kali percobaan :
Tabel 4.3 Hasil Confusion Matrix Play Store
Confusion Matrix
Nilai K
TN FP FN TP
1 95 6 16 83
2 99 2 24 75
3 93 8 12 87
4 93 8 15 84
5 91 10 10 89
6 90 11 15 84
7 89 12 12 87
8 88 13 14 85
9 87 14 13 86
44
Confusion Matrix
Nilai K
TN FP FN TP
10 87 14 15 84
Tabel 4.4 Hasil Confusion Matrix App Store
Confusion Matrix
Nilai K
TN FP FN TP
1 24 13 16 147
2 30 7 23 140
3 24 13 11 152
4 26 11 20 143
5 23 14 12 151
6 24 13 16 147
7 23 14 12 151
8 24 13 15 148
9 24 13 14 149
10 25 12 16 147
Dalam analisis sentimen, nilai akurasi digunakan sebagai salah satu metrik
evaluasi untuk mengukur seberapa baik model dapat memprediksi sentimen dengan
benar. Tujuan dari nilai akurasi dalam analisis sentimen adalah untuk mengukur sejauh
mana model dapat membedakan antara sentimen positif dan negatif dengan akurasi
yang tinggi.
Gambar 4.18 Proses Accuracy Data Play Store dan App Store
Kode program pada Gambar 4.32 adalah perintah untuk mencetak nilai
akurasi (accuracy) antara y_test (label sebenarnya) dan predicted (label yang
diprediksi oleh model) menggunakan fungsi accuracy_score dari library atau modul
45
yang digunakan. Fungsi accuracy_score digunakan untuk menghitung nilai akurasi

dengan membandingkan prediksi yang dihasilkan oleh model dengan label
sebenarnya. Nilai akurasi adalah persentase dari prediksi yang benar terhadap jumlah
total data yang dievaluasi.
Tabel 4.5 Hasil Akurasi Play Store
Nilai K Nilai Akurasi

1 0.89
2 0.87
3 0.9
4 0.885
5 0.9
6 0.87
7 0.88
8 0.865
9 0.865
10 0.855
Tabel 4.6 Hasil Akurasi App Store

1 0.855
2 0.85
3 0.88
4 0.845
5 0.87
6 0.855
7 0.87
8 0.86
46

9 0.865
10 0.86
Pada Tabel 4.5 merupakan hasil dari percobaan atau analisis yang dilakukan
pada dataset play store. Berdasarkan data yang tersedia, dapat disimpulkan bahwa
nilai K adalah parameter dalam algoritma k-nearest neighbors (k-NN) yang
digunakan untuk klasifikasi dan regresi. Nilai K menentukan jumlah tetangga
terdekat yang digunakan untuk membuat prediksi pada setiap data poin. Di sisi lain,
nilai akurasi mengindikasikan tingkat keberhasilan model k-NN dalam melakukan
prediksi yang benar. Untuk mengukur akurasi, prediksi model dibandingkan dengan
label yang sebenarnya pada data yang diketahui. Dalam tabel ini, nilai K berkisar dari
1 hingga 10, sementara nilai akurasi berkisar antara 0.855 dan 0.9.
Sedangkan Pada Tabel 4.6 merupakan hasil dari percobaan atau analisis yang
dilakukan pada dataset app store. Dalam tabel ini, nilai K bervariasi antara 1 hingga
10 juga, sedangkan nilai akurasi berkisar antara 0.845 dan 0.88.
Dari hasil Tabel 4.5 akan diambil model yang mempunyai nilai akurasi paling
tinggi yaitu 0.9 untuk diimplementasikan dalam pengujian terhadap dataset yang
belum mempunyai label untuk diprediksi labelnya. Pada Tabel 4.6 juga akan diambil
nilai akurasi paling tinggi yaitu 0.88.
Dengan diambilnya nilai k terbaik dari kedua dataset tersebut nanti akan
dilakukan pengujian nilai k terbaik dengan data splitting berbeda-beda, mulai dari
90:10, 80:20, 70:30, dan 60:40. Setelah itu akan diimplementasikan terhadap dataset
yang belum dilabeli.
Setelah melakukan proses mencari nilai akurasi, selanjutnya yaitu proses
mencari nilai Precision, Recall, F1-Score untuk dataset play store dan app store.
Berikut pada Gambar 4.19 di bawah ini kode program dari ketiga proses ini :
47
Gambar 4.19 Proses Precision, Recall, F1-Score Play Store dan App Store
Berikut pada Tabel 4.7 dan Tabel 4.8 merupakan hasil dari proses ini :
Tabel 4.7 Hasil Proses Precision, Recall, dan F1-Score Play Store
Nilai K Precision Recall F1-Score

1 0.93 0.83 0.88
2 0.97 0.75 0.85
3 0.91 0.87 0.89
4 0.91 0.84 0.87
5 0.89 0.89 0.89
6 0.88 0.84 0.86
7 0.87 0.87 0.87
8 0.86 0.85 0.86
9 0.86 0.86 0.86
10 0.85 0.84 0.85
Tabel 4.8 Hasil Proses Precision, Recall, dan F1-Score App Store

1 0.91 0.90 0.91
2 0.95 0.85 0.90
3 0.92 0.93 0.92
4 0.92 0.87 0.90
5 0.91 0.92 0.92
6 0.91 0.90 0.91
48

7 0.91 0.92 0.92
8 0.91 0.90 0.91
9 0.91 0.91 0.91
10 0.92 0.90 0.91
Pada Tabel 4.7 dan Tabel 4.8 menunjukkan hasil evaluasi performa beberapa
model klasifikasi dengan menggunakan metrik nilai K, precision, recall, dan F1-
Score. Setiap model memiliki nilai-nilai yang berbeda. Beberapa model memiliki
nilai K yang tinggi, tetapi precision dan F1-Score yang rendah. Ada juga model
dengan nilai-nilai yang hampir sama untuk precision, recall, dan F1-Score.
Setelah proses mencari nilai precision, recall, dan f1-score, selanjutnya
mencari nilai error rate yaitu untuk mengukur sejauh mana kualitas dan akurasi
model analisis sentimen yang digunakan. Berikut pada Gambar 4.20 kode program
proses error rate :
Gambar 4.20 Proses Error Rate Play Store dan App Store
Berikut di bawah ini pada Tabel 4.9 dan Tabel 4.10 merupakan hasil dari proses
error rate dari 10 kali percobaan :
Tabel 4.9 Hasil Error Rate Play Store
Nilai K Error Rate

1 0.10
2 0.13
3 0.09
4 0.11
5 0.09
6 0.13
49
Nilai K Error Rate

7 0.12
8 0.13
9 0.13
10 0.14
Tabel 4.10 Hasil Error Rate App Store
Nilai K Error Rate

1 0.14
2 0.15
3 0.12
4 0.15
5 0.13
6 0.14
7 0.13
8 0.14
9 0.13
10 0.14
Setelah melakukan percobaan model K sebanyak 10 kali dengan nilai 1-10,

maka dapat disimpulkan nilai akurasi yang terbaik dari seluruh model adalah nilai K =
5 yaitu sebesar 0.9 atau 90% pada dataset play store dan nilai K = 3 yaitu sebesar 0.88
atau 88% pada dataset app store. Sehingga model KNN terbaik akan diuji untuk
diimplementasikan dalam prediksi otomatis dataset ulasan pengguna Tokopedia yang
belum ada label positif dan negatif pada Mei 2023. Jumlah komentar yang diambil
untuk pengujian yaitu sebanyak 885.092 dari komentar pengguna Tokopedia di play
store dan 4000 komentar penguuna Tokopedia di app store.
50
4.6 Hasil Pengujian

Untuk dataset play store dilakukan data splitting dengan 4 kali pengujian yaitu
90:10, 80:20, 70:30, dan 60:40 dengan nilai K=5. Setiap hasil pengujian
diimplementasikan terhadap dataset yang belum dilabeli positif dan negatif.
Berikut di bawah ini pada tabel 4.11 hasil nilai akurasi dari 4 kali pengujian :
Tabel 4.11 Nilai Akurasi 4 Kali Pengujian Data Play Store
Pembagian Data Nilai Akurasi

90 : 10 0.88
80 : 20 0.905
70 : 30 0.89
60 : 40 0.875
Pada Tabel 4.11 menunjukan bahwa nilai akurasi tertinggi yaitu dengan
pembagian data latih dan data uji sebanyak 80:20 dengan nilai akurasi sebesar 0.905.
Sedangkan untuk nilai akurasi terendah yaitu 60:40 sebesar 0.875.
Selanjutnya yaitu menggunakan model di atas untuk pelabelan otomatis.
Berikut di bawah ini hasil dari pelabelan otomatis setiap nilai akurasi :
Gambar 4.21 Kode Program Pengujian Untuk Label Otomatis

51
Pada Gambar 4.21 merupakan kode program yang digunakan untuuk pengujian
label otomatis pada setiap data splitting yang dilakukan sebanyak 4 kali percobaaan.
Dimana pada “test_size” diisi dengan nilai 0.1, 0.2, 0.3, dan 0.4. Setelah proses ini
dilanjutkan dengan proses membuat grafik yang bertujuan untuk melihat jumlah data
prediksi yang dilabeli otomatis.
Gambar 4.22 Kode Program Grafik Hasil Pelabelan Otomatis Play Store
Gambar 4.23 Hasil Prediksi Komentar Tokopedia Play Store 90:10

52

53

Berikut di bawah ini pada Tabel 4.12 merupakan kesimpulan hasil prediksi
label pada dataset play store :
Tabel 4.12 Hasil Prediksi Label Dataset Play Store
Pembagian Data Label Positif Label Negatif

90:10 379.930 505.162
80:20 313.764 571.328
70:30 300.497 584.595
60:40 290.138 594.954
Output tersebut adalah hasil dari eksperimen pemisahan data dengan variasi
rasio pembagian antara kelas sentimen “positif” dan “negatif”. Setiap baris dalam
output tersebut mewakili hasil dari satu skenario pembagian data yang berbeda.
Dalam output tersebut, dapat dilihat bahwa variasi rasio pembagian data
menghasilkan perubahan dalam jumlah data pada setiap kelas sentimen di data uji.
Dalam beberapa kasus, ketika rasio pembagian data semakin meluas (misalnya, dari
90:10 hingga 60:40), jumlah data dengan sentimen “positif” cenderung menurun,
sedangkan jumlah data dengan sentimen “negatif” cenderung meningkat.
54
Untuk dataset app store juga dilakukan data splitting dengan 4 kali pengujian
yaitu 90:10, 80:20, 70:30, dan 60:40 dengan nilai K=3. Setiap hasil pengujian
diimplementasikan terhadap dataset yang belum dilabeli positif dan negatif.
Berikut di bawah ini pada tabel 4.13 hasil nilai akurasi dari 4 kali pengujian :
Tabel 4.13 Nilai Akurasi 4 Kali Pengujian Data App Store
Pembagian Data Nilai Akurasi

90 : 10 0.9
80 : 20 0.88
70 : 30 0.88
60 : 40 0.87
Pada Tabel 4.13 juga menggambarkan hasil dari pembagian data ke dalam
kelas label positif dan label negatif pada empat skenario yang berbeda, yaitu 90:10,
80:20, 70:30, dan 60:40. Di bawah ini penjelasan tabel di atas :
1. Pembagian 90:10
• Jumlah data total: 379930 + 505162 = 885092
• Jumlah data pada label positif: 379930
• Jumlah data pada label negatif: 505162
• Persentase data label positif: (379930 / 885092) x 100% = 42.91%
• Persentase data label negatif: (505162 / 885092) x 100% = 57.09%
2. Pembagian 80:20:
3. Pembagian 70:30
55

4. Pembagian 60:40
Berikut di bawah ini merupakan hasil prediksi label otomatis untuk dataset app
store dari 4 kali pengujian data splitting :
Gambar 4.26 Hasil Prediksi Komentar Tokopedia App Store 90:10

56

57

Berikut di bawah ini pada Tabel 4.14 merupakan kesimpulan hasil prediksi
label pada dataset play store :
Tabel 4.14 Hasil Prediksi Label Dataset App Store
Pembagian Data Label Positif Label Negatif

90:10 3809 191
80:20 3835 165
70:30 3848 152
60:40 3844 156
Tabel 4.14 menjelaskan hasil dari pembagian data ke dalam kelas label positif
dan label negatif pada empat skenario yang berbeda, yaitu 90:10, 80:20, 70:30, dan
60:40. Pembagian data tersebut mencerminkan perbandingan antara jumlah data pada
kelas positif dan negatif dalam setiap skenario pembagian. Untuk detailnya dijelaskan
di bawah ini :
1. Pembagian 90:10
58

2. Pembagian 80:20
3. Pembagian 70:30
4. Pembagian 60:40
Setelah seluruh tahap pengujian selesai, selanjutnya menampilkan wordcloud.
Wordcloud atau awan kata untuk memberikan gambaran visual tentang kata-kata yang
paling sering muncul dalam teks yang dianalisis, yang dapat membantu dalam
memahami sentimen umum atau perasaan yang terkait dengan teks tersebut.
Berikut di bawah ini wordcloud yang dipisahkan antara positif dan negatif
untuk dataset play store dan app store :
59
Gambar 4.30 Wordcloud Dataset Play Store Berlabel Positif
Gambar 4.31 Wordcloud Dataset Play Store Berlabel Negatif

Pada Gambar 4.30 merupakan awan kata yang isinya komentar yang berlabel
positif dalam dataset play store. Di dalamnya terdapat kata-kata yang menunjukkan
kepuasan pelanggan, yaitu “gratis ongkir”, “sangat bantu”, “kasih bintang”, “mantap”
, “puas”, “terima kasih”, dan “lengkap”. Sedangkan pada Gambar 4.31 merupakan
awan kata yang isinya komentar yang berlabel negatif dalam dataset play store. Di
60
dalamnya terdapat kata-kata yang menunjukkan keluhan pelanggan, yaitu “ribet”,

“kecewa”, “jelek”, “rugi”, “lambat”, “gagal”, “mahal”, dan “kendala”.
Gambar 4.32 Wordcloud Dataset App Store Berlabel Positif
Gambar 4.33 Wordcloud Dataset App Store Berlabel Negatif

Adapun dalam Gambar 4.33 merupakan awan kata yang isinya komentar yang
berlabel positif dalam dataset app store. Di dalamnya terdapat kata-kata yang
menunjukkan kepuasan pelanggan juga, yaitu “good”, “user friendly”, “nice”,
“mantap”, “simpel”, “murah”, “aman”, “bagus”, “terima kasih”, dan “lancar”.
61
Selanjutnya pada Gambar 4.34 merupakan awan kata yang isinya komentar
yang berlabel negatif dalam dataset app store. Di dalamnya terdapat kata-kata yang
menunjukkan keluhan pelanggan juga, yaitu “curang”, “ribet”, “berat”, “rugi”, “berat”,
“uninstall”, “force close”, dan “kecewa”.
4.7 Pembahasan
Algoritma K-Nearest Neighbor telah berhasil diimplementasikan untuk analisis
sentimen Tokopedia dalam penelitian ini. Metode CRISP-DM merupakan metodologi
penelitian yang diterapkan dalam penelitian ini yang terdiri dari 5 tahap yaitu Business
Understanding, Data Understanding, Data Preparation, Modeling, dan Evaluation.
Hasil dari tahap Business Understanding dalam penelitian ini
mengidentifikasikan dua masalah bisnis yang menjadi fokus utama, yakni
meningkatkan kualitas layanan dan memahami persepsi pelanggan terhadap
Tokopedia. Upaya untuk mencapai tujuan ini melibatkan pemahaman yang mendalam
terhadap lanskap bisnis, termasuk dinamika persaingan dengan platform e-commerce
lain, karakteristik pasar konsumen di Indonesia, dan kebutuhan yang diutarakan oleh
pelanggan Tokopedia.
Selain itu, dalam menggali akar permasalahan, stakeholder yang terlibat juga
diidentifikasi secara tegas, termasuk manajemen Tokopedia, tim pengembang, dan
pengguna langsung dari platform ini. Dalam konteks ini, analisis data pada tahap awal
bertujuan untuk menilai sentimen yang dirasakan oleh pelanggan terhadap Tokopedia,
serta untuk merancang peningkatan kualitas layanan berdasarkan wawasan yang
dihasilkan dari analisis tersebut.
Selanjutnya, hasil dari tahap Business Understanding ini menjadi pijakan yang
kuat dalam menetapkan pendekatan analisis yang tepat. Pendekatan tersebut, yaitu
metode analisis k-nearest neighbor, dipilih dengan cermat untuk membantu dalam
menggapai tujuan penelitian. Metode ini adalah algoritma machine learning yang
digunakan dalam klasifikasi, dan dipilih dengan pertimbangan matang untuk
mendukung pengambilan keputusan yang berdasarkan pada data dan konteks.
62
Setelah mengemukaan tahap Business Understanding, langkah berikutnya

adalah memasuki fase Data Understanding. Dalam konteks penelitian ini, langkah ini
mengarah pada penyelidikan lebih mendalam terhadap data yang akan dianalisis.
Mengacu pada tujuan analisis sentimen Tokopedia, sebanyak 1000 komentar dari
platform Play Store dan 1000 komentar dari App Store telah diambil sebagai sampel
utama. Kumpulan data tersebut terdiri dari dua label sentimen, yaitu positif dan negatif,
yang nantinya akan digunakan dalam proses pemodelan.
Selanjutnya, dalam rangka menguji validitas model, digunakan sejumlah besar
data yang lebih luas. Dalam hal ini, sebanyak 885.092 komentar dari Play Store dan
4000 komentar dari App Store digunakan sebagai data pengujian. Total keseluruhan
data pengujian mencapai 889.092 komentar, yang mana belum dilabeli sesuai dengan
sentimen yang terkait. Tahap Data Understanding ini menempatkan dasar yang kuat
untuk proses analisis sentimen yang lebih mendalam dan merinci pada tahap
selanjutnya.
Tahap berikutnya setelah Data Understanding adalah Data Preparation yang
dilakukan secara rinci. Pertama, dilakukan casefolding dengan mengubah seluruh teks
dalam dataset menjadi huruf kecil untuk menghindari perbedaan dalam pengenalan
kata. Kemudian, proses cleansing dilakukan untuk menghilangkan data subyek yang
tidak relevan, seperti karakter khusus, tanda baca, atau URL yang tidak relevan. Setelah
itu, dilakukan tokenization untuk memisahkan teks menjadi unit-unit yang lebih kecil,
yaitu token, sehingga memungkinkan pemrosesan teks lebih lanjut. Tahap normalisasi
mengubah kata-kata menjadi bentuk dasar atau kata dasar agar mempermudah analisis.
Selanjutnya, stopwords, yaitu kata-kata umum yang tidak memberikan makna
khusus, dihapus untuk menghilangkan pengaruhnya dalam pemodelan. Stemming
dilakukan untuk mengubah kata-kata menjadi bentuk dasar dengan menghilangkan
imbuhan atau akhiran. Proses selanjutnya adalah penghitungan nilai TF-IDF untuk
setiap kata dalam dataset, yang memberikan bobot pada kata-kata penting. Terakhir,
dilakukan perhitungan kesamaan kosinus untuk mengukur kesamaan antara teks
berdasarkan arah vektor mereka.
63
Setelah data sudah disiapkan dan sudah dibersihkan, tahap selanjutnya yaitu
modeling. Dalam tahap Modeling, hasil prediksi sentimen dari penggunaan metode
analisis k-nearest neighbor (KNN) pada dataset yang telah disiapkan dieksplorasi.
Dalam tabel-tabel berikut, hasil prediksi sentimen dari dua platform, yaitu Play Store
dan App Store, terhadap variasi nilai K (jumlah tetangga terdekat yang
dipertimbangkan dalam algoritma KNN) ditampilkan dan dianalisis.
Tabel 4.1 menunjukkan hasil prediksi sentimen pada platform Play Store.
Terlihat bahwa saat nilai K adalah 1, jumlah prediksi positif lebih rendah daripada
prediksi negatif. Namun, ketika nilai K meningkat, pola tersebut berbalik. Nilai K yang
lebih tinggi cenderung menghasilkan lebih banyak prediksi positif daripada prediksi
negatif. Hal ini menunjukkan bahwa dalam beberapa kasus, mempertimbangkan lebih
banyak tetangga terdekat dalam analisis dapat menghasilkan hasil prediksi yang lebih
konsisten dengan sentimen positif.
Pada Tabel 4.2, hasil prediksi sentimen di App Store disajikan. Dalam hal ini,
pola lebih konsisten, di mana untuk sebagian besar nilai K, jumlah prediksi positif jauh
lebih besar daripada prediksi negatif. Meskipun ada variasi dalam jumlah prediksi
negatif, pola keseluruhannya lebih mendukung sentimen positif pada aplikasi yang
diuji di App Store.
Tahap terakhir yaitu Evaluation, dimana yang intinya terdapat pada nilai
akurasi setiap nilai k. Setelah mendapatkan nilai K terbaik maka akan diujikan
modelnya untuk pengujian label otomatis untuk setiap dataset.
Tabel 4.5 dan Tabel 4.6 adalah tabel yang menunjukkan hasil akurasi dari suatu
sistem atau model yang diuji pada Play Store dan App Store dengan variasi nilai K pada
algoritma k-Nearest Neighbors (k-NN). Nilai K mengacu pada jumlah tetangga terdekat
yang digunakan dalam algoritma k-NN untuk mengklasifikasikan data.
Pada Tabel 4.5 nilai akurasi bervariasi ketika nilai K berubah. Secara umum,
nilai akurasi tampaknya naik dan turun dengan fluktuasi tertentu ketika K berubah.
Puncak akurasi terjadi pada nilai K = 3 dan K = 5 dengan akurasi 0.9. Secara
64
keseluruhan, model ini menunjukkan performa yang cukup baik dengan nilai akurasi
yang relatif tinggi.
Sedangkan pada Tabel 4.6 nilai akurasi naik dan turun saat nilai K berubah.
Puncak akurasi terjadi pada nilai K = 3 dengan akurasi 0.88. Meskipun ada fluktuasi,
model ini juga menunjukkan performa yang baik secara umum.
Kesimpulan yang dapat diambil dari dua tabel ini adalah bahwa pemilihan nilai
K dalam algoritma k-NN memainkan peran penting dalam hasil akurasi. Nilai K yang
lebih besar tidak selalu menghasilkan akurasi yang lebih tinggi, dan ada nilai K tertentu
di mana model mencapai akurasi puncak.
Pada eksperimen terkait dataset Play Store, dilakukan pendekatan data splitting
dengan empat skenario pengujian yang berbeda, yaitu 90:10, 80:20, 70:30, dan 60:40,
dengan nilai K tetap diatur sebagai 5. Dalam setiap pengujian, model
diimplementasikan pada dataset yang belum diberi label positif dan negatif. Tabel 4.11
yang disajikan sebelumnya menggambarkan hasil akurasi yang diperoleh dari empat
pengujian tersebut.
Dari hasil tersebut, terlihat bahwa performa model memiliki variasi ketika
diterapkan pada berbagai pembagian data. Skema 80:20 menghasilkan akurasi tertinggi
dengan nilai 0.905, menunjukkan kemampuan model untuk mengklasifikasikan data
dengan baik ketika 80% data digunakan untuk pelatihan dan 20% digunakan untuk
pengujian. Meskipun ada fluktuasi dalam hasil akurasi pada skenario lainnya, performa
model secara umum tetap berada pada tingkat akurasi yang tinggi, dengan akurasi
terendah adalah 0.875 pada skema 60:40.
Dalam konteks analisis dataset Play Store, Tabel 4.12 memberikan gambaran
hasil prediksi label yang diperoleh dari berbagai skema pembagian data. Tabel tersebut
menunjukkan jumlah prediksi label positif dan negatif untuk setiap skema pembagian,
yaitu 90:10, 80:20, 70:30, dan 60:40.
Pada skenario 90:10, hasil prediksi menunjukkan bahwa terdapat 379.930
prediksi label positif dan 505.162 prediksi label negatif. Pada skema 80:20, terlihat
perubahan dengan 313.764 prediksi label positif dan 571.328 prediksi label negatif.
65
Begitu pula pada skema 70:30 dan 60:40, di mana jumlah prediksi label positif secara
berturut-turut adalah 300.497 dan 290.138, sedangkan jumlah prediksi label negatif
adalah 584.595 dan 594.954.
Adapun Tabel 4.13 menyajikan hasil nilai akurasi dari empat kali pengujian
yang dilakukan pada dataset App Store dengan skema pembagian data yang berbeda.
Skema-skema pembagian yang digunakan adalah 90:10, 80:20, 70:30, dan 60:40. Dari
hasil akurasi yang diperoleh, dapat diambil beberapa pemahaman yang relevan.
Pada skenario pembagian 90:10, model berhasil mencapai akurasi sebesar 0.9,
yang mengindikasikan performa yang sangat baik dalam mengklasifikasikan data.
Ketika dilakukan pembagian data dengan skema 80:20 dan 70:30, terlihat konsistensi
dalam hasil akurasi yang diperoleh, yaitu sebesar 0.88. Hal ini menunjukkan bahwa
model memiliki kemampuan yang baik dalam menggeneralisasi pada kedua skenario
tersebut. Meskipun terjadi variasi proporsi pembagian data, performa model tetap
cukup stabil.
Pada skenario 60:40, hasil akurasi mencapai 0.87. Meskipun sedikit lebih
rendah daripada skenario pembagian data sebelumnya, akurasi ini masih dalam kisaran
yang baik dan mengindikasikan kemampuan model untuk mengklasifikasikan data
dengan cukup baik.
Tabel 4.14 memberikan kesimpulan yang sangat menarik mengenai hasil
prediksi label yang tercapai pada dataset App Store dengan berbagai skema pembagian
data. Tabel tersebut menyajikan jumlah prediksi label positif dan negatif untuk masing-
masing skema pembagian data: 90:10, 80:20, 70:30, dan 60:40.
Pada skenario 90:10, terlihat bahwa terdapat 3809 prediksi label positif dan
hanya 191 prediksi label negatif. Hal ini mengindikasikan bahwa dalam skema
pembagian ini, model lebih cenderung untuk memprediksi label positif, yang bisa jadi
dikarenakan distribusi data lebih banyak condong ke arah label positif.
Pada skenario 80:20 hingga 60:40, jumlah prediksi label positif terus
meningkat, sementara jumlah prediksi label negatif terus menurun. Ini bisa diartikan
66
bahwa model memiliki kecenderungan kuat untuk memprediksi label positif, dan
pergeseran dalam pembagian data tidak signifikan dalam mengubah pola tersebut.
BAB V
PENUTUP
5.1 Kesimpulan
Algoritma K-Nearest Neighbor (KNN) telah berhasil diimplementasikan untuk
melakukan analisis sentimen terhadap komentar pengguna aplikasi Tokopedia di
platform Play Store dan App Store. Metode CRISP-DM yang terdiri dari tahap-tahap
Business Understanding, Data Understanding, Data Preparation, Modeling, dan
Evaluation telah digunakan dengan sukses dalam memandu penelitian ini.
Berdasarkan tahap Business Understanding, dua masalah utama dalam fokus
adalah meningkatkan kualitas layanan dan memahami persepsi pelanggan terhadap
Tokopedia. Hasil analisis sentimen menunjukkan bahwa penggunaan metode analisis
KNN mampu memberikan wawasan tentang sentimen pelanggan terhadap Tokopedia.
Tahap Data Understanding dan Data Preparation memberikan dasar yang kuat
untuk proses analisis selanjutnya. Data sampel dari Play Store dan App Store telah
disiapkan, dan langkah-langkah preprocessing seperti casefolding, cleansing,
tokenization, normalisasi, penghapusan stopwords, stemming, perhitungan TF-IDF,
dan perhitungan kesamaan kosinus telah dilakukan dengan cermat.
Tahap Modeling mengungkapkan hasil prediksi sentimen dari penggunaan
metode KNN pada dataset yang telah dipersiapkan. Analisis terhadap hasil prediksi
sentimen pada platform Play Store dan App Store menunjukkan bahwa variasi nilai K
memiliki pengaruh pada akurasi prediksi. Dalam beberapa kasus, mempertimbangkan
lebih banyak tetangga terdekat dalam analisis dapat menghasilkan hasil prediksi yang
lebih konsisten dengan sentimen positif.
Pada tahap Evaluation, nilai akurasi setiap nilai K dievaluasi. Hasil evaluasi ini
menunjukkan bahwa pemilihan nilai K yang tepat memainkan peran penting dalam
mendapatkan akurasi prediksi yang optimal.
67
68
Dalam eksperimen dengan dataset Play Store, hasil pengujian pada berbagai
skenario pembagian data (90:10, 80:20, 70:30, dan 60:40) menunjukkan variasi
performa model. Skema 80:20 menghasilkan akurasi tertinggi dengan nilai 0.905,
menunjukkan bahwa model mampu mengklasifikasikan data dengan baik dalam
skenario tersebut. Meskipun terdapat fluktuasi akurasi pada skenario lainnya, performa
model secara keseluruhan tetap tinggi, dengan akurasi terendah 0.875 pada skema
60:40.
Dari hasil analisis terkait dataset Play Store, memberikan gambaran prediksi
label yang diperoleh dari berbagai skema pembagian data. Terlihat bahwa skenario
pembagian data mempengaruhi jumlah prediksi label positif dan negatif.
Pada dataset App Store, hasil akurasi dari empat pengujian dengan skema
pembagian data yang berbeda (90:10, 80:20, 70:30, dan 60:40) menunjukkan
konsistensi performa model. Skema pembagian data 90:10 dan 80:20 menghasilkan
akurasi tertinggi dengan nilai 0.9 dan 0.88 secara berturut-turut.
Kesimpulannya, penelitian ini berhasil memberikan wawasan yang mendalam
tentang sentimen pengguna aplikasi Tokopedia di platform Play Store dan App Store.
Implementasi KNN dan metodologi CRISP-DM terbukti efektif dalam mencapai tujuan
penelitian, menghasilkan pemahaman tentang persepsi pelanggan serta potensi
perbaikan layanan di masa mendatang.
5.2 Saran
Sebagai saran untuk penelitian selanjutnya, bisa dikembangkan ke dalam
bentuk web app atau deployment agar lebih sempurna. Dikarenakan penulis
mempunyai keterbatasan sehingga tidak bisa ke tahap deployment.
Selain itu, perlu ditambahkan algoritma machine learning yang lain selain KNN
agar bisa dibandingkan kinerjanya dan bisa diketahui performa terbaik dari salah satu
algoritma itu. Karena masih banyak algoritma machine learning yang berhubungan
dengan klasifikasi (supervised learning).
DAFTAR PUSTAKA
[1] Andiana Moedasir, “Marketplace adalah: Mengenal Marketplace dan

Contohnya,” majoo.id, 2022. https://majoo.id/solusi/detail/marketplace-adalah
(accessed Apr. 05, 2023).
[2] K. R. Ferdiani, “Pentingnya Marketplace untuk Mengembangkan Bisnis Secara
Digital,” modalrakyat.id, 2020. https://www.modalrakyat.id/blog/pentingnya-
marketplace-untuk-mengembangkan-bisnis-secara-digital (accessed Apr. 05,
2023).
[3] R. Amelia, “22 Marketplace di Indonesia yang Paling Banyak Dikunjungi,”
store.sirclo.com, 2022.
[4] K. D. Putra, “Ecommerce Terbaik Untuk Berjualan di Tahun 2023,”
sevenads.id, 2023.
[5] Cinthya, “Testimoni Adalah: Pengertian, Manfaat dan Cara Mudah
Mendapatkannya,” accurate.id, 2020. https://accurate.id/marketing-
manajemen/testimoni-adalah/ (accessed Apr. 05, 2023).
[6] M. Napizahni, “Natural Language Processing (NLP): Penjelasan & Contoh
Penerapannya,” dewaweb.com, 2022. https://www.dewaweb.com/blog/nlp-
adalah/ (accessed Apr. 06, 2023).
[7] Yosi Ghea Prasetyowati, “Klasifikasi menggunakan Metode KNN (K-Nearest
Neighbor) dalam Python,” medium.com, 2019.
[8] I. Alfiansya and N. Nurhadi, “Pengaruh Influencer Media Sosial dan Testimoni
terhadap Minat Beli Produk Erigo di Marketplace Indonesia,” Al-Kharaj J.
Ekon. Keuang. Bisnis Syariah, vol. 5, no. 2, pp. 843–856, 2022, doi:
10.47467/alkharaj.v5i2.1350.
[9] H. V. Parluhutan and A. H. Setiawan, “Pengaruh Modal, Pengalaman Usaha,
Strategi Promosi dan Pendidikan Terhadap Keuntungan Pelaku UMKM Fashion
pad Marketplace Online di Kota Semarang,” Diponegoro J. Econ., vol. 9(3), pp.
69
70
38–49, 2020, [Online]. Available: http://ejournal-s1.undip.ac.id/index.php/jme

[10] tokopedia, “Newsroom,” tokopedia.com, 2023.
https://www.tokopedia.com/about/news/#fact-sheet (accessed Apr. 06, 2023).
[11] Coriate, “Sejarah Singkat Tokopedia Di Indonesia,” pranataprinting.com, 2022.
https://www.pranataprinting.com/sejarah-singkat-tokopedia-di-indonesia/
[12] Soffya Ranti, “Mengenal Sejarah Berdirinya Tokopedia Hingga Melantai di
Bursa Efek Indonesia,” tekno.kompas.com, 2022.
https://tekno.kompas.com/read/2022/06/04/17150077/mengenal-sejarah-
berdirinya-tokopedia-hingga-melantai-di-bursa-efek-
indonesia?page=all&lgn_method=google (accessed Apr. 06, 2023).
[13] Hefty Suud, “Cara Menggunakan Chat GPT Gratis di Hp, Teknologi OpenAI
Viral, ‘Bisa Meniru Bahasa Manusia,’” jatim.tribunnews.com, 2023.
https://jatim.tribunnews.com/2023/03/16/cara-menggunakan-chat-gpt-gratis-
di-hpteknologi-openai-viral-bisa-meniru-bahasa-manusia (accessed Apr. 06,
2023).
[14] Minlab 2, “Apa itu Natural Language Processing (NLP)? Berikut Pengertian dan
Contohnya!,” bitlabs.id, 2022. https://bitlabs.id/blog/natural-language-
processing-adalah/ (accessed Apr. 06, 2023).
[15] Maulana, “Natural Language Processing (NLP): Definisi, Cara Kerja, Manfaat,
dan Contohnya,” pacmann.io, 2022. https://pacmann.io/blog/natural-language-
processing (accessed Apr. 06, 2023).
[16] M. A. Ramdhani and O. N. Rahim, “Analisis sentimen untuk mengukur
popularitas tokoh publik berdasar data pada media sosial twitter menggunakan
algoritma data mining dengan teknik klasifikasi,” Informasi, vol. VI, no. 2, pp.
1–15, 2014.
[17] F. Himma, “Analisis Sentimen adalah: Pengertian, Contoh, Tipe,” majoo.id,
2022. https://majoo.id/solusi/detail/analisis-sentimen-adalah (accessed Apr. 06,
2023).
71
[18] Untung Jamari, “PENJELASAN CARA KERJA ALGORITMA K-NEAREST

NEIGHBOR (KNN),” http://labdas.si.fti.unand.ac.id/, 2022.
http://labdas.si.fti.unand.ac.id/2022/03/20/penjelasan-cara-kerja-algoritma-k-
nearest-neighbor-knn/ (accessed Apr. 06, 2023).
[19] M. A. Wiratama and W. M. Pradnya, “Optimasi Algoritma Data Mining
Menggunakan Backward Elimination untuk Klasifikasi Penyakit Diabetes,” J.
Nas. Pendidik. Tek. Inform., vol. 11, no. 1, p. 1, 2022, doi:
10.23887/janapati.v11i1.45282.
[20] Lutfia Afifah, “Apa itu Confusion Matrix di Machine Learning,”
ilmudatapy.com, 2023. https://ilmudatapy.com/apa-itu-confusion-matrix/
[21] Muhammad Andi Yudha, “CRISP-DM, Pendekatan Proses dalam Data
Mining,” andiyudha.medium.com, 2021. https://andiyudha.medium.com/crisp-
dm-pendekatan-proses-dalam-data-mining-68bf8c2dc908 (accessed Apr. 08,
2023).
[22] Anggit Puguh, “Apa Itu Python? Pengertian, Fungsi dan Contohnya,”
blog.rumahweb.com, 2022. https://blog.rumahweb.com/python-adalah/
[23] bimodwi, “Sejarah Dan Manfaat Bahasa Pemrograman Python,”
idmetafora.com, 2022. https://idmetafora.com/news/read/691/Sejarah-Dan-
Manfaat-Bahasa-Pemrograman-Python.html (accessed Apr. 08, 2023).

Skripsi Muna Rival

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Skripsi Muna Rival

Diunggah oleh

Hak Cipta:

Format Tersedia

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOR

(KNN) UNTUK ANALISIS SENTIMEN PENGGUNA

M. Rival Ridautal Lillah 1197050063

Penelitian ini bertujuan untuk menganalisis sentimen pengguna aplikasi Tokopedia di

Kata Kunci: K-Nearest Neighbor (KNN), analisis sentimen, aplikasi Tokopedia,

Keywords: K-Nearest Neighbor (KNN), sentiment analysis, Tokopedia application,

“Menuntut ilmu adalah takwa. Menyampaikan ilmu

1. Dian Sa’adillah Maylawati, S.Kom., MT., Ph.D. dan Wildan Budiawan

Bandung, 13 Agustus 2023

M Rival Ridautal Lillah

LEMBAR PENGESAHAN ..................................................................................................... i

Gambar 2. 1 Logo Tokopedia ................................................................................................. 11

Tabel 1.1 Kerangka Pemikiran.................................................................................................. 7

publik untuk mendukung pengambilan keputusan. Tugas analisis sentimen adalah

1.2 Perumusan Masalah

1.3 Tujuan dan Manfaat

Adapun manfaat dari penelitian ini adalah:

1.4 Batasan Masalah

1.5 The State Of The Art

1. Shima Fanissa, dkk (2018), penelitian yang dilakukan dengan judul

Dengan ini penulis menyimpulkan dan menjadi bahan dalam penelitian

1.6 Kerangka Pemikiran

Banyak orang yang skeptis terhadap

Adanya teknologi NLP dalam

Algoritma K-Nearest Neighbor (KNN)

Jupyter Notebook dan Python 3.11.1

Hasil analisis sentimen pengguna

1.7 Sistematika Penulisan

Gambar 2. 1 Logo Tokopedia [10]

2.3 Natural Language Processing (NLP)

Gambar 2.2 ChatGPT adalah Contoh dari NLP [13]

2. Algoritma machine learning NLP memerlukan “data latih” dan

2.4 Analisis Sentimen

1. Pendapat atau pandangan yang didasarkan pada perasaan yang berlebih-lebihan

2.5 K-Nearest Neighbor (KNN)

2.6 Confusion Matrix

2.7 Cross-Industry Standard Process for Data Mining (CRISP-DM)

Pada tahun 1991, Guido van Rossum menciptakan bahasa pemrograman

Untuk menyelesaikan masalah ini dilakukan menggunakan metode Cross-

Gambar 3.1 Metodologi Penelitian

3.1 Business Understanding

Gambar 3.2 Alur Proses Data Preparation

Tabel 3.1 Contoh Implementasi Proses Casefolding

Sedangkan pada proses normalization mengubah data ke dalam format yang

Tabel 3.4 Contoh Implementasi Proses Stopwords Removal

Tabel 3.5 Contoh Implementasi Proses Stemming

Tabel 3.7 Contoh Implementasi Proses Cosine Similarity

Proses cosine similarity bertujuan untuk menentukan seberapa dekat dua

HASIL DAN PEMBAHASAN

4.1 Hasil Business Understanding

4.2 Hasil Data Understanding

4.3 Hasil Data Preparation

Gambar 4.1 Proses Casefolding Data Play Store

Gambar 4.2 Proses Casefolding Data App Store

1. Mengubah teks pada parameter “review” menjadi huruf kecil menggunakan

Gambar 4.3 Proses Cleansing Data Play Store

Gambar 4.4 Proses Cleansing Data App Store

Gambar 4.5 Proses Tokenization Data Play Store

Gambar 4.6 Proses Tokenization Data App Store

Gambar 4.7 Proses Stopwords Removal Data Play Store

Gambar 4.8 Proses Stopwords Removal Data App Store

9. Ubah nilai kolom review dalam DataFrame menjadi kata-kata setelah

Gambar 4.9 Proses Stemming Data Play Store