METODOLOGI PENELITIAN
aplikasi Gojek pada platform Play Store menjadi 3 label yaitu positif, netral dan
negatif. Model akan dibangun dengan beberapa variasi rasio dan hyperparameter
yang akan dijelaskan pada bab selanjutnya, dimana penelitian ini akan melakukan
seleksi model sesuai dengan hasil evaluasi performa dengan nilai paling baik.
Model yang terpilih akan digunakan untuk memprediksi kalimat ulasan dari data
baru, yaitu teks yang didapatkan dari pengguna aplikasi Gojek dengan peserta
survei yaitu mahasiswa UMN angkatan 2015 dan ulasan data baru Play Store .
Hal ini ditujukan untuk menguji model dapat bekerja dengan baik pada ulasan
berikut:
25
Gambar 3. 1 Alur Penelitian
26
Pada gambar 3.1 dapat dilihat bahwa alur penelitian tersebut yang akan
pengguna Gojek yang tertulis pada platform Google Play Store. Ulasan
2021 hingga 8 Mei 2021. Berikut cara melakukan scraping data ulasan
1
(https://github.com/JoMingyu/google-play-scraper) merupakan library google play
scraper. Setelah itu, hasil ulasan Gojek tersebut akan disimpan dalam format csv.
27
Pada gambar 3.2, kata kunci yang digunakan adalah „com.gojek.app‟
Selanjutnya, Gambar 3.4 dan gambar 3.5 menunjukkan python script yang
digunakan untuk scraping pada Play Store, dimana bahasa yang digunakan
Data baru Google Play Store dan data survei digunakan untuk
28
memadai untuk digunakan adalah 30 sampel[33].Hasil data baru Google
Play Store diambil dari tanggal 9 Mei 2021- 16 Mei 2021 , sedangkan
Gojek dan melakukan labeling (positif atau negatif atau netral) terhadap
pengujian akhir dari model yang dipilih untuk melihat performa model.
program studi.
Akuntansi 78 2
Manajemen 126 3
Sistem Informasi 88 2
29
Teknik Informatika 124 2
Teknik Komputer 15 1
Total 1456 30
mahasiswa UMN angkatan 2015 yaitu 1456 didapatkan 0,0604. Lalu, dari
2.
dilakukan. Tahapan ini dilakukan agar ulasan-ulasan yang ada dapat diolah
tabel 3.2, semua huruf yang ada pada ulasan diubah menjadi huruf kecil
penyeragaman.
30
Tabel 3. 2 Tabel Case Folding
No Content Content
(Sebelum Casefolding) (Sesudah Casefolding)
1 Aman dan cepat..... aman dan cepat.....
2 Insentif prakerja tgl 19 Mei 2021 insentif prakerja tgl 19 mei 2021
kenapa belum cair ewalet yang kenapa belum cair ewalet yang
lain sudah cair tolong bantuannya lain sudah cair tolong
Gojek bantuannya gojek
3 Thanks! Gopay saya yang hilang thanks! gopay saya yang hilang
akhirnya sudah masuk. Saya akhirnya sudah masuk. saya
harap, kelalaian seperti ini tidak harap, kelalaian seperti ini tidak
terjadi lagi. Tingkatkan lagi terjadi lagi. tingkatkan lagi
keakuratan sistem, pelayanan dan keakuratan sistem, pelayanan
keamanan, terutama untuk sistem dan keamanan, terutama untuk
pembayaran gopay, saya harap sistem pembayaran gopay, saya
tidak ada lagi transaksi yang harap tidak ada lagi transaksi
missing/ tdk tercatat oleh sistem yang missing/ tdk tercatat oleh
ataupun tertunda. sistem ataupun tertunda.
No Content Content
(Sebelum Casefolding) (Sesudah Casefolding)
4 Pelayanan go car hari ini buruk pelayanan go car hari ini buruk
bgt, pesan dimana malah kita bgt, pesan dimana malah kita
costumer yg suruh jalan kaki costumer yg suruh jalan kaki
samperin. Saya sudah chat bawa samperin. saya sudah chat bawa
baby (kebayang ga lg covid gini) baby (kebayang ga lg covid
dan juga disuruh bayar parkir dmn gini) dan juga disuruh bayar
dia berada. Tolong dong bisa parkir dmn dia berada. tolong
direview driver nya yg sprt ini. dong bisa direview driver nya
Soalnya di app gojeknya ga bisa yg sprt ini. soalnya di app
complain mengenai driver yg gini. gojeknya ga bisa complain
mengenai driver yg gini.
gambar sebelum data cleansing dan pada gambar 3.7 merupakan gambar
sesudah data cleansing. Ketika dilakukan penarikan data, maka data yang
komponen lain juga. Oleh karena itu data cleansing perlu dilakukan untuk
31
menghapus reviewId, userName, userImage, score, thumbUpCount,
Artian dalam emoticon yang sangat luas dan tergantung pada preferensi
32
masing-masing pribadi, memberikan kesempatan besar untuk kesalahan
pengertian. Oleh sebab itu, agar mendapatkan ulasan yang apa adanya,
kesalahan baca data pada proses data training dan data testing.
Mei 2021 memiliki total sebanyak 13583 data. Dataset akan dibagi
menjadi data training dan data testing. Dari keseluruhan data terdapat 3
skenario rasio yaitu, 60% dan 40%, 70% dan 30%, serta 80% dan 20%.
Setelah itu data training akan dibagi menjadi data training dan juga data
33
validasi dengan rasio masing-masing 80% dan 20% dari jumlah data
training, data validation dan data testing) di simpan dalam format tsv.
1. IndoBERT Base
parameter.
2. Hyperparameter tuning
34
Menurut penelitian dari BERT, ada tiga parameter yang dapat
dan digunakan untuk tahap pelatihan model. Adapun daftar alternatif nilai
Batch size : 8
Epoch : 3,4
dengan spesifikasi dari google collab yang digunakan yaitu batch size
sebesar 8 , learning rate sebesar 3e-6 dan 2 variasi epoch yaitu 3 dan 4.
35
3.2.5 Data Training
dari proses pembagian data sebelumnya yaitu train data dan validation
16, maksimal dari panjang sequence adalah 512 dan data training akan di
dan akurasi dari data training dan data validasi pada setiap epoch. Proses
RAM sebesar 26 GB, GPU NVIDIA Tesla P100 dengan VRAM sebesar
hasil pencarian parameter yang optimal. Hasil pencarian ini berguna untuk
3.2.6 Model
dalam format pickle yang selanjutnya akan dibandingkan pada proses data
36
3.2.7 Data Testing
menyiapkan data training. Data testing ini kemudian akan digunakan pada
matrix untuk mengukur performa model yang didapatkan dari proses fine-
tuning. Hasil yang akan dihitung adalah precision, recall, accuracy dan f1
3.10
37
Suatu prediksi termasuk TP jika yang diprediksi benar sesuai
dengan yang terjadi yaitu bernilai benar, FP atau kesalahan tipe jika yang
diprediksi adalah salah tetapi tidak sesuai dengan kenyataan yaitu bernilai
tetapi nyatanya bernilai salah, dan TN jika prediksi menyatakan nilai salah
38
Rumus 5 Menghitung Accuracy
d. F1-Score mengkalkulasi harmoni antara precision dan recall. F1-
implementation.
39