Anda di halaman 1dari 65

IMPLEMENTASI ALGORITMA RANDOM FOREST UNTUK

KLASIFIKASI SENTIMEN APLIKASI TIKTOK PADA


GOOGLE PLAY STORE

SKRIPSI

IGA ADHA SAPUTRA


NIM. 180401105

PROGRAM STUDI TEKNIK INFORMATIKA


FAKULTAS ILMU KOMPUTER
UNIVERSITAS MUHAMMADIYAH RIAU
PEKANBARU
2022
IMPLEMENTASI ALGORITMA RANDOM FOREST UNTUK
KLASIFIKASI SENTIMEN APLIKASI TIKTOK PADA
GOOGLE PLAY STORE

SKRIPSI

Merupakan Salah Satu Syarat Memperoleh Gelar Sarjana Ilmu Komputer

IGA ADHA SAPUTRA


NIM. 180401105

PROGRAM STUDI TEKNIK INFORMATIKA


FAKULTAS ILMU KOMPUTER
UNIVERSITAS MUHAMMADIYAH RIAU
PEKANBARU
2022
HALAMAN PERNYATAAN ORISINALITAS

Saya yang menyatakan dengan sesungguhnya bahwa Skripsi ini merupakan


hasil karya saya sendiri kecuali kutipan (Baik secara langsung maupun tidak
langsung), saya ambil dari berbagai sumber dan disebutkan sumbernya. Secara
ilmiah saya bertanggung jawab atas kebenaran data dan fakta skripsi atau tugas
akhir ini.

Pekanbaru, 09 Juni 2022

Iga Adha Saputra


NIM.180401105

Universitas Muhammadiyah Riau


HALAMAN PENGESAHAN SKRIPSI
IMPLEMENTASI ALGORITMA RANDOM FOREST UNTUK
KLASIFIKASI SENTIMEN APLIKASI TIKTOK PADA
GOOGLE PLAY STORE
Disusun Oleh:

Nama : Iga Adha Saputra


NIM : 180401105
Program studi : Teknik Informatika

TIM PEMBIMBING

Pembimbing I Pembimbing II

Reny Medikawati Taufiq, S.Kom., M.T Hasanatul Fu’adah Amran,S.Pd., M.Pd


NIDN : 1013028301 NIDN : 1019129301

KETUA PROGRAM STUDI TEKNIK INFORMATIKA

Soni, S.Kom., M.Kom


NIDN : 1004049101

Skripsi ini telah diterima sebagai salah satu syarat memperoleh gelar sarjana
komputer pada fakultas ilmu komputer Universitas Muhammadiyah Riau.

Disetujui oleh
Dekan Fakultas Ilmu Komputer

Harun Mukhtar, S.Kom., M.Kom


NIDN : 1004117603

Universitas Muhammadiyah Riau


Universitas Muhammadiyah Riau
HALAMAN PENGESAHAN DEWAN PENGUJI

Nama : Iga Adha Saputra

Nim : 180401105

Program Studi : Teknik Informatika

Fakultas : Ilmu Komputer

Jenjang Pendidikan : Strata-1(S1)

Jenis Karya : Skripsi

Judul : Implementasi Algoritma Random Forest Untuk


Klasifikasi Sentimen Aplikasi Tiktok Pada Google Play
Store

No Nama Dosen Jabatan Tanda


Tangan
1 Rahmad Firdaus, S.Kom.,M.TI Ketua
NIDN : 1024069002
2 Desti Mualfah, S.Kom., M.Kom Penguji I
NIDN : 1001129002
3 Diah Angraina Fitri, M.Si Penguji II
NIDN : 0030039002
4 Reny Medikawati Taufiq, S.Kom., MT Penguji III
NIDN : 1013028301
5 Hasanatul Fuadah Amran, M.Pd Penguji IV
NIDN : 1019129301

Telah Diuji Tanggal : 19 September 2022

Mengetahui,
Ketua Program Studi

Soni, S.Kom., M.Kom.


NIDN: 1004049101

Universitas Muhammadiyah Riau


KATA PENGANTAR

Puji syukur saya persembahkan kepada Tuhan Yang Maha Esa, karena atas
berkat dan rahmat-Nya, saya dapat menyelesaikan skripsi dengan judul
“IMPLEMENTASI ALGORITMA RANDOM FOREST UNTUK
KLASIFIKASI SENTIMEN APLIKASI TIKTOK PADA GOOGLE PLAY
STORE”. Penulisan skripsi ini dilakukan dalam rangka memenuhi salah satu
syarat untuk mencapai gelar Sarjana Komputer program studi Teknik Informatia
pada Fakultas Ilmu Komputer Universitas Muhammadiyah Riau.

Dalam penyusunan skripsi ini banyak pihak yang telah membantu, oleh
karena itu tidak lupa penulis mengucapkan terima kasih banyak kepada:
1. Bapak Dr. Saidul Amin, MA. Selaku Rektor Universitas Muhammadiyah
Riau.
2. Bapak Harun Mukhtar, S.Kom., M.Kom, selaku Dekan Fakultas Ilmu
Komputer.
3. Bapak Soni, S.Kom., M.Kom, selaku Kepala Prodi Teknik Informatika.
4. Ibuk Reny Medikawati Taufiq, S.Kom., M.T selaku dosen pembimbing 1
yang telah membimbing dan banyak memberi saran.
5. Ibuk Hasanatul Fu’adah Amran, S.Pd., MPd selaku dosen pembimbing 2
yang telah membimbing dan banyak memberi saran.
6. Seluruh Dosen Prodi Teknik Informatika Universitas Muhammadiyah Riau.
7. Orang tua saya, serta seluruh teman-teman yang terus mendampingi dan
memberikan semangat.
Dalam penyusunan skripsi ini saya telah berusaha semaksimal mungkin
menyelesaikan skripsi ini menjadi lebih sempurna, apabila masih terdapat
kekurangan maka dengan segala kerendahan hati saya mengharapkan kritik dan
saran yang konstruktif dari semua pihak demi kesempurnaan skripsi ini. Semoga
skripsi ini bermanfaat untuk perkembangan keilmuan dimasa yang akan datang.

Pekanbaru, 09 Juni 2022

Iga Adha Saputra

Universitas Muhammadiyah Riau


PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI
SERTA PELIMPAHAN HAK CIPTA

Dengan ini saya menyatakan bahwa skripsi berjudul “IMPLEMENTASI


ALGORITMA RANDOM FOREST UNTUK KLASIFIKASI SENTIMEN
APLIKASI TIKTOK PADA GOOGLE PLAY STORE” adalah benar karya
saya dengan arahan dari pembimbing dan belum diajukan dalam bentuk apapun
kepada perguruan tinggi manapun. Sumber informasi yang berasal atau dikutip
dari karya yang terbitkan atau yang tidak diterbitkan dari penulis lain telah
disebutkan dalam teks dan dicantumkan dalam daftar pustaka dibagian akhir
skripsi ini.

Dengan ini saya yang melimpahkan hak cipta dari karya tulis saya kepada
Universitas Muhammadiyah Riau

Pekanbaru, 09 Juni 2022

Iga Adha Saputra


(180401105)

Universitas Muhammadiyah Riau


ABSTRAK

Aplikasi TikTok diresmikan pada tahun 2016 oleh Zhang Yiminy yang
berasal dari Cina. Aplikasi ini juga sekarang menjadi aplikasi yang sangat
diminati oleh masyarakat, Hampir rata rata pengguna aplikasi Tik Tok berusia di
bawah 18 tahun. Bahkan, banyak diantaranya anak anak pengguna tiktok yang
masih sekolah dasar. Jika melihat sekilas, memang banyak konten di Tik Tok
yang tidak layak untuk anak anak dibawah umur. Berdasarkan permasalahan
tersebut, penulis akan melakukan analisis sentimen terhadap ulasan pengguna
TikTok di Google Play Store mengunakan algoritmat Random Forest. Hasil dari
pengujian ini di dapat kelas positif berjumlah 4538, kelas negatif berjumlah 1028
dan kelas netral berjumlah 4434 dari 10.000 dataset dan Algoritma Random
Forest mendapatkan nilai precision sebesar 0,9554, recall sebesar 0,9542, f1-
score sebesar 0,9547, dan accuracy sebesar 0,9544.

Kata Kunci : Aplikasi Tiktok, Tiktok, Random Forest

Universitas Muhammadiyah Riau


ABSTRACT

The TikTok app was launched in 2016 by Zhang Yiminy who is from
China. This application is also now an application that is in great demand by the
public. Almost the average user of the Tik Tok application is under 18 years old.
In fact, many of them are children who use tiktok who are still in elementary
school. At first glance, there is indeed a lot of content on Tik Tok that is not
suitable for minors. Based on these problems, the author will conduct a sentiment
analysis on TikTok user reviews on the Google Play Store using the Random
Forest algorithm. The results of this test are 4538 positive classes, 1028 negative
classes and 4434 neutral classes from 10,000 datasets and the Random Forest
Algorithm gets a precision value of 0.9554, recall is 0.9542, f1-score is 0.9547,
and accuracy is 0.9544.

Keywords: Tiktok Application, Tiktok, Random Forest

Universitas Muhammadiyah Riau


DAFTAR ISI

HALAMAN PERNYATAAN ORISINALITAS......................................................i

HALAMAN PENGESAHAN SKRIPSI..................................................................ii

HALAMAN PENGESAHAN DEWAN PENGUJI...............................................iii

KATA PENGANTAR............................................................................................iv

PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA


PELIMPAHAN HAK CIPTA..................................................................................v

ABSTRAK..............................................................................................................vi

ABSTRACT...........................................................................................................vii

DAFTAR ISI.........................................................................................................viii

DAFTAR GAMBAR..............................................................................................xi

DAFTAR TABEL..................................................................................................xii

DAFTAR RUMUS...............................................................................................xiii

BAB 1 PENDAHULUAN.......................................................................................1

1.1. Latar Belakang...........................................................................................1

1.2. Identifikasi Masalah...................................................................................2

1.4. Tujuan Penelitian.......................................................................................3

1.5. Manfaat Penelitian.....................................................................................3

1.6. Batasan Masalah........................................................................................3

1.7. Sistematika Penulisan................................................................................3

BAB 2 LANDASAN TEORI...................................................................................5

2.1. Machine learning.......................................................................................5

2.2. Text Mining................................................................................................6

2.3. Imbalance Class.........................................................................................6

2.4. Confusion Matrix.......................................................................................7

2.5. Metode Random Forest..............................................................................7

Universitas Muhammadiyah Riau


2.6. Aplikasi TikTok.........................................................................................8

BAB 3 METODE PENELITIAN...........................................................................18

3.1. Tahapan Metode Penelitian.....................................................................18

3.2. Pengumpulan Data...................................................................................19

3.3. Text Preprocessing..................................................................................19

3.4. Term Frequency-Inverse Document Frequency (TF-IDF)......................20

3.5. Syntetic Minority Over-sampling Technique ( SMOTE ).........................21

3.6. Klasifikasi Random Forest.......................................................................21

3.7. Implementasi dan Pengujian....................................................................22

BAB 4 HASIL DAN PEMBAHASAN.................................................................23

4.1. Pengumpulan Data...................................................................................23

4.2. Tahapan Text Preprocessing....................................................................25

4.2.1. Tahapan Case Folding.....................................................................25

4.2.2. Tahapan Cleaning............................................................................27

4.2.3. Tahapan Tokenizing.........................................................................28

4.2.4. Tahapan Normalisasi......................................................................30

4.2.5. Tahapan Stopword Removal.............................................................31

4.2.6. Tahapan Stemming...........................................................................33

4.3. Proses Labeling........................................................................................35

4.4. Term Frequency-Inverse Document Frequency (TF-IDF)......................36

4.5. Syntetic Minority Over-sampling Technique ( SMOTE ).........................38

4.6. Splite Dataset...........................................................................................38

4.7. Klasifikasi Random Forest.......................................................................39

4.8. Implementasi dan Pengujian....................................................................40

4.8.1. Pengujian Confusion Matrix....................................................................40

4.8.2. Visualisasi Kata Sering Muncul..............................................................42

Universitas Muhammadiyah Riau


BAB 5 PENUTUP..................................................................................................45

5.1. Kesimpulan..............................................................................................45

5.2 Saran........................................................................................................45

DAFTAR PUSTAKA............................................................................................46

Universitas Muhammadiyah Riau


DAFTAR GAMBAR

Gambar 3. 1 kerangka penelitian...........................................................................18


Gambar 3. 2 Ilustrasi Ramdom Forest...................................................................21

Gambar 4. 1 Tampilan Halan Google Colab 23

Gambar 4. 2 Proses Scrapping...............................................................................24


Gambar 4. 3 Hasil Scrapping Data.........................................................................25
Gambar 4. 4 Proses Case Folding..........................................................................26
Gambar 4. 5 Proses Cleaning.................................................................................27
Gambar 4. 6 Proses Tokenizing.............................................................................29
Gambar 4. 7 Proses Normalisasi............................................................................30
Gambar 4. 8 Proses Stopword Removal................................................................32
Gambar 4. 9 Proses Stemming...............................................................................33
Gambar 4. 10 Hasil dataset yang telah di Preprocessing.......................................34
Gambar 4. 11 Proses dan Hasil Labeling...............................................................35
Gambar 4. 12 Proses dan jumlah data yang telah di labelling...............................36
Gambar 4. 13 Proses dan hasil TF-IDF..................................................................36
Gambar 4. 14 Proses dan hasil teknik SMOTE.....................................................38
Gambar 4. 15 Proses dan keluaran Splite Dataset.................................................39
Gambar 4. 16 Proses dah hasil klasifikasi random forest......................................40
Gambar 4. 17 Proses dan hasil dari confusion matrix............................................40
Gambar 4. 18 Tampilan Grafik Confusion Matrix................................................41
Gambar 4. 19 WordCloud Pada Sentimen Positif..................................................43
Gambar 4. 20 WordCloud Pada Sentimen Negatif................................................43
Gambar 4. 21 WordCloud Pada Sentimen Negatif................................................44

Universitas Muhammadiyah Riau


DAFTAR TABEL

Tabel 2. 1 Penelitian Terdahulu...............................................................................9


Tabel 4. 1 Hasil Case Folding
Tabel 4. 2 Hasil Proses Cleaning
Tabel 4. 3 Hasil Proses Tokenizing
Tabel 4. 4 Proses hasil Normalisasi
Tabel 4. 5 Hasil Proses Stopword Removal
Tabel 4. 6 Hasil Proses Stemming
Tabel 4. 7 Hasil Perhitungan Manual TF-IDF
Tabel 4. 8 Hasil dari eksperimen pembagian data training dan data testing
Tabel 4. 9 Tampilan Untuk Perhitungan Manual Confusion Matrix
Tabel 4. 10 Hasil perhitungan manual precision
Tabel 4. 11 Hasil perhitungan manual recall

Universitas Muhammadiyah Riau


DAFTAR RUMUS

Rumus 2. 1 𝐴𝑐𝑐𝑢𝑟𝑎𝑐y..............................................................................................7
Rumus 2. 2 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜n..............................................................................................7
Rumus 2. 3 𝑅𝑒𝑐𝑎𝑙 ...................................................................................................7
Rumus 2. 4 𝐹1 – Score .........................................................................................7
Rumus 3. 1 IDF......................................................................................................20
Rumus 3. 2 W.........................................................................................................20
Rumus 3. 3 𝐴𝑐𝑐𝑢𝑟𝑎𝑐y............................................................................................22
Rumus 3. 4 𝑃𝑟𝑒𝑐𝑖𝑠𝑖on............................................................................................22
Rumus 3. 5 𝑅𝑒𝑐𝑎𝑙l.................................................................................................22
Rumus 3. 6 𝐹1 – Score...........................................................................................22
Rumus 4. 1 IDF .....................................................................................................37
Rumus 4. 2 W ........................................................................................................37

Universitas Muhammadiyah Riau


BAB 1
PENDAHULUAN

1.1. Latar Belakang


Aplikasi TikTok diresmikan pada tahun 2016 oleh Zhang Yiminy yang
berasal dari Cina. Aplikasi ini dapat membuat video dengan durasi 3 menit dan
dapat menambahkan banyak fitur misalnya, menambahkan musik dalam video,
mengubah suara, filter, menambahkan effect dan stiker, dll. Aplikasi TikTok ini
juga mendorong kreativitas penggunanya dalam membuat video-video. Aplikasi
ini juga sekarang menjadi aplikasi yang sangat diminati oleh masyarakat, bahkan
pengguna TikTok di Indonesia makin meningkat terlebih di masa pandemi
(Zulqornain and Adikara, 2021). Menurut laporan perusahaan riset pasar aplikasi
mobile Sensor Tower, pada periode Juli 2020, jumlah pengguna TikTok di
Indonesia sebanyak 8,5 persen, terbanyak kedua setelah Amerika sebanyak 9,7
persen (Sola, Suparti and Sudarno, 2021).
Hampir rata rata pengguna aplikasi Tik Tok berusia di bawah 18 tahun.
Bahkan, banyak diantaranya anak anak pengguna tiktok yang masih sekolah
dasar. Tentunya, hal ini membahayakan bagi perkembangan mental generasi
penerus bangsa. Pemikiran dan pendirian mereka cenderung belum stabil. Jika
melihat sekilas, memang banyak konten di Tik Tok yang tidak layak untuk anak
anak dibawah umur, (Batoebara, 2020). Menurut Kementerian Teknologi
Informasi dan Komunikasi, batas usia pengguna TikTok saat ini adalah 13 tahun,
dan diperlukan bantuan orang tua untuk pengguna di bawah usia 13 tahun
(Siregar, 2021).
Dengan banyaknya pengguna TikTok, aplikasi ini tidak memungkiri bahwa
ada dampak positif ataupun negatif pada TikTok tersebut. Dampak positif seperti
video-video yg bermanfaat seperti media pembelajaran, dan dampak negatif
seperti bullying dan narcissistic, karena di dalam aplikasi tersebut terdapat kolom
komentar yang digunakan penggunanya untuk melakukan penilaian terhadap
video yang diunggah. Dalam kolom komentar tersebut pengguna bebas
menggunakan bahasa apapun yang tidak memungkiri dalam menulis komentar
tersebut bersifat kasar bahkan menyerang penggunggah video tersebut yang

Universitas Muhammadiyah Riau


mengakibatkan terjadinya bullying. Tidak hanya kolom komentar, aplikasi ini
juga

Universitas Muhammadiyah Riau


2

menyediakan tombol like yang digunakan untuk menyukai video yang sudah
ditonton. Untuk mendapatkan like banyak penggunggah video tidak segan-segan
untuk melakukan tindakan narcissistic. (Zulqornain and Adikara, 2021)
Aplikasi TikTok ini berupa aplikasi yang dapat membagikan video, tetapi
biasanya juga muncul video yang memiliki unsur vulgar yang dapat dilihat oleh
anak di bawah umur. Oleh karena itu penulis melakukan analisis sentimen pada
ulasan aplikasi TikTok untuk membantu orang tua dalam pemilihan aplikasi untuk
anaknya. Review tersebut dapat dilakukan dengan analisis sentiment dari opini
masyarakat terhadap pengguna aplikasi tiktok, opini masyarakat dikelompokan
menjadi opini negatif, positif dan netral. Analisis sentimen adalah metode untuk
mengekstrak opini dan sentimen dari teks bahasa alami menggunakan metode
komputasi. Opini dan sentimen terkait dengan evaluasi, penilaian, sikap,
pengaruh, emosi, dan suasana hati. Analisis sentimen ini umumnya merupakan
proses klasifikasi teks yang berfokus pada ulasan yang mengungkapkan apakah
ulasan tersebut positif, negatif atau netral (Sola, Suparti and Sudarno, 2021).

Berdasarkan latar belakang di atas, penulis akan melakukan analisis


sentimen terhadap ulasan pengguna TikTok di Google Play Store, output dari
analisis sentiment ini adalah untuk mengklasifikasi ulasan masyarakat lebih
mengarah kepada opini negative, positif atau netral. Pengklasifikasian dilakukan
dengan metode Random Forest. Metode Random Forset merupakan kumpulan
metode pembelajaran menggunakan pohon keputusan sebagai base classifier yang
dibangun dan dikombinasikan (Fitri, 2020).

1.2. Identifikasi Masalah


Tiktok masih sering membagikan konten yang memiliki unsur vulgar,
bullying dan narcissistic yang belum di filter sehingga masih banyak dilihat oleh
anak-anak di bawah umur.

1.3. Rumusan Masalah


Bagaimana menerapkan algoritma Random Forest dalam melakukan
analisis sentimen terhadap ulasan aplikasi tiktok pada google play store?

Universitas Muhammadiyah Riau


3

1.4. Tujuan Penelitian


Untuk mengetahui algoritma Random Forest mampu melakukan analisis
sentimen terhadap ulasan aplikasi tiktok pada google play store dengan baik.

1.5. Manfaat Penelitian


Adapun manfaat dari penelitian ini yaitu:
1. Menghasilkan nilai positif, negatif dan netral pada opini masyarakat
terhadap aplikasi tiktok.
2. Dapat membantu orang tua terhadap anak-anak yang dibawah umur
dalam kecenderungan penggunaan aplikasi tiktok.

1.6. Batasan Masalah


Berikut merupakan batasan masalah pada penelitian tugas akhir ini:
1. Dalam penelitian ini menggunakan metode random forest.
2. Menggunakan Bahasa pemrograman python.
3. Sentimen diklasifikasinya menjadi 3 kelas yaitu positif, negatif dan
netral.
4. Dataset yang digunakan merupakan ulasan komentar terhadap penguna
aplikasi tiktok pada aplikasi google play store dengan jumlah data yang
diambil sebanyak 10000.

1.7. Sistematika Penulisan


Sistematika penulisan tugas akhir terdiri dari lima bagian dan diterapkan
agar penelitian lebih terstruktur dan tersistematis, dengan sistematika penulisan
penelitian sebagai berikut:
BAB I PENDAHULUAN
Pada bab ini membahas tentang latar belakang yang mendasari penelitian,
rumusan masalah yang akan diteliti, tujuan penelitian, manfaat penelitian,
Batasan-batasan masalah dalam penelitian, dan sistematika penulisan skripsi.
BAB II TINJAUAN TEORI
Bab dua merupakan tinjauan teori yang menerangkan mengenai landasan
teoritis secara ilmiah yang berkesinambungan dengan penelitian, baik dari segi
topik permasalahan dan solusi yang ditawarkan beserta metode yang diambil
dalam penelitian ini.

Universitas Muhammadiyah Riau


4

BAB III METODE PENELITIAN


Bab tiga memaparkan metode penelitian yang berkaitan dengan alur
penelitian pada tugas akhir ini, serta prosedur penyusunan laporan penelitian tugas
akhir.
BAB IV HASIL DAN PEMBAHASAN
Bab empat berupa hasil dan pembahasan penelitian yang memaparkan
tentang tahap dan proses penelitian secara lebih detail, yaitu tahap dan proses
melakukan analisis sentimen ulasan pengguna aplikasi tiktok pada google play
store menggunakan algortima Random Forest.
BAB V KESIMPULAN DAN SARAN
Bab lima merupakan bagian akhir dari penelitian yang berisi tentang
kesimpulan dari penelitian yang telah dilakukan dan saran yang diharapkan untuk
pengembangan penelitian pada masa yang akan datang.

Universitas Muhammadiyah Riau


BAB 2
LANDASAN TEORI

2.1. Machine learning

Machine learning dapat didefinisikan sebagai aplikasi komputer dan


algoritma matematika dengan cara pembelajaran yang berasal dari data dan
menghasilkan prediksi di masa yang akan datang. Bidang machine learning
berkaitan dengan pertanyaan tentang bagaimana membangun program komputer
agar meningkat secara otomatis dengan berdasar dari pengalaman (Homepage et
al., 2019).
Machine learning memiliki fokus pada pengembangan sistem yang mampu
belajar sendiri untuk memutuskan sesuatu tanpa harus berulang kali diprogram
oleh manusia. Hal ini menjadikan mesin tidak hanya mampu berperilaku
mengambil keputusan, namun juga dapat beradaptasi dengan perubahan yang
terjadi. Machine learning bekerja apabila tersedia data sebagai input untuk
dilakukan analisis terhadap kumpulan data besar, sehingga menemukan pola
tertentu. Data merupakan bahan input yang akan digunakan untuk melakukan
pembelajaran (training) sehingga mesin dapat menghasilkan analisis yang benar.
Didalam machine learning dikenal data training dan data testing, data training
untuk melatih algoritma dalam machine learning dan data testing untuk
mengetahui performa dari algoritma dalam machine learning yang telah dilatih
yaitu ketika menemukan data baru yang belum pernah diberikan dalam data
training (Retnoningsih and Pramudita, 2020).
Machine learning menggunakan teknik untuk menangani data besar (big
data) dengan cara yang cerdas untuk memberikan hasil yang tepat. Berdasarkan
teknik pembelajarannya, tipe-tipe machine learning dapat dibedakan menjadi
supervised learning, unsupervised learning, semi supervised learning dan
reinforcement learning. Supervised learning merupakan salah satu teknik machine
learning yang menggunakan dataset yang sudah berlabel untuk melakukan
pembelajaran pada mesin, sehingga mesin mampu mengidentifikasi label input
dengan menggunakan fitur yang dimiliki untuk selanjutnya melakukan prediksi
maupun klasifikasi, sedangkan unsupervised learning adalah teknik dengan

Universitas Muhammadiyah Riau


6

menarik kesimpulan berdasarkan dataset yang merupakan input data labeled


response. Salah satu fungsi dari machine learing menjadikan komputer
berperilaku lebih cerdas, dengan cara menggeneralisasi secara otomatis
berdasarkan pengalaman masa lalu dalam pengklasifikasi yang baik, klasifikasi
merupakan model untuk memprediksi suatu nilai yang tidak diketahui
(Retnoningsih and Pramudita, 2020).

2.2. Text Mining

Text mining adalah proses mengekstrak informasi melalui identifikasi dan


eksplorasi yang menarik dari sumber data berupa kumpulan dokumen data
tekstual yang tidak terstruktur. Preprocessing data dilakukan untuk mengubah
data tidak terstruktur menjadi lebih terstruktur sehingga data siap diproses.
Preprocessing yang dilakukan adalah case folding, cleaning, dan normalisasi kata.
Case folding yaitu proses penyeragaman bentuk huruf pada dokumen. Cleaning
yaitu penghapusan karakter selain yang ditentukan, seperti huruf atau karakter di
luar dari alfabet a-z, tanda baca, angka, dan emoticon. Normalisasi kata yaitu
perbaikan kata yang tidak sesuai pedoman (Sola, Suparti and Sudarno, 2021).

2.3. Imbalance Class

Imbalance class adalah kondisi distribusi antar kelas yang tidak seimbang
pada suatu dataset, dimana salah satu kelasnya memiliki jumlah data yang sangat
besar (kelas mayoritas) dibanding kelas lainnya (kelas minoritas). Perbedaan
jumlah data yang besar antar kelas dapat mengakibatkan model klasifikasi sering
tidak dapat memprediksikan kelas minoritas dengan tepat sehingga banyak data
tes yang seharusnya berada pada kelas minoritas diprediksikan salah oleh model
klasifikasi (Sutoyo and Fadlurrahman, 2020).
Untuk mengatasi permasalahan imbalance class, salah satu metode yang
digunakan adalah sampling. Metode sampling melakukan modifikasi terhadap
distribusi data antar kelas mayoritas dan kelas minoritas pada dataset training
untuk menyeimbangkan jumlah data tiap kelas. Salah satu metode sampling yang
sering digunakan adalah Syntetic Minority Over-sampling Technique (SMOTE)
(Sutoyo and Fadlurrahman, 2020).

Universitas Muhammadiyah Riau


7

2.4. Confusion Matrix

Confusion Matrix ini cocok untuk perhitungan yang memiliki dataset yang
terdiri dari kelas positif, kelas negative dan kelas netral, Dalam confusion matrix
bisa dilakukan untuk menghitung nilai akurasi, precision, recall dan f1-Score.
Dalam confusion matrix bisa dilakukan untuk menghitung nilai akurasi, precision,
recall dan f1-Score yang dapat dilihat pada persamaan 2.1, Persamaan 2.2,
Persamaan 2.3, dan Persamaan 2.4. (Zulqornain and Adikara, 2021).
Rumus 2. 1 𝐴𝑐𝑐𝑢𝑟𝑎𝑐y = Total Cor rectly Clasified / Actual
Rumus 2. 2 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜n = Kelas /Jumlah Data∗Precision
Rumus 2. 3 𝑅𝑒𝑐𝑎𝑙 = Kelas /Jumlah Data × Recall
Precision x Recall
Rumus 2. 4 𝐹1 – Score = 2×
Precision+ Recall
Keterangan:
TP (True Positive) = Data positif yang terklasifikasi secara benar.
FP (False Positive) = Data negatif yang terklasifikasi menjadi positif.
FN (False Negative) = Data positif yang terklasifikasi menjadi negatif.
TN (True Negative) = Data negatif yang terklasifikasi secara benar.

2.5. Metode Random Forest

Metode Random Forest. Random Forest merupakan sebuah metode yang


dikembangkan dari metode CART (Classification and Regression Trees), yang
juga merupakan metode atau algoritma dari teknik pohon keputusan. Yang
membedakan metode random forest dari metode CART adalah Random Forest
menerapkan metode bootstrap aggregating (bagging) dan juga seleksi fitur
random atau bisa disebut random feature selection (Adrian et al., 2021).
Random Forest adalah kombinasi dari masing masing teknik pohon
keputusan yang ada, lalu kemudian digabung dan dikombinasikan kedalam suatu
model (Adrian et al., 2021). Ada tiga poin utama dalam metode random forest,
tiga poin utama tersebut yaitu: .
1. melakukan bootstrap sampling untuk membangun pohon prediksi.
2. masing-masing pohon keputusan memprediksi dengan prediktor acak

Universitas Muhammadiyah Riau


8

3. kemudian Random Forest melakukan prediksi dengan


mengombinasikan hasil dari tiap tiap pohon keputusan dengan cara
majority vote untuk klasifikasi atau rata-rata untuk regresi.
Metode Random Forset juga merupakan sebuah kumpulan metode
pembelajaran menggunakan pohon keputusan sebagai pengklasifikasi dasar yang
dibangun dan dikombinasikan, adapun beberapa aspek penting dalam metode
Random Forest diantaranya melakukan bootstrap sampling untuk membangun
pohon prediksi, masing-masing pohon keputusan memprediksi dengan prediktor
acak dan Random Forest sendiri melakukan prediksi dengan mengkombinasikan
hasil dari setiap pohon keputusan dengan cara majorty vote untuk klasifikasi dan
juga rata-rata untuk regresi (Fitri, 2020). Adapun kelebihan dari metode random
forest sebagai berikut:
1. Hasil akurasi bagus.
2. Relatif kuat terhadap outliers dan noise.
3. Lebih cepat dibandingkan dengan bagging dan boosting.
4. Sifatnya yang sederhana dan mudah dipararelkan.

2.6. Aplikasi TikTok

TikTok merupakan salah satu media sosial paling populer bagi remaja saat
ini. Selain itu, TikTok memiliki fitur-fitur yang menarik, seperti mengedit video,
foto, komentar, filter, dll. Tidak heran, fitur ini sangat membantu dalam menarik
perhatian penggunanya, dan dapat menghabiskan waktu berjam-jam hanya untuk
melihat berbagai macam konten dan informasi yang ada pada konten-konten
tiktok. Fitur-fitur TikTok mendukung dalam meningkatkan kemampuan
berbahasa dengan fitur teks untuk melatih keterampilan membaca dan menulis,
keterampilan mendengarkan dengan fitur suara yang terdapat dalam konten
TikTok, sedangkan keterampilan berbicara dengan merekam suara dan membuat
konten di TikTok (Zulqornain and Adikara, 2021).

Aplikasi ini dibuat oleh Zhang Yimny dari Cina dan secara resmi di
luncurkan pada tahun 2016. di Indonesia TikTok merupakan aplikasi berbagi
video yang paling popular, karena kemudahan dan kepraktisan dalam
penggunaanya. Aplikasi TikTok ini menjadi aplikasi yang paling banyak di unduh

Universitas Muhammadiyah Riau


9

yaitu 45,8 juta kali dan jumlah tersebut mengalahkan media sosial lainnya seperti
WhatsApp, YouTube, Facebook dan bahkan Instagram. Pengguna TikTok di
Indonesia ada 10 juta lebih pengguna aktif dan pengguna tersebut mayoritas dari
anak usia sekolah, anak millennial (Zulqornain and Adikara, 2021).

2.7. Penelitian Terdahulu


Berikut ini merupakan pembahasan yang berisikan penelitian terdahu dari
jurnal-jurnal yang berkaitan dengan penelitian ini, yang dijelas pada Tabel 2.1.
Tabel 2. 1 Penelitian Terdahulu

No Penulis Judul Penelitian Hasil Penelitian


1 Sola Fide, Analisis sentimen Berdasarkan pelabelan
Suparti, Sudarno ulasan aplikasi tiktok sentimen ulasan bulan
(2021) di google play September 2020 sampai
Menggunakan metode Februari 2021 di Google Play
support vector sebanyak 3200 ulasan adalah
machine (svm) dan jumlah ulasan positif lebih
asosiasi banyak, yaitu 1741 (54,41%)
dibanding jumlah ulasan
negatif, yaitu 1459 (45,59%).
Klasifikasi sentimen dari
hasil sentiment scoring
ulasan aplikasi TikTok di
Google Play menggunakan
metode Support Vector
Machine (SVM) kernel RBF
dengan perbandingan data
latih dan data uji sebesar 80 :
20 menghasilkan tingkat
accuracy dan kappa terbaik
sebesar 90,62% dan 81,24%
yang berarti termasuk hasil
klasifikasi yang hampir

Universitas Muhammadiyah Riau


10

sempurna.
2 Junda Alfiah Analisis Sentimen Hasil maksimal yang di
Zulqornain, Tanggapan dapatkan dengan
Indriati, Putra Masyarakat Aplikasi menggunakan 100% term
Pandu Adikara Tiktok Menggunakan yang digunakan untuk
(2021) Metode Naïve Bayes pengujian dengan nilai
dan Categorial accuracy sebesar 0,729947,
Propotional nilai precission sebesar
Difference (CPD) 0,746854, nilai recall sebesar
0,926118, dan nilai f-measure
0,824511.
3 Sudianto, Puspa Perbandingan metode Hasil klasifikasi
Wahyuningtias, random forest dan menunjukkan bahwa
Hapsari Warih support vector algoritme Random Forest
Utami, Uli Ahda Machine pada analisis memiliki nilai akurasi sebesar
Raihan, Hasna sentimen twitter (studi 94%. Sedangkan hasil
Nur Hanifah, kasus: kaburnya klasifikasi algoritme SVM
Yehezkiel Selebgram rachel mendapatkan nilai akurasi
Nicholas vennya dari karantina) sebesar 93%. Sehingga dapat
Adanson (2022) disimpulkan analisis sentimen
Twitter pada studi kasus
kaburnya Selegram Rachel
Venya dari karantina bahwa
algoritme Random Forest
mendapatkan hasil terbaik.
4 Evita Fitri, Yuri Analisis Sentimen Hasil dari Random Forest
Yuliani, Susy Terhadap Aplikasi model klasifikasi 97,16%
Rosyida, Windu Ruangguru dengan menggunakan Cross
Gata (2020) Menggunakan Validation dan skor AUC
Algoritma Naive 0,996. Kemudian akurasi
Bayes, Random Forest dengan model dukungan
Dan Support Vector klasifikasi Support Vector

Universitas Muhammadiyah Riau


11

Machine Machine menghasilkan


tingkat akurasi 96,01%
dengan nilai AUC 0,543 dan
akurasi dalam pengujian
Naive Bayes model
klasifikasi adalah 94,16%
dari nilai AUC 0,999. Studi
ini menunjukkan bahwa
peningkatan akurasi dari studi
sebelumnya sebesar 7,16%
dengan final Random Forest
dipotong sebagai model
klasifikasi Hutan Acak
dengan performa terbaik.
5 Firdausi Nuzula Analisis Sentimen Berdasarkan hasil penilitian
Zamzami, Terhadap Review Film dan analisa yang telah
Adiwijaya, Menggunakan Metode dilakukan, maka dapat
Mahendra Modified Balanced diambil kesimpulan bahwa
Dwifebri P (2021) Random Forest dan proses klasifikasi Modified
Mutual Information Balanced Random Forest dan
meningkatkan performansi
proses klasifikasi, dengan
nilai akurasi tertinggi 79%
dan nilai F1-Scores tertinggi
74%. Kemudian untuk
klasifikasi Modified Balanced
Random Forest memiliki
kinerja yang sangat baik
untuk dataset movie review
berbahasa inggris.
6 Syahroni Wahyu Analisis sentimen dan Berdasarkan pelatihan dan
Iriananda, Rangga analisis data pengujian yang telah

Universitas Muhammadiyah Riau


12

Pahlevi Putra, eksploratif ulasan dilakukan, didapatkan


Kuncahyo Setyo Aplikasi marketplace kesimpulkan bahwa bahwa
Nugroho (2021) google play store Algoritma Decission Tree
(DT) dan Random Forest
(RF) memiliki nilai akurasi
tertinggi dalam setiap
pelatihan. Maksimum nilai
akurasi dalam pelatihan
menggunakan model DT dan
RF adalah 96,55%, dengan
skenario data latih 70%, data
uji 30% pada dataset Shopee.
Sedangkan nilai akurasi
maksimum dalam pengujian
menggunakan metode SVM-
RBF dan RF adalah 60.08%
dengan skenario 80% data
latih dan 20% data uji pada
dataset Tokopedia. Dengan
demikian berdasarkan
penelitian yang telah
dilakukan, Algoritma
Random Forest merupakan
metode terbaik untuk kajian
analisis sentimen review
aplikasi marketplace di
Google Play store ini.
7 M. R. Adrian, M. Perbandingan Metode Dari 466 data yang diambil
P. Putra, M. H. Klasifikasi Random dari twitter, dengan
Rafialdy, N. A. Forest dan SVM Pada mempertimbangkan 3 tanggal
Rakhmawati Analisis Sentimen mulai dari PSBB yang ada di
(2021) PSBB Jakarta, kami membagi data

Universitas Muhammadiyah Riau


13

menjadi data latih dan data


tes dengan perbandingan 7
banding 3. Dari tes yang
dilakukan untuk masing
masing model didapatkan
model Random Forest
memiliki akurasi yang lebih
tinggi namun tidak mampu
mendeteksi label “Positif”,
dan akurasi pada model
Support Vector Machine
memang lebih rendah namun
dapat mendeteksi label
“Positif”
8 Muhammad Analisis Sentimen Kesimpulan terakhir yang
Asjad Adna Terhadap Ulasan Film didapatkan adalah hasil
Jihad, Adiwijaya, Menggunakan akurasi tertinggi senilai
Widi Astuti Algoritma Random 75.76% yang berasal dari
(2021) Forest skenario 2 untuk yang
menerapkan proses stemming
serta menggunakan skipgram
300 dimensi. Nilai ini
menunjukkan keakurasian
program dalam menentukan
nilai sentimen dari dataset
dimana pada penelitian kali
ini adalah hasil review film
dari situs IMDB.
9 Debby Alita, Pendeteksian Hasil penelitian ini
Auliya Rahman Sarkasme pada Proses didapatkan peningkatan nilai
Analisis Sentimen rata rata akurasi sebesar
menggunakan Random 16,61 %, nilai presisi sebesar

Universitas Muhammadiyah Riau


14

Forest Classifier 5,45 %, nilai recall sebesar


9,64% dan kenaikan nilai
F1score sebesar 11,27%
dengan jumlah data sebanyak
2.027 dengan rincian data
dengan label positif
berjumlah 1023, data dengan
label negatif berjumlah 587
dan data dengan label netral
berjumlah 462. Data
sarkasme didapatkan dari
tweet dengan label positif
yang kemudian diberikan
label sarkasme atau tidak
sarkasme dan didapat hasil
label dengan jumlah
keseluruhan berlabel
sarkasme berjumlah 354 dan
tidak sarkasme berjumlah
669.
10 Martaliana Putri Sentimen masyarakat Dari penelitian yang telah
Agustina, Hendry Terkait Perpindahan dilakukan, dapat diambil
(2021) Ibu kota Via Model kesimpulan bahwa testing
Random Forest dan algoritma yang
Logistic Regression menggunakan 1393 data
memiliki tingkat akurasi
yang tinggi dengan
menggunakan model Random
Forest. Hal tersebut dapat
dilihat dari hasil testing
Algoritma pada bagian
AUC yaitu 1.000 yang

Universitas Muhammadiyah Riau


15

hasilnya lebih tinggi dari


pada logistic Regression yang
hanya 0.382, AUC sudah
dapat menjadi acuan untuk
CA, F1, Precision, dan
Recall bahwa hasilnya akan
lebih tinggi Random Forest
daripada Logistic Regression.
11 Ibnu Afdhal, Penerapan Algoritma Penelitian ini menggunakan
Rahmad Random Forest Untuk 1000 data komentar di
Kurniawan, Iwan Analisis Sentimen youtube berbahasa Indonesia
Iskandar, Roni Komentar Di terkait video yang
Salambue, Elvia YouTube Tentang menampilkan suatu kejadian
Budianita, Islamofobia pengeboman atau teror.
Fadhilah Syafria Berdasarkan hasil analisis,
terdapat 631 komentar positif
dan 369 komentar negatif
atau mengandung
islamofobia. Berdasarkan
eksperimen, algoritma
random forest menghasilkan
akurasi mencapai 79%.
Algoritma random forest
dianggap baik dalam
melakukan klasifikasi
sentimen dengan cepat.
12 Rani Puspita, Analisis Sentimen Penelitian menunjukan hasil
Agus Widodo terhadap Layanan bahwa analisis sentimen
(2021) Indihome di Twitter terhadap layanan Indihome
dengan Metode dengan menggunakan metode
Machine Learning Random Forest mencapai
akurasi sebesar 99.54%

Universitas Muhammadiyah Riau


16

dengan class precision untuk


pred negatif adalah 99.92%,
pred positif adalah 25.00%,
dan pred Netral adalah
60.00%. Lalu pada metode
GBT tingkat akurasinya
mencapai 99.31% dengan
class precision untuk pred.
negatif adalah 99.46%, pred.
positif adalah 0.00%, dan
pred. netral adalah 0.00%.
Maka dapat disimpulkan
bahwa metode Random
Forest merupakan metode
yang lebih baik jika
dibandingkan dengan GBT.
13 Stephenie, Budi Analisis Sentimen Hasil pengujian menunjukkan
Warsito, Alan pada Produk bahwa akurasi Metode
Prahutama (2020) Tokopedia Ulasan Random Forest dengan
Online Menggunakan parameter mtry = 73 dan
Metode Random ntree = 50 adalah 97,38%
Forest yang mengarah pada
kesimpulan bahwa metode
hutan acak bisa memprediksi
review produk tokopedia
dengan baik. Semakin besar
akurasi, semakin baik kinerja
model klasifikasi.
14 Muh. Dimas Expansion Feature Berdasarkan hasil penelitian
Lutfiyanto, Erwin dengan Word2Vec yang telah dilakukan dapat
Budi Setiawan untuk Analisis disimpulkan bahwa,
(2021) Sentimen pada Opini implementasi metode Feature

Universitas Muhammadiyah Riau


17

Politik di Twitter Expansion Word2Vec terbukti


dengan Klasifikasi dapat meningkatkan nilai
Support Vector akurasi dan F1-Score pada
Machine, Naïve sistem. Hasil terbaik ada pada
Bayes, dan Random klasifikasi Random Forest
Forest dengan accuracy sebesar
83.80% (+4.00%). Dan
klasifikasi yang paling stabil
yaitu SVM.
15 Anggitha Yohana Analisis Sentimen Dengan menggunakan
Clara, Adiwijaya, Berbasis Aspek pada Random Forest dengan
Mahendra Kecantikan Review penyetelan hyperparameters
Dwifebri Produk Menggunakan sebagai metode klasifikasi,
Purbolaksono Random Forest dan TF-IDF dan n-gram
(2020) sebagai metode ekstraksi ciri.
Multi-aspek analisis sentimen
pada penelitian ini diperoleh
akurasi tertinggi sebesar
90,48%, presisi sebesar
87,27%, recall sebesar
70,13%, dan F1-Score
sebesar 71,77%.

Universitas Muhammadiyah Riau


BAB 3
METODE PENELITIAN

3.1. Tahapan Metode Penelitian

Metodologi penelitian adalah tahapan atau proses yang disusun secara


sistematis dan logis dalam melakukan suatu penelitian, untuk mencapai suatu
tujuan penelitian. Tahapan-tahapan yang dilakukan dalam penelitian ini dapat
dilihat pada kerangka penelitian Gambar 3.1.

Gambar 3. 1 kerangka penelitian

18
Universitas Muhammadiyah Riau
19

Pada gambar 3.1 merupakan kerangka penelitan yang diajukan, dataset akan
di proses pada tahap preprocessing, selanjutnya data akan dibobotkan
menggunakan TF-IDF dan diseimbangkan menggunakan Teknik SMOTE.
Kemudian proses data split dilakukan dengan menggunakan library sklearn.
Dalam proses ini akan membagi data menjadi dua bagian, yaitu data training
sebagai data latih dan data testing sebagai data test. Dataset yang telah dibagi akan
di proses oleh machine learning dengan metode klasifikasi sehingga mendapatkan
hasil prediksi.

3.2. Pengumpulan Data

Pengumpulan data dilakukan dengan tahapan scrapping, scrapping


dilakukan dengan mengambil komentar aplikasi tiktok yang ada pada google play
store, data yang dikumpulkan terdiri dari 10.000 komentar. Kemudian dilakukan
tahap labelling untuk memberi label/kelas pada data, label yang diberikan adalah
positif, negatif dan netral. Label negatif adalah komentar-komentar yang berisi
kata-kata atau kalimat yang mengandung kebencian ataupun cacian, termasuk
didalamnya berupa hate speech, caci maki, opini negatif yang bisa memicu
kebencian. Sedangkan label positif adalah komentar komentar yang berupa pujian
(berupa dukungan, doa, perkataan yang baik-baik serta opini-opini yang mengarah
kepada dukungan) (Afdhal et al., 2022).

3.3. Text Preprocessing

Text preprocessing adalah proses dalam membersihkan data sebelum di


olah. Pada tahapan ini terdapat 6 proses yaitu:
1. Cleaning, pada tahap ini dilakukan pemilihan atribut yang akan
digunakan, membuang noise (angka, tanda baca, emoji, spasi ganda dan
baris enter).
2. Case Folding, pada tahap ini dilakukan penyeragaman teks menjadi
huruf kecil (lowercase). Contoh : “saya suka belajar MACHINE
LEARNING”, setelah dilakukan case folding maka kalimat tersebut
menjadi “saya suka belajar machine learning”.
3. Tokenizing, pada tahap ini dilakukan pemecahan kata pada kalimat.
Contoh : “saya sedang belajar membaca” setelah dilakukan tokenizing

Universitas Muhammadiyah Riau


20

maka kalimat tersebut akan menjadi “saya”, “sedang”, “belajar”,


“membaca”, Proses ini dilakukan dengan menggunakan Library NLTK.
4. Normalisasi, Proses ini mengubah kata-kata yang disingkat, kata yang
salah dalam penulisannya (typo), kata gaul dan kata alay menjadi kata
yang formal dengan bantuan kamus (Nazmi, Malisi and Setiawan,
2022).
5. Stopword Removal, pada tahap ini dilakukan penghilangan kata yang
termasuk kedalam kategori stopword. Stopword merupakan kata yang
sering muncul namun dianggap tidak memiliki arti. Contoh stopword
revormal dalam Bahasa Indonesia seperti “dan”, “dari”,”yang”,”di”, dll.
6. Stemming, tahap ini dilakukan untuk menemukan kata dasar dengan
menghilangkan semua imbuhan yang menyatu pada kata. Contoh
“membela”, setelah dilakukan stemming maka menjadi “bela”, Proses
ini dilakukan dengan menggunakan Library Sastrawi. (Afdhal et al.,
2022).

3.4. Term Frequency-Inverse Document Frequency (TF-IDF)

Term frequency (tf) adalah suatu sistem pembobotan untuk mengukur


frekuensi kemunculan istilah dalam dokumen. Semakin tinggi term frequency (tf)
berarti term sering muncul maka dapat dianggap term umum sehingga tidak
penting nilainya. Inverse Document Frequency (idf) merupakan frekuensi
berbanding terbalik (Sola, Suparti and Sudarno, 2021). Untuk melakukan
perhitungan TF-IDF dapat di lihat pada persamaan 3.1, persamaan 3.2, sebagai
berikut:

Rumus 3. 1 IDF = log (log D/df)


Rumus 3. 2 w = TF x IDF
Keterangan :
w = bobot
TF = Jumlah Term dari satu kata yang ada didalam dokumen.
IDF = Jumlah keseluruhan Term didalam dokumen.

Universitas Muhammadiyah Riau


21

3.5. Syntetic Minority Over-sampling Technique ( SMOTE )

SMOTE adalah metode over-sampling dimana data pada kelas minoritas


diperbanyak dengan menggunakan data sintetik yang berasal dari replikasi data
pada kelas minoritas. Over-sampling pada SMOTE mengambil instance dari kelas
minoritas lalu mencari k-nearest neighbor dari setiap instance, kemudian
menghasilkan instance sintetik dari pada mereplikasi instance kelas minoritas;
oleh karena itu, dapat menghindari masalah overfitting yang berlebihan (Sutoyo
and Fadlurrahman, 2020).

3.6. Klasifikasi Random Forest.

Pada tahap ini akan dilakukan proses klasifikasi dengan algoritma yang
digunakan yaitu random forest. Pada tahap ini mesin akan diajari untuk mengenal
pola atau dokumen yang ada agar dapat mengklasifikasi sebuah data ke dalam 3
kelas, yaitu kelas positif, negatif dan netral. Data yang sudah melewati text
preprocessing akan dibagi menjadi 2 bagian yaitu data training dan data testing.
Adapun langkah-langkah algoritma random forest dalam melakukan klasifikasi
adalah sebagai berikut (Afdhal et al., 2022).
1. Buat sampel dengan mengambil data secara acak dari dataset D
2. Gunakan sampel data untuk membangun tree ke-i (i=1,2…k)
3. Ulangi langkah satu dan dua sebanyak k
4. Hitung suara (vote) untuk setiap target yang diprediksi dari setiap tree.
5. Hasil klasifikasi akan didapat dengan menghitung suara terbanyak dari
tree yang dibangun.

Gambar 3. 2 Ilustrasi Ramdom Forest

Universitas Muhammadiyah Riau


22

Adapun parameter Random Forest yang di gunakan :


1. N Estimators (digunakan untuk membentuk jumlah pohon yang ada
pada hutan. Nilai n estimators dapat diubah dari 10 sampai 100).
2. Max Depth (digunakan untuk mengatur kedalaman pohon yang akan
dibangun).
3. Criterion (digunakan untuk mengukur kualxitas split. Kriteria yang
didukung adalah “gini” untuk ketidak murnian Gini dan “entropy”
untuk perolehan informasi).
4. Random state (digunakan untuk mengontrol keacakan yang digunakan
saat membangun pohon)
5. Verbose (digunakan untuk mengontrol verbositas saat memasang dan
memprediksi).

3.7. Implementasi dan Pengujian


Implementasi dilakukan menggunakan Google Colab dengan bahasa
pemrograman Python. Tahap pengujian dilakukan untuk menguji kinerja dari
mesin yang telah dibangun, untuk menghitung akurasi dan mengidentifikasi
klasifikasi algoritma random forest menggunakan confusion matrix dengan
menghitung accuracy, precision, recall dan F1-Score berdasarkan persamaan
rumus 3.4, persamaan rumus 3.5, persamaan rumus 3.6 berikut (Afdhal et al.,
2022).
Rumus 3. 3 𝐴𝑐𝑐𝑢𝑟𝑎𝑐y = Total Correctly Clasified / Actual

Rumus 3. 4 𝑃𝑟𝑒𝑐𝑖𝑠𝑖on = Kelas /Jumlah Data∗Precision

Rumus 3. 5 𝑅𝑒𝑐𝑎𝑙l = Ke las/Jumlah Data × Recall

Precision x Recall
Rumus 3. 6 𝐹1 – Score = 2×
Precision+ Recall

Keterangan:
TP (True Positif) = Data positif yang terklasifikasi secara benar.
FP (False Positif) = Data negatif yang terklasifikasi menjadi positif.
FN (False Negatif) = Data positif yang terklasifikasi menjadi negatif.
TN (True Negatif) = Data negatif yang terklasifikasi secara benar.

Universitas Muhammadiyah Riau


BAB 4
HASIL DAN PEMBAHASAN

Pada bab ini membahas hasil dari penelitian tentang klasifikasi sentimen
aplikasi tiktok pada google play store menggunakan Algoritma Random forest
dengan tahapan yang sudah dijelaskan pada bab sebelumnya.

4.1. Pengumpulan Data.


Berdasarkan proses yang telah dijelaskan pada Bab 3 diatas, menjelaskan
bahwa pengumpulan data yang dilakukan pada penelitian ini adalah scrapping
data tiktok di google play store pada tanggal 22/07/2022. Pengumpulan data
dilakukan dengan menggunakan google colab. Google colab merupakan coding
environment bahasa pemrograman Python dengan format "notebook" (mirip
dengan Jupyter notebook), atau dengan kata lain Google meminjamkan kita
komputer secara gratis untuk membuat program atau melakukan pengolahan data
dari Google.

Gambar 4. 1 Tampilan Halan Google Colab

23

Universitas Muhammadiyah Riau


24

Pengumpulan data dilakukan dengan proses scrapping dan didapat data


sebanyak 10000 dataset dari aplikasi tiktok pada google play store. Adapun kode
untuk melakukan scrapping data dapat dilihat pada Gambar 4.2 dibawah ini.

Gambar 4. 2 Proses Scrapping

Universitas Muhammadiyah Riau


25

Hasil dari scrapping data tersebut bisa dilihat pada Gambar 4.3 yang
merupakan sebagian dataset yang diambil menggunakan proses scrapping. Data
diambil menggunakan bahasa pemrograman Phyton dan menggunakan library
pandas dan numpy pada ulasan aplikasi TikTok (Doloksaribu and Samuel, 2022).
Data field yang diambil yaitu username, score, at, content. Kemudian data tersebut
disimpan kedalam file berformat csv agar memudahkan tahapan atau proses
selanjutnya.

Gambar 4. 3 Hasil Scrapping Data

4.2. Tahapan Text Preprocessing.


Pre-processing dilakukan pada kolom ulasan sentimen komentar yang
berisikan baris data yang terdiri dari berupa kalimat yang terdapat beberapa kata-
kata. Data tersebut belum tersusun secara terstruktur dengan baik. Agar dapat
digunakan, maka harus dilakukan beberapa tahap pre-processing, Berikut tahapan
dalam pre-processing diantaranya :

4.2.1. Tahapan Case Folding.


Pada tahapan case folding ini bertujuan untuk mengubah semua huruf yang
ada pada dokumen kedalam bentuk yang sama menjadi lower case atau huruf

Universitas Muhammadiyah Riau


26

kecil. Berikut merupakan kode untuk melakukan tahapan case folding yang dapat
dilihat pada Gambar 4.4 dibawah ini.

Input Program

Output Program

Gambar 4. 4 Proses Case Folding

Pada Tabel 4.1 dibawah adalah hasil dari tahapan case folding yang
mengubah huruf capital menjadi huruf kecil yang ada pada dataset.

Tabel 4. 1 Hasil Case Folding

No Sebelum dilakukan Case Folding Sesudah dilakukan Case Folding


1 matap ni aplikasi matap ni aplikasi
2 gue : (moga aja aplikasi ini tidak gue : (moga aja aplikasi ini tidak ada)
ada)
3 bagus lah bagus lah
4 Sangat menghibur di waktu luang sangat menghibur di waktu luang
5 Bagus Bagus
6 Waw Waw
7 Ok Ok
8 Awaaaak Awaaaak
9 Semangat yang pengguna tiktok semangat yang pengguna tiktok

Universitas Muhammadiyah Riau


27

10 Saya kasih bintang lima karna saya kasih bintang lima karna aplikasi
aplikasi ini sangat membantu bagi ini sangat membantu bagi saya!!!
saya!!!semangat terus ya tiktok semangat terus ya tiktok semoga apk
semoga apk nya lancar teruss nya lancar teruss
4.2.2. Tahapan Cleaning.
Tahapan cleaning bertujuan untuk menghapus karakter yang tidak
memberikan pengaruh terhadap proses klasifikasi sentimen setelah dilakukan
proses case folding, seperti menghapus tanda baca koma (,), titik (.), hastag (#),
mention (@), link, ataupun karakter selain huruf dan angka. Berikut adalah proses
untuk melakukan tahapan cleaning yang dapat dilihat pada Gambar 4.5 dibawah
ini.
Input Program

Output Program

Gambar 4. 5 Proses Cleaning

Universitas Muhammadiyah Riau


28

Pada Tabel 4.2 dibawah adalah hasil dari tahapan cleaning yang menghapus
tanda baca koma (,), titik (.), hastag (#), mention (@), link, ataupun karakter
selain huruf dan angka yang ada pada dataset.

Tabel 4. 2 Hasil Proses Cleaning

No Sebelum dilakukan cleaning Sesudah dilakukan cleaning


1 matap ni aplikasi matap ni aplikasi
2 gue : (moga aja aplikasi ini tidak gue moga aja aplikasi ini tidak ada
ada)
3 bagus lah bagus lah
4 Sangat menghibur di waktu luang sangat menghibur di waktu luang
5 Bagus Bagus
6 Waw Waw
7 Ok Ok
8 Awaaaak Awaaaak
9 Semangat yang pengguna tiktok semangat yang pengguna tiktok
10 Saya kasih bintang lima karna saya kasih bintang lima karna aplikasi
aplikasi ini sangat membantu bagi ini sangat membantu bagi saya
saya!!!semangat terus ya tiktok semangat terus ya tiktok semoga apk
semoga apk nya lancar teruss nya lancar teruss

4.2.3. Tahapan Tokenizing.


Pada tahap ini dilakukan pemecahan kata pada kalimat. Contoh : “saya
sedang belajar membaca” setelah dilakukan tokenizing maka kalimat tersebut akan
menjadi “saya”, “sedang”, “belajar”, “membaca”. Berikut adalah proses untuk
melakukan tahapan tokenizing yang dapat dilihat pada Gambar 4.6 dibawah ini.
Input Program

Universitas Muhammadiyah Riau


29

Output Program

Gambar 4. 6 Proses Tokenizing

Pada Tabel 4.3 dibawah adalah hasil dari tahapan tokenizing yang
melakukan pemecahan kata pada kalimat yang ada pada dataset.

Tabel 4. 3 Hasil Proses Tokenizing

No Sebelum dilakukan tokenizing Sesudah dilakukan tokenizing


1 matap ni aplikasi ['matap', 'ni', 'aplikasi']
2 gue : (moga aja aplikasi ini tidak ['gue', 'moga', 'aja', 'aplikasi', 'ini',
ada) 'tidak', 'ada']
3 bagus lah ['bagus', 'lah']
4 Sangat menghibur di waktu luang ['sangat', 'menghibur', 'di', 'waktu',
'luang']
5 Bagus ['bagus']
6 Waw ['waw']
7 Ok ['ok']
8 Awaaaak ['awaaaak']

Universitas Muhammadiyah Riau


30

9 Semangat yang pengguna tiktok ['semangat', 'yang', 'pengguna', 'tiktok']


10 Saya kasih bintang lima karna ['saya', 'kasih', 'bintang', 'lima', 'karna',
aplikasi ini sangat membantu bagi 'aplikasi', 'ini', 'sangat', 'membantu',
saya!!!semangat terus ya tiktok 'bagi', 'saya', 'semangat', 'terus', 'ya',
semoga apk nya lancar teruss 'tiktok', 'semoga', 'apk', 'nya', 'lancar',
'teruss']

4.2.4. Tahapan Normalisasi.


Normalisasi digunakan untuk mengubah teks kalimat menjadi teks yang
secara lengkap memperlihatkan cara pengucapannya. Normalisasi teks meliputi
pengubahan singkatan, akronim, angka, tanggal, waktu, karakter-karakter khusus,
dan simbol-simbol dengan bentuk huruf alphabet lengkap sehingga tidak terjadi
ambiguitas berkenaan dengan cara pengucapan. Berikut adalah proses normalisasi
yang dapat dilihat pada Gambar 4.7 dibawah ini.
Input Program

Output Program

Gambar 4. 7 Proses Normalisasi

Pada Tabel 4.4 dibawah adalah hasil dari tahapan normalisasi yang
melakukan pengubahan singkatan, akronim, angka, tanggal, waktu, karakter-

Universitas Muhammadiyah Riau


31

karakter khusus, dan simbol-simbol dengan bentuk huruf alphabet lengkap


sehingga tidak terjadi ambiguitas berkenaan dengan cara pengucapanyang ada
pada dataset.

Tabel 4. 4 Proses hasil Normalisasi


No Sebelum dilakukan normalisasi Sesudah dilakukan normalisasi
1 matap ni aplikasi matap, ini, aplikasi
2 gue : (moga aja aplikasi ini tidak saya, semoga, saja, aplikasi, ini, tidak,
ada) ada
3 bagus lah bagus, lah
4 Sangat menghibur di waktu luang sangat, menghibur, di, waktu, luang
5 Bagus Bagus
6 Waw Waw
7 Ok Ok
8 Awaaaak Awaaaak
9 Semangat yang pengguna tiktok semangat, yang, pengguna, tiktok
10 Saya kasih bintang lima karna Saya, kasih, bintang, lima, karena,
aplikasi ini sangat membantu bagi aplikasi, ini, sangat, membantu, bagi,
saya!!!semangat terus ya tiktok saya, semangat, terus, iya, tiktok,
semoga apk nya lancar teruss semoga, aplikasi, nya, lancer, terus

4.2.5. Tahapan Stopword Removal.


Tahapan stopword removal ini dilakukan untuk membuang kata-kata yang
tidak berpengaruh dalam proses klasifikasi sentimen seperti waktu, penghubung,
dan lainnya. Berikut adalah proses untuk melakukan tahapan stopword revormal
yang dapat dilihat pada Gambar 4.8 dibawah ini.
Input Program

Universitas Muhammadiyah Riau


32

Output Program

Gambar 4. 8 Proses Stopword Removal

Pada Tabel 4.5 dibawah adalah hasil dari tahapan stopword removal yang
melakukan penghilangan kata yang sering muncul namun dianggap tidak
memiliki arti.
Tabel 4. 5 Hasil Proses Stopword Removal
No Sebelum dilakukan Stopword Sesudah dilakukan Stopword
Removal Removal
1 matap ni aplikasi matap, aplikasi
2 gue : (moga aja aplikasi ini tidak semoga, aplikasi
ada)
3 bagus lah Bagus
4 Sangat menghibur di waktu luang menghibur, luang
5 Bagus Bagus
6 Waw Waw
7 Ok Ok
8 Awaaaak Awaaaak

Universitas Muhammadiyah Riau


33

9 Semangat yang pengguna tiktok semangat, pengguna, tiktok


10 Saya kasih bintang lima karna Kasih, bintang, aplikasi, membantu,
aplikasi ini sangat membantu bagi semangat, iya, tiktok, semoga, aplikasi,
saya!!!semangat terus ya tiktok lancar, teruss
semoga apk nya lancar teruss

4.2.6. Tahapan Stemming.


Tahapan stemming bertujuan untuk mengembalikan kata ke bentuk
dasarnya. Dalam penelitian ini akan digunakan library Sastrawi untuk melakukan
proses stemming. Sastrawi merupakan library pada bahasa pemrograman phyton
yang dibangun dengan algoritma NA. Berikut adalah proses untuk melakukan
tahapan stimming yang dapat dilihat pada Gambar 4.9 dibawah ini.
Input Program

Output Program

Universitas Muhammadiyah Riau


34

Gambar 4. 9 Proses Stemming

Pada Tabel 4.6 dibawah adalah hasil dari tahapan stemming yang melakukan
mengembalikan kata ke bentuk dasarnya.

Tabel 4. 6 Hasil Proses Stemming


No Sebelum dilakukan Stemming Sesudah dilakukan Stemming
1 matap ni aplikasi matap, aplikasi

2 gue : (moga aja aplikasi ini tidak semoga, aplikasi


ada)
3 bagus lah Bagus
4 Sangat menghibur di waktu luang menghibur, luang
5 Bagus Bagus
6 Waw Waw
7 Ok Ok
8 Awaaaak Awaaaak
9 Semangat yang pengguna tiktok semangat, pengguna, tiktok
10 Saya kasih bintang lima karna Kasih, bintang, aplikasi, membantu,
aplikasi ini sangat membantu bagi semangat, iya, tiktok, semoga, aplikasi,
saya!!!semangat terus ya tiktok lancar, teruss
semoga apk nya lancar teruss

Input Program

Universitas Muhammadiyah Riau


35

Output Program

Gambar 4. 10 Hasil dataset yang telah di Preprocessing

4.3. Proses Labeling.


Dataset yang tersedia pada Tiktok adalah data yang tidak berlabel. Sehingga
diperlukan sebuah metode untuk melakukan pelabelan, pembagian dataset yang
berisi uluasan masyarakat pada aplikasi tiktok dibagi menjadi 3 kelas yaitu positif,
negatif, dan netral. Adapun proses pelabelan data tersebut dapat dilihat pada
Gambar 4.11 dan hasil klasifikasi dapat di lihat pada Gambar 4.12 dibawah ini.
Input Program

Output Program

Universitas Muhammadiyah Riau


36

Gambar 4. 11 Proses dan Hasil Labeling

Input Program

Output Program

Gambar 4. 12 Proses dan jumlah data yang telah di labelling

Setelah dilakukan proses pelabelan atau pembagian class, didapatkan jumlah


klasifikasi pada kelas positif berjumlah 4538, kelas negatif berjumlah 982 dan
kelas netral berjumlah 4480.

4.4. Term Frequency-Inverse Document Frequency (TF-IDF).


Term frequency (tf) adalah suatu sistem pembobotan untuk mengukur
frekuensi kemunculan istilah dalam dokumen. Semakin tinggi term frequency (tf)

Universitas Muhammadiyah Riau


37

berarti term sering muncul maka dapat dianggap term umum sehingga tidak
penting nilainya. Inverse Document Frequency (idf) merupakan frekuensi
berbanding terbalik. Berikut adalah proses untuk melakukan tahapan TF-IDF yang
dapat dilihat pada Gambar 4.13 dibawah ini.
Input Program

Output Program

Gambar 4. 13 Proses dan hasil TF-IDF

Perhitungan IDF sebagai berikut:


Rumus 4. 1 IDF = log (log D/df)
Rumus 4. 2 W = TF x IDF
Keterangan :
w = bobot
TF = Jumlah Term dari satu kata yang ada didalam dokumen.
IDF = Jumlah keseluruhan Term didalam dokumen.
DF = Data Frekuensi
Contoh Dokumen :
1. Dokumen 1 (D1) : mantap aplikasi
2. Dokumen 2 (D2) : semangat guna tiktok
3. Dokumen 3 (D3) : kasih bintang aplikasi bantu semangat iya tiktok moga
aplikasi lancar terus

Tabel 4. 7 Hasil Perhitungan Manual TF-IDF


No Kata TF Df D/df IDF(log D/df) w
D1 D2 D3 D1 D2 D3

Universitas Muhammadiyah Riau


38

1 Mantap 1 0 0 1 3 0,477 0,477 0 0


2 Aplikasi 1 0 2 3 1 0 0 0 0
3 Semangat 0 1 1 2 1,5 0,176 0 0,176 0,176
4 Guna 0 1 0 1 3 0,477 0 0,477 0
5 Tiktok 0 1 1 2 1,5 0,176 0 0,176 0,176
6 Kasih 0 0 1 1 3 0,477 0 0 0,477
7 Bintang 0 0 1 1 3 0,477 0 0 0,477
8 Bantu 0 0 1 1 3 0,477 0 0 0,477
9 Iya 0 0 1 1 3 0,477 0 0 0,477
10 Moga 0 0 1 1 3 0,477 0 0 0,477
11 Lancar 0 0 1 1 3 0,477 0 0 0,477
12 terus 0 0 1 1 3 0,477 0 0 0,477

Berdasarkan tabel di atas pembobotan kata yang sering muncul dalam


seluruh dokumen adalah kata “aplikasi” dengan bobot 0,352.

4.5. Syntetic Minority Over-sampling Technique ( SMOTE ).


SMOTE adalah metode over-sampling dimana data pada kelas minoritas
diperbanyak dengan menggunakan data sintetik yang berasal dari replikasi data
pada kelas minoritas. Over-sampling pada SMOTE mengambil instance dari kelas
minoritas lalu mencari k-nearest neighbor dari setiap instance, kemudian
menghasilkan instance sintetik dari pada mereplikasi instance kelas minoritas;
oleh karena itu, dapat menghindari masalah overfitting yang berlebihan. Berikut
adalah proses untuk melakukan tahapan SMOTE yang dapat dilihat pada Gambar
4.14 dibawah ini.
Input Program

Output Program

Universitas Muhammadiyah Riau


39

Gambar 4. 14 Proses dan hasil teknik SMOTE

4.6. Splite Dataset.


Dataset dibagi menjadi dua bagian yaitu data traning dan data testing yang
dilakukan menggunakan teknik split validation dengan perbandingan data 90:10.
Berikut adalah proses untuk melakukan tahapan Splite Dataset yang dapat dilihat
pada Gambar 4.15 dibawah ini.

Input Program

Output Program

Gambar 4. 15 Proses dan keluaran Splite Dataset

Pada Tabel 4.7 dibawah adalah hasil dari eksperimen pembagian data
traning dan data testing yang di uji dan di dapat accuracy tertinggi yaitu
perbandingan 90:10.

Tabel 4. 8 Hasil dari eksperimen pembagian data training dan data testing

Pembagian Data Hasil

Data Train Data Test Accuracy Precision Recall F1-Score

50% 50% 93% 93% 93% 93%


60% 40% 94% 94% 94% 94%
70% 30% 94% 94% 94% 94%

Universitas Muhammadiyah Riau


40

80% 20% 95% 95% 95% 95%


90% 10% 95% 95% 95% 95%

4.7. Klasifikasi Random Forest.


Setelah data pelatihan dibagi menjadi data traning dan data testing
kemudian dilakukan fit model dengan dataset untuk melatih model. Hasil dari
pelatihan model akan ditampilkan sehingga dapat dilihat performa model pada
tahap pelatihan. proses untuk melakukan tahapan klasifikasi random forest dapat
dilihat pada Gambar 4.16 dibawah ini.
Input Program

Output Program

Gambar 4. 16 Proses dah hasil klasifikasi random forest


4.8. Implementasi dan Pengujian
4.8.1. Pengujian Confusion Matrix
Tahapan pengujian adalah tahap akhir untuk mengetahui performa dari
model. Performa accuracy, recall, precision, serta f1-score akan ditampilkan
dalam bentuk persentasi. proses untuk melakukan tahapan confusion matrix dapat
dilihat pada Gambar 4.17 dibawah ini.
Input Program

Universitas Muhammadiyah Riau


41

Output Program

Gambar 4. 17 Proses dan hasil dari confusion matrix


Terdapat tiga kelas yang menjadi output penelitian ini sehingga pengujian
dengan confusion matrix menggunakan skala 3x3. Berikut ini merupakan
perhitungan manual confusion matrix untuk menghitung accuracy, recall,
precision, f1-score dan tampilan grafik confusion matrix dapat dilihat pada
Gambar 4.18.

Universitas Muhammadiyah Riau


42

Gambar 4. 18 Tampilan Grafik Confusion Matrix

Selanjutnya proses dilanjutkan dengan perhitungan manual nilai accuracy,


precision, recall, f1-score dengan menguji seberapa persen ke Tiga kelas tersebut
yang benar Negatif, Netral dan Positif dari keseluruhan kelas yang diprediksi
dapat di lihat pada Tabel 4.8, Tabel 4.9, Tabel 4.10.

Tabel 4. 9 Tampilan Untuk Perhitungan Manual Confusion Matrix


Actual Prediksi Prediksi Prediksi Total
Positif Negatif Netral Actual
Negatif 443 8 0 451
Netral 11 424 6 441
Positif 11 26 433 470
Total Prediksi 465 458 439 1362

𝐴𝑐𝑐𝑢𝑟𝑎𝑐y = Total Correctly Clasified / Actual


= 1300/1362
= 0,9544
Tabel 4. 10 Hasil perhitungan manual precision

Kelas Proses Hasil

Negatif 443/465 0,9526


Netral 424/458 0,9257
Positif 433/439 0,9863

Universitas Muhammadiyah Riau


43

Precision = Kelas / Jumlah Data∗Precision


= ( 451 / 1362 x 0,9526 ) + ( 441 / 1362 x 0,9257 ) +
( 470 / 1362 x 0,9863)
= 0,3154 + 0,2997 + 0,3403
= 0,9554

Tabel 4. 11 Hasil perhitungan manual recall

Kelas Proses Hasil

Negatif 442/451 0,9822


Netral 421/441 0,9614
Positif 433/470 0,9212

Recall = Kelas /Jumlah Data × Recall


= ( 451 / 1362 x 0,9822 ) + ( 441 / 1362 x 0,9614 ) +
( 470 / 1362 x 0,9212)
= 0,3252 + 0,3112 + 0,3178
= 0,9542

Precision x Recall
f1-score =2 x
Precision+ Recall
0 , 9554 x 0,9542
=2x
0 , 9554+ 0,9542
0 , 9116
=2x
1,9096
= 0,9547

4.8.2. Visualisasi Kata Sering Muncul


Visualisasi dalam bentuk wordcloud menunjukkan kata-kata yang sering
muncul dalam ulasan aplikasi tiktok pada google play store. Pada kelas sentimen
positif ditunjukkan pada Gambar 4.19, pada kelas sentimen negatif ditunjukkan
pada Gambar 4.20, dan pada kelas sentimen netral ditunjukkan pada Gambar 4.21.

Universitas Muhammadiyah Riau


44

Gambar 4. 19 WordCloud Pada Sentimen Positif

Gambar 4.19 menampilkan visualisasi output sentimen positif pada ulasan


aplikasi tiktok pada google play store. Pada gambar tersebut dapat dilihat kata
yang sering muncul adalah kata “tiktok”, “mantap”, “suka”, “aplikasi”, “keren”,
“bagus”, dll.

Gambar 4. 20 WordCloud Pada Sentimen Negatif


Gambar 4.20 menampilkan visualisasi output sentimen negatif pada ulasan
aplikasi tiktok pada google play store. Pada gambar tersebut dapat dilihat kata
yang sering muncul adalah kata “tiktok”, “tolong”, “jelek”, “perbaiki”, “susah”,
“parah”, dll.

Universitas Muhammadiyah Riau


45

Gambar 4. 21 WordCloud Pada Sentimen Negatif


Gambar 4.21 menampilkan visualisasi output sentimen netral pada ulasan
aplikasi tiktok pada google play store. Pada gambar tersebut dapat dilihat kata
yang sering muncul adalah kata “aplikasi”, “tiktok”, “terimasih”, “download”,
“fyp”, “seru”, dll.

Universitas Muhammadiyah Riau


BAB 5
PENUTUP

5.1. Kesimpulan
Berdasarkan hasil penelitian klasifikasi sentimen aplikasi tiktok pada google
play store dengan dataset berjumlah 10.000 dan memiliki kelas positif, negatif,
dan netral dapat disimpulkan bahwa :
1. Hasil dari klasifikasi sentimen kelas positif berjumlah 4538, kelas negatif
berjumlah 1028 dan kelas netral berjumlah 4434, pada sentiment aplikasi
tiktok kencenderungan pengguna tiktok dapat dikatakan positif.
2. Dari hasil klasifikasi sentiment terhadap aplikasi tiktok pada google play
store masih terdapat hasil negatif, sehingga penguna aplikasi tiktok bagi
anak-anak dibawah umur masih membutuhkan pengawasan orang tua.
3. Algoritma Random Forest mendapatkan hasil yang optimal dalam
melakukan analisis sentiment aplikasi tiktok pada google play store.
Algoritma Random Forest mendapatkan nilai precision sebesar 0,9554,
recall sebesar 0,9542, f1-score sebesar 0,9547, dan accuracy sebesar
0,9544.

5.2 Saran
Dari kesimpulan yang telah dijabarkan, disarankan bagi peneliti lain yang
ingin melakukan perbandingan hasil performa Random Forest dalam penelitian
ini yaitu:
1. Pemilihan fitur lebih divariasikan, seperti melengkapi rule dan
pembobotan kata. Pembobotan kata dapat dicoba menggunakan metode
lain seperti GloVe atau Word2Vec.
2. Pemilihan imbalance data dapat dicoba mengunakan teknik ADASYN
untuk penyeimbangan data yang mungkin lebih optimal. Dikarenakan
ADASYN merupakan sebuah pengembangan dari metode SMOTE.
Dengan menggunakan metode yang lebih mutakhir daripada SMOTE
diharapkan dapat meningkatkan performa dari metode klasifikasi yang
digunakan nantinya

45

Universitas Muhammadiyah Riau


DAFTAR PUSTAKA

Adrian, M. R. et al. (2021) ‘Perbandingan Metode Klasifikasi Random Forest dan


SVM Pada Analisis Sentimen PSBB’, Jurnal Informatika Upgris, 7(1), pp.
36–40. doi: 10.26877/jiu.v7i1.7099.

Afdhal, I. et al. (2022) ‘Penerapan Algoritma Random Forest Untuk Analisis


Sentimen Komentar Di YouTube Tentang Islamofobia’, Jurnal Nasional
Komputasi dan Teknologi Informasi, 5(1), pp. 49–54. Available at:
http://ojs.serambimekkah.ac.id/jnkti/article/view/4004/pdf.

Batoebara, M. U. (2020) ‘Aplikasi Tik-Tok Seru-Seruan Atau Kebodohan’,


Network Media, 3(2), pp. 59–65. doi: 10.46576/jnm.v3i2.849.

Doloksaribu, H. P. and Samuel, Y. T. (2022) ‘Komparasi Algoritma Data Mining


Untuk Analisis Sentimen Aplikasi Pedulilindungi’, Jurnal Teknologi
Informasi: Jurnal Keilmuan dan Aplikasi Bidang Teknik Informatika, 16(1),
pp. 1–11.

Fitri, E. (2020) ‘Analisis Sentimen Terhadap Aplikasi Ruangguru Menggunakan


Algoritma Naive Bayes, Random Forest Dan Support Vector Machine’,
Jurnal Transformatika, 18(1), p. 71. doi:
10.26623/transformatika.v18i1.2317.

Homepage, J. et al. (2019) ‘IJCIT (Indonesian Journal on Computer and


Information Technology) Pemanfaatan Machine Learning dalam Berbagai
Bidang: Review paper’, IJCIT (Indonesian Journal on Computer and
Information Technology), 5(1), pp. 75–82.

Nazmi, M., Malisi, A. and Setiawan, E. B. (2022) ‘Ekspansi Fitur dengan


Word2Vec pada Klasifikasi Topik dengan Metode Naive Bayes-Support
Vector Machine di Twitter’, 9(1), pp. 67–78.

Retnoningsih, E. and Pramudita, R. (2020) ‘Mengenal Machine Learning Dengan


Teknik Supervised Dan Unsupervised Learning Menggunakan Python’,
Bina Insani Ict Journal, 7(2), p. 156. doi: 10.51211/biict.v7i2.1422.

46

Universitas Muhammadiyah Riau


Siregar, N. I. (2021) ‘Pengaruh aktualisasi diri, Fear of Missing Out (Fomo), dan
regulasi diri terhadap intensitas penggunaan media sosial TikTok pada
remaja’. Available at:
http://digilib.uinsby.ac.id/52547/%0Ahttp://digilib.uinsby.ac.id/52547/1/
Nurul Inayah Siregar_J01217038.pdf.

Sola, F., Suparti and Sudarno (2021) ‘3 1,2,3’, 10, pp. 346–358.

Sutoyo, E. and Fadlurrahman, M. A. (2020) ‘Penerapan SMOTE untuk Mengatasi


Imbalance Class dalam Klasifikasi Television Advertisement Performance
Rating Menggunakan Artificial Neural Network’, Jurnal Edukasi dan
Penelitian Informatika (JEPIN), 6(3), p. 379. doi: 10.26418/jp.v6i3.42896.

Zulqornain, J. A. and Adikara, P. P. (2021) ‘Analisis Sentimen Tanggapan


Masyarakat Aplikasi Tiktok Menggunakan Metode Naïve Bayes dan
Categorial Propotional Difference ( CPD )’, 5(7), pp. 2886–2890.

47

Universitas Muhammadiyah Riau

Anda mungkin juga menyukai