Anda di halaman 1dari 17

Analisis Sentimen Berdasarkan Topik Menggunakan LDA dan SVM pada

Review User Aplikasi Ojek Online

Proposal Tugas Akhir

Diajukan Untuk Memenuhi


Persyaratan Guna Meraih Gelar Sarjana
Informatika Universitas Muhammadiyah Malang

Maulidya Yuniarti Anwar


201510370311109

Rekayasa Perangkat Lunak

PROGRAM STUDI INFORMATIKA


FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2018
LEMBAR PERSETUJUAN

Analisis Sentimen Berdasarkan Topik Menggunakan LDA dan SVM pada


Review User Aplikasi Ojek Online

Maulidya Yuniarti Anwar


201510370311109

Telah Direkomendasikan Untuk Diajukan Sebagai


Judul Tugas Akhir Di
Program Studi Informatika Universitas Muhammadiyah Malang

Menyetujui,

Dosen I Dosen II

DOSEN PEMBIMBING 1 DOSEN PEMBIMBING 2


NIP. 108.XXXX.XXXX NIP. 108.XXXX.XXXX
BAB I
PENDAHULUAN
1.1. Latar Belakang
Kurangnya transportasi umum menjadi salah satu alasan masyarakat Indonesia
memilih untuk bepergian dengan kendaraan pribadi, padahal semakin tahun volume
kendaraan juga semakin meningkat. Hal ini tentu saja menambah kemacetan di jalanan,
salah satu inovasi baru adalah ojek online. Kehadiran inovasi ojek online di Indonesia
saat ini tidak dapat di pungkiri membawa banyak manfaat dalam kegiatan sehari-hari.
Dengan keberadaan para ojek online masyarakat tidak perlu lagi kesulitan apabila ingin
bepergian tanpa kendaraan pribadi, tetapi tarif yang murah. Tidak seperti armada taksi
kebanyakan, ojek online sendiri mengemukakan penggunaan kendaraan roda dua
sebagai alat transportasinya. Dengan penggunaan sepeda motor tersebut juga dapat
mempersingkat waktu perjalanan. Di Indonesia setidaknya terdapat dua perusahaan
penyedia jasa ojek online yang berbasis mobile yaitu gojek dan grab.
Keduanya memiliki eksistensi yang sama dalam melayani masyarakat, tentunya
keduanya memiliki kelebihan dan kekurangan masing-masing. Jika dilihat dari google
play store saja jumlah unduhan keduanya sudah lebih dari 10 juta kali, ini berarti
keduanya telah menjadi primadona di hati masyarakat Indonesia. Dengan memiliki
rating sebesar 4.4 yang diberikan oleh setidaknya 2.262.329 orang untuk Grab dan
1.763.507 orang untuk Gojek.
Seiring dengan populeritas keduanya, pengguna menjadi sering membicarakan
akan layanan yang diberikan oleh kedua perusahaan ojek online tersebut. Pengguna
sering memberikan opini mereka melalui kolom ulasan pada aplikasi gojek atau pun
grab yang disediakan oleh google play store. Ulasan yang diberikan para pengguna
tersebut dapat dijadikan data set untuk mengetahui pendapat pengguna mengenai
aplikasi yang mereka gunakan, bisa jadi berupa keluhan ataupun kepuasan mereka akan
layanan dari suatu aplikasi tersebut. Dengan memanfaatkan ulasan pengguna tersebut,
kita dapat mengetahui topik yang dibicarakan oleh para pengguna dan mengkategorikan
untuk topik tersebut lebih banyak komentar positif atau negatif dengan memanfaatkan
Opinion mining.
Opinion mining, merupakan bagian dari text mining yang bertujuan untuk
menganalisis, memahami, mengolah dan mengekstrak data tekstual yang berupa opini,
sentimen, evaluasi, sikap, dan emosi terhadap suatu entitas seperti produk, servis,
organisasi, individu, dan topik tertentu[1].
Terdapat berbagai macam metode klasifikasi pada analisa sentimen yaitu KNN
(K-Nearest Neighbor), Neural Networks, NBC (Naive Bayes Classifier), Decision Tree,
dan SVM (Support Vector Machines). Penelitian sebelumnya yang terkait dengan
klasifikasi pengguna layanan GOJEK yang dilakukan oleh [2] yang mengklasifikakan
tweets yang berisi tentang Gojek menggunakan metode SVM. Penelitian lain yang
berkaitan dengan sentiment analysis juga dilakukan oleh [3] dengan mengklasifikasikan
sentimen pada tweets yang mengandung kata kunci “@gojekindonesia”, “@grabID”
dan “@uber_IDN” dengan menggunakan algoritma K-NN sebagai algoritma klasifikasi
dengan pembobotan dengan metode Hybrid TF-IDF, namun penulis mengatakan bahwa
metode Hybrid TF-IDF kurang baik jika digunakan dalam data set media social.
Penelitian tentang deteksi topik ojek online juga pernah dilakukan oleh [4] dengan
menggunakan metode LDA (Latent Dirichlet Allocation) sebagai pemodelan topik
yang membagi topik menjadi 5 yang berisi Tweet Term Matrix dengan konsep bag-of-
words.
Dari beberapa penelitian terdahulu yang telah disebutkan diatas, pada penelitian
ini akan dilakukan sentiment analysis dengan menggunakan metode SVM berdasarkan
topik yang telah dikategorikan dengan menggunakan metode LDA (Latent Dirichlet
Allocation). SVM (Support Vector Machine) sendiri termasuk metode yang paling
efektif, baik dari sisi praktis maupun teoritis. Sedangkan, LDA sendiri merupakan
algoritma pemodelan topik berbasis distribusi kata-kata yang ada didalam sebuah
dokumen. Dengan menggunakan pembobotan TF-IDF ulasan pengguna akan
dikategorikan menjadi topik-topik tertentu yang nantinya akan dianalisa persentasi
sentimen untuk mengetahui topik tersebut berisi komentar positif atau negatif.

1.2. Rumusan Masalah


Rumusan masalah dari penelitian ini adalah sebagai berikut:
1. Bagaimana mengumpulkan data tweets yang berkaitan dengan Gojek dan Grab
pada ulasan aplikasi Google Play Store?
2. Bagaimana cara mengimplementasikan algoritma SVM (Support Vector Machine)
untuk klasifikasi sentimen ulasan pengguna aplikasi Gojek dan Grab di Google
Play Store?
3. Bagaimana cara mengimplementasikan algoritma LDA (Latent Dirichlet
Allocation) untuk menghasilkan pemodelan topik ?
4. Bagaimana melakukan evaluasi terhadap topik yang dihasilkan dari LDA dan
klasifikasi dengan SVM?

1.3. Tujuan Penelitian


Tujuan dari penelitian ini adalah mengimplementasikan algoritma LDA untuk
mendeteksi topik yang di bicarakan oleh user pada ulasan yang diberikan pengguna
aplikasi Gojek dan Grab pada Google Play Store dan mengklasifikasikan komentar
tersebut menjadi sentimen positif atau negatif dengan menggunakan metode SVM.

1.4. Cakupan Masalah


Adapun cakupan masalah yang digunakan peneliti agar pembahasan dalam penelitian
ini tidak menyimpang adalah:
1. Jumlah data set yang digunakan sebanyak 2000 ulasan.
2. Data yang digunakan adalah ulasan atau komentar yang diberikan oleh pengguna
aplikasi Gojek dan Grab pada Google Play Store dari tanggal 1 Oktober 2018
sampai 31 Oktober 2018.
3. Tidak mempertimbangkan ulasan yang berisi emotikon.
4. Jumlah topik ditentukan berdasarkan jumlah dimensi pengukuran kualitas, yaitu 5
topik.
5. Proses klasifikasi dan deteksi topik berjalan secara offline (tidak real time)
menggunakan metode SVM (Support Vector Machine)
BAB II
METODE PENELITIAN

Metodologi penyelesaian masalah yang dilakukan dalam menyelesaikan penelitian ini adalah
sebagai berikut:

2.1. Studi Literatur


Pada tahap studi literatur ini penulis gunakan untuk memahami konsep metode
TF-IDF, pendekatan dengan cosine similarity, klasifikasi sentimen dengan SVM dan
deteksi topik dengan LDA. Literatur yangd igunakan adalah buku dan beberapa jurnal
paper tentang sentiment analysis pada twitter, algoritma SVM (Support Vector
Machine) dan deteksi topik dengan metode LDA (Latent Dirichlet Allocation). Penulis
juga mengumpulkan informasi dari internet dalam proses perancangan dan
implementasi sistem yang akan dibangun, sehingga menambah pemahaman penulis
akan topik yang di ambil.

2.2. Pengumpulan Data


Pada tahap ini dilakukan pengumpulan data yang diperlukan untuk penelitian
analisis sentimen pada topik yang dibicarakan oleh pengguna Gojek dan Grab melalui
kolom ulasan aplikasi pada google play store. Ulasan yang digunakan sebagai data set
adalah ulasan yang diberikan oleh pengguna pada kedua aplikasi yang berjumlah 1500
data. Waktu pengumpulan ulasan yaitu 1 Oktober 2018 sampai 31 Oktober 2018 dengan
menggunakan aplikasi WebHarvy yaitu sebuah aplikasi Web Scrapper yang
menyimpan konten berupa teks dan menyimpannya menjadi kedalam kolom-kolom
yang kita inginkan. Contoh data yang disimpan oleh WebHarvy terdapat pada tabel 2.1
berikut:
Tabel 2.1. Contoh data ulasan pengguna pada Google Play Store

No Nama Tanggal Komentar


Sangat membantu, dan pas di
1 Vina Febriyanti F November 6, 2018
kantong
Aplikasi yang memudahkan
2 A Google user November 6, 2018
akomodasi
Memperbaiki pelayanan ojek. Only
3 Ariya Dwinanto November 6, 2018
some drivers aren't that hygiene
Updated version malah mapnya d
4 Grace Audreyana November 6, 2018 gofood ga bisa muncul. cm muncul
icon2nya doang.
Mohon diperbaiki. Jk dalam
keadaan sudah order, seharusnya
tidak bisa ganti nomor atau ganti
nama dan emailnya. Kasihan kan
drivernya terutama ntuk GoFood
5 dani baenurdani November 5, 2018
dan GoShop yg bayarnya Cash, gk
bisa menghubungi nomor tersebut.
Dengan itu bisa memproteksi
customer supaya tidak
sembarangan order.
Rahmadhani Aplikasi ngga bisa diupdate (error
6 November 5, 2018
Fadilla code 504)
Appnya tibatiba hilang, di uninstall
7 Elvianisza tarigan November 5, 2018 juga enggak. Udah kejadian dua
kali begini
Posisi Pengambilan kendaraan
8 Jonathan Angles November 5, 2018
sangat dekat & sangat cepat
mahpudin jadi mudah mau kmna2 naik
9 November 5, 2018
pengawas GOJEK+GOCAR pesan food siap
Sebenarnya aplikasi cukup bagus
dan jika digunakan semestinya
maka akan sangat
memuaskan...tapi sayangnya
beberapa kali saya mendapatkan
10 A Google user November 5, 2018 pengemudi motor yang tidak
bertanggung jawab...saya
menempuh jarak sekitar 2,9 km
untuk menuju sekolah...jika
dinominalkan maka sekitar 5.000
rupiah...saya tau itu...
2.3. Analisis Perancangan Sistem
Tahapan yang dilakukan dalam penelitian ini dapat dilihat pada gambar

Gambar 2.1. Alur sistem sentiment analysis topik Ojek Online


Terdapat 5 proses yang akan dilakukan, yaitu:
2.3.1. Tahap Preprocessing
Data yang digunakan dalam penelitian ini adalah data ulasan pengguna aplikasi
gojek dan grab yang terdapat pada Google Play Store seperti yang ditampilkan
pada tabel 2.1. data yang digunakan hanya kolom “Review” untuk kolom nama
dan tanggal tidak dipertimbangkan.

Terdapat 5 tahap preporcessing, yaitu:


1. Case Folding
Case Folding yaitu mengubah semua huruf dalam teks menjadi huruf kecil.
Hanya terdapat huruf ‘a’ sampai dengan ‘z’ yang diterima. Karakter selain
huruf dihilangkan dan dianggap delimiter[5]. Berikut merupakan contoh
hasil proses case folding.
Tabel 2.2. Contoh hasil data setelah case folding

Sebelum Case Folding Setelah Case Folding


Mohon diperbaiki. Jk dalam keadaan mohon diperbaiki. jk dalam
sudah order, seharusnya tidak bisa keadaan sudah order, seharusnya
ganti nomor atau ganti nama dan tidak bisa ganti nomor atau ganti
emailnya. Kasihan kan drivernya nama dan emailnya. kasihan kan
terutama ntuk GoFood dan GoShop drivernya terutama ntuk gofood
yg bayarnya Cash, gk bisa dan goshop yg bayarnya cash,
menghubungi nomor tersebut. gk bisa menghubungi nomor
Dengan itu bisa memproteksi tersebut. dengan itu bisa
customer supaya tidak sembarangan memproteksi customer supaya
order. tidak sembarangan order.
Pada tabel 2.2 diatas perubahan hasil case folding dapat dilihat pada karakter
yang digaris bawahi yang terdapat pada kolom setelah case folding.

2. Stemming
Stemming merupakan suatu prses untuk mengubah kata ke bentuk dasarnya.
Stemming dengan kata lain merupakan suatu proses yang menyediakan
suatu pemetaan antara berbagai kata dengan morfologi yang berbeda
menjadi suatu bentuk dasar (stem)[5]. Atau dengan pengertian lebih mudah
Stemming adalah mengubah kata berimbuhan menjadi bentuk dasarnya.
Contoh hasil proses stemming terdapat pada tabel 2.3 berikut:

Tabel 2.3. Contoh hasil data setelah proses stemming

Sebelum Stemming Setelah Stemming


mohon diperbaiki. jk dalam keadaan mohon baik. jk dalam keadaan
sudah order, seharusnya tidak bisa sudah order, harus tidak bisa
ganti nomor atau ganti nama dan ganti nomor atau ganti nama dan
emailnya. kasihan kan drivernya email. kasihan kan driver utama
terutama ntuk gofood dan goshop yg ntuk gofood dan goshop yg
bayarnya cash, gk bisa menghubungi bayar cash, gk bisa hubung
nomor tersebut. dengan itu bisa nomor sebut. dengan itu bisa
memproteksi customer supaya tidak proteksi customer supaya tidak
sembarangan order. sembarang order.

Pada tabel 2.3 terdapat beberapa karakter yang mengalami perubahan yaitu
karakter yang bergaris bawah setelah proses stemming yaitu menghilangkan
imbuhan menjadi kata dasar.
3. Normalisasi
Normalisasi adalah proses merubah kata tidak baku menjadi baku. Kata
tidak baku yang dimaksud disini baik berupa kata-kata yang masih salah
dalam pengejaan atau merupakan singkatan dalam bentuk tertentu[1].
Contoh data setelah proses normalisasi dapat dilihat pada tabel 2.4. berikut

Tabel 2.4. contoh data setelah proses normalisasi

Sebelum normalisasi Setelah normalisasi


mohon baik. jika dalam keadaan
mohon baik. jk dalam keadaan sudah
sudah order, harus tidak bisa
order, harus tidak bisa ganti nomor
ganti nomor atau ganti nama dan
atau ganti nama dan email. kasihan
email. kasihan kan driver utama
kan driver utama ntuk gofood dan
untuk gofood dan goshop yang
goshop yg bayar cash, gk bisa
bayar cash, tidak bisa hubung
hubung nomor sebut. dengan itu bisa
nomor sebut. dengan itu bisa
proteksi customer supaya tidak
proteksi customer supaya tidak
sembarang order.
sembarang order.

Pada tabel 2.4 terdapat beberapa karakter yang mengalami perubahan


setelah proses normalisasi yaitu karakter yang bergaris bawah dengan
mengganti kata-kata tersebut menjadi kata yang baku.

4. Tokenizing
Tokenizing adalah sebuah proses untuk memilah isi teks sehingga menjadi
satuan kata-kata. Proses ini cukup rumit untuk sebuah program komputer
karena beberapa karakter dapat dijadikan sebagai pembatas (delimeter) dari
token-token itu sendiri[5]. Hasil dari tokenizing ini berupa term-term yang
digunakan untuk pembobotan menggunakan TF-IDF. Contoh data setelah
proses tokenizing dapat dilihat pada tabel 2.5. berikut:

Tabel 2.5. Contoh data setelah proses tokenizing

Sebelum normalisasi Setelah normalisasi


mohon baik. jika dalam keadaan mohon, baik, jika, dalam,
sudah order, harus tidak bisa ganti keadaan, sudah, order, harus,
nomor atau ganti nama dan email. tidak, bisa, ganti, nomor, atau,
kasihan kan driver utama untuk ganti, nama, dan, email, kasihan,
gofood dan goshop yang bayar cash, kan, driver, utama, untuk,
tidak bisa hubung nomor sebut. gofood, dan, goshop, yang,
dengan itu bisa proteksi customer bayar, cash, tidak, bisa, hubung,
supaya tidak sembarang order. nomor, sebut, dengan, itu, bisa,
proteksi, customer, supaya,
tidak, sembarang, order

Pada tabel 2.5. kalimat ulasan pengguna di uraikan menjadi kata-kata yang
disebut term. Pada contoh diatas terdapat 42 term.

5. Stopword Removal
Stopword removal adalah tahap untuk menghilangkan kata yang tidak
penting seperti: saya, adalah, yang, dan sebagainya[4]. Stopword removal
berguna untuk mengurangi kata-kata yang bisa menjadi noise didalam
dataset. Contoh hasil proses stopword removal dapat dilihat pada tabel 2.6
berikut:
Tabel 2.6 Contoh data hasil proses stopword removal

Sebelum stopword removal Setelah stopword removal


mohon, baik, jika, dalam, keadaan,
mohon, baik, jika, dalam,
sudah, order, harus, tidak, bisa, ganti,
keadaan, sudah, order, harus,
nomor, atau, ganti, nama, dan, email,
tidak, bisa, ganti, nomor,
kasihan, kan, driver, utama, untuk,
kasihan, driver, utama, gofood,
gofood, dan, goshop, yang, bayar,
goshop, bayar, cash, hubung,
cash, tidak, bisa, hubung, nomor,
nomor, sebut, bisa, proteksi,
sebut, dengan, itu, bisa, proteksi,
customer, supaya, tidak,
customer, supaya, tidak, sembarang,
sembarang, order
order

2.3.2. Pembobotan TF-IDF


Metode TF-IDF merupakan metode untuk menghitung bobot setiap kata yang
paling umum digunakan pada information retrieval. Metode ini juga terkenal
efisien, mudah dan memiliki hasil yang akurat[6]. Metode ini menghitung nilai
Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap term
(kata) di setiap dokumen dalam korpus. Metode ini akan menghitung bobot
setiap token t di dokumen di dengan rumus:

TF-IDF (Wdt) = tfdt × IDFt (1)


Keterangan:
d : dokumen ke-d
t : kata ke-t dari kata kunci
W : bobot dokumen ke-d terhadap kata ke-t
tf : Term Frequency (banyaknya kata yang dicari pada sebuah dokumen)
IDF : Inverse Document Frequency
Untuk menghitung IDF dapat menggunakan rumus berikut:
𝐷
IDF = log2 (2)
𝑑𝑓
Dimana:
D : total dokumen
df : banyak dokumen yang mengandung kata yang dicari.

Setelah bobot (W) masing-masing dokumen diketahui, maka dilakukan


proses pengurutan dimana semakin besar nilai W, semakin besar tingkat
similaritas dokumen tersebut terhadap kata kunci, dan sebaliknya.

2.3.3. Deteksi Topik dengan LDA


Algoritma LDA merupakan probabilistic topic model yang pertamakali dikenalkan
oleh David Blei, dkk. Pada LDA diasumsikan bahwa sebuah dokumen merupakan percampuran
dari beberapa topik dan satu topik terdiri dari distribusi kata-kata[4]. Dalam model probabilitas
tersebut variable tersembunyi dapat menjelaskan variabel observasi, dimana variabel observasi,
dimana variabel observasi adalah dokumen sedangkan topik, distribusi topik per dokumen, dan
penentuan topik untuk setiap kata dalam dokumen tersebut adalah struktur yang tersembunyi
(latent). Dalam LDA diasumsikan bahwa sebuah dokumen terbentuk melalui proses generatif
dengan langkah-langkah berikut:
1. Tentukan panjang dokumen N (jumlah kata dalam dokumen)
2. Tentukan distribusi topik dalam dokumen (θ)
3. Untuk setiap dokumen N dan kata w:
- Tentukan topik z
- Tentukan kata w yang dihasilkan dari topik z

Maka tujuan dari algoritma LDA sendiri adalah untuk mendapatkan


topik z (latent variable) yang terdapat dalam tiap dokumen (observed variable)
dan kata-kata w yang menyusun setiap topik z. Salah satu kelemahan metode
LDA adalah seseorang perlu menentukan jumlah topik yang ingin
ditampilkan[7].
Pembentukan model dengan LDA parameter dibentuk dengan input
antara lain jumlah topik yaitu sebanyak 5 topik, jumlah kata kunci yang ingin
ditampilka yaitu 5 kata dan jumlah iterasi 200, sedangkan untuk nilai α diambil
50/k dan nilai β sebesar 0,1[4]. Penerapan model LDA pada ulasan akan
menghasilkan output berupa kata kunci yang akan menjadi input pada tahap
berikutnya yaitu kategorisasi berdasarkan nilai similaritas.

2.3.4. Kategorisasi ulasan berdasarkan kedekatan ulasan dengan topik


Kategorisasi berdasarkan nilai similaritas dilakukan untuk mengetahui
ulasan mana yang masuk kedalam masing-masing topik hasil deteksi sehingga
jumlah ulasan yang berada pada setiap topik dapat diketahui. Setiap term atau
kata yang telah dihitung bobotnya dengan menggunakan TF-IDF dilakukan
perhitungan nilai kedekatan antara ulasan dengan topik menggunakan metode
cosine similarity[4].

2.3.5. Klasifikasi SVM (Support Vector Machine)


Setelah mengkategorikan ulasan kedalam topik-topik dengan
menggunakan algoritma LDA, selanjutnya dilakukan klasifikasi komentar
positif atau negatif dengan menggunakan metode SVM. SVM adalah sebuah
sistem pembelajaran yang menggunakan ruang hipotesis berupa fungsi-fungsi
linear dalam ruang fitur berdimensi tinggi, dilatih dengan algoritma
pembelajaran berdasarkan pada teori optimasi dengan mengimplementasikan
learning bias yang berasa dari teori pembelajaran statistik.
Pada penelitian ini terdapat 2 kategori yaitu komentar positif dan
komentar negatif. Setiap komentar yang positif diberi label “1” sedangkan
untuk komentar negatif diberi label “-1”[2]. Penelitian ini menggunakan
LibSVM untuk PHP yang disediakan oleh Ian Barber. LibSVM adalah sebuah
library yang mendukung fungsi SVM seperti training dan klasifikasi. Format
data yang diinputkan untuk memjalankan SVM adalah dalam bentuk array.

(Binary) Classification
Binary classification adalah metode SVM yang mengklasifikasi suatu entitas ke
kelompok True (+1) atau False (-1). Dalam penelitian ini nilai true berarti
komentar positif dan False berarti komentar negatif. Machine learning bertujuan
untuk menemukan solusi optimal dari fungsi 𝑓 ∶ 𝑋 → {+1, −1} diberikan n
sampel {(𝑥𝑖 , 𝑦𝑖 )𝑛𝑖 = 1}, dimana xi ϵ {-1,1}. Pada umumnya, X merupakan sub
ruang vektor ℝd.
Problem klasifikasi pada ruang 2D diilustrasikan oleg Gambar 2.2 dibawah ini.
Dalam konteks ini, fungsi f ditentukan oleh decision boundary yang
memisahkan antara sampel positif dan negatif. Dengan adanya decision
boundary, kita dapat menentukan decision rule.

Gambar 2.2. Binary Classification

Dari 5 topik yang telah dikategorikan menggunakan metode LDA, kumpulan


data pada 3 topik dengan jumlah data terbanyak ditetapkan sebagai data train yang akan
dilatih menggunakan metode SVM, sehingga akan menghasilkan model yang akan
digunakan untuk mengklasifikasikan ulasan pada data test.

2.4. Pengujian dan Analisa hasil program


Sebuah sistem klasifikasi harus dinilai performanya agar dapat mengukur
tingkat akurasi dari klasifikasi yang dihasilkan. Ada beberapa metode perhitungan yang
digunakan untuk menilai performa sebuah klasifikasi misalnya K-Fold Cross
Validation, Confusion Matrix, Precision, Recall, dan lain-lain. Pada penelitian ini
peneliti menghitung akurasi dan F-measure dengan bantuan confusion matrix.

Gambar 3.3. Confusion Matrix


Untuk menghitung akurasi, digunakan persamaan sebagai berikut:
𝑗𝑢𝑚𝑙𝑎ℎ 𝑢𝑙𝑎𝑠𝑎𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 + 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑖𝑠𝑎ℎ 𝑑𝑒𝑛𝑔𝑎𝑛 𝑏𝑒𝑛𝑎𝑟
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 =
𝑗𝑢𝑚𝑙𝑎ℎ 𝑡𝑜𝑡𝑎𝑙 𝑢𝑙𝑎𝑠𝑎𝑛

Untuk menghitung F-measure adalah sebagai berikut:


𝑝𝑟𝑒𝑠𝑖𝑠𝑖 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝐹 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = 2 ×
(𝑝𝑟𝑒𝑠𝑖𝑠𝑖 + 𝑟𝑒𝑐𝑎𝑙𝑙)

Sedangkan untuk menghitung nilai presisi dan recall dapat menggunakan rumus
berikut:
𝑗𝑢𝑚𝑙𝑎ℎ 𝑢𝑙𝑎𝑠𝑎𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 𝑎𝑡𝑎𝑢 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑖𝑠𝑎ℎ 𝑑𝑒𝑛𝑔𝑎𝑛 𝑏𝑒𝑛𝑎𝑟
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 =
𝑗𝑢𝑚𝑙𝑎ℎ 𝑢𝑙𝑎𝑠𝑎𝑛 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑖𝑠𝑎ℎ𝑘𝑎𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 𝑎𝑡𝑎𝑢 𝑛𝑒𝑔𝑎𝑡𝑖𝑓

𝑗𝑢𝑚𝑙𝑎ℎ 𝑢𝑙𝑎𝑠𝑎𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 𝑎𝑡𝑎𝑢 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 𝑦𝑎𝑛𝑔 𝑑𝑖𝑝𝑖𝑠𝑎ℎ 𝑑𝑒𝑛𝑔𝑎𝑛 𝑏𝑒𝑛𝑎𝑟


𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑗𝑢𝑚𝑙𝑎ℎ 𝑢𝑙𝑎𝑠𝑎𝑛 𝑝𝑜𝑠𝑖𝑡𝑖𝑓 𝑎𝑡𝑎𝑢 𝑛𝑒𝑔𝑎𝑡𝑖𝑓 𝑦𝑎𝑛𝑔 𝑠𝑒𝑏𝑒𝑛𝑎𝑟𝑛𝑦𝑎
KESIMPULAN

Penelitian ini bertujuan untuk menganalisa sentimen pada ulasan penggua yang terdapat
pada aplikasi gojek dan grab di google play store yang telah dikategorikan berdasarkan topik
dengan metode LDA (Latent Dirichlet Allocation). Analisa sentimen dilakukan dengan
menggunakan algoritma SVM (Support Vector Machine), pembobotan tiap kata dilakukan
dengan menggunakan algoritma TF-IDF. Hasil dari klasifikasi tersebut akan diuji dengan nilai
akurasi serta F-Measurement dengan confusion matrix.
DAFTAR PUSTAKA

[1] J. Statistika, F. Metematika, D. A. N. Ilmu, P. Alam, And U. I. Indonesia, “Analisis


Klasifikasi Sentimen Review Aplikasi E-Ticketing Menggunakan Metode Support
Vector Machine Dan Asosiasi,” 2018.
[2] I. P. Windasari, F. N. Uzzi, And K. I. Satoto, “Sentiment Analysis On Twitter Posts :
An Analysis Of Positive Or Negative Opinion On Gojek,” Pp. 266–269, 2017.
[3] B. Tahun Et Al., “Analisa Sentimen Tweet Berbahasa Indonesia Dengan Menggunakan
Metode Pembobotan Hybrid Tf-Idf Pada Topik Transportasi Online,” Pp. 1–8.
[4] B. Tahun, L. Meidina, S. Basuki, And N. Hayatin, “Deteksi Topik Mengenai Keluhan
Pelanggan Jasa Ojek Online ‘ Gojek ’ Pada Twitter,” Pp. 1–7, 2016.
[5] A. Setiawan, I. F. Astuti, And A. H. Kridalaksana, “Klasifikasi Dan Pencarian Buku
Referensi Akademik Menggunakan Metode Naïve Bayes Classifier ( Nbc ) ( Studi
Kasus : Perpustakaan Daerah Provinsi Kalimantan Timur ),” Vol. 10, No. 1, 2015.
[6] J. Nakula, I. N. Semarang, J. Imam, B. No, And K. Kunci, “Abdul Azis Maarif,” No.
5.
[7] “No Title,” 2017.