Analisis Sentimen Review Kosmetik Bahasa Indonesia Menggunakan Algoritma Naïve Bayes Classifier PDF
Analisis Sentimen Review Kosmetik Bahasa Indonesia Menggunakan Algoritma Naïve Bayes Classifier PDF
Figure 2 Tokenizing
C. Klasifikasi G. Stopword
Klasifikasi data terdiri dari dua proses yaitu tahap Stopword adalah berhenti pada kata-kata yang sudah
pembelajaran dan tahap pengklasifikasian. Tahap pembelajaran diprediksi dari bahasa, yaitu kata-kata yang tidak memiliki
merupakan tahapan dalam pembentukan model klasifikasi, artian atau informasi yang penting. Contoh stopword dalam
sedangkan tahap pengklasifikasian merupakan tahapan bahasa Indonesia adalah yang, di, ke, adalah, akhir, apabila, dan
penggunaan model klasifikasi untuk memprediksi label kelas lain-lain. Kata-kata tersebut akan dilewati begitu saja oleh
dari suatu data. Contoh sederhana dari teknik data mining sistem sehingga, hanya kata yang memiliki makna penting yang
klasifikasi adalah pengklasifikasian hewan berdasarkan atribut akan diambil. [5].
jumlah kaki, habitat dan organ pernafasannya akan H. Naïve Bayes Classifier
diklasifikasikan ke dalam dua label kelas yaitu unggas dan ikan.
Label kelas unggas adalah data yang memiliki jumlah kaki dua, Berbagai penelitian menggunakan Algoritma Naïve Bayes
habitatnya di darat, dan organ pernafasannya menggunakan Classifier (NBC) sebagai metode pengklasifikasian teks. Salah
paru-paru, sedangkan label kelas ikan adalah data yang kasus yang menggunakan algoritma ini untuk pengklasifikasian
memiliki jumlah kaki nol (tidak memiliki kaki), habitat di air, teks yaitu oleh [7]. Pada penelitian tersebut mengungkapkan
dan organ pernafasannya menggunakan insang. [5]. bahwa penggunaan metode NBC dapat digunakan untuk
pengklasifikasian otomatis terhadap data forum dengan tingkat
akurasi klasifikasi sebesar 73% dengan menggunakan review untuk produk kosmetik. Setelah itu, dokumen review
pengukuran efektifitas Confusion Matrix. Namun kekurangan tadi melalui tahapan preprocessing dan dokumen berhasil
pada penelitian ini masih perlu menambahkan fitur khusus diproses, kemudian dilakukannya perhitungan probabilitas dari
dalam tokenisasi kalimat sehingga dapat menghasilkan setiap kata yang sudah diproses tadi, dan dihitung berapa
klasifikasi dengan akurasi yang lebih tinggi. jumlah probabilitas dari setiap kelas yaitu positif, netral, dan
negatif. Kata probabilitas diberi label secara manual dari
database. Akan tetapi, database dari sentimen didapat dari
referensi penelitian terdahulu.
B. Text Preprocessing
Data yang diambil harus melalui tahapan teks preprocessing
Figure 3 Naïve Bayes Classifier terlebih dahulu agar lebih mudah dalam pengolahan data.
Semakin sedikit data yang diproses maka akan semakin cepat
pula kinerja sistem. Dibawah ini adalah flowchart dari tahap
preprocessing.
Start
Parsing/Tokenizing
III. METHODOLOGY
A. Cara Kerja Program
Sta rt
Stopword
Dokumen
Review
Produk
Filtering
Preprocessing
Dokumen
Perhitungan
Kemunculan kata
Hasil
dan Probabilitas Dokumen
Klasifikas i
End
Hasil
Klasifikas i Figure 6 Text Preprocessing
(2)
y(suka|pos) = (2+1)/(12+23) = 3/35
C. Algoritma Naïve Bayes Classifier
y(parah|pos) = (0+1)(12+23)= 1/35
Data yang telah melalui tahap pemrosesan teks kemudian y(lumayan|pos) = (0+1)(12+23)= 1/35
dapat dilanjutkan ke tahap selanjutnya yaitu klasifikasi dengan
algoritma Naïve Bayes Classifier. Data dalam bentuk teks akan y(suka|net) = (0+1)/(12+23) = 1/35
muncul dua hasil klasifikasi teks yang mengandung positif, y(parah|net) = (0+1)(12+23)= 1/35
netral, dan negatif. Berikut ini adalah perhitungan algoritma y(lumayan|net) = (1+1)(12+23)= 2/35
Naïve Bayes Classifier:
1. Tahap awal dalam proses NBC adalah menghitung y(suka|neg) = (0+1)/(12+23) = 1/35
probabilitas masing-masing kelas dari keseluruhan y(parah|neg) = (1+1)(12+23)= 2/35
data training. y(lumayan|neg) = (0+1)(12+23)= 1/25
2. Proses testing. Proses ini intuk mengetahui keakuratan
model yang dibangun pada proses training, umumnya y(pos|d5) = 2/4*3/35*1/35*1/35= 3,49854E-05
digunakan data yang disebut test set untuk y(net|d5) = 1/4*1/35*1/35*2/35 = 1,16618E-05
memprediksi label. Metode NBC terdiri dari dua tahap y(neg|d5) = 1/4*1/35*2/35*1/25 = 1,63265E-05
dalam proses klasifikasi teks, tahap pelatihan dan y(pos|d5) > y(neg|d5) dan y(net|d5)
tahap klasifikasi. Pada tahap pelatihan dilakukan
proses analisis terhadap sample dokumen berupa Hasil dari perhitungan diatas adalah kelas positif pada d5
pemilihan vocabulary yaitu kata yang dimungkinkan mempunyai nilai yang paling tinggi, jadi kelas d5
muncul dalam koleksi dokumen sample yang menjadi mempunyai kelas positif.
representasi dokumen. Langkah selanjutnya adalah
menentukan probabilitas bagi tiap kategori
berdasarkan sampel dokumen. IV. HASIL DAN ANALISIS
Berikut dibawah ini adalah contoh perhitungan Naïve
Bayes Classifier: Pada tahap ini penulis mencoba melakukan testing
Table 2 Contoh Data Training sebanyak 100 review produk untuk menentukan kelas dari
review tersebut apakah positif, netral, atau negatif. Dengan
Set Doku Kata Kelas data testing yang terdiri dari emoticon, kata positif, netral,
men dan negatif. Berikut dibawah ini adalah tabel hasil dari
Traini 1 Aku suka natrep Positif analisis sentimen menggunakan naïve bayes classifier.
ng Set 2 Aku suka natrep gak Positif
Table 3 Hasil Uji
lengket dan ngilangin
bruntusan.
Data Set Dokumen Hasil
3 Lumayan sih tapi Netral
Awalnya beli ini karna pos
masih mau nyoba
lagi hyped banget
yang lain.
Training Set dipasaran, setelah coba
ternyata aku juga jadi bruntusannn.Dan ga da
suka bangeettt sama aloe efek ngebersihinnya
vera gel iniii!!! menurut aku.Karna abis
Texturenya gel bening ngescrub ga ada efek
yg cepet banget meresap bersihnya dan
dikulit, gak greasy, gak sebenernya yang aku
bikin muka tambah kurang srek itu pas nge
berminyak, muka jadi scrub ga berasa nge
glowing2 gimanaa gitu srucb wkwk.Karna
setelah pakai. kebiasaan pake scrub
walau kulit aku normal pos yang butirannya agak
ga ada jerawat pake ini kasar kali ya wkw
cuma melembabkan,
menghilangkan belang,
dan membuat glowing.
Pas pms kadang 1/2 aku a. TP = 75 dari of 100 review berhasil diklasifikasi.
pakein NR besoknya b. TN = 5 dari 100 review berhasil diklasifikasi, tetapi,
udah memudar. bakal tidak meyakinkan
repurchase lagi nih udah c. FP = 20 dari 100 review berhasil diklasifikasi tetapi,
jar kedua 😍 gagal
Wagelasih pertama kali pos d. FN = 0 out of 100 review tidak berhasil diklasifikasi,
pake aku udah jatuh dan gagal.
cinta sama natrep❤️ Berikut dibawah ini adalah perhitungan akurasi dari
gak ngerti lgi deh, dia sistem tersebut.
bener2 bisa bikin
beruntusan aku kabur 75 + 5 80
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = × 100% = = 80%
entah kemana, apalagi 75 + 0 + 20 + 5 100
dipakenya sama cuka
apel bener2 bisa bikin Dari hasil perhitungan akurasi dengan menggunakan
dosa2 di muka hilang rumus diatas, dapat disimpulkan hasil akurasi dari sistem
semua jadi lebih cerah tersebut adalah 80% dengan menggunakan Naïve Bayes
dan glowing😍 Classifier.
aloe vera ini bagus pos
bagus banget buat
ngatasin masalah kukit. V. KESIMPULAN & SARAN
kayak jerawat, bekas A. Kesimpulan
jerawat, dan untk
Sentimen analisis untuk membuat keputusan dari review produk
ngelembapin kulit. ya
dengan algoritma Naïve Bayes Classifier menghasilkan akurasi
walaupun dia ini emng
yang cukup bagus yaitu sebesar 80%. Sistem ini bekerja dengan
lama prosesnya tapi
baik dan lebih akurat apabila pada review tersebut terdapat
semuanya bgus banget
emoticon. Kemudian dengan menggunakan stopword dan
hasilnya. aku udh pakai
filtering pada tahap text preprocessing dapat mengurangi kata
sekitar 1 bulanan dan
dan mengurangi perhitungan Naïve Bayes Classifier, sehingga
bener bener berbuah
hanya kata penting yang akan dihitung dan dapat meningkatkan
manis..
akurasi.
Produk ini kayanya neg
produk himalaya yang
paling aku gak suka -_- B. Saran
scrubnya gede2 dan Penulis menyadari banyaknya kekurangan pada sistem ini,
kasar banget, jadi maka penulis menyarankan.
bukannya ngilangin a. Menambah lebih banyak kata pada data training.
jerawat dan komedo2 b. Menambahkan perhitungan Klasifikasi dengan fitur
tapi malah bikin Unigram dll.
beruntusan -_- alhasil c. Bandingkan dengan algoritma klasifikasi lainnya.
dia nganggur sampai
akhirnya kadaluarsa dan
berakhir ku buang
ga suka parahhh,karna neg
malah bikin
[15] W. F. Mahmudy and A. W. Widodo, "Klaisifikasi
Artikel Berita Secara Otomatis Menggunakan Metode
REFERENCES Naive Bayes Classifier yang Dimodifikasi," Tekno, vol.
21, 2014.