Perbandingan Metode Naïve Bayes Classifier Dan Holistic Lexicon Based Dalam Analisis Sentimen Angket Mahasiswa
Perbandingan Metode Naïve Bayes Classifier Dan Holistic Lexicon Based Dalam Analisis Sentimen Angket Mahasiswa
Point II BAB IV
2 Metode Machine Learning 4 Metode Penelitian
BAB V BAB VI
5 Hasil Pengujian 6 Kesimpulan & Saran
1
Point I
LATAR BELAKANG
Banyaknya film yang ada dan beredar namun sulit untuk menemukan film yang
memiliki konten edukasi didalamnya, oleh karena itu maka review atau ulasan dalam
film merupakan salah satu pihak penentu untuk menentukan konten edukasi yang
terdapat dalam film.
2
Point II
Metode Machine Learning
KNN (K-Neirest Neighbor)
Random Forest
Maximum Entrophy
Lexicon Based
3
Point III
Metode Penelitian
Proses Klasifikasi
Sentimen Positif
Sentimen Netral
Sentimen Negatif
TF-IDF
Term Frequency – Inverse Document Frequency
Dengan cara menghitung bobot setiap kata yang umum digunakan, metode ini akan
menghitung kemunculan sebuah kata dalam dokumen.
Merupakan metode yang populer (mudah dalam segi penggunaan, dan memiliki korelasi atau
pengaruh yang besar terhadap metode klasifikasi yang digunakan.
Penggunaan TF-IDF :
Semakin banyak jumlah dataset maka akan semakin baik dalam proses klasifikasi
Digunakan untuk menentukan sentiment kata opini (pelabelan kata). Metode ini digunakan
oleh penulis dikarenakan memiliki tingkat akurasi yang cukup bagus pada penelitian
sebelumnya “Cara kerja Algoritma K-Neirest Neighbor” A. M. Ismail - 2018
Nilai sentiment akan diberi bobot 1 apabila mengandung opini positif, -1 jika mengandung
sentiment negatif yang berdasarkan pada kamus SentiWordNet. Jika tidak terdapat pada
kamus tersebut maka diberi bobot 0.
Lexicon Based Learning
Output : Hasil
Nilai pembobotan
lexicon based
Menentukan nilai
max (positif) dan Normalisasi Nilai
nilai min (negative) negatif
Gambaran
Pada penelitian ini penulis mencoba menggabungkan ekstraksi fitur TF-IDF dengan lexicon
SentiWordNet dengan cara mengalikan bobot fitur pada setiap data.
Alur Diagram Model
4
Point IV
Metode Penelitian
KNN
(K-Neirest Neighbor)
KNN merupakan sebuah algoritma supervised learning dimana hasil instance yang baru
diklasifikasikan berdasarkan mayoritas dari k-tetangga terdekat.
Akan sangat akurat ketika memiliki banyak data set (K = banyaknya dataset atau tetangga
terdekat maka akan semakin baik proses klasifikasi yang dilakukan.
5
Point V
Hasil Pengujian
Skenario 1 :
Untuk mengetahui pengaruh penggunaan fitur ekstraksi lexicon SentiWordNet untuk data
ulasan film berbahasa inggris.
Penggunaan Information Gain (IG) karena dapat mengoptimalkan akurasi terhadap proses
klasifikasi untuk ulasan berbahasa inggris.
Namun dengan nilai presisi yang rendah, yang diakibatkan oleh banyaknya label :
False Positif
False Negatif
Penggunaan Information Gain (IG) karena dapat mengoptimalkan akurasi terhadap proses
klasifikasi untuk ulasan berbahasa inggris.
Namun dengan nilai presisi yang rendah, yang diakibatkan oleh banyaknya label :
False Positif
False Negatif
Nilai akurasi dan presisi menurun dikarenakan terdapat beberapa fitur yang mengurangi hasil
klasifikasi dan beberapa kata berpengaruh namun harus tereliminasi.
KESIMPULAN
Penulis :
Skenario 1: Penggunaan lexicon terhadap fitur ekstraksi tidak memberikan hasil yang baik,
dikarenakan scenario sistem yang dibangun paper rujukan melakukan split data (tidak runtut)
pada saat sebelum melakukan klasifikasi.
Skenario 2: Semakin tinggi nilai threshold maka akan sangat berpengaruh pada tahap
klasifikasi
Skenario 3: mencoba menggabungkan metode fitur ekstraksi TF-IDF dengan menggunakan
metode lexicon tanpa senti WordNet.
THANKS!
CREDITS: This presentation template was created by Slidesgo, including
icons by Flaticon, infographics & images by Freepik