SKRIPSI
OLEH:
NPM: 170403010001
SKRIPSI
Diajukan kepada
Oleh :
170403010001
2023
i
LEMBAR PERSETUJUAN PEMBIMBING SKRIPSI
i
LEMBAR PENGESAHAN SKRIPSI
Komisi Sidang
Ketua Sidang / Pembimbing
Dewan Penguji
Penguji I
Penguji II
Mengetahui, Mengesahkan,
Ketua Program Studi Teknik Informatika Dekan Fakultas Sains Dan Teknologi
ii
LEMBAR PERTANGGUNGJAWABAN
NPM : 170403010001
1. Skripsi ini adalah benar-benar hasil dari karya saya sendiri secara mandiri dan
bukan merupakan hasil dari plagiasi (jiplakan) atas karya orang lain.
Apabila dikemudian hari terbukti atau dapat dibuktikan bahwa skripsi ini hasil
dari plagiasi, saya akan bersedia untuk menanggung segala konsekuensi hokum
yang berlaku.
iii
HALAMAN PERSEMBAHAN
Yang Maha Esa atas rahmat-Nya dalam menyelesaikan skripsi ini. Saya juga
ingin mengungkapkan rasa terima kasih kepada semua yang telah memberikan
kehidupan.
3. Kedua orang tua saya yang tanpa henti memberikan dukungan. Rasa
terima kasih ini tak akan pernah cukup untuk membalas segala budi baik
mereka.
ini.
iv
7. Universitas PGRI Kanjuruhan Malang, lembaga pendidikan yang
v
ABSTRAK
M.Si.
Kata Kunci : analisis sentimen, metode Naive Bayes, teknik smoothing, Laplace
akurasi yang relatif tinggi dibandingkan dengan metode lainnya. Namun, Naïve
Bayes juga memiliki kekurangan, seperti asumsi independensi antara atribut yang
dapat mengurangi akurasi dan masalah probabilitas nol ("Zero Frequency"). Salah
satu cara untuk mengatasi kekurangan metode Naïve Bayes adalah dengan
dampak probabilitas nol dan hasil akurasi dapat ditingkatkan.Dalam penelitian ini,
yang berbeda, yaitu 95% dan 5%, 80% dan 20%, serta 75% dan 25% data testing
dan data uji .Hasil pengujian menunjukkan bahwa metode Naive Bayes
mendapatkan nilai akurasi tertinggi sebesar 0,49, sedangkan Naive Bayes dengan
pada Naive Bayes dapat meningkatkan nilai akurasi dalam klasifikasi data
vi
KATA PENGANTAR
SMOOTHING "
bantuan, dukungan, dan dorongan dari berbagai pihak. Oleh karena itu,
1. Dr. Sudi Dul Aji, M.Si., selaku Rektor Universitas PGRI Kanjuruhan
Malang.
2. Dr. I Ketut Suastika, M.Si., selaku Dekan Fakultas Sains dan Teknologi
ini.
6. Segenap dosen, staf, asisten praktikum, dan laboran sains dan teknologi
belajar.
7. Kedua orang tua penulis yang sangat dicintai dan seluruh keluarga besar
9. Serta kepada semua pihak yang telah memberikan dukungan, doa, dan
bantuan yang tidak dapat disebutkan satu per satu, sehingga penelitian
Penulis dengan rendah hati menerima saran, kritik, dan masukan untuk
website, inspirasi, dan manfaat bagi pembaca yang tertarik dalam bidang studi
yang sama. Terima kasih kepada semua yang telah membantu dalam
Peneliti
Yusril Adek Rizky
DAFTAR ISI
LEMBAR PERTANGGUNGJAWABAN.............................................................iv
HALAMAN PERSEMBAHAN..............................................................................v
ABSTRAK.............................................................................................................vii
KATA PENGANTAR.............................................................................................1
DAFTAR ISI............................................................................................................3
BAB I PENDAHULUAN........................................................................................4
1.4 Tujuan.............................................................................................................6
1.5 Manfaat...........................................................................................................7
3.4 Preprocessing................................................................................................21
1. Case Folding...............................................................................................22
2. Tokenizing..................................................................................................22
3. Stopword Removal......................................................................................23
4. Stemming....................................................................................................23
BAB V PEMBAHASAN.......................................................................................42
BAB VI PENUTUP...............................................................................................44
6.1 Kesimpulan...................................................................................................44
6.2 Saran.............................................................................................................44
DAFTAR GAMBAR
PENDAHULUAN
Klasifikasi merupakan proses menganalisa suatu data dalam bentuk besar seperti
informasi yang relevan pada teks dan menganalisis sebagian atau keseluruhan
teks yang tidak terstruktur. Klasifikasi teks juga akan mengolah teks dengan
melalui proses text mining, informasi yang ada dapat dikeluarkan secara jelas di
algoritma agar bias mendapat hasil akurasi yang maksimal. Salah satu algoritma
dalam melakukan klasifikasi terdapat dua proses penting yaitu learning (training)
dan testing. Naive Bayes bekerja sangat baik dibanding dengan model classifier
(Ruhyana, 2019) yang berjudul
lainnya. Hal ini dibuktikan pada jurnal Nanang
1
“Analisis sentiment terhadap penerapansistem ganjil/genap pada twitter dengan
dan memiliki tingkat akurasi yang lebih tinggi dibandingkan dengan metode
yang lain. Algoritma Naïve Bayes yang sederhana dan kecepatannya yang tinggi
dalam proses pelatihan dan klasifikasi membuat metode ini menjadi menarik
(Hakimi Fajar, 2018)
untuk digunakan sebagai metode dalam klasifikasi . Namun
nol bias diminimalisir dan bisa mendapatkan hasil akurasi yang lebih tinggi
(Indah Listiowarni Eka Rahayu Setyaningsih, 2018)
Anak Usia Dini”. Penelitian ini menggunakan 30 data yang sudah memiliki label
dan hasilnya akan dibandingkan. Dalam penelitian ini metode naïve bayes
klasifikasi teks mendapat tingkat akurasi yang tinggi. Penelitian ini bertujuan
tigkat akurasi dari metode naïve bayes bisa lebih maksimal . Dalam penelitian ini
data akan diambil dari komentar salah satu chanel youtube yaitu Detectiv Aldo
dalam metode naïve bayes untuk pengolahan data sentimen dari komentar
youtube.
negatif
I.4 Tujuan
I.5 Manfaat
Laplace Smoothing.
KAJIAN PUSTAKA
5
dalam hal ini metode laplace
smoothing dapat meningkatkan
nilai rata-rata F-mesure pada naive
bayessian-chi square tanpa
smoothing hingga 39,601.
4. Comparison of Naive Naive Hasil penelitian menunjukkan
Bayes Smoothing Bayes bahwa Laplace smoothing lebih
Methods for Twitter unggul dibandingkan Dirichlet
Sentiment Analysis smoothing dan Absolute
Discounting dengan nilai rata- rata
mikro F1-Score 0,7234 dan rata-
rata makro F1-Score 0,7182.
5. SISTEM Naive Peningkatan akurasi untuk
KLASIFIKASI Bayes algoritma Naïve Bayes Classifier
FEEDBACK dilakukan dengan menggunakan
PELANGGAN DAN teknik Laplacian Smoothing. Hasil
REKOMENDASI penelitian menunjukkan bahwa
SOLUSIATAS proses klasifikasi dengan algoritma
KELUHAN DI UPT Naïve Bayes Classifier untuk proses
PUSKOM UNS pelatihan memiliki tingkat akurasi
DENGAN terendah 86.67% dengan data
ALGORITMA pelatihan sebanyak 30 mentions dan
NAÏVE BAYES tingkat akurasi tertinggi 100%
CLASSIFIER dengan data pelatihan sebanyak 20
mentions.
6. KLASIFIKASI POLA Naive Hasil pengujian dilakukan dengan
ASUH ORANG TUA Bayes cara 30 data sample acak yang
TERHADAP ANAK sudah memiliki label dan hasilnya
USIA DINI dibandingkan dengan hasil aplikasi.
Dalam penelitian ini metode naïve
bayes dengan laplace smoothing
menghasilkan akurasi sebesar 93
% sedangkan metode naïve bayes
menghasilkan akurasi sebesar 76%.
7. Perbandingan Metode Naive hasil uji coba dapat ditunjukkan
Probabilistik Naive Bayes bahwa metode Naïve Bayesian
Bayesian Classifier Classifier dengan penambahan
dan Jaringan Syaraf Laplacian Smoothing memiliki
Tiruan Learning tingkat akurasi pengujian paling
Vector Quantization tinggi, yaitu secara berturut- turut
dalam Kasus 88%, 92.4%, 92.8% dan 92.4%
Klasifikasi Penyakit dibandingkan dengan Naïve
Kandungan Bayesian Classifier tanpa Laplacian
Smoothing (32%; 67.8%,79%;
89.6%) dan Learning Vector
Quantization (82.4%; 88.8%;
89.4%; 95.2%)
8. Implementasi Naïve Naive Nilai perhitungan accuracy dan
Bayessian dengan Bayes error rate pada 720 data training
Laplacian Smoothing dengan pengambilan 5 kali jumlah
untuk Peminatan dan data testing yang berbeda
Lintas Minat Siswa menggunakan naive bayessian dan
SMAN 5 Pamekasan laplacian smoothing, didapat nilai
accuracy : 92,11% dan nilai error
rate : 7,02%
9. ANALISIS Naive Dari hasil implementasi diperoleh
SENTIMEN TWEET Bayes akurasi 77,45% untuk term
BERBAHASA frequency dengan laplace
INDONESIA DI smoothing dan akurasi 75,86%
TWITTER untuk TF-IDF pada test set yang
dianotasikan menggunakan
emoticon. Hasil akurasi dengan test
set yang dianotasikan secara manual
diperoleh nilai 70,68% untuk term
frequency dengan laplace
smoothing dan 71,26% untuk TF-
IDF.
10. Klasifikasi Status Naive Penelitian ini menerapkan metode
Kesehatan Penerimaan Bayes Naïve Bayes dengan menggunakan
Calon Karyawan metode laplace smoothing untuk
Mengunakan Metode mengetahui status kesehatan calon
Naïve Bayes karyawan. Sampel yang digunakan
sebanyak 56 data hasil medical
check-up dengan aspek yang
diperiksa antara lain tinggi badan,
berat badan, tensi darah
(sistolik/diastolik), mata, dan
riwayat penyakit kronis. Akurasi
yang diperoleh pada penelitian ini
sebesar 89%.
Text Minning merupakan cara atau metode untuk mencari informasi dari
sebuah data yang masih berantakan atau tidak rapih. Cara mencari yang
penting. Cara kerja metode ini yaitu melakukan ekstraksi dan eksplorasi
(Nurwahyuni, 2019)
berdasarkan pola-pola tertentu. . Menurut penambangan
ini banyak Peran yang ada di dalam metode ini adalah memproses data dan
mengidentfikasi akumulasi opini yang ada. Proses kerja text mining pada
sementara data mining digunakan untuk data base yang sudah rapih dan
berstruktur. Tujuan adanya text mining adalah mencari informasi dari data-
data yang bersifat implisit atau tersirat sehingga hasilnya dapat dimanfaatkan
sebagai bahan 14 pertimbangan pengguna. Dalam skala yang lebih luas, text
Proses komputerisasi akan berjalan dengan baik apabila data yang ada
nilai munerik dari data mining, perlu digunakan proses merubah bentuk agar
dengan rapih, maka ini menjadi sumber data dan nilai numerik yang bisa
diproses lebih lanjut . berikut adalah beberapa proses yang bisa dilakukan:
1. Case Floding
standar yang sudah dibangun. Pada tahapan ini adalah proses merubah
semua huruf yang ada dalam dokumen menjadi huruf keciI (lower case).
Sehingga nantinya hanya huruf alphabet dari 'a' hingga 'z' yang diterima.
Sebelum Sesudah
Padahal sebagus apapun dunia virtual, padahal sebagus apapun dunia virtual
Gak ada yang bisa ngalahin dunia gak ada yang bias ngalahin dunia nyata
nyata
2. Tokenizing
memisahkan kata, dimana karakter ini seperti spasi, tabulasi, dan enter.
Namun karakter petik tunggl (‘), titik (.), semi kolom (;), titik dua (:) atau
lainnya dapat memiliki peran yang cukup banyak dalam peran pemisah.
Tokenizig
[‘padahal’, ’sebagus’, ‘apapun’, ‘dunia’, ‘virtual’, ‘gak’, ‘ada’, ‘yang’, ‘bias’,
‘ngalahin’, ‘dunia’, ‘nyata’]
3. Filtering
pendekatan bag-of-words.
Sebelum Sesudah
padahal sebagus apapun dunia virtual Sebagus apapun dunia virtual gak bisa
gak ada yang bisa ngalahin dunia nyata ngalahin dunia nyata
bervariasi.
4. Stemming
(IRS). Oleh karena itu, dokumen tersebut terlebih dahulu perlu dipetakan ke
Sebelum Sesudah
padahal sebagus apapun dunia bagus apa dunia virtual gak bisa
virtual gak ada yang bisa ngalahin kalah dunia nyata
dunia nyata
.
word- nya yaitu “sama”. Namun, seperti halnya stopping, kinerja stemming
juga bervariasi dan sering tergantung pada domain bahasa yang digunakan.
pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang
berbahasa Indonesia semua kata imbuhan baik itu sufiks dan prefiks juga
dihilangkan. Pada kasus ini menggunakan kamus dari Liu’s word list.
Term weighting atau pembobotan kata adalah proses pembobotan pada kata.
akan semakin besar apabila istilah atau term mengalami kemunculan sesering
mungkin. Ada pula faktor yang menentukan pemberian bobot kepada istilah
yang jarang sekali muncul di dalam suatu dokumen atau koleksi. Selain itu,
kata yang jarang muncul akan dianggap sebagai kata yang tidak biasa atau
uncommon words dan kata yang sering muncul di dalam dokumen
proses normalisasi dimana kata yang berada dalam bentuk bervariasi akan
mudah. Dalam pemberian bobot kata, istilah yang dipakai adalah term weight
(Ruhyana, 2019)
. Pemberian bobot ini biasnaya dilakukan kepada pembagian
kata, frasa, dan juga kalimat yang memang pantas diberikan bobot.
diberikan
sehingga dapat diberi bobot. Kata yang tidak sering muncul di dalam
dokumen harus dianggap lebih penting dari kata lainnya yang sudah
(Hakimi Fajar, 2018)
sering muncul di dalam dokumen . Faktor akan
menimbang mengenai frekuensi kebalikan yang disebut sebagai Invese
DocumentFrequency.
TF ( t k , d j ) =f (t k , d j ) (2.1)
n
IDFt =log ( ) (2.2)
df t
Keterangan :
t = suatu kata
d = suatu dokumen
k = kemuculan term
N = jumlah dokumen
dan testing.
Naive Bayes bekerja sangat baik dibanding dengan model classifier lainnya.
(Hinde et al., 2009)
Hal ini dibuktikan pada jurnal yang berjudul “Naive
Bayes vs. decision trees vs. neural networks in the classification of training
P ( X| H ) . P( H )
P(H ∨X )= (2.4)
P( X )
Keterangan :
klasifikasi yang bernilai 0 karena data testing tidak ditemukan pada data
P ( X| H ) . P ( H ) +1
P(H ∨X )= (2.5)
P ( X )+¿ V ∨¿ ¿
yang benar dengan jumlah seluruh kasus dan error rate merupakan kasus
(Riska Aryanti, 2019)
yang salah dengan selruh kasus .
Tabel 2. 6 Confusion Matrix
Dokumen Nilai
Sebenarnya
Keterangan:
Rumus Precission :
TP
pre= (2.6)
FP+ TP
Rumus akurasi :
TN +TP
acc = (2.7)
FN + FP+TN +TP
Rumus recall :
TP
rec= (2.8)
FN +TP
BAB III
METODE PENELITIAN
18
mendapatkan informasi dan fakta terkait yang akan diuji. Setelah data sudah
Bayes. Data yang digunakan dalam penelitian ini adalah komentar dari video
Tahap ini adalah tahap dengan melakukan seleksi terhadap data yang
akan digunakan. Data yang tersedia diseleksi untuk menentukan data yang
data yang mengalami duplikat dan data yang tidak diperlukan. Data yang
III.4 Preprocessing
atau tidak memiliki makna, tahap ini dilakukan berdasarkan kondisi dari data
processing akan menjelaskan langkah awal terhadap teks bagaimana teks tersebut
dapat dipersiapkan menjadi data yang diproses pada tahap lebih lanjut. Pada tahap
1. Case Folding
Merubah kata menjadi format yang sama yaitu diubah menjadi huruf kecil.
Oleh karena itu, diperlukan proses case folding supaya bisa meratakan
2. Tokenizing
Kata yang tidak ada pengaruhnya pada proses perolehan informasi akan
dihapus dan kata yang tidak penting atau tidak berbobot akan dibuang.
4. Stemming
belakang kata.
suatu kata, yang akan menentukan klasifikasi uji data selanjutnya. Berikut
setiap perhitungan data yang terdapat di training set. Penambahan ini tidak
dilakukan dengan cara melihat tingkat akurasi metode melalui confusion matrix
dan tabel akurasi serta presisi untuk tiap model. Setelah data test diujikan terhadap
data training, maka akan menghasilkan daftar kelas-kelas dari data test, sebut sata
sebenarnya dari data test yang disembunyikan sebelumnya. Sehingga dapat dilihat
HASIL ANALISIS
Dengan data yang diambil berupa teks komentar dari video YouTube dari
Gua lebih percaya pikiran gua sendiri bahwa suatu hari bumi akan rusak krn
perang nuklir dan bumi kehilangan pengetahuan tentang teknologi serta
teknologi hilang dari bumi...
Peradaban kembali ke awal dan orang-orang kembali berperang dengan pedang
dan panah...,
Ngeriii…
Kalau gue sih kurang setuju . Semua hal didunia ini ada hal baik dan buruk
dampak baik/buruk itu pasti ada bang . Jadi hadapi aja . Kuatkan jiwa. Jangan
sampai setress .,
23
IV.2 Seleksi dan pelabelan data
Data Label
ga baik buat mata berlama2 pakai Negatif
layar deket mata
Teknologi itu cuma alat, kalo di pake Positif
utk kebaikan akan jd baik, kalo dipake
utk kejahatan akan jd jahat. Tgt siapa
yg menguasai dan menggunakannya
gimana
tahap preproessing :
Case floding, bertujuan untuk mengubah semua karakter menjadi huruf kecil,
berikut adalah contoh hasil dari case floding
Sebelum Sesudah
Kalau gue sih kurang setuju . kalau gue sih kurang setuju .
Semua hal didunia ini ada hal baik semua hal didunia ini ada hal baik
dan buruk dampak baik/buruk itu dan buruk dampak baik/buruk itu
pasti ada bang . Jadi hadapi aja . pasti ada bang . jadi hadapi aja .
Kuatkan jiwa. Jangan sampai kuatkan jiwa. jangan sampai
setress ., setress .,
Bang, Klo semua org pada asik bang, klo semua org pada asik
maen metaverse, gua takut mereka maen metaverse, gua takut mereka
lupa klo dajjal udeh dateng dpn lupa klo dajjal udeh dateng dpn
rumah. rumah.
gk lah, metaverse cuman hiburan gk lah, metaverse cuman hiburan
doang. yg hakiki gk akan doang. yg hakiki gk akan
ngerubah. contohnya makan, ngerubah. contohnya makan,
berak, tidur., berak, tidur.,
Padahal sebagus apapun dunia virtual, padahal sebagus apapun dunia
Gak ada yang bisa ngalahin dunia virtual gak ada yang bias ngalahin
nyata dunia nyata
text_clean = []
for word in text_tokens:
if (word not in stopwords_indonesia and #remove
stopwords
word not in emoticons and #remove emoticons
word not in string.punctuation): #remove
punctuation atau tanda baca
text_clean.append(word)
stem_word = stemmer.stem(word) #stemming word
Sebelum Sesudah
stopwords_indonesia = stopwords.words('indonesian')
factory = StemmerFactory()
stemmer = factory.create_stemmer()
emoticons_happy = set([':-)', ':)', ';)',’])
emoticons_sad = set([ ':L', ':-/', '>:/'])
emoticons_sad = set(['haha', 'hahaha', 'hahahaha'])
emoticons = emoticons_happy.union(emoticons_sad)
Sebelum Sesudah
sebagus apapun dunia virtual gak bagus apa dunia virtual gak bisa
bisa ngalahin dunia nyata kalah dunia nyata
.
Tabel 4. 10 Source Code Stemming
text_clean.append(word)
stem_word = stemmer.stem(word)
Pada tahap ini dilakukan pembobotan dari suatu data. Kata yang
jumlah kata yang muncul dari setiap dokumen, sehingga dapat memberi nilai
TF
No Term df Idf
D1 D2 D3
1 Bill 1 1 2,8810
2 Gates 1 1 2,8810
3 Sindir 1 1 2,8810
4 Nft 1 1 2,8810
5 Duit 1 1 2,8810
6 Ditambang 1 1 2,8810
7 Orang 1 1 1 3 2,5800
8 bodoh 1 1 2,8810
Pada tabel 4.11 diatas, sebagai contoh nilai TF adalah angka kemunculan
term dan bernilai 1. Term “bill” hanya muncul dalam D2, maka jumlah term
yang muncul akan dibagi jumlah kata dalam D2.
¿ ft , d
TF=0 , 5+0 , 5
max ( ft , d)
¿ 1
TF=0 , 5+0 , 5
7
=0,5714
kemunculannya sebanyak satu kali dalam D2. Maka nilai DF dalam term
nilai IDF
N
idf ( t , d )=log ( ) (4.1)
df ( t ) +1
1521
idf ( t , d )=log ( ) (4.2)
1+1
Sebagai cntoh nilai IDF didapatkan dari total kemunuclan dari suatu term.
Contohnya kata “bill” muncul sebanyak satu kali, maka jumlah total data akan
dari nilai TF dan IDF dari term “bill”. Dan hasilnya bobot dari term “bill”
TF-IDF W
No Term D1 D2 D3 D2
ang
TF-IDF W
No Term D1
D1 D2 D3
1 Bill 0,527
2 Gates 0,527
3 Sindir 0,527
4 Nft 0,527
5 Duit 0,527
6 Ditamba 0,527
ng
8 bodoh 0,527
TF-IDF W
No Term D3
D1 D2 D3
1 Bill 0,527
2 Gates 0,527
3 Sindir 0,527
4 Nft 0,527
5 Duit 0,527
6 Ditamba 0,527
ng
8 bodoh 0,527
data_clean.head()
tf = TfidfVectorizer(analyzer='word', min_df=0)
tfidf_matrix =
tf.fit_transform(data_clean['text_clean'])
print ("TF : \n", tfidf_matrix)
terms = tf.get_feature_names_out()
print ("TERMS: \n", terms)
data_clean = pd.DataFrame(tfidf_matrix.T.todense(),
index=terms)
data_clean
suatu dokumen. Contoh pada perhitungan berikut yaitu data yang ada pada
tabel 4.12. D2 memiliki kelas positif, D1 dan D3 adalah kelas negatif. Dari
adalah W(+) = 13,3614, jumlah keseluruhan W pada kelas negatif adalah W(-)
= 2,7934, dan jumlah keseluruhan idf pada seluruh kelas adalah B = 22,747
Bill 1,6462 0
Gates 1,6462 0
Sindir 1,6462 0
Nft 1,6462 0
Duit 1,6462 0
Ditambang 1,6462 0
bodoh 1,6462 0
Nci
P(ci)= adalah sebagai berikut :
N
1
P ( c 1 ) = =¿0,333
3
2
P ( c 2 )= =0,666
3
Keterangan :
P ( ci ) = probabilitas kelas
Kemudian menghitung nilai positif dan negatif dari suatu kata dengan
Wct
rumus P= ( w|c ) = ,
¿¿
1,6462
bill ( c 1 ) = =0,45590
13,3614 +22,747
0
bill ( c 2 ) = =0
2,7934 +22,747
Keterangan :
Bill 0,45590 0
Gates 0,45590 0
Sindir 0,45590 0
Nft 0,45590 0
Duit 0,45590 0
Ditambang 0,45590 0
testing untuk mendapatkan validasi apakah kalimat itu bernilai positif atau
negatif
Vmap(c1) = P(bill)*P(gates)*P(sindir)*P(C)
= 0,45590*0,45590*0,45590*0,333
=0,03155
Vmap(c2) = P(bill)*P(gates)*P(sindir)*P(C)
=0 *0*0*0,666
=0
Dalam kalimat “bill gates sindir” bernilai kalimat positif karena nilai positif lebih
sbenarnya dan label setelah proses klasifikasi. Jika sama,label sebenarnya Positif
dan label setelah klasifikasi juga Positif maka bisa dinilai valid. Dan jika labelnya
berbeda, label sebenarnya Positif dan label setelah klasifikasi Negatif maka dinilai
tidak valid.
Label
Data Komentar Validitas
ke Sebenarnya Klasifikasi
570 komen, dosen, semua Positif Positif Valid
1108 kayanya, kali, liat, pidato, Negatif Negatif Valid
habibie, berhasil, rubah, nilai,
tukar, dollar, cuman,
president, indonesia, gitu,
bayangin, ekonomi, indonesia,
udah, runtuh, kerusuhan,
dimana, kaya, miskin, banget,
perdebatan, habibie, sengit,
banget, videonya, internet
1483 Bikin, mental, org, jd, gk, Positif Positif Valid
stabil, krn, sdh, terbuai, dg,
keindahan, hidup, di, vr
1184 Apakah, ini, yang, disebut, Positif Negatif Tidak valid
dengan, mugen, tsukuyomi,
secara, reall, Cuma, beda,
versi
... ... ... ... ...
Disini Naive Bayes mengambil nilai bobot suatu kata dari TF,IDF dan TF-IDF.
Rumus perhitungannya hampir sama seperti Naive Bayes. Tapi yang membedakan
adalah menambah nilai 1 dalam pembobotan kelas positif dan negatif agar
Wct +1
P= ( w|c ) = ,
¿¿
0+1
bill ( c 2 ) = =0,0391
2,7934 +22,747
testing untuk mendapatkan validasi apakah kalimat itu bernilai positif atau
negatif
Vmap(c1) = P(bill)*P(gates)*P(sindir)*P(C)
= 0,0732*0,0732*0,0732*0,333
=0,0001306
Vmap(c1) = P(bill)*P(gates)*P(sindir)*P(C)
=0,0391*0,0391*0,0391*0,666
=0,0000398
Label
Data Komentar Validitas
ke Sebenarnya Klasifikasi
570 keren, yg, komen, dosen, Positif Positif Valid
semua
1108 Perbedaan, sikaya, simiskin, Negatif Negatif Valid
jelas, banget, waktu, itu
1483 Dunia, metaverse, itu, adl, Positif Positif Valid
negri, khayalan, dongeng,
doank
1184 Entah, laah, yaah, apakah, ini, Negatif Negatif Valid
yang, disebut, dengan, mugen,
tsukuyomi, secara, reall,
Cuma, beda, versi
... ... ... ... ...
Dalam evaluasi hasil akan diketahui bepara hasil akurasi, presisi dan recall
yang didapatkan pada masing-masing data uji dan data latih. Ketika dataset
hanya memiliki dua kelas maka salah satu akan dianggap positif dan yang lain
sebagai negatif. Dala confusion matrix ini dalam hasil positif akan menjadi
True Positif dan False Negatif, sedangkan dalam hasil negatif akan menjadi
True Negatif dan False Negatif. Seperti pada tabel 4.22 dan 4.23
Pada tabel 4.22 meupakan hasil dari metode Naive Bayes dan pada tabel 4.23
merupakan hasil dari metode Naive Bayeas Laplace. Nilai akurasi, presisi dan
Akurasi :
TN +TP
acc =
FN + FP+TN +TP
0+35 35
acc = = =0 , 45
42+ 0+0+35 77
Presisi :
TP
pre=
FN +TP
35 35
pre= = =0 , 45
42+35 77
Recall :
TP
rec=
FP+TP
35 35
rec= = =1
0+35 35
Diatas merupakan contoh perhitungan akurasi, presisi dan recall yang didapatkan
dari data set 75% pada tabel 4.22, dengan hasil akurasi 0,45, hasil presisi 0,45 dan
hasil recall 1.
BAB V
PEMBAHASAN
zero frequecy dalam metode naive bayes agar mendapatkan hasil akurasi yang
Pada proses klasifikasi Naive Bayes dan Naive Bayes Laplace dalam
data testing dan data training dengan presentase yang berbeda yaitu (95% dan
5%), (80% dan 20%), dan (75% dan 25%). Berdasarkan pengujian data
training dan data testing pada metode Naive Bayes dan Naive Bayes Laplace
menghasilkan nilai :
Naive Bayes
40
2. Data training 80% dan data testing 20% menghasilkan precision
Seperti yang dilhat pada gambar 5.1, hasil dari tiap pengujian dari tiap data
training dan data testing menghasilkan akurasi yang berbeda. Nilai akurasi
tertinggi pada metode Naive bayes yaitu 0,49 dengan pengujian menggunakan
data training 95% dan data testing 5%. Sedangkan dalam metde Naive Bayes
Laplace mendapatkan nilai akurasi tertinggi sebesar 0,69 dengan data training
95% dan data testing 5%. Berdasarkan gambar tersebut, akurasi semakin
PENUTUP
VI.1 Kesimpulan
Pada proses klasifikasi Naive Bayes dan Naive Bayes Laplace dibagi
menjadi data training dan data testing dengan 3 kali pengujian menggunakan
(95% data training dan 5% data testing), (80% data training dan 20% data
yang berbeda
VI.2 Saran
42