Wahyudi Hermanto 1103174095
Wahyudi Hermanto 1103174095
TUGAS AKHIR
Disusun oleh:
WAHYUDI HERMANTO
1103174095
BANDUNG
2021
LEMBAR PENGESAHAN
TUGAS AKHIR
Universitas Telkom
Disusun oleh:
WAHYUDI HERMANTO
1103174095
Pembimbing I Pembimbing II
Wahyudi Hermanto
1103174095
iii
ABSTRAK
Lagu adalah suatu kesatuan musik yang terdiri dari susunan nada
dan terdapat lirik didalamnya. Lirik adalah syair kata-kata yang disuarakan
mengiringi melodi. Pada lirik lagu berperan dalam membangun emosi.
Emosi pada lagi menjelaskan makna emosional yang melekat pada sebuah
klib lagu.
Penelitian ini diawali dengan pengumpulan dataset berupa lirik lagu
di website www.kapanlagi.com sebagai penyedia lirik lagu. Kemudian
dilakukan preprocessing data yang terdiri dari transform cases, tokenizing,
stop removal, dan stemming. Setelah itu dilakukan proses part of speecs
(POS) tagging untuk memberikan label pada kata di dalam teks sesuai
dengan kelas kata secara otomatis. Proses memberikan label pada kata
apakah itu kata kerja, kata sifat, atau keterangan. Untuk dapat menentukan
emosional pada lirik lagu sesuai dengan apa yang kita dengarkan, maka
dibutuhkan metode yang tepat dalam melakukan klasifikasi teks.
Dalam penelitian Fatimah Wulandini yang berjudul “Text
Classification Using Support Vector Machine for Webmining Based Spatio
Temporal Analysis of the Spread of Tropical Diseases” bahwa metode
SVM menunjukkan hasil paling baik pada kasus klasifikasi informasi teks
Bahasa Indonesia dibandingkan dengan metode Naive Bayes classifier, k-
Nearest Neighbor classifier, dan C4.5 Decision Tree dengan akurasi sebesar
92,5%.
Kata Kunci: Tuliskan dua sampai enam kata kunci yang berkaitan dengan
masalah yang dibahas.
iv
ABSTRACT
Keywords: Write down two to six keywords related to the issue discussed.
v
KATA PENGANTAR
Puji dan syukur penulis panjatkan kepada Allah SWT, karena berkat
rahmatNya, penulis dapat menyelesaikan Tugas Akhir yang berjudul
“Klasifikasi Data Politik pada Media Sosisal Dengan Algoritma Support
Vector Machine”. Tugas Akhir ini disusun dengan tujuan untuk
melengkapi syarat kelulusan di program studi S1 Teknik Komputer,
Fakultas Teknik Elektro, Universitas Telkom.
Penulis
vi
UCAPAN TERIMA KASIH
viii
DAFTAR ISI
LEMBAR PENGESAHAN
ix
BAB III PERANCANGAN SISTEM
3.1 Desain Sistem3.1.1 Diagram Blok ........................................................................................ 29
3.1.2 Fungsi dan Fitur........................................................................................................... 29
3.2 Desain Perangkat Keras 29
3.2.1 Spesifikasi Komponen ................................................................................................. 29
3.3 Desain Perangkat Lunak 29
3.2.1 Spesifikasi Sub Sistem ................................................................................................. 29
DAFTAR PUSTAKA
LAMPIRAN
DAFTAR GAMBAR
Gambar 2.1 Desain rangkaian elektronik
x
DAFTAR TABEL
Tabel 1.1 Contoh Jadwal dan Milestone Tabel 1.1 Hubungan Antara Input dan Output
xi
6
BAB I
PENDAHULUAN
Pada penelitian ini dibuat sebuah system yang mampu mengkategorikan lirik
lagu berdasarkan topik lagu sebagai data penelitian. Secara garis besar, penelitian
ini terdiri dari beberapa tahapan agar mencapai hasil output yang diinginkan yaitu
prepocessing data, ektrasi fitur menggunakan Genetic Alg, klasifikasi
menggunakan metode Support Vector Mechine, pembobotan WIDF dan pengujian
sistem. Support Vector Mechine (SVM) merupakan metode klasifikasi yang
berakar dai teori pembelajaran statistik yang hasilnya sangat menjanjikan untuk
memberikan hasil yang lebih baik dari metode yang lain. Selain itu, SVM juga
bekerja dengan baik pada set data dengan dimensi yang tinggi, seperti teks. Dalam
penelitian Fatimah Wulandini yang berjudul “Text Classification Using Support
Vector Machine for
6
7
Adapun batasan masalah terdapat pada penelitian ini yang tujuannya untuk
menghindari meluasnya materi pembahasan. Batasan masalah pada penelitian ini
sebagai berikut:
1. Identifikasi Masalah
Pada tahap awal dalam penelitian dilakukan identifikasi masalah
mengenai kategorisasi lagu di berbagai website sebagai penyedia lagu dan
aplikasi penyedia musik lainnya.
2. Studi Literatur
Pada tahap ini dilakukan literatur mengenai metode klasifikasi teks
Support Vector Mechine, pembobotan WIDF dan cara melakukan
Prepocessing data.
3. Pengumpulan Data
9
5. Implementasi Sistem
Pada tahap implementasi sistem, dilakukan pembangunan sistem
dengan menggunakan data yang dilakukan prepocessing data, pembobotan
WIDF, dan klasifikasi metode Support Vector Mechine. Selanjutnya
dilakukan analisis terhadap hasil performansi tersebut serta menarik
kesimpulan dari hasil penelitian.
6. Penyusunan Laporan
Tahap terakhir pada penelitian ini adalah pembuatan laporan hasil
penelitian kedalam bentuk buku beserta dengan dokumentasi yang
diperlukan.
Bulan
Novemb Mei
NO Kegiatan Desembe januari Februari Maret April
er
r
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Mencari
1
Referen
si
Perancangan
2 Sistem
3 Implementasi
Pengujian
4
10
dan
analisis
Pembuatan
5 buku TA
6 Sidang TA
BAB II
TINJAUAN PUSTAKA
2.1. Emosi
5
Beberapa tokoh memodelkan emosi kedalam bentuk dimensi. Ada 2 model
emosi yang ditentukan oleh dimensi yaitu model emosi Russel dan model emosi
Thayer.
6
dalam psikologi. Ini membagi emosi musik menjadi empat kategori: kegembiraan,
kecemasan, kepuasan dan depresi. Di satu sisi, model klasifikasi emosi ini
memiliki beberapa kekurangan. Ini memampatkan emosi kompleks manusia ke
model dimensi, dan dengan demikian akan menyebabkan hilangnya informasi
musik sampai tingkat tertentu. Di sisi lain, masih ada beberapa keuntungan
darinya. Pertama, model ini lebih cocok untuk pengenalan emosi karena
karakteristik emosinya. Kedua, model menggunakan ide dimensi untuk
mendeskripsikan emosi musik, dan mudah untuk menetapkannya.
Tahapan proses text mining dibagi menjadi 4 tahap utama, masukan awal
dari proses adalah berupa suatu data teks dan akan menghasilkan keluaran berupa
pola sebagai hasil tafsiran.[5]
7
2.2.1. Text Processing
Suatu dataset biasanya terdiri dari berbagai objek dan fitur data,
Fitur adalah pemetaan dari objek ke sekumpulan nilai yang
mendeskripsikan karakteristik objek, dan jumlah fitur mewakili dimensi
dataset. Seleksi fitur dilakukan untuk memilih fitur relevan berukuran
minimal dari sekumpulan besar fitur asli untuk tujuan membangun model
yang kuat, akurat dan cepat.
2.3. Prepocessing
Dalam penelitian ini diterapkan text processing untuk data yang akan
digunakan dalam penentuan emosi pada lirik lagu. Dimana data yang kita proses
8
akan kita ambil informasi yang terkandung didalamnya guna memudahkan kita
dalam mengelola data.[6] Berikut ini beberapa tahapan dalam prepocessing data:
2.3.2. Tokenizing
Tokenisasi terkadang juga disebut sebagai ekstraksi yang merupakan
proses mengubah aliran teks menjadi kata-kata unit tunggal. Proses
pemotongan kalimat menjadi beberapa potongan kata atau karakter yang
disebut dengan istilah token. [7]
2.3.4. Stemming
Stemming merupakan suatu proses transformasi kata-kata yang
terdapat dalam suatu dokumen ke kata-kata akarnya dengan aturan-aturan
tertentu, atau dapat dianggap sebagai pembuangan imbuhan kata. [7]
9
6
Proses pembobotan kata ini dilakukan untuk mendapatkan nilai dari kata
(term). Pembobotan yang akan digunakan pada Tugas Akhir ini adalah WIDF
(Weighted Inverse Document Frequency), merupakan pengembangan dari
pembobotan TF-IDF. WIDF menjumlahkan semua term frequency dari kumpulan
teks, dengan kata lain WIDF merupakan bentuk normalisasi dari kumpulan teks.
Pembobotan WIDF juga dapat menghitung semua koleksi dokumen. Berikut
persamaan WIDF dirumuskan pada persamaan berikut ini.[8]
TF (d , j)
WIDF ( d , j )= (2.1)
∑ i∈ D TF (i, j)
Keterangan:
∑TF = Jumlah term pada semua dokumen
Part -of -speech (POS) tagger adalah memberikan label pada kata di
dalam teks sesuai dengan kelas kata secara otomatis. Proses memberikan label
pada kata apakah itu kata kerja, kata sifat, atau keterangan. [9]
8
Label Keterangan
Bilangan kardinal
CD (cardinal numerals)
Konjungsi koordinasi
CC (coordinate conjunction)
Bilangan urutan
OD (ordinal number)
Preposisi
IN (prepositions)
Kata sifat
JJ (adjectives)
Negasi
NEG (negations)
Kata kerja bantu/modal
MD (modal or auxiliaries verbs)
Kata kerja
VB (verbs)
Simbol
SYM (symbols)
Kata sambung/penghubung
SC (subordinate conjunction)
Keterangan waktu
RB (adverbs)
Keterangan:
i =1, 2, ..., N
w = Berat inersia menentukan sejauh mana kecepatan arus
partikel i
v = Nilai kecepatan partikel i
10
n n
1
Max L D = ∑ ai— ∑ j=1 ai a j y i y j x i x j (2.2)
i=1 2 i
Atau
n n
1
Min L D =
2 ∑ ai a j y i y j xi x j— ∑ ai (2.3)
j=1 i=1
Dengan syarat:
∑ α i y i=0 , α i ≥ 0 (2.4)
i=0
11
dengan {𝑥i , … , 𝑥n} adalah dataset input, dan 𝑦i ∈ {+1, -1} adalah label kelas
dari data 𝑥i. Dengan hasil tersebut akan terdapat nilai untuk setiap data
training. Data training yang memiliki nilai adalah support vector sedangkan
sisanya memiliki nilai 𝛼i = 0.
ns
F ( x d ¿=∑ α i y i x i x d +b (2.5)
i=0
Dimana:
𝑥i = support vector
a. Linear Kernel
d. Sigmoid Kernel
Sistem yang akan dibangun pada tugas akhir adalah sistem yang mampu
mendeteksi kelas emosi pada lirik lagu. Lirik lagu yang akan digunakan pada
tugas akhir ini adalah bahasa Indonesia. Kelas yang akan dideteksi oleh sistem ini
adalah sedih, bahagia, cinta, dan marah. Alur kerja sistem ini sebagai berikut:
pengumpulan dataset berupa teks, prepocessing, POS-Tagging, pembobotan kata,
seleksi fitur dan klasifikasi menggunakan algoritma support vector mechine.
13
1. Pengumpulan Data: Proses ini merupakan pengumpulan data berupa lirik
lagu dan nanti akan disatukan dalam file CSV.
Pada tugas akhir ini data yang digunakan akan dianalisis oleh beberapa
kebutuhan alat pendukung seperti software, hardware, brainware.
3.2.1. Software
Perangkat lunak yang akan digunakan dalam perancangan sistem
program menggunakan perangkat lunak dengan spesifikasi sebagai
berikut:
1. Sistem Operasi
2. Bahasa Pemograman
3. Sastrawi Module
4. Sklearn Module
5. Pandas Module
3.2.2. Hardware
Perangkay keras yang digunakan dalam membangun sistem ini adalah:
1. Komputer
2. Processor AMD A10-9600P Radeon R5
14
3. Memory RAM 8GB DDR4
3.2.3. Brainware
Untuk pengguna yang dibutuhkan harus memiliki kemampuan
sebagai berikut:
15
Gambar 3.2 Perancangan Sistem
Pada gambar 3.2 merupakan gambaran sistem di tugas akhir ini. Dimulai
dari pengambilan data lirik lagu di berbagai website berupa lirik berbahasa
Indonesia. Data lirik lagu nantinya dilakukan pelabelan emosi secara manual.
Pelabelan kata dilakukan dengan mencocokan kata-kata pada lirik lagu dengan
rules yang berisi kata-kata mengandung emosi. Rules yang dibuat akan divalidasi
oleh Balai Bahasa nantinya. Tujuan validasi data adalah untuk mengecek kinerja
pada sistem. Tahap selanjutnya dilakukan prepocessing data untuk mendapatkan
data bersih. Kemudian ektraksi fitur menggunakan particle swarm optimization,
selanjutnya POS-Tagging, pembobotan WIDF, dan tahap terakhir adalah
klasifikasi menggunakan algoritma support vector mechine.
3.5. Preprocessing
16
Gambar 3.3 Tahapan Preprocessing
Pada gambar 3.3 di atas merupakan proses preprocessing dimulai dari lirik lagu
mentah yang kemudian dilakukan proses transform cases, tokenizing, stopward
removal, dan stemming. Berikut penjelasan detail dari tahapan preprocessing:
Input Output
Jika masih ada Cinta di hatimu Maka jika masih ada cinta di hatimu maka
maafkanlah Segala kesalahan Cintailah maafkanlah segala kesalahan cintailah
Stemming
Stemming merupakan suatu proses transformasi kata-kata yang terdapat
dalam suatu dokumen ke kata-kata akarnya dengan aturan-aturan tertentu, atau
17
dapat dianggap sebagai pembuangan imbuhan kata, atau dianggap sebagai
pembuangan imbuhan kata.
Input Output
jika masih ada cinta di hatimu maka jika masih ada cinta di hati maka maaf
maafkanlah segala kesalahan cintailah segala salah cinta cinta
cinta
Input Output
jika masih ada cinta di hati maka maaf Cinta hati maaf salah cinta cinta
segala salah cinta cinta
3.5.4. Tokenizing
Proses tokenizing dilakukan untuk memecahkan dokumen lirik lagu
menjadi term berdasarkan spasi. Masukan pada tahapan ini adalah hasil keluaran
dari proses Stop Removal.
18
Tabel 3.5 Contoh hasil tokenizing
Input Output
3.6. POS-Tagging
19
Setelah dilakukan tahapan preprocessing maka didapatkan kalimat: Cinta hati
maaf salah cinta cinta. Jika dilakukan proses POS-Tagging maka hasilnya sebagai
berikut:
Input Output
Cinta hati maaf salah cinta cinta CintaNN hatiNN maafNN salahJJ cintaNN
cintaNN
Ekstraksi fitur merupakan tahapan untuk memberikan bobot nilai pada setiap
kata. Pada penelitian ini akan menggunakan ekstraksi fitur yang bernama
Weighted Inverse Document Frequency (WIDF). WIDF adalah sebuah metode
pembobotan kata yang dikembangkan dari algoritma sebelumnya yaitu TF-IDF.
Untuk perhitungan WIDF akan menggunakan rumus sebagai berikut:
TF (d , j)
WIDF ( d , j )= (1)
∑ i∈ D TF (i, j)
N
IDF = log ( ¿ (2)
df
Dimana:
D : Dokumen ke-D
t : Kata ke-t dari kata kunci
W : Bobot dukumen ke-d terhadap kata ke-t
tf : Banyak kata yang dicari pada sebuah dokumen
IDF : Inversed Document Frequency
N : Jumlah dokumen
df : Banyak dokumen yag mengandung term
20
D1 Risau hati cinta sayang pernah letih hati cinta sayang segenap milik Cinta
rasa hati kamu sayang
D2 Engkau sayang hati aku cinta segenap hati diri aku sayang ka Cinta
D3 Rasa marah diri aku pernah sengaja temu kamu kesal Marah
D5 Aku sedih hati niat ubah aku sayang rasa hati aku kesal kamu Sedih
Pada tabel 3.7 merupakan kumpulan dokumen yang sudah melalui tahap
preprocessing yang akan dilakukan pembobotan kata. Nilai label D1, D2 bernilai
cinta, D3 bernilai marah, D4 bernilai senang, dan D5 bernilai sedih. Tahapan
pertama pada metode WIDF adalah melihat banyak tingkat kemunculan sebuah
kata atau term frequency dari sebuah dokumen. Misal nya kata “cinta” muncul 3
kali, berarti tf=3, diketahui kata “cinta” muncul pada dokumen 1 dan dokumen 2.
Dibawah ini contoh perhitungan WIDF pada kata “cinta” pada dokumen 1.
5
IDF = log ( ) = 0.221
3
TF (d , j) N
WIDF (d, j) = x log ( ¿
∑ i∈ DTF (i , j) df
2 5
= x log ( ¿
3 3
= 0.666 x 0.221
= 0.117
Bobot nilai kata “cinta” yang terdapat pada dokumen sebesar 0.117
21
D1 D2 D3 D4 D5 TF (i, t) D1 D2 D3 D4 D5 rata-
rata
risau 1 0 0 0 0 1 1 0 0 0 0 0.2
segenap 1 0 0 0 0 1 1 0 0 0 0 0.2
Letih 1 0 0 0 0 1 1 0 0 0 0 0.2
segenap 0 1 0 0 0 1 0 1 0 0 0 0.2
marah 0 0 1 0 0 1 0 0 1 0 0 0.2
temu 0 0 1 0 0 1 0 0 1 0 0 0.2
senang 0 0 0 1 0 1 0 0 0 1 0 0.2
riang 0 0 0 1 0 1 0 0 0 1 0 0.2
pagi 0 0 0 1 0 1 0 0 0 1 0 0.2
cerah 0 0 0 1 0 1 0 0 0 1 0 0.2
matahari 0 0 0 1 0 1 0 0 0 1 0 0.2
sinar 0 0 0 1 0 1 0 0 0 1 0 0.2
Sedih 0 0 0 0 1 1 0 0 0 0 1 0.2
niat 0 0 0 0 1 1 0 0 0 0 1 0.2
Ubah 0 0 0 0 1 1 0 0 0 0 1 0.2
22
Pada tabel 3.7 adalah contoh perhitungan dari masing-masing nilai Term
Frequency dengan menggunakan weighted inverse document frequency. Hasil
perhitungan diatas akan dilanjutkan ke tahap selanjutnya, yaitu seleksi fitur
Particle Swarm Optimiaation (PSO).
Dokumen Sayang Rasa Cinta Pernah Engkau Hati Kesal Aku Kamu Diri
D1 3 1 2 1 0 3 0 0 1 0
D2 2 0 1 0 1 2 0 2 0 1
D3 0 1 0 1 0 0 1 1 1 1
D4 0 0 0 0 1 0 0 0 0 0
D5 1 1 0 0 0 2 1 3 1 0
23
Rand1
D1 0.851817 0.419849 0.674591 0.453053 0.261212 0.541030 0.63626 0.779552 0.435668 0.735804
2
D2 0.307884 0.046671 0.540133 0.318570 0.296779 0.455301 0.17078 0.625266 0.071253 0.978474
9
D3 0.530648 0.310560 0.982164 0.032825 0.670619 0.497056 0.90068 0.850672 0.072287 0.888749
0
D4 0.922563 0.038463 0.124931 0.086096 0.817123 0.709020 0.93614 0.179014 0.965722 0.795999
5
D5 0.210983 0.602281 0.128415 0.219374 0.986041 0.538204 0.25252 0.213796 0.150568 0.332741
3
Rand2
D1 0,044128 0,681492 0,762756 0,420675 0,702969 0,954077 0,00421 0,881778 0,219903 0,232311
0
D2 0,048480 0,175605 0,543190 0,718340 0,532314 0,576123 0,07962 0,420558 0,133733 0,527382
3
D3 0,157691 0,191455 0,742241 0,536101 0,314857 0,170011 0,21766 0,694169 0,383993 0,628764
8
D4 0,481894 0,811133 0,074723 0,607568 0,485581 0,450398 0,43313 0,090290 0,523910 0,997819
2
D5 0,787759 0,413800 0,873331 0,363873 0,286276 0,983903 0,23096 0,236172 0,698908 0,702645
2
24
Sigmoid
D1 0.511030 0.664072 0.681952 0.603645 0.668849 0.721934 0.50105 0.707191 0.55455 0.557818
2
D2 0.512118 0.543789 0.632554 0.672241 0.630023 0.640175 0.51989 0.603617 0.533384 0.628872
5
D3 0.59341 0.547718 0.677486 0.630905 0.578070 0.542401 0.55420 0.729911 0.594836 0.652209
3
D4 0.618195 0.692351 0.518672 0.647386 0.619065 0.610734 0.60662 0.522557 0.628062 0.730630
1
D5 0.687350 0.601999 0.705438 0.589978 0.571084 0.727882 0.55748 0.558770 0.667946 0.668774
5
Dokumen Sayang Rasa Cinta Pernah Engkau Hati Kesal Aku Kamu Diri
D1 0 1 1 1 1 1 0 0 1 0
D2 1 1 1 1 1 1 1 0 1 0
D3 1 1 0 1 0 1 0 0 1 0
D4 0 1 1 1 0 0 0 1 0 0
D5 1 0 1 1 0 1 1 1 1 1
25
F(D1) = 10*(0-1)2+ 20*(1-2)2+ 30*(1-3)2+ 40*(1-4)2+ 50*(1-5)2+ 60*(1-6)2+
70*(0-7)2+ 80*(0-8)2+ 90*(1-9)2+ 100*(0-10)2=28.650
Pada perhitungan diatas untuk mencari nilai Pbest maka dapat disimpulkan
bahwa nilai Pbest terbaik terletak pada dokumen 1(D1) sebesar 28.650.
26
BAB IV
HASIL DAN ANALISIS
4.1. Implementasi
1. Dataset diatur menjadi lima ukuran yang dijadikan sebagai data uji yaitu:
50%, 40%, 45%, 30%, dan 20%. Hal ini dilakukan untuk mengetahui
komposisi akurasi paling baik untuk digunakan pada model.
2. Mencari parameter terbaik untuk mempengaruhi nilai akurasi
3. Menganalisis pengujian sistem
Pada gambar 4.1 merupakan contoh dari dataset sebanyak 48 lirik lagu
yang akan digunakan sebagai input pertama kali saat menjalankan program.
Setelah mengumpulkan seluruh dataset, yang dilakukan selanjutnya adalah
tahapan preprocessing, agar mendapatkan pola teks yang sama atau bersih. Untuk
spesifikasi data latih yang digunakan pada pengujian dapat dilihat pada tabel di
bawah ini:
Jumlah
Label Emosi
Lirik Lagu
Cinta 12
Marah 12
Senang 12
27
Sedih 12
Tabel 4.1 merupakan kumpulan lirik lagu yang telah dibagi menjadi 4
label yaitu: cinta, marah, senang, sedih yang masing mempunyai lirik lagu
sebanyak 12.
4.2 Dataset
Pada pengerjaan tugas akhir ini dataset yang digunakan adalah kumpulan
lirik lagu bahasa Indonesia diperoleh dari website kapanlagi.com. Dataset yang
akan digunakan dibagi menjadi data uji dengan ukuran yaitu: 50%, 40%, 30%,
20%, dan 10% yang diambil dari data latih sebanyak 48 lirik lagu. Data uji yang
sudah didapatkan akan dilakukan proses preprocessing. Pada tahap preprocessing
dilakukan case folding, stemming, stopword removal, dan tokenizing.
28
Gambar 4.2 Dataset yang sudah dilakukan preprocessing
Pengujian ini dilakukan dengan membuat beragam model klasifikasi dan deteksi
berdasarkan berdasarkan parameter-parameter diatas. Tujuannya adalah mencari
nilai akurasi tertinggi dari masing-masing pengujia parameter diatas sehingga
sistem dapat bekerja secara optimal.
29
dilatih menggunakan dataset yang telah dibuat. Pada perancangan tugas akhir ini,
terdapat dua skenario pengujian, yaitu:
Akurasi merupakan salah satu parameter yang dapat digunakan dalam menguji
apakah suatu model dapat bekerja optimal atau tidak. Akurasi dapat menentukan
apakah sistem dapat mengklasifikasikan lirik lagu apakah sesuai label atau tidak.
Untuk mendapatkan akurasi yang optimal, maka dibutuhkan parameter optimal
yang sangat mempengaruhi akurasi. Berikut adalah parameter – parameter yang
mempengaruhi akurasi pada model yang dibuat:
Jenis
Menu Skenario Pengujian
Pengujian
Menyatukan data lirik lagu dalam
Input Data Black Box
bentuk file “.csv”
Menampilkan hasil preprocessing sesuai
Preprocessing Black Box
dengan data uji yang diinput.
Menampilkan data hasil POS-Tagging
POS-Tagging Black Box
yang sudah diberi label POS.
Menghitung bobot nilai dari setiap kata
WIDF dalam list-list data yang sudah diberi Black Box
label pada proses sebelumnya.
Menampilkan hasil klasifikasi cinta,
SVM marah, senang, atau sedih dan akurasi Black Box
dari dataset.
Menampilkan akurasi, presisi, score,
SVM+PSO Black Box
dan grafik.
30
Tabel 4.3 Pengujian preprocessing
31
Kasus dan Hasil Pengujian
yang sudah ditentunkan sebelumnya.
Kesimpulan Sesuai
32
Setelah data melalui tahap POS-Tagging, Selanjutnya pada
proses ini akan dihitung menggunakan WIDF yang akan
Hasil yang
memperhitungkan frekuensi dari suatu term yang muncul pada
diharapkan
suatu dokumen untuk menormalisasikan frekuensi term tersebut
terhadap keseluruhan dokumen.
Hasil dari proses ini di tampilkan dalam bentuk nilai bobot dari
kata-kata yang terdapat pada setiap list kalimat yang sudah
Hasil diinputkan sebelumnya kemudian disimpan otomatis pada file
penyimpanan yang sudah ditentukan dalam bentuk list-list
kalimat.
Kesimpulan Sesuai
33
5 90 10%
Untuk pengujian SVM nilai banyak data latih, nilai C, gamma akan di input
dengan nilai sebagai berikut: banyak data latih (50%, 40%, 30%, 20%, dan 10%),
nilai C (1, 10, 100, 1000), dan nilai gamma (1e-3, ie-4). Hasil yang ditampilkan
dari pengujian partisi data tersebut adalah:
34
10000 50% 50% 76%
60% 40% 73%
70% 30% 73.11%
80% 20% 74.83%
90% 10% 77.86%
35
BAB V
SIMPULAN DAN SARAN
5.1. Simpulan
Bab ini memuat elaborasi dan rincian simpulan yang kemudian menjadi
bagian abstraks. Simpulan ditarik dari hasil analisis secara komprehensif atas
eksperimen yang telah dilakukan dan dinyatakan dalam bentuk narasi satu dua
paragraf. Dalam Simpulan menggambarkan tingkat ketercapaian atas Tujuan
Tugas Akhir yang telah dinyatakan dalam Bab 1.
5.2. Saran
36
DAFTAR PUSTAKA
[1] N. Zhong, Y. Li, and S. T. Wu, “Effective pattern discovery for text
mining,” IEEE Trans. Knowl. Data Eng., vol. 24, no. 1, pp. 30–44, 2012,
doi: 10.1109/TKDE.2010.211.
[2] Y. Lu, M. Liang, Z. Ye, and L. Cao, “Improved particle swarm
optimization algorithm and its application in text feature selection,” Appl.
Soft Comput. J., vol. 35, pp. 629–636, 2015, doi:
10.1016/j.asoc.2015.07.005.
[3] P. J. Antony, S. P. Mohan, and K. P. Soman, “SVM based part of speech
tagger for Malayalam,” ITC 2010 - 2010 Int. Conf. Recent Trends
Information, Telecommun. Comput., pp. 339–341, 2010, doi:
10.1109/ITC.2010.86.
[4] Y. An, S. Sun, and S. Wang, “Naive Bayes classifiers for music emotion
classification based on lyrics,” Proc. - 16th IEEE/ACIS Int. Conf. Comput.
Inf. Sci. ICIS 2017, no. 1, pp. 635–638, 2017, doi:
10.1109/ICIS.2017.7960070.
[5] S. Herrero-Lopez, Multiclass support vector machine, no. 2. NVIDIA
Corporation and Wen-mei W. Hwu, 2011.
[6] D. N. Armianti, Indriati, and S. Adinugroho, “Klasifikasi Emosi Lagu
Berdasarkan Lirik pada Teks Berbahasa Indonesia Menggunakan K-
Nearest Neighbor dengan Pembobotan WIDF,” J. Nas. Teknol. dan Ilmu
Komput., vol. 3, no. 10, pp. 10161–10167, 2019.
[7] A. Indranandita, B. Susanto, and A. Rahmat, “Sistem Klasifikasi Dan
Pencarian Jurnal Dengan Menggunakan Metode Naive Bayes Dan Vector
Space Model,” J. Inform., vol. 4, no. 2, 2011, doi: 10.21460/inf.2008.42.48.
[8] X. Bai, X. Gao, and B. Xue, “Particle Swarm Optimization Based Two-
Stage Feature Selection in Text Mining,” 2018 IEEE Congress on
Evolutionary Computation, CEC 2018 - Proceedings, 2018. .
[9] A. D. Rowe and J. Fitness, “Understanding the role of negative emotions in
adult learning and achievement: A social functional perspective,” Behav.
Sci. (Basel)., vol. 8, no. 2, 2018, doi: 10.3390/bs8020027.
[10] M. Kamayani, “Perkembangan Part-of-Speech Tagger Bahasa Indonesia,”
J. Linguist. Komputasional, vol. 2, no. 2, p. 34, 2019, doi:
10.26418/jlk.v2i2.20.
[11] B. M. Zahran and G. Kanaan, “Text Feature Selection using Particle
Swarm Optimization Algorithm,” World Appl. Sci. JournalSpecial Issue
Comput. IT, vol. 7, pp. 69–74, 2009.
[12] A. D. P. Wardhani, I. Slamet, and Sugiyanto, “Analisis Sentimen
Penggunaan Kotak Suara Kardus Menggunakan Svm Linearly Separable
Data,” Semin. Nas. Penelit. Pendidik. Mat. 2019, pp. 167–174, 2019.
[13] X. D. Lin, H. Peng, and B. Liu, “Support vector machines for text
categorization in Chinese question classification,” Proc. - 2006
IEEE/WIC/ACM Int. Conf. Web Intell. (WI 2006 Main Conf. Proceedings),
WI’06, pp. 334–337, 2006, doi: 10.1109/WI.2006.163.
[14] S. Deng and H. Peng, “Document classification based on support vector
machine using a concept vector model,” Proc. - 2006 IEEE/WIC/ACM Int.
Conf. Web Intell. (WI 2006 Main Conf. Proceedings), WI’06, no. 1, pp.
473–476, 2006, doi: 10.1109/WI.2006.65.
LAMPIRAN