Laporan TA Desain Geometri Redaman Ruang Anti Gema
Laporan TA Desain Geometri Redaman Ruang Anti Gema
TUGAS AKHIR
Disusun oleh:
1104174042
UNIVERSITAS TELKOM
BANDUNG
2021
UNIVERSITAS TELKOM No. Dokumen
Jl. Telekomunikasi No.1 Ters. Buah Batu Bandung 40257 No. Revisi
FORMULIR PERNYATAAN ORISINALITAS Berlaku efektif
LEMBAR PERNYATAAN ORISINALITAS
NIM : 1104174042
No.Tlp/HP : 082292776024
E-mail : izzahluthfiah@gmail.com
Menyatakan bahwa Tugas Akhir ini merupakan karya orisinal saya sendiri, dengan
judul :
Atas pernyataan ini, saya siap menanggung resiko / sanksi yang dijatuhkan kepada
saya apabila kemudian ditemukan adanya pelanggaran terhadap kejujuran
akademik atau etika keilmuan dalam karya ini, atau ditemukan bukti yang
menunjukkan ketidakaslian karya ini.
ii
UNIVERSITAS TELKOM No. Dokumen
Jl. Telekomunikasi No.1 Ters. Buah Batu Bandung 40257 No. Revisi
Formulir Lembar Pengesahan Tugas Akhir Berlaku efektif
LEMBAR PENGESAHAN
TUGAS AKHIR
Universitas Telkom
Disusun oleh :
1104174042
Menyetujui
Pembimbing I Pembimbing II
iii
ABSTRAK
Salah satu gejala dari kelainan pita suara adalah adanya perubahan yang terjadi
pada suara normal seperti suara serak atau parau, suara lemah, dan breathy voice.
Untuk mengetahui kelainan pita suara maka perlu dilakukan diagnosa awal melalui
analisis kualitas suara penderita. Tujuan dari penelitian ini adalah untuk
mengembangkan metode diagnosa awal non-invasive melalui klasifikasi kelainan
pita suara menggunakan metode machine learning. Pada penelitian ini telah dibuat
sebuah sistem yang dapat mengklasifikasi kelainan pita suara yaitu dalam
klasifikasi suara normal atau sehat maupun suara sakit berdasarkan sinyal yang
didapatkan dari rekaman suara. Sinyal suara tersebut diolah dalam bentuk
visualisasi audio menggunakan algoritma pengolahan citra untuk diklasifikasi
menggunakan metode convolutional neural network (CNN). Dari penelitian yang
telah dilakukan didapat bahwa uji klasifikasi menggunakan parameter terpilih
melalui metode algoritma CNN dapat bekerja dengan baik dalam mengklasifikasi
kelainan pita suara dan memperoleh akurasi sebesar 89,45%.
iv
ABSTRACT
One of the symptoms of vocal cord disorders include changes that occur in
the normal voice such as a hoarseness, a weak voice, and breathy voice. To
diagnose vocal cord disorders, it is necessary to do an initial diagnosis through an
analysis of the patient’s voice quality. The aim of this research was to develop a
non-invasive early diagnosis method through the classification of vocal cord
disorders using machine learning methods. In this research, a system has been
created that can classify vocal cord disorders, namely in the classification of
normal or healthy voices or sick voices based on signals obtained from voice
recordings. The voice signal is precessed in the form of audio visualization to be
classified using convolutional neural network (CNN) method. From this research
that has beencompleted, the classification test using selected parameters through
the CNN algoritm method can work as well to classify the vocal cord disorders with
accuracy of 89.45%.
v
KATA PENGANTAR
Penyelesaian Tugas Akhir ini tidak dapat terselesaikan dengan baik tanpa
bantuan dari berbagai pihak. Pada kesempatan ini penulis mengucapkan terima
kasih tak terhingga atas segala do’a, bimbingan, dukungan, dan bantuan yang telah
diberikan.
Dalam pengerjaan Tugas Akhir dan penulisan buku Tugas Akhir ini tidak
terlepas dari berbagai kekurangan, mengingat kurangnya pengetahuan dan
pengalaman penulis. Oleh sebab itu, penulis sangat mengharapkan kritik dan saran
dari para pihak agar buku Tugas Akhir ini dapat menjadi lebih baik. Semoga Buku
ini dapat memberikan manfaat bagi penulis dan pembacanya.
Penulis,
NIM. 1104174042
vi
UCAPAN TERIMA KASIH
Dalam proses menyelesaikan Tugas Akhir ini tidak terlepas dari bantuan
berbagai pihak. Oleh sebab itu, penulis mengucapkan banyak terima kasih sebagai
bentuk apresiasi dan penghargaan yang tidak dapat dibandingkan atas bantuan yang
telah diberikan kepada penulis selama pengerjaan Tugas Akhir, yaitu :
1. Allah Subhana Wata’ala, Sang Khalik yang Maha pengasih lagi maha
Penyayang atas segala karunia yang telah berikan, atas nikmat kesehatan
dan nikmat keinginan untuk terus semangat mengerjakan Tugas Akhir serta
kemudahan dalam pengerjaannya. Dan tak lupa pula kepada baginda
Rasulullah Muhammad ﷺsebagai suri tauladan umat manusia
2. Bapak Nurung dan Ibu Masyita, sebagai orang tua penulis, yang telah
mendo’akan dan terus memberikan dukungan serta nasihat sehingga penulis
termotivasi dann semangat untuk menyelesaikan Tugas Akhir
3. Bapak Dr. Eng. Indra Wahyudhin Fathona, S.Si., M.Si. sebagai dosen wali,
yang senantiasa memberikan nasihat dan bimbingan selama penulis
menjalani masa perkuliahan
4. Ibu Hertiana Bethaningtyas D.K., S.T., M.T. dan Ibu Linahtadiya Andiani,
S.Si., M.Si., sebagai dosen pembimbing dalam pengerjaan tugas akhir yang
telah meluangkan banyak waktu, tenaga serta pikiran dalam membimbing
dan memberikan pengarahan atas kendala-kendala yang dialami penulis
selama pengerjaan tugas akhir.
5. Seluruh dosen Teknik Fisika Telkom University yang telah memberikan
ilmu dan bimbingan selama masa perkuliahan
6. Muhammad Aghfian Fadhil yang telah membantu penulis dalam mendalami
algoritma pemrograman yang digunakan dalam pengolahan data tugas akhir
serta atas ilmu dan nasihat yang telah diberikan
7. Chalik dan Bang Yurvan yang telah membantu penulis dalam memberikan
solusi terhadap dalam kendala yang dihadapi dalam algoritma pemrograman
yang bermasalah.
8. Andi Okta dan Novita Dayanti, yang selalu memberikan semangat dan juga
membantu penulis dalam menyelesaikan tugas akhir.
vii
9. Reska Mulyasari, sahabat penulis yang selalu memberikan semangat dan
dukungan serta menjadi tempat penulis untuk berbagi cerita dan suka duka
10. Teman seperjuangan penulis, Hannan Nuraeni, Qonita Faristin, Nailissa’ada
Avicenna, Calica Rosnaomi, Aliyah Nur Ifadah, Ailsa Amorita, teman-
teman TF-41-02, dan teman teman angkatan 2017 Teknik Fisika Telkom
University serta teman seperjuangan penulis yang tidak dapat disebutkan
satu persatu
11. Seluruh pihak yang tidak dapat diucapkan satu persatu yang telah membantu
penulis dalam menyelesaikan tugas akhir ini
Semoga semua pihak yang telah disebutkan diatas selalu diberi kesehatan dan
keberkahan dalam hidupnya. Semoga Allah dapat mempertemukan kita disurga.
Aamiin ya rabbal’aalamiin.
Penulis
viii
DAFTAR ISI
ABSTRAK .................................................................................................... iv
ABSTRACT ................................................................................................... v
DAFTAR ISI................................................................................................. ix
ix
2.7 Visualisasi Audio ................................................................................ 27
5.2 Saran................................................................................................... 54
x
DAFTAR PUSTAKA .................................................................................. 55
LAMPIRAN............................................................................................... 558
xi
DAFTAR GAMBAR
xii
Gambar 4. 3 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar MFCC ...................................................... 43
Gambar 4. 4 Contoh Hasil Klasifikasi Data Uji (a) Suara normal yang
diklasifikasikan dengan benar sebagai suara normal, (b) Suara normal yang
diklasifikasikan dengan salah sebagai suara sakit, (c) Suara sakit yang
diklasifikasikan dengan benar sebagai suara sakit, (d) Suara sakit yang
diklasifikasi dengan salah sebagai suara normal ................................................. 51
Gambar 4. 5 Ilustrasi Hubungan Presisi dan Recall ........................................... 52
xiii
DAFTAR TABEL
xiv
BAB I
PENDAHULUAN
Sistem diagnosa kelainan pita suara yang sudah ada dan digunakan untuk
klasifikasi kelainan pita suara yaitu pemeriksaan kondisi pita suara dengan
menggunakan laringoskop dan diklasifikasikan berdasarkan gambar pita suara oleh
dokter atau ahli. Sistem ini kemudian dikembangkan melalui penelitian tugas akhir
Aghfian (2019) yaitu pengklasifikasian kelainan pita suara berdasarkan gambar pita
suara dari laringoskopi oleh sistem secara langsung.
Pada penelitian yang dilakukan oleh Aghfian (2019) yaitu dengan judul
Rancang Bangun Alat Identifikasi Kelainan pada Pita Suara menggunakan
Pengolahan Citra dengan Metode Convolutional Neural Network berbasis
Raspberry Pi. Dari penelitian tersebut diperoleh tingkat akurasi sebesar 79,75%.
Pada penelitian tersebut, alat yang dirancang masih menggunakan metode invasive
untuk klasifikasi penyakit kelainan pita suara yaitu dengan memasukkan sebuah
alat pada tenggorokan untuk melihat keadaan pita suara. Pada penelitian ini juga
memerlukan bantuan ahli dalam proses penggunaannya[2].
15
16
dari penelitian ini diharapkan dapat digunakan untuk menganalisis sinyal suara
untuk deteksi penyakit kelainan pita suara sehingga dapat membantu dokter dalam
melakukan pra-diagnosa pada penderita penyakit kelainan pita suara dan
pengembangan teknologi machine learning dimasa yang akan datang.
2. Bagaimana tingkat akurasi dari hasil analisis sinyal suara untuk deteksi
kelainan pita suara menggunakan metode convolutional neural network?
2. Mengetahui tingkat akurasi dari hasil analisis sinyal suara untuk deteksi
kelainan pita suara menggunakan metode convolutional neural network
1. sampel data suara berupa rekaman suara pasien yang mengucapkan vowel
/a/ secara kontinu dalam satu tarikan nafas
17
2. Data suara yang digunakan berasal dari arsip data kelainan pita suara yang
ada pada arsip laboratorium fisika komputasi prodi teknik fisika fakultas
teknik elektro dengan tipe data suara berupa tipe data .wav
1. Studi Literatur
2. Pengumpulan data
Bertujuan untuk memperoleh data suara yang akan digunakan sebagai data
latih dan data uji yang didapatkan dari perekaman suara pasien dengan
mengucapkan vowel /a/ secara kontinu dalam satu tarikan nafas(sustained
phonation). Data perekaman sebagian besar menggunakan data perekeman
yang telah diambil pada penelitian sebelumnya dan juga dapat diperoleh
secara langsung dengan melakukan perekaman suara pada pasien di rumah
sakit ataupun pasien melakukan rekaman langsung pada aplikasi
berdasarkan hasil diagnosa dokter. Aplikasi yang digunakan untuk merekam
suara adalah aplikasi voice recorder dan disimpan dengan tipe data .wav.
18
3. Pengolahan data
Data suara yang diperoleh diolah dan dianalisis dengan algoritma untuk
mengubah data suara menjadi citra digital dan diolah kembali untuk
diklasifikasi menggunakan metode convolutional neural network dengan
menggunakan bahasa pemrograman python dalam menyusun algoritma
untuk mengolah datanya.
Pada tahapan ini yaitu dilakukan analisis hasil akurasi data data yang telah
diolah dan membuat laporan dengan menjelaskan secara detail berdasarkan
dari hasil analisis tersebut.
BAB II
TINJAUAN PUSTAKA
Pita suara menghasilkan suara saat kedua pita suara bersatu dan bergetar saat
udara melewatinya saat menghembuskan udara dari paru-paru. Getaran inilah yang
menghasilkan suara pada manusia. Untuk mendapatkan getaran pada pita suara
yang normal diperlukan beberapa kemampuan yaitu kemampuan menutup rapat,
kelenturan, ketegangan yang tepat, dan massa yang tepat [3].
Proses terjadinya getaran suara berdasarkan gambar 2.1 yaitu (1) Tekanan
udara bergerak ke atas pita suara yang berada dalam posisi tertutup; (2-3) Tekanan
udara membuka lapisan getar bagian bawah dari pita suara, posisi pita suara dalam
posisi tetap; (4-5) Tekanan udara terus bergerak ke atas sehingga bagian atas dari
pita suara terbuka; (6-9) Tekanan yang lemah tercipta di balik kolom udara yang
bergerak cepat menghasilkan “efek bernoulli” yang menyebabkan bagian bawah
menutup, diikuti oleh bagian atas; (10) Penutupan pita suara menyebabkan
berhentinya kolom udara[4].
19
20
Kelainan pita suara merupakan kondisi yang terjadi akibat adanya perubahan
yang terjadi pada pita suara. Adanya perubahan kondisi mengakibatkan suara yang
dihasilkan akan berubah yang ditandai dengan gejala yang bervariasi. Gejala yang
terjadi akibat kelainan pita suara diantaranya perubahan yang terjadi pada suara
normal seperti suara serak atau parau, suara lemah, dan breathy voice(juga disebut
suara bergumam, berbisik, dan desah)[1]. Suara tersebut dapat berubah karena
perubahan kondisi atau kelainan pada pita suara ataupun organ lain disekitarnya.
Pada Gambar 2.3 menunjukkan gambar kelainan pita suara dan dapat dilihat
perubahan kondisi yang terjadi pada pita suara.
Gambar 2. 3 Kondisi kelainan pita suara dengan perubahan yang terjadi [5].
Kelainan pita suara ini paling umum disebabkan dari penyalahgunaan
vokal(suara) diantaranya penggunaan suara yang berlebihan saat bernyanyi,
berbicara, batuk, ataupun berteriak. Penyebab lain juga yaitu virus, merokok dan
menghirup udara yang dapat merusak pita suara[1].
2.3 Waveform
Waveform atau sering juga disebut WAV adalah format standar dari berkas
audio yang dikembangkan oleh Microsoft dan IBM. WAV ini merupakan varian
dari format bitstream RIFF dengan format yang mirip dengan format AIFF Apple
untuk menyimpan data[6].
audio tanpa dikompres sehingga data audio yang tersimpan adalah data asli tanpa
perubahan. Ukuran file dengan format WAV cukup besar dibandingkan dengan
format lainnya, sekitar 10MB per menit.
Pengolahan citra atau image processing adalah suatu sistem dimana proses
dilakukan dengan masuk input berupa citra dan hasilnya (output) juga berupa citra
(image)[8]. Pengolahan citra digital pada umumnya didefinisikan sebagai
pemrosesan citra dengan dua dimensi pada komputer. Pengolahan citra memiliki
fungsi antara lain untuk meningkatkan kualitas citra, menghilangkan cacat pada
citra, mengidentifikasi objek, penggabungan dengan bagian citra yang lain.
Berdasarkan hal tersebut pengolahan gambar dapat dikategorikan dalam beberapa
hal yaitu image enhancement, image restoration, image compression, image
segmentation, image analysis, dan image reconstruction[9]. Pada gambar 2.4 dapat
dilihat salah satu contoh penerapan image processing deteksi gambar.
Convolutional neural network (CNN) adalah salah satu kelas deep learning
yaitu deep feed-forward artificial neural network yang diterapkan untuk
menganalisis citra visual [12]. Arsitektur CNN dibagi menjadi dua bagian yaitu
feature extraction/feature learning dan classification layer. Feature extraction
melakukan “encoding” gambar menjadi features berupa angka yang akan
mempresentasikan gambar tersebut [13] ke tahap classification yang nantinya
akan mengeluarkan prediksi dari hasil yang telah dianalisis.
a. Convolutional Layer
Pada gambar 2.6 diatas menunjukkan operasi konvolusi (kotak hijau) = 1x1
+ 1x0 + 1x1 + 0x0 + 1x1 + 1x0 + 0x1 + 0x0 + 1x1 = 4. Operasi konvolusi dimulai
dari kiri atas dan kernel digeser sesuai dengan stride yang telah ditentukan dan
dilakukan kembali operasi konvolusi hingga kernel mencapai kanan bawah atau
posisi akhir input gambar.
b. Pooling Layer
Average pooling layer memiliki konsep yang sama dengan max pooling.
Perbedaannya pada average pooling layer mengambil nilai rata-rata pada kernel
sebagai keluarannya.
f(x) = max(0,x)
2.6.2 Classification
a. Flattened
Proses flattened berfungsi untuk mengubah data dari fitur map yang berupa
3 dimensi volume menjadi 1 dimensi vector. Untuk menjadikan 1 dimensi data
akan diambil dari kiri ke kanan lalu turun pada baris berikutnya dan disusun atau
dijajarkan dari kiri ke kanan dalam satu baris hingga data terakhir. Contoh operasi
flatten dapat dilihat pada gambar 2.9 dibawah.
26
Flattened
Max pooling
b. Fully-connected Layer
c. Sigmoid function
Fungsi aktivasi sigmoid adalah fungsi aktivasi non linear dengan masukan
berupa bilangan real.Fungsi ini mentransformasikan range nilai dari input x
menjadi antara 0 dan 1 dengan bentuk distribusi[17] seperti pada gambar 2.10
dibawah.
d. Dropout
Dropout merupakan salah satu teknik yang digunakan untuk mencegah
overfitting. Gambar 2.11 dibawah menunjukkan terjadinya overfitting, overfitting
ini dapat terjadi ketika nilai error training dan validasi terlampau jauh seperti satu
neuron memiliki nilai error/loss yang sangat besar dan satu lagi memiliki nilai
yang sangat kecil secara continue. Hal tersebut dapat diartikan bahwa model tidak
dapat mengenali ciri objek.
Gambar 2. 11 overfitting[19]
Dropout memungkinkan memilih secara acak neuron untuk tidak digunakan
selama training data. Gambar 2.12 dibawah menunjukkan contoh dari
penggunaan teknik dropout.
audio yang umum digunakan yaitu Audio Signal Amplitude, Spektrogram, dan
MFCC.
Audio adalah istilah yang lebih umum digunakan daripada suara. Audio
mencakup sinyal yang bergerak dari getaran suara, dan juga mencakup berbagai
bentuk lain yang dapat ditangkap oleh sinyal[20]. Getaran yang dihasilkan oleh
suara menghasilkan karakteristik penting dan dapat divisualisasikan dalam bentuk
audio signal amplitude. Visualisasi dalam bentuk audio signal amplitude dapat
dilihat pada gambar 2.13 dengan sumbu horizontal adalah waktu dalam satuan
detik dan sumbu vertikal adalah amplitudo dalam satuan meter.
Amplitudo (m)
Waktu (s)
2.7.2 Spektrogram
Frekuensi (Hz)
Waktu (s)
2.7.3 MFCC
Koefisien MFCC
Waktu (s)
METODE PENELITIAN
Secara garis besar tahapan yang dilakukan dalam penelitian ini dapat dilihat
pada Gambar 3.1 di bawah. Perekaman suara pasien dengan menggunakan aplikasi
rekam suara pada smartphone. Data yang telah diperoleh disimpan dalam tipe data
.wav yang kemudian diubah menjadi gambar untuk diklasifikasi dengan
menggunakan algoritma convolutional neural network berdasarkan parameter yang
telah ditentukan.
Sehat
Sakit
Gambar 3. 1 Skema umum penelitian
Pada penelitian ini pengolahan data merupakan hal yang utama. Keberhasilan
dari penelitian sangat ditentukan oleh hasil pengolahan data berdasarkan arsitektur
yang digunakan dan juga parameter-parameter lainnya. Pada penelitian ini data
yang digunakan dapat diambil dari arsip data kelainan pita suara yang ada pada
arsip laboratorium fisika komputasi prodi teknik fisika fakultas teknik elektro yang
data tersebut bersumber dari data penelitian sebelumnya serta dari laboratorium-
laboratorium yang telah melakukan kerjasama dengan laboratorium fisika
komputasi. Data juga dapat bersumber dari pengambilan data suara secara
langsung sesuai dengan prosedur yang telah ditetapkan. Pengambilan data secara
31
32
pencarian parameter model yang optimal terlebih dahulu. Ketika model sudah
optimal maka selanjutnya dilakukan pengujian data. Data dianalisis hingga
diperoleh hasil akurasi dari pengujian. Proses pengolahan data akan dijelaskan lebih
lanjut pada bab 3.3.
Data suara yang digunakan merupakan data hasil perekaman suara yang
dimiliki oleh laboratorium fisika komputasi serta suara yang dikirimkan oleh
partisipan dengan format .wav. Hasil perekaman ini digunakan secara langsung
tanpa dilakukan filterisasi data audio terlebih dahulu.
Partisipan diminta mengucapkan vowel /a/ secara kontinu dalam satu tarikan
nafas (sustained phonation). Sustained phonation atau fonasi berkelanjutan ini
dilakukan dengan maksud agar suara yang dihasilkan stabil.
a. Pra proses
Pra proses pada tahap ini yaitu penggabungan seluruh data suara yang telah
diambil. Data hasil perekaman disimpan dengan format .wav(waveform audio
format) pada sebuah folder berdasarkan kelainan pita suara yang diderita. Proses
ini memiliki tujuan agar komputer dapat memahami data yang diberikan. Tahap
ini mempermudah dalam pengolahan data pada tahap selanjutnya.
34
b. Augmentasi Data
Time shifting adalah pergeseran waktu dalam audio dengan penambahan delay
pada awal audio. Untuk lebih jelasnya dapat dilihat pada gambar 3.3 dibawah yang
menunjukkan adanya pergeseran audio pada waktu tertentu. Dengan grafik
spektrogram sumbu horizontal mewakili waktu berjalan dalam satuan detik dan
sumbu vertikal mewakili frekuensi dalam satuan Hertz.
Frekuensi (Hz)
Waktu (s)
Frekuensi (Hz)
Waktu (s)
Waktu (s)
Gambar 3. 5 Perbandingan spektrogram audio original dan audio yang telah
dilakukan Noise Addition
Berdasarkan Gambar 3.6 diatas,data suara atau audio yang telah dilakukan pra
proses dan augmentasi data dikonversi menjadi sebuah gambar. Pada penelitian ini
mengubah data suara dalam tiga bentuk visualisasi audio yaitu audio signal
amplitude, spektrogram, dan MFCC. Ketiga visualisasi audio tersebut biasa
digunakan untuk representasi sinyal yang berbentuk 1D menjadi sinyal 2D. Sinyal
suara diubah menjadi gambar karena algoritma dalam pembelajaran CNN memiliki
kinerja yang lebih baik pada klasifikasi citra 2D. Dari ketiga visualisasi gambar
tersebut hanya digunakan salah satu untuk disimpan dalam model CNN untuk
klasifikasi suara berdasarkan perbandingan akurasi tertinggi.
d. Pembagian Data
Data yang digunakan selama proses training adalah data latih dan data validasi.
Data latih digunakan untuk membentuk suatu model yang tepat. Data validasi
digunakan untuk memvalidasi suatu model selama proses training masih
berlangsung. Data uji digunakan untuk mengetahui kinerja dari model dengan
menggunakan data yang belum pernah dilihat sebelumnya atau belum digunakan
pada pelatihan data.
37
Data yang digunakan yaitu semua data suara kelainan pita suara yang telah ada
pada laboratorium dan beberapa data suara yang diambil dari perekaman melalui
smartphone. Dengan total data suara sebanyak 335 dengan 126 data suara
normal/sehat dan 209 data suara sakit. Untuk mencegah overfitting dilakukan
augmentasi data audio dengan time shifting, time stretching, dan noise addition
sehingga total data suara sebanyak 1.256 dengan 629 data suara normal/sehat dan
627 data suara sakit pembagian data latih sebanyak 800 data validasi sebanyak 200,
dan data tes sebanyak 256.
e. Model Pelatihan
Gambar 3.8 dibawah adalah model sistem CNN yang digunakan untuk
klasifikasi kelainan pita suara pada penelitian ini. Model yang digunakan pada
Resize 3 x 3 Conv 32
150 x 150 px
Dropout 0,5
Max Pooling
3 x 3 Conv 64 Sigmoid
Max Pooling
Output
Dropout 0.25
Normal/Sehat Sakit
pelatihan adalah gabungan dari model yang digunakan oleh youtubers When Maths
Meet Coding dengan arsitektur yang digunakan adalah modifikasi dari arsitektur
LeNet 5[24] dan model yang digunakan oleh Rishi Sidhu untuk klasifikasi spoken
digit dengan validasi akurasi mencapai 97%[25]. Dan dilakukan modifikasi
kembali berdasarkan training data untuk mencari parameter yang optimal.
Keputusan untuk menggabungan 2 model tersebut berdasarkan percobaan training
data dengan mencari akurasi tertinggi. Pada model pelatihan terdapat 3 tahapan,
yaitu input, feature extraction dan klasifikasi dengan beberapa parameter yang
dapat di tuning untuk mengetahui perbandingan akurasi yang bagus.
38
Data input berupa data suara yang telah diubah menjadi gambar yang terdiri
dari data sehat dan data sakit. Input akan melalui proses resize menjadi 150 x 150
pixel. Ukuran input mempengaruhi banyaknya informasi yang masuk untuk diolah
pada model sehingga dapat berpengaruh pada nilai akurasi dari model. Selanjutnya
input data yang telah dilakukan resize melalui konvolusi, aktivasi ReL-U, pooling,
fully connected layer, hingga klasifikasi.
Jenis pooling layer, tujuannya untuk mengetahui pengaruh jenis pooling layer
pada performa model. Dengan variabel peubah dari jenis pooling layer yaitu
39
maximum dan average dan variabel tetap yaitu dimensi input 150 x 150 dan ukuran
kernel konvolusi 3 x 3 yang merupakan parameter dengan akurasi tertinggi dari
percobaan sebelumnya, learning rate 0.001, menggunakan dropout, dan epoch 50.
Cara pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.
Learning Rate, tujuannya untuk mengetahui pengaruh jenis pooling layer pada
performa model. Dengan variabel peubah yaitu learning rate : 0.01, 0.001, dan
0.0001 dan variabel tetap yaitu dimensi input 150 x 150, ukuran kernel konvolusi 3
x 3, dan jenis pooling layer max pooling yang merupakan parameter dengan akurasi
tertinggi dari percobaan sebelumnya, menggunakan dropout, dan epoch 50. Cara
pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.
Setelah parameter yang paling optimal telah ditemukan maka model dapat
disimpan dan digunakan kembali pada tahap pengujian. Model juga dapat langsung
digunakan tanpa disimpan terlebih dahulu. Pada tahap pengujian atau evaluasi data
input yang diberikan merupakan data pengujian yang memiliki spesifikasi serupa
dengan data latih lalu output dari pengujian berupa hasil klasifikasi. Data yang
digunakan merupakan data yang sebelumnya belum pernah digunakan pada
40
pelatihan data. Proses ini menghasilkan prediksi klasifikasi dari input yang
diberikan, hasil prediksi berupa label gambar yang sesuai atau tidak sesuai dengan
label asli.
Setelah melalui tahap training data dan validation data, maka tahap
selanjutnya dapat dilakukan performansi sistem pada tahap pengujian. Performansi
sistem memiliki parameter yaitu akurasi, presisi, dan recall dengan menggunakan
Confusion Matrix untuk membantu pengukuran parameternya.
a. Confusion Matrix
Confusion matrix merupakan suatu alat ukur yang dapat digunakan untuk
menghitung performansi atau derajat kebenaran dalam proses klasifikasi.
Confusion Matrix dapat digunakan untuk mendapatkan nilai akurasi, presisi, dan
recall. Dengan confusion matrix dapat diketahui seberapa baik classifier
menganalisa/mengenali tiap kelas yang ada. Tabel proses confusion matrix dapat
dilihat pada tabel 3.1 dibawah[26].
Aktual
Positif TP FN
Negatif FP TN
b. Akurasi
𝑇𝑃 + 𝑇𝑁
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (3.1)
c. Presisi
d. Recall
Pada bab ini dilakukan analisis data berdasarkan tuning parameter yang telah
dilakukan. Total data yang digunakan (termasuk data yang telah di augmentasi)
sebanyak 1.256 dengan 629 data suara normal/sehat dan 627 data suara sakit
pembagian data latih sebanyak 800 data validasi sebanyak 200, dan data tes
sebanyak 256.
Gambar 4. 1 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar audio signal amplitude
42
43
Gambar 4. 2 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar Spektrogram
Gambar 4. 3 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar MFCC
Berdasarkan gambar grafik pada ketiga input visualisasi data , gambar 4.2
yaitu grafik spektrogram menunjukkan perbedaan nilai loss training dan loss
validasi yang tidak terlalu besar meskipun ada beberapa data yang memiliki
44
perbedaan nilai loss training dan loss validasi yang cukup besar akan tetapi itu tidak
berlangsung secara continue sehingga dapat dikatakan bahwa model tidak
mengalami overfitting.
Pada tabel 4.1 dapat dilihat perbandingan hasil input gambar. Pada tabel
tersebut terlihat bahwa input dengan visualisasi spektrogram memiliki nilai akurasi
validasi tertinggi dan loss validasi terendah dibandingkan dengan input dengan
visualisasi audio signal amplitude dan MFCC. Hal tersebut menandakan
performansi dengan input visualisasi spektrogram lebih baik dibandingkan dengan
input visualisasi audio signal amplitude dan MFCC. Hal tersebut disebabkan dalam
proses training, model belum mampu menangkap karakteristik penting pada suara.
Training data dengan input dengan visualisasi spektrogram masih lebih baik dengan
tingkat akurasi validasi dari training data sebesar 95,5% dibandingkan dengan
penelitian sebelumnya dengan tingkat akurasi validasi dari training data sebesar
95,35%. Maka untuk training parameter model selanjutnya menggunakan input
dengan visualisasi spektrogram.
nilai akurasi validasi dan nilai validasi terendah serta loss sama atau tidak berbeda
jauh maka yang diambil adalah yang memiliki waktu latih paling sedikit. Parameter
yang di tuning yaitu dimensi input, ukuran kernel konvolusi, jenis pooling layer,
learning rate, dropout, dan epoch.
Banyaknya informasi yang masuk untuk diolah pada model dapat dipengaruhi
oleh dimensi input sehingga dapat berpengaruh pada nilai akurasi dari model.
Informasi yang sangat sedikit tidak baik karena memungkinkan kehilangan
informasi penting pada gambar. Informasi yang sangat banyak tidak baik pula
karena dapat membuat nilai komputasi semakin tinggi dan sulit untuk dijalankan.
Training dilakukan dengan menggunakan dimensi input 50 x 50, 100 x 100, dan
150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling layer maksimum, learning
rate 0,001, menggunakan dropout, dan epoch 50.
Berdasarkan hasil pada tabel 4.2 diatas dapat dilihat bahwa dimensi input 150
x 150 memiliki akurasi tertinggi. Semakin besar ukuran input belum tentu akan
menaikkan nilai akurasi. Hal ini dapat disebabkan besarnya ukuran akan
memerlukan lapisan layer yang lebih banyak untuk mengeksplorasi input gambar
yang besar namun waktu yang dibutuhkan juga akan semakin besar. Input gambar
yang terlalu kecil juga dapat membuat data kehilangan info penting sehingga dapat
menurunkan tingkat akurasi.
46
Berdasarkan hasil pada tabel 4.3 diatas, ukuran kernel 3 x 3 memiliki akurasi
validasi tertinggi. Hal ini terjadi karena filter dengan ukuran yang kecil
memungkinkan untuk mengumpulkan informasi sebanyak mungkin dan mampu
membedakan feature pada taraf low level namun membutuhkan kernel yang lebih
banyak. Sedangkan apabila terlalu besar ukuran kernelnya maka wilayah
pengamatan menjadi luas serta akan mengambil informasi secara global dan tak
mampu membedakan ciri yg dengan lebih jelasnya. Ukuran kernel yang semakin
besar juga mempengaruhi waktu yang dibutuhkan untuk training yaitu semakin
besar ukuran kernel maka waktu yang dibutuhkan akan semakin banyak.
Fungsi dari pooling adalah untuk mereduksi data dari hasil konvolusi secara
spasial (mengurangi jumlah parameter). Dengan melakukan pooling dapat
mengurangi tingkat sensitivitas dari noise dan variations. Training dilakukan
dengan menggunakan max pooling dan average pooling.
47
Berdasarkan hasil pada tabel 4.4 diatas, parameter max pooling memiliki nilai
akurasi validasi tertinggi dibandingkan dengan parameter yang menggunakan
average pooling. Maka untuk training parameter model selanjutnya menggunakan
jenis pooling layer average pooling.
Salah satu yang mempengaruhi nilai akurasi adalah nilai dari learning rate.
Perubahan bobot pada learning rate yang semakin besar memungkingkan untuk
lebih cepat mencapai titik konfigurasi. Akan tetapi, jika nilai learning rate terlalu
besar akan terjadi perubahan bobot-bobot terhadap nilai error menjadi terlalu
responsif dan tidak mencapai titik konfigurasi.
Berdasarkan hasil pada tabel 4.5 diatas, parameter learning rate mencapai
akurasi paling tinggi pada nilai 0,001. Hal ini karena penggunaan learning rate
yang terlalu besar akan menyebabkan perubahan yang besar juga, sehingga dapat
menyebabkan nilai bobot yang optimal dapat terlewatkan. Namun, learning rate
48
yang terlalu kecil menyebabkan proses mencapai bobot yang paling optimal
menjadi sangat lambat.
Berdasarkan hasil pada tabel 4.5 diatas, parameter yang menggunakan epoch
150 memiliki nilai akurasi yang paling tinggi. Hal ini dipengaruhi dari banyaknya
training dataset yang dilakukan. Nilai epoch yang terlalu kecil menyebabkan model
belum mencapai bobot yang optimal sehingga dapat mengakibatkan model belum
dapat mengklasifikasikan kelas dengan benar. Untuk dataset yang berbeda akan
memerlukan nilai epoch yang berbeda pula sehingga tidak dapat dipastikan berapa
jumlah epoch yang paling bagus, jadi jumlah epoch tergantung dari dataset yang
digunakan.
dan setelah tuning terletak pada nilai epoch-nya. Epoch yang digunakan sebelum
tuning parameter sebanyak 50 dan epoch yang digunakan setelah tuning sebanyak
150.
Hasil pengujian berupa klasifikasi suara normal dan suara sakit. Terdapat 4
jenis klasifikasi yaitu suara normal yang diklasifikasikan dengan benar sebagai
suara normal, suara normal yang diklasifikasikan dengan salah sebagai suara sakit,
suara sakit yang diklasifikasikan dengan benar sebagai suara sakit, dan suara sakit
yang diklasifikasi dengan salah sebagai suara normal. Contoh klasifikasi tersebut
dapat dilihat pada gambar 4.4 dibawah.
a b
(a) (b)
51
c d
(c) (d)
Gambar 4. 4 Contoh Hasil Klasifikasi Data Uji (a) Suara normal yang
diklasifikasikan dengan benar sebagai suara normal, (b) Suara normal yang
diklasifikasikan dengan salah sebagai suara sakit, (c) Suara sakit yang
diklasifikasikan dengan benar sebagai suara sakit, (d) Suara sakit yang
diklasifikasi dengan salah sebagai suara normal
Pada gambar 4.4 diatas adalah salah satu hasil klasifikasi dari data uji. Dengan
gambar 4.4(a) variabel a adalah data suara normal yang diklasifikasikan dengan
benar sebagai data suara normal, gambar 4.4(b) variabel b adalah data suara normal
yang diklasifikasikan dengan salah sebagai data sakit, gambar 4.4(c) variabel c
adalah data suara sakit yang diklasifikasikan dengan benar sebagai data suara sakit,
dan gambar 4.4(d) variabel d adalah data suara sakit yang diklasifikasikan dengan
salah sebagai data suara normal. Hasil dari pengujian dengan menggunakan 256
data baru dengan banyak data yang dapat diprediksi dengan benar sebanyak 229
data yang ditunjukkan pada tabel 4.9 dibawah. Data yang digunakan pada pengujian
merupakan data yang belum pernah digunakan pada proses training. Dari hasil
pengujian tersebut dapat dihitung nilai akurasi yang diperoleh sebagai berikut :
Prediksi
𝑇𝑃 113
- 𝑅𝑒𝑐𝑎𝑙𝑙 = = = 0,911 × 100% = 91,10%
𝑇𝑃+𝐹𝑁 113+11
Keterangan :
Suara Sakit
presisi dan recall sama-sama rendah, dan nilai presisi yang lebih tinggi
dibandingkan nilai recall. Jika nilai presisi dan recall sama-sama tinggi
menunjukkan hasil klasifikasi yang sangat baik. Jika nilai presisi dan recall sama-
sama rendah menunjukkan model belum cukup baik dalam mengklasifikasikan
data. Jika nilai presisi yang lebih tinggi dibandingkan nilai recall menunjukkan
bahwa model dapat mengklasifikasikan sebagian data dengan benar dari data yang
tersedia.
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
5.2 Saran
54
55
DAFTAR PUSTAKA
[4] Syamsudin dkk, “Anatomi Suara Manusia”, Di Anatomi Suara Kajian Fisika
Medik, 1st ed., Surabaya : Airlangga University Press, 2018, pp. 33-36
[10] Udacity.com, “Going further with CNNs,” Di Intro to Tensor Flow for Deep
Learning. Udacity. [Online]. Tersedia di
https://classroom.udacity.com/courses/ud187/lessons/1771027d-8685-496f-
56
8891-d7786efb71e1/concepts/badc7549-a986-459b-8812-23dfee2b4d0d.
[Diakses 15 November 2020]
[22] Doshi, Sanket. 2018, 30 Des. “Music Feature Extraction in Python”. Towards
Data Science. Tersedia di https://towardsdatascience.com/extract-features-
of-music-75a3f9bc265d. [Diakses 10 Juli 2021]
LAMPIRAN
59
NIM : 1104174042