Laporan TA Desain Geometri Redaman Ruang Anti Gema

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN
PITA SUARA DENGAN CONVOLUTIONAL NEURAL NETWORK(CNN)
ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD

DISORDERS USING CONVOLUTIONAL NEURAL NETWORK(CNN)
TUGAS AKHIR
Disusun untuk memenuhi salah satu persyaratan menyelesaikan
Program Studi Strata 1 Teknik Fisika
Disusun oleh:
NURUL IZZAH LUTHFIAH NUR
1104174042
FAKULTAS TEKNIK ELEKTRO
UNIVERSITAS TELKOM
BANDUNG
2021
UNIVERSITAS TELKOM No. Dokumen
Jl. Telekomunikasi No.1 Ters. Buah Batu Bandung 40257 No. Revisi
FORMULIR PERNYATAAN ORISINALITAS Berlaku efektif
LEMBAR PERNYATAAN ORISINALITAS
Nama : Nurul Izzah Luthfiah Nur
NIM : 1104174042
Alamat : Dusun Sapaya Desa Kindang Kab. Bulukumba, Sulawesi Selatan
No.Tlp/HP : 082292776024
E-mail : izzahluthfiah@gmail.com
Menyatakan bahwa Tugas Akhir ini merupakan karya orisinal saya sendiri, dengan
judul :


Atas pernyataan ini, saya siap menanggung resiko / sanksi yang dijatuhkan kepada
saya apabila kemudian ditemukan adanya pelanggaran terhadap kejujuran
akademik atau etika keilmuan dalam karya ini, atau ditemukan bukti yang
menunjukkan ketidakaslian karya ini.
Bulukumba, Juli 2021
Nurul Izzah Luthfiah Nur

NIM. 1104174042
ii
UNIVERSITAS TELKOM No. Dokumen
Jl. Telekomunikasi No.1 Ters. Buah Batu Bandung 40257 No. Revisi
Formulir Lembar Pengesahan Tugas Akhir Berlaku efektif
LEMBAR PENGESAHAN
TUGAS AKHIR


Telah disetujui dan disahkan sebagai Tugas Akhir
Program S1 Teknik Fisika Fakultas Teknik Elektro
Universitas Telkom
Disusun oleh :
1104174042
Bandung, 28 Juli 2021
Menyetujui
Pembimbing I Pembimbing II
Hertiana Bethaningtyas D.K, S.T, M.T Linahtadiya Andiani, S.Si, M.Si

NIP. 13860049 NIP. 20940006
iii
ABSTRAK
Salah satu gejala dari kelainan pita suara adalah adanya perubahan yang terjadi
pada suara normal seperti suara serak atau parau, suara lemah, dan breathy voice.
Untuk mengetahui kelainan pita suara maka perlu dilakukan diagnosa awal melalui
analisis kualitas suara penderita. Tujuan dari penelitian ini adalah untuk
mengembangkan metode diagnosa awal non-invasive melalui klasifikasi kelainan
pita suara menggunakan metode machine learning. Pada penelitian ini telah dibuat
sebuah sistem yang dapat mengklasifikasi kelainan pita suara yaitu dalam
klasifikasi suara normal atau sehat maupun suara sakit berdasarkan sinyal yang
didapatkan dari rekaman suara. Sinyal suara tersebut diolah dalam bentuk
visualisasi audio menggunakan algoritma pengolahan citra untuk diklasifikasi
menggunakan metode convolutional neural network (CNN). Dari penelitian yang
telah dilakukan didapat bahwa uji klasifikasi menggunakan parameter terpilih
melalui metode algoritma CNN dapat bekerja dengan baik dalam mengklasifikasi
kelainan pita suara dan memperoleh akurasi sebesar 89,45%.
Kata Kunci: Convolutional Neural Network, Kelainan Pita Suara, Machine

Learning, Pengolahan Citra
iv
ABSTRACT
One of the symptoms of vocal cord disorders include changes that occur in
the normal voice such as a hoarseness, a weak voice, and breathy voice. To
diagnose vocal cord disorders, it is necessary to do an initial diagnosis through an
analysis of the patient’s voice quality. The aim of this research was to develop a
non-invasive early diagnosis method through the classification of vocal cord
disorders using machine learning methods. In this research, a system has been
created that can classify vocal cord disorders, namely in the classification of
normal or healthy voices or sick voices based on signals obtained from voice
recordings. The voice signal is precessed in the form of audio visualization to be
classified using convolutional neural network (CNN) method. From this research
that has beencompleted, the classification test using selected parameters through
the CNN algoritm method can work as well to classify the vocal cord disorders with
accuracy of 89.45%.
Keywords: Classification of Vocal Cord Disorders, Convolutional Neural Network,

Image Processing, Machine Learning
v
KATA PENGANTAR
Alhamdulillahirabbil‘alamin. Segala puji bagi Allah Subhana Wata’ala

yang telah memberikan rahmat dan limpahan kasihnya terlebih nikmat kesehatan
dan kemampuan yang tidak terhingga sehingga penulis dapat menyelesaikan Tugas
Akhir dengan judul “Analisis Sinyal Suara untuk Deteksi Kelainan Pita Suara
dengan Convolutional Neural Network(CNN). Tugas akhir ini merupakan salah
satu syarat untuk menyelesaikan studi di program studi S-1 Teknik Fisika Pada
Fakultas Teknik Elektro, Teknik Fisika.
Penyelesaian Tugas Akhir ini tidak dapat terselesaikan dengan baik tanpa
bantuan dari berbagai pihak. Pada kesempatan ini penulis mengucapkan terima
kasih tak terhingga atas segala do’a, bimbingan, dukungan, dan bantuan yang telah
diberikan.
Dalam pengerjaan Tugas Akhir dan penulisan buku Tugas Akhir ini tidak
terlepas dari berbagai kekurangan, mengingat kurangnya pengetahuan dan
pengalaman penulis. Oleh sebab itu, penulis sangat mengharapkan kritik dan saran
dari para pihak agar buku Tugas Akhir ini dapat menjadi lebih baik. Semoga Buku
ini dapat memberikan manfaat bagi penulis dan pembacanya.
Penulis,
NIM. 1104174042
vi
UCAPAN TERIMA KASIH
Dalam proses menyelesaikan Tugas Akhir ini tidak terlepas dari bantuan
berbagai pihak. Oleh sebab itu, penulis mengucapkan banyak terima kasih sebagai
bentuk apresiasi dan penghargaan yang tidak dapat dibandingkan atas bantuan yang
telah diberikan kepada penulis selama pengerjaan Tugas Akhir, yaitu :
1. Allah Subhana Wata’ala, Sang Khalik yang Maha pengasih lagi maha
Penyayang atas segala karunia yang telah berikan, atas nikmat kesehatan
dan nikmat keinginan untuk terus semangat mengerjakan Tugas Akhir serta
kemudahan dalam pengerjaannya. Dan tak lupa pula kepada baginda
Rasulullah Muhammad ‫ ﷺ‬sebagai suri tauladan umat manusia
2. Bapak Nurung dan Ibu Masyita, sebagai orang tua penulis, yang telah
mendo’akan dan terus memberikan dukungan serta nasihat sehingga penulis
termotivasi dann semangat untuk menyelesaikan Tugas Akhir
3. Bapak Dr. Eng. Indra Wahyudhin Fathona, S.Si., M.Si. sebagai dosen wali,
yang senantiasa memberikan nasihat dan bimbingan selama penulis
menjalani masa perkuliahan
4. Ibu Hertiana Bethaningtyas D.K., S.T., M.T. dan Ibu Linahtadiya Andiani,
S.Si., M.Si., sebagai dosen pembimbing dalam pengerjaan tugas akhir yang
telah meluangkan banyak waktu, tenaga serta pikiran dalam membimbing
dan memberikan pengarahan atas kendala-kendala yang dialami penulis
selama pengerjaan tugas akhir.
5. Seluruh dosen Teknik Fisika Telkom University yang telah memberikan
ilmu dan bimbingan selama masa perkuliahan
6. Muhammad Aghfian Fadhil yang telah membantu penulis dalam mendalami
algoritma pemrograman yang digunakan dalam pengolahan data tugas akhir
serta atas ilmu dan nasihat yang telah diberikan
7. Chalik dan Bang Yurvan yang telah membantu penulis dalam memberikan
solusi terhadap dalam kendala yang dihadapi dalam algoritma pemrograman
yang bermasalah.
8. Andi Okta dan Novita Dayanti, yang selalu memberikan semangat dan juga
membantu penulis dalam menyelesaikan tugas akhir.
vii
9. Reska Mulyasari, sahabat penulis yang selalu memberikan semangat dan
dukungan serta menjadi tempat penulis untuk berbagi cerita dan suka duka
10. Teman seperjuangan penulis, Hannan Nuraeni, Qonita Faristin, Nailissa’ada
Avicenna, Calica Rosnaomi, Aliyah Nur Ifadah, Ailsa Amorita, teman-
teman TF-41-02, dan teman teman angkatan 2017 Teknik Fisika Telkom
University serta teman seperjuangan penulis yang tidak dapat disebutkan
satu persatu
11. Seluruh pihak yang tidak dapat diucapkan satu persatu yang telah membantu
penulis dalam menyelesaikan tugas akhir ini
Semoga semua pihak yang telah disebutkan diatas selalu diberi kesehatan dan
keberkahan dalam hidupnya. Semoga Allah dapat mempertemukan kita disurga.
Aamiin ya rabbal’aalamiin.
Penulis
viii
DAFTAR ISI
LEMBAR PERNYATAAN ORISINALITAS .............................................. ii
LEMBAR PENGESAHAN .......................................................................... iii
ABSTRAK .................................................................................................... iv
ABSTRACT ................................................................................................... v
KATA PENGANTAR .................................................................................. vi
UCAPAN TERIMA KASIH ....................................................................... vii
DAFTAR ISI................................................................................................. ix
DAFTAR GAMBAR ................................................................................... xii
DAFTAR TABEL ....................................................................................... xiv
BAB I PENDAHULUAN ............................................................................ 15
1.1 Latar Belakang Masalah ...................................................................... 15
1.2 Rumusan Masalah ............................................................................... 16
1.3 Tujuan dan Manfaat ............................................................................ 16
1.4 Batasan Masalah ................................................................................. 16
1.5 Metode Penelitian ............................................................................... 17
BAB II TINJAUAN PUSTAKA .................................................................. 19
2.1 Proses Pembentukan Suara .................................................................. 19
2.2 Kelainan Pita Suara ............................................................................. 21
2.3 Waveform ........................................................................................... 21
2.4 Augmentation Audio Data................................................................... 22
2.5 Pengolahan Citra Digital ..................................................................... 22
2.6 Convolutional Neural Network (CNN) ................................................ 23
2.6.1 Feature Extraction ........................................................................ 23
2.6.2 Classification ................................................................................ 25
ix
2.7 Visualisasi Audio ................................................................................ 27
2.7.1 Audio Signal Amplitude ................................................................ 28
2.7.2 Spektrogram ................................................................................. 28
2.7.3 MFCC .......................................................................................... 29
BAB III METODE PENELITIAN ............................................................. 31
3.1 Skema Umum Penelitian ..................................................................... 31
3.2 Diagram Pengolahan Data ................................................................... 31
3.3 Persiapan dan Pengolahan Data ........................................................... 33
3.3.1 Tahap Persiapan............................................................................ 33
3.3.2 Tahap Pengumpulan Data Sampel ................................................. 33
3.3.3 Tahap Pengolahan......................................................................... 33
3.3.4 Performansi Sistem ....................................................................... 40
BAB IV ANALISIS DAN PEMBAHASAN ................................................ 42
4.1. Penentuan Visual Audio ..................................................................... 42
4.2. Penentuan Parameter Model CNN ...................................................... 44
4.2.1 Pengaruh Dimensi Input ............................................................... 45
4.2.2 Pengaruh Ukuran Kernel Konvolusi .............................................. 46
4.2.3 Pengaruh Jenis Pooling Layer ....................................................... 46
4.2.4 Pengaruh nilai Learning Rate ........................................................ 47
4.2.5 Pengaruh Dropout......................................................................... 48
4.2.6 Pengaruh Epoch ............................................................................ 48
4.3. Hasil Pengujian Model CNN .............................................................. 49
4.4. Analisis Akhir .................................................................................... 52
BAB V KESIMPULAN DAN SARAN........................................................ 54
5.1 Kesimpulan ......................................................................................... 54
5.2 Saran................................................................................................... 54
x
DAFTAR PUSTAKA .................................................................................. 55
LAMPIRAN............................................................................................... 558
xi
DAFTAR GAMBAR
Gambar 2. 1 Proses terjadinya getaran pita suara [4]. ........................................ 19

Gambar 2. 2 Subsistem penghasil suara [3]. ...................................................... 20
Gambar 2. 3 Kondisi kelainan pita suara dengan perubahan yang terjadi [5]. .... 21
Gambar 2. 4 Contoh penerapan image processing deteksi gender pada fitur
kamera smartphone vivo v5 ............................................................................... 22
Gambar 2. 5 Proses Convolutional Neural Network [13]................................... 23
Gambar 2. 6 Contoh operasi konvolusi dengan stride 1 .................................... 24
Gambar 2. 7 Contoh operasi max pooling [14] .................................................. 24
Gambar 2. 8 Fungsi Rectified Linear Unit [14] ................................................. 25
Gambar 2. 9 Contoh operasi flatten .................................................................. 26
Gambar 2. 10 Fungsi aktivasi sigmoid[17] ........................................................ 26
Gambar 2. 11 overfitting[19] ............................................................................ 27
Gambar 2. 12 Contoh penggunaan dropout[10] ................................................ 27
Gambar 2. 13 Sinyal suara dalam visualisasi audio signal amplitude ................ 28
Gambar 2. 14 Sinyal suara dalam visualisasi Spektrogram ................................ 29
Gambar 2. 15 Sinyal suara dalam visualisasi MFCC ......................................... 30
Gambar 3. 1 Skema umum penelitian ............................................................... 31
Gambar 3. 2 Alur pengolahan data.................................................................... 32
Gambar 3. 3 Perbandingan spektrogram audio original dan audio yang telah
dilakukan time shifting ....................................................................................... 34
dilakukan time stretching ................................................................................... 35
dilakukan Noise Addition ................................................................................... 35
Gambar 3. 6 Diagram alir proses mengubah sinyal suara menjadi gambar ........ 35
Gambar 3. 7 Pembagian data untuk proses validasi model[2] ............................ 36
Gambar 3. 8 Model Pelatihan ........................................................................... 37
Gambar 4. 1 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar audio signal amplitude ............................. 42
terhadap epoch dengan input gambar Spektrogram............................................. 43
xii
terhadap epoch dengan input gambar MFCC ...................................................... 43
Gambar 4. 4 Contoh Hasil Klasifikasi Data Uji (a) Suara normal yang
diklasifikasikan dengan benar sebagai suara normal, (b) Suara normal yang
diklasifikasikan dengan salah sebagai suara sakit, (c) Suara sakit yang
diklasifikasikan dengan benar sebagai suara sakit, (d) Suara sakit yang
diklasifikasi dengan salah sebagai suara normal ................................................. 51
Gambar 4. 5 Ilustrasi Hubungan Presisi dan Recall ........................................... 52
xiii
DAFTAR TABEL
Tabel 2. 1 Subsistem dalam produksi suara [4]. ................................................. 20

Tabel 3. 1 Proses Confusion Matrix ................................................................... 40
Tabel 4. 1 Pengaruh Input Visualisasi Audio terhadap Akurasi Model ............... 44
Tabel 4. 2 Pengaruh Dimensi Input terhadap Akurasi Model ............................. 45
Tabel 4. 3 Pengaruh Ukuran Kernel Konvolusi terhadap Akurasi Model ........... 46
Tabel 4. 4 Pengaruh Jenis Pooling Layer terhadap Akurasi Model ..................... 47
Tabel 4. 5 Pengaruh Learning Rate terhadap Akurasi Model ............................. 47
Tabel 4. 6 Pengaruh Dropout terhadap Akurasi Model....................................... 48
Tabel 4. 7 Pengaruh Epoch terhadap Akurasi Model ......................................... 48
Tabel 4. 8 Perbandingan Sebelum dan Sesudah Tuning Parameter ..................... 49
Tabel 4. 9 Confusion Matrix pada Data Uji ....................................................... 51
xiv
BAB I
PENDAHULUAN
1.1 Latar Belakang Masalah
Kelainan pita suara adalah masalah anatomis atau fungsional yang

mempengaruhi pita suara. Untuk mengetahui kondisi pita suara pada tenggorokan
maka diperlukan pemeriksaan menggunakan laringoskopi. Kelainan pita suara
memiliki gejala yang bervariasi, diantaranya perubahan yang terjadi pada suara
normal seperti suara serak atau parau, suara lemah, dan breathy voice(juga disebut
suara bergumam, berbisik, dan desah)[1]. Suara yang dihasilkan oleh pasien dengan
kelainan pita suara dapat dijadikan salah satu alternatif dalam mendeteksi penyakit
kelainan pita suara dengan memanfaatkan machine learning.
Sistem diagnosa kelainan pita suara yang sudah ada dan digunakan untuk
klasifikasi kelainan pita suara yaitu pemeriksaan kondisi pita suara dengan
menggunakan laringoskop dan diklasifikasikan berdasarkan gambar pita suara oleh
dokter atau ahli. Sistem ini kemudian dikembangkan melalui penelitian tugas akhir
Aghfian (2019) yaitu pengklasifikasian kelainan pita suara berdasarkan gambar pita
suara dari laringoskopi oleh sistem secara langsung.
Pada penelitian yang dilakukan oleh Aghfian (2019) yaitu dengan judul
Rancang Bangun Alat Identifikasi Kelainan pada Pita Suara menggunakan
Pengolahan Citra dengan Metode Convolutional Neural Network berbasis
Raspberry Pi. Dari penelitian tersebut diperoleh tingkat akurasi sebesar 79,75%.
Pada penelitian tersebut, alat yang dirancang masih menggunakan metode invasive
untuk klasifikasi penyakit kelainan pita suara yaitu dengan memasukkan sebuah
alat pada tenggorokan untuk melihat keadaan pita suara. Pada penelitian ini juga
memerlukan bantuan ahli dalam proses penggunaannya[2].
Berdasarkan latar belakang tersebut, penelitian ini bertujuan untuk

mengembangkan metode diagnosa non-invasive untuk mendeteksi kelainan pita
suara. Dengan menggunakan metode ini dapat dilakukan pra-diagnosa pada
penderita penyakit kelainan pita suara tanpa memasukkan sebuah alat pada
tenggorokan. Penelitian ini menggunakan machine learning dengan metode CNN
berdasarkan sinyal suara yang dihasilkan oleh penderita kelainan pita suara. Hasil
15
16
dari penelitian ini diharapkan dapat digunakan untuk menganalisis sinyal suara
untuk deteksi penyakit kelainan pita suara sehingga dapat membantu dokter dalam
melakukan pra-diagnosa pada penderita penyakit kelainan pita suara dan
pengembangan teknologi machine learning dimasa yang akan datang.
1.2 Rumusan Masalah
Berdasarkan latar belakang diatas, maka rumusan masalah adalah sebagai

berikut :
1. Bagaimana susunan algoritma pemrograman yang digunakan untuk

menganalisis sinyal suara dengan menggunakan metode convolutional
neural network?
2. Bagaimana tingkat akurasi dari hasil analisis sinyal suara untuk deteksi
kelainan pita suara menggunakan metode convolutional neural network?
1.3 Tujuan dan Manfaat
Adapun tujuan dan manfaat dari penelitian ini antara lain:
1. Mengetahui susunan algoritma pemrograman yang digunakan untuk

menganalisis sinyal suara dengan menggunakan metode convolutional
neural network
2. Mengetahui tingkat akurasi dari hasil analisis sinyal suara untuk deteksi
kelainan pita suara menggunakan metode convolutional neural network
Adapun manfaat dari penelitian ini antara lain:
1. Hasil penelitian dapat membantu dokter dalam melakukan pra-diagnosa

atau diagnosa awal dari kelainan pita suara
2. Algoritma pemrograman yang telah dibuat dapat digunakan dan

dimodifikasi kembali dengan menyesuaikan kebutuhan analisis suara.
1.4 Batasan Masalah
Adapun batasan masalah pada penelitian ini sebagai berikut:
1. sampel data suara berupa rekaman suara pasien yang mengucapkan vowel
/a/ secara kontinu dalam satu tarikan nafas
17
2. Data suara yang digunakan berasal dari arsip data kelainan pita suara yang
ada pada arsip laboratorium fisika komputasi prodi teknik fisika fakultas
teknik elektro dengan tipe data suara berupa tipe data .wav
3. Menggunakan bahasa pemrograman python dengan editor Jupyter

Notebook
1.5 Metode Penelitian
Metode penelitian yang digunakan pada penelitian ini yaitu :
1. Studi Literatur
Bertujuan untuk mempelajari teori-teori yang digunakan untuk menunjang

penelitian yang dilakukan pada tugas akhir yang bersumber dari berbagai
referensi berupa jurnal, skripsi, thesis, video pembelajaran, dan berbagai
sumber yang mendukung. Langkah tersebut dilaksanakan dalam bentuk:
a. Mempelajari Bahasa pemrograman Python 3
b. Mempelajari konsep visualisasi audio
c. Mempelajari teori Image Processing
d. Mempelajari teori Convolutional Neural Network (CNN)
e. Mempelajari pengaruh parameter-parameter pada CNN
f. Mempelajari berupa jurnal, skripsi, thesis, video pembelajaran, dan

berbagai sumber yang mendukung terkait Python, Image Processing,
dan CNN
2. Pengumpulan data
Bertujuan untuk memperoleh data suara yang akan digunakan sebagai data
latih dan data uji yang didapatkan dari perekaman suara pasien dengan
mengucapkan vowel /a/ secara kontinu dalam satu tarikan nafas(sustained
phonation). Data perekaman sebagian besar menggunakan data perekeman
yang telah diambil pada penelitian sebelumnya dan juga dapat diperoleh
secara langsung dengan melakukan perekaman suara pada pasien di rumah
sakit ataupun pasien melakukan rekaman langsung pada aplikasi
berdasarkan hasil diagnosa dokter. Aplikasi yang digunakan untuk merekam
suara adalah aplikasi voice recorder dan disimpan dengan tipe data .wav.
18
3. Pengolahan data
Data suara yang diperoleh diolah dan dianalisis dengan algoritma untuk
mengubah data suara menjadi citra digital dan diolah kembali untuk
diklasifikasi menggunakan metode convolutional neural network dengan
menggunakan bahasa pemrograman python dalam menyusun algoritma
untuk mengolah datanya.
4. Simpulan dan pembuatan laporan
Pada tahapan ini yaitu dilakukan analisis hasil akurasi data data yang telah
diolah dan membuat laporan dengan menjelaskan secara detail berdasarkan
dari hasil analisis tersebut.
BAB II
TINJAUAN PUSTAKA
2.1 Proses Pembentukan Suara
Pita suara menghasilkan suara saat kedua pita suara bersatu dan bergetar saat
udara melewatinya saat menghembuskan udara dari paru-paru. Getaran inilah yang
menghasilkan suara pada manusia. Untuk mendapatkan getaran pada pita suara
yang normal diperlukan beberapa kemampuan yaitu kemampuan menutup rapat,
kelenturan, ketegangan yang tepat, dan massa yang tepat [3].
Proses terjadinya getaran suara berdasarkan gambar 2.1 yaitu (1) Tekanan
udara bergerak ke atas pita suara yang berada dalam posisi tertutup; (2-3) Tekanan
udara membuka lapisan getar bagian bawah dari pita suara, posisi pita suara dalam
posisi tetap; (4-5) Tekanan udara terus bergerak ke atas sehingga bagian atas dari
pita suara terbuka; (6-9) Tekanan yang lemah tercipta di balik kolom udara yang
bergerak cepat menghasilkan “efek bernoulli” yang menyebabkan bagian bawah
menutup, diikuti oleh bagian atas; (10) Penutupan pita suara menyebabkan
berhentinya kolom udara[4].
Gambar 2. 1 Proses terjadinya getaran pita suara [4].

Subsistem dalam produksi suara dibagi menjadi tiga yaitu sistem tekanan
udara, sistem vibrasi, dan sistem resonansi. Dalam subsistem tersebut memiliki
organ yang berperan menghasilkan suara dengan peran yang berbeda-beda dalam
proses produksi suara. Peran dari organ tersebut dapat dilihat pada tabel 2.1.
19
20
Tabel 2. 1 Subsistem dalam produksi suara [4].
Subsistem Organ suara Peran dalam produksi suara
Sistem tekanan udara Diafragma, otot dada, Menyediakan dan mengatur

dan tulang rusuk tekanan udara agar pita
suara dapat bergetar
Sistem vibrasi Laring Pita suara bergetar,

perubahan tekanan udara
memproduksi gelombang
suara yang disebut voiced
sound yang digambarkan
sebagai buzzy sound
Pita suara Terjadi perubahan pitch

suara
Sistem resonansi Saluran suara : Perubahan buzzy sound

tenggorokan(faring), menjadi suara yang dapat
rongga mulut, dan dikenali
saluran hidung
Gambar 2. 2 Subsistem penghasil suara [3].

21
2.2 Kelainan Pita Suara
Kelainan pita suara merupakan kondisi yang terjadi akibat adanya perubahan
yang terjadi pada pita suara. Adanya perubahan kondisi mengakibatkan suara yang
dihasilkan akan berubah yang ditandai dengan gejala yang bervariasi. Gejala yang
terjadi akibat kelainan pita suara diantaranya perubahan yang terjadi pada suara
normal seperti suara serak atau parau, suara lemah, dan breathy voice(juga disebut
suara bergumam, berbisik, dan desah)[1]. Suara tersebut dapat berubah karena
perubahan kondisi atau kelainan pada pita suara ataupun organ lain disekitarnya.
Pada Gambar 2.3 menunjukkan gambar kelainan pita suara dan dapat dilihat
perubahan kondisi yang terjadi pada pita suara.
Gambar 2. 3 Kondisi kelainan pita suara dengan perubahan yang terjadi [5].
Kelainan pita suara ini paling umum disebabkan dari penyalahgunaan
vokal(suara) diantaranya penggunaan suara yang berlebihan saat bernyanyi,
berbicara, batuk, ataupun berteriak. Penyebab lain juga yaitu virus, merokok dan
menghirup udara yang dapat merusak pita suara[1].
2.3 Waveform
Waveform atau sering juga disebut WAV adalah format standar dari berkas
audio yang dikembangkan oleh Microsoft dan IBM. WAV ini merupakan varian
dari format bitstream RIFF dengan format yang mirip dengan format AIFF Apple
untuk menyimpan data[6].
WAV biasanya digunakan untuk menyimpan audio dengan suara yang

berkualitas. Hal tersebut dikarenakan format suara dengan WAV menyimpan data
22
audio tanpa dikompres sehingga data audio yang tersimpan adalah data asli tanpa
perubahan. Ukuran file dengan format WAV cukup besar dibandingkan dengan
format lainnya, sekitar 10MB per menit.
2.4 Augmentation Audio Data
Augmentasi adalah sebuah proses untuk memperbanyak data dengan

melakukan modifikasi data sedemikian rupa sehingga komputer mendeteksi bahwa
data yang telah dimodifikasi adalah data yang berbeda. Augmentasi data ini juga
disebut dengan teknik manipulasi data tanpa kehilangan inti atau esensi dari data
tersebut. Melakukan augmentasi adalah salah satu langkah yang dilakukan untuk
mencegah terjadinya kondisi overfitting.Contoh augmentasi pada sebuah data audio
dengan melakukan penambahan noise, time shifting, time stretching, speed tuning,
pitch shifting, dan lain-lain[7].
2.5 Pengolahan Citra Digital
Pengolahan citra atau image processing adalah suatu sistem dimana proses
dilakukan dengan masuk input berupa citra dan hasilnya (output) juga berupa citra
(image)[8]. Pengolahan citra digital pada umumnya didefinisikan sebagai
pemrosesan citra dengan dua dimensi pada komputer. Pengolahan citra memiliki
fungsi antara lain untuk meningkatkan kualitas citra, menghilangkan cacat pada
citra, mengidentifikasi objek, penggabungan dengan bagian citra yang lain.
Berdasarkan hal tersebut pengolahan gambar dapat dikategorikan dalam beberapa
hal yaitu image enhancement, image restoration, image compression, image
segmentation, image analysis, dan image reconstruction[9]. Pada gambar 2.4 dapat
dilihat salah satu contoh penerapan image processing deteksi gambar.
Gambar 2. 4 Contoh penerapan image processing deteksi gambar[11]

23
2.6 Convolutional Neural Network (CNN)
Convolutional neural network (CNN) adalah salah satu kelas deep learning
yaitu deep feed-forward artificial neural network yang diterapkan untuk
menganalisis citra visual [12]. Arsitektur CNN dibagi menjadi dua bagian yaitu
feature extraction/feature learning dan classification layer. Feature extraction
melakukan “encoding” gambar menjadi features berupa angka yang akan
mempresentasikan gambar tersebut [13] ke tahap classification yang nantinya
akan mengeluarkan prediksi dari hasil yang telah dianalisis.
Gambar 2. 5 Proses Convolutional Neural Network [13]

Gambar 2.5 diatas menunjukkan proses pada convolutional neural network.
Pada CNN terdapat 6 lapisan pembangun yaitu 3 lapisan pada feature extraction
layer: convolutional layer, pooling layer, rectified linear units layer, dan 3 lapisan
pada classification layer yaitu flatten, fully connected layer, dan softmax.
2.6.1 Feature Extraction
a. Convolutional Layer
Lapisan konvolusi merupakan lapisan utama yang pada CNN. Konvolusi

digunakan pada data input dengan menggunakan filter/kernel yang kemudian akan
menghasilkan fitur map. Konvolusi dijalankan dengan menggeser filter/kernel
sesuai dengan stride dan padding yang telah ditentukan. Stride adalah parameter
yang menentukan banyaknya pergeseran dari filter [13]. Padding adalah
parameter yang menentukan jumlah pixels yang berisi nilai 0 dan ditambahkan di
setiap sisi pada input [13]. Hasil operasi dari lapisan konvolusi ini akan
menghasilkan dimensi pixels yang lebih kecil dibandingkan dari input
sebelumnya.
24
Weight Proses Konvolusi Hasil Konvolusi

Input gambar
Gambar 2. 6 Contoh operasi konvolusi dengan stride 1
Pada gambar 2.6 diatas menunjukkan operasi konvolusi (kotak hijau) = 1x1
+ 1x0 + 1x1 + 0x0 + 1x1 + 1x0 + 0x1 + 0x0 + 1x1 = 4. Operasi konvolusi dimulai
dari kiri atas dan kernel digeser sesuai dengan stride yang telah ditentukan dan
dilakukan kembali operasi konvolusi hingga kernel mencapai kanan bawah atau
posisi akhir input gambar.
b. Pooling Layer
Fungsi pooling adalah untuk mereduksi dimensionalitas secara terus-

menerus untuk mengurangi jumlah parameter dan komputasi dalam jaringan [14].
Proses pada lapisan ini dapat mempersingkat waktu pelatihan dan dapat
mengontrol overfitting. Ada dua pooling layer yaitu maximum pooling layer dan
average pooling layer.
1) Maximum Pooling Layer
Maximum pooling layer adalah pooling layer yang paling umum

digunakan. Maximum pooling layer mengambil nilai maksimum pada kernel
sebagai keluarannya. Contoh operasi max pooling dapat dilihat pada gambar 2.7
dibawah.
Gambar 2. 7 Contoh operasi max pooling [14]

25
2) Average Pooling Layer
Average pooling layer memiliki konsep yang sama dengan max pooling.
Perbedaannya pada average pooling layer mengambil nilai rata-rata pada kernel
sebagai keluarannya.
c. Rectified Linear Unit (ReLU)
ReLU merupakan salah satu fungsi aktivasi yang berfungsi untuk

meningkatkan sifat nonlinearitas fungsi keputusan dan jaringan secara
keseluruhan tanpa mengurangi bidang reseptif pada lapisan konvolusi [15].
Dengan memberikan output 0 jika input negatif atau nol, dan jika input positif,
maka output akan sama dengan input. Grafik fungsi rectified linear unit(RelU)
dapat dilihat pada Gambar 2.8 dibawah.
f(x) = max(0,x)
Gambar 2. 8 Fungsi Rectified Linear Unit [14]
2.6.2 Classification
a. Flattened
Proses flattened berfungsi untuk mengubah data dari fitur map yang berupa
3 dimensi volume menjadi 1 dimensi vector. Untuk menjadikan 1 dimensi data
akan diambil dari kiri ke kanan lalu turun pada baris berikutnya dan disusun atau
dijajarkan dari kiri ke kanan dalam satu baris hingga data terakhir. Contoh operasi
flatten dapat dilihat pada gambar 2.9 dibawah.
26
Flattened
Max pooling
Gambar 2. 9 Contoh operasi flatten
b. Fully-connected Layer
Fully-connected layer adalah lapisan yang memiliki kesamaan dengan multi

layer perceptron (MLP). Pada lapisan ini dilakukan perkalian matriks yang diikuti
dengan bias offset [16]. Pada proses ini tiap nilai yang telah diubah menjadi satu
dimensi akan dihubungkan dengan setiap neuron.
c. Sigmoid function
Fungsi aktivasi sigmoid adalah fungsi aktivasi non linear dengan masukan
berupa bilangan real.Fungsi ini mentransformasikan range nilai dari input x
menjadi antara 0 dan 1 dengan bentuk distribusi[17] seperti pada gambar 2.10
dibawah.
Gambar 2. 10 Fungsi aktivasi sigmoid[17]

Jika input suatu node pada neural network berupa nilai negatif maka output
yang didapatkan adalah nol dan jika input node pada neural network berupa nilai
positif maka output yang didapatkan adalah satu. Fungsi ini memiliki kelemahan
yaitu sigmoid dapat menutup gradien, ketika aktivasi neuron menghasilkan nilai
dalam kisaran 0 atau 1, gradien di wilayah hampir 0. Maka keluaran dari sigmoid
tidak zero-centered atau berpusat pada nol[18]
27
d. Dropout
Dropout merupakan salah satu teknik yang digunakan untuk mencegah
overfitting. Gambar 2.11 dibawah menunjukkan terjadinya overfitting, overfitting
ini dapat terjadi ketika nilai error training dan validasi terlampau jauh seperti satu
neuron memiliki nilai error/loss yang sangat besar dan satu lagi memiliki nilai
yang sangat kecil secara continue. Hal tersebut dapat diartikan bahwa model tidak
dapat mengenali ciri objek.
Gambar 2. 11 overfitting[19]
Dropout memungkinkan memilih secara acak neuron untuk tidak digunakan
selama training data. Gambar 2.12 dibawah menunjukkan contoh dari
penggunaan teknik dropout.
Gambar 2. 12 Contoh penggunaan dropout[10]
2.7 Visualisasi Audio
Untuk mengklasifikasi sebuah audio dengan menggunakan CNN maka

perlu untuk mengubah audio tersebut dalam bentuk gambar. Beberapa visualisasi
28
audio yang umum digunakan yaitu Audio Signal Amplitude, Spektrogram, dan
MFCC.
2.7.1 Audio Signal Amplitude
Audio adalah istilah yang lebih umum digunakan daripada suara. Audio
mencakup sinyal yang bergerak dari getaran suara, dan juga mencakup berbagai
bentuk lain yang dapat ditangkap oleh sinyal[20]. Getaran yang dihasilkan oleh
suara menghasilkan karakteristik penting dan dapat divisualisasikan dalam bentuk
audio signal amplitude. Visualisasi dalam bentuk audio signal amplitude dapat
dilihat pada gambar 2.13 dengan sumbu horizontal adalah waktu dalam satuan
detik dan sumbu vertikal adalah amplitudo dalam satuan meter.
Amplitudo (m)
Waktu (s)
Gambar 2. 13 Sinyal suara dalam visualisasi audio signal amplitude
2.7.2 Spektrogram
Spektrogram adalah cara visual untuk merepresentasikan kekuatan sinyal,

atau “kenyaringan”, sinyal dari waktu ke waktu pada berbagai frekuensi yang ada
dalam bentuk gelombang tertentu [21]. Teknik ini digunakan untuk mengubah
sinyal dari time domain menjadi time-frequency domain. Pada Gambar 2.14
dibawah, grafik spektrogram sumbu horizontal mewakili waktu berjalan dalam
satuan detik dan sumbu vertikal mewakili frekuensi yang juga dianggap sebagai
pitch atau tone dalam satuan Hertz. Amplitudo dari frekuensi tertentu diwakili
oleh dimensi ketiga yaitu warna, dengan warna gelap mewakili amplitudo rendah
dan warna yang lebih cerah hingga mewakili amplitudo yang semakin tinggi
dalam satuan Desibel.
29
Frekuensi (Hz)
Waktu (s)
Gambar 2. 14 Sinyal suara dalam visualisasi Spektrogram

Spektrogram dapat juga disebut short-time Fourier transform (STFT)
karena melakukan transformasi Fourier pada interval ketika sinyal dianggap diam.
STFT dapat dirumuskan pada persamaan 2.1 sebagai berikut :
∞
𝑋(𝑡, 𝑓) = ∫∞ 𝑥(𝜏)𝑤(𝑡 − 𝜏)𝑒 −𝑗𝜋𝑚𝑓𝜏 𝑑𝜏 (2.1)
Dimana w(t−𝜏) adalah fungsi jendela yang digunakan untuk melakukan

filter dan pemotongan sinyal. Panjang fungsi dapat mempengaruhi resolusi waktu
dan frekuensi pada spektrogram[8]
2.7.3 MFCC
MFCC(Mel Frequency Cepstral Coefficients) adalah satu set kecil fitur

yang dapat menggambarkan secara ringkas bentuk keseluruhan dari spectral
envelope[22]. MFCC merupakan salah satu metode yang cukup banyak
digunakan dalam bidang speech technology. Metode MFCC digunakan untuk
melakukan feature extraction, sebuah proses dengan mengkonversi sinyal suara
menjadi beberapa parameter[23]. Visualisasi suara dengan metode MFCC dapat
dilihat pada Gambar 2.14 dengan sumbu horizontal adalah waktu dalam satuan
detik dan sumbu vertikal adalah koefisien MFCC.
30
Koefisien MFCC
Waktu (s)
Gambar 2. 15 Sinyal suara dalam visualisasi MFCC

BAB III
METODE PENELITIAN
Pada penelitian ini bertujuan untuk menganalisis sinyal suara untuk

mendeteksi kelainan pita suara berbasis python dengan mengolah citra digital
dengan menggunakan metode Convolutional Neural Network(CNN). Untuk
mencapai tujuan tersebut tahapan-tahapan dalam penelitian akan dijelaskan pada
bab ini.
3.1 Skema Umum Penelitian
Secara garis besar tahapan yang dilakukan dalam penelitian ini dapat dilihat
pada Gambar 3.1 di bawah. Perekaman suara pasien dengan menggunakan aplikasi
rekam suara pada smartphone. Data yang telah diperoleh disimpan dalam tipe data
.wav yang kemudian diubah menjadi gambar untuk diklasifikasi dengan
menggunakan algoritma convolutional neural network berdasarkan parameter yang
telah ditentukan.
Sehat
Sakit
Gambar 3. 1 Skema umum penelitian
3.2 Diagram Pengolahan Data
Pada penelitian ini pengolahan data merupakan hal yang utama. Keberhasilan
dari penelitian sangat ditentukan oleh hasil pengolahan data berdasarkan arsitektur
yang digunakan dan juga parameter-parameter lainnya. Pada penelitian ini data
yang digunakan dapat diambil dari arsip data kelainan pita suara yang ada pada
arsip laboratorium fisika komputasi prodi teknik fisika fakultas teknik elektro yang
data tersebut bersumber dari data penelitian sebelumnya serta dari laboratorium-
laboratorium yang telah melakukan kerjasama dengan laboratorium fisika
komputasi. Data juga dapat bersumber dari pengambilan data suara secara
langsung sesuai dengan prosedur yang telah ditetapkan. Pengambilan data secara
31
32
langsung hanya dilakukan jika memungkinkan dengan menyesuaikan dengan

kondisi pandemi COVID19. Alur pengolahan data dapat dilihat pada Gambar 3.2
dibawah.
Gambar 3. 2 Alur pengolahan data

Pada pengolahan data, data suara yang diperoleh dilakukan pra proses. Pra
proses ini dilakukan agar komputer dapat memahami data yang diberikan.
Kemudian, dilakukan augmentasi data untuk menambah varian data pada saat
proses pelatihan model. Data suara diolah menjadi data gambar untuk digunakan
dalam pelatihan dan pengujian data. Sebelum melakukan pengujian data dilakukan
33
pencarian parameter model yang optimal terlebih dahulu. Ketika model sudah
optimal maka selanjutnya dilakukan pengujian data. Data dianalisis hingga
diperoleh hasil akurasi dari pengujian. Proses pengolahan data akan dijelaskan lebih
lanjut pada bab 3.3.
3.3 Persiapan dan Pengolahan Data
Pada penelitian ini dibuat sebuah algoritma pemrograman yang dapat

digunakan untuk mengklasifikasi kelainan pita suara dengan menggunakan metode
CNN.
3.3.1 Tahap Persiapan
Sebelum melakukan perekaman, pasien diminta kesediaan untuk direkam

suaranya untuk dijadikan data dalam penelitian. Kemudian, diberi penjelasan
terkait prosedur dalam perekaman yang dilakukan.
3.3.2 Tahap Pengumpulan Data Suara
Data suara yang digunakan merupakan data hasil perekaman suara yang
dimiliki oleh laboratorium fisika komputasi serta suara yang dikirimkan oleh
partisipan dengan format .wav. Hasil perekaman ini digunakan secara langsung
tanpa dilakukan filterisasi data audio terlebih dahulu.
Partisipan diminta mengucapkan vowel /a/ secara kontinu dalam satu tarikan
nafas (sustained phonation). Sustained phonation atau fonasi berkelanjutan ini
dilakukan dengan maksud agar suara yang dihasilkan stabil.
3.3.3 Tahap Pengolahan
a. Pra proses
Pra proses pada tahap ini yaitu penggabungan seluruh data suara yang telah
diambil. Data hasil perekaman disimpan dengan format .wav(waveform audio
format) pada sebuah folder berdasarkan kelainan pita suara yang diderita. Proses
ini memiliki tujuan agar komputer dapat memahami data yang diberikan. Tahap
ini mempermudah dalam pengolahan data pada tahap selanjutnya.
34
b. Augmentasi Data
Untuk mencegah terjadinya overfitting maka dilakukan proses augmentasi data

terlebih dahulu. Proses augmentasi audio yang dilakukan pada penelitian ini yaitu
time shifting, time stretching, dan noise addition.
Time shifting adalah pergeseran waktu dalam audio dengan penambahan delay
pada awal audio. Untuk lebih jelasnya dapat dilihat pada gambar 3.3 dibawah yang
menunjukkan adanya pergeseran audio pada waktu tertentu. Dengan grafik
spektrogram sumbu horizontal mewakili waktu berjalan dalam satuan detik dan
sumbu vertikal mewakili frekuensi dalam satuan Hertz.
Frekuensi (Hz)
Waktu (s)

dilakukan time shifting
Time stretching adalah peregangan waktu pada audio dengan memperpanjang

atau memperpendek durasi sampel atau suara tanpa mengubah karakteristik
nadanya. Pada gambar 3.4 dibawah menunjukkan time stretching dengan
perpanjangan durasi audio. Dengan grafik spektrogram sumbu horizontal mewakili
waktu berjalan dalam satuan detik dan sumbu vertikal mewakili frekuensi dalam
satuan Hertz.
35
Frekuensi (Hz)
Waktu (s)

dilakukan time stretching
Noise Addition adalah penambahan atau penggabungan noise pada sebuah

audio. Pada penelitian ini noise yang digunakan berupa suara hujan. Gambar 3.5
dibawah menunjukkan adanya perbedaan amplitudo pada audio asli dan audio yang
telah ditambahkan noise. Dengan grafik spektrogram sumbu horizontal mewakili
waktu berjalan dalam satuan detik dan sumbu vertikal mewakili frekuensi dalam
satuan Hertz
Frekuensi (Hz)
Waktu (s)
dilakukan Noise Addition
c. Mengubah Data Suara menjadi Data Gambar

Tahap mengubah sinyal suara menjadi sebuah gambar yang digunakan dalam
proses pelatihan dan pengujian data.
Gambar 3. 6 Diagram alir proses mengubah sinyal suara menjadi gambar

36
Berdasarkan Gambar 3.6 diatas,data suara atau audio yang telah dilakukan pra
proses dan augmentasi data dikonversi menjadi sebuah gambar. Pada penelitian ini
mengubah data suara dalam tiga bentuk visualisasi audio yaitu audio signal
amplitude, spektrogram, dan MFCC. Ketiga visualisasi audio tersebut biasa
digunakan untuk representasi sinyal yang berbentuk 1D menjadi sinyal 2D. Sinyal
suara diubah menjadi gambar karena algoritma dalam pembelajaran CNN memiliki
kinerja yang lebih baik pada klasifikasi citra 2D. Dari ketiga visualisasi gambar
tersebut hanya digunakan salah satu untuk disimpan dalam model CNN untuk
klasifikasi suara berdasarkan perbandingan akurasi tertinggi.
d. Pembagian Data
Dalam pembentukan suatu model validasi sangat diperlukan supaya model

dapat menggeneralisasi data-data baru yang sebelumnya belum dilatih. Teknik
validasi yang digunakan yaitu hold-out. Hold-out membagi data dalam tiga bagian
yaitu data latih, data validasi, dan data uji, hal ini terlihat pada Gambar 3.7 di bawah.
Gambar 3. 7 Pembagian data untuk proses validasi model[2]
Data yang digunakan selama proses training adalah data latih dan data validasi.
Data latih digunakan untuk membentuk suatu model yang tepat. Data validasi
digunakan untuk memvalidasi suatu model selama proses training masih
berlangsung. Data uji digunakan untuk mengetahui kinerja dari model dengan
menggunakan data yang belum pernah dilihat sebelumnya atau belum digunakan
pada pelatihan data.
37
Data yang digunakan yaitu semua data suara kelainan pita suara yang telah ada
pada laboratorium dan beberapa data suara yang diambil dari perekaman melalui
smartphone. Dengan total data suara sebanyak 335 dengan 126 data suara
normal/sehat dan 209 data suara sakit. Untuk mencegah overfitting dilakukan
augmentasi data audio dengan time shifting, time stretching, dan noise addition
sehingga total data suara sebanyak 1.256 dengan 629 data suara normal/sehat dan
627 data suara sakit pembagian data latih sebanyak 800 data validasi sebanyak 200,
dan data tes sebanyak 256.
e. Model Pelatihan
Gambar 3.8 dibawah adalah model sistem CNN yang digunakan untuk
klasifikasi kelainan pita suara pada penelitian ini. Model yang digunakan pada
Fully Connected Layer
Resize 3 x 3 Conv 32
150 x 150 px
Dropout 0,5
Max Pooling
3 x 3 Conv 64 Sigmoid
Max Pooling
Output
Dropout 0.25
Normal/Sehat Sakit
Gambar 3. 8 Model Pelatihan
pelatihan adalah gabungan dari model yang digunakan oleh youtubers When Maths
Meet Coding dengan arsitektur yang digunakan adalah modifikasi dari arsitektur
LeNet 5[24] dan model yang digunakan oleh Rishi Sidhu untuk klasifikasi spoken
digit dengan validasi akurasi mencapai 97%[25]. Dan dilakukan modifikasi
kembali berdasarkan training data untuk mencari parameter yang optimal.
Keputusan untuk menggabungan 2 model tersebut berdasarkan percobaan training
data dengan mencari akurasi tertinggi. Pada model pelatihan terdapat 3 tahapan,
yaitu input, feature extraction dan klasifikasi dengan beberapa parameter yang
dapat di tuning untuk mengetahui perbandingan akurasi yang bagus.
38
Data input berupa data suara yang telah diubah menjadi gambar yang terdiri
dari data sehat dan data sakit. Input akan melalui proses resize menjadi 150 x 150
pixel. Ukuran input mempengaruhi banyaknya informasi yang masuk untuk diolah
pada model sehingga dapat berpengaruh pada nilai akurasi dari model. Selanjutnya
input data yang telah dilakukan resize melalui konvolusi, aktivasi ReL-U, pooling,
fully connected layer, hingga klasifikasi.
f. Pelatihan Data dan Pengujian Data
Sebelum memasuki tahap tuning parameter dilakukan penentuan visualisasi

audio yang digunakan dalam tahap tuning parameter. Penentuan visualisasi audio
ditentukan berdasarkan akurasi validasi tertinggi dan loss validasi terendah. Tahap
pelatihan data dilakukan dengan melakukan tuning parameter karena parameter-
parameter yang digunakan pada pelatihan dapat mempengaruhi performa atau
akurasi dari suatu model. Pada penelitian ini dilakukan tuning parameter dengan
tujuan untuk menghasilkan arsitektur model yang paling optimal dalam proses
training. Parameter-parameter yang diubah yaitu dimensi input, ukuran kernel
konvolusi, jenis pooling layer, dropout, dan epoch.
Dimensi input, tujuannya adalah untuk mengetahui pengaruh dimensi pada

performa model. Dengan variabel peubah dari dimensi input yaitu 50 x 50, 100 x
100, 150 x 150 dan variabel tetap yaitu ukuran kernel konvolusi 3 x 3, jenis pooling
layer max pooling, learning rate 0.001, menggunakan dropout, dan epoch 50. Cara
pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.
Ukuran kernel konvolusi, tujuannya yaitu untuk mengetahui pengaruh ukuran

kernel konvolusi pada performa model. Dengan variabel peubah dari ukuran kernel
konvolusi yaitu 3 x 3, 5 x 5, 7 x 7 dan variabel tetap yaitu dimensi input 150 x 150
yang merupakan parameter dengan akurasi tertinggi dari percobaan sebelumnya,
jenis pooling layer max pooling, learning rate 0.001, menggunakan dropout, dan
epoch 50. Cara pengukurannya dengan membandingkan nilai validasi akurasi
masing-masing percobaan.
Jenis pooling layer, tujuannya untuk mengetahui pengaruh jenis pooling layer
pada performa model. Dengan variabel peubah dari jenis pooling layer yaitu
39
maximum dan average dan variabel tetap yaitu dimensi input 150 x 150 dan ukuran
kernel konvolusi 3 x 3 yang merupakan parameter dengan akurasi tertinggi dari
percobaan sebelumnya, learning rate 0.001, menggunakan dropout, dan epoch 50.
Cara pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.
Learning Rate, tujuannya untuk mengetahui pengaruh jenis pooling layer pada
performa model. Dengan variabel peubah yaitu learning rate : 0.01, 0.001, dan
0.0001 dan variabel tetap yaitu dimensi input 150 x 150, ukuran kernel konvolusi 3
x 3, dan jenis pooling layer max pooling yang merupakan parameter dengan akurasi
tertinggi dari percobaan sebelumnya, menggunakan dropout, dan epoch 50. Cara
percobaan.
Dropout , tujuannya untuk mengetahui pengaruh dropout pada performa

model. Dengan variabel peubah yaitu menggunakan dropout dan tidak
menggunakan dropout dan variabel tetap yaitu dimensi input 150 x 150, ukuran
kernel konvolusi 3 x 3, jenis pooling layer max pooling, dan learning rate 0.001
yang merupakan parameter dengan akurasi tertinggi dari percobaan sebelumnya,
dan epoch 50. Cara pengukurannya dengan membandingkan nilai validasi akurasi
masing-masing percobaan
Epoch, tujuannya untuk mengetahui pengaruh epoch pada performa model.

Dengan variabel peubah dari epoch yaitu 50, 100, dan 150 dan variabel tetap yaitu
dimensi input 150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling layer max
pooling, learning rate 0.001, dan menggunakan dropout yang merupakan
parameter dengan akurasi tertinggi dari percobaan sebelumnya. Cara
percobaan
Setelah parameter yang paling optimal telah ditemukan maka model dapat
disimpan dan digunakan kembali pada tahap pengujian. Model juga dapat langsung
digunakan tanpa disimpan terlebih dahulu. Pada tahap pengujian atau evaluasi data
input yang diberikan merupakan data pengujian yang memiliki spesifikasi serupa
dengan data latih lalu output dari pengujian berupa hasil klasifikasi. Data yang
digunakan merupakan data yang sebelumnya belum pernah digunakan pada
40
pelatihan data. Proses ini menghasilkan prediksi klasifikasi dari input yang
diberikan, hasil prediksi berupa label gambar yang sesuai atau tidak sesuai dengan
label asli.
3.3.4 Performansi Sistem
Setelah melalui tahap training data dan validation data, maka tahap
selanjutnya dapat dilakukan performansi sistem pada tahap pengujian. Performansi
sistem memiliki parameter yaitu akurasi, presisi, dan recall dengan menggunakan
Confusion Matrix untuk membantu pengukuran parameternya.
a. Confusion Matrix
Confusion matrix merupakan suatu alat ukur yang dapat digunakan untuk
menghitung performansi atau derajat kebenaran dalam proses klasifikasi.
Confusion Matrix dapat digunakan untuk mendapatkan nilai akurasi, presisi, dan
recall. Dengan confusion matrix dapat diketahui seberapa baik classifier
menganalisa/mengenali tiap kelas yang ada. Tabel proses confusion matrix dapat
dilihat pada tabel 3.1 dibawah[26].
Tabel 3. 1 Proses Confusion Matrix
Prediksi Positif Negatif
Aktual
Positif TP FN
Negatif FP TN
Keterangan : - TP(True Positive) merupakan data positif yang klasifikasikan

dengan benar(positif)
- FP(False Positive) merupakan data positif yang klasifikasikan

dengan salah(negatif)
- TN(True Negative) merupakan data negatif yang diklasifikasikan

dengan benar(negatif)
- FN(False Negative) merupakan data negatif yang klasifikasikan

dengan salah(positif)
41
b. Akurasi
Akurasi adalah penggambaran nilai prediksi benar dari keseluruhan data.

Akurasi memiliki rentang nilai 0 hingga 1 dan diubah dalam bentuk persentase.
Semakin tinggi nilai persentase akurasi, maka dapat dikatakan bahwa algoritma
yang digunakan pada sistem tersebut juga semakin bagus. Untuk mengetahui nilai
akurasi dapat digunakan persamaan 3.1 dibawah ini[27]
𝑇𝑃 + 𝑇𝑁
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (3.1)
c. Presisi
Presisi adalah deskripsi tentang seberapa akurat suatu model yang

memprediksi kejadian positif dalam sebuah prediksi. Untuk mengetahui nilai
presisi yaitu melakukan uji presisi dengan membagi jumlah data positif yang
diklasifikasikan dengan benar dengan total jumlah data positif yang diklasifikasikan
dengan benar maupun salah. Persamaan nilai presisi dapat dilihat pada Persamaan
3.2 [26].
𝑇𝑃
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = 𝑇𝑃+𝐹𝑃 (3.2)
d. Recall
Recall ditujukan untuk mengetahui tingkat keberhasilan model dalam

mengklasifikasikan data dengan benar saat diidentifikasi. Persamaannya recall
dapat dilihat pada persamaan 3.3 [27].
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃+𝐹𝑁 (3.3)
BAB IV
ANALISIS DAN PEMBAHASAN
Pada bab ini dilakukan analisis data berdasarkan tuning parameter yang telah
dilakukan. Total data yang digunakan (termasuk data yang telah di augmentasi)
sebanyak 1.256 dengan 629 data suara normal/sehat dan 627 data suara sakit
pembagian data latih sebanyak 800 data validasi sebanyak 200, dan data tes
sebanyak 256.
4.1. Penentuan Visual Audio
Sinyal suara dapat direpresentasikan dalam berbagai bentuk diantaranya yaitu

audio signal amplitude, spektrogram, dan MFCC. Pada penelitian ini dilakukan
training dengan membandingkan akurasi validasi dan loss validasi tiap visual
audio. Parameter dengan akurasi validasi tertinggi dan loss validasi terendah yang
digunakan untuk tuning parameter untuk menentukan model yang optimal. Hasil
training dari ketiga visual audio yaitu audio signal amplitude, spektrogram, dan
MFCC dalam gambar grafik dibawah.
terhadap epoch dengan input gambar audio signal amplitude
42
43
terhadap epoch dengan input gambar Spektrogram
terhadap epoch dengan input gambar MFCC
Berdasarkan gambar grafik pada ketiga input visualisasi data , gambar 4.2
yaitu grafik spektrogram menunjukkan perbedaan nilai loss training dan loss
validasi yang tidak terlalu besar meskipun ada beberapa data yang memiliki
44
perbedaan nilai loss training dan loss validasi yang cukup besar akan tetapi itu tidak
berlangsung secara continue sehingga dapat dikatakan bahwa model tidak
mengalami overfitting.
Tabel 4. 1 Pengaruh Input Visualisasi Audio terhadap Akurasi Model
Visual Audio Waktu Latih Loss Validation Validation
(detik) Loss Akurasi
Audio Signal 571 0,2681 0,8039 78,5%

Amplitude
Spektrogram 614 0,0880 0,1380 95,5%
MFCC 563 0,2763 0,3323 86,0%
Pada tabel 4.1 dapat dilihat perbandingan hasil input gambar. Pada tabel
tersebut terlihat bahwa input dengan visualisasi spektrogram memiliki nilai akurasi
validasi tertinggi dan loss validasi terendah dibandingkan dengan input dengan
visualisasi audio signal amplitude dan MFCC. Hal tersebut menandakan
performansi dengan input visualisasi spektrogram lebih baik dibandingkan dengan
input visualisasi audio signal amplitude dan MFCC. Hal tersebut disebabkan dalam
proses training, model belum mampu menangkap karakteristik penting pada suara.
Training data dengan input dengan visualisasi spektrogram masih lebih baik dengan
tingkat akurasi validasi dari training data sebesar 95,5% dibandingkan dengan
penelitian sebelumnya dengan tingkat akurasi validasi dari training data sebesar
95,35%. Maka untuk training parameter model selanjutnya menggunakan input
dengan visualisasi spektrogram.
4.2. Penentuan Parameter Model CNN
Penentuan model CNN dengan melakukan tuning parameter yang telah

ditentukan sebelumnya untuk mendapatkan model yang optimal. Pada penelitian
ini input visual audio yang terpilih yaitu spektrogram. Dalam menentukan
parameter yang optimal peneliti melakukan kajian statistik dengan mengambil
parameter yang memiliki akurasi validasi tertinggi dan loss validasi terendah. Jika
45
nilai akurasi validasi dan nilai validasi terendah serta loss sama atau tidak berbeda
jauh maka yang diambil adalah yang memiliki waktu latih paling sedikit. Parameter
yang di tuning yaitu dimensi input, ukuran kernel konvolusi, jenis pooling layer,
learning rate, dropout, dan epoch.
4.2.1 Pengaruh Dimensi Input
Banyaknya informasi yang masuk untuk diolah pada model dapat dipengaruhi
oleh dimensi input sehingga dapat berpengaruh pada nilai akurasi dari model.
Informasi yang sangat sedikit tidak baik karena memungkinkan kehilangan
informasi penting pada gambar. Informasi yang sangat banyak tidak baik pula
karena dapat membuat nilai komputasi semakin tinggi dan sulit untuk dijalankan.
Training dilakukan dengan menggunakan dimensi input 50 x 50, 100 x 100, dan
150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling layer maksimum, learning
rate 0,001, menggunakan dropout, dan epoch 50.
Tabel 4. 2 Pengaruh Dimensi Input terhadap Akurasi Model
Dimensi Input Waktu Latih Loss Validation Validation

Loss Accuracy
50 x 50 125 0,1782 0,3238 84,0%
100 x 100 292 0,2579 0,2576 88,0%
150 x 150 614 0,0880 0,1380 95,5%
Berdasarkan hasil pada tabel 4.2 diatas dapat dilihat bahwa dimensi input 150
x 150 memiliki akurasi tertinggi. Semakin besar ukuran input belum tentu akan
menaikkan nilai akurasi. Hal ini dapat disebabkan besarnya ukuran akan
memerlukan lapisan layer yang lebih banyak untuk mengeksplorasi input gambar
yang besar namun waktu yang dibutuhkan juga akan semakin besar. Input gambar
yang terlalu kecil juga dapat membuat data kehilangan info penting sehingga dapat
menurunkan tingkat akurasi.
46
4.2.2 Pengaruh Ukuran Kernel Konvolusi
Ukuran kernel konvolusi mempengaruhi banyaknya parameter pembelajaran

sehingga dapat mempengaruhi performansi model. Training dilakukan dengan
menggunakan ukuran kernel yang umum digunakan yaitu 3x3, 5x5, dan 7x7.
Tabel 4. 3 Pengaruh Ukuran Kernel Konvolusi terhadap Akurasi Model
Ukuran Waktu Latih Loss Validation Validation

Kernel Loss Accuracy
3x3 614 0,0880 0,1380 95,5%
5x5 892 0,3537 0,3159 83,0%
7x7 1290 0,2263 0,2965 82,5%
Berdasarkan hasil pada tabel 4.3 diatas, ukuran kernel 3 x 3 memiliki akurasi
validasi tertinggi. Hal ini terjadi karena filter dengan ukuran yang kecil
memungkinkan untuk mengumpulkan informasi sebanyak mungkin dan mampu
membedakan feature pada taraf low level namun membutuhkan kernel yang lebih
banyak. Sedangkan apabila terlalu besar ukuran kernelnya maka wilayah
pengamatan menjadi luas serta akan mengambil informasi secara global dan tak
mampu membedakan ciri yg dengan lebih jelasnya. Ukuran kernel yang semakin
besar juga mempengaruhi waktu yang dibutuhkan untuk training yaitu semakin
besar ukuran kernel maka waktu yang dibutuhkan akan semakin banyak.
4.2.3 Pengaruh Jenis Pooling Layer
Fungsi dari pooling adalah untuk mereduksi data dari hasil konvolusi secara
spasial (mengurangi jumlah parameter). Dengan melakukan pooling dapat
mengurangi tingkat sensitivitas dari noise dan variations. Training dilakukan
dengan menggunakan max pooling dan average pooling.
47
Tabel 4. 4 Pengaruh Jenis Pooling Layer terhadap Akurasi Model
Jenis Pooling Waktu Latih Loss Validation Validation

Layer Loss Accuracy
Maximum 614 0,0880 0,1380 95,5%
Average 576 0,2621 0,2884 88,0%
Berdasarkan hasil pada tabel 4.4 diatas, parameter max pooling memiliki nilai
akurasi validasi tertinggi dibandingkan dengan parameter yang menggunakan
average pooling. Maka untuk training parameter model selanjutnya menggunakan
jenis pooling layer average pooling.
4.2.4 Pengaruh nilai Learning Rate
Salah satu yang mempengaruhi nilai akurasi adalah nilai dari learning rate.
Perubahan bobot pada learning rate yang semakin besar memungkingkan untuk
lebih cepat mencapai titik konfigurasi. Akan tetapi, jika nilai learning rate terlalu
besar akan terjadi perubahan bobot-bobot terhadap nilai error menjadi terlalu
responsif dan tidak mencapai titik konfigurasi.
Tabel 4. 5 Pengaruh Learning Rate terhadap Akurasi Model
Jenis Learing Waktu Latih Loss Validation Validation

Rate Loss Accuracy
0,01 589 0,3218 0,3805 86,0%
0,001 614 0,0880 0,1380 95,5%
0,0001 601 0,2456 0,3107 85,0%
Berdasarkan hasil pada tabel 4.5 diatas, parameter learning rate mencapai
akurasi paling tinggi pada nilai 0,001. Hal ini karena penggunaan learning rate
yang terlalu besar akan menyebabkan perubahan yang besar juga, sehingga dapat
menyebabkan nilai bobot yang optimal dapat terlewatkan. Namun, learning rate
48
yang terlalu kecil menyebabkan proses mencapai bobot yang paling optimal
menjadi sangat lambat.
4.2.5 Pengaruh Dropout
Dropout memungkinkan memilih secara acak neuron untuk tidak digunakan

selama training data. Dengan menggunakan dropout dapat menurunkan overfitting
yang terjadi pada model. Training dilakukan dengan menggunakan dropout dan
tidak menggunakan dropout.
Tabel 4. 6 Pengaruh Dropout terhadap Akurasi Model
Jenis Pooling Waktu Latih Loss Validation Validation

Layer Loss Accuracy
Menggunakan 614 0,0880 0,1380 95,5%

Dropout
Tidak 590 0,4725 0,1707 92,5%

menggunakan
Dropout
Berdasarkan hasil pada tabel 4.5 diatas, parameter yang menggunakan

dropout memiliki akurasi yang lebih tinggi. Maka untuk training parameter model
selanjutnya menggunakan dropout.
4.2.6 Pengaruh Epoch
Epoch menentukan seberapa banyak model melalui proses training dataset

secara keseluruhan. Jumlah epoch yang digunakan juga dapat mempengaruhi
performansi model. Training dilakukan dengan menggunakan epoch yaitu 10, 30,
dan 50.
Tabel 4. 7 Pengaruh Epoch terhadap Akurasi Model
Epoch Waktu Latih Loss Validation Validation

Loss Accuracy
49
50 614 0,0880 0,1380 95,5%
100 1191 0,1157 0,1071 96,0%
150 1740 0,0170 0,1230 97,0%
Berdasarkan hasil pada tabel 4.5 diatas, parameter yang menggunakan epoch
150 memiliki nilai akurasi yang paling tinggi. Hal ini dipengaruhi dari banyaknya
training dataset yang dilakukan. Nilai epoch yang terlalu kecil menyebabkan model
belum mencapai bobot yang optimal sehingga dapat mengakibatkan model belum
dapat mengklasifikasikan kelas dengan benar. Untuk dataset yang berbeda akan
memerlukan nilai epoch yang berbeda pula sehingga tidak dapat dipastikan berapa
jumlah epoch yang paling bagus, jadi jumlah epoch tergantung dari dataset yang
digunakan.
4.3. Hasil Pengujian Model CNN
Berdasarkan training dengan tuning parameter yang telah dilakukan

sebelumnya didapatkan nilai akurasi yang berbeda dari training awal. Hal tersebut
dikarenakan adanya pembaharuan nilai parameter pada saat training yang
didasarkan pada nilai akurasi validasi dan loss dari hasil training. Perbandingan
tersebut data dilihat pada tabel 4.8. Dengan perubahan arsitektur sebelum tuning
Tabel 4. 8 Perbandingan Sebelum dan Sesudah Tuning Parameter
Parameter Sebelum Tuning Setelah Tuning
Waktu Latih 614 detik 1740
Loss 0,0880 0,0170
Validation Loss 0,1380 0,1230
Validation Accuracy 95,5% 97,0%

50
dan setelah tuning terletak pada nilai epoch-nya. Epoch yang digunakan sebelum
tuning parameter sebanyak 50 dan epoch yang digunakan setelah tuning sebanyak
150.
Hasil training dengan tuning parameter yang digunakan untuk pengujian

yaitu input berupa visualisasi suara dalam bentuk spektrogram dengan nilai
parameter dimensi input 150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling
yaitu max pooling, learning rate 0,001, menggunakan dropout, dan epoch 150.
Hasil pengujian berupa klasifikasi suara normal dan suara sakit. Terdapat 4
jenis klasifikasi yaitu suara normal yang diklasifikasikan dengan benar sebagai
suara normal, suara normal yang diklasifikasikan dengan salah sebagai suara sakit,
suara sakit yang diklasifikasikan dengan benar sebagai suara sakit, dan suara sakit
yang diklasifikasi dengan salah sebagai suara normal. Contoh klasifikasi tersebut
dapat dilihat pada gambar 4.4 dibawah.
a b
(a) (b)
51
c d
(c) (d)
Gambar 4. 4 Contoh Hasil Klasifikasi Data Uji (a) Suara normal yang
diklasifikasikan dengan benar sebagai suara normal, (b) Suara normal yang
diklasifikasikan dengan salah sebagai suara sakit, (c) Suara sakit yang
diklasifikasikan dengan benar sebagai suara sakit, (d) Suara sakit yang
diklasifikasi dengan salah sebagai suara normal
Pada gambar 4.4 diatas adalah salah satu hasil klasifikasi dari data uji. Dengan
gambar 4.4(a) variabel a adalah data suara normal yang diklasifikasikan dengan
benar sebagai data suara normal, gambar 4.4(b) variabel b adalah data suara normal
yang diklasifikasikan dengan salah sebagai data sakit, gambar 4.4(c) variabel c
adalah data suara sakit yang diklasifikasikan dengan benar sebagai data suara sakit,
dan gambar 4.4(d) variabel d adalah data suara sakit yang diklasifikasikan dengan
salah sebagai data suara normal. Hasil dari pengujian dengan menggunakan 256
data baru dengan banyak data yang dapat diprediksi dengan benar sebanyak 229
data yang ditunjukkan pada tabel 4.9 dibawah. Data yang digunakan pada pengujian
merupakan data yang belum pernah digunakan pada proses training. Dari hasil
pengujian tersebut dapat dihitung nilai akurasi yang diperoleh sebagai berikut :
Tabel 4. 9 Confusion Matrix pada Data Uji
Prediksi
Data Aktual Suara Normal Suara Sakit
Suara Normal True Positive(TP) : False Positive(FP) :

113 16
52
Suara Sakit False Negative(FN) : True Negative(TN) :

11 116
Berdasarkan tabel tersebut dapat dihitung nilai performansi dari pengujian

menggunakan confusion matrix diperoleh nilai akurasi, presisi, dan recall sebagai
berikut :
𝑇𝑃 + 𝑇𝑁 113 + 116
- 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 = 113+16+116+11 = 0,8945 × 100% = 89,45%
𝑇𝑃 113
- 𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = 𝑇𝑃+𝐹𝑃 = 113+16 = 0,875 × 100% = 87,50%
𝑇𝑃 113
- 𝑅𝑒𝑐𝑎𝑙𝑙 = = = 0,911 × 100% = 91,10%
𝑇𝑃+𝐹𝑁 113+11
4.4. Analisis Akhir
Perfomansi model CNN dari pengujian diperoleh nilai akurasi sebesar

89,45%. Hal tersebut menunjukkan bahwa seluruh data hampir diklasifikasikan
dengan benar. Untuk performansi dari model itu sendiri dapat dilihat dari nilai
presisi dan recall. Dari hasil perhitungan didapatkan nilai presisi sebesar 87,50%
dan nilai recall sebesar 91,10 %. Hal ini menunjukkan bahwa sistem dapat
mengklasifikasikan suara normal/sehat maupun suara sakit dengan benar dari
seluruh data yang ada, tetapi ada juga beberapa data yang terklasifikasikan tidak
sesuai dengan data aktualnya. Ilustrasi hubungan dari presisi dan recall dapat dilihat
pada gambar 4.5 dibawah.
Keterangan :
Kumpulan Data Suara
Suara Sakit
Hasil Klasifikasi Suara Sakit
Gambar 4. 5 Ilustrasi Hubungan Presisi dan Recall

Ilustrasi pada gambar 4.5 diatas merupakan hubungan dari presisi dan recall
pada saat nilai recall lebih tinggi dibandingkan nilai presisi. Ada beberapa peristiwa
lain yang mungkin terjadi yaitu nilai presisi dan recall sama-sama tinggi, nilai
53
presisi dan recall sama-sama rendah, dan nilai presisi yang lebih tinggi
dibandingkan nilai recall. Jika nilai presisi dan recall sama-sama tinggi
menunjukkan hasil klasifikasi yang sangat baik. Jika nilai presisi dan recall sama-
sama rendah menunjukkan model belum cukup baik dalam mengklasifikasikan
data. Jika nilai presisi yang lebih tinggi dibandingkan nilai recall menunjukkan
bahwa model dapat mengklasifikasikan sebagian data dengan benar dari data yang
tersedia.
BAB V
KESIMPULAN DAN SARAN
5.1 Kesimpulan
Berdasarkan hasil analisis, didapatkan beberapa kesimpulan yaitu:

1. Dari algoritma pemrograman yang telah dirancang menggunakan metode
convolutional neural network (CNN) yang dapat digunakan untuk
pengujian model pada data uji diperoleh akurasi validasi 97,0%.
2. Hasil pengujian dengan menggunakan parameter model convolutional

neural network yang telah optimal untuk mengetahui performansi model
berdasarkan hasil analisis dengan jumlah data uji sebanyak 256 dan dapat
diklasifikasikan dengan benar sebanyak 229 data sehingga diperoleh akurasi
data uji sebesar 89,45%.
5.2 Saran
Untuk pengembangan penelitian ini, saran yang dapat diberikan

sebagai berikut:
1. Melakukan penelitian tentang model arsitektur yang lebih baik digunakan
untuk meningkatkan performansi model.
2. Memperbanyak data untuk melatih model sehingga dapat meningkatkan
akurasi
3. Mengimplementasikan model dalam graphical user interface(GUI) agar
dapat digunakan secara langsung
54
55
DAFTAR PUSTAKA
[1] Dhillon. Vaninder Kaur, ”Vocal Cord Disorders”, John Hopkins

Medicine,[Online]. Tersedia di
https://www.hopkinsmedicine.org/health/conditions-and-diseases/vocal-
cord-disorders [Diakses 2 Oktober 2020 ].
[2] Fadilah. Muhammad Agfian, “Rancang Bangun Alat Identifikasi Kelainan

pada Pita Suara menggunakan Pengolahan Citra dengan Metode
Convolutional Neural Network berbasis Raspberry Pi,” S.T. Skripsi, Fakultas
Teknik Elektro, Universitas Telkom. Bandung, 2019
[3] Wundt. Wilhem Max, “Outlines of Psychology (1897)”, Di Found Psychol

thought A Hist Psychol. New York : G. E. Stechert, 2009, pp. 36-44.
[4] Syamsudin dkk, “Anatomi Suara Manusia”, Di Anatomi Suara Kajian Fisika
Medik, 1st ed., Surabaya : Airlangga University Press, 2018, pp. 33-36
[5] Docdoc.com. 2016.Apa itu Stroboskopi: Gambaran Umum, Manfaat, dan

Hasil yang diharapkan. support@docdoc.com.
https://www.docdoc.com/id/info/procedure/stroboscopy/. 05 Oktober 2018.
[6] yesternight.id,2018. 11 Agustus, “Macam-macam format file audio beserta

kelebihan dan kekurangan”, YESTERNIGHT.ID Creative-Multimedia
Agency. [Online]. Tersedia dihttps://yesternight.id/tips-trick/macam-macam-
format-file-audio-beserta-kelebihan-dan-kekurangan/. [Diakses 12 Juli 2021]
[7] Paralkar, Keyur. 2020. “Audio Data Augmentation in Python”. Medium.

[Online]. Tersedia di https://medium.com/@keur.plkar/audio-data-
augmentation-in-python-a91600613e47 [Diakses 1 Juli 2021].
[8] A. Rizal, R. Hidayat, and H. A. Nugroho, “Lung Sounds Classification using

Spectrogram ’ s First Order Statistics Features”, 2016.
[9] elektronika-dasar.web.id, “Operasi Pengolahan Citra Digital”, Elektronika

Dasar. [Online]. Tersedia di https://elektronika-dasar.web.id/operasi-
pengolahan-citra-digital/. [Diakses 14 November 2020]
[10] Udacity.com, “Going further with CNNs,” Di Intro to Tensor Flow for Deep
Learning. Udacity. [Online]. Tersedia di
https://classroom.udacity.com/courses/ud187/lessons/1771027d-8685-496f-
56
8891-d7786efb71e1/concepts/badc7549-a986-459b-8812-23dfee2b4d0d.
[Diakses 15 November 2020]
[11] Redroguez, Jesus.d. k. k, “Using the CNN Architecture in Image Processing”,

Medium. [Online]. Tersedia di https://medium.com/@ODSC/using-the-cnn-
architecture-in-image-processing-65b9eb032bdc [Diakses 30 Juli 2021]
[12] web.stanford.edu, “Introduction to Convolutional Neural Networks”,

Stanford University. [Online]. Tersedia di
https://web.stanford.edu/class/cs231a/lectures/intro_cnn.pdf. [Diakses 14
November 2020]
[13] Sena, Samuael. 2017. “Pengenalan Deep Learning Part 7 :Convolutional

Neural Network (CNN)”. Medium. [Online]. Tersedia di
https://medium.com/@samuelsena/pengenalan-deep-learning-part-
7convolutional-neural-network-cnn-b003b477dc94 [Diakses 15 November
2020].
[14] Cornelisse, Daphne. 2018, 24 April. “An Intuitive guide to Convolutional

Neural Network”. FreeCodeCamp. Tersedia di
https://www.freecodecamp.org/news/an-intuitive-guide-to-convolutional-
neural-networks-260c2de0a050/. [Diakses 15 November 2020]
[15] mathworks.cn, “Introduction to Deep Learning: What Are Convolutional

Neural Networks?”, Di Videos and Webinars Introduction to Deep Learning,
MathWorks. [Online]. Tersedia di
https://ww2.mathworks.cn/en/videos/introduction-to-deep-learning-what-
are-convolutional-neural-networks--1489512765771.html. [Diakses 15
November 2020]
[16] Suyanto, “Machine Learning Tingkat Dasar dan Lanjut”. Bandung :

Informatika, 2018.
[17] I Wayan Suartika E.P dan d.k.k, “Klasifikasi Citra Menggunakan

Convolutional Neural Network(Cnn) pada Caltech 101,”Jurnal Teknik ITS,
2016.
[18] Triano. Nurhikmat, “Implementasi Deep Learning untuk Image Classicication

menggunakan Algoritma Convolutional Neural Network(CNN) pada Citra
57
Wayang Golek,” S.Si. Skripsi, Fakultas Matematika dan Ilmu Pengetahuan

Alam, Universitas Islam Indonesia. Bandung, 2018.
[19] Kurniawan, Kemal. “Apa itu Overfitting?”. Quora. Tersedia di

https://id.quora.com/Apa-itu-Overfitting. [Diakses 14 Juli 2021]
[20] hackaudio.com, “Audio Signals”, Hack Audio. [Online]. Tersedia di

https://www.hackaudio.com/computer-programming/audio-basics/audio-
signals/. [Diakses 14 Juli 2021]
[21] pnsn.org. “What is a Spectogram?”, Pacific Northwest Seismic Network,

[Online]. Tersedia di https://pnsn.org/spectrograms/what-is-a-spectrogram
[Diakses 13 November 2020]
[22] Doshi, Sanket. 2018, 30 Des. “Music Feature Extraction in Python”. Towards
Data Science. Tersedia di https://towardsdatascience.com/extract-features-
of-music-75a3f9bc265d. [Diakses 10 Juli 2021]
[23] Mulyawan, Muhammad. 2020, 10 Nov. “Pengenalan Suara Metode Mel

Frequency Stral Coefficient dan Learning Vector Quantization”. UTama
Universtias Widyatama. Tersedia di https://if.widyatama.ac.id/pengenalan-
suara-metode-mel-frequency-stral-coefficient-dan-learning-vector-
quantization/. [Diakses 5 Juli 2021]
[24] Shankar,Jay.2020, 9 Mei. Train Neural Network by loading your image

|Tensorflow, CNN, Keras tutorial[Video Youtube]. Diakses melalui
https://www.youtube.com/watch?v=uqomO_BZ44g&t=842s, 5 Mei 2021
[25] Medium.com. 2019, 22 Maret. “Audio Classification using CNN – An

Experiment”. Medium. Tersedia di https://medium.com/x8-the-ai-
community/audio-classification-using-cnn-coding-example-. [Diakses 17
Juli 2021]
[26] Y. N. Fu'adah, I. Wijiyanto dan d. k. k, “Automated Classification of

Alzheimer’s Disease Based on MRI Image Processing using Convolutional
Neural Network (CNN) with AlexNet Architecture,” 2020.
[27] Y. N. Fu'adah, S. Sa'idah dan d. k. k, “Computer Aided Diagnosis for Early

Detection of Glaucoma using Convolutional Neural Network (CNN),” 2020.
58
LAMPIRAN
59
Lembar Revisi Tugas Akhir
Nama : Nurul Izzah Luthfiah Nur
NIM : 1104174042
No. Revisi Perbaikan

Bab & Halaman
1. Apakah data audio yang digunakan dilakukan Bab 3.3.2 Hal. 33
filter audio terlebih dahulu?
2. Memperjelas bagian kesimpulan Bab 5 Hal. 54
3. Format, typo, dll dirapihkan dan diperbaiki Semua

Laporan TA Desain Geometri Redaman Ruang Anti Gema

Diunggah oleh

Informasi Dokumen

Deskripsi Asli:

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Laporan TA Desain Geometri Redaman Ruang Anti Gema

Diunggah oleh

Hak Cipta:

Format Tersedia

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN

PITA SUARA DENGAN CONVOLUTIONAL NEURAL NETWORK(CNN)

ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD

Disusun untuk memenuhi salah satu persyaratan menyelesaikan

Program Studi Strata 1 Teknik Fisika

NURUL IZZAH LUTHFIAH NUR

FAKULTAS TEKNIK ELEKTRO

Nama : Nurul Izzah Luthfiah Nur

Alamat : Dusun Sapaya Desa Kindang Kab. Bulukumba, Sulawesi Selatan

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN

ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD

Bulukumba, Juli 2021

Nurul Izzah Luthfiah Nur

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN

ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD

Telah disetujui dan disahkan sebagai Tugas Akhir

Program S1 Teknik Fisika Fakultas Teknik Elektro

Nurul Izzah Luthfiah Nur

Bandung, 28 Juli 2021

Hertiana Bethaningtyas D.K, S.T, M.T Linahtadiya Andiani, S.Si, M.Si

Kata Kunci: Convolutional Neural Network, Kelainan Pita Suara, Machine

Keywords: Classification of Vocal Cord Disorders, Convolutional Neural Network,

Alhamdulillahirabbil‘alamin. Segala puji bagi Allah Subhana Wata’ala

Bulukumba, Juli 2021

Nurul Izzah Luthfiah Nur

Bulukumba, Juli 2021

LEMBAR PERNYATAAN ORISINALITAS .............................................. ii

LEMBAR PENGESAHAN .......................................................................... iii

KATA PENGANTAR .................................................................................. vi

UCAPAN TERIMA KASIH ....................................................................... vii

DAFTAR GAMBAR ................................................................................... xii

DAFTAR TABEL ....................................................................................... xiv

BAB I PENDAHULUAN ............................................................................ 15

1.1 Latar Belakang Masalah ...................................................................... 15

1.2 Rumusan Masalah ............................................................................... 16

1.3 Tujuan dan Manfaat ............................................................................ 16

1.4 Batasan Masalah ................................................................................. 16

1.5 Metode Penelitian ............................................................................... 17

BAB II TINJAUAN PUSTAKA .................................................................. 19

2.1 Proses Pembentukan Suara .................................................................. 19

2.2 Kelainan Pita Suara ............................................................................. 21

2.3 Waveform ........................................................................................... 21

2.4 Augmentation Audio Data................................................................... 22

2.5 Pengolahan Citra Digital ..................................................................... 22

2.6 Convolutional Neural Network (CNN) ................................................ 23

2.6.1 Feature Extraction ........................................................................ 23

2.6.2 Classification ................................................................................ 25

2.7.1 Audio Signal Amplitude ................................................................ 28

2.7.2 Spektrogram ................................................................................. 28

2.7.3 MFCC .......................................................................................... 29

BAB III METODE PENELITIAN ............................................................. 31

3.1 Skema Umum Penelitian ..................................................................... 31

3.2 Diagram Pengolahan Data ................................................................... 31

3.3 Persiapan dan Pengolahan Data ........................................................... 33

3.3.1 Tahap Persiapan............................................................................ 33

3.3.2 Tahap Pengumpulan Data Sampel ................................................. 33

3.3.3 Tahap Pengolahan......................................................................... 33

3.3.4 Performansi Sistem ....................................................................... 40

BAB IV ANALISIS DAN PEMBAHASAN ................................................ 42

4.1. Penentuan Visual Audio ..................................................................... 42

4.2. Penentuan Parameter Model CNN ...................................................... 44

4.2.1 Pengaruh Dimensi Input ............................................................... 45