Anda di halaman 1dari 59

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN

PITA SUARA DENGAN CONVOLUTIONAL NEURAL NETWORK(CNN)

ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD


DISORDERS USING CONVOLUTIONAL NEURAL NETWORK(CNN)

TUGAS AKHIR

Disusun untuk memenuhi salah satu persyaratan menyelesaikan

Program Studi Strata 1 Teknik Fisika

Disusun oleh:

NURUL IZZAH LUTHFIAH NUR

1104174042

FAKULTAS TEKNIK ELEKTRO

UNIVERSITAS TELKOM

BANDUNG

2021
UNIVERSITAS TELKOM No. Dokumen

Jl. Telekomunikasi No.1 Ters. Buah Batu Bandung 40257 No. Revisi
FORMULIR PERNYATAAN ORISINALITAS Berlaku efektif
LEMBAR PERNYATAAN ORISINALITAS

Nama : Nurul Izzah Luthfiah Nur

NIM : 1104174042

Alamat : Dusun Sapaya Desa Kindang Kab. Bulukumba, Sulawesi Selatan

No.Tlp/HP : 082292776024

E-mail : izzahluthfiah@gmail.com

Menyatakan bahwa Tugas Akhir ini merupakan karya orisinal saya sendiri, dengan
judul :

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN


PITA SUARA DENGAN CONVOLUTIONAL NEURAL NETWORK(CNN)

ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD


DISORDERS USING CONVOLUTIONAL NEURAL NETWORK(CNN)

Atas pernyataan ini, saya siap menanggung resiko / sanksi yang dijatuhkan kepada
saya apabila kemudian ditemukan adanya pelanggaran terhadap kejujuran
akademik atau etika keilmuan dalam karya ini, atau ditemukan bukti yang
menunjukkan ketidakaslian karya ini.

Bulukumba, Juli 2021

Nurul Izzah Luthfiah Nur


NIM. 1104174042

ii
UNIVERSITAS TELKOM No. Dokumen

Jl. Telekomunikasi No.1 Ters. Buah Batu Bandung 40257 No. Revisi
Formulir Lembar Pengesahan Tugas Akhir Berlaku efektif

LEMBAR PENGESAHAN
TUGAS AKHIR

ANALISIS SINYAL SUARA UNTUK DETEKSI PENYAKIT KELAINAN


PITA SUARA DENGAN CONVOLUTIONAL NEURAL NETWORK(CNN)

ANALYSIS OF VOICE SIGNALS FOR DETECTION VOCAL CORD


DISORDERS USING CONVOLUTIONAL NEURAL NETWORK(CNN)

Telah disetujui dan disahkan sebagai Tugas Akhir

Program S1 Teknik Fisika Fakultas Teknik Elektro

Universitas Telkom

Disusun oleh :

Nurul Izzah Luthfiah Nur

1104174042

Bandung, 28 Juli 2021

Menyetujui

Pembimbing I Pembimbing II

Hertiana Bethaningtyas D.K, S.T, M.T Linahtadiya Andiani, S.Si, M.Si


NIP. 13860049 NIP. 20940006

iii
ABSTRAK

Salah satu gejala dari kelainan pita suara adalah adanya perubahan yang terjadi
pada suara normal seperti suara serak atau parau, suara lemah, dan breathy voice.
Untuk mengetahui kelainan pita suara maka perlu dilakukan diagnosa awal melalui
analisis kualitas suara penderita. Tujuan dari penelitian ini adalah untuk
mengembangkan metode diagnosa awal non-invasive melalui klasifikasi kelainan
pita suara menggunakan metode machine learning. Pada penelitian ini telah dibuat
sebuah sistem yang dapat mengklasifikasi kelainan pita suara yaitu dalam
klasifikasi suara normal atau sehat maupun suara sakit berdasarkan sinyal yang
didapatkan dari rekaman suara. Sinyal suara tersebut diolah dalam bentuk
visualisasi audio menggunakan algoritma pengolahan citra untuk diklasifikasi
menggunakan metode convolutional neural network (CNN). Dari penelitian yang
telah dilakukan didapat bahwa uji klasifikasi menggunakan parameter terpilih
melalui metode algoritma CNN dapat bekerja dengan baik dalam mengklasifikasi
kelainan pita suara dan memperoleh akurasi sebesar 89,45%.

Kata Kunci: Convolutional Neural Network, Kelainan Pita Suara, Machine


Learning, Pengolahan Citra

iv
ABSTRACT

One of the symptoms of vocal cord disorders include changes that occur in
the normal voice such as a hoarseness, a weak voice, and breathy voice. To
diagnose vocal cord disorders, it is necessary to do an initial diagnosis through an
analysis of the patient’s voice quality. The aim of this research was to develop a
non-invasive early diagnosis method through the classification of vocal cord
disorders using machine learning methods. In this research, a system has been
created that can classify vocal cord disorders, namely in the classification of
normal or healthy voices or sick voices based on signals obtained from voice
recordings. The voice signal is precessed in the form of audio visualization to be
classified using convolutional neural network (CNN) method. From this research
that has beencompleted, the classification test using selected parameters through
the CNN algoritm method can work as well to classify the vocal cord disorders with
accuracy of 89.45%.

Keywords: Classification of Vocal Cord Disorders, Convolutional Neural Network,


Image Processing, Machine Learning

v
KATA PENGANTAR

Alhamdulillahirabbil‘alamin. Segala puji bagi Allah Subhana Wata’ala


yang telah memberikan rahmat dan limpahan kasihnya terlebih nikmat kesehatan
dan kemampuan yang tidak terhingga sehingga penulis dapat menyelesaikan Tugas
Akhir dengan judul “Analisis Sinyal Suara untuk Deteksi Kelainan Pita Suara
dengan Convolutional Neural Network(CNN). Tugas akhir ini merupakan salah
satu syarat untuk menyelesaikan studi di program studi S-1 Teknik Fisika Pada
Fakultas Teknik Elektro, Teknik Fisika.

Penyelesaian Tugas Akhir ini tidak dapat terselesaikan dengan baik tanpa
bantuan dari berbagai pihak. Pada kesempatan ini penulis mengucapkan terima
kasih tak terhingga atas segala do’a, bimbingan, dukungan, dan bantuan yang telah
diberikan.

Dalam pengerjaan Tugas Akhir dan penulisan buku Tugas Akhir ini tidak
terlepas dari berbagai kekurangan, mengingat kurangnya pengetahuan dan
pengalaman penulis. Oleh sebab itu, penulis sangat mengharapkan kritik dan saran
dari para pihak agar buku Tugas Akhir ini dapat menjadi lebih baik. Semoga Buku
ini dapat memberikan manfaat bagi penulis dan pembacanya.

Bulukumba, Juli 2021

Penulis,

Nurul Izzah Luthfiah Nur

NIM. 1104174042

vi
UCAPAN TERIMA KASIH

Dalam proses menyelesaikan Tugas Akhir ini tidak terlepas dari bantuan
berbagai pihak. Oleh sebab itu, penulis mengucapkan banyak terima kasih sebagai
bentuk apresiasi dan penghargaan yang tidak dapat dibandingkan atas bantuan yang
telah diberikan kepada penulis selama pengerjaan Tugas Akhir, yaitu :

1. Allah Subhana Wata’ala, Sang Khalik yang Maha pengasih lagi maha
Penyayang atas segala karunia yang telah berikan, atas nikmat kesehatan
dan nikmat keinginan untuk terus semangat mengerjakan Tugas Akhir serta
kemudahan dalam pengerjaannya. Dan tak lupa pula kepada baginda
Rasulullah Muhammad ‫ ﷺ‬sebagai suri tauladan umat manusia
2. Bapak Nurung dan Ibu Masyita, sebagai orang tua penulis, yang telah
mendo’akan dan terus memberikan dukungan serta nasihat sehingga penulis
termotivasi dann semangat untuk menyelesaikan Tugas Akhir
3. Bapak Dr. Eng. Indra Wahyudhin Fathona, S.Si., M.Si. sebagai dosen wali,
yang senantiasa memberikan nasihat dan bimbingan selama penulis
menjalani masa perkuliahan
4. Ibu Hertiana Bethaningtyas D.K., S.T., M.T. dan Ibu Linahtadiya Andiani,
S.Si., M.Si., sebagai dosen pembimbing dalam pengerjaan tugas akhir yang
telah meluangkan banyak waktu, tenaga serta pikiran dalam membimbing
dan memberikan pengarahan atas kendala-kendala yang dialami penulis
selama pengerjaan tugas akhir.
5. Seluruh dosen Teknik Fisika Telkom University yang telah memberikan
ilmu dan bimbingan selama masa perkuliahan
6. Muhammad Aghfian Fadhil yang telah membantu penulis dalam mendalami
algoritma pemrograman yang digunakan dalam pengolahan data tugas akhir
serta atas ilmu dan nasihat yang telah diberikan
7. Chalik dan Bang Yurvan yang telah membantu penulis dalam memberikan
solusi terhadap dalam kendala yang dihadapi dalam algoritma pemrograman
yang bermasalah.
8. Andi Okta dan Novita Dayanti, yang selalu memberikan semangat dan juga
membantu penulis dalam menyelesaikan tugas akhir.

vii
9. Reska Mulyasari, sahabat penulis yang selalu memberikan semangat dan
dukungan serta menjadi tempat penulis untuk berbagi cerita dan suka duka
10. Teman seperjuangan penulis, Hannan Nuraeni, Qonita Faristin, Nailissa’ada
Avicenna, Calica Rosnaomi, Aliyah Nur Ifadah, Ailsa Amorita, teman-
teman TF-41-02, dan teman teman angkatan 2017 Teknik Fisika Telkom
University serta teman seperjuangan penulis yang tidak dapat disebutkan
satu persatu
11. Seluruh pihak yang tidak dapat diucapkan satu persatu yang telah membantu
penulis dalam menyelesaikan tugas akhir ini
Semoga semua pihak yang telah disebutkan diatas selalu diberi kesehatan dan
keberkahan dalam hidupnya. Semoga Allah dapat mempertemukan kita disurga.
Aamiin ya rabbal’aalamiin.

Bulukumba, Juli 2021

Penulis

viii
DAFTAR ISI

LEMBAR PERNYATAAN ORISINALITAS .............................................. ii

LEMBAR PENGESAHAN .......................................................................... iii

ABSTRAK .................................................................................................... iv

ABSTRACT ................................................................................................... v

KATA PENGANTAR .................................................................................. vi

UCAPAN TERIMA KASIH ....................................................................... vii

DAFTAR ISI................................................................................................. ix

DAFTAR GAMBAR ................................................................................... xii

DAFTAR TABEL ....................................................................................... xiv

BAB I PENDAHULUAN ............................................................................ 15

1.1 Latar Belakang Masalah ...................................................................... 15

1.2 Rumusan Masalah ............................................................................... 16

1.3 Tujuan dan Manfaat ............................................................................ 16

1.4 Batasan Masalah ................................................................................. 16

1.5 Metode Penelitian ............................................................................... 17

BAB II TINJAUAN PUSTAKA .................................................................. 19

2.1 Proses Pembentukan Suara .................................................................. 19

2.2 Kelainan Pita Suara ............................................................................. 21

2.3 Waveform ........................................................................................... 21

2.4 Augmentation Audio Data................................................................... 22

2.5 Pengolahan Citra Digital ..................................................................... 22

2.6 Convolutional Neural Network (CNN) ................................................ 23

2.6.1 Feature Extraction ........................................................................ 23

2.6.2 Classification ................................................................................ 25

ix
2.7 Visualisasi Audio ................................................................................ 27

2.7.1 Audio Signal Amplitude ................................................................ 28

2.7.2 Spektrogram ................................................................................. 28

2.7.3 MFCC .......................................................................................... 29

BAB III METODE PENELITIAN ............................................................. 31

3.1 Skema Umum Penelitian ..................................................................... 31

3.2 Diagram Pengolahan Data ................................................................... 31

3.3 Persiapan dan Pengolahan Data ........................................................... 33

3.3.1 Tahap Persiapan............................................................................ 33

3.3.2 Tahap Pengumpulan Data Sampel ................................................. 33

3.3.3 Tahap Pengolahan......................................................................... 33

3.3.4 Performansi Sistem ....................................................................... 40

BAB IV ANALISIS DAN PEMBAHASAN ................................................ 42

4.1. Penentuan Visual Audio ..................................................................... 42

4.2. Penentuan Parameter Model CNN ...................................................... 44

4.2.1 Pengaruh Dimensi Input ............................................................... 45

4.2.2 Pengaruh Ukuran Kernel Konvolusi .............................................. 46

4.2.3 Pengaruh Jenis Pooling Layer ....................................................... 46

4.2.4 Pengaruh nilai Learning Rate ........................................................ 47

4.2.5 Pengaruh Dropout......................................................................... 48

4.2.6 Pengaruh Epoch ............................................................................ 48

4.3. Hasil Pengujian Model CNN .............................................................. 49

4.4. Analisis Akhir .................................................................................... 52

BAB V KESIMPULAN DAN SARAN........................................................ 54

5.1 Kesimpulan ......................................................................................... 54

5.2 Saran................................................................................................... 54

x
DAFTAR PUSTAKA .................................................................................. 55

LAMPIRAN............................................................................................... 558

xi
DAFTAR GAMBAR

Gambar 2. 1 Proses terjadinya getaran pita suara [4]. ........................................ 19


Gambar 2. 2 Subsistem penghasil suara [3]. ...................................................... 20
Gambar 2. 3 Kondisi kelainan pita suara dengan perubahan yang terjadi [5]. .... 21
Gambar 2. 4 Contoh penerapan image processing deteksi gender pada fitur
kamera smartphone vivo v5 ............................................................................... 22
Gambar 2. 5 Proses Convolutional Neural Network [13]................................... 23
Gambar 2. 6 Contoh operasi konvolusi dengan stride 1 .................................... 24
Gambar 2. 7 Contoh operasi max pooling [14] .................................................. 24
Gambar 2. 8 Fungsi Rectified Linear Unit [14] ................................................. 25
Gambar 2. 9 Contoh operasi flatten .................................................................. 26
Gambar 2. 10 Fungsi aktivasi sigmoid[17] ........................................................ 26
Gambar 2. 11 overfitting[19] ............................................................................ 27
Gambar 2. 12 Contoh penggunaan dropout[10] ................................................ 27
Gambar 2. 13 Sinyal suara dalam visualisasi audio signal amplitude ................ 28
Gambar 2. 14 Sinyal suara dalam visualisasi Spektrogram ................................ 29
Gambar 2. 15 Sinyal suara dalam visualisasi MFCC ......................................... 30
Gambar 3. 1 Skema umum penelitian ............................................................... 31
Gambar 3. 2 Alur pengolahan data.................................................................... 32
Gambar 3. 3 Perbandingan spektrogram audio original dan audio yang telah
dilakukan time shifting ....................................................................................... 34
Gambar 3. 4 Perbandingan spektrogram audio original dan audio yang telah
dilakukan time stretching ................................................................................... 35
Gambar 3. 5 Perbandingan spektrogram audio original dan audio yang telah
dilakukan Noise Addition ................................................................................... 35
Gambar 3. 6 Diagram alir proses mengubah sinyal suara menjadi gambar ........ 35
Gambar 3. 7 Pembagian data untuk proses validasi model[2] ............................ 36
Gambar 3. 8 Model Pelatihan ........................................................................... 37
Gambar 4. 1 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar audio signal amplitude ............................. 42
Gambar 4. 2 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar Spektrogram............................................. 43

xii
Gambar 4. 3 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar MFCC ...................................................... 43
Gambar 4. 4 Contoh Hasil Klasifikasi Data Uji (a) Suara normal yang
diklasifikasikan dengan benar sebagai suara normal, (b) Suara normal yang
diklasifikasikan dengan salah sebagai suara sakit, (c) Suara sakit yang
diklasifikasikan dengan benar sebagai suara sakit, (d) Suara sakit yang
diklasifikasi dengan salah sebagai suara normal ................................................. 51
Gambar 4. 5 Ilustrasi Hubungan Presisi dan Recall ........................................... 52

xiii
DAFTAR TABEL

Tabel 2. 1 Subsistem dalam produksi suara [4]. ................................................. 20


Tabel 3. 1 Proses Confusion Matrix ................................................................... 40
Tabel 4. 1 Pengaruh Input Visualisasi Audio terhadap Akurasi Model ............... 44
Tabel 4. 2 Pengaruh Dimensi Input terhadap Akurasi Model ............................. 45
Tabel 4. 3 Pengaruh Ukuran Kernel Konvolusi terhadap Akurasi Model ........... 46
Tabel 4. 4 Pengaruh Jenis Pooling Layer terhadap Akurasi Model ..................... 47
Tabel 4. 5 Pengaruh Learning Rate terhadap Akurasi Model ............................. 47
Tabel 4. 6 Pengaruh Dropout terhadap Akurasi Model....................................... 48
Tabel 4. 7 Pengaruh Epoch terhadap Akurasi Model ......................................... 48
Tabel 4. 8 Perbandingan Sebelum dan Sesudah Tuning Parameter ..................... 49
Tabel 4. 9 Confusion Matrix pada Data Uji ....................................................... 51

xiv
BAB I
PENDAHULUAN

1.1 Latar Belakang Masalah

Kelainan pita suara adalah masalah anatomis atau fungsional yang


mempengaruhi pita suara. Untuk mengetahui kondisi pita suara pada tenggorokan
maka diperlukan pemeriksaan menggunakan laringoskopi. Kelainan pita suara
memiliki gejala yang bervariasi, diantaranya perubahan yang terjadi pada suara
normal seperti suara serak atau parau, suara lemah, dan breathy voice(juga disebut
suara bergumam, berbisik, dan desah)[1]. Suara yang dihasilkan oleh pasien dengan
kelainan pita suara dapat dijadikan salah satu alternatif dalam mendeteksi penyakit
kelainan pita suara dengan memanfaatkan machine learning.

Sistem diagnosa kelainan pita suara yang sudah ada dan digunakan untuk
klasifikasi kelainan pita suara yaitu pemeriksaan kondisi pita suara dengan
menggunakan laringoskop dan diklasifikasikan berdasarkan gambar pita suara oleh
dokter atau ahli. Sistem ini kemudian dikembangkan melalui penelitian tugas akhir
Aghfian (2019) yaitu pengklasifikasian kelainan pita suara berdasarkan gambar pita
suara dari laringoskopi oleh sistem secara langsung.

Pada penelitian yang dilakukan oleh Aghfian (2019) yaitu dengan judul
Rancang Bangun Alat Identifikasi Kelainan pada Pita Suara menggunakan
Pengolahan Citra dengan Metode Convolutional Neural Network berbasis
Raspberry Pi. Dari penelitian tersebut diperoleh tingkat akurasi sebesar 79,75%.
Pada penelitian tersebut, alat yang dirancang masih menggunakan metode invasive
untuk klasifikasi penyakit kelainan pita suara yaitu dengan memasukkan sebuah
alat pada tenggorokan untuk melihat keadaan pita suara. Pada penelitian ini juga
memerlukan bantuan ahli dalam proses penggunaannya[2].

Berdasarkan latar belakang tersebut, penelitian ini bertujuan untuk


mengembangkan metode diagnosa non-invasive untuk mendeteksi kelainan pita
suara. Dengan menggunakan metode ini dapat dilakukan pra-diagnosa pada
penderita penyakit kelainan pita suara tanpa memasukkan sebuah alat pada
tenggorokan. Penelitian ini menggunakan machine learning dengan metode CNN
berdasarkan sinyal suara yang dihasilkan oleh penderita kelainan pita suara. Hasil

15
16

dari penelitian ini diharapkan dapat digunakan untuk menganalisis sinyal suara
untuk deteksi penyakit kelainan pita suara sehingga dapat membantu dokter dalam
melakukan pra-diagnosa pada penderita penyakit kelainan pita suara dan
pengembangan teknologi machine learning dimasa yang akan datang.

1.2 Rumusan Masalah

Berdasarkan latar belakang diatas, maka rumusan masalah adalah sebagai


berikut :

1. Bagaimana susunan algoritma pemrograman yang digunakan untuk


menganalisis sinyal suara dengan menggunakan metode convolutional
neural network?

2. Bagaimana tingkat akurasi dari hasil analisis sinyal suara untuk deteksi
kelainan pita suara menggunakan metode convolutional neural network?

1.3 Tujuan dan Manfaat

Adapun tujuan dan manfaat dari penelitian ini antara lain:

1. Mengetahui susunan algoritma pemrograman yang digunakan untuk


menganalisis sinyal suara dengan menggunakan metode convolutional
neural network

2. Mengetahui tingkat akurasi dari hasil analisis sinyal suara untuk deteksi
kelainan pita suara menggunakan metode convolutional neural network

Adapun manfaat dari penelitian ini antara lain:

1. Hasil penelitian dapat membantu dokter dalam melakukan pra-diagnosa


atau diagnosa awal dari kelainan pita suara

2. Algoritma pemrograman yang telah dibuat dapat digunakan dan


dimodifikasi kembali dengan menyesuaikan kebutuhan analisis suara.

1.4 Batasan Masalah

Adapun batasan masalah pada penelitian ini sebagai berikut:

1. sampel data suara berupa rekaman suara pasien yang mengucapkan vowel
/a/ secara kontinu dalam satu tarikan nafas
17

2. Data suara yang digunakan berasal dari arsip data kelainan pita suara yang
ada pada arsip laboratorium fisika komputasi prodi teknik fisika fakultas
teknik elektro dengan tipe data suara berupa tipe data .wav

3. Menggunakan bahasa pemrograman python dengan editor Jupyter


Notebook

1.5 Metode Penelitian

Metode penelitian yang digunakan pada penelitian ini yaitu :

1. Studi Literatur

Bertujuan untuk mempelajari teori-teori yang digunakan untuk menunjang


penelitian yang dilakukan pada tugas akhir yang bersumber dari berbagai
referensi berupa jurnal, skripsi, thesis, video pembelajaran, dan berbagai
sumber yang mendukung. Langkah tersebut dilaksanakan dalam bentuk:

a. Mempelajari Bahasa pemrograman Python 3

b. Mempelajari konsep visualisasi audio

c. Mempelajari teori Image Processing

d. Mempelajari teori Convolutional Neural Network (CNN)

e. Mempelajari pengaruh parameter-parameter pada CNN

f. Mempelajari berupa jurnal, skripsi, thesis, video pembelajaran, dan


berbagai sumber yang mendukung terkait Python, Image Processing,
dan CNN

2. Pengumpulan data

Bertujuan untuk memperoleh data suara yang akan digunakan sebagai data
latih dan data uji yang didapatkan dari perekaman suara pasien dengan
mengucapkan vowel /a/ secara kontinu dalam satu tarikan nafas(sustained
phonation). Data perekaman sebagian besar menggunakan data perekeman
yang telah diambil pada penelitian sebelumnya dan juga dapat diperoleh
secara langsung dengan melakukan perekaman suara pada pasien di rumah
sakit ataupun pasien melakukan rekaman langsung pada aplikasi
berdasarkan hasil diagnosa dokter. Aplikasi yang digunakan untuk merekam
suara adalah aplikasi voice recorder dan disimpan dengan tipe data .wav.
18

3. Pengolahan data

Data suara yang diperoleh diolah dan dianalisis dengan algoritma untuk
mengubah data suara menjadi citra digital dan diolah kembali untuk
diklasifikasi menggunakan metode convolutional neural network dengan
menggunakan bahasa pemrograman python dalam menyusun algoritma
untuk mengolah datanya.

4. Simpulan dan pembuatan laporan

Pada tahapan ini yaitu dilakukan analisis hasil akurasi data data yang telah
diolah dan membuat laporan dengan menjelaskan secara detail berdasarkan
dari hasil analisis tersebut.
BAB II
TINJAUAN PUSTAKA

2.1 Proses Pembentukan Suara

Pita suara menghasilkan suara saat kedua pita suara bersatu dan bergetar saat
udara melewatinya saat menghembuskan udara dari paru-paru. Getaran inilah yang
menghasilkan suara pada manusia. Untuk mendapatkan getaran pada pita suara
yang normal diperlukan beberapa kemampuan yaitu kemampuan menutup rapat,
kelenturan, ketegangan yang tepat, dan massa yang tepat [3].

Proses terjadinya getaran suara berdasarkan gambar 2.1 yaitu (1) Tekanan
udara bergerak ke atas pita suara yang berada dalam posisi tertutup; (2-3) Tekanan
udara membuka lapisan getar bagian bawah dari pita suara, posisi pita suara dalam
posisi tetap; (4-5) Tekanan udara terus bergerak ke atas sehingga bagian atas dari
pita suara terbuka; (6-9) Tekanan yang lemah tercipta di balik kolom udara yang
bergerak cepat menghasilkan “efek bernoulli” yang menyebabkan bagian bawah
menutup, diikuti oleh bagian atas; (10) Penutupan pita suara menyebabkan
berhentinya kolom udara[4].

Gambar 2. 1 Proses terjadinya getaran pita suara [4].


Subsistem dalam produksi suara dibagi menjadi tiga yaitu sistem tekanan
udara, sistem vibrasi, dan sistem resonansi. Dalam subsistem tersebut memiliki
organ yang berperan menghasilkan suara dengan peran yang berbeda-beda dalam
proses produksi suara. Peran dari organ tersebut dapat dilihat pada tabel 2.1.

19
20

Tabel 2. 1 Subsistem dalam produksi suara [4].

Subsistem Organ suara Peran dalam produksi suara

Sistem tekanan udara Diafragma, otot dada, Menyediakan dan mengatur


dan tulang rusuk tekanan udara agar pita
suara dapat bergetar

Sistem vibrasi Laring Pita suara bergetar,


perubahan tekanan udara
memproduksi gelombang
suara yang disebut voiced
sound yang digambarkan
sebagai buzzy sound

Pita suara Terjadi perubahan pitch


suara

Sistem resonansi Saluran suara : Perubahan buzzy sound


tenggorokan(faring), menjadi suara yang dapat
rongga mulut, dan dikenali
saluran hidung

Gambar 2. 2 Subsistem penghasil suara [3].


21

2.2 Kelainan Pita Suara

Kelainan pita suara merupakan kondisi yang terjadi akibat adanya perubahan
yang terjadi pada pita suara. Adanya perubahan kondisi mengakibatkan suara yang
dihasilkan akan berubah yang ditandai dengan gejala yang bervariasi. Gejala yang
terjadi akibat kelainan pita suara diantaranya perubahan yang terjadi pada suara
normal seperti suara serak atau parau, suara lemah, dan breathy voice(juga disebut
suara bergumam, berbisik, dan desah)[1]. Suara tersebut dapat berubah karena
perubahan kondisi atau kelainan pada pita suara ataupun organ lain disekitarnya.
Pada Gambar 2.3 menunjukkan gambar kelainan pita suara dan dapat dilihat
perubahan kondisi yang terjadi pada pita suara.

Gambar 2. 3 Kondisi kelainan pita suara dengan perubahan yang terjadi [5].
Kelainan pita suara ini paling umum disebabkan dari penyalahgunaan
vokal(suara) diantaranya penggunaan suara yang berlebihan saat bernyanyi,
berbicara, batuk, ataupun berteriak. Penyebab lain juga yaitu virus, merokok dan
menghirup udara yang dapat merusak pita suara[1].

2.3 Waveform

Waveform atau sering juga disebut WAV adalah format standar dari berkas
audio yang dikembangkan oleh Microsoft dan IBM. WAV ini merupakan varian
dari format bitstream RIFF dengan format yang mirip dengan format AIFF Apple
untuk menyimpan data[6].

WAV biasanya digunakan untuk menyimpan audio dengan suara yang


berkualitas. Hal tersebut dikarenakan format suara dengan WAV menyimpan data
22

audio tanpa dikompres sehingga data audio yang tersimpan adalah data asli tanpa
perubahan. Ukuran file dengan format WAV cukup besar dibandingkan dengan
format lainnya, sekitar 10MB per menit.

2.4 Augmentation Audio Data

Augmentasi adalah sebuah proses untuk memperbanyak data dengan


melakukan modifikasi data sedemikian rupa sehingga komputer mendeteksi bahwa
data yang telah dimodifikasi adalah data yang berbeda. Augmentasi data ini juga
disebut dengan teknik manipulasi data tanpa kehilangan inti atau esensi dari data
tersebut. Melakukan augmentasi adalah salah satu langkah yang dilakukan untuk
mencegah terjadinya kondisi overfitting.Contoh augmentasi pada sebuah data audio
dengan melakukan penambahan noise, time shifting, time stretching, speed tuning,
pitch shifting, dan lain-lain[7].

2.5 Pengolahan Citra Digital

Pengolahan citra atau image processing adalah suatu sistem dimana proses
dilakukan dengan masuk input berupa citra dan hasilnya (output) juga berupa citra
(image)[8]. Pengolahan citra digital pada umumnya didefinisikan sebagai
pemrosesan citra dengan dua dimensi pada komputer. Pengolahan citra memiliki
fungsi antara lain untuk meningkatkan kualitas citra, menghilangkan cacat pada
citra, mengidentifikasi objek, penggabungan dengan bagian citra yang lain.
Berdasarkan hal tersebut pengolahan gambar dapat dikategorikan dalam beberapa
hal yaitu image enhancement, image restoration, image compression, image
segmentation, image analysis, dan image reconstruction[9]. Pada gambar 2.4 dapat
dilihat salah satu contoh penerapan image processing deteksi gambar.

Gambar 2. 4 Contoh penerapan image processing deteksi gambar[11]


23

2.6 Convolutional Neural Network (CNN)

Convolutional neural network (CNN) adalah salah satu kelas deep learning
yaitu deep feed-forward artificial neural network yang diterapkan untuk
menganalisis citra visual [12]. Arsitektur CNN dibagi menjadi dua bagian yaitu
feature extraction/feature learning dan classification layer. Feature extraction
melakukan “encoding” gambar menjadi features berupa angka yang akan
mempresentasikan gambar tersebut [13] ke tahap classification yang nantinya
akan mengeluarkan prediksi dari hasil yang telah dianalisis.

Gambar 2. 5 Proses Convolutional Neural Network [13]


Gambar 2.5 diatas menunjukkan proses pada convolutional neural network.
Pada CNN terdapat 6 lapisan pembangun yaitu 3 lapisan pada feature extraction
layer: convolutional layer, pooling layer, rectified linear units layer, dan 3 lapisan
pada classification layer yaitu flatten, fully connected layer, dan softmax.

2.6.1 Feature Extraction

a. Convolutional Layer

Lapisan konvolusi merupakan lapisan utama yang pada CNN. Konvolusi


digunakan pada data input dengan menggunakan filter/kernel yang kemudian akan
menghasilkan fitur map. Konvolusi dijalankan dengan menggeser filter/kernel
sesuai dengan stride dan padding yang telah ditentukan. Stride adalah parameter
yang menentukan banyaknya pergeseran dari filter [13]. Padding adalah
parameter yang menentukan jumlah pixels yang berisi nilai 0 dan ditambahkan di
setiap sisi pada input [13]. Hasil operasi dari lapisan konvolusi ini akan
menghasilkan dimensi pixels yang lebih kecil dibandingkan dari input
sebelumnya.
24

Weight Proses Konvolusi Hasil Konvolusi


Input gambar

Gambar 2. 6 Contoh operasi konvolusi dengan stride 1

Pada gambar 2.6 diatas menunjukkan operasi konvolusi (kotak hijau) = 1x1
+ 1x0 + 1x1 + 0x0 + 1x1 + 1x0 + 0x1 + 0x0 + 1x1 = 4. Operasi konvolusi dimulai
dari kiri atas dan kernel digeser sesuai dengan stride yang telah ditentukan dan
dilakukan kembali operasi konvolusi hingga kernel mencapai kanan bawah atau
posisi akhir input gambar.

b. Pooling Layer

Fungsi pooling adalah untuk mereduksi dimensionalitas secara terus-


menerus untuk mengurangi jumlah parameter dan komputasi dalam jaringan [14].
Proses pada lapisan ini dapat mempersingkat waktu pelatihan dan dapat
mengontrol overfitting. Ada dua pooling layer yaitu maximum pooling layer dan
average pooling layer.

1) Maximum Pooling Layer

Maximum pooling layer adalah pooling layer yang paling umum


digunakan. Maximum pooling layer mengambil nilai maksimum pada kernel
sebagai keluarannya. Contoh operasi max pooling dapat dilihat pada gambar 2.7
dibawah.

Gambar 2. 7 Contoh operasi max pooling [14]


25

2) Average Pooling Layer

Average pooling layer memiliki konsep yang sama dengan max pooling.
Perbedaannya pada average pooling layer mengambil nilai rata-rata pada kernel
sebagai keluarannya.

c. Rectified Linear Unit (ReLU)

ReLU merupakan salah satu fungsi aktivasi yang berfungsi untuk


meningkatkan sifat nonlinearitas fungsi keputusan dan jaringan secara
keseluruhan tanpa mengurangi bidang reseptif pada lapisan konvolusi [15].
Dengan memberikan output 0 jika input negatif atau nol, dan jika input positif,
maka output akan sama dengan input. Grafik fungsi rectified linear unit(RelU)
dapat dilihat pada Gambar 2.8 dibawah.

f(x) = max(0,x)

Gambar 2. 8 Fungsi Rectified Linear Unit [14]

2.6.2 Classification

a. Flattened

Proses flattened berfungsi untuk mengubah data dari fitur map yang berupa
3 dimensi volume menjadi 1 dimensi vector. Untuk menjadikan 1 dimensi data
akan diambil dari kiri ke kanan lalu turun pada baris berikutnya dan disusun atau
dijajarkan dari kiri ke kanan dalam satu baris hingga data terakhir. Contoh operasi
flatten dapat dilihat pada gambar 2.9 dibawah.
26

Flattened
Max pooling

Gambar 2. 9 Contoh operasi flatten

b. Fully-connected Layer

Fully-connected layer adalah lapisan yang memiliki kesamaan dengan multi


layer perceptron (MLP). Pada lapisan ini dilakukan perkalian matriks yang diikuti
dengan bias offset [16]. Pada proses ini tiap nilai yang telah diubah menjadi satu
dimensi akan dihubungkan dengan setiap neuron.

c. Sigmoid function

Fungsi aktivasi sigmoid adalah fungsi aktivasi non linear dengan masukan
berupa bilangan real.Fungsi ini mentransformasikan range nilai dari input x
menjadi antara 0 dan 1 dengan bentuk distribusi[17] seperti pada gambar 2.10
dibawah.

Gambar 2. 10 Fungsi aktivasi sigmoid[17]


Jika input suatu node pada neural network berupa nilai negatif maka output
yang didapatkan adalah nol dan jika input node pada neural network berupa nilai
positif maka output yang didapatkan adalah satu. Fungsi ini memiliki kelemahan
yaitu sigmoid dapat menutup gradien, ketika aktivasi neuron menghasilkan nilai
dalam kisaran 0 atau 1, gradien di wilayah hampir 0. Maka keluaran dari sigmoid
tidak zero-centered atau berpusat pada nol[18]
27

d. Dropout
Dropout merupakan salah satu teknik yang digunakan untuk mencegah
overfitting. Gambar 2.11 dibawah menunjukkan terjadinya overfitting, overfitting
ini dapat terjadi ketika nilai error training dan validasi terlampau jauh seperti satu
neuron memiliki nilai error/loss yang sangat besar dan satu lagi memiliki nilai
yang sangat kecil secara continue. Hal tersebut dapat diartikan bahwa model tidak
dapat mengenali ciri objek.

Gambar 2. 11 overfitting[19]
Dropout memungkinkan memilih secara acak neuron untuk tidak digunakan
selama training data. Gambar 2.12 dibawah menunjukkan contoh dari
penggunaan teknik dropout.

Gambar 2. 12 Contoh penggunaan dropout[10]

2.7 Visualisasi Audio

Untuk mengklasifikasi sebuah audio dengan menggunakan CNN maka


perlu untuk mengubah audio tersebut dalam bentuk gambar. Beberapa visualisasi
28

audio yang umum digunakan yaitu Audio Signal Amplitude, Spektrogram, dan
MFCC.

2.7.1 Audio Signal Amplitude

Audio adalah istilah yang lebih umum digunakan daripada suara. Audio
mencakup sinyal yang bergerak dari getaran suara, dan juga mencakup berbagai
bentuk lain yang dapat ditangkap oleh sinyal[20]. Getaran yang dihasilkan oleh
suara menghasilkan karakteristik penting dan dapat divisualisasikan dalam bentuk
audio signal amplitude. Visualisasi dalam bentuk audio signal amplitude dapat
dilihat pada gambar 2.13 dengan sumbu horizontal adalah waktu dalam satuan
detik dan sumbu vertikal adalah amplitudo dalam satuan meter.
Amplitudo (m)

Waktu (s)

Gambar 2. 13 Sinyal suara dalam visualisasi audio signal amplitude

2.7.2 Spektrogram

Spektrogram adalah cara visual untuk merepresentasikan kekuatan sinyal,


atau “kenyaringan”, sinyal dari waktu ke waktu pada berbagai frekuensi yang ada
dalam bentuk gelombang tertentu [21]. Teknik ini digunakan untuk mengubah
sinyal dari time domain menjadi time-frequency domain. Pada Gambar 2.14
dibawah, grafik spektrogram sumbu horizontal mewakili waktu berjalan dalam
satuan detik dan sumbu vertikal mewakili frekuensi yang juga dianggap sebagai
pitch atau tone dalam satuan Hertz. Amplitudo dari frekuensi tertentu diwakili
oleh dimensi ketiga yaitu warna, dengan warna gelap mewakili amplitudo rendah
dan warna yang lebih cerah hingga mewakili amplitudo yang semakin tinggi
dalam satuan Desibel.
29

Frekuensi (Hz)

Waktu (s)

Gambar 2. 14 Sinyal suara dalam visualisasi Spektrogram


Spektrogram dapat juga disebut short-time Fourier transform (STFT)
karena melakukan transformasi Fourier pada interval ketika sinyal dianggap diam.
STFT dapat dirumuskan pada persamaan 2.1 sebagai berikut :

𝑋(𝑡, 𝑓) = ∫∞ 𝑥(𝜏)𝑤(𝑡 − 𝜏)𝑒 −𝑗𝜋𝑚𝑓𝜏 𝑑𝜏 (2.1)

Dimana w(t−𝜏) adalah fungsi jendela yang digunakan untuk melakukan


filter dan pemotongan sinyal. Panjang fungsi dapat mempengaruhi resolusi waktu
dan frekuensi pada spektrogram[8]

2.7.3 MFCC

MFCC(Mel Frequency Cepstral Coefficients) adalah satu set kecil fitur


yang dapat menggambarkan secara ringkas bentuk keseluruhan dari spectral
envelope[22]. MFCC merupakan salah satu metode yang cukup banyak
digunakan dalam bidang speech technology. Metode MFCC digunakan untuk
melakukan feature extraction, sebuah proses dengan mengkonversi sinyal suara
menjadi beberapa parameter[23]. Visualisasi suara dengan metode MFCC dapat
dilihat pada Gambar 2.14 dengan sumbu horizontal adalah waktu dalam satuan
detik dan sumbu vertikal adalah koefisien MFCC.
30

Koefisien MFCC

Waktu (s)

Gambar 2. 15 Sinyal suara dalam visualisasi MFCC


BAB III

METODE PENELITIAN

Pada penelitian ini bertujuan untuk menganalisis sinyal suara untuk


mendeteksi kelainan pita suara berbasis python dengan mengolah citra digital
dengan menggunakan metode Convolutional Neural Network(CNN). Untuk
mencapai tujuan tersebut tahapan-tahapan dalam penelitian akan dijelaskan pada
bab ini.

3.1 Skema Umum Penelitian

Secara garis besar tahapan yang dilakukan dalam penelitian ini dapat dilihat
pada Gambar 3.1 di bawah. Perekaman suara pasien dengan menggunakan aplikasi
rekam suara pada smartphone. Data yang telah diperoleh disimpan dalam tipe data
.wav yang kemudian diubah menjadi gambar untuk diklasifikasi dengan
menggunakan algoritma convolutional neural network berdasarkan parameter yang
telah ditentukan.

Sehat

Sakit
Gambar 3. 1 Skema umum penelitian

3.2 Diagram Pengolahan Data

Pada penelitian ini pengolahan data merupakan hal yang utama. Keberhasilan
dari penelitian sangat ditentukan oleh hasil pengolahan data berdasarkan arsitektur
yang digunakan dan juga parameter-parameter lainnya. Pada penelitian ini data
yang digunakan dapat diambil dari arsip data kelainan pita suara yang ada pada
arsip laboratorium fisika komputasi prodi teknik fisika fakultas teknik elektro yang
data tersebut bersumber dari data penelitian sebelumnya serta dari laboratorium-
laboratorium yang telah melakukan kerjasama dengan laboratorium fisika
komputasi. Data juga dapat bersumber dari pengambilan data suara secara
langsung sesuai dengan prosedur yang telah ditetapkan. Pengambilan data secara

31
32

langsung hanya dilakukan jika memungkinkan dengan menyesuaikan dengan


kondisi pandemi COVID19. Alur pengolahan data dapat dilihat pada Gambar 3.2
dibawah.

Gambar 3. 2 Alur pengolahan data


Pada pengolahan data, data suara yang diperoleh dilakukan pra proses. Pra
proses ini dilakukan agar komputer dapat memahami data yang diberikan.
Kemudian, dilakukan augmentasi data untuk menambah varian data pada saat
proses pelatihan model. Data suara diolah menjadi data gambar untuk digunakan
dalam pelatihan dan pengujian data. Sebelum melakukan pengujian data dilakukan
33

pencarian parameter model yang optimal terlebih dahulu. Ketika model sudah
optimal maka selanjutnya dilakukan pengujian data. Data dianalisis hingga
diperoleh hasil akurasi dari pengujian. Proses pengolahan data akan dijelaskan lebih
lanjut pada bab 3.3.

3.3 Persiapan dan Pengolahan Data

Pada penelitian ini dibuat sebuah algoritma pemrograman yang dapat


digunakan untuk mengklasifikasi kelainan pita suara dengan menggunakan metode
CNN.

3.3.1 Tahap Persiapan

Sebelum melakukan perekaman, pasien diminta kesediaan untuk direkam


suaranya untuk dijadikan data dalam penelitian. Kemudian, diberi penjelasan
terkait prosedur dalam perekaman yang dilakukan.

3.3.2 Tahap Pengumpulan Data Suara

Data suara yang digunakan merupakan data hasil perekaman suara yang
dimiliki oleh laboratorium fisika komputasi serta suara yang dikirimkan oleh
partisipan dengan format .wav. Hasil perekaman ini digunakan secara langsung
tanpa dilakukan filterisasi data audio terlebih dahulu.

Partisipan diminta mengucapkan vowel /a/ secara kontinu dalam satu tarikan
nafas (sustained phonation). Sustained phonation atau fonasi berkelanjutan ini
dilakukan dengan maksud agar suara yang dihasilkan stabil.

3.3.3 Tahap Pengolahan

a. Pra proses
Pra proses pada tahap ini yaitu penggabungan seluruh data suara yang telah
diambil. Data hasil perekaman disimpan dengan format .wav(waveform audio
format) pada sebuah folder berdasarkan kelainan pita suara yang diderita. Proses
ini memiliki tujuan agar komputer dapat memahami data yang diberikan. Tahap
ini mempermudah dalam pengolahan data pada tahap selanjutnya.
34

b. Augmentasi Data

Untuk mencegah terjadinya overfitting maka dilakukan proses augmentasi data


terlebih dahulu. Proses augmentasi audio yang dilakukan pada penelitian ini yaitu
time shifting, time stretching, dan noise addition.

Time shifting adalah pergeseran waktu dalam audio dengan penambahan delay
pada awal audio. Untuk lebih jelasnya dapat dilihat pada gambar 3.3 dibawah yang
menunjukkan adanya pergeseran audio pada waktu tertentu. Dengan grafik
spektrogram sumbu horizontal mewakili waktu berjalan dalam satuan detik dan
sumbu vertikal mewakili frekuensi dalam satuan Hertz.
Frekuensi (Hz)

Waktu (s)

Gambar 3. 3 Perbandingan spektrogram audio original dan audio yang telah


dilakukan time shifting

Time stretching adalah peregangan waktu pada audio dengan memperpanjang


atau memperpendek durasi sampel atau suara tanpa mengubah karakteristik
nadanya. Pada gambar 3.4 dibawah menunjukkan time stretching dengan
perpanjangan durasi audio. Dengan grafik spektrogram sumbu horizontal mewakili
waktu berjalan dalam satuan detik dan sumbu vertikal mewakili frekuensi dalam
satuan Hertz.
35

Frekuensi (Hz)

Waktu (s)

Gambar 3. 4 Perbandingan spektrogram audio original dan audio yang telah


dilakukan time stretching

Noise Addition adalah penambahan atau penggabungan noise pada sebuah


audio. Pada penelitian ini noise yang digunakan berupa suara hujan. Gambar 3.5
dibawah menunjukkan adanya perbedaan amplitudo pada audio asli dan audio yang
telah ditambahkan noise. Dengan grafik spektrogram sumbu horizontal mewakili
waktu berjalan dalam satuan detik dan sumbu vertikal mewakili frekuensi dalam
satuan Hertz
Frekuensi (Hz)

Waktu (s)
Gambar 3. 5 Perbandingan spektrogram audio original dan audio yang telah
dilakukan Noise Addition

c. Mengubah Data Suara menjadi Data Gambar


Tahap mengubah sinyal suara menjadi sebuah gambar yang digunakan dalam
proses pelatihan dan pengujian data.

Gambar 3. 6 Diagram alir proses mengubah sinyal suara menjadi gambar


36

Berdasarkan Gambar 3.6 diatas,data suara atau audio yang telah dilakukan pra
proses dan augmentasi data dikonversi menjadi sebuah gambar. Pada penelitian ini
mengubah data suara dalam tiga bentuk visualisasi audio yaitu audio signal
amplitude, spektrogram, dan MFCC. Ketiga visualisasi audio tersebut biasa
digunakan untuk representasi sinyal yang berbentuk 1D menjadi sinyal 2D. Sinyal
suara diubah menjadi gambar karena algoritma dalam pembelajaran CNN memiliki
kinerja yang lebih baik pada klasifikasi citra 2D. Dari ketiga visualisasi gambar
tersebut hanya digunakan salah satu untuk disimpan dalam model CNN untuk
klasifikasi suara berdasarkan perbandingan akurasi tertinggi.

d. Pembagian Data

Dalam pembentukan suatu model validasi sangat diperlukan supaya model


dapat menggeneralisasi data-data baru yang sebelumnya belum dilatih. Teknik
validasi yang digunakan yaitu hold-out. Hold-out membagi data dalam tiga bagian
yaitu data latih, data validasi, dan data uji, hal ini terlihat pada Gambar 3.7 di bawah.

Gambar 3. 7 Pembagian data untuk proses validasi model[2]

Data yang digunakan selama proses training adalah data latih dan data validasi.
Data latih digunakan untuk membentuk suatu model yang tepat. Data validasi
digunakan untuk memvalidasi suatu model selama proses training masih
berlangsung. Data uji digunakan untuk mengetahui kinerja dari model dengan
menggunakan data yang belum pernah dilihat sebelumnya atau belum digunakan
pada pelatihan data.
37

Data yang digunakan yaitu semua data suara kelainan pita suara yang telah ada
pada laboratorium dan beberapa data suara yang diambil dari perekaman melalui
smartphone. Dengan total data suara sebanyak 335 dengan 126 data suara
normal/sehat dan 209 data suara sakit. Untuk mencegah overfitting dilakukan
augmentasi data audio dengan time shifting, time stretching, dan noise addition
sehingga total data suara sebanyak 1.256 dengan 629 data suara normal/sehat dan
627 data suara sakit pembagian data latih sebanyak 800 data validasi sebanyak 200,
dan data tes sebanyak 256.

e. Model Pelatihan

Gambar 3.8 dibawah adalah model sistem CNN yang digunakan untuk
klasifikasi kelainan pita suara pada penelitian ini. Model yang digunakan pada

Fully Connected Layer

Resize 3 x 3 Conv 32
150 x 150 px
Dropout 0,5
Max Pooling

3 x 3 Conv 64 Sigmoid

Max Pooling
Output
Dropout 0.25

Normal/Sehat Sakit

Gambar 3. 8 Model Pelatihan

pelatihan adalah gabungan dari model yang digunakan oleh youtubers When Maths
Meet Coding dengan arsitektur yang digunakan adalah modifikasi dari arsitektur
LeNet 5[24] dan model yang digunakan oleh Rishi Sidhu untuk klasifikasi spoken
digit dengan validasi akurasi mencapai 97%[25]. Dan dilakukan modifikasi
kembali berdasarkan training data untuk mencari parameter yang optimal.
Keputusan untuk menggabungan 2 model tersebut berdasarkan percobaan training
data dengan mencari akurasi tertinggi. Pada model pelatihan terdapat 3 tahapan,
yaitu input, feature extraction dan klasifikasi dengan beberapa parameter yang
dapat di tuning untuk mengetahui perbandingan akurasi yang bagus.
38

Data input berupa data suara yang telah diubah menjadi gambar yang terdiri
dari data sehat dan data sakit. Input akan melalui proses resize menjadi 150 x 150
pixel. Ukuran input mempengaruhi banyaknya informasi yang masuk untuk diolah
pada model sehingga dapat berpengaruh pada nilai akurasi dari model. Selanjutnya
input data yang telah dilakukan resize melalui konvolusi, aktivasi ReL-U, pooling,
fully connected layer, hingga klasifikasi.

f. Pelatihan Data dan Pengujian Data

Sebelum memasuki tahap tuning parameter dilakukan penentuan visualisasi


audio yang digunakan dalam tahap tuning parameter. Penentuan visualisasi audio
ditentukan berdasarkan akurasi validasi tertinggi dan loss validasi terendah. Tahap
pelatihan data dilakukan dengan melakukan tuning parameter karena parameter-
parameter yang digunakan pada pelatihan dapat mempengaruhi performa atau
akurasi dari suatu model. Pada penelitian ini dilakukan tuning parameter dengan
tujuan untuk menghasilkan arsitektur model yang paling optimal dalam proses
training. Parameter-parameter yang diubah yaitu dimensi input, ukuran kernel
konvolusi, jenis pooling layer, dropout, dan epoch.

Dimensi input, tujuannya adalah untuk mengetahui pengaruh dimensi pada


performa model. Dengan variabel peubah dari dimensi input yaitu 50 x 50, 100 x
100, 150 x 150 dan variabel tetap yaitu ukuran kernel konvolusi 3 x 3, jenis pooling
layer max pooling, learning rate 0.001, menggunakan dropout, dan epoch 50. Cara
pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.

Ukuran kernel konvolusi, tujuannya yaitu untuk mengetahui pengaruh ukuran


kernel konvolusi pada performa model. Dengan variabel peubah dari ukuran kernel
konvolusi yaitu 3 x 3, 5 x 5, 7 x 7 dan variabel tetap yaitu dimensi input 150 x 150
yang merupakan parameter dengan akurasi tertinggi dari percobaan sebelumnya,
jenis pooling layer max pooling, learning rate 0.001, menggunakan dropout, dan
epoch 50. Cara pengukurannya dengan membandingkan nilai validasi akurasi
masing-masing percobaan.

Jenis pooling layer, tujuannya untuk mengetahui pengaruh jenis pooling layer
pada performa model. Dengan variabel peubah dari jenis pooling layer yaitu
39

maximum dan average dan variabel tetap yaitu dimensi input 150 x 150 dan ukuran
kernel konvolusi 3 x 3 yang merupakan parameter dengan akurasi tertinggi dari
percobaan sebelumnya, learning rate 0.001, menggunakan dropout, dan epoch 50.
Cara pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.

Learning Rate, tujuannya untuk mengetahui pengaruh jenis pooling layer pada
performa model. Dengan variabel peubah yaitu learning rate : 0.01, 0.001, dan
0.0001 dan variabel tetap yaitu dimensi input 150 x 150, ukuran kernel konvolusi 3
x 3, dan jenis pooling layer max pooling yang merupakan parameter dengan akurasi
tertinggi dari percobaan sebelumnya, menggunakan dropout, dan epoch 50. Cara
pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan.

Dropout , tujuannya untuk mengetahui pengaruh dropout pada performa


model. Dengan variabel peubah yaitu menggunakan dropout dan tidak
menggunakan dropout dan variabel tetap yaitu dimensi input 150 x 150, ukuran
kernel konvolusi 3 x 3, jenis pooling layer max pooling, dan learning rate 0.001
yang merupakan parameter dengan akurasi tertinggi dari percobaan sebelumnya,
dan epoch 50. Cara pengukurannya dengan membandingkan nilai validasi akurasi
masing-masing percobaan

Epoch, tujuannya untuk mengetahui pengaruh epoch pada performa model.


Dengan variabel peubah dari epoch yaitu 50, 100, dan 150 dan variabel tetap yaitu
dimensi input 150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling layer max
pooling, learning rate 0.001, dan menggunakan dropout yang merupakan
parameter dengan akurasi tertinggi dari percobaan sebelumnya. Cara
pengukurannya dengan membandingkan nilai validasi akurasi masing-masing
percobaan

Setelah parameter yang paling optimal telah ditemukan maka model dapat
disimpan dan digunakan kembali pada tahap pengujian. Model juga dapat langsung
digunakan tanpa disimpan terlebih dahulu. Pada tahap pengujian atau evaluasi data
input yang diberikan merupakan data pengujian yang memiliki spesifikasi serupa
dengan data latih lalu output dari pengujian berupa hasil klasifikasi. Data yang
digunakan merupakan data yang sebelumnya belum pernah digunakan pada
40

pelatihan data. Proses ini menghasilkan prediksi klasifikasi dari input yang
diberikan, hasil prediksi berupa label gambar yang sesuai atau tidak sesuai dengan
label asli.

3.3.4 Performansi Sistem

Setelah melalui tahap training data dan validation data, maka tahap
selanjutnya dapat dilakukan performansi sistem pada tahap pengujian. Performansi
sistem memiliki parameter yaitu akurasi, presisi, dan recall dengan menggunakan
Confusion Matrix untuk membantu pengukuran parameternya.

a. Confusion Matrix

Confusion matrix merupakan suatu alat ukur yang dapat digunakan untuk
menghitung performansi atau derajat kebenaran dalam proses klasifikasi.
Confusion Matrix dapat digunakan untuk mendapatkan nilai akurasi, presisi, dan
recall. Dengan confusion matrix dapat diketahui seberapa baik classifier
menganalisa/mengenali tiap kelas yang ada. Tabel proses confusion matrix dapat
dilihat pada tabel 3.1 dibawah[26].

Tabel 3. 1 Proses Confusion Matrix

Prediksi Positif Negatif

Aktual

Positif TP FN

Negatif FP TN

Keterangan : - TP(True Positive) merupakan data positif yang klasifikasikan


dengan benar(positif)

- FP(False Positive) merupakan data positif yang klasifikasikan


dengan salah(negatif)

- TN(True Negative) merupakan data negatif yang diklasifikasikan


dengan benar(negatif)

- FN(False Negative) merupakan data negatif yang klasifikasikan


dengan salah(positif)
41

b. Akurasi

Akurasi adalah penggambaran nilai prediksi benar dari keseluruhan data.


Akurasi memiliki rentang nilai 0 hingga 1 dan diubah dalam bentuk persentase.
Semakin tinggi nilai persentase akurasi, maka dapat dikatakan bahwa algoritma
yang digunakan pada sistem tersebut juga semakin bagus. Untuk mengetahui nilai
akurasi dapat digunakan persamaan 3.1 dibawah ini[27]

𝑇𝑃 + 𝑇𝑁
𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 (3.1)

c. Presisi

Presisi adalah deskripsi tentang seberapa akurat suatu model yang


memprediksi kejadian positif dalam sebuah prediksi. Untuk mengetahui nilai
presisi yaitu melakukan uji presisi dengan membagi jumlah data positif yang
diklasifikasikan dengan benar dengan total jumlah data positif yang diklasifikasikan
dengan benar maupun salah. Persamaan nilai presisi dapat dilihat pada Persamaan
3.2 [26].
𝑇𝑃
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = 𝑇𝑃+𝐹𝑃 (3.2)

d. Recall

Recall ditujukan untuk mengetahui tingkat keberhasilan model dalam


mengklasifikasikan data dengan benar saat diidentifikasi. Persamaannya recall
dapat dilihat pada persamaan 3.3 [27].
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃+𝐹𝑁 (3.3)
BAB IV
ANALISIS DAN PEMBAHASAN

Pada bab ini dilakukan analisis data berdasarkan tuning parameter yang telah
dilakukan. Total data yang digunakan (termasuk data yang telah di augmentasi)
sebanyak 1.256 dengan 629 data suara normal/sehat dan 627 data suara sakit
pembagian data latih sebanyak 800 data validasi sebanyak 200, dan data tes
sebanyak 256.

4.1. Penentuan Visual Audio

Sinyal suara dapat direpresentasikan dalam berbagai bentuk diantaranya yaitu


audio signal amplitude, spektrogram, dan MFCC. Pada penelitian ini dilakukan
training dengan membandingkan akurasi validasi dan loss validasi tiap visual
audio. Parameter dengan akurasi validasi tertinggi dan loss validasi terendah yang
digunakan untuk tuning parameter untuk menentukan model yang optimal. Hasil
training dari ketiga visual audio yaitu audio signal amplitude, spektrogram, dan
MFCC dalam gambar grafik dibawah.

Gambar 4. 1 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar audio signal amplitude

42
43

Gambar 4. 2 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar Spektrogram

Gambar 4. 3 Perbandingan Grafik Nilai Akurasi terhadap Epoch dan Nilai Loss
terhadap epoch dengan input gambar MFCC

Berdasarkan gambar grafik pada ketiga input visualisasi data , gambar 4.2
yaitu grafik spektrogram menunjukkan perbedaan nilai loss training dan loss
validasi yang tidak terlalu besar meskipun ada beberapa data yang memiliki
44

perbedaan nilai loss training dan loss validasi yang cukup besar akan tetapi itu tidak
berlangsung secara continue sehingga dapat dikatakan bahwa model tidak
mengalami overfitting.

Tabel 4. 1 Pengaruh Input Visualisasi Audio terhadap Akurasi Model

Visual Audio Waktu Latih Loss Validation Validation

(detik) Loss Akurasi

Audio Signal 571 0,2681 0,8039 78,5%


Amplitude

Spektrogram 614 0,0880 0,1380 95,5%

MFCC 563 0,2763 0,3323 86,0%

Pada tabel 4.1 dapat dilihat perbandingan hasil input gambar. Pada tabel
tersebut terlihat bahwa input dengan visualisasi spektrogram memiliki nilai akurasi
validasi tertinggi dan loss validasi terendah dibandingkan dengan input dengan
visualisasi audio signal amplitude dan MFCC. Hal tersebut menandakan
performansi dengan input visualisasi spektrogram lebih baik dibandingkan dengan
input visualisasi audio signal amplitude dan MFCC. Hal tersebut disebabkan dalam
proses training, model belum mampu menangkap karakteristik penting pada suara.
Training data dengan input dengan visualisasi spektrogram masih lebih baik dengan
tingkat akurasi validasi dari training data sebesar 95,5% dibandingkan dengan
penelitian sebelumnya dengan tingkat akurasi validasi dari training data sebesar
95,35%. Maka untuk training parameter model selanjutnya menggunakan input
dengan visualisasi spektrogram.

4.2. Penentuan Parameter Model CNN

Penentuan model CNN dengan melakukan tuning parameter yang telah


ditentukan sebelumnya untuk mendapatkan model yang optimal. Pada penelitian
ini input visual audio yang terpilih yaitu spektrogram. Dalam menentukan
parameter yang optimal peneliti melakukan kajian statistik dengan mengambil
parameter yang memiliki akurasi validasi tertinggi dan loss validasi terendah. Jika
45

nilai akurasi validasi dan nilai validasi terendah serta loss sama atau tidak berbeda
jauh maka yang diambil adalah yang memiliki waktu latih paling sedikit. Parameter
yang di tuning yaitu dimensi input, ukuran kernel konvolusi, jenis pooling layer,
learning rate, dropout, dan epoch.

4.2.1 Pengaruh Dimensi Input

Banyaknya informasi yang masuk untuk diolah pada model dapat dipengaruhi
oleh dimensi input sehingga dapat berpengaruh pada nilai akurasi dari model.
Informasi yang sangat sedikit tidak baik karena memungkinkan kehilangan
informasi penting pada gambar. Informasi yang sangat banyak tidak baik pula
karena dapat membuat nilai komputasi semakin tinggi dan sulit untuk dijalankan.
Training dilakukan dengan menggunakan dimensi input 50 x 50, 100 x 100, dan
150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling layer maksimum, learning
rate 0,001, menggunakan dropout, dan epoch 50.

Tabel 4. 2 Pengaruh Dimensi Input terhadap Akurasi Model

Dimensi Input Waktu Latih Loss Validation Validation


Loss Accuracy

50 x 50 125 0,1782 0,3238 84,0%

100 x 100 292 0,2579 0,2576 88,0%

150 x 150 614 0,0880 0,1380 95,5%

Berdasarkan hasil pada tabel 4.2 diatas dapat dilihat bahwa dimensi input 150
x 150 memiliki akurasi tertinggi. Semakin besar ukuran input belum tentu akan
menaikkan nilai akurasi. Hal ini dapat disebabkan besarnya ukuran akan
memerlukan lapisan layer yang lebih banyak untuk mengeksplorasi input gambar
yang besar namun waktu yang dibutuhkan juga akan semakin besar. Input gambar
yang terlalu kecil juga dapat membuat data kehilangan info penting sehingga dapat
menurunkan tingkat akurasi.
46

4.2.2 Pengaruh Ukuran Kernel Konvolusi

Ukuran kernel konvolusi mempengaruhi banyaknya parameter pembelajaran


sehingga dapat mempengaruhi performansi model. Training dilakukan dengan
menggunakan ukuran kernel yang umum digunakan yaitu 3x3, 5x5, dan 7x7.

Tabel 4. 3 Pengaruh Ukuran Kernel Konvolusi terhadap Akurasi Model

Ukuran Waktu Latih Loss Validation Validation


Kernel Loss Accuracy

3x3 614 0,0880 0,1380 95,5%

5x5 892 0,3537 0,3159 83,0%

7x7 1290 0,2263 0,2965 82,5%

Berdasarkan hasil pada tabel 4.3 diatas, ukuran kernel 3 x 3 memiliki akurasi
validasi tertinggi. Hal ini terjadi karena filter dengan ukuran yang kecil
memungkinkan untuk mengumpulkan informasi sebanyak mungkin dan mampu
membedakan feature pada taraf low level namun membutuhkan kernel yang lebih
banyak. Sedangkan apabila terlalu besar ukuran kernelnya maka wilayah
pengamatan menjadi luas serta akan mengambil informasi secara global dan tak
mampu membedakan ciri yg dengan lebih jelasnya. Ukuran kernel yang semakin
besar juga mempengaruhi waktu yang dibutuhkan untuk training yaitu semakin
besar ukuran kernel maka waktu yang dibutuhkan akan semakin banyak.

4.2.3 Pengaruh Jenis Pooling Layer

Fungsi dari pooling adalah untuk mereduksi data dari hasil konvolusi secara
spasial (mengurangi jumlah parameter). Dengan melakukan pooling dapat
mengurangi tingkat sensitivitas dari noise dan variations. Training dilakukan
dengan menggunakan max pooling dan average pooling.
47

Tabel 4. 4 Pengaruh Jenis Pooling Layer terhadap Akurasi Model

Jenis Pooling Waktu Latih Loss Validation Validation


Layer Loss Accuracy

Maximum 614 0,0880 0,1380 95,5%

Average 576 0,2621 0,2884 88,0%

Berdasarkan hasil pada tabel 4.4 diatas, parameter max pooling memiliki nilai
akurasi validasi tertinggi dibandingkan dengan parameter yang menggunakan
average pooling. Maka untuk training parameter model selanjutnya menggunakan
jenis pooling layer average pooling.

4.2.4 Pengaruh nilai Learning Rate

Salah satu yang mempengaruhi nilai akurasi adalah nilai dari learning rate.
Perubahan bobot pada learning rate yang semakin besar memungkingkan untuk
lebih cepat mencapai titik konfigurasi. Akan tetapi, jika nilai learning rate terlalu
besar akan terjadi perubahan bobot-bobot terhadap nilai error menjadi terlalu
responsif dan tidak mencapai titik konfigurasi.

Tabel 4. 5 Pengaruh Learning Rate terhadap Akurasi Model

Jenis Learing Waktu Latih Loss Validation Validation


Rate Loss Accuracy

0,01 589 0,3218 0,3805 86,0%

0,001 614 0,0880 0,1380 95,5%

0,0001 601 0,2456 0,3107 85,0%

Berdasarkan hasil pada tabel 4.5 diatas, parameter learning rate mencapai
akurasi paling tinggi pada nilai 0,001. Hal ini karena penggunaan learning rate
yang terlalu besar akan menyebabkan perubahan yang besar juga, sehingga dapat
menyebabkan nilai bobot yang optimal dapat terlewatkan. Namun, learning rate
48

yang terlalu kecil menyebabkan proses mencapai bobot yang paling optimal
menjadi sangat lambat.

4.2.5 Pengaruh Dropout

Dropout memungkinkan memilih secara acak neuron untuk tidak digunakan


selama training data. Dengan menggunakan dropout dapat menurunkan overfitting
yang terjadi pada model. Training dilakukan dengan menggunakan dropout dan
tidak menggunakan dropout.

Tabel 4. 6 Pengaruh Dropout terhadap Akurasi Model

Jenis Pooling Waktu Latih Loss Validation Validation


Layer Loss Accuracy

Menggunakan 614 0,0880 0,1380 95,5%


Dropout

Tidak 590 0,4725 0,1707 92,5%


menggunakan
Dropout

Berdasarkan hasil pada tabel 4.5 diatas, parameter yang menggunakan


dropout memiliki akurasi yang lebih tinggi. Maka untuk training parameter model
selanjutnya menggunakan dropout.

4.2.6 Pengaruh Epoch

Epoch menentukan seberapa banyak model melalui proses training dataset


secara keseluruhan. Jumlah epoch yang digunakan juga dapat mempengaruhi
performansi model. Training dilakukan dengan menggunakan epoch yaitu 10, 30,
dan 50.

Tabel 4. 7 Pengaruh Epoch terhadap Akurasi Model

Epoch Waktu Latih Loss Validation Validation


Loss Accuracy
49

50 614 0,0880 0,1380 95,5%

100 1191 0,1157 0,1071 96,0%

150 1740 0,0170 0,1230 97,0%

Berdasarkan hasil pada tabel 4.5 diatas, parameter yang menggunakan epoch
150 memiliki nilai akurasi yang paling tinggi. Hal ini dipengaruhi dari banyaknya
training dataset yang dilakukan. Nilai epoch yang terlalu kecil menyebabkan model
belum mencapai bobot yang optimal sehingga dapat mengakibatkan model belum
dapat mengklasifikasikan kelas dengan benar. Untuk dataset yang berbeda akan
memerlukan nilai epoch yang berbeda pula sehingga tidak dapat dipastikan berapa
jumlah epoch yang paling bagus, jadi jumlah epoch tergantung dari dataset yang
digunakan.

4.3. Hasil Pengujian Model CNN

Berdasarkan training dengan tuning parameter yang telah dilakukan


sebelumnya didapatkan nilai akurasi yang berbeda dari training awal. Hal tersebut
dikarenakan adanya pembaharuan nilai parameter pada saat training yang
didasarkan pada nilai akurasi validasi dan loss dari hasil training. Perbandingan
tersebut data dilihat pada tabel 4.8. Dengan perubahan arsitektur sebelum tuning

Tabel 4. 8 Perbandingan Sebelum dan Sesudah Tuning Parameter

Parameter Sebelum Tuning Setelah Tuning

Waktu Latih 614 detik 1740

Loss 0,0880 0,0170

Validation Loss 0,1380 0,1230

Validation Accuracy 95,5% 97,0%


50

dan setelah tuning terletak pada nilai epoch-nya. Epoch yang digunakan sebelum
tuning parameter sebanyak 50 dan epoch yang digunakan setelah tuning sebanyak
150.

Hasil training dengan tuning parameter yang digunakan untuk pengujian


yaitu input berupa visualisasi suara dalam bentuk spektrogram dengan nilai
parameter dimensi input 150 x 150, ukuran kernel konvolusi 3 x 3, jenis pooling
yaitu max pooling, learning rate 0,001, menggunakan dropout, dan epoch 150.

Hasil pengujian berupa klasifikasi suara normal dan suara sakit. Terdapat 4
jenis klasifikasi yaitu suara normal yang diklasifikasikan dengan benar sebagai
suara normal, suara normal yang diklasifikasikan dengan salah sebagai suara sakit,
suara sakit yang diklasifikasikan dengan benar sebagai suara sakit, dan suara sakit
yang diklasifikasi dengan salah sebagai suara normal. Contoh klasifikasi tersebut
dapat dilihat pada gambar 4.4 dibawah.

a b
(a) (b)
51

c d
(c) (d)

Gambar 4. 4 Contoh Hasil Klasifikasi Data Uji (a) Suara normal yang
diklasifikasikan dengan benar sebagai suara normal, (b) Suara normal yang
diklasifikasikan dengan salah sebagai suara sakit, (c) Suara sakit yang
diklasifikasikan dengan benar sebagai suara sakit, (d) Suara sakit yang
diklasifikasi dengan salah sebagai suara normal

Pada gambar 4.4 diatas adalah salah satu hasil klasifikasi dari data uji. Dengan
gambar 4.4(a) variabel a adalah data suara normal yang diklasifikasikan dengan
benar sebagai data suara normal, gambar 4.4(b) variabel b adalah data suara normal
yang diklasifikasikan dengan salah sebagai data sakit, gambar 4.4(c) variabel c
adalah data suara sakit yang diklasifikasikan dengan benar sebagai data suara sakit,
dan gambar 4.4(d) variabel d adalah data suara sakit yang diklasifikasikan dengan
salah sebagai data suara normal. Hasil dari pengujian dengan menggunakan 256
data baru dengan banyak data yang dapat diprediksi dengan benar sebanyak 229
data yang ditunjukkan pada tabel 4.9 dibawah. Data yang digunakan pada pengujian
merupakan data yang belum pernah digunakan pada proses training. Dari hasil
pengujian tersebut dapat dihitung nilai akurasi yang diperoleh sebagai berikut :

Tabel 4. 9 Confusion Matrix pada Data Uji

Prediksi

Data Aktual Suara Normal Suara Sakit

Suara Normal True Positive(TP) : False Positive(FP) :


113 16
52

Suara Sakit False Negative(FN) : True Negative(TN) :


11 116

Berdasarkan tabel tersebut dapat dihitung nilai performansi dari pengujian


menggunakan confusion matrix diperoleh nilai akurasi, presisi, dan recall sebagai
berikut :
𝑇𝑃 + 𝑇𝑁 113 + 116
- 𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 = 113+16+116+11 = 0,8945 × 100% = 89,45%
𝑇𝑃 113
- 𝑃𝑟𝑒𝑠𝑖𝑠𝑖 = 𝑇𝑃+𝐹𝑃 = 113+16 = 0,875 × 100% = 87,50%

𝑇𝑃 113
- 𝑅𝑒𝑐𝑎𝑙𝑙 = = = 0,911 × 100% = 91,10%
𝑇𝑃+𝐹𝑁 113+11

4.4. Analisis Akhir

Perfomansi model CNN dari pengujian diperoleh nilai akurasi sebesar


89,45%. Hal tersebut menunjukkan bahwa seluruh data hampir diklasifikasikan
dengan benar. Untuk performansi dari model itu sendiri dapat dilihat dari nilai
presisi dan recall. Dari hasil perhitungan didapatkan nilai presisi sebesar 87,50%
dan nilai recall sebesar 91,10 %. Hal ini menunjukkan bahwa sistem dapat
mengklasifikasikan suara normal/sehat maupun suara sakit dengan benar dari
seluruh data yang ada, tetapi ada juga beberapa data yang terklasifikasikan tidak
sesuai dengan data aktualnya. Ilustrasi hubungan dari presisi dan recall dapat dilihat
pada gambar 4.5 dibawah.

Keterangan :

Kumpulan Data Suara

Suara Sakit

Hasil Klasifikasi Suara Sakit

Gambar 4. 5 Ilustrasi Hubungan Presisi dan Recall


Ilustrasi pada gambar 4.5 diatas merupakan hubungan dari presisi dan recall
pada saat nilai recall lebih tinggi dibandingkan nilai presisi. Ada beberapa peristiwa
lain yang mungkin terjadi yaitu nilai presisi dan recall sama-sama tinggi, nilai
53

presisi dan recall sama-sama rendah, dan nilai presisi yang lebih tinggi
dibandingkan nilai recall. Jika nilai presisi dan recall sama-sama tinggi
menunjukkan hasil klasifikasi yang sangat baik. Jika nilai presisi dan recall sama-
sama rendah menunjukkan model belum cukup baik dalam mengklasifikasikan
data. Jika nilai presisi yang lebih tinggi dibandingkan nilai recall menunjukkan
bahwa model dapat mengklasifikasikan sebagian data dengan benar dari data yang
tersedia.
BAB V
KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan hasil analisis, didapatkan beberapa kesimpulan yaitu:


1. Dari algoritma pemrograman yang telah dirancang menggunakan metode
convolutional neural network (CNN) yang dapat digunakan untuk
pengujian model pada data uji diperoleh akurasi validasi 97,0%.

2. Hasil pengujian dengan menggunakan parameter model convolutional


neural network yang telah optimal untuk mengetahui performansi model
berdasarkan hasil analisis dengan jumlah data uji sebanyak 256 dan dapat
diklasifikasikan dengan benar sebanyak 229 data sehingga diperoleh akurasi
data uji sebesar 89,45%.

5.2 Saran

Untuk pengembangan penelitian ini, saran yang dapat diberikan


sebagai berikut:
1. Melakukan penelitian tentang model arsitektur yang lebih baik digunakan
untuk meningkatkan performansi model.
2. Memperbanyak data untuk melatih model sehingga dapat meningkatkan
akurasi
3. Mengimplementasikan model dalam graphical user interface(GUI) agar
dapat digunakan secara langsung

54
55

DAFTAR PUSTAKA

[1] Dhillon. Vaninder Kaur, ”Vocal Cord Disorders”, John Hopkins


Medicine,[Online]. Tersedia di
https://www.hopkinsmedicine.org/health/conditions-and-diseases/vocal-
cord-disorders [Diakses 2 Oktober 2020 ].

[2] Fadilah. Muhammad Agfian, “Rancang Bangun Alat Identifikasi Kelainan


pada Pita Suara menggunakan Pengolahan Citra dengan Metode
Convolutional Neural Network berbasis Raspberry Pi,” S.T. Skripsi, Fakultas
Teknik Elektro, Universitas Telkom. Bandung, 2019

[3] Wundt. Wilhem Max, “Outlines of Psychology (1897)”, Di Found Psychol


thought A Hist Psychol. New York : G. E. Stechert, 2009, pp. 36-44.

[4] Syamsudin dkk, “Anatomi Suara Manusia”, Di Anatomi Suara Kajian Fisika
Medik, 1st ed., Surabaya : Airlangga University Press, 2018, pp. 33-36

[5] Docdoc.com. 2016.Apa itu Stroboskopi: Gambaran Umum, Manfaat, dan


Hasil yang diharapkan. support@docdoc.com.
https://www.docdoc.com/id/info/procedure/stroboscopy/. 05 Oktober 2018.

[6] yesternight.id,2018. 11 Agustus, “Macam-macam format file audio beserta


kelebihan dan kekurangan”, YESTERNIGHT.ID Creative-Multimedia
Agency. [Online]. Tersedia dihttps://yesternight.id/tips-trick/macam-macam-
format-file-audio-beserta-kelebihan-dan-kekurangan/. [Diakses 12 Juli 2021]

[7] Paralkar, Keyur. 2020. “Audio Data Augmentation in Python”. Medium.


[Online]. Tersedia di https://medium.com/@keur.plkar/audio-data-
augmentation-in-python-a91600613e47 [Diakses 1 Juli 2021].

[8] A. Rizal, R. Hidayat, and H. A. Nugroho, “Lung Sounds Classification using


Spectrogram ’ s First Order Statistics Features”, 2016.

[9] elektronika-dasar.web.id, “Operasi Pengolahan Citra Digital”, Elektronika


Dasar. [Online]. Tersedia di https://elektronika-dasar.web.id/operasi-
pengolahan-citra-digital/. [Diakses 14 November 2020]

[10] Udacity.com, “Going further with CNNs,” Di Intro to Tensor Flow for Deep
Learning. Udacity. [Online]. Tersedia di
https://classroom.udacity.com/courses/ud187/lessons/1771027d-8685-496f-
56

8891-d7786efb71e1/concepts/badc7549-a986-459b-8812-23dfee2b4d0d.
[Diakses 15 November 2020]

[11] Redroguez, Jesus.d. k. k, “Using the CNN Architecture in Image Processing”,


Medium. [Online]. Tersedia di https://medium.com/@ODSC/using-the-cnn-
architecture-in-image-processing-65b9eb032bdc [Diakses 30 Juli 2021]

[12] web.stanford.edu, “Introduction to Convolutional Neural Networks”,


Stanford University. [Online]. Tersedia di
https://web.stanford.edu/class/cs231a/lectures/intro_cnn.pdf. [Diakses 14
November 2020]

[13] Sena, Samuael. 2017. “Pengenalan Deep Learning Part 7 :Convolutional


Neural Network (CNN)”. Medium. [Online]. Tersedia di
https://medium.com/@samuelsena/pengenalan-deep-learning-part-
7convolutional-neural-network-cnn-b003b477dc94 [Diakses 15 November
2020].

[14] Cornelisse, Daphne. 2018, 24 April. “An Intuitive guide to Convolutional


Neural Network”. FreeCodeCamp. Tersedia di
https://www.freecodecamp.org/news/an-intuitive-guide-to-convolutional-
neural-networks-260c2de0a050/. [Diakses 15 November 2020]

[15] mathworks.cn, “Introduction to Deep Learning: What Are Convolutional


Neural Networks?”, Di Videos and Webinars Introduction to Deep Learning,
MathWorks. [Online]. Tersedia di
https://ww2.mathworks.cn/en/videos/introduction-to-deep-learning-what-
are-convolutional-neural-networks--1489512765771.html. [Diakses 15
November 2020]

[16] Suyanto, “Machine Learning Tingkat Dasar dan Lanjut”. Bandung :


Informatika, 2018.

[17] I Wayan Suartika E.P dan d.k.k, “Klasifikasi Citra Menggunakan


Convolutional Neural Network(Cnn) pada Caltech 101,”Jurnal Teknik ITS,
2016.

[18] Triano. Nurhikmat, “Implementasi Deep Learning untuk Image Classicication


menggunakan Algoritma Convolutional Neural Network(CNN) pada Citra
57

Wayang Golek,” S.Si. Skripsi, Fakultas Matematika dan Ilmu Pengetahuan


Alam, Universitas Islam Indonesia. Bandung, 2018.

[19] Kurniawan, Kemal. “Apa itu Overfitting?”. Quora. Tersedia di


https://id.quora.com/Apa-itu-Overfitting. [Diakses 14 Juli 2021]

[20] hackaudio.com, “Audio Signals”, Hack Audio. [Online]. Tersedia di


https://www.hackaudio.com/computer-programming/audio-basics/audio-
signals/. [Diakses 14 Juli 2021]

[21] pnsn.org. “What is a Spectogram?”, Pacific Northwest Seismic Network,


[Online]. Tersedia di https://pnsn.org/spectrograms/what-is-a-spectrogram
[Diakses 13 November 2020]

[22] Doshi, Sanket. 2018, 30 Des. “Music Feature Extraction in Python”. Towards
Data Science. Tersedia di https://towardsdatascience.com/extract-features-
of-music-75a3f9bc265d. [Diakses 10 Juli 2021]

[23] Mulyawan, Muhammad. 2020, 10 Nov. “Pengenalan Suara Metode Mel


Frequency Stral Coefficient dan Learning Vector Quantization”. UTama
Universtias Widyatama. Tersedia di https://if.widyatama.ac.id/pengenalan-
suara-metode-mel-frequency-stral-coefficient-dan-learning-vector-
quantization/. [Diakses 5 Juli 2021]

[24] Shankar,Jay.2020, 9 Mei. Train Neural Network by loading your image


|Tensorflow, CNN, Keras tutorial[Video Youtube]. Diakses melalui
https://www.youtube.com/watch?v=uqomO_BZ44g&t=842s, 5 Mei 2021

[25] Medium.com. 2019, 22 Maret. “Audio Classification using CNN – An


Experiment”. Medium. Tersedia di https://medium.com/x8-the-ai-
community/audio-classification-using-cnn-coding-example-. [Diakses 17
Juli 2021]

[26] Y. N. Fu'adah, I. Wijiyanto dan d. k. k, “Automated Classification of


Alzheimer’s Disease Based on MRI Image Processing using Convolutional
Neural Network (CNN) with AlexNet Architecture,” 2020.

[27] Y. N. Fu'adah, S. Sa'idah dan d. k. k, “Computer Aided Diagnosis for Early


Detection of Glaucoma using Convolutional Neural Network (CNN),” 2020.
58

LAMPIRAN
59

Lembar Revisi Tugas Akhir

Nama : Nurul Izzah Luthfiah Nur

NIM : 1104174042

No. Revisi Perbaikan


Bab & Halaman
1. Apakah data audio yang digunakan dilakukan Bab 3.3.2 Hal. 33
filter audio terlebih dahulu?
2. Memperjelas bagian kesimpulan Bab 5 Hal. 54
3. Format, typo, dll dirapihkan dan diperbaiki Semua

Anda mungkin juga menyukai