Anda di halaman 1dari 17

TELEKONTRAN, VOL. 8, NO.

1, APRIL 2020
DOI : 10.34010/telekontran.v8i1.3078
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 57
p-ISSN : 2303 – 2901
e-ISSN : 2654 – 7384

Perancangan Sistem Home Automation Dengan Kendali Perintah


Suara Menggunakan Deep Learning Convolutional Neural Network
(DL-CNN)
Design Of A Voice Controlled Home Automation System Using Deep
Learning Convolutional Neural Network (DL-CNN)
Lery Sakti Ramba, Muhammad Aria Rajasa Pohan
Program Studi Teknik Elektro, Fakultas Teknik dan Ilmu Komputer
Universitas Komputer Indonesia Jl. Dipati ukur No 112, Bandung
Email : lerysaktiramba@mahasiswa.unikom.ac.id

Abstrak - Penelitian ini bertujuan untuk merancang sebuah sistem home automation yang dapat
dikendalikan dengan menggunakan perintah suara. Penelitian ini dilakukan dengan mempelajari penelitian
lain yang bekaitan dengan topik pada penelitian ini, berdiskusi dengan pihak-pihak yang kompeten,
merancang sistem, menguji sistem, dan melakukan analisis berdasarkan pengujian yang telah dilakukan.
Pada penelitian ini dirancang sebuah sistem pengenalan suara menggunakan Deep Learning Convolutional
Neural Network (DL-CNN). Model CNN yang telah dirancang kemudian akan dilatih untuk mengenali
beberapa macam perintah suara. Hasil dari penelitian ini adalah sebuah sistem pengenalan suara yang dapat
digunakan untuk mengendalikan beberapa perangkat elektronik yang terhubung ke sistem. Sistem
pengenalan suara pada penelitian ini memiliki persentase keberhasilan sebesar 100% pada kondisi ruangan
dengan intensitas background noise 24dB (senyap), sebesar 67,67% pada kondisi ruangan dengan intensitas
background noise 42dB, dan hanya 51,67 % pada kondisi ruangan dengan intensitas background noise 52dB
(bising). Persentase keberhasilan sistem pengenalan suara pada penelitian ini sangat dipengaruhi oleh
besarnya intensitas background noise pada suatu ruangan. Oleh karena itu, untuk memperoleh hasil yang
optimal, sistem pengenalan suara pada penelitian ini lebih cocok digunakan pada ruangan dengan intensitas
background noise yang rendah.

Kata kunci : Home Automation, Perintah Suara, Deep Learning, Convolutional Neural Network.

Abstract - The purpose of this research is to design home automation system that can be controlled using
voice commands. This research was conducted by studying other research related to the topics in this
research, discussing with competent parties, designing systems, testing systems, and conducting analyzes
based on tests that have been done. In this research voice recognition system was designed using Deep
Learning Convolutional Neural Networks (DL-CNN). The CNN model that has been designed will then be
trained to recognize several kinds of voice commands. The result of this research is a speech recognition
system that can be used to control several electronic devices connected to the system. The speech recognition
system in this research has a 100% success rate in room conditions with background intensity of 24dB
(silent), 67.67% in room conditions with 42dB background noise intensity, and only 51.67% in room
conditions with background intensity noise 52dB (noisy). The percentage of the success of the speech
recognition system in this research is strongly influenced by the intensity of background noise in a room.
Therefore, to obtain optimal results, the speech recognition system in this research is more suitable for use
in rooms with low intensity background noise.

Keyword : Home Automation, Voice Command, Deep Learning, Convolutional Neural Network

I. PENDAHULUAN Artificial intelligence merupakan bidang ilmu


yang menekankan penciptaan sistem/mesin
A. Latar Belakang cerdas yang bekerja dan bereaksi sama seperti
Saat ini, bidang ilmu yang mempelajari manusia [1]. Seiring perkembangannya, artificial
tentang Artificial Intelligence (AI) sedang intelligence telah dikembangkan kedalam
mengalami perkembangan yang begitu pesat. beberapa sub-bidang, salah satunya adalah
machine learning.
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 58

Machine learning merupakan salah satu membuka ruang yang lebar untuk inovasi-inovasi
cabang pengembangan ilmu artificial intelligence baru di berbagai bidang, salah satunya adalah
yang memungkinkan sistem komputer untuk smart home atau home automation.
belajar dari pengalaman sebelumnya dan Terdapat beberapa penelitian di bidang home
meningkatkan perilaku/respon sistem untuk automation yang memanfaatkan teknologi
setiap tugas yang diberikan [2]. Machine automatic speech recognition untuk
learning terbagi lagi ke dalam beberapa sub- mengendalikan perangat elektronik yang
bagian, salah satu adalah deep learning, yang diinginkan. Namun, aplikasi speech recognition
merupakan pengembangan lebih lanjut dari tersebut mengharuskan kita untuk selalu
machine learning [3]. Saat ini, deep learning terkoneksi internet. Hal ini dikarenakan proses
dianggap sebagai salah satu algoritma yang mengkonversi sinyal audio ke dalam bentuk teks
sangat baik dan akurat dalam memecahkan suatu (speech to text) tidak dilakukan pada perangkat
permasalahan. yang kita miliki, melainkan dilakukan pada
Salah satu bukti nyata keakuratan deep komputer server penyedia layanan speech
learning dalam memproses data dapat kita lihat recognition tersebut. Sehingga dengan demikian,
pada sistem Automatic Speech Recognition metode ini tidak memungkinkan kita untuk
(ASR), seperti google assistant, cortana, siri, dan memasang sistem pengenalan suara yang data
alexa. Model deep learning yang digunakan saat bekerja secara stand-alone pada komputer atau
ini pada automatic speech recognition sehingga perangkat yang kita miliki.
dapat menghasilkan output yang akurat adalah
menggunakan algoritma Long Short-term B. Tinjauan State of Art
Memory dan Recurrent Neural Networks (LSTM Algoritma LSTM RNNs seperti yang terdapat
RNNs) [4]. Namun salah satu masalah yang pada automatic speech recognition dirancang
dihadapi adalah untuk membuat sebuah sistem untuk digunakan memproses sequential data.
automatic speech recognition yang akurat RNN LSTMs menggunakan memori internal
menggunakan LSTM RNNs, maka kita untuk memproses setiap input sequential data
memerlukan sebuah komputer dengan spesifikasi [8]. Menggunakan algoritma LSTM RNNs untuk
sangat tinggi. Hal ini dikarenakan algoritma menjalankan sistem pengenalan suara,
LSTM RNNs pada automatic speech recognition membutuhkan sebuah komputer dengan
menggunakan neural network yang sangat spesifikasi khusus, dikarenakan kompleksitas
kompleks. Sehingga mengakibatkan sistem jaringan dari algoritma ini sangat tinggi.
dengan algoritma ini tidak memungkinkan untuk Terdapat penelitian sebelumnya yang juga
dijalankan pada hardware atau komputer memanfaatkan teknologi speech recognition
komersial dengan spesifikasi umum seperti yang untuk diaplikasikan pada home automation [9].
tersedia di pasaran. Namun sistem tersebut masih menggunakan
Solusi dari permasalah tersebut dapat diatasi aplikasi speech recognition bawaan dari sistem
dengan menggunakan Deep Learning operasi perangkat yang digunakan seperti siri,
Convolutional Neural Networks (DL-CNN). CNN google assistant, atau cortana. Dari segi akurasi
merupakan pengembangan dari multi layer penggunaan aplikasi tersebut tentu sangat baik,
perceptron pada machine learning yang didesain dikarenakan ASR menggunakan algoritma LSTM
untuk mengolah data dua dimensi (gambar) RNNs yang dikenal dengan kompleksitas
menggunakan beberapa lapisan konvolusi [5]. jaringannya yang sangat tinggi sehingga mampu
Secara fungsi, CNN juga memiliki performa menghadirkan output dengan akurasi yang tinggi.
yang sangat mumpuni untuk komputasi Namun aplikasi speech recognition tersebut
pengenalan suara dengan cara memodelkan mengharuskan kita untuk selalu terhubung ke
korelasi spektral dari sebuah sinyal akustik [6]. komputer/server aplikasi speech recognition
Terlebih karena CNN dapat berjalan di komputer dijalankan melalui internet. Seperti yang telah
dengan spesifikasi rendah, tidak seperti LSTM dijelaskan sebelumnya, hal ini dikarenakan
RNNs yang membutuhkan komputer dengan proses mengkonversi sinyal audio kedalam
spesifikasi sangat tinggi. bentuk text tidak dilakukan pada perangkat yang
Perkembangan teknologi digital terutama kita miliki, melainkan dilakukan pada sebuah
dalam bidang telekomunikasi sudah seperti tidak komputer server dengan spesifikasi yang tinggi
mengenal ruang dan waktu dengan adanya tempat sistem speech recognition tersebut
berbagai layanan komunikasi yang menunjang dijalankan
kehidupan manusia sehari-hari [7]. Hal ini telah
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 59

Sedangkan pada penelitian ini, sistem II. METODOLOGI


pengenalan suara dibuat menggunakan algoritma
CNN. Arsitektur CNN yang digunakan terdiri A. Diagram Blok Sistem
dari 24 layer yang terintegrasi satu sama lain Hardware utama pada sistem ini terdiri
untuk melakukan proses feature learning dan mikrofon, komputer, mikrokontroler, dan relay.
klasifikasi terhadap data input. Algoritma ini Diagram blok dari sistem yang dirancang
menggunakan jaringan feed forward dengan ditunjukkan pada Gambar 1.
variasi multi layer perceptron yang dirancang
untuk melakukan preprocessing dalam jumlah
yang minimal. Algoritma ini tidak diracang untuk
memproses sequential data seperti pada LSTM
RNNs, melainkan dirancang untuk memproses
spatial data (data dua dimensi) [10]. Hal inilah
yang memungkinkan sistem pengenalan suara
pada penelitian ini dapat dijalankan pada sebuah
komputer komersial tanpa harus membutuhkan
spesifikasi khusus.
Gambar 1 Diagram Blok Sistem
C. Tujuan
Tujuan dari penelitian ini adalah untuk Berikut adalah penjelasan dari setiap bagian pada
merancang sebuah sistem pengenalan suara yang diagram blok tersebut.
akurat dan mampu berjalan secara stand-alone 1. Input Suara
pada sebuah komputer komersial. Sistem Pada dasarnya, suara yang dihasilkan oleh
pengenalan suara dibuat menggunakan Deep manusia adalah gelombang akustik/bunyi
Learning Convolutional Neural Network (DL- yang saling berpadu sedemikian rupa
CNN) yang terdiri dari 24 layer. Layer-layer sehingga membentuk suara tertentu dapat
tersebut akan melakukan proses feature learning dikenali oleh manusia. Gelombang akustik
dan classification terhadap input data. inilah yang akan dijadikan sebagai input
Pada proses feature learning, terdapat lima untuk mikrofon.
layer konvolusi yang digunakan. Semakin 2. Mikrofon
banyak layer konvolusi yang digunakan maka Pada sistem ini, mikrofon berfungsi sebagai
akurasi sistem juga akan semakin baik namun komponen untuk mendeteksi input
penggunaan layer konvolusi yang banyak akan gelombang akustik/bunyi. Mikrofon akan
membuat proses komputasi menjadi semakin mengkonversi gelombang input akustik
kompleks dan dalam. Arsitektur DL-CNN pada kedalam energi listrik atau yang sering
sistem ini di-set hanya menggunakan lima layer disebut sinyal audio. Pada penelitian ini jenis
konvolusi dengan tujuan supaya sistem mikrofon yang digunakan adalah mikrofon
pengenalan suara mampu berjalan secara stand- kondensor.
alone pada sebuah komputer tanpa harus 3. Komputer
membutuhkan spesifikasi khusus, namun disatu Pada sistem ini, komputer merupakan
sisi, tetap memiliki akurasi yang tinggi dalam hardware utamanya. Komputer bertugas
mengklasifikasikan data masukan. untuk memproses setiap input yang diterima
Sistem pengenalan suara pada penelitian ini mikrofon dan kemudian mengolah sinyal
dirancang untung pengaplikasian pada sistem audio yang diterima dari mikrofon. Data
home automation. Sistem akan dilatih untuk sinyal audio yang diterima dari mikrofon
mampu mengenali beberapa jenis perintah yang akan diproses pada komputer menggunakan
dapat digunakan utnuk mengendalikan beberapa algoritma yang akan dirancang untuk mampu
perangkat elektronik menggunakan perintah mengenali perintah suara. Komputer pada
suara. sistem ini juga bertugas untuk berkomunikasi
. dengan mikrokontroler.
4. Mikrokontroler
Mikrokontroler adalah bagian yang akan
mengendalikan perangkat elektronik
berdasarkan output dari sistem pengenalan
suara. Mikrokontroler akan berkomunikasi
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 60

secara real-time dengan komputer melalui yang digunakan pada sistem ini adalah rangkaian
komunikasi serial. Output dari sistem relay dengan low level trigger.
pengenalan suara yang dijalankan pada
komputer merupakan acuan utama bagi C. Konversi Speech Waveform ke Speech
mikrokontroler untuk menentukan perangkat Spectrogram
elektronik mana yang hendak dikendalikan. Proses konversi sinyal audio dari speech
5. Relay waveform ke dalam bentuk speech spectrogram
Pada sistem ini, relay berperan sebagai merupakan proses yang sangat penting pada
switch antara beban dengan sumber tegangan. sistem ini. Hal ini dikarenakan representasi sinyal
Relay sepenuhnya dikendalikan oleh input audio dalam bentuk spectrogram merupakan
sinyal (low atau high) yang diterima dari input untuk CNN pada sistem ini. Berikut pada
mikrokontroler. Rangkaian relay yang Gambar 3 adalah diagram blok proses konversi
digunakan pada sistem ini adalah rangkaian speech waveform ke speech spectrogram.
relay dengan low level trigger.
6. Beban
Beban adalah perangkat elektronik yang
hendak dikendalikan oleh sistem. Beban
yang digunakan bisa beragam. Namun pada
sistem ini perangkat elektronik yang hendak
dikendalikan adalah lampu, kipas angin, dan
lock door solenoid.

B. Diagram Skematik Sistem


Diagram skematik hardware sistem pada Gambar 3 Diagram blok proses konversi speech waveform ke
penelitian ini dapat dilihat pada Gambar 2. speech spectrogram

Komponen utama skematik sistem ini adalah


Arduino Nano dan relay. Berikut ini adalah penjelasan setiap bagian pada
diagram blok diatas.
1. Analog to Digital Converter (ADC)
Sinyal yang dideteksi oleh mikrofon pada
dasarnya adalah sinyal analog. Oleh karena
itu, sebelum sinyal suara tersebut dapat
diproses oleh MATLAB, pertama-tama perlu
mengubah sinyal analog tersebut menjadi
sinyal digital. Frekuensi sampling yang
digunakan pada proses ini adalah 16 KHz.
2. Speech Waveform
Speech waveform merupakan sinyal hasil
sampling dari sinyal analog yang dideteksi
oleh mikrofon. Pada tahap ini, speech
waveform yang ada merupakan sinyal digital
yang memiliki frekuensi sampling 16 KHz,
sesuai dengan inisialisasi yang ditentukan
sebelumnya pada program MATLAB. Speech
waveform direpresentasikan dalam bentuk
Gambar 2 Diagram skematik sistem
grafik waktu terhadap amplitudo.
3. Mel Spectrogram
Arduino Nano secara real-time akan Mel Spectrogram merupakan algoritma yang
berkomunikasi dengan komputer dimana digunakan untuk menghitung spectrogram
program pengenalan suara dijalankan. Output dari suatu sinyal audio. Pada algoritma ini,
dari sistem pengenalan suara akan dijadikan terdapat beberapa parameter yang harus
sebagai acuan utama oleh mikrokontroler untuk diinisialisasi untuk keperluan komputasi
mengirim trigger (low atau high) ke rangkaian tersebut, yakni:
relay. Seperti pada Gambar 2 diatas, rangkaian  Window Length
 Overlap Length
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 61

 FFT Length pada sistem ini memiliki beberapa layer berulang


 Numbands sebanyak 5 kali. Setiap perulangan tersebut
 Frequency Range terdiri dari convolutional layer, batch
Pada algoritma ini sinyal audio digital normalization layer, dan ReLU layer. Arsitektur
pertama-tama di-buffer kedalam frame CNN ini akan melakukan proses komputasi
berdasarkan jumlah samples Window Length. terhadap input data sampai menghasilkan
Setiap frame kemudian mengalami proses klasifikasi terhadap suatu kelas tertentu.
overlapped bedasarkan jumlah samples pada Pada Gambar 5 adalah flowchart proses
Overlap Length yang diinisialisasi pada klasifikasi pada arsitektur CNN yang telah
script matlab. Periodik hamming window dirancang. Penjelasannya adalah sebagai berikut.
kemudian akan diterapkan ke setiap frame. 1. Input pada arsitektur CNN ini, merupakan
Fungsi matematika pada hamming window gambar yang berukuran [40 x 98]. Gambar
menggunakan persamaan (1) berikut. input tersebut adalah gambar yang diambil
dari speech spectrogram dengan durasi satu
(1) detik. (3.1)
2. Pada convolution layer yang pertama,
Dimana:
gambar input akan dikonvolusikan oleh filter
w = Hamming window
yang berukuran [3 x 3], stride berukuran [1 x
n = Time index
1], dan padding “same”. Dikarenakan
N = Number of samples
PaddingMode yang digunakan adalah
Frame tersebut kemudian akan “same”, maka sistem akan memberlakukan
ditransformasi dari domain waktu kedalam aturan zero padding terhadap input matriks.
domain frekuensi menggunakan Discreate Nilai dari zero padding dapat ditentukan
Fourier Transform (DFT). Pada perhitungan menggunakan persamaan (3) berikut ini.
ini, diterapkan juga algoritma Fast Fourier
Transfor (FFT) dengan tujuan untuk (3)
mempercepat proses komputasi DFT.
Transformasi DFT menggunakan persamaan Dimana:
(2) berikut. K = Filter Size
Sedangkan(3.2)
output size dari convolution layer
dapat dihitung dengan menggunakan
persamaan (4) berikut ini.
Dimana:
x(k) = Sample in frequency
x(n) = Sample in time
n = Time index Dimana :
k = Frequency index W = Input Size
N = Number of samples K = Filter Size
P = Padding
Nilai N dari persamaan diatas ditentukan S = Stride
dari nilai FFT Length yang telah diinisialisasi
sebelumnya pada script MATLAB. Setiap Dikarenakan PaddingMode yang digunakan
frame dari sinyal dalam domain frekuensi dalam mode “same” dan ukuran stride yang
kemudian akan melalui mel filter bank. digunakan adalah [1 x 1], maka dapat dipastikan
Output spektral dari mel filter bank bahwa output size dari convolution layer ini
dijumlahkan, dan setiap channel-nya adalah sama dengan ukuran input size dari
digabungkan sehingga setiap frame gambar input yakni [40 x 98]. Setelah itu, output
ditransformasikan ke dalam vektor kolom dari convolution layer akan melewati batch
Numbands-element. normalization layer yang fungsinya adalah untuk
mempercepat proses training dari CNN. Selain
D. Arsitektur CNN itu, input gambar juga akan melalui ReLU layer
yang bertujuan untuk mengubah nilai minus pada
Arsitektur CNN pada sistem ini terdiri dari 24
output proses konvolusi pada convolution layer
layer. Gambar 4 merupakan diagram blok dari
menjadi nol.
arsitektur CNN pada sistem ini. Arsitektur CNN
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 62

Gambar 4 Diagram Blok Arsitektur CNN

3. Setelah melewati proses konvolusi pada Output dari max pooling layer berdasarkan
convolution layer, maka output dari proses persamaan (3) dan (5) adalah [20 x 49].
konvolusi pertama tersebut selanjutnya akan 4. Output dari max pooling layer yang
menjadi input untuk max pooling layer. Pada berukuran [20 x 49] pada proses sebelumnya,
layer ini, gambar akan di downsampling kemudian akan menjadi input pada proses
menggunakan pool size berukuran [3 x 3], kovolusi kedua dengan filter berukuran [3 x
stride [2 x 2], dan PaddingMode ‘same’. 3], stride berukuran [1 x 1], dan
Nilai dari padding pada layer ini dapat PaddingMode ‘same’. Dengan memasukkan
digitung menggunakan persamaan (1) seperti nilai-nilai tersebut kedalam persamaan (3)
yang terdapat pada convolution layer . dan (4), maka ukuran output dari proses
Sedangkan output size pada max pooling konvolusi yang kedua adalah sama dengan
layer menggunakan persamaan (5) berikut. ukuran input-nya yakni [20 x 49].
5. Setelah itu, output dari convolution layer
(3.6)
yang kedua akan di downsampling lagi pada
max pooling layer dengan pool size
Dimana: berukuran [3 x 3], stride [2 x 2], dan
W = Input Size PaddingMode ‘same’. Dengan memasukkan
Ps = Pool Size nilai-nilai tersebut kedalam persamaan (3)
P = Padding dan (5) maka akan didapat output matriks
S = Stride dengan ukuran [10 x 25].
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 63

Gambar 5 Flowchart proses klasifikasi

6. Output matriks dari max pooling layer pada memasukkan nilai-nilai tersebut kedalam
proses sebelumnya yang berukuran [10 x 25], persamaan (3) dan (5) maka akan didapat
kemudian akan menjadi input pada proses output matriks dengan ukuran [5 x 13].
konvolusi yang ketiga dengan filter 8. Setelah itu, output matriks yang berukuran [5
berukuran [3 x 3], stride [2 x 2], dan Padding x 13] dari max pooling layer, akan
Mode ‘same’. Dengan memasukkan nilai- dikonvolusi berturut-turut menggunakan dua
nilai tersebut kedalam persamaan (3) dan (4), convolution layer sekaligus dengan filter
maka ukuran output dari proses konvolusi berukuran [3 x 3], strides [1 x1], dan
yang ketiga adalah sama dengan ukuran PaddingMode ‘same’. Dari kedua proses
input-nya yakni [10 x 25]. konvolusi ini, output yang dihasilkannya
7. Setelah itu, output dari layer konvolusi yang adalah matriks yang berukuran sama dengan
ketiga yang berukuran [10 x 25] akan di input-nya yakni [5 x 13].
downsampling lagi pada max pooling layer 9. Dari hasil konvolusi pada layer sebelumnya
dengan pool size berukuran [3 x 3], stride [2 yang menghasilkan matriks [5 x 13], maka
x 2], dan PaddingMode ‘same’. Dengan data tersebut selanjutnya akan melewati
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 64

proses downsampling terakhir pada max menggunakan algoritma Adam Optimizer.


pooling layer dengan pool size berukuran [1 Algoritma ini bekerja dengan menghitung
x 13], stride [1 x 1], dan padding [0,0,0,0]. learning rates untuk setiap parameter yang
Dengan memasukkan nilai-nilai tersebut berbeda.
kedalam persamaan (3) dan (5), maka akan
didapatkan output dengan ukuran [5 x 1]. Pada sistem ini, nilai epoch yang digunakan
10. Data pada layer sebelumnya akan diproses adalah 25, yang berarti bahwa arsitektur CNN
pada dropout layer. Dropout layer bertujuan akan mengulang siklus belajar dari data training
untuk mencegah overfitting dan juga sebanyak 25 kali. Setelah proses training
mempercepat proses training dengan cara selesai, sistem akan mengevaluasi model CNN
beberapa membuang beberapa neuron secara yang telah dilatih dengan menggunakan data
acak berdasarkan probabilitas yang validasi yang sebelumnya telah dipisahkan dari
diberikan. data training. Proses ini bertujuan untuk
11. Fully connected layer pada arsitektur ini akan mengukur persentase keakuratan klasifikasi dari
mengolah data dengan melakukan model CNN yang telah dilatih. Gambar 6 adalah
transformasi pada dimensi data agar dapat hasil evaluasi dari model CNN terhadap setiap
diklasifikasikan. Dalam proses kelas data.
klasifikasinya, fully connected layer akan
menggabungkan setiap feature yang ada F. Pendeteksian Perintah Suara
untuk mengklasifikasikan gambar input. Menggunakan Model CNN Untuk
Banyaknya data yang dihasilkan pada proses Mengendalikan Perangkat Elektronik
ini akan sama dengan jumlah kelas data yang Hasil dari proses training model CNN yang
ada. telah dilakukan sebelumnya akan menghasilkan
12. Layer terakhir pada proses klasifikasi adalah sebuah model CNN dengan nilai bobot dan bias
softmax layer. Layer ini akan menghitung tertentu. Model CNN yang telah di-training
probabilitas gambar input terhadap semua inilah yang akan digunakan untuk
kelas target yang memungkinkan dan mengklasifikasikan perintah suara yang dideteksi
kemudian akan menentukan kelas target oleh mikrofon secara real time untuk
berdasarkan input yang diberikan. mengendalikan perangkat elektronik tertentu.
Untuk lebih lengkapnya, flowchart dari sistem
E. Training Deep Learning kendali ini dapat dilihat pada Gambar 7.
Convolutional Neural Network (DL- Berikut ini adalah penjelasan dari flowchart
CNN) seperti yang terdapat pada Gambar 7.
Pada sistem ini terdapat enam macam 1. Proses pertama dimulai dengan meng-import
perintah suara yang akan dijadikan sebagai beberapa library/toolbox yang hendak
perintah untuk mengendalikan perangkat digunakan pada sistem ini. Terdapat tiga
elektronik. Data set disimpan pada suatu library yang digunakan, yakni audio toolbox,
direktori yang bernama ‘Data-Training’. Dalam deep learning toolbox, dan arduino support
direktori ‘Data-Training’ terdapat beberapa sub- package. Audio toolbox merupakan library
direktori, yang mana setiap sub-direktori tersebut yang digunakan untuk membaca sinyal audio
memuat kumpulan data yang saling berkaitan. yang dideteksi mikrofon. Deep learning
Data-data tersebutlah yang akan dijadikan toolbox merupakan library yang digunakan
sebagai data training pada sistem ini. Kelas-kelas untuk membuat arsitektur deep learning
data training adalah “Nyalakan Lampu”, convolutional neural network. Selain itu,
“Matikan Lampu”, “Kunci Pintu”, Buka Pintu”, deep learning toolbox juga digunakan untuk
“Kipas Menyala”, “Kipas Mati”, “Unknown”, melatih arsitektur CNN yang telah dibuat.
dan “Background” Library yang terakhir adalah arduino support
Kelas data utama yang hendak dijadikan package, yang berfungsi untuk mengatur
sebagai acuan untuk mengendalikan perangkat komunikasi serial antara MATLAB dengan
elektronik adalah Nyalakan Lampu, Matikan board mikrokontroler arduino. Library
Lampu, Kunci Pintu, Buka Pintu, Kipas Menyala, arduino support package ini juga
dan Kipas Mati. Ke-enam kelas data utama memungkinkan board mikrokontroler
tersebut akan dilatih menggunakan data training arduino untuk dapat diprogram menggunakan
yang berjumlah sekitar 2000 data untuk setiap bahasa pemrograman MATLAB.
kelas. Training arsitektur CNN pada sistem ini
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 65

Gambar 6 Evaluasi model CNN

2. Lalu sistem akan membaca sinyal audio yang probabilitas dari setiap kelas data terhadap
dideteksi oleh mikrofon. Pada proses ini, speech spectrogram yang diproses oleh
soundcard yang tertanam pada komputer model CNN. Data probabilitas dideklarasikan
merupakan perangkat utama yang akan sebagai profBuffer.
digunakan untuk membaca sinyal audio pada 6. Output dari proses klasifikasi yakni Ybuffer
mikrofon. Sinyal audio yang akan dibaca dan probBuffer kemudian digunakan untuk
oleh MATLAB merupakan sinyal digital menghitung parameter-parameter yang
yang sebelumnya telah di-sampling oleh hendak digunakan dalam proses selanjutnya.
soundcard menggunakan ADC dengan 7. Thresholding operation merupakan
frekuensi sampling 16 KHz. perhitungan yang bertujuan untuk
3. Sinyal audio yang terbaca kemudian akan mendeklarasikan hasil deteksi model CNN
dikonversi ke dalam bentuk spectrogram. [11]. Deklarasi hasil deteksi tersebut
Proses konversi ini menggunaan mel kemudian akan dijadikan sebagai acuan
spectrogram function pada MATLAB. untuk menentukan output dari pin
4. Spectrogram dari sinyal audio kemudian mikrokontroler arduino yang terhubung ke
akan digunakan sebagai input untuk model rangkaian relay.
CNN yang telah dilatih sebelumnya. Model 8. Sistem ini dirancang untuk bekerja secara
CNN yang telah dilatih pada sistem ini real time memproses sinyal audio yang
diprogram untuk dapat melakukan klasifikasi dideteksi oleh mikrofon dan kemudian
terhadap delapan kelas data yakni melakukan klasifikasi menggunakan model
‘MatikanLampu’, ‘NyalakanLampu’, CNN untuk mengendalikan perangkat
‘KunciPintu’, ‘BukaPintu’, ‘KipasMenyala’, elektronik yang terhubung ke board
’KipasMati’, ’Unknown’, dan ’background’. mikrokontroler arduino. Hasil deteksi akan
5. Output proses klasifikasi oleh model CNN ditampilkan pada window detection
terbagi atas dua jenis data yakni label dan bersamaan dengan bentuk speech waveform
probabilitas. Label merupakan data string dan speech spectrogram dari sinyal audio
yang berkaitan dengan kelas data yang ada yang dideteksi mikrofon. Untuk
pada model CNN. Data string tersebut menyelesaikan atau menghentikan proses
kemudian dideklarasikan sebagai Ybuffer. deteksi, dapat dilakukan dengan menutup
Sedangkan probabilitas adalah data double window detection, sehingga dengan demikian
atau data desimal yang menunjukkan nilai sistem akan berhenti beroperasi.
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 66

Gambar 7 Flowchart pendeteksian perintah suara untuk mengendalikan perangkat elektronik

III. HASIL DAN PEMBAHASAN elektronik menggunakan perintah suara. Berikut


Pengujian terhadap sistem yang telah ini adalah hasil dari kedua pengujian tersebut.
dirancang dilakukan melalui dua jenis pengujian,
yakni pengujian sistem pengenalan suara dan
pengujian sistem pengendalian perangkat
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 67

A. Pengujian sistem pengenalan suara c. Perintah “Kunci Pintu”


Pengujian sistem pengenalan suara dilakukan
secara langsung pada beberapa kondisi yang
berbeda. Berikut adalah hasil pengujian yang
telah dilakukan.
1. Pengujian pada intensitas background noise
24dB (senyap)
Pengujian ini dilakukan pada ruangan dengan
intensitas background noise rata-rata 24dB.
Masing-masing perintah suara yang telah
dilatih pada model CNN diuji untuk
mengetahui output klasifikasi dari model
CNN tersebut. Berikut ini pada Gambar 8
sampai Gambar 13 adalah hasil
Gambar 10 Bentuk speech waveform dan speech
pengujiannya. spectrogram perintah ‘Kunci Pintu’ pada intensitas
a. Perintah “Nyalakan Lampu” background noise 24dB

d. Perintah “Buka Pintu”

Gambar 8 Bentuk speech waveform dan speech


spectrogram perintah ‘Nyalakan Lampu’ pada intensitas
background noise 24dB
Gambar 11 Bentuk speech waveform dan speech
spectrogram perintah ‘Buka Pintu’ pada intensitas
b. Perintah “Matikan Lampu” background noise 24dB

e. Perintah “Kipas Menyala”

Gambar 9 Bentuk speech waveform dan speech


spectrogram perintah ‘Matikan Lampu’ pada intensitas
background noise 24dB
Gambar 12 Bentuk speech waveform dan speech
spectrogram perintah ‘Kipas Menyala’ pada intensitas
background noise 24dB
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 68

f. Perintah Kipas Mati c. Persentase keberhasilan mengenali


perintah “Kunci Pintu”

d.

e. Persentase keberhasilan mengenali


perintah “Buka Pintu”

f.

g. Persentase keberhasilan mengenali


perintah “Kipas Menyala”

h.

i. Persentase keberhasilan mengenali


Gambar 13 Bentuk speech waveform dan speech perintah “Kipas Mati”
spectrogram perintah ‘Kipas Mati’ pada intensitas
background noise 24dB

Gambar 8 sampai Gambar 13 adalah Dengan menggunakan persamaan (6),


bentuk speech waveform dan speech dapat dihitung persentase keberhasilan total
spectrogram dari hasil pengujian yang telah sistem mengenali perintah suara pada
dilakukan pada masing-masing perintah. intensitas background noise 24db (senyap)
Untuk mengetahui akurasi sistem dalam sebagai berikut:
mendeteksi perintah suara, maka pengujian
ini dilakukan sebanyak 10 kali pada setiap
perintah suara. Berikut pada Tabel I adalah
hasil pengujian tersebut. 2. Pengujian pada intensitas background noise
42dB (senyap)
Tabel I. Hasil pengujian pada intensitas background noise Pengujian ini dilakukan pada ruangan
24dB (senyap)
dengan intensitas background noise rata-rata
Jumlah 42dB. Masing-masing perintah suara yang
Jumlah
No Perintah Suara Deteksi
Uji telah dilatih pada model CNN diuji untuk
Benar
1 Nyalakan Lampu 10 10
mengetahui output klasifikasi dari model
2 Matikan Lampu 10 10 CNN tersebut. Berikut ini pada Gambar 14
3 Kunci Pintu 10 10 sampai Gambar 19 adalah hasil
4 Buka Pintu 10 10 pengujiannya.
5 Kipas Mati 10 10
6 Kipas Menyala 10 10 a. Perintah “Nyalakan Lampu”

Dari hasil pengujian yang telah dilakukan,


persentase keberhasilan deteksi dapat
dihitung menggunakan persamaan (6).

(6)

a. Persentase keberhasilan mengenali


perintah “Nyalakan Lampu”

b. Persentase keberhasilan mengenali Gambar 14 Bentuk speech waveform dan speech


perintah “Matikan Lampu” spectrogram perintah ‘Nyalakan Lampu’ pada intensitas
background noise 42dB
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 69

b. Perintah “Matikan Lampu” e. Perintah “Kipas Menyala”

Gambar 15 Bentuk speech waveform dan speech Gambar 18 Bentuk speech waveform dan speech
spectrogram perintah ‘Matikan Lampu’ pada intensitas spectrogram perintah ‘Kipas Menyala’ pada intensitas
background noise 42dB background noise 42dB

f. Perintah Kipas Mati


c. Perintah “Kunci Pintu”

Gambar 19 Bentuk speech waveform dan speech


spectrogram perintah ‘Kipas Mati’ pada intensitas
Gambar 16 Bentuk speech waveform dan speech
spectrogram perintah ‘Kunci Pintu’ pada intensitas background noise 42dB
background noise 42dB
Gambar 14 sampai Gambar 19 adalah
d. Perintah “Buka Pintu” bentuk speech waveform dan speech
spectrogram dari hasil pengujian yang telah
dilakukan pada masing-masing perintah.
Untuk mengetahui akurasi sistem dalam
mendeteksi perintah suara, maka pengujian
ini dilakukan sebanyak 10 kali pada setiap
perintah suara. Berikut pada Tabel II adalah
hasil pengujian tersebut.

Tabel II. Hasil pengujian pada intensitas background noise


42dB
Jumlah
Jumlah
No Perintah Suara Deteksi
Uji
Benar
Gambar 17 Bentuk speech waveform dan speech
1 Nyalakan Lampu 10 7
spectrogram perintah ‘Buka Pintu’ pada intensitas 2 Matikan Lampu 10 6
background noise 42dB 3 Kunci Pintu 10 6
4 Buka Pintu 10 8
5 Kipas Mati 10 6
6 Kipas Menyala 10 7
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 70

a. Perintah “Nyalakan Lampu”


Dari hasil pengujian yang telah dilakukan,
persentase keberhasilan deteksi dapat
dihitung menggunakan persamaan (6).
a. Persentase keberhasilan mengenali
perintah “Nyalakan Lampu”

b. Persentase keberhasilan mengenali


perintah “Matikan Lampu”

Gambar 20 Bentuk speech waveform dan speech


c. Persentase keberhasilan mengenali spectrogram perintah ‘Nyalakan Lampu’ pada intensitas
perintah “Kunci Pintu” background noise 52dB

b. Perintah “Matikan Lampu”

d. Persentase keberhasilan mengenali


perintah “Buka Pintu”

e. Persentase keberhasilan mengenali


perintah “Kipas Menyala”

f. Persentase keberhasilan mengenali


perintah “Kipas Mati”
Gambar 21 Bentuk speech waveform dan speech
spectrogram perintah ‘Matikan Lampu’ pada intensitas
background noise 52dB
Dengan menggunakan persamaan (6), dapat
dihitung persentase keberhasilan total sistem c. Perintah “Kunci Pintu”
mengenali perintah suara pada intensitas
background noise 42db (senyap) sebagai
berikut:

3. Pengujian pada intensitas background noise


52dB (senyap)
Pengujian ini dilakukan pada ruangan dengan
intensitas background noise rata-rata 52dB.
Masing-masing perintah suara yang telah
dilatih pada model CNN diuji untuk
mengetahui output klasifikasi dari model Gambar 22 Bentuk speech waveform dan speech
CNN tersebut. Berikut ini pada Gambar 20 spectrogram perintah ‘Kunci Pintu’ pada intensitas
background noise 52dB
sampai Gambar 25 adalah hasil
pengujiannya.
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 71

d. Perintah “Buka Pintu” Untuk mengetahui akurasi sistem dalam


mendeteksi perintah suara, maka pengujian
ini dilakukan sebanyak 10 kali pada setiap
perintah suara. Berikut pada Tabel III adalah
hasil pengujian tersebut.

Tabel III. Hasil pengujian pada intensitas background noise


52dB (bising)
Jumlah
Jumlah
No Perintah Suara Deteksi
Uji
Benar
1 Nyalakan Lampu 10 5
2 Matikan Lampu 10 4
3 Kunci Pintu 10 5
4 Buka Pintu 10 6
Gambar 23 Bentuk speech waveform dan speech
5 Kipas Mati 10 5
spectrogram perintah ‘Buka Pintu’ pada intensitas
6 Kipas Menyala 10 6
background noise 52dB

Dari hasil pengujian yang telah dilakukan,


e. Perintah “Kipas Menyala”
persentase keberhasilan deteksi dapat
dihitung menggunakan persamaan (6).
a. Persentase keberhasilan mengenali
perintah “Nyalakan Lampu”

b. Persentase keberhasilan mengenali


perintah “Matikan Lampu”

Gambar 24 Bentuk speech waveform dan speech


c. Persentase keberhasilan mengenali
spectrogram perintah ‘Kipas Menyala’ pada intensitas perintah “Kunci Pintu”
background noise 52dB

f. Perintah Kipas Mati


d. Persentase keberhasilan mengenali
perintah “Buka Pintu”

e. Persentase keberhasilan mengenali


perintah “Kipas Menyala”

f. Persentase keberhasilan mengenali


perintah “Kipas Mati”
Gambar 25 Bentuk speech waveform dan speech
spectrogram perintah ‘Kipas Mati’ pada intensitas
background noise 52dB

Dengan menggunakan persamaan (6), dapat


Gambar 20 sampai Gambar 25 adalah
dihitung persentase keberhasilan total sistem
bentuk speech waveform dan speech
mengenali perintah suara pada intensitas
spectrogram dari hasil pengujian yang telah
background noise 52db (bising) sebagai
dilakukan pada masing-masing perintah.
berikut:
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 72

sangat berbeda. Pada kondisi senyap


(intensitas background noise 24dB) akurasi
pendeteksian perintah suara mencapai 100%.
Sedangkan pada kondisi bising (intensitas
B. Pengujian sistem pengendalian background noise 52dB) akurasi
perangkat elektronik menggunakan pendeteksian perintah suara hanya 51,67%.
perintah suara Hasil ini memiliki sedikit kemiripan dengan
Pengujian sistem pengendalian perangkat penelitian sebelumnya yang berjudul
elektronik pada tahap ini dilakukan “Applying Voice Recognition Technology for
menggunakan sebuah komputer yang di Smart Home Network” [9]. Pada penelitian
dalamnya telah terpasang software MATLAB tersebut, persentase akurasi sistem pada
R2019a. Pengujian dilakukan dengan kondisi senyap adalah 80%. Sedangkan pada
menjalankan sistem pengenalan suara kondisi bising, persentase keakuratannya
menggunakan MATLAB R2019a dan kemudian turun menjadi 60%. Dari hasil tersebut, dapat
menyebutkan secara langung perintah-perintah diketahui bahwa intensitas background noise
yang telah dilatih pada model CNN. Tujuan dari sangat mempengaruhi akurasi dari sistem
pengujian itu adalah melihat apakah sistem dapat pengenalan suara.
mengendalikan perangkat elektronik dengan 2. Data Training
benar berdasarkan perintah suara yang diberikan. Hal lain yang memiliki pengaruh signifikan
Hasil pengujian pada tahap ini dapat dilihat pada pada akurasi dari sistem pengenalan suara
Tabel IV berikut pada penelitian ini adalah data training. Pada
penelitian ini, data training yang digunakan
Tabel IV. Hasil pengujian sistem pengendali perangkat elektronik pada setiap kelas berada pada kisaran 1700
menggunakan perintah suara sampai 2500 data. Algoritma deep learning
Jumlah convolutional neural network pada penelitian
Jumlah
No Perintah Suara Deteksi ini, melakukan ekstraksi ciri pada setiap data
Uji
Benar training yang ada untuk nantinya dijadikan
1 Nyalakan Lampu 10 10 sebagai acuan pada proses klasifikasi. Oleh
2 Matikan Lampu 10 10 karena itu, semakin banyak dan beragam
3 Kunci Pintu 10 10 data training yang ada pada setiap kelas,
4 Buka Pintu 10 10 maka akan semakin akurat pula model CNN
5 Kipas Mati 10 10 dalam melakukan proses klasifikasi secara
6 Kipas Menyala 10 10 real-time.
Sistem secara real time melakukan proses
Dengan menggunakan persamaan (6), maka
klasifikasi terhadap sinyal audio yang dideteksi
dapat diperoleh tingkat keberhasilan sistem untuk
mikrofon dan hanya akan berhenti beroperasi
mengendalikan perangkat elektronik melalui
ketika jendela window detection yang
komunikasi serial antara MATLAB dan Arduino
menampilkan speech waveform dan speech
adalah sebagai berikut.
spectrogram ditutup. Keberhasilan proses
pengendalian perangkat elektronik pada
penelitian ini berhubungan secara langsung
terhadap keberhasilan sistem pengenalan suara
dalam mendeteksi perintah suara dengan benar.
C. Analisis Hasil Pengujian Hal ini dikarenakan, pada program MATLAB
Berdasarkan persentase keberhasilan
yang dibuat, sistem akan secara real-time
pengenalan perintah suara yang telah dilakukan,
membaca output klasifikasi dari model CNN.
terdapat beberapa hal yang sangat berpengaruh
Output dari model CNN kemudian akan
terhadap keakurasian sistem dalam mengenali
dijadikan sebagai acuan untuk mengendalikan
perintah suara. Berikut ini adalah hal-hal yang
perangkat elektronik yang terhubung ke setiap
mempengaruhi keakurasian sistem.
pin pada board arduino. Kesalahan model CNN
1. Intensitas background noise
dalam mendeteksi perintah suara, secara
Berdasarkan hasil pengujian yang telah
langsung juga akan mengakibatkan kesalahan
dilakukan sebelumnya, dapat diketahui
pada proses pengendalian perangkat elektronik.
bahwa akurasi pengenalan perintah suara
pada kondisi senyap dengan kondisi bising
TELEKONTRAN, VOL. 8, NO. 1, APRIL 2020 73

IV. KESIMPULAN menggunakan jaringan feed forward dengan


Berdasarkan pengujian yang telah dilakukan, variasi multi layer perceptrons yang dirancang
data ditarik beberapa kesimpulan. Sistem untuk melakukan preprocessing dalam jumlah
pengenalan suara pada penelitian ini memiliki minimal.
persentase keberhasilan sebesar 100% pada Sistem pengenalan suara pada penelitian ini
kondisi ruangan dengan intensitas background dapat dikembangkan lagi dari segi akurasinya.
noise 24dB (senyap), sebesar 67,67% pada Sehingga dengan demikian diharapkan bahwa,
kondisi ruangan dengan intensitas background siste tidak hanya memiliki akurasi yan baik pada
noise 42dB, dan sebesar 51,67% pada kondisi kondisi ruangan senyap, namun juga memiliki
ruangan dengan intensitas background noise akurasi yang baik pada kondisi ruangan yang
52dB (bising). Dari hasil tersebut dapat bising. Sistem pengenalan suara pada penelitian
disimpulkan bahwa semakin senyap kondisi ini hanya mampu memproses perintah suara
suatu ruangan, maka akan semakin baik pula dengan durasi pengucapan maksimal 1 detik.
akurasi dari sistem pengenalan suara pada Pengembangan selanjutnya bisa dilakukan
penelitian ini. Sebaliknya semakin bising kondisi dengan menambah kemampuan sistem dalam
suatu ruangan, maka akurasi dari sistem mendeteksi perintah suara dengan durasi
pengenalan suara akan semakin menurun. Oleh pengucapan yang lebih lama. Sehingga dengan
karena itu, untuk memperoleh hasil yang optimal, demikian, sistem pengenalan suara dapat di
sistem ini lebih cocok digunakan pada ruangan program untuk mengenali perintah suara yang
dengan intensitas background noise yang rendah. lebih beragam dan variatif.
Sistem pengenalan suara menggunakan DL-
CNN pada penelitian ini dirancang untuk dapat DAFTAR PUSTAKA
diaplikasikan pada home automation. Perintah-
perintah yang dapat dikenali oleh sistem [1] G. Matt, Essentials of Artificial Intelligence. 2012.
[2] N. Giang, D. Stefan, B. Martin, T. Viet, L. P. Alvaro, H.
pengenalan suara pada sistem ini adalah sebagai Ignacio, M. Peter and H. Ladislav, “Machine Learning and
berikut. Deep Learning frameworks and libraries for large-scale data
mining: a survey,” Artificial Intelligence Review, vol. 52, pp.
 Nyalakan Lampu 77-124, Jan. 2019.
 Matikan Lampu [3] S. Jurgen, “Deep learning in neural networks: An overview,”
 Kunci Pintu Neural Networks, vol.61, pp. 85-117, Jan 2015.
[4] B. Francoise, “The neural networks behind Google Voice
 Buka Pintu Transcription,” 2015. [Online]. Available:
 Kipas Mati https://ai.googleblog.com/2015/08/the-neural-networks-
behind-google-voice.html. [Accessed: 12-Feb-2020].
 Kipas Menyala [5] O. Kalin, R. Olatunji, Y. K. Joo, F. Jeremy, S. Karin, S. C.
Persentase keberhasilan sistem Eric, “Accelerating Deep Convolutional Neural Networks
Using Specialized Hardware,” Feb. 2015.
mengendalikan perangkat elektronik berdasarkan [6] Z. Ying, P. Mohammad, B. Philemon, Z. Saizheng, L. Cesar,
output dari sistem pengenalan suara pada B. Yoshua and C. Aaron, “Towards End-to-End Speech
penelitian ini adalah sebesar 100%. Hal ini Recognition with Deep Convolutional Neural Networks,” Jan.
2017.
berarti bahwa sistem kendali perangkat [7] R. Tri, Wahyudi, “Sistem Keamanan Rumah Dengan
elektronik mampu merespon setiap output dari Monitoring Menggunakan Jaringan Telepon Selular”
Telekontran, vol. 1, pp. 24-32, Jan. 2013.
model CNN pada sistem pengenalan suara [8] Tutorialspoint, “TensorFlow – CNN and RNN Difference,”
dengan sempurna. [Online]. Available:
Sistem pengenalan suara pada penelitian ini https://www.tutorialspoint.com/tensorflow/tensorflow_cnn_an
d_rnn_difference.htm. [Accessed: 23-Feb-2020].
mampu melakukan klasifikasi terhadap sinyal [9] A. A. Aml and S. M. Mohamed, “Applying Voice Recognition
audio dengan durasi maksimal satu detik. Sistem Technology for Smart Home Networks,” 2016 International
akan mengambil representasi dua dimensi dari Conference on Engineering & MIS (ICEMIS), pp. 1-6, Sept.
2016.
sinyal audio (spectrogram) setiap satu detik, dan [10] L. Yanan, Z. Jie, Y. Chengfei, Z. Xiaosong, L. Tao and B.
kemudian langsung melakukan klasifikasi Gang, “HIS-CNN: A Novel Convolution Neural Network for
Hyperspectral Image,” 2018 International Converence on
terhadap data tersebut. Sistem pengenalan suara Audio, Language and Image Processing (ICALIP), pp. 464-
pada penelitian ini dapat bekerja secara stand 469, Jul. 2018.
alone pada sebuah komputer komersial tanpa [11] MatWorks, “Speech Command Recognition Using Deep
Learning,” [Online]. Available:
harus menggunakan komputer dengan spesifikasi https://www.mathworks.com/help/deeplearning/examples/dee
khusus. Ini dapat dicapai karena sistem p-learning-speech-recognition.html. [Accessed: 08-July-2019].
pengenalan suara pada penelitian ini dibuat

Anda mungkin juga menyukai