Proposal Riset Haris Isyanto - OK

DAFTAR SINGKATAN
AI Artificial Intelligence
ANN Artificial Neural Network
UBM Universal Background Model
CNN Convolutional Neural Network
DNA Deoxyribo Nucleic Acid
DNN Deep Neural Networks
DWT Discrete Wavelet Transform
EER Equal Error Rate
FAR False Acceptance Rate
FCN Fully Convolutional Network
FRR False Rejected Rate
GMM UBM Gaussian Mixture Model Universal Background Model
HMM Hidden Markov Model
LSTM Long Short Term Memory
MFCC Mel Frequency Cepstral Coefficient
ML Machine Learning
MLP Multi Layer Perceptron
PIN Personal Identification Number
PSNR Peak Signal to Noise Ratio
PNN Probabilistic Neural Network
ReLU Rectified Linear Units
RNN Recurrent Neural Network
ROI Region of Interest
SVD Singular Value Decomposition
SVM Support Vector Machine
BAB 1
PENDAHULUAN
1.1 Latar Belakang

Pesatnya perkembangan teknologi informasi dan komunikasi mendorong
perusahaan dan perbankan menerapkan teknologi digital. Teknologi digital sangat
berpengaruh dalam menjawab tuntutan pekerjaan yang lebih cepat, mudah, dan
menghemat waktu. Pertukaran informasi dan data secara digital memerlukan keamanan
antara lain untuk identifikasi perorangan.
Kejahatan penipuan data dan pencurian identitas menjadi ancaman baru dalam
kejahatan dunia maya. Identifikasi perorangan dalam mengakses informasi dan data
menjadi sangat penting pada perusahaan dan perbankan. Adapun metode identifikasi
perorangan yang digunakan selama ini menggunakan kata sandi, kartu ID magnetik,
kode Personal Identification Number (PIN) pada kartu kredit dan kartu debit perbankan
[1-3]. Metode identifikasi tersebut masih memiliki kekurangan seperti lupa, kartu rusak,
kartu hilang, diretas, dicuri, dipalsukan atau disalahgunakan [4, 5]. Untuk
meminimalisir permasalahan tersebut, maka metode identifikasi perorangan ini terus
dikembangkan.
Metode identifikasi perorangan berbasis biometrik merupakan alternatif solusi
yang dikembangkan terutama untuk entri keamanan tingkat tinggi, seperti gedung
pemerintah maupun militer, akses ke data / informasi sensitif, dan pencegahan penipuan
atau pencurian. Metode identifikasi biometrik ini merupakan teknologi yang dapat
diandalkan karena lebih aman, menjaga privasi, terpercaya dan cepat dalam
mengidentifikasi dan mengautentifikasi individu melalui penggunaan karakteristik
biologis manusia [3, 6]. Setiap orang memiliki ciri unik biometrik yang sudah melekat
pada tubuh setiap individu, yang tidak mudah untuk ditiru. Metode identifikasi
biometrik ini jauh lebih sulit untuk direkontruksi, diretas, atau dipalsukan [7, 8].
Ada dua karateristik yang digunakan dalam identifikasi biometrik, yaitu
karateristik fisiologis dan karateristik perilaku setiap individu agar dapat diketahui
autentikasi identitasnya [9]. Karateristik fisiologis ini berhubungan dengan bentuk dan /
atau komposisi tubuh manusia, seperti sidik jari, bentuk tangan, jari, pola vena, mata
(iris dan retina), bentuk wajah dan Deoxyribo Nucleic Acid (DNA). Karateristik perilaku
ini berhubungan dengan pola unik yang ditunjukkan melalui tindakan, seperti suara,
gaya berjalan, dinamika tanda tangan dan dinamika keystroke, dan detak jantung [10,
11].
Dalam penelitian ini, dipilih voice biometric karena memiliki keunggulan dapat
mengautentikasi voice melalui jarak jauh menggunakan perangkat selular atau
smartphones [12], biaya implementasi voice biometric lebih rendah [13, 14] daripada
solusi biometrik lainnya karena tidak diperlukan perangkat khusus, mis. pembaca sidik
jari atau pemindai retina, menawarkan perlindungan terhadap fraud/penipuan [15],
menjaga privasi identitas personal, memiliki keamanan yang tinggi, metode identifikasi
yang mudah dioperasikan dan akurat untuk mengidentifikasi seseorang [3, 16].
Beberapa tahun belakangan ini, voice biometric menjadi topik yang menarik
perhatian dalam berbagai teknologi di masa depan. Voice biometric digunakan untuk
autentikasi user, misalnya pada perbankan, karena memiliki keamanan yang tinggi dan
memiliki keakuratan dalam mengidentifikasi seseorang [3]. Kemajuan Voice biometrik
sedang menjadi perhatian para peneliti untuk mengkaji lebih dalam. Pada penelitian ini
diajukan Autentikasi Voice Biometrik dengan Metode Wavelet dan Convolutional
Neural Network.
Deep Learning adalah bagian dari kecerdasan buatan, yang merupakan
pengembangan dari neural network untuk memberikan ketepatan tugas seperti deteksi
objek dan pengenalan suara. Deep Learning secara otomatis melakukan representasi
dari data seperti gambar, video, suara atau text tanpa memperkenalkan aturan kode atau
pengetahuan domain manusia. Penelitian ini mengunakan metode transformasi wavelet
diskrit, yang mana berfungsi sebagai denoising dan segmenttion dalam sinyal voice.
Dan pada penelitian ini mengunakan Convolutional Neural Network (CNN) yang
merupakan pengembangan metode deep learning dari pengembangan Multi Layer
Perceptron (MLP) yang didesain untuk mengolah data dua dimensi. CNN termasuk
dalam jenis Deep Neural Network karena dalamnya tingkat jaringan dan banyak
diimplementasikan dalam data citra dan suara.
1.1.1 Pengenalan Suara
Pengenalan Suara atau Voice Recognition terbagi menjadi dua bagian yaitu
Speech Recognition dan Speaker Recognition. Speech Recognition adalah proses
mengenali apa kata yang diucapkan seseorang. Speaker Recognition adalah proses
mengenali identitas suara siapa yang berbicara berdasarkan voice signal. Voice
Recognition adalah gabungan keduanya dimana suara digunakan untuk menentukan
siapa yang bicara dan apa yang dikatakan. Suara setiap orang unik, seperti nada suara,
gaya berbicara, aksen dll. Voice Recognition merupakan aplikasi dari metode biometric
untuk identifikasi suara seseorang berdasarkan karateristik biologis setiap individu agar
dapat diketahui autentikasi suara identitasnya. Maka voice recognition merupakan
aplikasi voice biometic untuk tujuan keamanan [22, 37]. Adapun proses voice biometic,
secara umum metode skenario pengaplikasiannya, yaitu dengan melakukan proses
identifikasi dan autentikasi user.
Pada tahap identifikasi user, suara yang menjadi input ditangkap oleh sensor
suara, dimana proses penangkapan (capture) ini berupa voice signal. Selanjutnuya voice
signal diproses dengan pemrosesan sinyal digital. Dari hasil pemrosesan (processing)
sinyal tersebut dilakukan extra feature suara. Selanjutnya dilakukan identifikasi voice
biometric sebagai suara ciri unik user dari create template didaftarkan. Identifikasi
voice biometric ini melibatkan proses speech dan speaker recognition pada saat create
template mengenali suara user. Identifikasi user voice biometric terdaftar tersebut
disimpan dalam database (storage device). Alur kerja proses identifikasi voice
biometric dapat terlihat pada Gambar 1.1.
Gambar 1. 1. Alur kerja proses identifikasi voice biometric
Pada tahap autentifikasi user, Seperti halnya pada yang dilakukan tahap
identifikasi user, maka proses autentifikasi ini input voice signal baru ditangkap oleh
sensor suara, setelah proses capture voice signal dilakukan dengan pemrosesan
(processing) sinyal digital. Dari hasil pemrosesan sinyal tersebut, maka dilakukan extra
feature suara. Selanjutnya proses membandingkan atau mencocokkan template (match
template) antara identifikasi user voice signal baru dengan template identifikasi user
yang telah terdaftar dan tersimpan dalam database sebelumnya. Proses pencocokkan
identifikasi user tersebut dilaksanakan satu per satu menunjukan status terdaftar atau
tidaknya seorang user pada database. Hasil keluaran dari proses pencocokan ini untuk
menentukan autentikasi user voice biometric dan menentukan akurasi kecocokan suara
dengan template dalam database. Alur kerja proses autentikasi voice biometric dapat
terlihat pada Gambar 1.2.
Gambar 1. 2. Alur kerja proses autentikasi voice biometric
1.1.2 Deep Learning

Teknologi Artificial Intelligence dan Machine learning merupakan teknologi
yang berkembang sangat cepat terutama pada masa sekarang ini saat industri 4.0 yang
semakin banyak penggunaan data dengan waktu cepat serta jumlah banyak. Namun
dalam menganalisis data mentah diperlukan pengetahuan yang cukup baik agar data
yang diperoleh dapat menghasilkan analisis yang baik dan bermanfaat. Pengetahuan
terhadap data dapat disebut sebagai fitur untuk dianalisis dalam machine learning. Salah
satu contoh data mentah yang perlu pengolahan dahulu yaitu pengolahan sinyal suara.
Sinyal suara perlu diubah terlebih dahulu menjadi suatu representasi fitur agar dapat
diolah oleh pengklasifikasi sehingga fitur tersebut mampu dikenali atau dideteksi
sebagai suatu pola tertentu.
Teknik dengan representasi fitur pun semakin berkembang dari kecerdasan

buatan, machine learning hingga deep learning yang mulai dikembangkan sejak tahun
2012. Penggambaran fitur vektor yang dapat dikenali atau dideteksi merupakan salah
satu representasi dari jaringan syaraf tiruan yang merupakan bagian dari machine
learning. Semakin banyak fitur vektor serta proses yang dikerjakan oleh suatu machine
learning maka sistem tersebut dapat dinamakan deep learning.
Pada Gambar 1.3(a) menunjukkan suatu vektor fitur dengan single layer yaitu
antara layer input diproses hingga layer output. Hubungan langsung antara layer input
dengan layer output dinamakan single layer neural network. Selanjutnya, vektor fitur
yang lebih banyak dengan suatu hidden layer dinamakan sebagai multi-layer neural
network terlihat pada Gambar 1.3(b). Apabila semakin banyak vektor fiturnya, semakin
banyak hidden layer yang terhubung satu dengan yang lain dan semakin banyak pula
hubungan antar nodes pada jaringan disebut sebagai deep neural network terlihat pada
Gambar 1.3(c). Maka, deep learning dapat dikatakan sebagai pengembangan dari multi
layer neural network tetapi dengan pembelajaran yang lebih dalam dan vektor fitur yang
lebih banyak. Beberapa model deep learning yang telah dikembangkan antara lain
Convolutional Neural Network (CNN) dan Long Short Term Memory (LSTM). CNN
merupakan suatu model deep learning yang dikembangkan terutama untuk data berupa
citra dan suara. LSTM merupakan model deep learning yang dikembangkan untuk data
sinyal suara dan runtun waktu. Deep learning telah banyak diaplikasikan dalam
berbagai bidang seperti natural language processing, speech recognition, tulisan tangan
dan vein biometrik. Namun, pada beberapa proses klasifikasi, deep learning seringkali
di-hybrid dengan teknik ekstraksi fitur traditional seperti pada speech recognition.
Gambar 1. 3. Cabang Jaringan Syaraf Tiruan Berdasarkan Arsitektur Lapisan pada
Jaringan [17]
1.2 Permasalahan
Kejahatan penipuan data dan pencurian identitas menjadi ancaman baru dalam
kejahatan dunia maya (cybercrime). Metode identifikasi konvesional untuk akses data,
seperti kata sandi, kartu ID magnetik, kode Personal Identification Number (PIN), dll
mempunyai kekurangan seperti lupa, kartu rusak, kartu hilang, diretas, dicuri, ataupun
dipalsukan. Untuk meminimalisir permasalahan tersebut, maka metode identifikasi terus
dikembangkan, terutama untuk keamanan akses data sensitif seperti mobile banking di
perbankan. Penerapan metode voice biometrik dapat digunakan untuk peningkatan
keamanan. Metode data biometrik ini dapat diandalkan karena lebih aman, terpercaya
dan cepat saat proses identifikasi dan autentikasi user berbasis suara. Voice biometrik
dipilih dalam penelitian ini karena voice biometric dapat melakukan autentikasi suara
secara jarak jauh mengunakan mobile device atau smartphone melalui jaringan
telekomunikasi [12], tidak memerlukan perangkat keras khusus [21], memberikan
perlindungan dari penipuan [15], mudah diakses, paling sederhana dan termudah
digunakan untuk otentikasi pengguna, menjaga privasi identitas personal, memiliki
keamanan yang tinggi, dan akurat untuk mengidentifikasi seseorang [3, 16, 22].
Dibandingkan dengan fitur biologis lainnya, voice biometrik memiliki beberapa
keunggulan khusus: tidak bersentuhan, biaya implementasi rendah dibanding metode
biometrik lainnya, aplikasi luas, mudah ditangani [13, 14, 23].
Pada pembahasan penelitian sebelumnya [24], autentikasi voice user letaknya
berada di server. Masalahnya informasi voice yang dikirim ke Server masih dalam
bentuk plaintext (text biasa), yang mana rentan disadap sehingga user dapat dengan
mudah terbongkar. Terkait dengan permasalahan tersebut, maka perlu upaya agar
autentikasi voice user dapat dilakukan di Mobile Device bukan di server (Autentikasi
running on smartphone) [13, 25-28]. Pada setiap mengirimkan informasi dari suatu
mobile device ke mobile device lainnya ataupun mobile device ke smart device lainnya
melalui layanan cloud pihak ketiga lintas platform itu rentan dari masalah dan ancaman
cybercrime. Untuk itu diusulkan solusi teknik autentikasi dan keamanan melalui
autentikasi running on smartphone dengan teknologi komputasi authentication
frameworks and protocols.
Autentikasi voice user pada smartphone kini tengah dikembangkan pada metode
biometrik. Implementasi autentikasi voice user pada smartphone merupakan kemajuan
dalam teknologi Artificial Intelligence (AI) dan kekuatan komputasi. Interaksi secara
berkelanjutan meningkatkan teknologi termasuk autentikasi voice biometrics
menggunakan Artifcial Intelligence (AI). Jumlah data yang besar memberikan masalah
pada autentikasi running on smartphone. Untuk menangani hal tersebut dibutuhkan
perangkat kekuatan komputasi teknologi AI untuk proses pengolahan data.
Perkembangan teknologi Artificial Intelligence (AI), Machine Learning (ML)
hingga mesin cerdas yang lainnya diprediksi akan terus berkembang. Berbagai
terobosan AI yang lebih cerdas telah banyak diimplementasikan di dunia nyata.
Teknologi mesin cerdas makin mengemuka sejalan dengan terus
berkembangnya algoritma AI.
Perkembangan teknologi mesin cerdas bertujuan menghasilkan tingkat akurasi
yang tinggi. Namun, jumlah data yang besar memberikan masalah dalam proses
identifikasi biometric pada kerumitan dan dalam waktu yang singkat. Disamping itu
masalah yang terjadi pada sinyal voice adalah terjadinya noise yang
mengkontaminasi proses pengolahannya dan permasalahan kualitas suara yang
menurun akibat noise [29].
Pada penelitian ini menggunakan metode Deep Learning berbasis Convolutional
Neural Network (CNN), karena algoritma CNN memiliki kinerja yang tinggi yang telah
digunakan untuk pelatihan dan pengujian database. Dengan kinerja metode CNN
tersebut diharapkan dapat membantu menyelesaikan permasalahan jumlah data yang
besar dalam proses identifikasi biometric pada kerumitan dan dalam waktu yang
singkat. Permasalahan tersebut diatas dilakukan oleh CNN pada tahap Training Data,
dimana proses learning dataset voice signal dilatih pada Deep Learning Framework
mengunakan komputer. Dan metode CNN dapat membantu menyelesaikan tuntutan
permasalahan identifikasi user yang bekerja lebih aman, cepat dan akurat. Metode CNN
ini aman karena dapat mengurangi dari terjadinya pemalsuan, cepat karena waktu
prosesnya yang relatif singkat walaupun dengan jumlah data yang besar dan akurat
karena classifier bisa kenali fitur orang-orang tertentu, sekaligus bedakan fitur antar
orang.
CNN Trained Model yang telah dilatih sebelumnya diterapkan pada kumpulan
database suara untuk memaksimalkan akurasi klasifikasi CNN. Klasifikasi CNN dapat
membedakan suara yang berbeda dan konten yang diartikulasikan. Skema deep
learning CNN digunakan untuk melatih identitas suara pembicara dan konten suara
dengan jaringan yang terlatih, sehingga dapat mengautentikasi identitas suara pembicara
dan konten suara. Klasifikasi CNN ini diharapkan dapat membantu mengatasi masalah
kelemahan dalam sistem voice recognition atau voice biometrik berupa
serangan/pemalsuan rekaman suara. Dengan penerapan metode klasifikasi CNN yang
telah dilatih pada banyak sampel training dataset voice, maka CNN Trained Model
dapat membedakan antara suara yang asli (valid) dengan rekaman suara (tidak valid),
sehingga akurasi autentikasi dan ketahanan terhadap serangan pemalsuan suara dapat
terjaga. Adapun klasifikasi CNN Trained Model menghasilkan keluaran berupa label
validasi data (valid/tidaknya) autentikasi identitas voice signal user. Hasil keluarannya
diharapkan dapat mencapai kinerja akurasi autentikasi tinggi diatas 90%. Untuk
mencapai akurasi autentikasi yang tinggi, maka kinerja autentikasi dapat lebih
dioptimalkan dan ditingkatkan dengan lebih banyak sampel training [30-32].
Permasalahan noise yang terjadi pada sinyal voice, yang mengkontaminasi proses
pengolahannya dan permasalahan kualitas suara yang menurun akibat noise [29].
Adapun solusi untuk mengatasi permasalahan noise tersebut, yaitu dengan
menggunakan metode Feature extraction Discrete Wavelet Transform (DWT). Metode
DWT merupakan cara efektif untuk menghilangkan noise (denoising) pada pemrosesan
sinyal agar kualitas suara menjadi lebih baik dan segmentation pada DWT ini akan
memisahkan suara-suara yang dibutuhkan saja dari suara lainya yang tidak dibutuhkan,
seperti noise. Dan DWT ini memiliki kemampuan aplikasi yang luas di bidang analisis
dan pemrosesan berbagai sinyal, seperti kompresi dan pengurangan noise, analisis voice
signal dalam sistem voice biometrik, berbagai pendekatan untuk pengurangan noise
digunakan untuk mendeteksi audio signal. Dalam pengunaan pemrosesan sinyal.
Beberapa feature extraction MFCC dengan metode Discrete Fourier Transform
(DFT) ini tidak terlalu handal, sering kali kualitasnya menurun akibat noise, hal ini
dapat menyebabkan error pada proses komputasi. Feature extraction tersebut hanya
dilokalisasi dalam frekuensi sehingga kehilangan semua kendali atas waktu.
Sedangkan feature extraction dengan metode DWT ini sinyal dapat dilokalisasi dalam
waktu dan frekuensi. Setiap pengukuran DWT sesuai dengan parameter tetap akan
memberikan informasi tentang jangkauan temporal waktu sinyal, serta informasi
tentang spektrum frekuensi sinyalnya [33-35].
1.3 Tujuan Penelitian
Adapun tujuan penelitian ini untuk merancang sistem autentikasi voice biometric
berbasis smartphone menggukanan fitur ekstraksi DWT dan CNN. Algoritma deep
learning berbasis Convolutional Neural Network (CNN) diaplikasikan untuk dapat
mengidentifikasi dan mengautentikasi voice biometrik user seseorang dengan
kemampuan akurasi tinggi. Dan dengan pemrosesan sinyal suara yang cepat, akurat dan
efisien dalam penggunaan hardware.
Urgensi atau manfaat yang dapat diperoleh dari penelitian ini adalah suatu model
sistem yang dapat mengidentifikasi dan mengautentikasi voice biometrik melalui
smartphone. Diharapkan model ini dapat diimplentasikan oleh masyarakat umum,
seperti pada nasabah perbankan mobile banking. Analisis dan pembahasan yang
mendalam tentang metode voice processing dan deep learning diharapkan dapat
menambah publikasi karya ilmiah di tingkat nasional maupun internasional.
1.4 Kontribusi Penelitian
Penelitian ini diharapkan mampu berkontribusi untuk menghasilkan algoritma

ektraksi fitur DWT yang akurat dengan metode yang tepat untuk mengidentifikasi dan
mengautentikasi voice biometrik user, karena menggunakan metode Deep Learning
CNN. Dan algoritma ini dapat diharapkan dapat diterapkan untuk komputer kecil seperti
Raspberry Pi maupun Android.
Dengan mempertahankan akurasi yang tinggi, penelitian ini dapat menghasilkan
metode yang paling efisien dalam waktu komputasi. Efisiensi waktu komputasi dapat
diperoleh dengan memodifikasi CNN dan DWT. DWT dapat membantu menghilangkan
noise dan memilih sinyal-sinyal yang dibutuhkan dalam voice signal. Hal ini sangat
membantu dalam proses pemilihan fitur sebelum dilakukan proses CNN. Komputasi
pada CNN menjadi lebih cepat karena data yang diproses tidak semuanya melainkan
sebagian data yang dipilih, dimana mempunyai informasi yang signifikan.
1.5 Batasan Masalah
Pada penelitian ini menggunakan data suara dari dataset voice recognition yang
telah dipublikasikan pada paper sebelumnya. Dataset suara pertama diperoleh dari
POLYCOST [59] dengan jumlah pembicara 131, jenis telephone speech dan sample rate
8.000 Hz. Dataset suara kedua diperoleh dari ICSI Meeting speech [60] dengan jumlah
pembicara 53, jenis micropohone speech dan sample rate 16.000 Hz.
Penelitian ini dibatasi pada algoritma ekstraksi fitur DWT, dalam hal ini
menggunakan metode Deep Learning CNN. Walaupun hanya fokus pada algoritma dan
penulisan program untuk komputer atau mikroprosesor, penelitian ini juga tetap
mempertimbangkan aspek hardware.
BAB 2
TINJAUAN PUSTAKA
2.1 Voice Biometrik

Suara seseorang mengandung informasi yang kompleks sinyal yang bergantung
pada fisik dan perilaku karakteristik. Untuk mengenali seseorang berdasarkan suara,
kompleksitas harus dikurangi sambil tetap menjaga informasi yang cukup dalam vektor
fitur suara yang diekstraksi. Suara orang dapat dibedakan berdasarkan frekuensinya
speech, nada dan amplitudo. Frekuensi speech diukur berdasarkan kecepatan pada yang
mana individu mengucapkan kata. Amplitudo didasarkan pada tinggi nada atau
kenyaringan kata yang diucapkan [36].
Gambar 2. 1. Voice Recognition [37]
Suara atau voice yang menjadi ciri khas dari manusia, kemudian input voice
ditangkap oleh sensor suara, dimana proses penangkapan biometrik ini berupa voice
signal. Kemudian mengumpulkan input voice signal. Konten suara pertama kali dikenali
sebagai voice sample. Selanjutnuya diproses dengan pemrosesan sinyal digital. Dari
hasil pemrosesan sinyal yang diperoleh kemudian dilakukan fitur ekstraksi suara.
Selanjutnya voice signal diproses dan dicocokkan dengan data disimpan dalam
database. Proses ini merupakan proses voice recognition atau voice biometrik, seperti
terlihat pada Gambar 2.1 [37].
Voice biometric ini menggunakan pendekatan beberapa karakteristik menonjol
dari suara manusia dalam mengenali individual dengan penggunaan algoritma tertentu.
Ini adalah pendekatan yang lebih menantang daripada kebanyakan metode identifikasi
klasik lainnya, karena karakteristik suara tidak hanya dipengaruhi oleh fisik aspek
saluran suara individu, tetapi juga oleh perilaku aspek seperti cara berbicara dan transisi
audio. Ada dua jenis metode voice recognition: metode text independent dan metode
text dependent bergantung pada teks metode. Dalam metode text independen, tidak ada
batasan khusus dalam ucapan. Dengan demikian, model pembicara menangkap hanya
karakteristik ucapan. Tapi tergantung teks sistem menggunakan frasa tertentu dalam
pengucapan seperti password, kode PIN untuk pengenalan identitas speaker.
Saat ini, voice recognition merupakan pendekatan yang menjanjikan untuk
aplikasi berbasis keamanan terutama karena, mereka menghilangkan sebagian besar
ancaman keamanan dan penipuan transaksi melalui penyediaan autentikasi yang andal
pengguna. Selain itu, sistem tersebut menawarkan banyak keuntungan lainnya seperti
dikte otomatis, handsfree, dan pengguna intuitif interaksi dan antarmuka perintah.
Dengan demikian, mereka telah memperoleh keuntungan popularitas luar biasa di
berbagai bidang termasuk informasi layanan, layanan akses database, panggilan suara,
pesan suara, perbankan melalui telepon dan belanja telepon dll. Selain itu, mungkin
satu-satunya biometrik yang dapat melakukannya mudah diuji dari jarak jauh melalui
jaringan telepon, dan karena itu akan menjadi lebih populer di masa depan.
Voice biometrik secara umum digunakan untuk proses identifikasi dan
autentikasi. Identifikasi digunakan untuk mengenali identitas seseorang dan
authentikasi digunakan untuk memastikan apakah data yang diberikan cocok dengan
data yang sudah ada. Voice biometrik merupakan metode yang dapat mengidentifikasi
suara seseorang berdasarkan karateristik biologis setiap individu agar dapat diketahui
autentikasi identitasnya lebih tepat. Dalam hal ini akan melakukan perbandingan
kecocokan antara data biometrik yang diberikan seseotang yang akan dibandingkan
dengan data yang sudah ada pada database lalu apabila ditemukan kecocokan
maka akan diberikan jawaban yang sesuai dengan permintaan. Untuk identifikasi user
diharuskan memasukkan nama user, dapatkan kode registrasi khusus (yaitu, user perlu
membaca konten suara), dan kemudian mengumpulkannya dan masukkan suara.
Setelah perolehan suara berhasil segmen, konten suara pertama kali dikenali. Jika
memang konsisten dengan konten yang ditetapkan, maka langkah-langkah berikut
seperti itu sebagai pra-pemrosesan, fitur ekstraksi dan training model, pencocokan dan
autentikasi dilakukan. Jika tidak, pengguna perlu memasukkan kembali suara yang
sama dengan konten yang ditentukan. Di proses pencocokan, hanya vektor fitur yang
sesuai ke input nama pengguna dalam fase autentikasi cocok dengan model tahap
identifikasi sesuai dengan pengguna, maka diperoleh hasil autentikasi user [3, 23].
2.2 Convolutional Neural Network (CNN)
CNN merupakan salah satu pengembangan dari jaringan syaraf tiruan yang lebih
dalam dengan bentuk deep feed-forward artificial neural networks. Jenis-jenis layer
CNN terdiri atas satu lapisan masukan (input layer), lapisan tersembunyi yang pada
umumnya adalah convolutional layers, pooling layers, ReLU layer dan fully connected
layers serta satu lapisan keluaran (output layer) [38]. Gambar Jenis-jenis layer CNN
dapat dilihat pada
[38]
Gambar 2. 2. Jenis-jenis layer CNN [38]
2.2.1 Convolutional Layer

Convolution layer merupakan layer utama pembentuk sebuah arsitektur CNN. Volume
keluarannya dapat diartikan sebagai neuron yang diatur dalam volume 3D. Dan
parameternya adalah kumpulan filter yang bisa dipelajari. Setiap filter hanya terhubung
ke wilayah lokal dalam volume input secara spasial (width (lebar) dan height (tinggi)),
tetapi hingga depth (kedalaman) penuh [39].
[38] . Struktur Convolution Layer CNN yang mempunyai 3 dimensi, yaitu lebar
(width), tinggi (height) dan dalam (depth).
Gambar 2. 3. Struktur Convolution Layer CNN 3 Dimensi dengan Lebar (Width),
Tinggi (Height) dan Dalam (Depth) [39]
Tujuan dari penggunaan convolution layer CNN adalah untuk mempercepat

ekstraksi fitur spasial pada data, sehingga jumlah parameter yang perlu digunakan untuk
dapat mengekstraksi fitur dapat berkurang, dan pada akhirnya akan mempercepat
runtime training.
Kelebihan dari convolution layer adalah kemampuannya dalam melakukan
ekstraksi fitur spasial pada data. Berbeda dari input layer yang mengolah data sebagai
sekumpulan fitur yang tidak saling terkait, convolution layer mengolah data dengan
menjaga bentuk spasial dari data input.
Pada convolution layer, untuk mengektraksi fitur spasial pada data diperlukan
sebuah proses konvolusi dengan bantuan filter. Hasil konvolusi menggunakan sebuah
filter kemudian dipetakan dalam sebuah feature map. Di level bawah, filter pada
dasarnya hanya merupakan sekumpulan weight yang mengoneksikan input terhadap
feature map. Konvolusi terjadi melalui proses parameter sharing. Artinya, satu
parameter digunakan oleh beberapa input sehingga sifat koneksinya adalah many-to-
one. Hal ini berbeda dengan parameter koneksi hidden layer biasa yang sifat koneksinya
adalah one-to-one (satu parameter hanya digunakan oleh satu input dan satu output).

2.2.2 Pooling Layer
Gambar 2. 4. Ilustrasi Jenis Pooling
Pooling layer berfungsi untuk menjaga ukuran data hasil dari convolutional
layer. Dengan pooling maka data yang tadinya berukuran besar menjadi berukuran lebih
kecil namun mudah dikelola dan mengatur overfitting. Terdapat 2 jenis pooling yaitu
max pooling dan average pooling. Max pooling adalah suatu pooling dengan memilih
nilai maksimum pada ukuran jendela tertentu. Average pooling adalah suatu pooling
dengan memilih nilai rerata pada ukuran jendela tertentu. Kedua jenis pooling dapat
diilustrasikan pada gambar 2.4.
2.2.3 ReLU Layer

Rectified Linear Units (ReLU) layer merupakan lapisan yang mengaktifkan
fungsi aktivasi. Terdapat beberapa fungsi aktivasi yang dapat digunakan seperti sigmoid
dan tanh. Namun yang paling umum digunakan adalah fungsi f ( y )=max(0 , y ),
mengubah semua yang negatif menjadi 0. Fungsi aktivasi max ini meningkatkan sifat
nonlinearitas dari jaringan tanpa mempengaruhi bidang reseptif pada convolutional
layer.
2.2.4 Fully Connected Layer
Fully connected layer merupakan suatu lapisan yang memiliki koneksi penuh ke
semua aktivasi pada lapisan sebelumnya. Mirip seperti yang ada pada jaringan syaraf
tifruan. Setelah ReLU layer dan menghasilkan N bilangan vektor dengan N merupakan
kelas yang harus dikenali oleh CNN. Pengklasifikasi yang biasa digunakan pada lapisan
ini adalah softmax [38, 39]. Fungsi softmax dapat dihitung dengan persamaan 2.1.
M
On= ∑ (w n ,m x m +bn ) (2.1)
m =1
dengan
O n = hasil pembacaan linier kombinasi
M = Jumlah neuron pada lapisan fully connected
w n ,m= bobot
N = jumlah kelas yang program harus memilih
x m = m-th input map
b n = bias dari n-th map
Oleh karena fully connected layer merupakan level tinggi yang terhubung
dengan kelas tertentu maka probabilitas terhadap kelas yang tersedia dapat dihitung
dengan persamaan 2.2.
exp(Ou )
P u= C
(2.2)
∑ exp (On)
n−1
dengan
Pu = Peluang dari neuron ke-u
O u = Linier kombinasi neuron ke-u
C = banyaknya kelas
CNN juga merupakan salah satu teknik pengolahan informasi berbasis Neural
Network, di mana sebagian besar proses dilakukan dengan kalkulasi konvolusi atau dot
product. Persamaan 2.1 adalah contoh CNN yang tidak bercabang, informasi diproses
layer demi layer, di mana tulisan pada pangkat adalah indeks layer ybs. Layer, weight
atau kernel mewakili array N-dimensi atau Tensor yang memproses data xn menjadi xn+1.
(2.3)
Persamaan 2.3 di atas menggambarkan bagaimana CNN menjalankan layer demi
layer secara forward, atau biasa disebut forward propagation. Input x1 bisa berupa
sebuah gambar yang diwakili tensor orde 3. Tensor ini melalui beberapa proses
layering, mulai dari kotak pertama, dalam hal ini w1, sampai layer terakhir. Parameter
atau angka pada tensor w1 mengubah input x1 menjadi tensor x2, yang juga merupakan
input bagi proses berikutnya, dalam hal ini tensor w2.
Proses ini terus berlanjut sampai ke layer terakhir yang outputnya adalah xL. Satu
layer tambahan digunakan untuk backward error propagation, yaitu metode belajar
untuk menera parameter yang tepat untuk semua w dalam CNN. Misalnya, kita ingin
mencari solusi dari beberapa gambar yang bisa dikatagorikan dalam sejumlah kelas,
yaitu C. Strategi yang umum untuk hal ini adalah menjadikan xL sebagai vektor dengan
dimensi C, di mana elemen ke-i nya adalah prediksi (probabilitas i hasil proses x 1).
Untuk membuat xL menjadi probability mass function, kita dapat merekayasa proses di
layer wL-1 sebagai transformasi softmax dari input xL-1. Di aplikasi lainnya, output xL
bisa dalam bentuk dan interpretasi lainnya.
Layer terakhir adalah loss layer. Misalnya kita pilih t adalah target sebenarnya
dari klasifikasi yang terkait dengan masing-masing x1. Maka cost atau loss function
dapat digunakan untuk mengukur perbedaan antara prediksi dengan kelas sebenarnya
dengan persamaan:
(2.4)
Meskipun ada juga persamaan yg lebih kompleks utk menghitung cost function ini.
Persamaan 2.4 tersebut dapat juga digunakan utk solusi regresi. Dalam klasifikasi, cross
entropy loss juga sering digunakan. Nilai sebenarnya (ground-truth, bukan hasil
inferensi) dalam klasifikasi diwakili variable katagori vektor t. Pertama, dilakukan
konversi dari variable katagori t menjadi vektor t yang dimensinya C, yaitu jumlah klas.
Setelah t dan xL sama-sama menjadi probability mass function, cross entropy loss
digunakan utk mengukur selisih t dan xL. Cross entropy ini dapat diminimalisir.
Persamaan 2.3 memperlihatkan model loss function atau loss layer sebagai wL.
Walaupun forward propagation pada CNN dapat dilakukan jauh lebih cepat dari
Multi Layer Perceptron (MLP), jumlah parameter (weight) yang harus ditera jauh lebih
banyak, apalagi pada kasus deep learning, di mana jumlah filter atau layer bisa
mencapai ratusan seperti pada Residual Network. Akibatnya, proses back propagation
menjadi berat dan lambat. Untungnya sudah ada cara untuk meringankan beban ini,
misalnya dengan identity residual mapping atau dengan low bitwidth gradient.
2.2.5 Stochastic Gradient Descent (SGD)

Sebagaimana umumnya sistem, parameter CNN dioptimasi untuk meminimalkan
loss, dalam hal ini meminimalkan kesalahan prediksi terhadap nilai atau kelas
sebenarnya.
Ambil contoh x1 untuk melatih parameter, digunakan untuk mendapatkan nilai
optimum parameter w1 sampai wL, melalui iterasi forward dan backward propagation.
Awalnya, x1 diproses sampai mendapatkan xL dengan paramater awal CNN. Lalu target t
yang sesuai x1 dicocokkan dengan xL, kita dapatkan nilai z atau loss layer.
Loss layer atau z ini dijadikan tensor supervisi untuk mengubah nilai parameter
CNN dengan rumus:
(2.5)
Gambar 2. 5. Gradient Descent
Perlu diingat, bahwa di hampir semua pembahasan tentang CNN, notasi

superscript atau pangkat menandakan waktu (misalnya training epoch). Tetapi di tulisan
ini, kita gunakan superscript untuk memberitahu indeks layer. Di persamaan 8, tanda
panah secara implisit menandakan bahwa parameter wi diperbaharui dari t ke t+1. Jika
indeks t digunakan secara eksplisit, persamaannya menjadi seperti berikut ini :
(2.6)
∂z
Di persamaan 2.4, turunan parsial mengukur kenaikan z terhadap perbahan
∂ w1
w1. Vektor diferensial parsial ini disebut gradien dalam optimasi matematika. Di area
kecil sekitar nilai wi, arah pergeseran wi disesuaikan agar gradien mengecil, sehingga z
atau loss juga mengecil. Penyesuaian nilai wi seperti ini disebut gradient descent,
ilustrasinya dapat dilihat pada gambar 2.5, di mana g adalah gradient.
Jika penyesuaian nilai wi terlalu jauh, bisa jadi loss malah membesar, padahal yg
diinginkan adalah loss minimum. Untuk menghindari lompatan keliru seperti ini,
biasanya dipilih learning rate dengan angka kecil, misalnya η = 0001. Diharapkan,
setiap perubahan nilai wi, meskipun kecil, selalu mengarah ke pengurangan nilai z atau
loss function. Jika semua sampel training, misalnya 32 sampel, telah digunakan untuk
update wi ini, kita katakan 1 epoch telah diproses. Setiap epoch secara umum
mengurangi rata-rata loss sampai model CNN terlalu ketat (overfit) terkait dengan
sample tersebut. Proses pengulangan epoch ini terus diulang sampai rata-rata loss tidak
bisa atau sulit mengecil lagi.
Jika dilihat dari persamaan 2.5, Gradient descent kelihatan sederhana, tetapi dalam
penerapannya perlu trik efektif. Misalnya, jika update wi hanya menggunakan 1 training
sample, kita akan dapatkan loss function yang tidak stabil, rata-rata loss akan fluktuatif
naik turun dengan frekuensi tinggi. Ini karena gradient dihitung hanya berdasarkan 1
training sample saja, bukan keseluruhan sample. Updating parameter wi berdasarkan
kalkulasi gradient yg melibatkan sekumpulan kecil sample biasa disebut stochatic
gradient descent. Berbeda dgn sample tunggal SGD, kita dapat menghitung gradient
menggunakan seluruh sample training lalu update parameter. Tetapi cara batch
processing seperti ini melibatkan banyak komputasi, karena hanya ada sekali update
nilai wi untuk tiap epoch. Ini tidak praktis jika jumlah training sample besar.
Jalan tengahnya, dapat digunakan sejumlah kecil sample, mini batch, untuk
menghitung gradient dan menyesuaikan nilai w, misalnya 32 atau 64 sampel sebagai
mini batch. SGD dengan mini batch sperti ini paling umum digunakan untuk update
parameter CNN. Setiap mini batch dapat diwakili oleh sebuah Tensor orde 4, misalnya
H x W x 3 x 32.
Solusi berikutnya adalah bagaimana cara menghitung gradient yang kelihatannya
cukup kompleks ini.
2.2.6 Error Back Propagation

Turunan parsial dari layer terakhir mudah dihitung, karena xL terhubung langsung
∂z
dgn z dipengaruhi nilai wL, mudah menghitung L
L . Cara ini diperlukan jika w tidak
∂w
∂z ∂z
kosong. juga mudah dihitung, misalnya jika kuadrat loss digunakan,
∂xL ∂ wL
kosong dan
Faktanya, untuk setiap layer, dihitung 2 set gradient, yaitu turunan parsial z
terhadap wi dan turunan parsial z terhadap xi.
∂z
 seperti ditulis di persamaan 2.4, digunakan untuk update parameter pada
∂ wi
layer wi
∂z
 dapat digunakan untuk update parameter sebelumnya, misalnya pada layer
∂ xi
∂z
ke (i-1), karena xi adalah output dari wi-1 dan bagian dari upaya mengurangi
∂ xi
∂z
z atau loss function terkait perubahan pada xi. Jadi, semacam info error
∂ xi
supervisi yang merambat dari z balik arah ke layer ke-i. Kita dapat terus
∂z
melanjutkan proses back propagation, menggunakan sampai ke layer ke (i-
∂ xi
1).
Prosedur update balik dari layer ke layer seperti ini memudahkan proses belajar
CNN. Ambil contoh misalnya, layer ke-i. Saat kita update layer ke-i, proses back
propagation untuk layer ke (i+1) harus sudah selesai. Kalkulasi

harus sudah dilakukan dan hasilnya disimpan di memory, siap digunakan untuk
kalkulasi berikutnya, yaitu menghitung dengan rumus berantai sbb :
(2.7)
Karena sudah dihitung dan disimpan di memory, hanya dibutuhkan operasi
matriks, vektor dan transpose untuk memperoleh . Selama kita dapat
menghitung , kita juga dapat menghitung
dan .
Menghitung jauh lebih mudah dari pada menghitung
langsung , karena xi terkait langsung dengan xi+1, melalui

layer wi [40].
2.3 Penelitian Terkait

Berikut paper-paper yang terkait dengan penelitian yang akan dilakukan,
klasifikasi penelitian terkait dapat terlihat pada Tabel 1. Pada paper ini membahas
speech recognition mengenai proses mengenali apa kata yang diucapkan seseorang.
Speech recognition ini diproses dengan fitur ekstraksi metode i-vektor Mel Frequency
Cepstral Coefficient (MFCC) untuk representasi suara dan dengan skema klasifikasi
menggunakan Gaussian Mixture Model Universal Background Model (GMM UBM)
mencapai akurasi 76% [41]. Paper speech recognition ini menggunakan sistem
Automatic Speech Recognition (ASR) diproses dengan fitur ekstraksi transformasi
wavelet dan MFCC. Hasil akurasi yang dicapai TIMIT(English speech data) 65,97 %
[42]. Pada paper ini membahas speaker recognition merupakan proses mengenali
identitas suara siapa yang berbicara berdasarkan voice signal. Autentikasi dengan
speaker recognition ini untuk mengatasi masalah autentikasi dari identitas seseorang
dari sampel suaranya. Pendekatan metode berbasis GMM-UBM bekerja lebih baik
dibandingkan dengan pendekatan berbasis i-vektor MFCC modern. Dan penggabungan
beberapa pengklasifikasi menghasilkan peningkatan yang cukup besar. Sistem
Gaussian Mixture Model Universal Background Model (GMM-UBM) merupakan suatu
sistem pendekatan mengenali user dengan sistem speaker recognition. Dalam kerangka
ini, fase pelatihan didahului dengan estimasi UBM yang tidak bergantung pada
pembicara, tapi menggunakan data ucapan yang cukup besar selama beberapa jam dari
berbagai sumber dataset. Sistem speaker recognition berbasis MFCC vektor-i mewakili
super vektor GMM dengan dimensi-tinggi, dimana dalam ruang variabilitas total
sehingga mereduksi supervektor menjadi faktor dimensi rendah. Pasca-pemrosesan
MFCC i-vektor dengan data pengembangan ini sesuai dengan durasi waktunya dan
memberikan keuntungan yang cukup besar dalam akurasi verifikasi dari baseline [43].
Dalam paper ini, diusulkan peningkatan kualitas performasi speech recognition dengan
transfer learning technique, dengan membandingkan dua pendekatan transfer learning
technique dieksploitasi di bawah kerangka metode deep neural network. Tujuannya
adalah untuk meningkatkan performansi speech recognition. Metode pertama adalah
melakukan adaptasi model akustik pada pre-trained model. Yang kedua adalah train
acoustic model dengan pendekatan multi-task learning berbasis metode deep neural
network. Hasil eksperimen menunjukkan bahwa kedua pendekatan transfer learning
efektif dapat bermanfaat dalam mentransfer banyak informasi speech sounds dan
akustik dalam speech recognition. Pendekatan pembelajaran multi-task mengungguli
pendekatan adaptasi akustik [44]. Dengan munculnya deep learning, telah terjadi
pergeseran paradigma besar dalam cara kerja speech signal and text processing
techniques. Dalam paper ini, diusulkan tentang penerapan deep neural networks (DNN)
yang berbeda ke beberapa speech signal dan tugas pemrosesan natural language, seperti
adaptive microphone array speech enhancement, sentiment analysis, speech recognition,
language recognition dan text-to-speech (TTS). Dalam tugasnya, banyak perbedaan
pada struktur DNN dan learning strategies yang terlibat pada DNN. Hasil eksperimental
menunjukkan bahwa DNN cukup baik mencapai akurasi 71,6 % [45]. Adapun
perbedaannya dengan penelitian [44] ini membandingkan dua pendekatan transfer
learning technique, yaitu adaptasi model akustik pada pre-trained model dan train
acoustic model dengan pendekatan multi-task learning, untuk dieksploitasi di bawah
kerangka metode deep neural network DNN untuk peningkatan kualitas performasi
speech recognition. Sedangkan pada penelitian [45] dilakukan penerapan metode deep
learning DNN ke beberapa speech signal dengan menggunakan pemrosesan sinyal
natural language untuk mencapai akurasi 71,6 %. Aplikasi speaker recognition di bank
telepon, rumah pintar, kecerdasan buatan, dll. Telah menyebabkan lebih banyak
perhatian penelitian pada verifikasi speaker recognition yang bergantung pada teks dan
dibatasi teks. Pada paper ini diselidiki bagaimana meningkatkan kinerja i-vector DNN
berbasis speaker recognition dengan batasan teks menggunakan string digit. Fitur DNN
bottleneck juga dipelajari untuk menyelidiki kemampuannya mengekstrak informasi
sensitif speech sounds yang berguna untuk verifikasi speaker recognition yang tidak
bergantung teks. Efisiensi penyelarasan speech sounds dan performansi speaker
recognition yang dihasilkan dibandingkan dengan database. Performansi pada evaluasi
menunjukkan peningkatan relatif Equal Error Rate (EER), yaitu 7.89% dan mencapai
akurasi 92,11%. [46]. Adapun perbedaannya dengan penelitian [44] dan [45] ini tidak
menggunakan feature extration. Sedangkan penelitian [46] menggunakan feature
extration MFCC i-vektor sebagai koefisien matematis untuk pemrosesan data dengan
pemodelan suara. Dalam paper ini diusulkan model sistem pendukung keputusan untuk
speech recognition processing, yang dapat digunakan dalam berbagai aplikasi, di mana
voice sample bisa dievaluasi. Solusi yang diusulkan didasarkan pada analisis dari
speech signal dengan bio-inspired algorithm and Spiking Neural Network (SNN) untuk
mengevaluasi kemungkinan terjadinya masalah suara. Validator Spiking Neural
Network untuk voice sampel. Bio-inspired merupakan metode pemrosesan interaksi
man–machine. Model baru untuk voice evaluation berdasarkan komposisi teori wavelet
dan metode bio-inspired. Kebaruan ide dari metode heuristik disusun untuk ekstraksi
fitur. Hasilnya dibahas perbandingan Fourier transformation, Gabor transformation,
Wavelet transformation dan Laurent transformation, dimana algoritme heuristik bekerja
dalam proses analisis suara. Hasil penelitian dari training process menunjukkan bahwa
transformasi terbaik untuk speech recognition processing adalah Fourier dan Wavelet
yang mencapai akurasi 90%. Transformasi-Z mencapai hasil terburuk selama semua
pengujian, yang mencapai akurasi sekitar 48,5% [47]. Sistem end-to-end (E2E) telah
berperan dan peran yang lebih penting dalam automatic speech recognition (ASR) untuk
mencapai kinerja yang luar biasa. Ekstra data teks banyak digunakan untuk
meningkatkan hasil dari sisten hybrid Artificial Neural Network-hidden Markov Model
(ANN-HMM). Paper ini mengusulkan strategi pelatihan modular untuk E2E ASR.
Secara khusus, metode yang diusulkan membagi sistem E2E menjadi dua bagian:
jaringan Acoustic-to-Phoneme (A2P) dan Phoneme-to-Word (P2W). Jaringan P2W
dapat dilatih dengan data teks berskala besar, yang dapat meningkatkan kinerja Word
Error Rate (WER). Selama fase decoding, kedua jaringan diintegrasikan bersama dan
bertindak sebagai jaringan Acoustic-to-Word (A2W) tunggal yang menyimpan properti
E2E. Hasil percobaan pada korpus Switchboard menunjukkan bahwa model E2E
modular mencapai WER yang lebih baik daripada model A2W standar [48]. Dalam
paper ini, disajikan deep learning end-to-end untuk subvocal speech recognition. Sistem
yang diusulkan menggunakan Elektromiogram (EMG) permukaan saluran tunggal yang
ditempatkan secara diagonal di tenggorokan bersama mikrofon close-talk. Sistem ini
diuji pada corpus 20 kata. Sistem ini mampu mempelajari fungsi pemetaan dari urutan
suara dan EMG ke huruf dan kemudian mengekstrak kata yang paling mungkin
terbentuk oleh huruf-huruf ini. Kami menyelidiki sinyal masukan yang berbeda dan
tingkat kedalaman yang berbeda untuk model deep learning. Sistem yang diusulkan
mencapai WER 9,44, 8,44 dan 9,22 untuk speech signal, speech signal yang
digabungkan dengan EMG saluran tunggal, dan speech signal dengan dua saluran EMG
masing-masing [49]. Sebagian besar saat ini produk Internet of Things (IoT)
menggunakan speech recognition berbasis neural network sebagai standar interface
interaksi manusia-mesin. Namun, kerangka kerja speech recognition tradisional untuk
perangkat IoT cerdas selalu mengumpulkan dan mengirimkan informasi suara dalam
bentuk plaintext, yang dapat menyebabkan pengungkapan privasi pengguna. Karena
penggunaan fitur ucapan yang luas sebagai autentikasi biometrik, kebocoran privasi
dapat menyebabkan kerugian yang tak terukur terhadap harta benda pribadi dan privasi.
Oleh karena itu, dalam paper ini, diusulkan kerangka kerja outsourced privacy-
preserving speech recognition (OPSR) yang dialihdayakan untuk perangkat IoT cerdas
dalam neural network long shortterm memory (LSTM) dan edge computing. Dalam
kerangka kerja, serangkaian additive secret sharing berbasis protokol interaktif antara
dua edge servers dirancang untuk mencapai komputasi outsourcing yang ringan. Dan
berdasarkan protokolnya, diterapkan proses pelatihan neural network LSTM untuk
voice control perangkat IoT yang cerdas. Akhirnya, dikombinasikan dengan teori
komposabilitas universal dan hasil eksperimen, secara teoritis dibuktikan kebenaran dan
keamanan dengan kerangka kerja yang dirancang. Dalam tulisan ini, kami mempelajari
metode secret sharing-based untuk melindungi privasi neural network LSTM.
Berdasarkan subprotocols secret sharing-based untuk operasi linier dan nonlinier,
pertama-tama masing-masing, dirancang beberapa interaktif protokol untuk setiap
gerbang LSTM. Dengan memisahkan file data fitur audio menjadi secret shares, semua
datanya efisien diproses di bawah status ciphertext dalam protokol ini. Dengan
demikian, privasi terjaga tanpa disadari semua user. OPSR secara dramatis mengurangi
komputasi dan overhead komunikasi untuk melindungi privasi [24]. Persyaratan utama
dalam banyak sistem autentikasi terdapat dua persyaratan, yaitu performa autentikasi
yang baik dan deteksi keaktifan. Untuk menghindari serangan replay, skema autentikasi
speaker recognition visual baru dengan teks prompt acak diusulkan. Dibandingkan
dengan skenario kata sandi tetap, autentikasi speaker recognition visual dengan acak
teks prompt jauh lebih menantang karena tidak mungkin meminta klien untuk
mengucapkan setiap teks prompt yang memungkinkan untuk digunakan sebagai
training sample. Untuk mengatasi masalah ini, deep convolutional neural network baru
diusulkan dalam paper ini dan memiliki tiga bagian fungsional, yaitu, jaringan fitur
bibir, jaringan identitas, dan jaringan konten. Di jaringan fitur bibir, seri telah diadopsi
unit residu 3D, yang dapat menggambarkan karakteristik statis dan dinamis dari
biometrik bibir secara komprehensif. Dari hasil eksperimental menunjukkan bahwa
jaringan identitas yang diusulkan dapat mencapai kinerja autentikasi tinggi dan juga
kuat terhadap variasi yang disebabkan oleh berbagai pose berbicara atau jarak ke arah
kamera. Dibandingkan dengan beberapa pendekatan otentikasi pengeras suara visual
yang canggih dalam skenario kata sandi tetap, jaringan identitas yang diusulkan
mencapai kinerja terbaik. Selain itu, kami menunjukkan bahwa dalam skenario
autentikasi speaker recognition visual dengan teks prompt acak, pendekatan yang
diusulkan dapat mencapai akurasi autentikasi yang tinggi dan kinerja autentikasi dapat
lebih ditingkatkan dengan lebih banyak training sample [30]. Speaker Recognition
adalah kemampuan sistem untuk mengenali speaker dari kumpulan sampel speaker yang
tersedia didalam sistem. Ini terdiri dari 2 jenis, satu menggunakan keyword, yang
disebut sistem text dependent, dan yang lain dapat mengenali suara dalam bahasa / teks
apa pun, juga disebut sebagai text-independent speaker recognition. Dalam paper ini,
text-independent, sistem language independent speaker recognition diimplementasikan
menggunakan convolutional neural networks. speaker recognition telah menemukan
beberapa aplikasi dalam produk elektronik yang akan datang seperti personal/home
assistants, telephone banking dan biometric identification. Dalam paper ini, dieksplorasi
sistem yang menggunakan CNN sebagai model untuk membangun sistem speaker
recognition. Speaker recognition berguna dalam authentikasi biometrik. Dalam
keadaannya saat ini, dapat digunakan untuk membangun sistem absensi laboratorium
sederhana yang tidak memerlukan perangkat biometrik khusus. Sistem text independent
speaker recognition dikembangkan dengan gagasan bahwa perangkat pintar masa depan
harus memiliki kemampuan untuk mengenali suara pengguna mereka tanpa batasan
bahasa dan kata kunci. Akurasi 75-80% dicapai dengan menggunakan model CNN [50].
Pada paper ini menjelaskan versi terbaru Microsoft untuk sistem speech recognition
percakapan untuk Switchboard dan domain CallHome. Itu sistem menambahkan model
akustik CNN-LSTM ke rangkaian arsitektur model. Untuk kombinasi sistem, kami
mengadopsi pendekatan dua tahap, di mana posteriors model akustik pertama kali
digabungkan pada tingkat senone / bingkai, diikuti dengan pemungutan suara tingkat
kata melalui jaringan. Sistem ini menghasilkan WER 5,1% pada set pengujian
Switchboard NIST 2000, dan 9,8% pada subset CallHome [51].
Tabel 2. 1. Klasifikasi Penelitian Terkait
No Peneliti Fitur Machine Deep Combine Keterangan

. Ekstraksi Learning Learnin
g
1. Joan et al., MFCC GMM UBM × MFCC Speech
2015 [41] i – vektor i – vektor & recognition
GMM
UBM
2. Shabnam MFCC & × × × Speech
et al., Wavelet recognition
2016 [42] Transform
3. Arnab et MFCC GMM UBM MFCC Speaker
al., 2017 i – vektor i – vektor & recognition
[43] GMM
UBM
4. Rong et × × DNN × Speech
al., 2017 recognition
[44]
5. Yuan et × × DNN × Speech
[45]
Jinghua et MFCC
MFCC Speaker
6. al., 2017 × DNN i – vektor &
i – vektor recognition
[46] DNN
7. Dawid et Wavelet × SNN × Speech
al., 2019 Transform recognition
[47]
8. Qi et al., × HMM ANN HMM & Speech
2017 [48] ANN recognition
Mohamed
Speech
9. et al., × × RNN ×
recognition
2017 [49]
10. Zhuo et LSTM Speech
al., 2019 × × & RNN × Recognition
[24]
11. Feng et × × CNN × Speaker
[30]
12. Rohan, MFCC × CNN × Speaker
2019 [50] recognition
13. W. Xiong LSTM × Speech
et al., × × & CNN Recognition
2019 [51]
2.4 Posisi Penelitian yang Dilakukan
Klasifikasi penelitian terkait dapat terlihat pada sub-bab 2.3 menunjukkan

klasifikasi identifikasi user berbasis suara, seperti speech recognition dan speaker
recognition yang telah diimplementasikan dengan feature extraction, machine learning
dan deep learning, seperti yang terlihat pada Tabel 2.1.
Identifikasi user dengan metode feature extraction merupakan metode yang
masih sederhana karena jumlah data suara terbatas sehingga kurang akurat. Kemudian
identifikasi user berkembangan dengan menggabungkan feature extraction dan machine
learning menjadi lebih akurat. Perkembangan teknologi selanjutnya dilakukannya
pengabungan metode feature extraction dan deep learning, sehingga mencapai
keakuratan yang lebih tinggi dibandingkan sebelumnya. Metode deep learning tersebut
harus didukung dengan metode feature extraction yang handal. Karena dari penelitian
terkait [41, 42, 43, 50], beberapa feature extraction ini tidak terlalu handal, sehingga
kualitasnya sering kali menurun akibat noise, seperti feature extraction MFCC, i-vektor
MFCC dan Discrete Fourier Transform (DFT). Ketiga feature extraction tersebut hanya
dilokalisasi dalam frekuensi sehingga kehilangan semua kendali atas waktu durasi
spasial, dan hanya memberi informasi ketepatan absolut pada amplitudo pada
waktu tetap itu. Sedangkan feature extraction Discrete Wavelet Transform (DWT) ini
dilokalisasi dalam waktu dan frekuensi. Setiap pengukuran DWT sesuai dengan
parameter tetap akan memberikan informasi tentang jangkauan temporal waktu
sinyal, serta informasi tentang spektrum frekuensi sinyalnya. Dan m etode DWT
merupakan cara efektif untuk menghilangkan noise (denoising) agar kualitas suara
menjadi lebih baik dan segmentation untuk memisahkan suara tertentu dari suara
lainnya.
Dengan teknologi deep learning yang terus berkembang, sehingga perbaikan
teknologi dalam identifikasi user menjadi lebih baik dibandingkan dengan metode
sebelumnya. Teknologi deep learning yang telah di implementasikan pada penelitian
terkait [30, 45, 48, 49], seperti metode ANN, DNN dan RNN masih memiliki akurasi
yang lebih rendah dibandingkan metode CNN. Dari implementasikan penelitian terkait
tersebut [30, 50, 51], algoritma CNN ini memiliki kemampuan learning dengan jumlah
data yang besar dalam proses identifikasi biometric dan dalam waktu yang singkat.
Kinerja metode CNN dalam identifikasi user bekerja dengan lebih aman, cepat dan
akurat. CNN ini juga memiliki kinerja yang tinggi untuk digunakan pada pelatihan dan
pengujian database. CNN yang telah dilatih dapat memaksimalkan akurasi klasifikasi
CNN. Sehingga klasifikasi CNN ini dapat mencapai performansi akurasi yang tinggi
dalam mengidentifikasi dan mengautentikasi user dengan voice biometrik. Voice
biometrik ini melakukan identifikasi dan authentikasi seseorang untuk memastikan dan
mencocokan data antara data yang diberikan dengan data yang sudah ada di
database. Pada Tabel 2.1 diatas menunjukan klasifikasi penelitian identifikasi user,
menggunakan speech recognition dan speaker recognition yang diimplementasikan
dengan feature extraction, machine learning dan deep learning. Sedangkan pada Tabel
2.2 dibawah ini menunjukan klasifikasi penelitian identifikasi voice biometric dengan
metode feature extraction MFCC dan machine learning, yang mana belum
menggunakan metode feature extraction DWT dan deep learning.
Tabel 2. 2. Matrik Pemetaan Penelitian Voice Biometrik
No Fitur Ekstraksi Deep Learning Machine Learning

.
1. MFCC × Kamalu et al., 2015
MFCC & GMM [36]
2. MFCC × Andrew et al., 2017
MFCC & SVM [52]
3. MFCC × Chamidu et al., 2017 MFCC
& GMM [21]
4. MFCC × Nilu et al., 2018
MFCC & GMM-HMM [53]
5. MFCC × Xinman et al., 2018
MFCC & GMM [23]
6. MFCC × Libing et al., 2018
MFCC & GMM [13]
Zhang et al., 2019
7. MFCC ×
MFCC & GMM-HMM [3]
8. MFCC × Salahaldeen et al., 2020
MFCC & SVM [22]
Posisi Penelitian
9. ×
Metode DWT dan CNN
Berdasarkan penelitian terkait tersebut diatas pada sub-bab 2.3 dan 2.4, maka
skema yang diusulkan pada penelitian ini, dapat terlihat pada tabel 2.2 poin 9. Jadi
posisi penelitian voice biometrik yang dipilih adalah dengan melakukan penggabungan
metode DWT dan CNN. Adapun perbedaannya dengan penelitian [47] diatas
menggunakan speech recognition untuk mengindetifikasi user, dimana penelitian
tersebut tidak membahas authentikasi user. Sedangkan pada usulan penelitian ini
menggunakan voice biometric untuk mengindetifikasi dan mengauthentikasi user
sebagai solusi akses sistem keamanan.
Dan diharapkan dengan melakukan penggabungan metode DWT dan CNN ini
dapat meningkatkan kualitas dan kinerja performansi akurasi yang tinggi dalam
mengidentifikasi dan mengautentikasi user.
BAB 3
METODOLOGI PENELITIAN
3.1 Metode Penelitian
Berdasarkan penjelasan yang telah diuraikan pada sub-bab 2.3 dan 2.4 tentang
posisi penelitian dan klasifikasi penelitian terkait identifikasi dan autentikasi voice
biometrik dengan metode DWT dan CNN. Penelitian ini dilakukan dengan
menggunakan simulasi program metode deep learning CNN dengan perangkat lunak.
Simulasi yang dilakukan dengan memodelkan input voice signal berdasarkan dataset
dari database yang telah tersedia secara online, dimana telah digunakan pada penelitian-
penelitian sebelumnya, dataset voice recognition.
Gambar 3. 1. Ilustrasi autentikasi voice biometrik dengan deep learning
Suara yang menjadi input pada proses ini merupakan voice signal yang telah
tersedia dalam dataset dilakukan pada proses Training Data. Voice signal tersebut
mengalami preprosesing atau pemprosesan sinyal terlebih dahulu agar voice tersebut
menjadi lebih siap untuk diolah. Beberapa proses yang dilalui adalah proses binari agar
voice signal menjadi biner (pemrosesan sinyal digital). Selanjutnya dilakukan proses
feature extraction suara dan proses pemilihan daerah yang diproses menjadi lebih
dipersiapkan untuk proses segmentation. Proses segmentation ini memisahkan suara
yang dibutuhkan untuk proses pengolahan pengenalan suara yang dilakukan dengan
metode deep learning neural network untuk identifikasi label user. Dan neural network
yang sudah dilatih ditaruh smartphone pada proses inference untuk proses klasifikasi
label voice signal user [18-20]. Outputnya berupa valid/tidaknya label user untuk
menentukan autentikasi voice recognition atau voice biometric. Ilustrasi autentikasi
voice biometrik dengan deep learning dapat terlihat pada Gambar 3.1.
3.1.1 Dataset
Perbandingan suara adalah varian dari voice recognition. Perbandingan suara
memainkan peran penting dalam bidang ilmu forensik dan sistem keamanan.
Perbandingan suara yang tepat merupakan masalah yang menantang. Untuk
menyelesaikan voice recognition dan perbandingan suara, maka digunakan deep
learning karena kekuatannya dalam keakuratan saat dilatih dengan data dalam jumlah
besar. Penelitian ini membahas dataset yang tersedia untuk umum yang digunakan
untuk voice recognition dan perbandingan suara oleh para peneliti. Penelitian ini
memberikan masukan penting bagi pemula dan peneliti untuk memahami domain voice
recognition dan perbandingan suara [54].
Masalah voice recognition dapat dianggap sebagai masalah klasifikasi dan
dimodelkan seperti itu, di mana seseorang ingin mendapatkan derajat pemisahan terbaik
antara kelas-kelas yang mewakili suara. Untuk menerapkan konsep tersebut untuk
membangun sistem voice recognition otomatis yang mampu mengidentifikasi
pembicara, banyak teknik yang menggunakan artificial intelligence dan klasifikasi
umum telah dikembangkan, yang mengarah pada pekerjaan ini. Di sini diusulkan
metode voice recognition yang mampu mengenali kata kunci dalam bahasa portugis
brazil untuk tujuan biometrik menggunakan beberapa Support Vector Machines (SVM),
yang membangun hyperplane yang memisahkan Mel Frequency Cepstral
Coefficients(MFCC), untuk klasifikasi data baru nanti. Dengan dataset kecil, sistem
dapat mengidentifikasi pembicara dengan benar dalam semua kasus, memiliki ketepatan
yang tinggi pada tugas tersebut. Mesin ini didasarkan pada kernel Radial Basis
Function, tetapi diuji dengan kernel berbeda, juga memiliki presisi yang baik dengan
yang linier [55].
Hampir semua data orang disimpan pada perangkat pribadi mereka. Kebutuhan
seseorang untuk melindungi informasi dari akses yang sah sangat dibutuhkan. Kode
PIN, kata sandi, token bias dilupakan, hilang, dipindahkan, diserang dengan kekerasan.
Untuk ini alasannya, biometric authentication semakin populer. Data biometrik tidak
berubah untuk waktu yang lama, berbeda untuk pengguna, dan dapat diukur. Penelitian
ini membahas voice authentication karena kemudahan penggunaan teknologi ini, sejak
mendapatkan voice characteristics user tidak memerlukan peralatan selain mikrofon.
Metode voice authentication berdasarkan algoritma deteksi anomaly telah diusulkan.
Software module untuk teks-independen autentikasi telah diimplementasikan pada
program bahasa Python. Ini didasarkan pada Mozilla's open source voice dataset baru
"Common voice". Hasil ekperimen membuktikan tingginya akurasi otentikasi dengan
metode yang diusulkan [56].
Dari penelitian-penelitian terkait diatas menggunakan data suara dari dataset

voice recognition yang telah dipublikasikan pada penelitian sebelumnya. Berikut ini
dataset voice recognition yang digunakan untuk proses input voice signal. Dataset Voice
Recognition ini dapat dilihat pada Tabel 3.1.
Tabel 3. 1. Dataset Voice Recognition
No Datasets Jumlah Jenis speech Sample rate

. Pembicara (Hertz)
1. POLYCOST[57] 131 Telephone 8.000
speech
2. ICSI Meeting 53 Micropohone 16.000
speech [58] speech
Penelitian menggunakan simulasi dengan memodelkan input voice signal

berdasarkan dataset voice recognition dari database yang telah tersedia secara online di
Internet. Dan pada penelitian ini menggunakan dataset POLYCOST dan ICSI Meeting
speech, dimana dataset ini telah banyak digunakan pada penelitian-penelitian dataset
voice recognition sebelumnya.
3.1.2 Discrete Transform
Berdasarkan penelitian-penelitian terkait pada sub-bab 2.3 dan 2.4 dijelaskan
bahwa feature extraction suara dengan Wavelet Transform, telah membuktikan
kemampuannya yang luar biasa dalam menguraikan/dekomposisi, menghilangkan noise,
dan menganalisis sinyal suara.
Wavelet adalah fungsi matematika yang digunakan untuk membagi suatu fungsi
atau sinyal waktu kontinyu ke dalam komponen skala yang berbeda. Dalam proses skala
biasanya dapat menetapkan rentang frekuensi untuk setiap skalanya. Sebuah Wavelet
transform adalah representasi dari sebuah fungsi dengan wavelet. Wavelet adalah fungsi
yang dapat digunakan untuk menguraikan sinyal.
Metode Transformasi Wavelet dapat mencirikan dan menglokalisasi informasi
waktu dan frekuensi sedangkan tranformasi fourier menunjukkan keterbatasannya.
Sehingga pemrosesan sinyal wavelet ini cocok untuk nonstasioner sinyal, yang spektral
isi perubahan dari waktu ke waktu. Setiap pengukuran transformasi wavelet sesuai
dengan parameter tetap akan memberikan informasi tentang jangkauan temporal
waktu sinyal, serta informasi tentang spektrum frekuensi sinyalnya. Transformasi
wavelet mengubah memberikan pendekatan untuk resolusi sinyal multi-analisis dan
teknik ini telah digunakan untuk mengidentifikasi fitur sinyal suara [33-35]. Pemilihan
fungsi wavelet tergantung pada aplikasi. Transformasi wavelet adalah produk dalam
dari dianalisis sinyal dan keluarga wavelet, secara khusus, transformasi wavelet adalah
bagian integral dari raw signal x(t) dikalikan dengan skala, tipe bergeser fungsi wavelet
dasar
ψ(t).
Continuous wavelet transform (CWT) dihitung sebagai berikut:
(3.0)
dimana a adalah parameter penskalaan dan b adalah waktu parameter lokalisasi. Dalam
rumus ini kami memiliki kondisi constraint bahwa a ∈ R+ -{0} dan b ∈ R. Ψ adalah
menganalisis wavelet dan Ψ* adalah konjugatnya yang kompleks. CWT disebut kontinu
karena keduanya a dan b bervariasi terus menerus. CWT dapat menyebabkan biaya
kalkulasi yang besar peningkatan aplikasi nyata, oleh karena itu DWT diturunkan dari
discretization (diskritisasi) CWT. DWT seringkali lebih efisien daripada CWT untuk
menghindari penghitungan pada setiap skala CWT. Pada DWT, parameter a dan b
didefinisikan sebagai berikut:
a = 2 j, j ∈ Z, (3.2)
b = k2 j, j,k ∈ Z. (3.3)
Dengan perubahan parameter, DWT didefinisikan sebagai berikut:
(3.4)
Setelah berubah dari CWT ke DWT, aslinya kontinu fungsi wavelet menjadi fungsi
wavelet diskrit dan fungsi penskalaan:
(3.5)
(3.6)
Oleh karena itu, sinyal dapat diuraikan menjadi wavelet perkiraan dan detail
skala yang berbeda. Fungsi wavelet diskrit dan fungsi penskalaan berfungsi sebagai
Low Pass Filter (LPF) dan High Pass Filter (HPF). Proses DWT bekerja seperti gambar
3.2, dimana approximation memiliki resolusi frekuensi rendah tetapi resolusi waktu
tinggi sementara detail memiliki situasi yang berlawanan.
Gambar 3. 2. Proses signal filtering DWT

3.1.3 Tahapan Penelitian
Gambar 3. 3. Tahapan Penelitian Autentikasi Voice Biometric dengan metode DWT

dan CNN
Authentikasi voice biometrik terdiri dari dua tahap kerangka yaitu tahap
TRAINING dan tahap INFERENCE terlihat pada Gambar 3.3. Proses Training adalah
suatu proses learning kapabilitas baru dari data voice signal user pada komputer dan
proses Inference adalah suatu proses mengaplikasikan kapabilitas ini ke data baru pada
smartphone.
3.1.3.1 Tahap TRAINING

Selama tahap TRAINING, dataset suara yang diketahui dimasukkan melalui
Untrained CNN Model atau Model CNN yang belum terlatih. Pada tahap Training
ini, suara yang menjadi input pada proses ini merupakan data-data voice signal yang
telah tersedia pada dataset dilakukan pada proses Training Data, hal ini berdasarkan
data latih yang sudah disiapkan. Data-data voice signal ini selanjutnya diproses dengan
pemrosesan sinyal digital. Dari hasil pemrosesan sinyal yang diperoleh kemudian
dilakukan fitur ekstraksi suara. Fitur ekstraksi dilakukan dengan DWT untuk
menghilangkan gangguan noise (denoising) sehingga kualitas voice signal menjadi lebih
baik. DWT juga melakukan segmentation untuk memisahkan suara yang dibutuhkan
dari suara-suara lainnya yang tidak dibutuhkan.
Selanjutnya data-data voice signal tersebut akan masuk ke dalam Deep Learning
CNN Model untuk dilatih pada Deep Learning Framework mengunakan Komputer.
Pada proses TRAINING disiapkan data-data voice signal yang sudah diberi identifikasi
label valid dan label tidak valid pada data-data voice signal. Ada banyak data-data voice
signal yang diindetifikasi CNN Model yang diberi label valid dan label tidak valid.
Hasil kerangka deep learning CNN tersebut dibandingkan dengan hasil
dataset yang diketahui. Kemudian kerangka kerja mengevaluasi ulang nilai
kesalahan dan memperbarui bobot dataset di lapisan CNN berdasarkan seberapa
valid atau tidak valid nilainya untuk identifikasi label user. Evaluasi ulang ini
penting untuk Training karena menyesuaikan CNN untuk meningkatkan kinerja
tugas pada sistem learning-nya. Dan CNN Model yang telah dilatih akan
menghasilkan Trained CNN Model.
3.1.3.2 Tahap INFERENCE

Pada tahap INFERENCE, CNN Model yang sudah terlatih (Trained CNN Model)
ditaruh di smartphone. Inference ini menggunakan Trained CNN Model untuk
klasifikasi dan autentikasi data voice signal. Inference muncul setelah training karena
memerlukan Trained CNN Model. Seperti halnya pada tahap Training, maka pada
tahap Inference ini input data-data voice signal baru juga diproses dengan pemrosesan
sinyal digital. Selanjutnya fitur ekstraksi dengan wavelet melaksanakan proses
denoising dan segmentation. Data-data voice signal ini selanjutnya, dilakukan
klasifikasi trained CNN model. Klasifikasi trained CNN model ini tersusun atas
beberapa layer dan setiap layer tersusun atas neuron yang terkoneksi secara penuh (fully
connected) dengan layer lainnya. Layer ini menerima input dari hasil keluaran layer
fitur ekstrasi data voice signal berupa vektor kemudian ditransformasikan seperti Multi
Neural Networks. Data-data voice signal ini selanjutnya dicocokan dengan data
sebenarnya yang telah diklasifikasi oleh Trained CNN Model.
Tidak seperti Training, Inference tidak mengevaluasi ulang atau
menyesuaikan lapisan CNN berdasarkan hasil. Inference menerapkan pengetahuan
dari Trained CNN Model dan menggunakannya untuk menyimpulkan hasil. Jadi,
ketika dataset baru yang tidak diketahui dimasukkan melalui Trained CNN, maka
akan mengeluarkan prediksi berdasarkan akurasi prediksi Trained CNN Model.
Klasifikasi Trained CNN Model dioptimalkan untuk memaksimalkan kinerja prediksi
agar mencapai akurasi tinggi. Dan hasil keluaran klasifikasi trained CNN model berupa
label data valid/tidaknya user untuk menentukan auentikasi voice biometric.
3.1.4 Parameter yang akan diuji

Salah satu pengukuran keberhasilan dari suatu sistem biometrik adalah dengan
melihat seberapa besar respon sistem tersebut dalam menerima atau menolak
masukan/input. Pengukuran sering dilakukan menggunakan False Acceptance Rate
(FAR), False Rejected Rate (FRR) dan Equal Error Rate (EER) [3, 22, 23, 53]. FAR
menunjukkan kesalahan sistem dalam menerima input yang seharusnya ditolak. Secara
matematis dapat dihitung melalui persamaan (3.7):
Jumlah Kejadian yang Salah Terima

FAR= ×100 % (3.7)
Jumlah seluruh kejadian
Suatu pengujian data suara akan dicocokkan dengan data suara lain yang
sebelumnya telah disimpan dalam database. Apabila sistem ini ternyata menerima
pengujian data suara tersebut padahal kenyataannya suara tersebut tidak ada atau tidak
sesuai dengan suara yang disimpan dalam database. Hal ini dinyatakan bahwa sistem
melakukan kesalahan. Dari sisi akurasi, keakuratan sistem rendah karena apabila
diterapkan dalam sistem keamanan, maka ada kemungkinan sistem biometrik tersebut
akan menerima siapa saja yang sebenarnya tidak berhak dan tidak memiliki akses
terhadap data atau tempat tertentu. Dengan demikian sistem keamanan yang terbentuk
menjadi rendah. FRR menunjukkan kejadian saat sistem melakukan kesalahan dalam
menolak masukan. Hal ini berarti bahwa suara yang seharusnya diterima oleh sistem
karena suara tersebut telah terregistrasi dan ada di dalam database ternyata ditolak oleh
sistem. Persamaan FRR dapat dilihat pada persamaan (3.8)
Jumlah Kejadian yang Salah Tolak
FRR= ×100 % (3.8)
Jumlah Seluruh Kejadian
Apabila FRR mendekati 1 maka hampir semua pengujian data suara yang ada di dalam
database ditolak oleh sistem. Perpotongan antara FAR dan FRR disebut dengan EER.
Gambar 3. 4. Ilustrasi EER
3.2 Rencana Penelitian
Penelitian yang dilakukan ini masih sedang berlangsung, untuk itu masih
diperlukan beberapa hal perencanaan untuk merealisasikan dan mengimplementasikan
voice biometrik dengan mengabungkan metode features extraction DWT dan deep
learning CNN. Adapun rencana penelitiannya sebagai berikut:
1. Pemodelan matematika DWT terhadap suara input voice signal.

2. Pemodelan matematika yang akan digunakan dalam perhitungan DWT pada
Convolutional Layer CNN
3. Desain arsitektur CNN dan DWT yang dapat meminimalisasi error.
3.3 Jadwal Penelitian
Jadwal pelaksanaan penelitian disusun berdasarkan dengan pembagian waktu

untuk mendapatkan hasil yang optimal. Diharapkan jadwal pelaksanaan penelitian
dapat diselesaikan sesuai dengan target jadwal pelaksanaan penelitian pada Gambar 3.5.
Tahap penelitian diawali dengan pengolahan suara yang mendukung untuk metode
preprosesing sebagai input suara pada voice signal. Berdasarkan hasil literatur review
dan analisis metode features extraction, machine learning dan deep learning untuk
klasifikasi identifikasi dan autentikasi user berbasis suara pada voice recognition atau
voice biometrik.
Gambar 3. 5. Jadwal Pelaksanaan Penelitian
BAB 4
HASIL PENELITIAN YANG TELAH DILAKUKAN
Pada semester ganjil 2019/2020 telah dilakukan penelitian yang pertama. Hal ini
menjadi penting agar diperoleh state of the art dari penelitian yang akan dilakukan. Ini
merupakan tahap awal untuk dilakukan penelitian yang lebih lanjut. Pada semester
ganjil 2019/2020 ini pula telah dipublikasikan paper pada International Conference on
Smart Technology and Applications (ICoSTA) tentang ”Design and Implementation of
IoT-Based Smart Home Voice Commands for disabled people using Google Assistant”.
Pada terlihat artikel publikasi pada IEEE dan ICoSTA 2020 Surabaya.
Pada penelitian ini dilakukan perancangan dan implementasi smart home
melalui voice command dengan teknologi speech recognition berbasis Internet of
Things (IoT) menggunakan google assistant pada smartphone. Tujuannya memudahkan
manusia dalam beraktifitas, terutama membantu penyandang cacat yang memliki
masalah kelainan fisik dan ketebatasan beraktifitas.
Perkembangan voice command pada aplikasi google assistant bisa menjadi
referensi rumah masa depan. Sistem kontrol smart home dengan voice command ini
dapat membantu mengaktifkan dan menonaktifkan peralatan listrik rumah dari jarak
jauh meskipun user berada di luar rumah. Jadi user tanpa perlu bergerak lagi untuk
switch on/off peralatan listrik Kami mengharapkan perangkat ini bisa lebih berguna
untuk membantu orang-orang cacat berinteraksi dengan mereka lingkungan dengan
memanfaatkan fasilitas teknologi IoT.
Dengan teknologi speech recognition, voice command user dapat
mengendalikan peralatan listrik, seperti TV, lampu, dan kipas angin dari jarak jauh
melalui smartphone. Voice command ditangkap sensor suara, selanjutnya pemrosesan
sinyal dalam digital format diterjemahkan ke dalam sistem dan dikendalikan oleh
aplikasi untuk mengenali voice command yang terdeteksi. Kemudian sistem akan
membandingkan informasi masukan yang telah masuk berupa format digital dengan
database suara yang disimpan. Dari hasil pengujian benar dan tepatnya voice
pronunciation speech recognition untuk aplikasi google assistant diperoleh akurasinya
mencapai 95%.
Gambar 4. 1. Artikel Publikasi pada IEEE dan International Conference on Smart
Technology and Applications (ICoSTA) 2020 Surabaya
Dan pada semester genap 2019/2020 telah dilakukan penelitian yang kedua
melalui Dana Hibah PUTI Prosiding UI. Hal ini menjadi penting agar diperoleh state of
the art dari penelitian yang akan dilakukan. Ini merupakan tahap kedua untuk dilakukan
penelitian yang lebih lanjut. Pada semester genap 2019/2020 ini pula telah
dipublikasikan paper pada The 11 th International Conference on ICT Convergence
(ICTC) 2020 tentang ”Performance of Smart Personal Assistant Applications Based on
Speech Recognition Technology using IoT-based Voice Commands”. Pada Gambar 4.2.
terlihat artikel publikasi pada IEEE dan ICTC 2020 Korea.
Penelitian ini bertujuan membandingkan performansi tiga aplikasi Smart
Personal Assistant (SPA) pada teknokogi speech recognition, yaitu Google Assistant,
Amazon Alexa, dan Apple Siri menggunakan voice command dengan berbasis IoT.
Eksperimen dirancang menggunakan smartphone, speaker pintar, dan sistem kontrol
perangkat. Dari hasil pengujian menunjukkan bahwa performansi voice pronunciation
memiliki tingkat akurasi tertinggi google assistant (95%) dan terendah Apple Siri (80%)
untuk merespon voice command. Performansi SPA voice command features
menunjukkan google assistant memiliki respons waktu tercepat (0,62 detik) dan Apple
Siri waktu paling lambat (2,58 detik) untuk menjawab pertanyaan tugas umum.
Performansi sistem kontrol perangkat menunjukkan google assistant memiliki respons
waktu tercepat untuk mengontrol peralatan rumah menggunakan voice command (1,03
detik) dan Apple Siri yang paling lambat (5,96 detik). Oleh karena itu, aplikasi google
assistant adalah yang terbaik dari ketiga suara SPA perintah. Novelty paper ini terlihat
di poin 5 Smart Personal Assistant Applications pada Tabel 4.1. Type of Applications
for IoT-based Smart Home Appliances Control System.
Tabel 4. 1. Type of Applications for IoT-based Smart Home Control System
Gambar 4. 2. Artikel Publikasi pada IEEE dan the 11 th International Conference on
ICT Convergence (ICTC) 2020 Korea
DAFTAR PUSTAKA
[1] S. Safavi, H. Gan, I. Mporas, and R. Sotudeh, "Fraud Detection in Voice-Based

Identity Authentication Applications and Services," in 2016 IEEE 16th
International Conference on Data Mining Workshops (ICDMW), 12-15 Dec.
2016 2016, pp. 1074-1081, doi: 10.1109/ICDMW.2016.0155.
[2] S. K. Choudhary and A. K. Naik, "Multimodal Biometric Authentication with
Secured Templates — A Review," in 2019 3rd International Conference on
Trends in Electronics and Informatics (ICOEI), 23-25 April 2019 2019, pp.
1062-1069, doi: 10.1109/ICOEI.2019.8862563.
[3] Z. Rui and Z. Yan, "A Survey on Biometric Authentication: Toward Secure and
Privacy-Preserving Identification," IEEE Access, vol. 7, pp. 5994-6009, 2019,
doi: 10.1109/ACCESS.2018.2889996.
[4] N. A. Kulkarni and L. J. Sankpal, "Efficient Approach Determination for Fake
Biometric Detection," in 2017 International Conference on Computing,
Communication, Control and Automation (ICCUBEA), 17-18 Aug. 2017 2017,
pp. 1-4, doi: 10.1109/ICCUBEA.2017.8463715.
[5] R. Devi and P. Sujatha, "A study on biometric and multi-modal biometric
system modules, applications, techniques and challenges," in 2017 Conference
on Emerging Devices and Smart Systems (ICEDSS), 3-4 March 2017 2017, pp.
267-271, doi: 10.1109/ICEDSS.2017.8073691.
[6] A. Tyagi, Ipsita, R. Simon, and S. K. khatri, "Security Enhancement through
IRIS and Biometric Recognition in ATM," in 2019 4th International Conference
on Information Systems and Computer Networks (ISCON), 21-22 Nov. 2019
2019, pp. 51-54, doi: 10.1109/ISCON47742.2019.9036156.
[7] I. Natgunanathan, A. Mehmood, Y. Xiang, G. Beliakov, and J. Yearwood,
"Protection of Privacy in Biometric Data," IEEE Access, vol. 4, pp. 880-892,
2016, doi: 10.1109/ACCESS.2016.2535120.
[8] J. Galbally, S. Marcel, and J. Fierrez, "Biometric Antispoofing Methods: A
Survey in Face Recognition," IEEE Access, vol. 2, pp. 1530-1552, 2014, doi:
10.1109/ACCESS.2014.2381273.
[9] J. Handa, S. Singh, and S. Saraswat, "Approaches of Behavioural Biometric
Traits," in 2019 9th International Conference on Cloud Computing, Data
Science & Engineering (Confluence), 10-11 Jan. 2019 2019, pp. 516-521, doi:
10.1109/CONFLUENCE.2019.8776905.
[10] S. Islam, N. Ammour, N. Alajlan, and M. Abdullah-Al-Wadud, "Selection of
Heart-Biometric Templates for Fusion," IEEE Access, vol. 5, pp. 1753-1761,
2017, doi: 10.1109/ACCESS.2017.2667224.
[11] N. Husin and A. N. Hidayanto, "Using Human Heartbeat as a Biometric Using
Arduino's Simple Implementation for Further Application," in 2019 7th
International Conference on Cyber and IT Service Management (CITSM), 6-8
Nov. 2019 2019, vol. 7, pp. 1-6, doi: 10.1109/CITSM47753.2019.8965388.
[12] X. Zhang, D. Cheng, Y. Dai, and X. Xu, "Multimodal Biometric Authentication
System for Smartphone Based on Face and Voice Using Matching Level
Fusion," in 2018 IEEE 4th International Conference on Computer and
Communications (ICCC), 7-10 Dec. 2018 2018, pp. 1468-1472, doi:
10.1109/CompComm.2018.8780935.
[13] L. Wu, J. Yang, M. Zhou, Y. Chen, and Q. Wang, "LVID: A Multimodal
Biometrics Authentication System on Smartphones," IEEE Transactions on
Information Forensics and Security, vol. 15, pp. 1572-1585, 2020, doi:
10.1109/TIFS.2019.2944058.
[14] "Introduction to the Issue on Spoofing and Countermeasures for Automatic
Speaker Verification," IEEE Journal of Selected Topics in Signal Processing,
vol. 11, no. 4, pp. 585-587, 2017, doi: 10.1109/JSTSP.2017.2698143.
[15] A. K. Jain, A. Ross, and S. Prabhakar, "An introduction to biometric
recognition," IEEE Transactions on Circuits and Systems for Video Technology,
vol. 14, no. 1, pp. 4-20, 2004, doi: 10.1109/TCSVT.2003.818349.
[16] I. Vorobyeva, D. Guriel, M. Ferguson, and H. Oladapo, "Benefits and issues of
biometric technologies. Are biometrics worth using?," in IEEE
SOUTHEASTCON 2014, 13-16 March 2014 2014, pp. 1-8, doi:
10.1109/SECON.2014.6950706.
[17] P. Kim, MATLAB Deep Learning : with Machine Learning, Neural Networks
and Artificial Intelligence. Berkeley, CA: Apress (in English), 2017.
[18] A. Küçük, A. Ganguly, Y. Hao, and I. M. S. Panahi, "Real-Time Convolutional
Neural Network-Based Speech Source Localization on Smartphone," IEEE
Access, vol. 7, pp. 169969-169978, 2019, doi: 10.1109/ACCESS.2019.2955049.
[19] N. Mairittha, T. Mairittha, and S. Inoue, "On-Device Deep Learning Inference
for Efficient Activity Data Collection," Sensors, vol. 19, p. 3434, 08/05 2019,
doi: 10.3390/s19153434.
[20] X. Dai, I. Spasić, B. Meyer, S. Chapman, and F. Andres, "Machine Learning on
Mobile: An On-device Inference App for Skin Cancer Detection," in 2019
Fourth International Conference on Fog and Mobile Edge Computing (FMEC),
10-13 June 2019 2019, pp. 301-305, doi: 10.1109/FMEC.2019.8795362.
[21] C. Supeshala, "Speaker Recognition using Voice Biometrics," 08/28 2017.
[22] S. Duraibi, F. Sheldon, and W. Alhamdani, "Voice Biometric Identity
Authentication Model for IoT Devices," International Journal of Security,
Privacy and Trust Management, vol. 9, pp. 1-10, 05/31 2020, doi:
10.5121/ijsptm.2020.9201.
[23] X. Zhang, Q. Xiong, Y. Dai, and X. Xu, "Voice Biometric Identity
Authentication System Based on Android Smart Phone," in 2018 IEEE 4th
International Conference on Computer and Communications (ICCC), 7-10 Dec.
2018 2018, pp. 1440-1444, doi: 10.1109/CompComm.2018.8780990.
[24] Z. Ma, Y. Liu, X. Liu, J. Ma, and F. Li, "Privacy-Preserving Outsourced Speech
Recognition for Smart IoT Devices," IEEE Internet of Things Journal, vol. 6,
no. 5, pp. 8406-8420, 2019, doi: 10.1109/JIOT.2019.2917933.
[25] A. Alzubaidi and J. Kalita, "Authentication of Smartphone Users Using
Behavioral Biometrics," IEEE Communications Surveys & Tutorials, vol. 18,
no. 3, pp. 1998-2026, 2016, doi: 10.1109/COMST.2016.2537748.
[26] M. Ehatisham-Ul-Haq et al., "Authentication of Smartphone Users Based on
Activity Recognition and Mobile Sensing," (in eng), Sensors (Basel), vol. 17,
no. 9, p. 2043, 2017, doi: 10.3390/s17092043.
[27] M. A. Ferrag, L. Maglaras, and A. Derhab, "Authentication and Authorization
for Mobile IoT Devices Using Biofeatures: Recent Advances and Future
Trends," Security and Communication Networks, vol. 2019, p. 5452870,
2019/05/05 2019, doi: 10.1155/2019/5452870.
[28] Z. Ali, M. S. Hossain, G. Muhammad, I. Ullah, H. Abachi, and A. Alamri,
"Edge-centric multimodal authentication system using encrypted biometric
templates," Future Generation Computer Systems, vol. 85, pp. 76-87,
2018/08/01/ 2018, doi: https://doi.org/10.1016/j.future.2018.02.040.
[29] M. Haque and K. Bhattacharyya, "Speech Background Noise Removal Using
Different Linear Filtering Techniques," 2018, pp. 297-307.
[30] F. Cheng, S.-L. Wang, and A. W.-C. Liew, "Visual speaker authentication with
random prompt texts by a dual-task CNN framework," Pattern Recognition, vol.
83, pp. 340-352, 2018/11/01/ 2018, doi:
https://doi.org/10.1016/j.patcog.2018.06.005.
[31] O. Abdel-Hamid, A. Mohamed, H. Jiang, L. Deng, G. Penn, and D. Yu,
"Convolutional Neural Networks for Speech Recognition," IEEE/ACM
Transactions on Audio, Speech, and Language Processing, vol. 22, no. 10, pp.
1533-1545, 2014, doi: 10.1109/TASLP.2014.2339736.
[32] M. Mohammed et al., "Voice Pathology Detection and Classification Using
Convolutional Neural Network Model," Applied Sciences, vol. 10, p. 3723,
05/27 2020, doi: 10.3390/app10113723.
[33] X. Zhong, Y. Dai, Y. Dai, and T. Jin, "Study on processing of wavelet speech
denoising in speech recognition system," International Journal of Speech
Technology, vol. 21, no. 3, pp. 563-569, 2018/09/01 2018, doi: 10.1007/s10772-
018-9516-7.
[34] L. Hussein Ali, "Reduce The Noise in Speech SignalsUsing Wavelet Filtering,"
Journal of University of Babylon, vol. 26, no. 5, pp. 157-165, 2018.
[35] C. Polat and M. Ozerdem, "Introduction to Wavelets and their applications in
signal denoising," Bitlis Eren University Journal of Science and Technology,
vol. 8, pp. 1-10, 06/28 2018, doi: 10.17678/beuscitech.349020.
[36] A. Kamalu, A. Raji, and V. I. Nnebedum, "IDENTITY AUTHENTICATION
USING VOICE BIOMETRICS TECHNIQUE U," 2015.
[37] R. Tanwar, K. Singh, and S. Malhotra, "An approach to ensure security using
voice authentication system," International Journal of Recent Technology and
Engineering, vol. 7, pp. 161-165, 01/01 2019.
[38] M. Z. Alom et al., "The History Began from AlexNet: A Comprehensive Survey
on Deep Learning Approaches," 03/03 2018.
[39] S. Albawi, T. A. Mohammed, and S. Al-Zawi, "Understanding of a
convolutional neural network," in 2017 International Conference on
Engineering and Technology (ICET), 21-23 Aug. 2017 2017, pp. 1-6, doi:
10.1109/ICEngTechnol.2017.8308186.
[40] J. Wu, Convolutional neural networks. China: LAMDA Group, 2020, p. 35.
[41] J. Gomes and M. El-Sharkawy, "i-Vector Algorithm with Gaussian Mixture
Model for Efficient Speech Emotion Recognition," in 2015 International
Conference on Computational Science and Computational Intelligence (CSCI),
7-9 Dec. 2015 2015, pp. 476-480, doi: 10.1109/CSCI.2015.17.
[42] S. G. Firooz, F. Almasganj, and Y. Shekofteh, "Improvement of automatic
speech recognition systems via nonlinear dynamical features evaluated from the
recurrence plot of speech signals," Computers & Electrical Engineering, vol. 58,
pp. 215-226, 2017/02/01/ 2017, doi:
https://doi.org/10.1016/j.compeleceng.2016.07.006.
[43] A. Poddar, M. Sahidullah, and G. Saha, "Speaker verification with short
utterances: a review of challenges, trends and opportunities," IET Biometrics,
vol. 7, no. 2, pp. 91-101, 2018, doi: 10.1049/iet-bmt.2017.0065.
[44] R. Tong, L. Wang, and B. Ma, "Transfer learning for children's speech
recognition," in 2017 International Conference on Asian Language Processing
(IALP), 5-7 Dec. 2017 2017, pp. 36-39, doi: 10.1109/IALP.2017.8300540.
[45] Y. Liao and Y. Wang, "Some Experiences on Applying Deep Learning to
Speech Signal and Natural Language Processing," in 2018 World Symposium on
Digital Intelligence for Systems and Machines (DISA), 23-25 Aug. 2018 2018,
pp. 83-94, doi: 10.1109/DISA.2018.8490638.
[46] J. Zhong, W. Hu, F. Soong, and H. Meng, DNN i-Vector Speaker Verification
with Short, Text-Constrained Test Utterances. 2017, pp. 1507-1511.
[47] D. Połap, M. Woźniak, R. Damaševičius, and R. Maskeliūnas, "Bio-inspired
voice evaluation mechanism," Applied Soft Computing, vol. 80, pp. 342-357,
2019/07/01/ 2019, doi: https://doi.org/10.1016/j.asoc.2019.04.006.
[48] Q. Liu, Z. Chen, H. Li, M. Huang, Y. Lu, and K. Yu, Modular End-to-end
Automatic Speech Recognition Framework for Acoustic-to-word Model. 2020.
[49] M. S. Elmahdy and A. A. Morsy, "Subvocal speech recognition via close-talk
microphone and surface electromyogram using deep learning," in 2017
Federated Conference on Computer Science and Information Systems
(FedCSIS), 3-6 Sept. 2017 2017, pp. 165-168, doi: 10.15439/2017F153.
[50] R. Jagiasi, S. Ghosalkar, P. Kulal, and A. Bharambe, "CNN based speaker
recognition in language and text-independent small scale system," in 2019 Third
International conference on I-SMAC (IoT in Social, Mobile, Analytics and
Cloud) (I-SMAC), 12-14 Dec. 2019 2019, pp. 176-179, doi: 10.1109/I-
SMAC47947.2019.9032667.
[51] W. Xiong, L. Wu, F. Alleva, J. Droppo, X. Huang, and A. Stolcke, "The
Microsoft 2017 Conversational Speech Recognition System," in 2018 IEEE
International Conference on Acoustics, Speech and Signal Processing (ICASSP),
15-20 April 2018 2018, pp. 5934-5938, doi: 10.1109/ICASSP.2018.8461870.
[52] A. Boles and P. Rad, "Voice biometrics: Deep learning-based voiceprint
authentication system," in 2017 12th System of Systems Engineering Conference
(SoSE), 18-21 June 2017 2017, pp. 1-6, doi: 10.1109/SYSOSE.2017.7994971.
[53] N. Singh, A. Agrawal, and P. R. Khan, "Voice Biometric: A Technology for
Voice Based Authentication," Advanced Science, Engineering and Medicine,
vol. 10, 07/01 2018, doi: 10.1166/asem.2018.2219.
[54] N. H. Tandel, H. B. Prajapati, and V. K. Dabhi, “Voice Recognition and Voice
Comparison using Machine Learning Techniques: A Survey,” in 2020 6th
International Conference on Advanced Computing and Communication Systems
(ICACCS), 2020, pp. 459–465.
[55] F. G. Barbosa and W. L. S. Silva, “Automatic voice recognition system based on
multiple Support Vector Machines and mel-frequency cepstral coefficients,” in
2015 11th International Conference on Natural Computation (ICNC), 2015, pp.
665–670.
[56] A. Sidorova and K. Kogos, “Voice authentication based on the Russian-language
dataset, MFCC method and the anomaly detection algorithm,” in 2020 15th
Conference on Computer Science and Information Systems (FedCSIS), 2020, pp.
537–540.
[57] J. Hennebert, H. Melin, D. Petrovska, and D. Genoud, “ POLYCOST: a
telephone-speech database for speaker recognition,” Speech communication.
2000 Jun 1;31(2-3):265-70.
[58] Janin, Adam, et al. ICSI Meeting Speech LDC2004S02. Web Download.
Philadelphia: Linguistic Data Consortium, 2004
LAMPIRAN
1. Artikel publikasi yang pertama pada Seminar Internasional:

H. Isyanto, A. S. Arifin, dan M. Suryanegara, "Design and Implementation of
IoT-Based Smart Home Voice Commands for disabled people using Google
Assistant," 2020 International Conference on Smart Technology and
Applications (ICoSTA), pp. 1-6, pada tanggal 20 Februati 2020 diselenggarakan
oleh IEEE Indonesia Section, ICoSTA 2020 dan Universitas Bhayangkara
Surabaya (Ubhara) di Hotel Mercure Surabaya.
2. Artikel publikasi yang kedua pada Seminar Internasional:
H. Isyanto, A. S. Arifin, dan M. Suryanegara, "Performance of Smart Personal
Assistant Applications Based on Speech Recognition Technology using IoT-
based Voice Commands,” The 11 th International Conference on ICT
Convergence (ICTC), pp. 1-6, pada tanggal 21-23 Oktober 2020 diselenggarakan
oleh IEEE Korea Section dan ICTC 2020 di Ramada Plaza Hotel, Pulau Jeju,
Korea.
Lampiran 1
Artikel telah dipublikasi pada 2020 International Conference on Smart Technology and
Applications (ICoSTA) dan telah diposting oleh IEEE Xplore digital library berlaku
efektif 27-04-2020.
Lampiran 2
Artikel telah dipublikasi pada 2020 International Conference on Information and
Communication Technology Convergence (ICTC) dan telah diposting oleh IEEE Xplore
digital library berlaku efektif 21-12-2020.

Proposal Riset Haris Isyanto - OK

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Proposal Riset Haris Isyanto - OK

Diunggah oleh

Hak Cipta:

Format Tersedia

DAFTAR SINGKATAN

1.1 Latar Belakang

Gambar 1. 1. Alur kerja proses identifikasi voice biometric

Gambar 1. 2. Alur kerja proses autentikasi voice biometric

1.1.2 Deep Learning

Teknik dengan representasi fitur pun semakin berkembang dari kecerdasan

1.3 Tujuan Penelitian

1.4 Kontribusi Penelitian

Penelitian ini diharapkan mampu berkontribusi untuk menghasilkan algoritma

1.5 Batasan Masalah

2.1 Voice Biometrik

Gambar 2. 2. Jenis-jenis layer CNN [38]

2.2.1 Convolutional Layer

Tujuan dari penggunaan convolution layer CNN adalah untuk mempercepat

Gambar 2. 4. Ilustrasi Jenis Pooling

2.2.3 ReLU Layer

2.2.5 Stochastic Gradient Descent (SGD)

Gambar 2. 5. Gradient Descent

Perlu diingat, bahwa di hampir semua pembahasan tentang CNN, notasi

2.2.6 Error Back Propagation

propagation untuk layer ke (i+1) harus sudah selesai. Kalkulasi

kalkulasi berikutnya, yaitu menghitung dengan rumus berantai sbb :

Karena sudah dihitung dan disimpan di memory, hanya dibutuhkan operasi

matriks, vektor dan transpose untuk memperoleh . Selama kita dapat

menghitung , kita juga dapat menghitung

Menghitung jauh lebih mudah dari pada menghitung

langsung , karena xi terkait langsung dengan xi+1, melalui

2.3 Penelitian Terkait

Tabel 2. 1. Klasifikasi Penelitian Terkait

No Peneliti Fitur Machine Deep Combine Keterangan

2.4 Posisi Penelitian yang Dilakukan

Klasifikasi penelitian terkait dapat terlihat pada sub-bab 2.3 menunjukkan

No Fitur Ekstraksi Deep Learning Machine Learning

3.1 Metode Penelitian

Gambar 3. 1. Ilustrasi autentikasi voice biometrik dengan deep learning

Dari penelitian-penelitian terkait diatas menggunakan data suara dari dataset

Tabel 3. 1. Dataset Voice Recognition

No Datasets Jumlah Jenis speech Sample rate

Penelitian menggunakan simulasi dengan memodelkan input voice signal

Dengan perubahan parameter, DWT didefinisikan sebagai berikut:

Gambar 3. 2. Proses signal filtering DWT

Gambar 3. 3. Tahapan Penelitian Autentikasi Voice Biometric dengan metode DWT

3.1.3.1 Tahap TRAINING

3.1.3.2 Tahap INFERENCE

3.1.4 Parameter yang akan diuji

Jumlah Kejadian yang Salah Terima

Gambar 3. 4. Ilustrasi EER

3.2 Rencana Penelitian

1. Pemodelan matematika DWT terhadap suara input voice signal.

3.3 Jadwal Penelitian

Jadwal pelaksanaan penelitian disusun berdasarkan dengan pembagian waktu

Gambar 3. 5. Jadwal Pelaksanaan Penelitian

[1] S. Safavi, H. Gan, I. Mporas, and R. Sotudeh, "Fraud Detection in Voice-Based

1. Artikel publikasi yang pertama pada Seminar Internasional:

Anda mungkin juga menyukai