AI Artificial Intelligence
ANN Artificial Neural Network
UBM Universal Background Model
CNN Convolutional Neural Network
DNA Deoxyribo Nucleic Acid
DNN Deep Neural Networks
DWT Discrete Wavelet Transform
EER Equal Error Rate
FAR False Acceptance Rate
FCN Fully Convolutional Network
FRR False Rejected Rate
GMM UBM Gaussian Mixture Model Universal Background Model
HMM Hidden Markov Model
LSTM Long Short Term Memory
MFCC Mel Frequency Cepstral Coefficient
ML Machine Learning
MLP Multi Layer Perceptron
PIN Personal Identification Number
PSNR Peak Signal to Noise Ratio
PNN Probabilistic Neural Network
ReLU Rectified Linear Units
RNN Recurrent Neural Network
ROI Region of Interest
SVD Singular Value Decomposition
SVM Support Vector Machine
BAB 1
PENDAHULUAN
Beberapa tahun belakangan ini, voice biometric menjadi topik yang menarik
perhatian dalam berbagai teknologi di masa depan. Voice biometric digunakan untuk
autentikasi user, misalnya pada perbankan, karena memiliki keamanan yang tinggi dan
memiliki keakuratan dalam mengidentifikasi seseorang [3]. Kemajuan Voice biometrik
sedang menjadi perhatian para peneliti untuk mengkaji lebih dalam. Pada penelitian ini
diajukan Autentikasi Voice Biometrik dengan Metode Wavelet dan Convolutional
Neural Network.
Deep Learning adalah bagian dari kecerdasan buatan, yang merupakan
pengembangan dari neural network untuk memberikan ketepatan tugas seperti deteksi
objek dan pengenalan suara. Deep Learning secara otomatis melakukan representasi
dari data seperti gambar, video, suara atau text tanpa memperkenalkan aturan kode atau
pengetahuan domain manusia. Penelitian ini mengunakan metode transformasi wavelet
diskrit, yang mana berfungsi sebagai denoising dan segmenttion dalam sinyal voice.
Dan pada penelitian ini mengunakan Convolutional Neural Network (CNN) yang
merupakan pengembangan metode deep learning dari pengembangan Multi Layer
Perceptron (MLP) yang didesain untuk mengolah data dua dimensi. CNN termasuk
dalam jenis Deep Neural Network karena dalamnya tingkat jaringan dan banyak
diimplementasikan dalam data citra dan suara.
1.1.1 Pengenalan Suara
Pengenalan Suara atau Voice Recognition terbagi menjadi dua bagian yaitu
Speech Recognition dan Speaker Recognition. Speech Recognition adalah proses
mengenali apa kata yang diucapkan seseorang. Speaker Recognition adalah proses
mengenali identitas suara siapa yang berbicara berdasarkan voice signal. Voice
Recognition adalah gabungan keduanya dimana suara digunakan untuk menentukan
siapa yang bicara dan apa yang dikatakan. Suara setiap orang unik, seperti nada suara,
gaya berbicara, aksen dll. Voice Recognition merupakan aplikasi dari metode biometric
untuk identifikasi suara seseorang berdasarkan karateristik biologis setiap individu agar
dapat diketahui autentikasi suara identitasnya. Maka voice recognition merupakan
aplikasi voice biometic untuk tujuan keamanan [22, 37]. Adapun proses voice biometic,
secara umum metode skenario pengaplikasiannya, yaitu dengan melakukan proses
identifikasi dan autentikasi user.
Pada tahap identifikasi user, suara yang menjadi input ditangkap oleh sensor
suara, dimana proses penangkapan (capture) ini berupa voice signal. Selanjutnuya voice
signal diproses dengan pemrosesan sinyal digital. Dari hasil pemrosesan (processing)
sinyal tersebut dilakukan extra feature suara. Selanjutnya dilakukan identifikasi voice
biometric sebagai suara ciri unik user dari create template didaftarkan. Identifikasi
voice biometric ini melibatkan proses speech dan speaker recognition pada saat create
template mengenali suara user. Identifikasi user voice biometric terdaftar tersebut
disimpan dalam database (storage device). Alur kerja proses identifikasi voice
biometric dapat terlihat pada Gambar 1.1.
Pada tahap autentifikasi user, Seperti halnya pada yang dilakukan tahap
identifikasi user, maka proses autentifikasi ini input voice signal baru ditangkap oleh
sensor suara, setelah proses capture voice signal dilakukan dengan pemrosesan
(processing) sinyal digital. Dari hasil pemrosesan sinyal tersebut, maka dilakukan extra
feature suara. Selanjutnya proses membandingkan atau mencocokkan template (match
template) antara identifikasi user voice signal baru dengan template identifikasi user
yang telah terdaftar dan tersimpan dalam database sebelumnya. Proses pencocokkan
identifikasi user tersebut dilaksanakan satu per satu menunjukan status terdaftar atau
tidaknya seorang user pada database. Hasil keluaran dari proses pencocokan ini untuk
menentukan autentikasi user voice biometric dan menentukan akurasi kecocokan suara
dengan template dalam database. Alur kerja proses autentikasi voice biometric dapat
terlihat pada Gambar 1.2.
1.2 Permasalahan
Kejahatan penipuan data dan pencurian identitas menjadi ancaman baru dalam
kejahatan dunia maya (cybercrime). Metode identifikasi konvesional untuk akses data,
seperti kata sandi, kartu ID magnetik, kode Personal Identification Number (PIN), dll
mempunyai kekurangan seperti lupa, kartu rusak, kartu hilang, diretas, dicuri, ataupun
dipalsukan. Untuk meminimalisir permasalahan tersebut, maka metode identifikasi terus
dikembangkan, terutama untuk keamanan akses data sensitif seperti mobile banking di
perbankan. Penerapan metode voice biometrik dapat digunakan untuk peningkatan
keamanan. Metode data biometrik ini dapat diandalkan karena lebih aman, terpercaya
dan cepat saat proses identifikasi dan autentikasi user berbasis suara. Voice biometrik
dipilih dalam penelitian ini karena voice biometric dapat melakukan autentikasi suara
secara jarak jauh mengunakan mobile device atau smartphone melalui jaringan
telekomunikasi [12], tidak memerlukan perangkat keras khusus [21], memberikan
perlindungan dari penipuan [15], mudah diakses, paling sederhana dan termudah
digunakan untuk otentikasi pengguna, menjaga privasi identitas personal, memiliki
keamanan yang tinggi, dan akurat untuk mengidentifikasi seseorang [3, 16, 22].
Dibandingkan dengan fitur biologis lainnya, voice biometrik memiliki beberapa
keunggulan khusus: tidak bersentuhan, biaya implementasi rendah dibanding metode
biometrik lainnya, aplikasi luas, mudah ditangani [13, 14, 23].
Pada pembahasan penelitian sebelumnya [24], autentikasi voice user letaknya
berada di server. Masalahnya informasi voice yang dikirim ke Server masih dalam
bentuk plaintext (text biasa), yang mana rentan disadap sehingga user dapat dengan
mudah terbongkar. Terkait dengan permasalahan tersebut, maka perlu upaya agar
autentikasi voice user dapat dilakukan di Mobile Device bukan di server (Autentikasi
running on smartphone) [13, 25-28]. Pada setiap mengirimkan informasi dari suatu
mobile device ke mobile device lainnya ataupun mobile device ke smart device lainnya
melalui layanan cloud pihak ketiga lintas platform itu rentan dari masalah dan ancaman
cybercrime. Untuk itu diusulkan solusi teknik autentikasi dan keamanan melalui
autentikasi running on smartphone dengan teknologi komputasi authentication
frameworks and protocols.
Autentikasi voice user pada smartphone kini tengah dikembangkan pada metode
biometrik. Implementasi autentikasi voice user pada smartphone merupakan kemajuan
dalam teknologi Artificial Intelligence (AI) dan kekuatan komputasi. Interaksi secara
berkelanjutan meningkatkan teknologi termasuk autentikasi voice biometrics
menggunakan Artifcial Intelligence (AI). Jumlah data yang besar memberikan masalah
pada autentikasi running on smartphone. Untuk menangani hal tersebut dibutuhkan
perangkat kekuatan komputasi teknologi AI untuk proses pengolahan data.
Perkembangan teknologi Artificial Intelligence (AI), Machine Learning (ML)
hingga mesin cerdas yang lainnya diprediksi akan terus berkembang. Berbagai
terobosan AI yang lebih cerdas telah banyak diimplementasikan di dunia nyata.
Teknologi mesin cerdas makin mengemuka sejalan dengan terus
berkembangnya algoritma AI.
Perkembangan teknologi mesin cerdas bertujuan menghasilkan tingkat akurasi
yang tinggi. Namun, jumlah data yang besar memberikan masalah dalam proses
identifikasi biometric pada kerumitan dan dalam waktu yang singkat. Disamping itu
masalah yang terjadi pada sinyal voice adalah terjadinya noise yang
mengkontaminasi proses pengolahannya dan permasalahan kualitas suara yang
menurun akibat noise [29].
Pada penelitian ini menggunakan metode Deep Learning berbasis Convolutional
Neural Network (CNN), karena algoritma CNN memiliki kinerja yang tinggi yang telah
digunakan untuk pelatihan dan pengujian database. Dengan kinerja metode CNN
tersebut diharapkan dapat membantu menyelesaikan permasalahan jumlah data yang
besar dalam proses identifikasi biometric pada kerumitan dan dalam waktu yang
singkat. Permasalahan tersebut diatas dilakukan oleh CNN pada tahap Training Data,
dimana proses learning dataset voice signal dilatih pada Deep Learning Framework
mengunakan komputer. Dan metode CNN dapat membantu menyelesaikan tuntutan
permasalahan identifikasi user yang bekerja lebih aman, cepat dan akurat. Metode CNN
ini aman karena dapat mengurangi dari terjadinya pemalsuan, cepat karena waktu
prosesnya yang relatif singkat walaupun dengan jumlah data yang besar dan akurat
karena classifier bisa kenali fitur orang-orang tertentu, sekaligus bedakan fitur antar
orang.
CNN Trained Model yang telah dilatih sebelumnya diterapkan pada kumpulan
database suara untuk memaksimalkan akurasi klasifikasi CNN. Klasifikasi CNN dapat
membedakan suara yang berbeda dan konten yang diartikulasikan. Skema deep
learning CNN digunakan untuk melatih identitas suara pembicara dan konten suara
dengan jaringan yang terlatih, sehingga dapat mengautentikasi identitas suara pembicara
dan konten suara. Klasifikasi CNN ini diharapkan dapat membantu mengatasi masalah
kelemahan dalam sistem voice recognition atau voice biometrik berupa
serangan/pemalsuan rekaman suara. Dengan penerapan metode klasifikasi CNN yang
telah dilatih pada banyak sampel training dataset voice, maka CNN Trained Model
dapat membedakan antara suara yang asli (valid) dengan rekaman suara (tidak valid),
sehingga akurasi autentikasi dan ketahanan terhadap serangan pemalsuan suara dapat
terjaga. Adapun klasifikasi CNN Trained Model menghasilkan keluaran berupa label
validasi data (valid/tidaknya) autentikasi identitas voice signal user. Hasil keluarannya
diharapkan dapat mencapai kinerja akurasi autentikasi tinggi diatas 90%. Untuk
mencapai akurasi autentikasi yang tinggi, maka kinerja autentikasi dapat lebih
dioptimalkan dan ditingkatkan dengan lebih banyak sampel training [30-32].
Permasalahan noise yang terjadi pada sinyal voice, yang mengkontaminasi proses
pengolahannya dan permasalahan kualitas suara yang menurun akibat noise [29].
Adapun solusi untuk mengatasi permasalahan noise tersebut, yaitu dengan
menggunakan metode Feature extraction Discrete Wavelet Transform (DWT). Metode
DWT merupakan cara efektif untuk menghilangkan noise (denoising) pada pemrosesan
sinyal agar kualitas suara menjadi lebih baik dan segmentation pada DWT ini akan
memisahkan suara-suara yang dibutuhkan saja dari suara lainya yang tidak dibutuhkan,
seperti noise. Dan DWT ini memiliki kemampuan aplikasi yang luas di bidang analisis
dan pemrosesan berbagai sinyal, seperti kompresi dan pengurangan noise, analisis voice
signal dalam sistem voice biometrik, berbagai pendekatan untuk pengurangan noise
digunakan untuk mendeteksi audio signal. Dalam pengunaan pemrosesan sinyal.
Beberapa feature extraction MFCC dengan metode Discrete Fourier Transform
(DFT) ini tidak terlalu handal, sering kali kualitasnya menurun akibat noise, hal ini
dapat menyebabkan error pada proses komputasi. Feature extraction tersebut hanya
dilokalisasi dalam frekuensi sehingga kehilangan semua kendali atas waktu.
Sedangkan feature extraction dengan metode DWT ini sinyal dapat dilokalisasi dalam
waktu dan frekuensi. Setiap pengukuran DWT sesuai dengan parameter tetap akan
memberikan informasi tentang jangkauan temporal waktu sinyal, serta informasi
tentang spektrum frekuensi sinyalnya [33-35].
Adapun tujuan penelitian ini untuk merancang sistem autentikasi voice biometric
berbasis smartphone menggukanan fitur ekstraksi DWT dan CNN. Algoritma deep
learning berbasis Convolutional Neural Network (CNN) diaplikasikan untuk dapat
mengidentifikasi dan mengautentikasi voice biometrik user seseorang dengan
kemampuan akurasi tinggi. Dan dengan pemrosesan sinyal suara yang cepat, akurat dan
efisien dalam penggunaan hardware.
Urgensi atau manfaat yang dapat diperoleh dari penelitian ini adalah suatu model
sistem yang dapat mengidentifikasi dan mengautentikasi voice biometrik melalui
smartphone. Diharapkan model ini dapat diimplentasikan oleh masyarakat umum,
seperti pada nasabah perbankan mobile banking. Analisis dan pembahasan yang
mendalam tentang metode voice processing dan deep learning diharapkan dapat
menambah publikasi karya ilmiah di tingkat nasional maupun internasional.
Pada penelitian ini menggunakan data suara dari dataset voice recognition yang
telah dipublikasikan pada paper sebelumnya. Dataset suara pertama diperoleh dari
POLYCOST [59] dengan jumlah pembicara 131, jenis telephone speech dan sample rate
8.000 Hz. Dataset suara kedua diperoleh dari ICSI Meeting speech [60] dengan jumlah
pembicara 53, jenis micropohone speech dan sample rate 16.000 Hz.
Penelitian ini dibatasi pada algoritma ekstraksi fitur DWT, dalam hal ini
menggunakan metode Deep Learning CNN. Walaupun hanya fokus pada algoritma dan
penulisan program untuk komputer atau mikroprosesor, penelitian ini juga tetap
mempertimbangkan aspek hardware.
BAB 2
TINJAUAN PUSTAKA
Suara atau voice yang menjadi ciri khas dari manusia, kemudian input voice
ditangkap oleh sensor suara, dimana proses penangkapan biometrik ini berupa voice
signal. Kemudian mengumpulkan input voice signal. Konten suara pertama kali dikenali
sebagai voice sample. Selanjutnuya diproses dengan pemrosesan sinyal digital. Dari
hasil pemrosesan sinyal yang diperoleh kemudian dilakukan fitur ekstraksi suara.
Selanjutnya voice signal diproses dan dicocokkan dengan data disimpan dalam
database. Proses ini merupakan proses voice recognition atau voice biometrik, seperti
terlihat pada Gambar 2.1 [37].
Voice biometric ini menggunakan pendekatan beberapa karakteristik menonjol
dari suara manusia dalam mengenali individual dengan penggunaan algoritma tertentu.
Ini adalah pendekatan yang lebih menantang daripada kebanyakan metode identifikasi
klasik lainnya, karena karakteristik suara tidak hanya dipengaruhi oleh fisik aspek
saluran suara individu, tetapi juga oleh perilaku aspek seperti cara berbicara dan transisi
audio. Ada dua jenis metode voice recognition: metode text independent dan metode
text dependent bergantung pada teks metode. Dalam metode text independen, tidak ada
batasan khusus dalam ucapan. Dengan demikian, model pembicara menangkap hanya
karakteristik ucapan. Tapi tergantung teks sistem menggunakan frasa tertentu dalam
pengucapan seperti password, kode PIN untuk pengenalan identitas speaker.
Saat ini, voice recognition merupakan pendekatan yang menjanjikan untuk
aplikasi berbasis keamanan terutama karena, mereka menghilangkan sebagian besar
ancaman keamanan dan penipuan transaksi melalui penyediaan autentikasi yang andal
pengguna. Selain itu, sistem tersebut menawarkan banyak keuntungan lainnya seperti
dikte otomatis, handsfree, dan pengguna intuitif interaksi dan antarmuka perintah.
Dengan demikian, mereka telah memperoleh keuntungan popularitas luar biasa di
berbagai bidang termasuk informasi layanan, layanan akses database, panggilan suara,
pesan suara, perbankan melalui telepon dan belanja telepon dll. Selain itu, mungkin
satu-satunya biometrik yang dapat melakukannya mudah diuji dari jarak jauh melalui
jaringan telepon, dan karena itu akan menjadi lebih populer di masa depan.
Voice biometrik secara umum digunakan untuk proses identifikasi dan
autentikasi. Identifikasi digunakan untuk mengenali identitas seseorang dan
authentikasi digunakan untuk memastikan apakah data yang diberikan cocok dengan
data yang sudah ada. Voice biometrik merupakan metode yang dapat mengidentifikasi
suara seseorang berdasarkan karateristik biologis setiap individu agar dapat diketahui
autentikasi identitasnya lebih tepat. Dalam hal ini akan melakukan perbandingan
kecocokan antara data biometrik yang diberikan seseotang yang akan dibandingkan
dengan data yang sudah ada pada database lalu apabila ditemukan kecocokan
maka akan diberikan jawaban yang sesuai dengan permintaan. Untuk identifikasi user
diharuskan memasukkan nama user, dapatkan kode registrasi khusus (yaitu, user perlu
membaca konten suara), dan kemudian mengumpulkannya dan masukkan suara.
Setelah perolehan suara berhasil segmen, konten suara pertama kali dikenali. Jika
memang konsisten dengan konten yang ditetapkan, maka langkah-langkah berikut
seperti itu sebagai pra-pemrosesan, fitur ekstraksi dan training model, pencocokan dan
autentikasi dilakukan. Jika tidak, pengguna perlu memasukkan kembali suara yang
sama dengan konten yang ditentukan. Di proses pencocokan, hanya vektor fitur yang
sesuai ke input nama pengguna dalam fase autentikasi cocok dengan model tahap
identifikasi sesuai dengan pengguna, maka diperoleh hasil autentikasi user [3, 23].
2.2 Convolutional Neural Network (CNN)
CNN merupakan salah satu pengembangan dari jaringan syaraf tiruan yang lebih
dalam dengan bentuk deep feed-forward artificial neural networks. Jenis-jenis layer
CNN terdiri atas satu lapisan masukan (input layer), lapisan tersembunyi yang pada
umumnya adalah convolutional layers, pooling layers, ReLU layer dan fully connected
layers serta satu lapisan keluaran (output layer) [38]. Gambar Jenis-jenis layer CNN
dapat dilihat pada
[38]
[38] . Struktur Convolution Layer CNN yang mempunyai 3 dimensi, yaitu lebar
(width), tinggi (height) dan dalam (depth).
Gambar 2. 3. Struktur Convolution Layer CNN 3 Dimensi dengan Lebar (Width),
Tinggi (Height) dan Dalam (Depth) [39]
Pooling layer berfungsi untuk menjaga ukuran data hasil dari convolutional
layer. Dengan pooling maka data yang tadinya berukuran besar menjadi berukuran lebih
kecil namun mudah dikelola dan mengatur overfitting. Terdapat 2 jenis pooling yaitu
max pooling dan average pooling. Max pooling adalah suatu pooling dengan memilih
nilai maksimum pada ukuran jendela tertentu. Average pooling adalah suatu pooling
dengan memilih nilai rerata pada ukuran jendela tertentu. Kedua jenis pooling dapat
diilustrasikan pada gambar 2.4.
M
On= ∑ (w n ,m x m +bn ) (2.1)
m =1
dengan
O n = hasil pembacaan linier kombinasi
M = Jumlah neuron pada lapisan fully connected
w n ,m= bobot
N = jumlah kelas yang program harus memilih
x m = m-th input map
b n = bias dari n-th map
Oleh karena fully connected layer merupakan level tinggi yang terhubung
dengan kelas tertentu maka probabilitas terhadap kelas yang tersedia dapat dihitung
dengan persamaan 2.2.
exp(Ou )
P u= C
(2.2)
∑ exp (On)
n−1
dengan
Pu = Peluang dari neuron ke-u
O u = Linier kombinasi neuron ke-u
C = banyaknya kelas
CNN juga merupakan salah satu teknik pengolahan informasi berbasis Neural
Network, di mana sebagian besar proses dilakukan dengan kalkulasi konvolusi atau dot
product. Persamaan 2.1 adalah contoh CNN yang tidak bercabang, informasi diproses
layer demi layer, di mana tulisan pada pangkat adalah indeks layer ybs. Layer, weight
atau kernel mewakili array N-dimensi atau Tensor yang memproses data xn menjadi xn+1.
(2.3)
Persamaan 2.3 di atas menggambarkan bagaimana CNN menjalankan layer demi
layer secara forward, atau biasa disebut forward propagation. Input x1 bisa berupa
sebuah gambar yang diwakili tensor orde 3. Tensor ini melalui beberapa proses
layering, mulai dari kotak pertama, dalam hal ini w1, sampai layer terakhir. Parameter
atau angka pada tensor w1 mengubah input x1 menjadi tensor x2, yang juga merupakan
input bagi proses berikutnya, dalam hal ini tensor w2.
Proses ini terus berlanjut sampai ke layer terakhir yang outputnya adalah xL. Satu
layer tambahan digunakan untuk backward error propagation, yaitu metode belajar
untuk menera parameter yang tepat untuk semua w dalam CNN. Misalnya, kita ingin
mencari solusi dari beberapa gambar yang bisa dikatagorikan dalam sejumlah kelas,
yaitu C. Strategi yang umum untuk hal ini adalah menjadikan xL sebagai vektor dengan
dimensi C, di mana elemen ke-i nya adalah prediksi (probabilitas i hasil proses x 1).
Untuk membuat xL menjadi probability mass function, kita dapat merekayasa proses di
layer wL-1 sebagai transformasi softmax dari input xL-1. Di aplikasi lainnya, output xL
bisa dalam bentuk dan interpretasi lainnya.
Layer terakhir adalah loss layer. Misalnya kita pilih t adalah target sebenarnya
dari klasifikasi yang terkait dengan masing-masing x1. Maka cost atau loss function
dapat digunakan untuk mengukur perbedaan antara prediksi dengan kelas sebenarnya
dengan persamaan:
(2.4)
Meskipun ada juga persamaan yg lebih kompleks utk menghitung cost function ini.
Persamaan 2.4 tersebut dapat juga digunakan utk solusi regresi. Dalam klasifikasi, cross
entropy loss juga sering digunakan. Nilai sebenarnya (ground-truth, bukan hasil
inferensi) dalam klasifikasi diwakili variable katagori vektor t. Pertama, dilakukan
konversi dari variable katagori t menjadi vektor t yang dimensinya C, yaitu jumlah klas.
Setelah t dan xL sama-sama menjadi probability mass function, cross entropy loss
digunakan utk mengukur selisih t dan xL. Cross entropy ini dapat diminimalisir.
Persamaan 2.3 memperlihatkan model loss function atau loss layer sebagai wL.
Walaupun forward propagation pada CNN dapat dilakukan jauh lebih cepat dari
Multi Layer Perceptron (MLP), jumlah parameter (weight) yang harus ditera jauh lebih
banyak, apalagi pada kasus deep learning, di mana jumlah filter atau layer bisa
mencapai ratusan seperti pada Residual Network. Akibatnya, proses back propagation
menjadi berat dan lambat. Untungnya sudah ada cara untuk meringankan beban ini,
misalnya dengan identity residual mapping atau dengan low bitwidth gradient.
(2.5)
∂z
dgn z dipengaruhi nilai wL, mudah menghitung L
L . Cara ini diperlukan jika w tidak
∂w
∂z ∂z
kosong. juga mudah dihitung, misalnya jika kuadrat loss digunakan,
∂xL ∂ wL
kosong dan
Faktanya, untuk setiap layer, dihitung 2 set gradient, yaitu turunan parsial z
terhadap wi dan turunan parsial z terhadap xi.
∂z
seperti ditulis di persamaan 2.4, digunakan untuk update parameter pada
∂ wi
layer wi
∂z
dapat digunakan untuk update parameter sebelumnya, misalnya pada layer
∂ xi
∂z
ke (i-1), karena xi adalah output dari wi-1 dan bagian dari upaya mengurangi
∂ xi
∂z
z atau loss function terkait perubahan pada xi. Jadi, semacam info error
∂ xi
supervisi yang merambat dari z balik arah ke layer ke-i. Kita dapat terus
∂z
melanjutkan proses back propagation, menggunakan sampai ke layer ke (i-
∂ xi
1).
Prosedur update balik dari layer ke layer seperti ini memudahkan proses belajar
CNN. Ambil contoh misalnya, layer ke-i. Saat kita update layer ke-i, proses back
(2.7)
dan .
Berdasarkan penelitian terkait tersebut diatas pada sub-bab 2.3 dan 2.4, maka
skema yang diusulkan pada penelitian ini, dapat terlihat pada tabel 2.2 poin 9. Jadi
posisi penelitian voice biometrik yang dipilih adalah dengan melakukan penggabungan
metode DWT dan CNN. Adapun perbedaannya dengan penelitian [47] diatas
menggunakan speech recognition untuk mengindetifikasi user, dimana penelitian
tersebut tidak membahas authentikasi user. Sedangkan pada usulan penelitian ini
menggunakan voice biometric untuk mengindetifikasi dan mengauthentikasi user
sebagai solusi akses sistem keamanan.
Dan diharapkan dengan melakukan penggabungan metode DWT dan CNN ini
dapat meningkatkan kualitas dan kinerja performansi akurasi yang tinggi dalam
mengidentifikasi dan mengautentikasi user.
BAB 3
METODOLOGI PENELITIAN
Berdasarkan penjelasan yang telah diuraikan pada sub-bab 2.3 dan 2.4 tentang
posisi penelitian dan klasifikasi penelitian terkait identifikasi dan autentikasi voice
biometrik dengan metode DWT dan CNN. Penelitian ini dilakukan dengan
menggunakan simulasi program metode deep learning CNN dengan perangkat lunak.
Simulasi yang dilakukan dengan memodelkan input voice signal berdasarkan dataset
dari database yang telah tersedia secara online, dimana telah digunakan pada penelitian-
penelitian sebelumnya, dataset voice recognition.
Suara yang menjadi input pada proses ini merupakan voice signal yang telah
tersedia dalam dataset dilakukan pada proses Training Data. Voice signal tersebut
mengalami preprosesing atau pemprosesan sinyal terlebih dahulu agar voice tersebut
menjadi lebih siap untuk diolah. Beberapa proses yang dilalui adalah proses binari agar
voice signal menjadi biner (pemrosesan sinyal digital). Selanjutnya dilakukan proses
feature extraction suara dan proses pemilihan daerah yang diproses menjadi lebih
dipersiapkan untuk proses segmentation. Proses segmentation ini memisahkan suara
yang dibutuhkan untuk proses pengolahan pengenalan suara yang dilakukan dengan
metode deep learning neural network untuk identifikasi label user. Dan neural network
yang sudah dilatih ditaruh smartphone pada proses inference untuk proses klasifikasi
label voice signal user [18-20]. Outputnya berupa valid/tidaknya label user untuk
menentukan autentikasi voice recognition atau voice biometric. Ilustrasi autentikasi
voice biometrik dengan deep learning dapat terlihat pada Gambar 3.1.
3.1.1 Dataset
Perbandingan suara adalah varian dari voice recognition. Perbandingan suara
memainkan peran penting dalam bidang ilmu forensik dan sistem keamanan.
Perbandingan suara yang tepat merupakan masalah yang menantang. Untuk
menyelesaikan voice recognition dan perbandingan suara, maka digunakan deep
learning karena kekuatannya dalam keakuratan saat dilatih dengan data dalam jumlah
besar. Penelitian ini membahas dataset yang tersedia untuk umum yang digunakan
untuk voice recognition dan perbandingan suara oleh para peneliti. Penelitian ini
memberikan masukan penting bagi pemula dan peneliti untuk memahami domain voice
recognition dan perbandingan suara [54].
Masalah voice recognition dapat dianggap sebagai masalah klasifikasi dan
dimodelkan seperti itu, di mana seseorang ingin mendapatkan derajat pemisahan terbaik
antara kelas-kelas yang mewakili suara. Untuk menerapkan konsep tersebut untuk
membangun sistem voice recognition otomatis yang mampu mengidentifikasi
pembicara, banyak teknik yang menggunakan artificial intelligence dan klasifikasi
umum telah dikembangkan, yang mengarah pada pekerjaan ini. Di sini diusulkan
metode voice recognition yang mampu mengenali kata kunci dalam bahasa portugis
brazil untuk tujuan biometrik menggunakan beberapa Support Vector Machines (SVM),
yang membangun hyperplane yang memisahkan Mel Frequency Cepstral
Coefficients(MFCC), untuk klasifikasi data baru nanti. Dengan dataset kecil, sistem
dapat mengidentifikasi pembicara dengan benar dalam semua kasus, memiliki ketepatan
yang tinggi pada tugas tersebut. Mesin ini didasarkan pada kernel Radial Basis
Function, tetapi diuji dengan kernel berbeda, juga memiliki presisi yang baik dengan
yang linier [55].
Hampir semua data orang disimpan pada perangkat pribadi mereka. Kebutuhan
seseorang untuk melindungi informasi dari akses yang sah sangat dibutuhkan. Kode
PIN, kata sandi, token bias dilupakan, hilang, dipindahkan, diserang dengan kekerasan.
Untuk ini alasannya, biometric authentication semakin populer. Data biometrik tidak
berubah untuk waktu yang lama, berbeda untuk pengguna, dan dapat diukur. Penelitian
ini membahas voice authentication karena kemudahan penggunaan teknologi ini, sejak
mendapatkan voice characteristics user tidak memerlukan peralatan selain mikrofon.
Metode voice authentication berdasarkan algoritma deteksi anomaly telah diusulkan.
Software module untuk teks-independen autentikasi telah diimplementasikan pada
program bahasa Python. Ini didasarkan pada Mozilla's open source voice dataset baru
"Common voice". Hasil ekperimen membuktikan tingginya akurasi otentikasi dengan
metode yang diusulkan [56].
(3.0)
dimana a adalah parameter penskalaan dan b adalah waktu parameter lokalisasi. Dalam
rumus ini kami memiliki kondisi constraint bahwa a ∈ R+ -{0} dan b ∈ R. Ψ adalah
menganalisis wavelet dan Ψ* adalah konjugatnya yang kompleks. CWT disebut kontinu
karena keduanya a dan b bervariasi terus menerus. CWT dapat menyebabkan biaya
kalkulasi yang besar peningkatan aplikasi nyata, oleh karena itu DWT diturunkan dari
discretization (diskritisasi) CWT. DWT seringkali lebih efisien daripada CWT untuk
menghindari penghitungan pada setiap skala CWT. Pada DWT, parameter a dan b
didefinisikan sebagai berikut:
a = 2 j, j ∈ Z, (3.2)
b = k2 j, j,k ∈ Z. (3.3)
(3.4)
Setelah berubah dari CWT ke DWT, aslinya kontinu fungsi wavelet menjadi fungsi
wavelet diskrit dan fungsi penskalaan:
(3.5)
(3.6)
Oleh karena itu, sinyal dapat diuraikan menjadi wavelet perkiraan dan detail
skala yang berbeda. Fungsi wavelet diskrit dan fungsi penskalaan berfungsi sebagai
Low Pass Filter (LPF) dan High Pass Filter (HPF). Proses DWT bekerja seperti gambar
3.2, dimana approximation memiliki resolusi frekuensi rendah tetapi resolusi waktu
tinggi sementara detail memiliki situasi yang berlawanan.
Authentikasi voice biometrik terdiri dari dua tahap kerangka yaitu tahap
TRAINING dan tahap INFERENCE terlihat pada Gambar 3.3. Proses Training adalah
suatu proses learning kapabilitas baru dari data voice signal user pada komputer dan
proses Inference adalah suatu proses mengaplikasikan kapabilitas ini ke data baru pada
smartphone.
Penelitian yang dilakukan ini masih sedang berlangsung, untuk itu masih
diperlukan beberapa hal perencanaan untuk merealisasikan dan mengimplementasikan
voice biometrik dengan mengabungkan metode features extraction DWT dan deep
learning CNN. Adapun rencana penelitiannya sebagai berikut:
BAB 4
HASIL PENELITIAN YANG TELAH DILAKUKAN
Pada semester ganjil 2019/2020 telah dilakukan penelitian yang pertama. Hal ini
menjadi penting agar diperoleh state of the art dari penelitian yang akan dilakukan. Ini
merupakan tahap awal untuk dilakukan penelitian yang lebih lanjut. Pada semester
ganjil 2019/2020 ini pula telah dipublikasikan paper pada International Conference on
Smart Technology and Applications (ICoSTA) tentang ”Design and Implementation of
IoT-Based Smart Home Voice Commands for disabled people using Google Assistant”.
Pada terlihat artikel publikasi pada IEEE dan ICoSTA 2020 Surabaya.
Pada penelitian ini dilakukan perancangan dan implementasi smart home
melalui voice command dengan teknologi speech recognition berbasis Internet of
Things (IoT) menggunakan google assistant pada smartphone. Tujuannya memudahkan
manusia dalam beraktifitas, terutama membantu penyandang cacat yang memliki
masalah kelainan fisik dan ketebatasan beraktifitas.
Perkembangan voice command pada aplikasi google assistant bisa menjadi
referensi rumah masa depan. Sistem kontrol smart home dengan voice command ini
dapat membantu mengaktifkan dan menonaktifkan peralatan listrik rumah dari jarak
jauh meskipun user berada di luar rumah. Jadi user tanpa perlu bergerak lagi untuk
switch on/off peralatan listrik Kami mengharapkan perangkat ini bisa lebih berguna
untuk membantu orang-orang cacat berinteraksi dengan mereka lingkungan dengan
memanfaatkan fasilitas teknologi IoT.
Dengan teknologi speech recognition, voice command user dapat
mengendalikan peralatan listrik, seperti TV, lampu, dan kipas angin dari jarak jauh
melalui smartphone. Voice command ditangkap sensor suara, selanjutnya pemrosesan
sinyal dalam digital format diterjemahkan ke dalam sistem dan dikendalikan oleh
aplikasi untuk mengenali voice command yang terdeteksi. Kemudian sistem akan
membandingkan informasi masukan yang telah masuk berupa format digital dengan
database suara yang disimpan. Dari hasil pengujian benar dan tepatnya voice
pronunciation speech recognition untuk aplikasi google assistant diperoleh akurasinya
mencapai 95%.
Gambar 4. 1. Artikel Publikasi pada IEEE dan International Conference on Smart
Technology and Applications (ICoSTA) 2020 Surabaya
Dan pada semester genap 2019/2020 telah dilakukan penelitian yang kedua
melalui Dana Hibah PUTI Prosiding UI. Hal ini menjadi penting agar diperoleh state of
the art dari penelitian yang akan dilakukan. Ini merupakan tahap kedua untuk dilakukan
penelitian yang lebih lanjut. Pada semester genap 2019/2020 ini pula telah
dipublikasikan paper pada The 11 th International Conference on ICT Convergence
(ICTC) 2020 tentang ”Performance of Smart Personal Assistant Applications Based on
Speech Recognition Technology using IoT-based Voice Commands”. Pada Gambar 4.2.
terlihat artikel publikasi pada IEEE dan ICTC 2020 Korea.
Penelitian ini bertujuan membandingkan performansi tiga aplikasi Smart
Personal Assistant (SPA) pada teknokogi speech recognition, yaitu Google Assistant,
Amazon Alexa, dan Apple Siri menggunakan voice command dengan berbasis IoT.
Eksperimen dirancang menggunakan smartphone, speaker pintar, dan sistem kontrol
perangkat. Dari hasil pengujian menunjukkan bahwa performansi voice pronunciation
memiliki tingkat akurasi tertinggi google assistant (95%) dan terendah Apple Siri (80%)
untuk merespon voice command. Performansi SPA voice command features
menunjukkan google assistant memiliki respons waktu tercepat (0,62 detik) dan Apple
Siri waktu paling lambat (2,58 detik) untuk menjawab pertanyaan tugas umum.
Performansi sistem kontrol perangkat menunjukkan google assistant memiliki respons
waktu tercepat untuk mengontrol peralatan rumah menggunakan voice command (1,03
detik) dan Apple Siri yang paling lambat (5,96 detik). Oleh karena itu, aplikasi google
assistant adalah yang terbaik dari ketiga suara SPA perintah. Novelty paper ini terlihat
di poin 5 Smart Personal Assistant Applications pada Tabel 4.1. Type of Applications
for IoT-based Smart Home Appliances Control System.
Tabel 4. 1. Type of Applications for IoT-based Smart Home Control System
Gambar 4. 2. Artikel Publikasi pada IEEE dan the 11 th International Conference on
ICT Convergence (ICTC) 2020 Korea
DAFTAR PUSTAKA