Anda di halaman 1dari 2

ABSTRAK

PEMBANGUNAN MODEL AKUSTIK BERBASIS

CONVOLUTIONAL NEURAL NETWORK UNTUK

PENANGANAN DERAU STASIONER PADA SISTEM

PENGENAL UCAPAN BAHASA INDONESIA

Oleh

MARVIN JERREMY BUDIMAN

NIM : 13515076

Derau menjadi salah satu penyebab menurunnya akurasi dari sistem pengenal
ucapan. Untuk menangani hal ini, beberapa teknik telah dikembangkan. Salah satu
teknik yang dilakukan adalah dengan menggunakan model akustik berbasis
jaringan saraf tiruan. Convolutional neural network (CNN) merupakan salah satu
varian dari jaringan saraf tiruan yang digunakan dalam pemodelan akustik. Teknik
pre-processing pada sinyal ucapan dapat diterapkan pula untuk meningkatkan
akurasi sistem pengenal ucapan. Cepstral mean and variance normalization
(CMVN) adalah salah satu teknik pre-processing pada sinyal ucapan. Penerapan
CMVN telah terbukti meningkatkan akurasi dari sistem pengenal ucapan.
Pada tugas akhir ini dibangun model akustik berbasis CNN yang dipadukan
dengan teknik CMVN untuk menangani ucapan yang mengandung derau. Dua
model akustik dibuat untuk menangani 2 jenis ucapan, yaitu ucapan yang
mengandung derau babble dan ucapan yang mengandung derau kendaraan.
Ucapan yang digunakan untuk pengujian memiliki nilai SNR (signal-to-noise)
beragam. Nilai akurasi yang didapatkan dari hasil pengujian model CNN
kemudian dibandingkan dengan nilai akurasi dari model berbasis GMM-HMM.
Hasil dari penelitian ini menunjukkan bahwa model akustik yang dibangun
memiliki akurasi yang semakin tinggi, seiring dengan bertambahnya variasi dan
jumlah data latih. Akurasi semakin menurun ketika model diuji menggunakan
ucapan dengan nilai SNR rendah. Hasil pembandingan antara model berbasis
CNN dengan model berbasis GMM-HMM menunjukkan bahwa fitur yang
digunakan pada pemodelan berpengaruh terhadap akurasi model. Model berbasis
CNN yang dibangun dengan fitur FBANK memiliki akurasi yang lebih tinggi jika
dibandingkan dengan model berbasis GMM-HMM yang dibangun dengan fitur
yang sama.

Kata kunci: derau, model akustik, sistem pengenal ucapan.


ABSTRACT

CONVOLUTIONAL NEURAL NETWORK ACOUSTIC

MODEL FOR ROBUSTNESS OF INDONESIAN SPEECH

RECOGNITION IN STATIONARY NOISE ENVIRONMENT

By

MARVIN JERREMY BUDIMAN

NIM : 13515076

Noise causes the decreasing accuracy of speech recognition system. Several


techniques have been developed and proposed to overcome this problem. Using
artificial neural network (ANN) as acoustic model is one of the techniques.
Convolutional neural network (CNN) is a variant of ANN that has been used for
acoustic modeling. Another technique to improve speech recognition accuracy is
to do pre-processing to the speech signal or to the extracted acoustic feature from
speech signal. Cepstral mean and variance normalization (CMVN) is one of the
pre-processing technique. It has been proven that CMVN can improve the
accuracy of speech recognition.
In this thesis, CNN acoustic models were made by using CMVN pre-processed
acoustic feature to make a noise-robust speech recognition system. Two models,
each to handle 2 kinds of noise (babble noise and street noise) were made. Those
acoustic models were tested with noisy speech at different SNR (signal-to-noise)
value. Testing results from CNN acoustic models were compared with the ones
from GMM-HMM acoustic models.
Testing results showed the increasing accuracy scores of acoustic models when
models were trained using more variation of training data. On the other hand,
accuracy scores get lower when models were tested with speech that has lower
SNR value. Comparation of CNN acoustic models and GMM-HMM acoustic
models gave insight about how the selection of acoustic feature can affect the
accuracy scores of the models. CNN acoustic models that were built using
FBANK feature have higher accuracy scores than GMM-HMM models that were
built using the same feature.

Keywords: noise, acoustic model, speech recognition.

Anda mungkin juga menyukai