Abstrak
Pengenalan suara dapat dilakukan dengan cara merepresentasikan sinyal suara ke dalam suatu
bentuk yakni representasi dalam bentuk gelombang atau representasi dalam bentuk parameter.
Dalam Tugas Akhir ini, dilakukan pengenalan sinyal suara dalam bentuk parameter, dimana
sinyal suara diekstraksi vektor cirinya untuk mengambil informasi sinyal dan kemudian dibuat
model pembentuknya untuk masing-masing kata yang ingin dikenali.
Setiap sinyal memiliki ciri khasnya masing-masing. Hal ini dapat dilihat jika kita melakukan
pembesaran gelombang sinyal suara sebesar 10 ms sampai 30 ms. Sinyal suara yang sangat
singkat tersebut kemudian disimpan ke dalam frame-frame dan dicari koefisien cepstralnya
(vektor ciri) menggunakan Linear Predictive Coding (LPC).
Selanjutnya dilakukan kuantisasi pada tiap vektor ciri yang diperoleh dengan menggunakan
metode k-means cluster sehingga menghasilkan simbol observasi. Tiap urutan simbol observasi
membentuk sekuen state yang berbeda. Setiap kata yang ingin dikenali dimodelkan dengan
arsitektur HMM sehingga menghasilkan model kata. Untuk proses pengenalannya diterapkan
evaluasi pada tiap-tiap model. Model yang paling mendekati adalah model kata yang dicari. Hasil
menunjukkan pemilihan ukuran codebook yang tepat dapat memberikan keakuratan data di atas
90%, sedangkan pemilihan jumlah state tidak terlalu berpengaruh terhadap keakuratan data.
Kata Kunci : speech-to-text, Linear Predictive Coding (LPC), Hidden Markov Model (HMM),
ukuran codebook, jumlah state
Abstract
Speech Recognition can be performed by representing speech signal into wave form or into
parameter form. In this Final Project, speech signal is represented into parameter form where
feature vector speech signal are extracted to retrieve the information signal then create the
model for each word that wants to be recognized.
Each signal has different characteristic. This can be observed if we zoom in the signal wave
around 10-30 ms. The short speech signals are stored into frames and then they are analyzed to
retrieve the characteristic using LPC (Linear Predictive Coding).
The feature vectors are quantized using k-means cluster method to produce the sequence of
observation. Each sequence observation builds different sequent states. Each word that wants to
be recognized is modeled by HMM architecture. For testing, each word is evaluated to each
model. The model which is closest to the word is the model that we are looking for. The result
shows that the proper selection of codebook size can provide data accuracy above 90%, while the
number of state had little influence on the accuracy of the data.
Keywords : speech-to-text, Linear Predictive Coding (LPC), Hidden Markov Model (HMM),
codebook size, number of state
1. PENDAHULUAN
Salah satu contoh AI yang dapat mengekstrasi ciri dari informasi yang diterimanya
adalah Speech Recognition (Pengenalan Suara). Informasi sinyal suara mempunyai karakteristik
yang unik. Penelitian yang saat ini sedang berkembang adalah penelitian aplikasi speech-to-text.
Aplikasi ini merupakan cabang dari aplikasi pengenalan suara yang mengolah sinyal suara,
mengenalinya, dan mengubahnya menjadi representasi tekstual. Biasanya sistem speech-to-text
menggunakan fonem sebagai unit pengenalannya. Fonem inilah yang nantinya akan diekstrasi
cirinya dalam rentang waktu yang sangat singkat, yaitu 10-30 ms karena pada keadaan tersebut
vektor-vektor ciri sinyal suara yang akan diekstrak cenderung konstan. Sinyal suara yang telah
diekstrasi cirinya kemudian menghasilkan informasi yang dapat dianalisis untuk tiap variasi
sinyal suara yang ada. Dari ciri yang ada pada setiap fonem dicoba untuk mengenalinya dan
mengubahnya menjadi teks.
Ada banyak metode dasar feature extraction (ekstraksi ciri), diantaranya Linear
Predictive Coding (LPC), Mel Frequency Cepstral Coefficient (MFCC), dan Human Factor
Cepstral Coefficient (HFCC). Diantara ketiga metode feature extraction tersebut, metode LPC
memberikan hasil feature extraction yang lebih baik. Hal ini dapat dilihat dari keakuratan data
yang lebih besar jika metode feature extraction yang digunakan adalah LPC [2]. Metode LPC
merupakan teknik merepresentasikan sinyal dalam bentuk parameter-parameter yang diperoleh
dari kombinasi sinyal sekarang dan sinyal sebelumnya. Setelah diektraksi ciri-ciri vektornya,
dibutuhkan suatu metode pelatihan dan pengenalan agar menghasilkan output berupa teks yang
diinginkan yaitu menggunakan metode Hidden Markov Model (HMM). Diharapkan tingkat
akurasi yang dihasilkan > 90%.
1.2 Tujuan
Tujuan dari penulisan Tugas Akhir ini adalah:
a. Merancang program aplikasi speech-to-text yang berfungsi untuk mengubah inputan sinyal
suara menjadi output-an teks menggunakan metode pendekatan Hidden Markov Model
(HMM).
b. Menganalisis kombinasi feature extraction menggunakan LPC dan HMM untuk kasus
pengenalan suara.
c. Menganalisa keakuratan output dari sistem untuk menilai performansi sistem.
d. Mengetahui pengaruh parameter ukuran codebook dan jumlah state terhadap akurasi.
c. Input suara yang dikenali tidak berupa suku kata, tapi berupa satu kata utuh.
d. Ruang lingkup speech-to-text yang digunakan adalah ruang lingkup Speaker Independent
(SI).
e. Sistem yang dibuat tidak dapat menyelesaikan kasus secara real time.
5.1 Kesimpulan
Dari hasil analisis terhadap pengujian yang dilakukan pada sistem, maka dapat diambil
beberapa kesimpulan sebagai berikut:
1. Penggunaan Linear Predictive Coding (LPC) pada feature extraction dapat diintegrasikan
dengan Hidden Markov Model (HMM) sebagai model pengenalannya untuk mengenali suara.
Hal ini terlihat dari presentase hasil pengenalan kata yang mencapai nilai di atas 90%.
2. LPC dan HMM mampu mengenali sinyal suara dalam ruang lingkup Speaker Independent
(pengenalan suara tanpa memperhatikan siapa yang berbicara).
3. Untuk mendapatkan hasil yang maksimal, penggunaan ukuran codebook harus sesuai dengan
variasi fonem yang terjadi. Banyaknya jumlah state tidak mempengaruhi hasil percobaan
secara signifikan.
5.2 Saran
1. Unit pengenalan kata dapat dikembangkan lebih jauh menjadi pengenalan suku kata,
khususnya diphone dan triphone. Agar pengenalan kata tidak harus terpaku oleh kata yang
sama.
2. Untuk mendapatkan hasil yang lebih akurat, dapat dilakukan proses tambahan pada tahap
testing, seperti Speaker Adaptation.
3. Sistem dapat dikembangkan secara real-time mengingat waktu komputasi saat testing cukup
singkat.
4. Sistem speech-to-text dapat dikembangkan menjadi speech-to-text-to-speech untuk program
penerjemahan bahasa.
39
DAFTAR PUSTAKA
[1] Achmad Hidayanto, Sumardi.”Isolated Word Speech Recognition With Hidden Markov
Model Via LPC Feature Extraction”. Semarang: Teknik Elektro Undip
[2] Jarwadi.”Speech-to-Text Menggunakan Database Diphone dalam Bahasa Indonesia dengan
Metode Pendekatan Hybrid Hidden Markov Model dan Algoritma Genetika”. Bandung:
Teknik Elektro IT Telkom
[3] Ilya Levner, Vadim Bulitko. Lihong Li, Greg Lee, Russell Greiner.2003.”Automated
Feature Extraction For Object Recognition”.Canada: Department of Computing Science
University of Alberta
[4] Nur Rahmadi, Andri.2008.”Pengenalan Nada pada File Audio Berinstrumen Piano
Menggunakan Representasi Chroma dan Hidden Markov Model”.Bandung: Teknik
Informatika IT Telkom
[5] A. Stolcke, E. Shriberg, L. Ferrer, S. Kajarekar, K. Sonmez, G. Tur.2007.”Speech
Recognition As Feature Extraction For Speech Recognition”.USA: Speech Technology and
Research Laboratory, SRI International, Menlo Park, CA
[6] Ibe, Oliver C.2009.”Markov Process for Stochastic Modelling”.Massachusetts: University
of Massachusetts
[7] L.R. Rabiner, John G. Ackenhusen.”Microprocessor Implementation of An LPC-Based
Isolated Word Recognizer”.Murray Hill, New Jersey: Bell Laboratories
[8] L.R. Rabiner, B.H. Juang.2007.”Hidden Markov Model for Speech Recognition”.Murray
Hill, New Jersey: Speech Research Department AT&T Bell Laboratory
[9] N. Uma Maheswari, A.P. Kabilan, R. Venkatesh.2009.”Speaker Independent Phoneme
Recognition Using Neural Networks”.India: Dept. of CSE, P.S.N.A. College of
Engg&Technology
[10] A. Revathi, R. Ganapathy, Y. Venkataramani.2009.”Text Independent Speaker Recognition
and Speaker Independent Speech Recognition Using Iterative Clustering Approach”.
Department of ECE, Saranathan College of Engg
[11] Supriyatno.2007.”Speech-To-Text Menggunakan Independent Component Analysis (ICA),
Pitch Conversion, dan Hidden Markov Model (HMM)”. Bandung: Teknik Elektro IT
Telkom
40
41