Anda di halaman 1dari 8

Tugas Akhir - 2011

PENGENALAN SINYAL SUARA PADA SPEECH-TO-TEXT MENGGUNAKAN


LINEAR PREDICTIVE CODING (LPC) DAN HIDDEN MARKOV MODEL (HMM)

Fandy Husaenul Hakim¹, Suyanto², Iwan Iwut Tirtoasmoro³

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak
Pengenalan suara dapat dilakukan dengan cara merepresentasikan sinyal suara ke dalam suatu
bentuk yakni representasi dalam bentuk gelombang atau representasi dalam bentuk parameter.
Dalam Tugas Akhir ini, dilakukan pengenalan sinyal suara dalam bentuk parameter, dimana
sinyal suara diekstraksi vektor cirinya untuk mengambil informasi sinyal dan kemudian dibuat
model pembentuknya untuk masing-masing kata yang ingin dikenali.

Setiap sinyal memiliki ciri khasnya masing-masing. Hal ini dapat dilihat jika kita melakukan
pembesaran gelombang sinyal suara sebesar 10 ms sampai 30 ms. Sinyal suara yang sangat
singkat tersebut kemudian disimpan ke dalam frame-frame dan dicari koefisien cepstralnya
(vektor ciri) menggunakan Linear Predictive Coding (LPC).

Selanjutnya dilakukan kuantisasi pada tiap vektor ciri yang diperoleh dengan menggunakan
metode k-means cluster sehingga menghasilkan simbol observasi. Tiap urutan simbol observasi
membentuk sekuen state yang berbeda. Setiap kata yang ingin dikenali dimodelkan dengan
arsitektur HMM sehingga menghasilkan model kata. Untuk proses pengenalannya diterapkan
evaluasi pada tiap-tiap model. Model yang paling mendekati adalah model kata yang dicari. Hasil
menunjukkan pemilihan ukuran codebook yang tepat dapat memberikan keakuratan data di atas
90%, sedangkan pemilihan jumlah state tidak terlalu berpengaruh terhadap keakuratan data.

Kata Kunci : speech-to-text, Linear Predictive Coding (LPC), Hidden Markov Model (HMM),
ukuran codebook, jumlah state

Abstract
Speech Recognition can be performed by representing speech signal into wave form or into
parameter form. In this Final Project, speech signal is represented into parameter form where
feature vector speech signal are extracted to retrieve the information signal then create the
model for each word that wants to be recognized.

Each signal has different characteristic. This can be observed if we zoom in the signal wave
around 10-30 ms. The short speech signals are stored into frames and then they are analyzed to
retrieve the characteristic using LPC (Linear Predictive Coding).

The feature vectors are quantized using k-means cluster method to produce the sequence of
observation. Each sequence observation builds different sequent states. Each word that wants to
be recognized is modeled by HMM architecture. For testing, each word is evaluated to each
model. The model which is closest to the word is the model that we are looking for. The result
shows that the proper selection of codebook size can provide data accuracy above 90%, while the
number of state had little influence on the accuracy of the data.

Keywords : speech-to-text, Linear Predictive Coding (LPC), Hidden Markov Model (HMM),
codebook size, number of state

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2011

1. PENDAHULUAN

1.1 Latar Belakang


Kecerdasan Buatan atau biasa dikenal dengan Artificial Intelligence (AI) memiliki
karakteristik yang sama dengan manusia. Kecerdasan diciptakan dan dimasukkan ke dalam suatu
mesin (komputer) agar dapat melakukan pekerjaan seperti yang dapat dilakukan manusia. Pada
manusia, untuk mengenali suatu barang atau benda maka dia berusaha untuk mengenali
karakteristik yang unik pada barang atau benda tersebut. Begitu pula komputer, untuk mengenali
suatu perintah atau inputan, komputer akan berusaha untuk mengekstrasi karakteristik (ciri-ciri)
yang unik pada perintah atau inputan yang ingin dikenali tersebut.

Salah satu contoh AI yang dapat mengekstrasi ciri dari informasi yang diterimanya
adalah Speech Recognition (Pengenalan Suara). Informasi sinyal suara mempunyai karakteristik
yang unik. Penelitian yang saat ini sedang berkembang adalah penelitian aplikasi speech-to-text.
Aplikasi ini merupakan cabang dari aplikasi pengenalan suara yang mengolah sinyal suara,
mengenalinya, dan mengubahnya menjadi representasi tekstual. Biasanya sistem speech-to-text
menggunakan fonem sebagai unit pengenalannya. Fonem inilah yang nantinya akan diekstrasi
cirinya dalam rentang waktu yang sangat singkat, yaitu 10-30 ms karena pada keadaan tersebut
vektor-vektor ciri sinyal suara yang akan diekstrak cenderung konstan. Sinyal suara yang telah
diekstrasi cirinya kemudian menghasilkan informasi yang dapat dianalisis untuk tiap variasi
sinyal suara yang ada. Dari ciri yang ada pada setiap fonem dicoba untuk mengenalinya dan
mengubahnya menjadi teks.

Ada banyak metode dasar feature extraction (ekstraksi ciri), diantaranya Linear
Predictive Coding (LPC), Mel Frequency Cepstral Coefficient (MFCC), dan Human Factor
Cepstral Coefficient (HFCC). Diantara ketiga metode feature extraction tersebut, metode LPC
memberikan hasil feature extraction yang lebih baik. Hal ini dapat dilihat dari keakuratan data
yang lebih besar jika metode feature extraction yang digunakan adalah LPC [2]. Metode LPC
merupakan teknik merepresentasikan sinyal dalam bentuk parameter-parameter yang diperoleh
dari kombinasi sinyal sekarang dan sinyal sebelumnya. Setelah diektraksi ciri-ciri vektornya,
dibutuhkan suatu metode pelatihan dan pengenalan agar menghasilkan output berupa teks yang

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2011

diinginkan yaitu menggunakan metode Hidden Markov Model (HMM). Diharapkan tingkat
akurasi yang dihasilkan > 90%.

1.2 Tujuan
Tujuan dari penulisan Tugas Akhir ini adalah:
a. Merancang program aplikasi speech-to-text yang berfungsi untuk mengubah inputan sinyal
suara menjadi output-an teks menggunakan metode pendekatan Hidden Markov Model
(HMM).
b. Menganalisis kombinasi feature extraction menggunakan LPC dan HMM untuk kasus
pengenalan suara.
c. Menganalisa keakuratan output dari sistem untuk menilai performansi sistem.
d. Mengetahui pengaruh parameter ukuran codebook dan jumlah state terhadap akurasi.

1.3 Perumusan Masalah


Permasalah yang timbul dari latar belakang pembuatan Tugas Akhir ini diantaranya
sebagai berikut:
a. Bagaimana merancang proses pelatihan dan pengenalan sistem speech-to-text menggunakan
Hidden Markov Model (HMM).
b. Bagaimana menganalisis pengaruh feature extraction menggunakan LPC terhadap sistem
yang menggunakan HMM.
c. Bagaimana mengukur tingkat akurasi pengenalan suara berdasarkan ketepatan antara suara
yang diinputkan dengan teks yang dihasilkan.
d. Bagaimana pengaruh ukuran codebook dan jumlah state terhadap akurasi kata.

1.4 Batasan Masalah


Adapun batasan-batasan masalah yang terdapat pada tugas akhir ini adalah:
a. Input suara berupa kata berbahasa Indonesia yang telah dikenali sebelumnya oleh sistem.
b. Dataset diambil dari kurang lebih 640 data suara yang direkam dari kantor Research and
Development Telkom.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2011

c. Input suara yang dikenali tidak berupa suku kata, tapi berupa satu kata utuh.
d. Ruang lingkup speech-to-text yang digunakan adalah ruang lingkup Speaker Independent
(SI).
e. Sistem yang dibuat tidak dapat menyelesaikan kasus secara real time.

1.5 Metodologi Penyelesaian Masalah


a. Studi Literatur
Mengumpulkan referensi dan informasi yang berhubungan dengan topik Tugas Akhir ini.
Referensi dan informasi berupa artikel, buku, buku TA/PA, maupun paper dari internet yang
berkaitan dengan Speech Recognition, Feature Extraction, Hidden Markov Model, dan
Linear Predictive Coding untuk dipahami sebagai dasar teori pendukung Tugas Akhir ini.
b. Pengumpulan Data
Pengumpulan data berupa suara dengan ekstensi .wav yang akan digunakan pada proses
implementasi dan pengujian. Dataset berupa data baru dan direkam dari kantor Research and
Development Telkom.
c. Analisa Kebutuhan dan Perancangan Aplikasi
Menganalisis dan merancang aplikasi yang akan dibangun berkaitan dengan metode yang
telah disebutkan sebelumnya. Aplikasi tersebut akan dibangun menggunakan bahasa
pemrograman berkonsep prosedural menggunakan Matlab.
d. Implementasi dan Pengujian
Implementasi dilakukan dengan cara pembuatan model dari data training. Dilakukan
pengujian untuk mendapatkan output yang diinginkan dan dihitung akurasi semua sinyal
suara yang diujikan.
e. Analisa Hasil Pengujian dan Pengambilan Kesimpulan
Menganalisis hasil pengujian yang dilakukan berdasarkan data uji yang dimasukkan
kemudian menarik kesimpulan dari hasil pengujian tersebut. Hasil pengujian berupa
persentase akurasi antara suara yang diinputkan dengan teks yang dihasilkan, pengaruh
ukuran codebook dan jumlah state terhadap keakuratan data.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2011

f. Penyusunan Laporan Tugas Akhir


Pembuatan laporan Tugas Akhir yang mendokumentasikan tahapan-tahapan kegiatan yang
dilakukan serta mendokumentasikan hasil kegiatan tugas akhir.

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2011

5. KESIMPULAN DAN SARAN

5.1 Kesimpulan
Dari hasil analisis terhadap pengujian yang dilakukan pada sistem, maka dapat diambil
beberapa kesimpulan sebagai berikut:

1. Penggunaan Linear Predictive Coding (LPC) pada feature extraction dapat diintegrasikan
dengan Hidden Markov Model (HMM) sebagai model pengenalannya untuk mengenali suara.
Hal ini terlihat dari presentase hasil pengenalan kata yang mencapai nilai di atas 90%.
2. LPC dan HMM mampu mengenali sinyal suara dalam ruang lingkup Speaker Independent
(pengenalan suara tanpa memperhatikan siapa yang berbicara).
3. Untuk mendapatkan hasil yang maksimal, penggunaan ukuran codebook harus sesuai dengan
variasi fonem yang terjadi. Banyaknya jumlah state tidak mempengaruhi hasil percobaan
secara signifikan.

5.2 Saran
1. Unit pengenalan kata dapat dikembangkan lebih jauh menjadi pengenalan suku kata,
khususnya diphone dan triphone. Agar pengenalan kata tidak harus terpaku oleh kata yang
sama.
2. Untuk mendapatkan hasil yang lebih akurat, dapat dilakukan proses tambahan pada tahap
testing, seperti Speaker Adaptation.
3. Sistem dapat dikembangkan secara real-time mengingat waktu komputasi saat testing cukup
singkat.
4. Sistem speech-to-text dapat dikembangkan menjadi speech-to-text-to-speech untuk program
penerjemahan bahasa.

39

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)
Tugas Akhir - 2011

DAFTAR PUSTAKA

[1] Achmad Hidayanto, Sumardi.”Isolated Word Speech Recognition With Hidden Markov
Model Via LPC Feature Extraction”. Semarang: Teknik Elektro Undip
[2] Jarwadi.”Speech-to-Text Menggunakan Database Diphone dalam Bahasa Indonesia dengan
Metode Pendekatan Hybrid Hidden Markov Model dan Algoritma Genetika”. Bandung:
Teknik Elektro IT Telkom
[3] Ilya Levner, Vadim Bulitko. Lihong Li, Greg Lee, Russell Greiner.2003.”Automated
Feature Extraction For Object Recognition”.Canada: Department of Computing Science
University of Alberta
[4] Nur Rahmadi, Andri.2008.”Pengenalan Nada pada File Audio Berinstrumen Piano
Menggunakan Representasi Chroma dan Hidden Markov Model”.Bandung: Teknik
Informatika IT Telkom
[5] A. Stolcke, E. Shriberg, L. Ferrer, S. Kajarekar, K. Sonmez, G. Tur.2007.”Speech
Recognition As Feature Extraction For Speech Recognition”.USA: Speech Technology and
Research Laboratory, SRI International, Menlo Park, CA
[6] Ibe, Oliver C.2009.”Markov Process for Stochastic Modelling”.Massachusetts: University
of Massachusetts
[7] L.R. Rabiner, John G. Ackenhusen.”Microprocessor Implementation of An LPC-Based
Isolated Word Recognizer”.Murray Hill, New Jersey: Bell Laboratories
[8] L.R. Rabiner, B.H. Juang.2007.”Hidden Markov Model for Speech Recognition”.Murray
Hill, New Jersey: Speech Research Department AT&T Bell Laboratory
[9] N. Uma Maheswari, A.P. Kabilan, R. Venkatesh.2009.”Speaker Independent Phoneme
Recognition Using Neural Networks”.India: Dept. of CSE, P.S.N.A. College of
Engg&Technology
[10] A. Revathi, R. Ganapathy, Y. Venkataramani.2009.”Text Independent Speaker Recognition
and Speaker Independent Speech Recognition Using Iterative Clustering Approach”.
Department of ECE, Saranathan College of Engg
[11] Supriyatno.2007.”Speech-To-Text Menggunakan Independent Component Analysis (ICA),
Pitch Conversion, dan Hidden Markov Model (HMM)”. Bandung: Teknik Elektro IT
Telkom

40

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Tugas Akhir - 2011

[12] Marcelita, Faldiena.2008.”Pengenalan Bahasa Isyarat Dari Video Menggunakan Ciri


Geometris, K-Means, dan Hidden Markov Model”. Bandung: Teknik Informatika IT
Telkom
[13] Itakura, Fumitada.1975.”Minimum Prediction Residual Principle Applied to Speech
Recognition”
[14] X.D. Huang, H.W. Hon, K.F. Lee.”Large-Vocabulary Speaker-Independent Continuous
Speech Recognition with Semi-Continuous Hidden Markov Models”.USA: School of
Computer Science Carnegie Mellon University Pittsburgh, PA
[15] Vedrana Andersen, Fu-Tien Hsiao.2005.”Speech Coding and Recognition”. Copenhagen: IT
University of Copenhagen
[16] Thiang, Hadi Saputra.2005.”Sistem Pengenalan Kata dengan Menggunakan Linear
Predictive Coding dan Nearest Neighbor Classifier”. Fakultas Teknologi Industri, Jurusan
Teknik Elektro, Universitas Kristen Petra
[17] A. Firmansyah.2007.”Dasar-Dasar Pemrograman Matlab”.IlmuKompter.com
[18] Yulita, Intan Nurma.2011.”Fuzzy Hidden Markov Model for Indonesian Speech
Classification”.Bandung: Teknik Informatika IT Telkom

41

Fakultas Teknik Informatika Program Studi S1 Teknik Informatika


Powered by TCPDF (www.tcpdf.org)

Anda mungkin juga menyukai