kata kunci: jaringan saraf tiruan propagasi balik, GAMBAR 1. BLOK DIAGRAM SISTEM PENGENALAN SUARA
backpropagation, pengenalan suara, LPC,
FFT. Secara garis besar, cara kerja sistem pengenalan
suara ini ialah mula-mula sinyal suara manusia yang
1. PENDAHULUAN diterima dengan menggunakan microphone (sinyal
analog) dicuplik sehingga menjadi sinyal digital dengan
Teknik jaringan saraf tiruan telah banyak bantuan sound card pada PC.
dimanfaatkan pada berbagai bidang utamanya pada sistem
pengenalan pola: citra, suara, time series prediction, dan Sinyal digital hasil cuplikan ini terlebih dulu
lain-lain [1,2]. dinormalisasi kemudian diproses awal menggunakan
metode LPC sehingga didapat beberapa koefisien LPC
Pada penelitian ini dibuat suatu sistem yang merupakan feature (ciri) dari suara pembicaraan.
memanfaatkan jaringan saraf tiruan metode propagasi Kemudian koefisien LPC tersebut diproses dengan Fast
balik (back propagation) untuk pengenalan suara. Sistem Fourier Transform (FFT) untuk mendapatkan sinyal pada
ini diharapkan dapat dimanfaatkan pada pemberian domain frekuensi. Hal ini bertujuan agar perbedaan antar
perintah komputer, voice dialling, dan lain-lain. Model pola kata yang satu dengan yang lain terlihat lebih jelas
jaringan saraf back propagation digunakan di sini sehingga ekstraksi parameter sinyal memberikan hasil
bersama-sama dengan metode linear predictive coding yang lebih baik. Hasil keluaran FFT ini merupakan
dan fast fourier transform yang dipakai sebagai pemroses masukan bagi jaringan saraf tiruan Back Propagation
awal. Di sini dilakukan eksperimen variasi struktur dan dimana jaringan saraf tiruan ini berfungsi sebagai utama
parameter jaringan (jumlah node hidden layer, besarnya dari sistem untuk proses pengenalan suara.
step size serta momentum) untuk mendapatkan
performace jaringan yang optimum. Pencarian struktur 2.1. Proses Pencuplikan Sinyal
dan parameter ini bertujuan agar jaringan dapat secara
cepat belajar dan dapat mengenali suara dengan error Pencuplikan dilakukan pada kecepatan 8000 Hz
sekecil mungkin. dengan resolusi 8 bit (1 byte). Kecepatan pencuplikan
tersebut dilakukan dengan didasarkan asumsi bahwa
sinyal percakapan (speech) berada pada daerah frekuensi
99-033 1
Prosiding Seminar Nasional I Kecerdasan Komputasional
Universitas Indonesia, 20-21 Juli 1999
sampai 16.
N 1 m
rl (m) ~x (n) ~x (n m)
n0
l l (4)
Neural Backward Error
99-033 2
Prosiding Seminar Nasional I Kecerdasan Komputasional
Universitas Indonesia, 20-21 Juli 1999
30 node
rate yang baik tercapai pada nilai yang tidak terlalu besar
Input layer ataupun terlalu kecil. Dari hasil eksperimen, diambil nilai
32 node learning rate 0,5 sebagai nilai yang terbaik.
Hidden layer 3
30 node
Hidden layer 2
Selain menentukan nilai learning rate, maka
100 node
perlu ditentukan pula nilai momentum yang optimum.
Dari pengujian yang dilakukan didapat bahwa makin kecil
Hidden layer 1
160 node
99-033 3
Prosiding Seminar Nasional I Kecerdasan Komputasional
Universitas Indonesia, 20-21 Juli 1999
4. KESIMPULAN
GAMBAR 7. GRAFIK ERROR DENGAN TIGA, EMPAT DAN LIMA Dari eksperimen proyek ini dapat disimpulkan
HIDDEN LAYER beberapa hal:
1. Struktur jaringan saraf tiruan yang optimal untuk
3.2. Uji Pengenalan Suara sistem pengenalan suara ini menggunakan 3 hidden
layer dimana masing-masing node adalah 160, 100
Pada tahap awal uji pengenalan dilakukan dan 30 buah. Nilai learning rate yang digunakan 0,5
terhadap sinyal suara yang sama persis dengan yang telah dan momentumnya 0,75. Keakuratan sistem
ditrainingkan (training data set) dan didapat hasil bahwa pengenalan suara untuk pengenalan training data set
error yang terjadi sebesar 2 % atau dengan kata lain mencapai 98 % dan untuk pengenalan blind data set
keakuratan sistem untuk mengenali pola training data set mencapai 90 %.
mencapai 98 % (Tabel 1). 2. Kesalahan pengenalan yang terjadi diakibatkan
adanya perbedaan yang terlalu besar antara sinyal
Kemudian dilakukan pengujian terhadap sinyal suara yang hendak dikenali dengan sinyal suara yang
suara secara langsung dari microphone oleh orang yang dilatihkan, hal ini dapat diatasi dengan
sama dengan yang telah dilatihkan (pembicara1 s/d menambahkan/memperbanyak berbagai variasi pola
pembicara 5) ataupun oleh orang yang belum pernah kata pada saat pelatihan dengan demikian sistem
dilatihkan sebelumnya yaitu pembicara 6 s/d 8 (blind data jaringan lebih diperkaya pengetahuannya.
set). Dari proses pengujian ini didapat error rata-rata 3. Terbuka penelitian lanjutan untuk memperbesar
sebesar 10 % atau dengan kata lain keakuratan sistem jumlah perbendaharaan kata, dan penggunaan metode
untuk pengenalan pola blind data set mencapai 90 % hibrid lainnya sehingga pengenalan kata bersifat
(Tabel 2). Di sini tampak bahwa untuk pengenalan kata speaker independent.
pada pembicara 1 s/d 5 terdapat error yang rendah,
sedangkan pada pembicara 6 s/d 8 tampak error lebih
tinggi, namun masih tetap bisa dikenali dengan kesalahan DAFTAR PUSTAKA
sekitar 20 %.
99-033 4
Prosiding Seminar Nasional I Kecerdasan Komputasional
Universitas Indonesia, 20-21 Juli 1999
99-033 5