Dimensi34 2

PENGENALAN SUATA MANUSIA DENGAN METODE JARINGAN SARAF TIRUAN BACK PROPAGATION BERBASIS
PC
PENGENALAN SUARA MANUSIA DENGAN METODE JARINGAN
SARAF TIRUAN BACK PROPAGATION BERBASIS PC
Resmana
Dosen Fakultas Teknik Jurusan Teknik Elektro Universitas Kristen Petra
Rudy Adipranata
Alumnus Fakultas Teknik Jurusan Teknik Elektro Universitas Kristen Petra
ABSTRAK
Pada penelitian ini dibuat sebuah sistem pengenalan suara manusia dengan jaringan saraf
tiruan metode back propagation menggunakan personal computer. Sinyal suara analog mula-
mula dicuplik menjadi sinyal digital dengan kecepatan cuplik 8000 Hz. Untuk proses ekstraksi
parameter suara digunakan metode Linear Predictive Coding (LPC) untuk mendapatkan
koefisien cepstral. Koefisien cepstral LPC ini ditransformasikan ke dalam domain frekuensi
dengan Fast Fourier Transform (FFT) 512 point. Hasil FFT selanjutnya diproses dengan
jaringan saraf tiruan back propagation 32-160-100-30-30 untuk melakukan pengenalan. Lima
puluh sampel suara dari lima pembicara yang berbeda digunakan sebagai input pada proses
pelatihan jaringan saraf tiruan. Hasil pengujian proses pengenalan suara menunjukkan
keberhasilan 80 %.
ABSTRACT
The purpose of this research is to implement a speech recognition system with a back
propagation artificial neural network on Personal Computer. The speech signal is sampled at
sampling rate 8000 Hz and a Linear Predictive Coding (LPC) method is used to extract the
speech parameter to get cepstral coefficient. This coefficient is transformed into frequency
domain by using 512-point FFT. The result of transformation is processed by using a 32-160-
100-30-30 back-propagation artificial neural network to do the recognition process. Fifty
speech samples from five different speakers is used as inputs in the training process. The
system has been tested with a success factor of 80 %.
Kata kunci : pengenalan suara, jaringan saraf tiruan, back propagation, linear predictive
coding.
I. PENDAHULUAN
Dewasa ini sistem komputer telah
berkembang dengan sangat pesat, baik dari
sisi perangkat keras maupun perangkat
lunak. Peningkatan kemampuan komputer
terus dilakukan agar komputer dapat makin
menyerupai cara kerja otak manusia yang
dapat dilatih dan mengambil suatu
keputusan. Dan akhirnya ditemukan suatu
cara agar komputer dapat menirukan cara
berpikir pada otak manusia yaitu dengan
menggunakan jaringan saraf tiruan. Jaringan
saraf tiruan ini diinspirasi oleh cara kerja otak
manusia dimana untuk berpikir, otak
manusia mendapat rangsangan dari neuron-
neuron yang terdapat pada indera manusia
dan kemudian hasil rangsangan tersebut
diolah sehingga menghasilkan suatu
informasi.
Pada komputer, masukan yang diberikan
diumpamakan sebagai neuron-neuron
dimana masukan tersebut dikalikan dengan
suatu nilai dan kemudian diolah dengan
fungsi tertentu untuk menghasilkan suatu
keluaran. Pada saat pelatihan, pemasukan
tersebut dilakukan berulang-ulang sampai
tercapai keluaran seperti yang diinginkan.
Setelah proses pelatihan, diharapkan
komputer dapat mengenali suatu masukan
baru berdasarkan data-data yang telah
diberikan pada saat pelatihan.
DIMENSI TEKNIK ELEKTRO VOL 34 - PEBRUARI 1999
29
PC
Pada penelitian ini dibuat suatu sistem yang
memanfaatkan jaringan saraf tiruan metode
back propagation untuk pengenalan suara
dimana sistem ini digunakan untuk
menjalankan suatu perintah pada komputer
dan juga bertujuan untuk meneliti pengaruh
jumlah hidden layer terhadap word error rate
pada jaringan saraf tiruan metode back
propagation serta meneliti pengaruh besar
learning rate dan momentum terhadap word
error rate.
II. SISTEM PENGENALAN SUARA
Sistem pengenalan suara yang dibuat
digambarkan pada blok diagram gambar 1:
Secara garis besar, cara kerja sistem
pengenalan suara ini ialah sebagai berikut:
mula-mula sinyal suara manusia yang
diterima dengan mengguna-kan microphone
(sinyal analog) dicuplik sehingga menjadi
sinyal digital.
Sinyal digital hasil cuplikan ini terlebih dulu
dinormalisasi kemudian diproses dengan
preprocessing signal yang menggunakan
metode LPC sehingga didapat beberapa
koefisien LPC. Kemudian koefisien LPC
tersebut dimasukkan ke dalam Fast Fourier
Transform (FFT) dengan tujuan agar
perbedaan antar pola kata yang satu dengan
yang lain terlihat lebih jelas sehingga
ekstraksi parameter sinyal memberikan hasil
yang lebih baik. Hasil keluaran FFT ini
merupakan masukan bagi jaringan saraf
tiruan Back Propagation dimana jaringan
saraf tiruan ini berfungsi sebagai pusat
sistem untuk proses pengenalan suara.
1. Proses Pencuplikan Sinyal
Proses pencuplikan sinyal ini dilakukan
dengan menggunakan sound card yang
terdapat pada personal computer.
Pencuplikan dilakukan pada kecepatan 8000
Hz dengan resolusi 8 bit (1 byte) sehingga
didapat data sebanyak 8000 byte tiap detik.
Kecepatan pencuplikan tersebut dilakukan
dengan didasarkan asumsi bahwa sinyal per-
cakapan (speech) berada pada daerah
frekuensi 300-3400 Hz sehingga memenuhi
kriteria Nyquist yang menyatakan :
h s
xf f 2 tertinggi f f
in h
(1)
Proses pencuplikan dilakukan secara terus
menerus pada saat program dijalankan,
tetapi data hasil pencuplikan akan diambil
dan disimpan setelah
amplitudo sinyal melewati
ambang tertentu (treshold)
serta akan dihentikan
setelah amplitudo berada
dibawah ambang tersebut.
Kemudian pada sinyal yang
didapat tersebut dilakukan
proses normalisasi.
Proses normalisasi ini
dilaku-kan untuk
mendapatkan sinyal
dengan ukuran yang sama
walaupun kata yang
diucapkan berbeda, karena
proses jaringan saraf tiruan membutuhkan
jumlah input yang sama untuk semua pola
kata. Cara kerja proses normalisasi ini
dilakukan dengan menambahkan bebe-rapa
data tambahan apabila data hasil
pencuplikan belum memenuhi jumlah yang
dibutuhkan atau dengan mengurangi jumlah
data hasil pencuplikan apabila melebihi
jumlah input yang dibutuhkan. Tetapi pe-
nambahan ataupun pengurangan data hasil
pencuplikan dilakukan tanpa mengubah
bentuk sinyal tersebut. Jumlah data output
dari proses normalisasi ini ditetapkan
sebanyak 3360 buah (0,42 detik) dengan
asumsi bahwa untuk pengucapan satu kata
dibutuhkan waktu kurang dari 0,5 detik.
2. Preprocessing Sinyal Dengan Metode
Linear Predictive Coding
Linear Predictive Coding (LPC) sangat luas
digunakan untuk pengenalan suara
disebabkan beberapa keuntungan yaitu [1]:
1. LPC menyediakan pemodelan yang bagus
untuk sinyal suara (speech signal), hal ini
terutama untuk bagian voiced dimana
DIMENSI TEKNIK ELEKTRO VOL 34 - PENRUARI 1999
30
M i c
J a r i n g a n
S a r a f
T i r u a n
P r e p r o c e s s i n g
( L P C )
S o u n d C a r d
E k s t r a k s i
p a r a m e t e r
O u t p u t
( m e n j a l a n k a n p e r i n t a h
p a d a k o m p u t e r )
F a s t F o u r i e r
T r a n s f o r m
( F F T )
N o r m a l i s a s i
Gambar 1. Blok Diagram Sistem Pengenalan Suara
PC
pemodelan all pole model LPC
menghasilkan pendekatan selubung
spektral jalur vokal (vocal track spectral
envelope) yang baik, sedangkan untuk
bagian unvoiced, pemodelan LPC ini tidak
seefektif sebelumnya tapi masih dapat
digunakan untuk keperluan pengenalan
suara.
2. LPC dapat dengan mudah dan langsung
diterapkan baik secara perangkat lunak
maupun perangkat keras, sebab
perhitungan matematis yang dilibatkan
relatif lebih singkat dari metode-metode
yang dikenal sebelumnya seperti filter
bank.
3. Hasil pengenalan suara yang didapat
dengan menerapkan LPC cukup baik
bahkan lebih baik dari metode-metode
yang dikenal sebelumnya.
Langkah-langkah analisa LPC untuk
pengenalan suara adalah :
Preemphasis. Pada langkah ini, cuplikan
kata dalam bentuk digital ditapis dengan
menggunakan FIR filter orde satu untuk
meratakan spektral sinyal kata yang telah
dicuplik tersebut. Persamaan
preemphasizer yang paling umum
digunakan ialah :
~
( ) ( )
~
( ) s n s n as n 1
(2)
dimana harga untuk
~
a
yang paling sering
digunakan ialah 0,95. Sedangkan untuk
implementasi fixed point, harga
~
a
ialah
15/16 atau sama dengan 0,9375 [1].
Frame Blocking. Pada tahap ini sinyal
kata yang telah teremphasi,
~
( ) s n dibagi
menjadi frame-frame dengan masing-
masing frame memuat N cuplikan kata
dan frame-frame yang berdekatan
dipisahkan sejauh M cuplikan, semakin
M<<N semakin baik perkiraan spektral
LPC dari frame ke frame.
Windowing. Pada langkah ini dilakukan
fungsi weighting pada setiap frame yang
telah dibentuk pada langkah sebelumnya
dengan tujuan untuk meminimalkan
discontinuities pada ujung awal dan ujung
akhir setiap frame yaitu dengan men-
taper sinyal menuju nol pada ujung-
ujungnya.Tipikal window yang digunakan
pada metode autokorelasi LPC adalah
Hamming window yang memiliki bentuk :
w n
n
N
( ) , , cos
_
,
0 54 0 46
2
1
, 0 1 n N (3)
Analisa Autokorelasi. Pada tahap ini
masing-masing frame yang telah di
windowing diautokorelasikan untuk
mendapatkan :
r m x n x n m
l l l
n
N m
( )
~
( )
~
( ) +
0
1
(4)
dimana nilai autokorelasi yang tertinggi
pada m=p adalah orde dari analisa LPC,
biasanya orde LPC tersebut 8 sampai 16.
Autokorelasi ke-0 melambangkan energi
dari frame yang bersangkutan dan ini
merupakan salah satu keuntungan dari
metode autokorelasi.
Analisa LPC. Langkah selanjutnya
adalah analisa LPC, dimana pada tahap ini
p+1 autokorelasi pada setiap frame
diubah menjadi satu set LPC parameter
yaitu koefisien LPC, koefisien pantulan
(reflection coefficient), koefisien
perbandingan daerah logaritmis (log area
ratio coefficient) Salah satu metode untuk
melakukan hal ini ialah metode Durbin
yang dinyatakan dalam algoritma
dibawah ini :
E r
( )
( )
0
0 (5)
k r i r i j E
i j
i
j
i
i

'
( ) (| |) /
( ) ( )
1
1
1
1
,
1 i p
(6)
i
i
i
k
( )
(7)

j
i
j
i
i i j
i
k
( ) ( ) ( )

1 1
,
1 1 j i
(8)
( ) E k E
i
i
i ( ) ( )

1
2 1
(9)
Persamaan diatas direkursi untuk i=1,2,
,p dan penyelesaian akhirnya berupa :
a
m
= koefisien LPC =
m
p ( )
,
1 m p
k
m
= koefisien PARCOR (koefisien
pantulan)
g
m
= koefisien perbandingan daerah
logaritmis
= log
1
1
_
,
k
k
m
m
Mengubah LPC Parameter ke
Koefisien Cepstral. Sekelompok LPC
parameter yang sangat penting yang
dapat diperoleh dari penurunan koefisien
LPC adalah koefisien cepstral c(m).
Persamaan yang digunakan untuk
menghitung koefisien cepstral ini ialah :
31
PC
,
_
+
1
1
m
k
k m k m m
a c
m
k
a c , p m 1 (10)
k m k
m
k
m
a c
m
k
c

,
_
1
1
,
p m >
(11)
Koefisien cepstral ini merupakan koefisien
transformasi Fourier yang
merepresentasikan spektrum log
magnitude. Koefisien cepstral ini lebih
tahan terhadap noise jika digunakan pada
pengenalan suara daripada penggunaan
koefisien LPC, koefisien PARCOR ataupun
koefisien perbandingan daerah logaritmis
[1].
Proses frame blocking yang dilakukan pada
sistem ini ditetapkan tiap 30 mili detik
dengan jarak antar frame 10 mili detik. Jadi
dengan kecepatan cuplik sebesar 8000 Hz
maka tiap frame akan berisi 240 byte data
dengan jarak antar frame 80 byte data atau
dengan kata lain overlap yang terbentuk
sebesar 160 byte data. Dengan ketentuan
frame seperti di atas, maka untuk data hasil
cuplik sebanyak 3360 data maka akan
terbentuk
3360 160
80
40
buah frame.
Untuk perhitungan koefisien cepstral,
digunakan orde LPC 12 sehingga didapat
data output sebanyak 40x12=480 data.
3. Fast Fourier Transform (FFT)
Fast Fourier Transform merupakan penyeder-
hanaan dari Discrete Fourier Transform
(DFT). Untuk sinyal waktu diskrit x(n), maka
DFT dari sinyal diberikan oleh :
1 ,..., 1 , 0 , ) (
1
) (
/ 2
1
0

N k e n x
N
k X
N nk j
N
n
(12)
Faktor eksponensial dalam persamaan
tersebut dinamakan twiddle factor yang
bersifat periodik dengan periode N dan
dilambangkan dengan W
N
nk
, sehingga DFT
dari sinyal waktu diskrit x(n) dapat dituliskan
sebagai :
1 ,..., 1 , 0 , ) (
1
) (
1
0

N k W n x
N
k X
N
n
nk
N
(13)
Dengan Fast Fourier Transform, maka jumlah
titik data N merupakan bilangan yang dapat
difaktorkan sehingga seluruh jumlah titik DFT
dapat dipecah ke dalam kelompok-kelompok
yang makin lama makin kecil. Kemudian
dengan memanfaatkan sifat simetri dan
periodisitas dari twiddle factor, jumlah
operasi aritmatika yang diperlukan dapat
dikurangi. Pada algoritma FFT radix 2
Decimation In Frequency (DIF), data
sebanyak N dibagi menjadi dua bagian,
yaitu data dengan indeks 0 sampai dengan
N/2-1 dan data dengan indeks N/2 sampai
dengan N-1. Dengan komputasi dual node,
DFT dari N titik ini dapat dihitung. Pangkat
dari twiddle factor berjalan dari 0 sampai
dengan N/2-1. Kemudian hasil perhitungan
tersebut dibagi menjadi dua bagian yang
merupakan DFT dengan N/2 titik dan dihitung
dengan cara serupa. Proses tersebut diulangi
sampai didapatkan stage yang merupakan
kumpulan dari DFT dengan 2 titik dimana
pangkat dari twiddle factor merupakan harga
tunggal yaitu nol.
Proses Fast Fourier Transform (FFT) ini
dilakukan setelah didapat koefisien cepstral
sebanyak 480 data. FFT ini dilakukan untuk
meningkatkan unjuk kerja sistem karena
dengan digunakannya proses FFT maka
perbedaan antara pola kata yang satu
dengan pola kata yang lain makin terlihat
jelas.
FFT yang digunakan memakai 512 point dan
karena hasil FFT simetris maka keluaran FFT
tersebut hanya diambil sebanyak 256 data.
Dari 256 data ini kemudian dibagi menjadi
32 blok dimana masing-masing blok berisi 8
data dan dihitung rata-rata untuk masing-
masing blok. Maka total keluaran dari FFT ini
adalah 32 data, dimana data tersebut
merupakan masukan bagi jaringan saraf
tiruan.
4. Jaringan Saraf Tiruan Back
Propagation
Jaringan saraf tiruan ialah suatu sistem
pengolah informasi yang mempunyai
karakteristik menyerupai jaringan saraf
biologis tubuh manusia. Jaringan saraf tiruan
telah dikembang-kan dengan menggunakan
model matematis untuk menirukan cara kerja
jaringan saraf biologis, dengan berdasarkan
asumsi [5]:
1. Pengolah informasi terdiri dari elemen-
elemen sederhana yang disebut neuron.
2. Sinyal dilewatkan dari satu neuron ke
neuron yang lain melalui hubungan
koneksi.
32
PC
3. Tiap hubungan koneksi mempunyai nilai
bobot tersendiri.
4. Tiap neuron mempergunakan fungsi
aktivasi (biasanya tidak linear) terhadap
masukan yang diterimanya untuk
menentukan sinyal keluarannya.
Karakteristik jaringan saraf tiruan ditentukan
oleh pola hubungan antar neuron (disebut
architecture), metode untuk menentukan
nilai bobot tiap hubungan (disebut training)
dan ditentukan oleh fungsi aktivasi.
Jaringan saraf tiruan terdiri dari sejumlah
besar elemen pengolah sederhana yang
disebut neuron, unit atau sel. Tiap neuron
terhubung dengan neuron yang lain melalui
sambungan komunikasi dimana tiap
sambungan mempunyai nilai bobot
tersendiri. Nilai bobot ini menyediakan
informasi yang akan digunakan oleh jaringan
untuk memecahkan masalah.
Tiap neuron mempunyai keadaan internal
yang disebut level aktivasi (activation
level) yang terdiri dari fungsi dari masukan
yang diterima. Biasanya, suatu neuron
mengirimkan nilai aktivasinya ke beberapa
neuron yang lain. Sebuah neuron hanya bisa
mengirim satu sinyal pada satu saat dan
sinyal itu disebarkan ke beberapa neuron
yang lain.
Algoritma pelatihan untuk jaringan saraf
tiruan Back Propagation ini adalah sebagai
berikut :
Langkah 0 : Inisialisasi nilai bobot dengan
nilai acak yang kecil.
Langkah 1 : Selama kondisi berhenti masih
tidak terpenuhi, laksanakan
lang-kah 2 sampai 9.
Langkah 2 : Untuk tiap pasangan pelatihan,
kerjakan langkah 3 sampai 8.
Feedforward :
Langkah 3 : Untuk tiap unit masukan (X
i
, i=1,
,n) menerima sinyal masukan
x
i
dan menyebarkan sinyal itu
keseluruh unit pada lapis
atasnya (lapis tersembunyi)
Langkah 4 : Untuk tiap unit tersembunyi (Z
j
,
j=1,,p) dihitung nilai masukan
dengan menggunakan nilai
bobotnya :
z in x
j j i ij
i
n
_ +

0
1
(14)
Kemudian dihitung nilai keluaran
dengan menggunakan fungsi
akti-vasi yang dipilih :
z
j
= f ( z_in
j
) dimana fungsi aktivasi
yang digunakan ialah fungsi
sigmoid biner yang mempunyai
persamaan :
f x
x
1
1
1
( )
exp( )
+
(15)
Hasil fungsi tersebut dikirim ke
semua unit pada lapis di
atasnya.
Langkah 5 : Untuk tiap unit keluaran (Y
k
,
k=1,..,m) dihitung nilai masukan
dengan menggunakan nilai
bobot-nya :
33
Gambar 2. Struktur Jaringan Saraf Tiruan
PC
y in w z w
k k j jk
j
p
_ +
0
1
(16)
Kemudian dihitung nilai keluaran
dengan menggunakan fungsi
aktivasi :
y f y in
k k
( _ )
(17)
Perhitungan nilai kesalahan :
Langkah 6 : Untuk tiap unit keluaran (Y
k
,
k=1,..,m) menerima pola target
yang bersesuaian dengan pola
masukan, dan kemudian
dihitung informasi kesalahan :
k k k k
t y f y in ( ) ( _ )
'
(18)
Kemudian dihitung koreksi nilai bobot
yang kemudian akan digunakan
untuk memperbaharui nilai
bobot w
jk.
:
w z
jk k j

(19)
Hitung koreksi nilai bias yang
kemudian akan digunakan untuk
memperbaharui nilai w
0k
:
w
k k 0

(20)
dan kemudian nilai
k
dikirim ke unit
pada layer sebelumnya.
Langkah 7 : Untuk tiap unit tersembunyi (Z
j
,
j=1,,p) dihitung delta masukan
yang berasal dari unit pada layer
di atasnya :
_in w
j k jk
k
m
1
(21)
Kemudian nilai tersebut dikalikan
dengan nilai turunan dari fungsi
aktivasi untuk menghitung
informasi kesalahan :

j j j
in f z in _ ( _ )
'
(22)
Hitung koreksi nilai bobot yang
kemudian digunakan untuk
mem-perbaharui nilai
ij
:

ij j i
x
(23)
dan hitung nilai koreksi bias yang
kemudian digunakan untuk
memperbaharui
oj
:

oj j
. (24)
Memperbaharui nilai bobot dan bias :
Langkah 8 : Tiap nilai bias dan bobot (j=0,
,p) pada unit keluaran (Y
k
,
k=1,,m) diperbaharui :
w new w old w
jk jk jk
( ) ( ) +
(25)

ij ij ij
new old ( ) ( ) +
(26)
Langkah 9 : Menguji apakah kondisi berhenti
sudah terpenuhi. Kondisi
berhenti ini terpenuhi jika nilai
kesalahan yang dihasilkan lebih
kecil dari nilai kesalahan
referensi.
Untuk pembaharuan nilai bobot terdapat
tambahan metode yang dapat digunakan
yaitu dengan menggunakan momentum
yang didasarkan pada kombinasi antara
gradien sekarang dengan gradien yang lalu.
Hal ini berguna jika terdapat beberapa data
pelatihan yang sangat berbeda dari
mayoritas data pelatihan yang lain. Untuk
menggunakan momentum ini, nilai bobot
dari satu atau lebih lapis sebelumnya harus
disimpan. Persamaan pembaharuan nilai
bobot dengan menggunakan momentum
ialah :
w t w t z w t w t
jk jk k j jk jk
( ) ( ) [ ( ) ( )] + + + 1 1
(27)
dan :

ij ij j i ij ij
t t x t t ( ) ( ) [ ( ) ( )] + + + 1 1
(28)
dimana parameter momentum
terletak
antara 0 dan 1.
Pada sistem ini, input jaringan saraf tiruan
berasal dari keluaran FFT yang telah dibagi
menjadi 32 blok. Jadi terdapat 32 data input
bagi jaringan saraf tiruan. Sedangkan
outputnya berjumlah 30 buah yang masing-
masing merupakan bilangan biner dan
34
P r e p r o c e s s i n g
( L P C )
F a s t F o u r i e r
T r a n s f o r m
( F F T )
3 3 6 0 s a m p e l
4 8 0
d a t a
3 2 d a t a
J a r i n g a n
S a r a f T i r u a n
Gambar 4. Struktur LPC dan FFT
32 node
160 node
100 node
30 node
30 node
Input layer
Hidden layer 1
Hidden layer 2
Hidden layer 3
Output layer
Gambar 5. Struktur Jaringan Saraf Tiruan
PC
masing-masing bit merepresentasikan satu
buah pola kata. Jadi pada output terdapat 30
kemungkinan yang dapat dihasilkan.
N e u r a l
F e e d f o r w a r d
N e u r a l B a c k w a r d E r r o r
W e i g h t
T a r g e t
O u t p u t I n p u t
Gambar 3. Blok Diagram Jaringan Saraf
Tiruan Back Propagation
5. Metode Pelatihan
Langkah pertama proses pelatihan ini ialah
mengambil input dari pembicara
sebanyak 5 orang (user 1, user 2, user
3, user 4 dan user 5) dimana masing-
masing pembicara mengucapkan 10
buah pola kata yaitu nol, satu, dua
dan seterusnya sampai pola kata
sembilan. Pola kata dari masing-
masing pembicara tersebut disimpan
dan kemudian dilatihkan secara
bersamaan ke dalam jaringan saraf
tiruan.
Pola kata tersebut dimasukkan secara urut
mulai user 1 dengan pola kata nol, satu,
dua dan seterusnya sampai pola kata
sembilan, kemudian user 2 dengan pola
kata nol, satu, dua sampai pola kata
sembilan, demikian seterusnya sampai user
5. Setelah semua data dimasukkan maka
proses training dilakukan sampai error yang
dihasilkan mencapai nilai yang telah
ditentukan dimana pada proses ini
digunakan nilai error 0,0001.
III. PENGUJIAN SISTEM
1. Penentuan Struktur Jaringan Saraf
Tiruan
Pertama kali akan ditentukan jumlah node
hidden layer dengan menggunakan satu
hidden layer, nilai learning rate 0,5
momentum 0,5 serta input 32 data.
Dari hasil pengujian didapat data makin
banyak jumlah node hidden layer yang
digunakan maka akan menghasilkan error
yang kecil dalam iterasi yang makin singkat,
sampai mencapai suatu nilai tertentu dimana
perubahan jumlah node hanya
mengakibatkan sedikit perubahan pada
jumlah iterasi. Dari pengujian tersebut maka
didapat bahwa jumlah node hidden layer
yang optimal ialah 160 buah. Penambahan
jumlah node lebih besar dari 160 tidak
menghasilkan penurunan jumlah iterasi yang
berarti. Makin banyak jumlah node yang
digunakan akan memakai memori komputer
makin besar sehingga jika dipilih jumlah
node diatas 160 akan terdapat pengorbanan
pada jumlah memori yang digunakan tanpa
diiringi perubahan jumlah iterasi yang
berarti.
Setelah diketahui jumlah node hidden layer
yang optimum, maka kemudian dilanjutkan
untuk menentukan nilai learning rate yang
optimum. Untuk itu jaringan saraf tiruan akan
diuji dengan menggunakan 1 hidden layer
dengan 160 node, serta momentum 0,9,
0,75, 0,5, 0,25 dan 0,1. Dari pengujian dapat
diambil kesimpulan bahwa makin besar nilai
learning rate yang digunakan, maka jumlah
iterasi yang dibutuhkan untuk mencapai
error yang kecil makin sedikit. Tetapi
penggunaan nilai learning rate yang terlalu
besar akan memperbesar kemungkinan error
yang terjadi. Sehingga nilai learning rate
yang baik tercapai pada nilai yang tidak
terlalu besar ataupun terlalu kecil. Dari hasil
eksperimen, diambil nilai learning rate 0,5
sebagai nilai yang terbaik.
Selain menentukan nilai learning rate, maka
perlu ditentukan pula nilai momentum yang
optimum. Dari pengujian yang dilakukan
didapat bahwa makin kecil nilai momentum
maka makin banyak iterasi yang dibutuhkan
untuk mencapai error yang kecil. Untuk itu
perlu diambil nilai momentum yang optimum
dimana dalam program ini diambil nilai
momentum 0,75. Hal ini disebabkan karena
dengan menggunakan momentum 0,75 akan
diperoleh error yang kecil dengan jumlah
iterasi yang tidak terlalu banyak ataupun
terlalu sedikit.
Setelah menentukan parameter-parameter
untuk satu hidden layer, maka sekarang
akan diuji respon sistem jika menggunakan
hidden layer lebih dari satu, dengan
menggunakan nilai learning rate dan
momentum yang didapat dari pengujian di
atas. Dari pengujian ini (gambar 6 dan 7)
didapat bahwa sistem akan optimal jika
memakai struktur tiga hidden layer dengan
konfigurasi 160, 100 dan 30, dimana dengan
35
PC
struktur tersebut dicapai error yang kecil
dalam iterasi yang singkat. Gambar 8
menunjukan jika digunakan jumlah hidden
layer lebih dari 3 maka akan didapat jumlah
iterasi yang lebih banyak.
Jadi dari semua pengujian yang dilakukan
didapat struktur jaringan saraf tiruan yang
optimal untuk sistem pengenalan suara ini
ialah menggunakan 3 hidden layer dengan
jumlah node 160, 100 dan 30 serta nilai
learning rate yang digunakan 0,5 dan
momentum 0,75.
Gambar 6. Grafik Error Dengan Satu dan
Dua Hidden Layer
Gambar 7. Grafik Error Dengan Satu, Dua
dan Tiga Hidden Layer
Gambar 8. Grafik Error Dengan Tiga, Empat
dan Lima Hidden Layer
2. Pengenalan Suara
Struktur jaringan saraf tiruan yang digunakan
pada proses pengenalan ini bersesuaian
dengan proses pelatihan yaitu mempunyai 3
hidden layer dengan jumlah node 160, 100
dan 30. Nilai learning rate yang digunakan
0,5 dan momentum 0,75.
Pertama kali pengenalan ini dilakukan
terhadap sinyal suara yang sama persis
dengan yang telah dilakukan (training data
set) dan didapat hasil bahwa error yang
terjadi sebesar 2 % atau dengan kata lain
keakuratan sistem untuk mengenali pola
training data set mencapai 98 % ( Tabel 1).
Kemudian dilakukan pengujian terhadap
sinyal suara secara langsung dari
microphone oleh orang yang sama dengan
yang telah dilatihkan ataupun oleh orang
yang tidak dilatihkan (blind data set). Dari
proses pengujian ini didapat error sebesar 10
% atau dengan kata lain keakuratan sistem
untuk pengenalan pola blind data set
mencapai 90 % (Tabel 2).
Tabel 1. Error Rate Pada Pengujian Dengan
Training Data Set
Pembicara Error Rate
User 1 0%
User 2 0%
User 3 0%
User 4 10%
User 5 0%
Rata-rata 2%
Tabel 2. Error Rate Pada Pengujian Dengan
Blind Data Set
Pembicara Error Rate
User 1 0 %
User 2 0 %
User 3 10 %
User 4 10 %
User 5 0 %
User 6 20 %
User 7 20 %
User 8 20 %
Rata-rata 10 %
IV. KESIMPULAN
Dari perencanaan, pembuatan serta
pengujian program yang telah dilakukan
dapat disimpulkan bahwa :
1. Struktur jaringan saraf tiruan yang optimal
untuk sistem pengenalan suara ini
menggunakan 3 hidden layer dimana
masing-masing node adalah 160, 100 dan
30 buah. Nilai learning rate yang
digunakan 0,5 dan momentumnya 0,75.
36
PC
2. Keakuratan sistem pengenalan suara
untuk pengenalan training data set
mencapai 98 % dan untuk pengenalan
blind data set mencapai 90 %.
3. Kesalahan pengenalan yang terjadi
diakibatkan adanya perbedaan yang
terlalu besar antara sinyal suara yang
hendak dikenali dengan sinyal suara yang
dilatihkan, hal ini dapat diatasi dengan
menambahkan/ memperbanyak berbagai
variasi pola kata pada saat pelatihan
dengan demikian sistem jaringan lebih
diperkaya pengetahuannya.
DAFTAR PUSTAKA
1. David, Frederikus. B.S., Penggunaan
Prosesor Sinyal Digital Keluarga TMS320
Sebagai Alat Pengenalan Suara Manusia
Dengan Algoritma DTW (Dynamic Time
Warping). Surabaya : Universitas Kristen
Petra. 1996.
2. Eberhart, Russell.C., Neural Network PC
Tools. San Diego, California : Academic
Press. Inc. 1990.
3. Fausett, Laurene, Fundamentals Of Neural
Network. Englewood Cliffs, New Jersey :
Prentice-Hall.Inc. 1994.
4. Freeman, James. A., Neural Network
Algorithms, Applications, and
Programming Techniques. Addison-Wesley
Publishing Company, Inc. 1991.
5. Oppenheim, Alan.V., Discrete-Time Signal
Processing. Englewood Cliffs, New Jersey :
Prentice-Hall.Inc. 1989.
6. Orfanidis, Sophocles.J., Optimum Signal
Processing. Singapore : McGraw-Hill Book
Co. 1990.
7. Rabiner, L.R., Juang, B.H., Fundamentals
Of Speech Recognition. Englewood Cliffs,
New Jersey : Prentice-Hall.Inc. 1993.
8. Todd, Bill., Kellen, Vince, Delphi A
Developers Guide. New York : M&T Books.
1995.
37

Dimensi34 2

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Dimensi34 2

Diunggah oleh

Hak Cipta:

Format Tersedia

PENGENALAN SUATA MANUSIA DENGAN METODE JARINGAN SARAF TIRUAN BACK PROPAGATION BERBASIS

Anda mungkin juga menyukai