Ketut Agustini(1)
Abstract: Biometric as one of identification or recognition person techniques that based on uniquely part
of human body. Voice one of uniquely human has. Voice signal that come out from different speakers give
different voice pattern. Because of high variations used neural network (NNW)for matching the patterns.
Before voice data is processed using NNW it’s processed using digital processed through feature extrac-
tion phase using discrit wavelet orthogonal base 4 orders with 10 and 15 decomposition rate. The result of
NNW is processed by model decision maker that determine speaker identification. The result of experi-
ment shows system biometric built can identify as high as 86%
.
Biometrik merupakan studi tentang metode suatu alat identifikasi seperti pada teknik konven-
otomatis untuk mengenali atau mengidentifikasi sional.
manusia berdasarkan satu atau lebih bagian tubuh Proses biometrik (selanjutnya menggunakan
manusia atau kelakuan dari manusia itu sendiri. kata “identifikasi”) dengan suara memiliki
Dalam dunia teknologi informasi, biometrik relevan keunggulan secara ekonomis dibandingkan dengan
dengan teknologi yang digunakan untuk mengana- karakteristik yang lain. Identifikasi dengan suara
lisa fisik dan kelakuan manusia untuk autentifi- hanya membutuhkan alat tambahan berupa mikrofon
kasi. Contohnya dalam pengenalan fisik manusia dan kartu suara, sedangkan karakteristik-karakteristik
yaitu dengan pengenalan sidik jari, retina, iris, yang lain misalnya sidik jari atau wajah mem-
pola dari wajah (facial patterns), tanda tangan butuhkan alat tambahan seperti scanner. Hal ini
dan cara mengetik (typing patterns) serta suara. sedikit banyak dapat menekan biaya pengembangan
Beberapa hal yang mendorong penggunaan iden- sistem.
tifikasi secara biometrik adalah biometrik bersifat Identifikasi melalui suara termasuk dalam
universal (terdapat pada setiap orang), unik (tiap masalah nonalgorithmic (Fu, 1994). Walaupun sirkuit
orang mempunyai ciri khas tersendiri), dan tidak digital (komputer) mempunyai kecepatan yang jauh
mudah dipalsukan (Xafopoulos, 2001). Dengan lebih tinggi daripada otak manusia tetapi dalam
teknik biometrik seseorang tidak harus membawa memproses masalah-masalah nonalgorithmic otak
(1)
Ketut Agustini,Manajemen Informatika Fakultas PTK Undiksha Singaraja, Kampus Tengah Jl. Udayana Singaraja, Email:
adisti_cecilia@yahoo.com
50 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
manusia lebih unggul. Suatu teknik yang dibuat memberikan informasi sinyal dalam domain waktu
dengan memodelkan otak manusia adalah Jaringan dan frekuensi secara bersamaan dan mengana-
Syaraf Tiruan (JST) atau artificial neural network. lisis sinyal yang tidak stationer, untuk itu ingin
Seperti pada otak manusia, JST terdiri atas neuron- dikembangkan suatu konsep atau pendekatan lain
neuron yang saling berhubungan yang dapat bekerja dalam pemrosesan sinyal tanpa berbasiskan trans-
sama satu dengan yang lainnya untuk membentuk formasi fourier yaitu dengan transformasi wa- velet.
suatu sistem. Jaringan syaraf tiruan dapat belajar Transformasi Wavelet merupakan sarana yang
untuk mengenali suatu pola melalui pembelajaran mulai populer untuk pemrosesan sinyal, seperti citra
dan diharapkan dapat memecahkan masalah-masalah dan suara, dan transformasi ini belum banyak
yang bersifat nonalgorithmic. diaplikasikan untuk analisis suara, khususnya untuk
Penelitian mengenai identifikasi pembicara identifikasi pembicara menggunakan teks berba-
telah banyak dilakukan dengan berbagai metode hasa Indonesia. Dalam praktek, Transformasi
pem-rosesan sinyal, seperti Linier Prediction Coding Wavelet digunakan untuk ekstraksi ciri dalam
(LPC), Mel Frequency Cepstrum Coefficients sistem pengenalan suara karena mempunyai ka-
(MFCC), Neural Predictive Coding (NPC), dan rakter khusus yang sesuai untuk analisis sinyal,
sebagainya, yang mana keseluruhan metode diatas termasuk sinyal suara. Transformasi wavelet
berbasiskan Transformasi Fourier, dan tingkat sinyal suara menghasilkan resolusi waktu yang
identifikasinya telah mencapai 100%, berikut ada- baik pada frekuensi tinggi dalam menentukan
lah metode-metode yang telah diterapkan de- lokasi awal suara dan parameterisasi ciri suara du-
ngan tingkat identifikasi yang telah dicapainya, rasi pendek serta mampu menganalisis sinyal dis-
dituangkan dalam bentuk Tabel 1 (Chetouani, kontinu (non stationary) secara akurat (Krisnan,
2004). 1994).
Pengenalan pembicara dapat diklasifikasikan ke
Tabel 1 Metode-metode yang Digunakan Penelitian
dalam tiga tahap yaitu identifikasi, deteksi dan
Sebelumnya
verifikasi. Identifikasi pembicara merupakan proses
Metode pemrosesan sinyal suara Tingkat
identifikasi untuk menentukan identitas pembicara melalui suara
(%) yang telah diucapkan, sedangkan deteksi pembicara
LPC (Linier Predictive Coding) 90.61
LPCC 96.73 merupakan proses penemuan suara pembicara dari
MFCC (Mel Frequency Cepstrum 97.55 sekumpulan suara, dan verifikasi pembicara
Coefficient)
PLP 86.12 merupakan proses untuk memverifikasi kesesuaian
NPC (random initialization) 61.63 suara pembicara dengan identitas yang diklaim oleh
NPC (linier initialization) 100
pembicara. Pengenalan pembicara lebih meni-
Sumber: Universite Pierre&MarieCurie, LA Science A Paris,
2004 tikberatkan pada pengenalan suara pembicara dan
tidak pada pengenalan ucapan pembicara (Ho,
Namun, masih banyak kelemahan yang dimiliki 1998) .
transformasi fourier diantaranya, kurang mampu
Agustini, Biometrik Suara Dengan Transformasi Wavelet 51
Metode identifikasi pembicara yang merupakan sesi pendaftaran (enrollment sessions) atau fase
bagian dari pengenalan pembicara (Gambar 1), dapat training, sedangkan yang kedua menunjukkan sesi
dibagi ke dalam metode text-independent dan text- operasi atau fase testing. Di dalam fase training, tiap
dependent. Pada sistem text-independent, model pembicara yang telah terdaftar memasukkan contoh
pembicara meng-capture karakteristik ucapan (sampel) suaranya sehingga sistem dapat mulai
seseorang melalui sinyal ucapan dengan menga- dibangun atau dilatih berdasarkan reference model
baikan apa yang diucapkannya, dalam artian kata- pembicara tadi.
kata yang diucapkan sembarang (bebas). Sebaliknya Secara umum sistem identifikasi pembicara
pada sistem text-dependent, pengenalan identitas mempunyai tahapan sebagai berikut dengan dia-
pembicaranya didasarkan pada ucapan seseorang gram bloknya diilustrasikan pada Gambar 2
dengan kata-kata yang spesifik atau telah disepakati, (Campbell,1997), (a) akuisisi data suara digital, yaitu
seperti password, card numbers, kode PIN dan proses untuk mengakuisisi ucapan pembicara (dalam
sebagainya (Mudry,1997) . sinyal analog) dan mengubahnya menjadi sinyal
digital. Sinyal digital yang terbentuk berupa suatu
Text to Speech
vektor yang merepresentasikan suara pembicara, (b)
Pengenalan Ucapan
(Speech Recognition) frame blocking dan windowing, yaitu frame blocking
Speech to Text
Teks tertentu merupakan proses segmentasi sinyal suara digital
Pengenalan Bahasa (Text-Dependent)
(Language Recognition) Identifikasi Pembicara
Sinyal ucapan
(Speaker Identification)
Teks Bebas
yang telah diakuisisi ke dalam durasi tertentu,
(Text-Independent )
Pengenalan Pembicara
(Speaker Recognition)
Deteksi Pembicara
(Speaker Detection)
sedangkan frame windowing adalah proses yang
Verifikasi Pembicara bertujuan untuk meminimalkan diskontinuitas (non-
(Speaker Verification)
(e) pencocokan pola (pattern matching), yaitu proses dibangun menggunakan transformasi wavelet
pencocokan pola dengan menerima data yang telah berbasis orthogonal daubenchies, (2) diimple-
diolah oleh ekstrasi ciri sebagai data input, proses mentasikannya model prototipe sistem biometrik
tersebut akan mencocokan pola data masukan (input) suara yang dibangun menggunakan transformasi
dengan model referensi dan akan memberikan hasil wavelet berbasis orthogonal daubenchies serta 3).
berupa besarnya skor kesesuaian data input dengan Diperolehnya tingkat identifikasi (generlisasi)
pola-pola referensi yang ada, (f) Pembuatan kepu- tertinggi yang dicapai dari sistem biometrik suara
tusan yaitu yang akan menerima skor hasil penco- yang dibangun menggunakan transformasi wavelet
cokan pola. Pada sistem identifikasi, pembuatan berbasis orthogonal daubenchies.
keputusan akan menentukan identitas pembicara. Penelitian ini diharapkan dapat digunakan
Seperti terlihat pada Gambar 2. untuk melakukan identifikasi seseorang melalui kata-
kata yang diucapkan orang tersebut. Hasil yang
diberikan pada identifikasi berupa identitas pengguna
Pembicara sistem. Sistem ini antara lain bermanfaat untuk
Blocking dan suara vektor Pencocokan skor Pembuatan
Ekstraksi ciri
Identitas
daubenchies?”.
Pada dasarnya tujuan dari penelitian ini adalah D ata hasil
perekam an
Antar m uka
(100 data)
untuk mendapatkan jawaban dari pertanyaan
50 data T esting
penelitian yang telah dirumuskan diatas. Sehingga T raining
identifikasi
cangan model prototipe sistem biometrik suara yang Gambar 3 Perancangan Model Sistem
Agustini, Biometrik Suara Dengan Transformasi Wavelet 53
identifikasi. Modul training dan modul testing perekaman yang dilakukan selama 3 detik meng-
identifikasi dalam satu interface atau satu submenu, hasilkan 195 frame. Proses ektraksi ciri pada
sedangkan modul perekaman terdapat dalam penelitian ini, adalah data yang telah terbagi ke dalam
submenu yang berbeda (Gambar 4). Pada modul frame-frame dan telah dikalikan dengan Hamming
perekaman didalamnya terdapat suatu tahapan window. Masing-masing dari proses ekstraksi ciri
praproses (preprocessing) dan data hasil perekaman diatas akan menghasilkan koefisien-koefisien
yang dihasilkan seluruhnya adalah 100 data suara. (koefisien detail dan perkiraan) yang diperoleh dari
hasil dekomposisi pada level 10 dan 15. Pada
penelitian ini koefisien yang diambil sebagai
masukan ke proses selanjutnya adalah koefisien yang
dihasilkan dari frekuensi rendah yaitu koefisien
perkiraan (approximation) karena bagian penting
dari suatu sinyal terletak pada frekuensi tersebut,
yang mampu memberikan identitas dari suatu sinyal.
Gambar 4 Interface dari Modul Perekaman Suara Koefisien yang dihasilkan akan membentuk suatu
vektor. Algoritma berikut adalah untuk mencari
Pengguna sistem akan mengucapkan kata yang koefisien detail dan perkiraan pada proses multiple
telah ditentukan sebelumnya yaitu “Ilmu Komputer”. dekom-posisi:
Data audio yang diperoleh akan diubah menjadi ben- - Sinyal yang masuk difilter ke dalam sinyal
tuk digital (vektor) menggunakan proses sampling frekuensi rendah (low-pass filter) dan sinyal
dengan perangkat lunak MATLAB 7.0.1. Perekaman frekuensi tinggi (high-pass filter)
dilakukan selama 3 detik (1 detik sama dengan 1000 - Lakukan downsampling pada ke dua sinyal
ms) dengan frekuensi sampling 20kHz (dalam 1 detik tersebut
diperoleh data sebanyak 22.050 data). Akuisisi data - Low-pass frekuensi hasil downsampling
dilakukan pada beberapa tahap. Pada tahap pertama selanjutnya melalui proses seperti pada tahap
dilakukan akuisisi data untuk pembelajaran sistem. pertama
Pada tahap kedua akuisisi data dilakukan untuk - Lakukan ulang sampai pada level yang
menguji sistem identifikasi. diinginkan
Dalam penelitian ini menggunakan frame (n) Pembentukan model referensi pembicara dan
dengan lebar waktu 30 ms di mana tiap frame pencocokan pola dilakukan menggunakan JST
menyimpan data sebanyak 661 (hasil pembulatan Propagasi Balik. Arsitektur yang digunakan untuk
dari 661,5) sampel dengan overlap (m) 50%, JST Propagasi Balik adalah Multi Layer Perceptron,
sehingga diperoleh jumlah frame dengan waktu dengan satu lapisan tersembunyi. JST terlebih dahulu
perekaman selama 1 detik sebesar 65 frame (dengan dilatih untuk membentuk model referensi pembicara.
tiap frame mengandung data sebanyak 22050 data). Setelah tahap pembelajaran selesai dilakukan, JST
Dengan diperolehnya dalam 1 detik 65 frame maka dapat digunakan untuk melakukan pencocokan pola.
54 GEMATEK JURNAL TEKNIK KOMPUTER, VOLUME 9 NOMOR 2, SEPTEMBER 2007
Pada proses identifikasi, pembuatan keputusan menghasilkan pengidentifikasian yang lebih akurat,
dilakukan dengan metode nilai maksimum. Jika mengingat sinyal suara sangat terpengaruh (sen-
neuron output ke-n merupakan neuron dengan nilai sitive) terhadap waktu.
maksimum, maka data yang masuk dikenali sebagai Proses Ekstraksi ciri dari Daubenchies orde 4
pembicara ke-n. Sebagai contoh jika neuron pertama (daub4) pada level 10 memberikan hasil tiap satu
pada lapisan output bernilai 1 dan yang lainnya 0, data file (satu file *.wav) pembicara (dari 10 data
maka input diidentifikasi sebagai pembicara pertama. file setiap pembicara) menghasilkan koefisien
Fungsi yang digunakan untuk metode nilai sebanyak 134 elemen dengan elapsed time pra-
maksimum didalam syntax matlab adalah prosesnya rata-rata sebesar 1,061 detik, dan pada saat
Competitive Transfer Function (COMPET). Syntax 50 data suara yang digunakan untuk training
matlab dari penggunaan fungsi tersebut, di mana diproses, membutuhkan waktu 96,479 detik. Dari 50
testing merupakan hasil simulasi dengan jaringan, data suara tersebut akan membentuk suatu matriks
numkenal_test adalah jumlah pola yang dikenal, dan dengan dimensi 134 x 50, yang digunakan sebagai
jum_pola adalah jumlah pola keseluruhan, adalah input untuk proses pembentukan referensi pembicara
sebagai berikut, dan pencocokan pola. Sedangkan pada level 15, satu
hasil_test=compet(ytesting);
file pembicara (dari 10 file setiap pembicara)
numkenal_test=recognize(hasil_test);
menghasilkan koefisien sebanyak 10 elemen dengan
generalisasi_test=numkenal_test/
elapsed time praprosesnya sebesar 1,092 detik,
jum_pola*100 sedangkan untuk 50 data yang digunakan untuk
training menghabiskan waktu sebesar 71,933 detik.
HASIL DAN PEMBAHASAN Pengujian selanjutnya adalah (2) tahap referensi
Pengujian yang telah dilakukan merupakan (1) pembicara dan pencocokan pola dengan
tahap praproses meliputi proses akuisisi data suara menggunakan laju pembelajaran 0.01 dan 0.3 serta
digital, proses frame blocking dan windowing, serta toleransi galat sebesar 0.00001, mencapai
proses ekstraksi ciri dengan wavelet tipe orthogonal kekonvergenan pada epoch ke-555 dengan waktu
yaitu Daubenchies dengan orde 4 pada level 10 dan 8.07 detik dan mean square error-nya sebesar
15. Pada proses akuisisi data suara digital dan proses 9.99238 X 10-6, (Gambar 5).
frame blocking serta windowing, kombinasi suara
yang digunakan dengan lamanya durasi perekaman,
memberikan hasil untuk tiap data suara berupa
vektor, dengan dimensi 66.150 (22.050 x 3). Jumlah
pembicara yang diambil sebagai data training adalah
50 (lima puluh) data suara yang dipilih dengan index
ganjil dari 100 (seratus) data hasil perekaman,
kemudian sisanya dengan index genap digunakan
Gambar 5 Proses Pembelajaran Daubenchies Orde 4 Level
untuk data test identifikasi. Hal ini dilakukan agar 10
Agustini, Biometrik Suara Dengan Transformasi Wavelet 55
Generalisasi yang dihasilkan terhadap data setelah disimulasikan. Hasil keseluruhan pengujian
testing sebesar 86% (43 pembicara dari 50 data identifikasi ditunjukkan dalam Tabel 2. Dari
pembicara dikenali). Hal ini terlihat pada Gambar keseluruhan hasil, terlihat bahwa laju pembelajaran
6, yang menunjukkan perbandingan antara target JST 0.3 memberikan tingkat generalisasi yang lebih baik
dengan output yang dihasilkan dari data testing dibandingkan dengan laju pembelajaran 0.01.
Dengan metode trial and error dalam menentukan
besarnya neuron tersembunyi, maka diperoleh hasil
terbaik pada banyaknya neuron tersembunyi 10 dan
waktu proses tersingkat yaitu 6,98 detik dengan
tingkat generalisasi tertinggi 86%.
Pada percobaan yang dilakukan terhadap
wavelet tipe Daub4 level 15, dengan laju pem-
belajaran 0.3 dan neuron tersembunyi 80 mem-
berikan tingkat pengenalan yang paling baik, namun
proses pembelajarannya berjalan sangat lambat dan
kinerja tujuannya (10-5) secara keseluruhan belum
Gambar 6 Hasil Simulasi Data Pengujian Pada Epoch ke-
555 tercapai. Generalisasi terbaik yang dicapai yaitu