ABSTRAK
Metode yang digunakan dalam penelitian ini adalah biometrik pengenalan identitas berdasarkan
karakteristik fisik. Pengenalan pola suara biometrik yang memiliki biaya rendah. Penelitian ini
merancang pola penggunaan suara biometrik. sinyal input suara dalam bentuk suara yang direkam
dengan durasi sekitar dua (2) detik pada sistem dan sinyal dekomposisi menggunakan transformasi
wavelet diskrit. sistem verifikasi menggunakan ekstraksi karakteristik Koefisien Sub Band
berdasarkan parameter cepstral (SBC) dengan menggunakanjumlah koefisien 12.
ABSTRACT
Method man with Biometric identity recognition, based on its physical characteristics. The introduction of a
biometric voice pattern that has a low cost. This study designed a biometric use voice patterns. Voice input signals
in the form of recorded sound with a duration of approximately two (2) seconds on the system and signal
decomposition using discrete wavelet transform. Verification system using characteristic extraction Sub Band
Coefficient Based cepstral parameters (sbc) by using the number of coefficients 12.
Dari penelitian terdahulu mengenai Konsep dasar pengolahan sinyal digital yang
pemrosesan sinyal suara, metode yang telah digunakan untuk penelitian ini terdiri atas
digunakan Linier Prediction, Coding (LPC), sampling, frame blocking, windowing, DFT, Power
Frequency Cepstrum Coefficient (MFCC), Spectral Substraction, Mel Filter Bank dan
Neural Predictive Coding NPC), yang Discrette Cosine Transform.
menggunakan transformasi fourier dan tingkat Sampling
identifikasinya mencapai 100%. Suara manusia akan menghasilkan sinyal analog
Kelemahan metode menggunakan transformasi yang terus kontinyu.Karena itu sinyak yang ada
fourier antara lain kurang mampu memberikan dipotong-potong dalam slot-slot interval waktu
informasi sinyal dalam waktu domain dan frekuensi tertentu. Deret diskrit sample x[n] diperoleh dari
secara bersamaan dan dalam mennganalisis sinyal sinyal kontinu x(t) dengan hubungan sebagai
suara tidak stationer. Oleh karena itu pada berikut,
penelitian ini dalam pemrosesan sinyal suara
tidak menggunakan transformasi fourier. x[n] = x(nT) .......................................(1)
Sebelumnya telah dilakukan penelitian
mengenai Sistem Identifikasi pembicara Di mana T adalah periode sampling dan 1/T =
menggunakan Transformasi Wavelet Diskrit Fs merupakan frekuensi sampling dalam satuan
berbasis orthogonal (symlet) dan Jaringan Saraf sampel/detik. Nilai N merupakan jumlah sampel.
Tiruan Multi Layer Perceptron sebagai Pengenal Berdasarkan pada teori sampling Nyquist, maka
Pola [1]. syarat dari frekuensi sampling adalah minimal dua
Dengan dasar penelitian tersebut dan studi kali frekuensi sinyal asli.
literatur di atas, pada penelitian ini akan dibuat
suatu sistem biometrika dan verifikasi Frame Blocking
menggunakan dua buah masukan (Multimodal) Frame Blocking merupakan pembagian suara
pengenalan pola suara dan pengenalan telinga. menjadi beberapa frame dan satu frame terdiri
Dari perancangan ini diharapkan adanya dari beberapa sampel.Proses ini diperlukan untuk
peningkatan performansi sistem untuk membentuk sinyal suara yang non stasioner
meningkatkan tingkat keamanan dan akurasi dari menjadi sinyal suara yang quasi-stasioner
proses verifikasi. Karena dari beberapa penelitian sehingga dapat dibah dari domain waktu ke dalam
yang telah ada, sistem biometrika yang domain frekuensi dengan Transformasi Fourier.
menggunakan satu masukan memiliki banyak
kelemahan dibandingkan dengan multimodal Windowing
biometrika. Sinyal suara yang dipotong-potong menjadi
beberapa frame akan menyebabkan efek
2. Metodologi diskontinuitas pada awal dan akhir sinyal. Hal ini
akan menyebabkan kesalahan data pada proses
2.1 Pengolahan Sinyal Digital Transformasi Fourier . Windowing diperlukan
untuk mengurangi efek diskontinuitas potongan merupakan representasi dari jumlah klas dari
sinyal tersebut. hasil penghitungan Eigenface yang didapatkan.
Transfomasi Wavelet Diskrit secara umum
merupakan dekomposisi citra pada frekuensi Untuk Hidden layer pertama digunakan
subband sinyal tersebut di mana komponennya 40,80, 150 node dan hidden layer kedua sebanyak
dihasilkan dengan cara penurunan level 25 node. Sedangkan untuk output layer yang
dekomposisi. Implementasi transformasi wavelet akan digunakan 8 node disesuaikan dengan
diskrit dapat dilakukan dengan cara melewatkan jumlah orang/identitas.
sinyal frekuensi tinggi atau highpass filter dan
sedangkan pada lapisan j berjumlah m, maka Semua data input yang telah diboboti dengan
pembobot Wij berbentuk m x n. Penulisan dari kekuatan sambungannya akan dijumlahkan
subskrip pada W selalu dimulai dari lapisan terlebih dahulu sebelum diolah menjadi sinyal
dengan hierarki yang lebih tinggi baru output dan hasil penjumlahan ini, biasanya dikenal
kemudian ke hierarki yang lebih rendah. Sehingga dengan NET.
model pembobot tadi ditulis Wij.
Fungsi aktifasi neuron F(x) adalah fungsi fungsi pengaktif, dianataranya fungsi
pengolahan dari input menjadi sinyal output. hiperbolik, fungsi impuls, fungsi step dan
Mengaktifkan jaringan saraf tiruan berarti fungsi sigmoid. Tetapi yang lazim digunakan
mengaktifkan neuron yang ada pada jaringan adalah fungsi sigmoid karena funsi ini mendekati
tersebut. Banyak fungsi yang dipakai sebagai kenerja sistem otak
.
Setelah menentukan parameter-parameter dengan kata lain keakuratan sistem untuk mengenali
untuk satu hidden layer, maka sekarang akan diuji pola training data set mencapai 87,5 % (Tabel 2).
respon sistem jika menggunakan hidden layer lebih
dari satu, dengan menggunakan nilai learning rate Kemudian dilakukan pengujian terhadap
dan momentum yang didapat dari pengujian di atas. sinyal suara secara langsung dari microphone oleh
Dari pengujian ini (gambar 5 dan Gambar 6) didapat orang yang sama dengan yang telah dilatihkan
bahwa sistem akan optimal jika memakai struktur (pembicara1 s/d pembicara 8) ataupun oleh orang
tiga hidden layer dengan konfigurasi 160, 100 dan yang belum pernah dilatihkan sebelumnya yaitu
30, dimana dengan struktur tersebut dicapai error pembicara 6 s/d 8 (blind data set). Dari proses
yang kecil dalam iterasi yang singkat. pengujian ini didapat error rata-rata sebesar 10 %
Jadi dari semua pengujian yang dilakukan didapat atau dengan kata lain keakuratan sistem untuk
struktur jaringan saraf tiruan yang optimal untuk pengenalan pola blind data set mencapai 90 %
sistem pengenalan suara ini ialah menggunakan 3 (Tabel 3). Di sini tampak bahwa untuk pengenalan
hidden layer dengan jumlah node 160, 100 dan 30 kata pada pembicara 1 s/d 5 terdapat error yang
serta nilai learning rate yang digunakan 0,5 dan rendah, sedangkan pada pembicara 6 s/d 8 tampak
momentum 0,75. error lebih tinggi, namun masih tetap bisa dikenali
dengan kesalahan sekitar 20 %.
30 node
Pembicara 3 0%
Input layer
32 node
Pembicara 4 10%
Hidden layer 3
30 node Pembicara 5 0%
Hidden layer 2
100 node
Pembicara 6 0%
Hidden layer 1
1. Keakuratan sistem pengenalan suara untuk [9] F. Itakura, 2006, Fundamentals of speech
pengenalan training data set mencapai 87,5 % analysis and syntheis and its application to speech
dan untuk pengenalan blind data set mencapai coding
90 %. [10] Gonzales RC, and Wood, RE, 2002, Digital
2. Kesalahan pengenalan yang terjadi diakibatkan Image Processing, Second Edition, New Jersey :
adanya perbedaan yang terlalu besar antara Prentice-Hall,
sinyal suara yang hendak dikenali dengan sinyal Inc.
suara yang dilatihkan, hal ini dapat diatasi [11] Jain, Anil K., Ross, Arun ., Pankanti, Sharath.,
dengan menambahkan/memperbanyak berbagai IEEE Transactions on Information Forensics and
variasi pola kata pada saat pelatihan dengan Security,
demikian sistem jaringan lebih diperkaya Volume 1, Issue 2, June 2006, pp. 125 - 143
pengetahuannya. [12] J. Fraden and M.R. Neumann, “QRS wave
3. Terbuka penelitian lanjutan untuk memperbesar detection”, Med. Biol. Eng.Comput., vol.18, pp.
jumlah perbendaharaan kata, dan penggunaan 125–132,
metode hibrid lainnya sehingga pengenalan kata 1980.
bersifat speaker independent. [13] Jain, A., Hong, L., Pankati, S. Biometric
Identification. Communications of the ACM,
February 2000/Vol.
43, No. 2, pp. 91-98.
Daftar Pustaka [14] Mihelic France, 2008. Speech Recognition
Technologies and Applications. I-Tech Education
[1] Agustini,Ketut, 2006.Biometrika Suara dengan and
Transformasi Wavelet Berbasis Orthogonal Publishing KG. Croatia
Daubenchies, [15] Mudry,AH, 1997,Speaker Identification using
Manajemen Informatika, Fakultas PTK Wavelet Transform, Tesis Master of Engineering,
Undiksha Singaraja Ontario :
[2] Arun A. Ross, Karthik Nandakumar dan Anil K. Ottawa-Carleton Institut of Electrical
Jain,2006, Handbook of Multibiometrics, Springer Engineering
Science+Business Media, New York [16] Proakis,JG dan Manolakis,DG, 1997.
[3] Bhatnagar,B.E.,Mukul, 2002. A Modified Penrosesan Sinyal Digital. Edisi Bahasa Indonesia
Spectral Subtraction Method Combined With jilid 1, Jakarta :
Perceptual Prenhallindo
Weighting For Speech Enhancement, Thesis, [17] Rabiner,L.R, Juang BH, 1993, Fundamentals of
Master of Science In Elevtrical Engineering, The Speech Recognition, New Jersey : Prentice Hall.
University ISBN 013
of Texas Dallas -015157-2
[4] Bromba GmbH, Bioidentification Frequently [18] Ratha, N.K., Senior, A., Bolle, R.M. Automated
Asked Questions. Updated 2003-09-12 [Retrieved Biometrics in Proceedings of International
October Conference on
28, 2003] From: Advances in Pattern Recognition, Rio de
http://www.bromba.com/faq/biofaqe.htm. Janeiro, Brazil, March 2001.
[5] Burge, M. and Burger, W. Ear Biometrics. In A. [19] Sarikaya Ruhi,1998,Wavelet Packet Transform
Jain R. Bolle and S. Pankanti, editors, With Application To Identification, Robust Speech
BIOMETRICS: Laboratory, Duke University, Durham
Personal Identification in a Networked Society, [20] Freeman, James.A. Neural Network
pp. 273-286. Kluwer Academic, 1998. Algorithms, Applications, and Programming
[6] Burrus,CS,Gopinath,RA and Guo,H.1998. Techniques, Addison-Wesley Publishing
Introduction to Wavelets and Wavelets Transforms Company, Inc., 1991.
A Primer. [21] Fausett, Laurene. Fundamentals Of Neural
International Edition. New Jersey : Prentice- Network. Englewood Cliffs, New Jersey :
Hall International, Inc. Prentice-Hall.Inc., 1994.
[7] Campbell,JPJR,1997, Speaker Recognition: A [22] Rabiner, L.R., Juang, B.H. Fundamentals Of
Tutorial. Proc IEEE, Vol.85, no.9 pp 1437-1462 Speech Recognition. Englewood Cliffs, New
[8] Centigul H.E, 2005, Multimodal Speaker/Speech Jersey : Prentice-Hall.Inc., 1993.
Recognition Using Lip Motion, Lip Texture And [23] Oppenheim, Alan.V. Discrete-Time Signal
Audio Processing. Englewood Cliffs, New Jersey :
Turkey : College of Engineering, Koc- Prentice-Hall.Inc., 1989.
University, Sariyer, Instanbul 34450
[24] Orfanidis, Sophocles.J. Optimum Signal Pengenalan Suara Manusia Dengan Algoritma
Processing. Singapore : McGraw-Hill Book DTW (Dynamic Time Warping). Surabaya :
Co., 1990. Universitas Kristen Petra, 1996.
[25] Eberhart, Russell.C. Neural Network PC Tools.
San Diego, California : Academic Press. Inc.,
1990.
[26] Todd, Bill., Kellen, Vince. Delphi A
Developer’s Guide. New York : M&T Books,
1995.
[27] David, Frederikus. B.S. Penggunaan Prosesor
Sinyal Digital Keluarga TMS320 Sebagai Alat