Voice Recognition PDF
Voice Recognition PDF
VOICE RECOGNITION
disusun oleh:
Amin Mutohar 10204037
VOICE RECOGNITION
Joseph P. Campbell, JR., Senior Member IEEE
Berdasrkan tulisan pada Proceedings of IEEE, Vol. 85, No. 9, September 1997
Voice recognition (speaker recognition) adalah suatu proses untuk mengenali seseorang dengan
mengenali suara dari orang tersebut. Automatic speaker recognition adalah penggunaan sebuah
mesin untuk mengenali seseorang dari sebuah frasa yang diucapkan. Sistem ini dapat berfungsi
dalam dua buah mode yaitu mengenali seseorang yang khusus atau membuktikan identitas yang
diklaim oleh seseorang. Dalam tulisan ini akan dibahas mengenai pengolahan tulisan (speech
processing) dan komponen dasar dari sistem automatic speaker recognition.
Kata Kunci: authentication, decision, feature extraction, pattern matching, pengenalan
seseorang, speaker recognition, speech processing, dan verification.
I. PENDAHULUAN
Speech processing mempunyai area luas dalam aplikasinya. Gambar 1 menunjukkan
bagian dari area tersebut dan bagaimana speaker recognition menjadi bagian dari area
tersebut.
yang berupa proses penentuan jika seseorang speaker adalah orang yang spesifik atau
bagian dari sebuah yang terdiri dari beberapa orang. Dalam speaker verification,
seseorang membuat sebuah klaim identitas (misalnya dengan memasukkan sebuah nomor
karyawan atau smart card yang dimilikinya). Dalam text-dependent recognition, frasa
diketahui oleh sistem dan dapat berupa frasa yang tetap atau dapat berubah. Orang yang
mengklaim (claimant) mengucapkan suatu frasa ke dalam microphone. Sinyal ini
dianalisis oleh sebuah sistem verifikasi yang membuat keputusan biner untuk menerima
atau menolak klaim identitas user atau mungkin untuk melaporkan kepercayaan yang
tidak cukup dan meminta input tambahan sebelum membuat keputusan.
Sebuah konfigurasi ASV terlihat pada Gambar 2. Claimant, yang sebelumnya direkam
oleh sistem, memasukkan smart card yang mengandung informasi identitasnya. Dia
kemudian berusaha untuk dikenali dengan mengucapkan sebuah frasa ke dalam
microphone. Hal ini secara umum mencocokkan antara akurasi dan waktu pelaksanaan
tes (test-session duration) sebagai tambahan dari suaranya, ambient room noise dan suara
yan gtertunda masuk ke microphone melalui permukaan reflektif akustik (reflective
acoustic surface). Hal utama untuk sebuah sesi verifikasi, user harus merekam dalam
sistem (di bawah kondisi yang diperhatikan). Selama proses perekaman, model suara
dihasilkandan disimpan (mungkin dalam sebuah smart card) untuk digunakan dalam sesi
verifikasi berikutnya. Dalam hal ini juga mencocokkan antara akurasi dan durasi serta
jumlah dari sesi perekaman.
Faktor-faktor ini secara umum di luar area algoritma atau koreksi yang lebih baik dengan
pengertian lain dari algoritma (misalnya microphone yang lebih baik). Faktor-faktor ini
penting, bagaimanapun, karena tidak ada materi sebaik sebuah algoritma dari speaker
recognition, human error (misalnya misspeaking atau misreading) pada akhirnya
membatasi performanya.
A. Motivasi
ASV dan ASI mungkin metoda yang paling alami dan ekonmis untuk menyelesaikan
problem dari penggunaan yang unauthorized dari komputer dan sistem komunikasi serta
multilevel access control. Dengan jaringan telephone yang tersebar di mana-mana dan
microphone terikat dengan komputer, biaya dari sebah sistem speaker recognition
mungkin hanya untuk software.
Sistem biometrik secara otomatis mengenali seseorang dengan menggunakan ciri
pembawaan yang berbeda (distinguishing trait) (definisi sempit). Speaker recognition
adalah biometrik yang ditunjukkan misalnya kamu menunjukkan sebuah perintah untuk
dikenali suara kamu, seperti biometrik lainnya, tidak bisa terlupakan atau hilang, tidak
seperti metode access control yang berupa knowledge-based (misalnya password) atau
possession-based (misalnya kunci). Sistem speaker recognition dapat dibuat melawan
noise dan channel variation, ordinary human change (misalnya time-of-day voice change
dan flu), peniruan oleh manusia atau tape recorder.
B. Perumusan masalah
Suara adalah sebuah sinyal yang rumit sebagai sebuah hail dari beberapa transformasi
yang terjadi pada beberapa level yang berbeda dari semantik, linguistik, artikulasi
(pengucapan) dan akustik. Perbedaan dalam transformasi ini tampak sebagai perbedaan
dalam sifat akustik dari sinyal suara. Perbedaan yang berhubungan dengan speaker adalah
sebuah hasil dari kombinasi dari perbedaan anatomik yang melekat dalam vocal tract dan
kebiasaan pengucapan yang dipelajari dari individu yang bebrbeda. Pada speaker
recognition, semua perbedaan ini dapat digunaan untuk membedakan beberapa speaker.
C. Speaker verification yang umum.
Pendekatan umum untuk ASV terdiri dari 5 tahap:
o Digital speech data acquisition
o Feature extraction
o Pattern matching
o pembuatan keputusan: diterima atau ditolak
o perekaman untuk mendapatkan model speaker referensi.
Diagram blok dari prosedur ini terlihat pada Gambar 3. Feature extraction memetakan
setiap interval suara menjadi sebuah ruang ciri multidimensional (multidimensional
feature space), sebuah interval suara biasanya mempunyai span (full scale input) 10-30
ms dari bentuk gelombang suara dan dirujuk sebagai sebuah frame suara. Deret feature
vector xi kemudian dibandingkan dengan dengan speaker model oleh pattern matching.
Hasilnya berupa berupa sebuah match score untuk setiap vektor atau deret vektor. Match
score mengukru kesamaan dari input feature vector yang terkomputerisasi dengan model
speaker yang mengklaim atau pola vector pattern dari speaker yang mengklaim. Terakhir,
keputusan dibuat untuk menerima atau menolak claimant berdasarkan pada match score
atau deret match score, yang adalah sebuah masalah pengujian hipotesis (hypothesistesting problem).
x==
1 N
xi
N i =1
Beberapa pengukuran perbedaan yang berbeda antara vektor xi dan x dapat digambarkan
sebagai
d ( xi , x) = ( xi x) T W ( xi x )
dimana W adalah weighting matrix. Jika W adalah sebuah matriks identitas,
perbedaannya adalah Euclidean. Jika W adalah inverse covariance matrix terhadap x ,
kemudian hal ini adalah Mahalanobis distance seperti terlihat pada persamaan berikut
d = ( x ) T C 1 ( x )
dengan C adalah n-by-n covariance matrix dan adalah sebuah vector rata-rata dengan
komponen kolom dimensi n. Mahalanobis distance mengurangi weight dari komponen
yang mempunyai variansi lebih dan ekivalen terhadap sebuah Euclidean distance pada
komponen dasar, yang vektor eigen dari ruang asal ditentukan dari covariance matrix.
1. DTW
Metoda yang paling populer dari kompensasi untuk tingkat variasi speaking-rate pada
sistem template-based diketahui sebagai DTW. Sebuah model text-dependent template
adalah sebuah deret template (x1,, xN) dibandingkan dengan sebuah deret input (x1,,
xM). Pada umumnya, N tidak sama dengan M karena tidak konsistennya waktu dalam
suara manusia. Match score x yang asimetris diberikan oleh
M
= d ( xi , x j ( i ) )
i =1
dimana indeks template j(i) secara khusus diberikan oleh algoritma DTW. Referensi yang
diberikan dan sinyal input, algoritma DTW melakukan sebuah batasan, piece-wise linear
mapping dari sebuah (atau kedua) aksis untuk menata dua buah sinyal ketika
meminimalkan x. Pada akhir lengkungan waktu (time warping), perbedaan yang
diakumulasikan adalah basis dari match score. Metoda ini menghitung variasi melalui
waktu (trajektori) dari korespondensi parameter ke konfigurasi dinamis dari artikulasi dan
vocal tract. Gambar 4 memeprlihatkan bagaimana sebuah warp path seperti ketika
energi dari 2 buah sinyal suara digunakan sebagai sebuah warp feature.
Seperti terlihat pada Gambar 5, interframe distance matrix dihitung dengan mengukur
perbedaan antara frame sesi test (input) dan frame sesi perekaman dari claimant (yang
disimpan). Perbedaan NN adalah perbedaan minimum antara frame sesi test dan
perekaman. Perbedaan NN untuk semua frame sesi test kemudian dirata-ratakan untuk
membentuk match score. Dengan cara yang sama, seperti terlihat pada bidang belakang,
frame sesi test juga diukur melawan sebuah set speaker berkelompok referensi yang
disimpan untuk membentuk match score.Match score kemudian disusun membentuk
sebuah aproksimasi perbandingan kemungkinan.
Metoda NN adalah salah satu dari algoritma speaker verification yang paling intensif
dalam memori dan perhitungan. Metoda juga merupakan metoda yang paling powerful.
B. Stochastic model
Model template didominasi kerja awal dalam text-dependent speaker recognition.
Pendekatan deterministik adalah alasan yang intuitif, tetapi model stochastic baru-baru
ini telah dikembangkan yang dapat menawarkan fleksibilitas yang lebih dan hasil dalam
score kemungkinan probabilistik yang lebih berarti secara teori.
Menggunakan sebuah model stochastic, problem pattern matching dapat diformulasikan
sebagai kemungkinan dari sebuah observasi (sebuah feature vector dari sebuah koleksi
dari vektor dari speaker yang tidak diketahui) diberikan model speaker. Observasi adalah
sebuah random vector dengan pdf (probability density functions) kondisional yang
tergantung pada speaker. Pdf kondisional untuk speaker yang diklai dapat diestimasikan
dari sebuah set training vector, dan, diberikan kerapatan estimasi, probabilitas yang
observasinya dihasilkan oleh speaker yang diklaim dapat ditentukan.
Pdf yang diestimasi dapat berupa sebuah model parametrik atau non parametrik. Dari
model ini, untuk setiap frame suara (atau nilai rata-rata dari sebuah deret frame),
probabilitas yang dihasilkan oleh speaker yang dikalaim dapat diestimasikan. Probabilitas
adalah match score. Jika model parametrik, kemudian sebuah pdf yang spesifik
diasumsikan dan parameter yang tepat dari kerapatan dapat diestimasi menggunakan
estimasi kemungkinan yang paling besar.
Model stochastic yang paling populer untuk deret pemodelan adalah HMM. Pada model
Markov tradisional, setiap keadaan mencocokkan sebuah kejadiah deterministik
observabel. Jadi, output dari beberapa keadaan pada setiap sumber yang diberikan tidak
acak dan kekurangan fleksibilitas dibutuhkan di sini. Pada sebuah HMM, observasi
adalah fungsi probabilistik dari keadaan seperti model adalah sebuah proses stochastik
yang ditanam secara dobel dimana proses stochastic yang pokok secara tidak langsung
observabel (berarti hidden). HMM hanya dapat dilihat melalui set lain dari proses
stochastic yang menghasilkan deret observasi. HMM adalah sebuah mesin keadaan yang
terbatas dimana sebuah pdf (atau model stochastic dari feature vector) p(x|si)
diasosiasikan untuk setiap keadaan si (model dasar yang utama). Keadaan dihubungkan
oleh sebuah jaringan transisi, dimana probabilitas keadaan transisi adalah aij = p (si|sj).
Sebagai contoh, HMM 3 keadaan hipotesis digambarkan oleh Gambar 6.
Probabilitas yang sebuah deret frame suara digeneralisasikan oleh model ini dibuat
dengan menggunakan Baum-Welch decoding. Kemungkinan adalah score dari frame L
dari input suara yang diberikan model.
p = ( x(1; L) | mod el ) =
p( x
semuaderetkeadaan i =1
| s i ) p ( s i | s i 1 )
Hal ini score yang berarti berdasarkan teori. Metoda berdasarkan HMM telah ditunjukkan
untuk dibandingkan performanya dengan metoda VQ konvensional pada textindependent testing dan baru-baru ini lebih outperform metoda konvensional pada textdependent testing.
V. KLASIFIKASI DAN DECISION THEORY
Setelah menghitung match score antara input speech-feature vector dan sebuah model
suara dari speaker yang diklaim, keputusan verifikasi dibuat untuk menerima atau
menolak speaker atau meminta ungkapan lain (atau, tanpa sebuah identitas yang diklaim,
sebuah keputusan identifikasi dibuat). Proses keputusan menerima atau menolak dapat
berupa sebuah masalah penerimaan, kelanjutan, time-out, atau penolakan terhadap suatu
pengujian hipotesis. Dalam masalah ini, pembuatan keputusan, atau klasisfikasi,
prosedurnya adalah masalah pengujian hipotesis.
A. Pengujian hipostesis
Diberikan sebuah match score, masalah klasifikasi pilihan biner ASV termasuk pemilihan
antara 2 buah hipotesis: yang user adalah speaker yang diklaim atau tidak diklaim
(seorang penipu). Mari H0 menjadi hipotesis bagi seorang penipu dan H1 adalah yang
user, yang sungguh-sungguh, speaker yang diklaim. Seperti terlihat pada Gambar 7,
match score observasi dari dua pdf yang berbeda berdasarkan speaker yang diklaim atau
penipu.
Gambar 7. Bentuk match score dari data yang valid (speaker yang diklaim) dan impostor
(penipu).
Nama dari area probabilitas pada Gambar 7 diberikan pada Tabel 1. Untuk mencari
sebuah area performa probabilitas yang diberikan, hipotesis menerangkan melalui pdf
untuk menggabungkan, dan threshold menerangkan area keputusan membentuk batas
integrasi.
Performa Keputusan
probabilitas
D
Hipotesis
H
Nama
probabilitas
Ukuran test
signifikan
Q0
Q1
Qd = 1 - Q1
1 Q0
Hasil Keputusan
Type I error
Type II error
Power of
test
0
Tabel 1. Definisi dan keadaan probabilitas.
False
acceptance atau
alarm
False rejection
True acceptance
True rejection
Gambar 8 menunjukkan sebuah contoh dari dua pdf score. Probabilitas kesalahan, yang
diminimalkan oleh peraturan keputusan Bayes, digambarkan oleh jumlah yang saling
melengkapi (overlap) pada dua pdf. Bagian yang saling melengkapi yanglebih kecil
antara 2 buah pdf, kesalahan probabilitas yang lebih kecil. Bagian yang saling
melengkapi antara dua pdf yang Gaussian dengan nilai rata-rata 0 dan 1 dan variansi
yang sama dapat diukur oleh perbandingan F
( 0 1 ) 2
F=
2