Voice Recognition PDF

Tugas Mata Kuliah FI-4121: Pengolahan Data Digital
VOICE RECOGNITION
disusun oleh:
Amin Mutohar 10204037
PROGRAM STUDI FISIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
INSTITUT TEKNOLOGI BANDUNG
2007
VOICE RECOGNITION
Joseph P. Campbell, JR., Senior Member IEEE
Berdasrkan tulisan pada Proceedings of IEEE, Vol. 85, No. 9, September 1997
Voice recognition (speaker recognition) adalah suatu proses untuk mengenali seseorang dengan
mengenali suara dari orang tersebut. Automatic speaker recognition adalah penggunaan sebuah
mesin untuk mengenali seseorang dari sebuah frasa yang diucapkan. Sistem ini dapat berfungsi
dalam dua buah mode yaitu mengenali seseorang yang khusus atau membuktikan identitas yang
diklaim oleh seseorang. Dalam tulisan ini akan dibahas mengenai pengolahan tulisan (speech
processing) dan komponen dasar dari sistem automatic speaker recognition.
Kata Kunci: authentication, decision, feature extraction, pattern matching, pengenalan
seseorang, speaker recognition, speech processing, dan verification.
I. PENDAHULUAN
Speech processing mempunyai area luas dalam aplikasinya. Gambar 1 menunjukkan
bagian dari area tersebut dan bagaimana speaker recognition menjadi bagian dari area
tersebut.
Gambar 1. Area aplikasi dari speech processing.

Speaker recognition terbagi menjadi verification dan identification. Automatic speaker
verivication (ASV) adalah penggunaan dari sebuah mesin untuk membuktikan identitas
yang diklaimoleh seseorang dari suaranya. Bebebrapa literatur menggunakan istilah yang
berbeda untuk speaker verification termasuk voice verification, speaker authentication,
voice authentication, talker authentication dan talker verification. Dalam automatic
speaker identification (ASI), tidak ada pembuktian identitas yang diklaim dari sistem
menentukan siapakah orang, anggota dari kelompok manakah orang tersebut, atau dalam
kasus ini orang tersebut tidak diketahui.
Speaker verification didefinisikan sebagai proses penentuan jika seorang speaker adalah
orang yang mengklaim dirinya. Hal ini berbeda dengan masalah speaker identification,
yang berupa proses penentuan jika seseorang speaker adalah orang yang spesifik atau
bagian dari sebuah yang terdiri dari beberapa orang. Dalam speaker verification,
seseorang membuat sebuah klaim identitas (misalnya dengan memasukkan sebuah nomor
karyawan atau smart card yang dimilikinya). Dalam text-dependent recognition, frasa
diketahui oleh sistem dan dapat berupa frasa yang tetap atau dapat berubah. Orang yang
mengklaim (claimant) mengucapkan suatu frasa ke dalam microphone. Sinyal ini
dianalisis oleh sebuah sistem verifikasi yang membuat keputusan biner untuk menerima
atau menolak klaim identitas user atau mungkin untuk melaporkan kepercayaan yang
tidak cukup dan meminta input tambahan sebelum membuat keputusan.
Sebuah konfigurasi ASV terlihat pada Gambar 2. Claimant, yang sebelumnya direkam
oleh sistem, memasukkan smart card yang mengandung informasi identitasnya. Dia
kemudian berusaha untuk dikenali dengan mengucapkan sebuah frasa ke dalam
microphone. Hal ini secara umum mencocokkan antara akurasi dan waktu pelaksanaan
tes (test-session duration) sebagai tambahan dari suaranya, ambient room noise dan suara
yan gtertunda masuk ke microphone melalui permukaan reflektif akustik (reflective
acoustic surface). Hal utama untuk sebuah sesi verifikasi, user harus merekam dalam
sistem (di bawah kondisi yang diperhatikan). Selama proses perekaman, model suara
dihasilkandan disimpan (mungkin dalam sebuah smart card) untuk digunakan dalam sesi
verifikasi berikutnya. Dalam hal ini juga mencocokkan antara akurasi dan durasi serta
jumlah dari sesi perekaman.
Gambar 2. Sebuah konfigurasi ASV.

Beberapa faktor dapat menyebabkan kesalahan dalam proses verifikasi dan identifikasi
antara lain:
o Kesalahan dalam pengucapan (misspoken) dan pembacaan (misread) frasa
o Keadaan emosional yang ekstrim (misalnya stress)
o Pergantian penempatan microphone (intrasession atau intersession)
o Kekurangan atau ketidak-konsistenan akustik dari ruangan (misalnya multipath dan
noise)
o channel mismatch (misalnya penggunaan microphone yang berbeda dalam perekaman
dan verifikasi)
o Sakit (misalnya flu yang dapat merubah vocal tract)
o Aging (model vocal tract dapat berubah berdasarkan usia).
Faktor-faktor ini secara umum di luar area algoritma atau koreksi yang lebih baik dengan
pengertian lain dari algoritma (misalnya microphone yang lebih baik). Faktor-faktor ini
penting, bagaimanapun, karena tidak ada materi sebaik sebuah algoritma dari speaker
recognition, human error (misalnya misspeaking atau misreading) pada akhirnya
membatasi performanya.
A. Motivasi
ASV dan ASI mungkin metoda yang paling alami dan ekonmis untuk menyelesaikan
problem dari penggunaan yang unauthorized dari komputer dan sistem komunikasi serta
multilevel access control. Dengan jaringan telephone yang tersebar di mana-mana dan
microphone terikat dengan komputer, biaya dari sebah sistem speaker recognition
mungkin hanya untuk software.
Sistem biometrik secara otomatis mengenali seseorang dengan menggunakan ciri
pembawaan yang berbeda (distinguishing trait) (definisi sempit). Speaker recognition
adalah biometrik yang ditunjukkan misalnya kamu menunjukkan sebuah perintah untuk
dikenali suara kamu, seperti biometrik lainnya, tidak bisa terlupakan atau hilang, tidak
seperti metode access control yang berupa knowledge-based (misalnya password) atau
possession-based (misalnya kunci). Sistem speaker recognition dapat dibuat melawan
noise dan channel variation, ordinary human change (misalnya time-of-day voice change
dan flu), peniruan oleh manusia atau tape recorder.
B. Perumusan masalah
Suara adalah sebuah sinyal yang rumit sebagai sebuah hail dari beberapa transformasi
yang terjadi pada beberapa level yang berbeda dari semantik, linguistik, artikulasi
(pengucapan) dan akustik. Perbedaan dalam transformasi ini tampak sebagai perbedaan
dalam sifat akustik dari sinyal suara. Perbedaan yang berhubungan dengan speaker adalah
sebuah hasil dari kombinasi dari perbedaan anatomik yang melekat dalam vocal tract dan
kebiasaan pengucapan yang dipelajari dari individu yang bebrbeda. Pada speaker
recognition, semua perbedaan ini dapat digunaan untuk membedakan beberapa speaker.
C. Speaker verification yang umum.
Pendekatan umum untuk ASV terdiri dari 5 tahap:
o Digital speech data acquisition
o Feature extraction
o Pattern matching
o pembuatan keputusan: diterima atau ditolak
o perekaman untuk mendapatkan model speaker referensi.
Diagram blok dari prosedur ini terlihat pada Gambar 3. Feature extraction memetakan
setiap interval suara menjadi sebuah ruang ciri multidimensional (multidimensional
feature space), sebuah interval suara biasanya mempunyai span (full scale input) 10-30
ms dari bentuk gelombang suara dan dirujuk sebagai sebuah frame suara. Deret feature
vector xi kemudian dibandingkan dengan dengan speaker model oleh pattern matching.
Hasilnya berupa berupa sebuah match score untuk setiap vektor atau deret vektor. Match
score mengukru kesamaan dari input feature vector yang terkomputerisasi dengan model
speaker yang mengklaim atau pola vector pattern dari speaker yang mengklaim. Terakhir,
keputusan dibuat untuk menerima atau menolak claimant berdasarkan pada match score
atau deret match score, yang adalah sebuah masalah pengujian hipotesis (hypothesistesting problem).
Gambar 3. Sistem speaker verification yang umum.

Untuk speaker recognition, feature yang menunjukkan kekuatan perbedaan speaker yang
tinggi, variasi interspeaker yang tinggi dan variasi interspeaker yang rendah dibutuhkan.
Bebebrapa bentuk dari pattern matching dan penyesuaian adalah mungkin. Metode
pattern matching meliputi dynamic time warping (DTW), the hidden markov model
(HMM), artificial neural network dan vector quantization (VQ). Template model
digunakan pada DTW, statistical model digunakan pada HMM dan codebook model
digunakan pada VQ.
II. SPEECH PROCESSING
Speech processing mengekstrak informasi yang diinginkan dari sebuah sinyal suara.
Untuk memproses sebuah sinyal dengan sebuah komputer digital, sinyal harus dihadirkan
dalam bentuk digital sehingga sinyal tersebut dapat digunakan oleh sebuah komputer
digital.
Awalnya, gelombang suara akustik diubah ke sebuah sinyal digital sesuai untuk voice
processing. Sebuah microphone atau telephone handset dapat digunakan untuk merubah
gelombang akustik ke dalam sebuah sinyal analog. Sinyal analog ini dikondisikan dengan
antialiasing filtering (dan mungkin filter tambahan untuk mengimbangi untuk setiap
perusakan channel). Antialiasing filter membatasi bandwidth sinyal menjadi kira-kira
Nyquist rate (setengah sampling rate) sebelum sampling. Sinyal analog terkondisikan
kemudian diubah ke dalam bentuk sebuah sinyal digital oleh sebuah analog-to-digital
(A/D) converter. Dalam aplikasi local speaker verification, channel analog secara
sederhana berupa microphone, kabelnya, dan analog signal conditioning. Kemudian, hasil
sinyal digital dapat mempunyai kualitas yang sangat tinggi, tidak cukupnya distorsi
dihasilkan oleh transmisi sinyal analog melalui jaringan telephone jarak jauh.
III. FEATURE SELECTION AND MEASURES

Untuk menggunakan mathematical tool tanpa kehilangan keumumannya, speech signal
dapat dihasilkan oleh sebuah deret feature vector. Dalam sesi ini, pemilihan feature yang
tepat dibahas, melalui metoda untuk menaksir (ekstrak atau mengukur) feature tersebut.
Hal ini diketahui sebagai feature selection dan feature extraction.
IV. PATTERN MATCHING
Tugas dari pattern matching dari speaker verification meliputi perhitungan sebuah match
score, yang menyatakan sebuah pengukuran dari kesamaan dari input feature vector
terhadap beberapa model. Model speaker dibangun dari feature yang diekstrak dari sinyal
suara. Untuk merekam user ke dalam sistem, sebuah model suara, tergantung pada
feature yang diekstrak, dihasilkan dan disimpan (mungkin dalam sebuah smartcard yang
berkode). Kemudian, untuk mengenali seorang user, matching algoritm membandingkan
score sinyal suara yang baru masuk dengan model yang diklaim seseorang.
Ada dua tipe model yaitu stochastic model dan template model. Pada stochastic model,
pattern matching adalah probalistik dan hasil dalam sebuah pengukuran dari
kemungkinan (likelihood), atau probalitas keadaan, dari observasi diberikan model.Untuk
template model, pattern matching adalah deterministik. Observasi diasumsikan menjadi
sebuah replika yang tidak sempurna dari template, dan alignment dari frame yang
diobservasi terhadap frame template dipilih untuk meminimalkan sebuah pengukuran
perbedaan (distance) d. Kemungkinan L dapat diaproksimasi dalam model templatebased oleh eksponensial match score yang diungkapkan
L = exp (-ad)
dimana a adalah sebuah konstanta positif (secara ekuivalen, score diasumsikan
proporsional terhadap log kemungkinan). Perbandingan kemungkinan dapat digunakan
menggunakan model speaker global atau kelompok (cohost) untuk normalisasi L.
Template model dan korespondensi pengukuran perbedaannya mungkin adalah model
yang paling intuitif. Metoda template dapat tergantung (dependent) atau tidak tergantung
(independent) terhadap waktu. Sebuah contoh dari semuah time-independent template
model adalah VQ modeling. Semua variasi temporal diacuhkan pada model ini, dan
global average (misalnya centroid) dari semua itu digunakan. Sebuah model timedependent lebih rumit karena hal ini memperhatikan variasi pada human speaking rate.
A. Template model
Template model yang paling sederhana terdiri dari sebuah template tunggal x, sebuah
model dari sebuah frame suara. Match score antara template x untuk speaker yang
diklaim dan sebuah input feature vector xi dari user yang tidak diketahui diberikan oleh
d(xi, x ). Model untuk speaker yang diklaim dapat berupa centroid (rata-rata) dari sebuah
set N training vector.
x==
1 N
xi
N i =1
Beberapa pengukuran perbedaan yang berbeda antara vektor xi dan x dapat digambarkan
sebagai
d ( xi , x) = ( xi x) T W ( xi x )
dimana W adalah weighting matrix. Jika W adalah sebuah matriks identitas,
perbedaannya adalah Euclidean. Jika W adalah inverse covariance matrix terhadap x ,
kemudian hal ini adalah Mahalanobis distance seperti terlihat pada persamaan berikut
d = ( x ) T C 1 ( x )
dengan C adalah n-by-n covariance matrix dan adalah sebuah vector rata-rata dengan
komponen kolom dimensi n. Mahalanobis distance mengurangi weight dari komponen
yang mempunyai variansi lebih dan ekivalen terhadap sebuah Euclidean distance pada
komponen dasar, yang vektor eigen dari ruang asal ditentukan dari covariance matrix.
1. DTW
Metoda yang paling populer dari kompensasi untuk tingkat variasi speaking-rate pada
sistem template-based diketahui sebagai DTW. Sebuah model text-dependent template
adalah sebuah deret template (x1,, xN) dibandingkan dengan sebuah deret input (x1,,
xM). Pada umumnya, N tidak sama dengan M karena tidak konsistennya waktu dalam
suara manusia. Match score x yang asimetris diberikan oleh
M
= d ( xi , x j ( i ) )
i =1
dimana indeks template j(i) secara khusus diberikan oleh algoritma DTW. Referensi yang
diberikan dan sinyal input, algoritma DTW melakukan sebuah batasan, piece-wise linear
mapping dari sebuah (atau kedua) aksis untuk menata dua buah sinyal ketika
meminimalkan x. Pada akhir lengkungan waktu (time warping), perbedaan yang
diakumulasikan adalah basis dari match score. Metoda ini menghitung variasi melalui
waktu (trajektori) dari korespondensi parameter ke konfigurasi dinamis dari artikulasi dan
vocal tract. Gambar 4 memeprlihatkan bagaimana sebuah warp path seperti ketika
energi dari 2 buah sinyal suara digunakan sebagai sebuah warp feature.
Gambar 4. DTW dari dua buah sinyal energi

Jika warp signal identik, warp path menjadi garis diagonal dan kelengkungan menjadi
tidak berpengaruh. Euclidean distance antara dua sinyal dalam domain energi
diakumulasikan deviasi warp path diagonal yang patah-patah. Parallelogram melingkupi
warp path yang merepresentasikan tekanan kemiringan Sakoe dari kelengkungan, yang
bertindak sebagai syarat batas untuk mencegah berlebihannya kelengkungan melampaui
daerah yang diberikan.
2. VQ source modeling
Bentuk lain dari template model menggunakan template yang berkelipatan untuk
merepresentasikan frame suara dan dirujuk ke VQ source modeling. sebuah VQ
codebook didesain oleh prosedur standard yang dikelompokkan untuk setiap speaker
yang direkam menggunakan data training-nya, biasanya berdasarkan pada pembacan
sebuah teks yang spesifik. Pattern match score adalah perbedaan antara sebuah input dan
kata kode yang perbedaannya minimum dalam VQ codebook C. Match score untuk L
frame suara adalah
L min
z=
d ( x j , x)
j =1 x C
Prosedur yang dikelompokkan untuk membentuk nilai rata-rata codebook diluar
informasi temporal dari kata kode. jadi, dalam hal ini tidak dibutuhkan pembentukkan
sebuah time alignment. Kekurangan dala time warping secara garis besar
menyederhanakan sistem.Bagaimanapun, hal ini mengabaikan informasi temporal yang
tergantung pada speaker yang dapat dihadirkan dalam frasa yang benar.
3. Nearest neighbors (NN)

Metoda baru yang menggabungkan kekuatan metoda DTW dan VQ disebut dengan NN.
Tidak seperti VQ, NN tidak mengelompokkan data training yang direkam membentuk
codebook yang kompak. Malahan, metoda ini menjaga semua data training dan oleh
karena itu dapat menggunakan informasi temporal.
Seperti terlihat pada Gambar 5, interframe distance matrix dihitung dengan mengukur
perbedaan antara frame sesi test (input) dan frame sesi perekaman dari claimant (yang
disimpan). Perbedaan NN adalah perbedaan minimum antara frame sesi test dan
perekaman. Perbedaan NN untuk semua frame sesi test kemudian dirata-ratakan untuk
membentuk match score. Dengan cara yang sama, seperti terlihat pada bidang belakang,
frame sesi test juga diukur melawan sebuah set speaker berkelompok referensi yang
disimpan untuk membentuk match score.Match score kemudian disusun membentuk
sebuah aproksimasi perbandingan kemungkinan.
Gambar 5. Metoda nearest neighbors
Metoda NN adalah salah satu dari algoritma speaker verification yang paling intensif
dalam memori dan perhitungan. Metoda juga merupakan metoda yang paling powerful.
B. Stochastic model
Model template didominasi kerja awal dalam text-dependent speaker recognition.
Pendekatan deterministik adalah alasan yang intuitif, tetapi model stochastic baru-baru
ini telah dikembangkan yang dapat menawarkan fleksibilitas yang lebih dan hasil dalam
score kemungkinan probabilistik yang lebih berarti secara teori.
Menggunakan sebuah model stochastic, problem pattern matching dapat diformulasikan
sebagai kemungkinan dari sebuah observasi (sebuah feature vector dari sebuah koleksi
dari vektor dari speaker yang tidak diketahui) diberikan model speaker. Observasi adalah
sebuah random vector dengan pdf (probability density functions) kondisional yang
tergantung pada speaker. Pdf kondisional untuk speaker yang diklai dapat diestimasikan
dari sebuah set training vector, dan, diberikan kerapatan estimasi, probabilitas yang
observasinya dihasilkan oleh speaker yang diklaim dapat ditentukan.
Pdf yang diestimasi dapat berupa sebuah model parametrik atau non parametrik. Dari
model ini, untuk setiap frame suara (atau nilai rata-rata dari sebuah deret frame),
probabilitas yang dihasilkan oleh speaker yang dikalaim dapat diestimasikan. Probabilitas
adalah match score. Jika model parametrik, kemudian sebuah pdf yang spesifik
diasumsikan dan parameter yang tepat dari kerapatan dapat diestimasi menggunakan
estimasi kemungkinan yang paling besar.
Model stochastic yang paling populer untuk deret pemodelan adalah HMM. Pada model
Markov tradisional, setiap keadaan mencocokkan sebuah kejadiah deterministik
observabel. Jadi, output dari beberapa keadaan pada setiap sumber yang diberikan tidak
acak dan kekurangan fleksibilitas dibutuhkan di sini. Pada sebuah HMM, observasi
adalah fungsi probabilistik dari keadaan seperti model adalah sebuah proses stochastik
yang ditanam secara dobel dimana proses stochastic yang pokok secara tidak langsung
observabel (berarti hidden). HMM hanya dapat dilihat melalui set lain dari proses
stochastic yang menghasilkan deret observasi. HMM adalah sebuah mesin keadaan yang
terbatas dimana sebuah pdf (atau model stochastic dari feature vector) p(x|si)
diasosiasikan untuk setiap keadaan si (model dasar yang utama). Keadaan dihubungkan
oleh sebuah jaringan transisi, dimana probabilitas keadaan transisi adalah aij = p (si|sj).
Sebagai contoh, HMM 3 keadaan hipotesis digambarkan oleh Gambar 6.
Gambar 6. Sebuah contoh dari 3 keadaan HMM.
Probabilitas yang sebuah deret frame suara digeneralisasikan oleh model ini dibuat
dengan menggunakan Baum-Welch decoding. Kemungkinan adalah score dari frame L
dari input suara yang diberikan model.
p = ( x(1; L) | mod el ) =
p( x
semuaderetkeadaan i =1
| s i ) p ( s i | s i 1 )
Hal ini score yang berarti berdasarkan teori. Metoda berdasarkan HMM telah ditunjukkan
untuk dibandingkan performanya dengan metoda VQ konvensional pada textindependent testing dan baru-baru ini lebih outperform metoda konvensional pada textdependent testing.
V. KLASIFIKASI DAN DECISION THEORY
Setelah menghitung match score antara input speech-feature vector dan sebuah model
suara dari speaker yang diklaim, keputusan verifikasi dibuat untuk menerima atau
menolak speaker atau meminta ungkapan lain (atau, tanpa sebuah identitas yang diklaim,
sebuah keputusan identifikasi dibuat). Proses keputusan menerima atau menolak dapat
berupa sebuah masalah penerimaan, kelanjutan, time-out, atau penolakan terhadap suatu
pengujian hipotesis. Dalam masalah ini, pembuatan keputusan, atau klasisfikasi,
prosedurnya adalah masalah pengujian hipotesis.
A. Pengujian hipostesis
Diberikan sebuah match score, masalah klasifikasi pilihan biner ASV termasuk pemilihan
antara 2 buah hipotesis: yang user adalah speaker yang diklaim atau tidak diklaim
(seorang penipu). Mari H0 menjadi hipotesis bagi seorang penipu dan H1 adalah yang
user, yang sungguh-sungguh, speaker yang diklaim. Seperti terlihat pada Gambar 7,
match score observasi dari dua pdf yang berbeda berdasarkan speaker yang diklaim atau
penipu.
Gambar 7. Bentuk match score dari data yang valid (speaker yang diklaim) dan impostor
(penipu).
Nama dari area probabilitas pada Gambar 7 diberikan pada Tabel 1. Untuk mencari
sebuah area performa probabilitas yang diberikan, hipotesis menerangkan melalui pdf
untuk menggabungkan, dan threshold menerangkan area keputusan membentuk batas
integrasi.
Performa Keputusan
probabilitas
D
Hipotesis
H
Nama
probabilitas
Ukuran test
signifikan
Q0
Q1
Qd = 1 - Q1
1 Q0
Hasil Keputusan
Type I error
Type II error
Power of
test
0
Tabel 1. Definisi dan keadaan probabilitas.
False
acceptance atau
alarm
False rejection
True acceptance
True rejection
Misalkan p(z|H0) menjasi fungsi kerapatan kondisi dari score observasi z

digeneralisasikan oleh speaker lain dari pada speaker yang diklaim, demikian juga
p(z|H1) untuk speaker yang diklaim. Jika kerapatan kondisi score yang benar untuk
speaker yang diklaim dan speaker lain diketahui, maka Bayes test dengan kesamaan
harga kesalah-klarifikasian untuk speaker A tergantung pada perbandingan kemungkinan
untuk speaker A, A(z)
p (z | H 0 )
A (z) = A
p A (z | H1 )
Gambar 8 menunjukkan sebuah contoh dari dua pdf score. Probabilitas kesalahan, yang
diminimalkan oleh peraturan keputusan Bayes, digambarkan oleh jumlah yang saling
melengkapi (overlap) pada dua pdf. Bagian yang saling melengkapi yanglebih kecil
antara 2 buah pdf, kesalahan probabilitas yang lebih kecil. Bagian yang saling
melengkapi antara dua pdf yang Gaussian dengan nilai rata-rata 0 dan 1 dan variansi
yang sama dapat diukur oleh perbandingan F
( 0 1 ) 2
F=
2
Gambar 8. Salah satu contoh kerapatan score.

Jika kerapatan score kondisi benar untuk speaker yang diklaim dan speaker lainnya tidak
diketahui, dua buah pdf dapat diestimasi dari hasil sampel eksperimental. Pdf kodisional
memberikan kebenaran speaker A, pA(z|H1) diestimasi dari score speaker itu sendiri
menggunakan model ini.
Pdf kondisional untuk penipu, , pA(z|H0), diestimasi dari score speaker yang lainnya
dengan menggunakan model speaker A.
Sekarang nilai perbandingan kemungkinan untuk speaker A, A(z) dapat diterangkan,
masalah klasifikasi dapat ditetapkan sebagai pilihan sebuah threshold T sehingga
peraturan keputusan adalah
T , pilihH 0
jika A ( z )
< T , pilihH 1
Threshold T dapat dijelaskan oleh
1) setting T sama untuk sebuah estimasi p1/p0 untuk aproksimasi performa kesalahan
minimum, di mana p0 dan p1 adalah probabilitas utama yang user adalah penipu dan
yang user adalah speaker yang benar, dengan respek,
2) Pemilihan T untuk memuaskan kriteria sebuah FA (false acceptance) atau FR (false
rejection) yang tetap (Neyman-Pearson)
3) Variasikan T untuk mencari perbedaan perbandingan FA/FR dan pemilihan T untuk
memberi rasio FA/FR yang diinginkan.
Dengan tekanan yang hati-hati, T dapat dibuat spesifik speaker, adaptif speaker, dan/atau
adaptif resiko.
B. ROC (Receiver Operating Characteristic)

Karena dua tipe kesalahan dapat dikurangi pada pengorbanan dari sebuah peningkatan
pada kesalahan lainnya, sebuah pengukuran dari performa sistem secara keseluruhan
harus menetapkan tingkat dari dua tipe kesalahan tersebut. Pertukaran antara FA dan FR
adalah sebuah fungsi dari threshold keputusan. Hal ini dilukiskan pada kurva ROC, yang
memplot probabilitas dari FA terhadap probabilitas dari FR (atau nilai FA terhadap nilai
FR). Sebagai contoh, Gambar 9 menunjukkan keluarga hipotesis dari plot ROC pada
skala log yang panjang. Garis dari probabilitas kesamaan kesalahan ditunjukkan oleh
garis diagonal yang titik-titik. Keluarga garis pada -450 merepresentasikan sistem dengan
hasil FA.FR yang berbeda, dengan sistem yang lebih baik menjadi lebih dekat dengan
titik asal (0,0). Untuk beberapa sistem yang partikuler, ROC dilintasi oleh perubahan
threshold dari penerimaan untuk perbandingan kemungkinan. Garis lurus ROC pada
gambar tersebut mengindikasikan bahwa hasil probabilitas dari FA dan probabilitas dari
FR adalah sebuah konstanta untuk sistem hipotesis ini (hal ini tidak benar secara umum)
dan sama untuk kuadrat dari apa yang dirujuk sebagai equal error rate (EER). EER adalah
suatu nilai pada saat nilai FA dan FR adalah sama.
Gambar 9. ROC hipotesis

Voice Recognition PDF

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Voice Recognition PDF

Diunggah oleh

Hak Cipta:

Format Tersedia

Tugas Mata Kuliah FI-4121: Pengolahan Data Digital

PROGRAM STUDI FISIKA

Gambar 1. Area aplikasi dari speech processing.

Gambar 2. Sebuah konfigurasi ASV.

Gambar 3. Sistem speaker verification yang umum.

III. FEATURE SELECTION AND MEASURES

Gambar 4. DTW dari dua buah sinyal energi

3. Nearest neighbors (NN)

Gambar 5. Metoda nearest neighbors

Gambar 6. Sebuah contoh dari 3 keadaan HMM.

Misalkan p(z|H0) menjasi fungsi kerapatan kondisi dari score observasi z

Gambar 8. Salah satu contoh kerapatan score.

B. ROC (Receiver Operating Characteristic)

Gambar 9. ROC hipotesis

Anda mungkin juga menyukai