Similarity
Similarity
Similarity
Reference
template or model
(Speaker #N)
Reference
template or model
(Speaker #2)
Reference
template or model
(Speaker #1)
Feature
extraction
Maximum
selection
Speech
wave
Identification
result
(Speaker ID)
Verificacin
Tecnologa de Reconocimiento de Locutor
Speech
wave
Identification
result
(Accept / Reject)
Speaker ID
(#M)
Similarity
Reference
template or model
(Speaker #M)
Feature
extraction
Decision
Threshold
Decisin
Tecnologa de Reconocimiento de Locutor
Distance
Intra-speaker distance
Inter-speaker distance
DB
o
DB
D
i
s
t
r
i
b
u
t
i
o
n
Objetivo: obtener un modelo del locutor
Para discriminacin, no para codificacin ni sntesis
Marco de Trabajo: Reconocimiento de Patrones
El clasificador ptimo es el clasificador de Bayes
Tecnologa de Reconocimiento de Locutor
{ } { }
=
> = =
=
> <
contrario caso en (rechazo)
) / ( y ) /
( max ) / ( si
: in Clasificac
,...... , ,.... ,
Clases - - - - - - - nes Observacio
o
i
i i
L 2 1 2
|
O O O
o o o O
1
p p p
T
Todo lo necesario es conocer la funcin de
probabilidad
Tecnologa de Reconocimiento de Locutor
O
) / (
1
O p
) / (
2
O p
) / (
3
O p
Rechazo Clase 1 Clase 2 Clase 3 Clase 2 Rechazo
|
Todo lo necesario es conocer la funcin de
probabilidad
Tecnologa de Reconocimiento de Locutor
O
) / (
1
O p
) / (
2
O p
) / ( O
L
p
|
.
.
.
.
.
.
Max Rechazo
NO UN CLASIFICADOR NICO
Funciones de
Discriminacin
De una forma simplificada podemos considerar:
Por la tcnica de clasificacin:
Clasificadores no-paramtricos
Clasificadores paramtricos
(Discriminativos)
Atendiendo al tipo de informacin empleada:
Clasificadores a partir de informacin a largo plazo
Clasificadores a partir de informacin a corto plazo
Tecnologa de Reconocimiento de Locutor
0012-13
(b) short-term information based method
Input
speech
Speaker
identity
Paterns
Feature
extraction
Decision Accumulation
Parametric or
Non-Parametric
(a) Long-term-statistics-based method
Input
speech
Speaker
identity
Reference templates
or models
Feature
extraction
Decision
Distance
or
similarity
Long-term
statistics
Average, variance,
correlation, MAR
Por la tcnica de clasificacin...
Clasificadores no-paramtricos:
No hacen ninguna hiptesis sobre el modelo de distribucin de
la voz del locutor
Se basan completamente en los datos de entrenamiento
Un ejemplo tpico seran los sistemas de Reconocimiento
Independientes del Locutor basados en Cuantificacin Vectorial
Tecnologa de Reconocimiento de Locutor
Vector quantization (VQ)-based text-independent speaker
recognition
0103-19
Spectral envelopes Speaker-specific codebook
Cuantificador Vectorial
Tecnologa de Reconocimiento de Locutor
Representa el conjunto de vectores de
ENTRENAMIENTO X={x
1
,x
2
, ... x
N
} por un
nmero pequeo de representantes (centroides)
Y={y
1
, y
2
, ... y
M
} (M<N)
Fase 1. Determinacin de los representantes
Medida de distancia d(x
i,
y
j
)
Entrenamiento: Codebook Y
Fase 2. Asignacin del centroide ms prximo
Cuantificacin de una observacin o
| | j k y o d y o d y o Q
k j j
= < = ) , ( ) , (
Entrenamiento CV algoritmo LBG
Tecnologa de Reconocimiento de Locutor
Primer centroide
D? N?
Duplicacin
Asignacin de vectores
Clculo de centroides
SI SI
NO
NO
Cuantificacin
Asuncin Moreno
Universidad Politcnica de Catalua
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Entrenamiento
x
y
Cuantificacin
x
y
VQ Performance on Unseen Data
Ramachandran &
Mamone (eds)
Modern Methods of
Speech Processing
Kluer Academic, 1995