Pgina 1
Pgina 2
Introduccin
INTRODUCCIN
La primera sorpresa al iniciar este captulo es porque se titula los mtodos de Fourier
y no Transformada de Fourier. La explicacin es simple, la serie y transformada de
Fourier famosas en su inicio para seales continuas, se ha expandido a seales
discretas por el uso amplio de sistemas discretos desde la dcada de los 80s del
siglo anterior. ..
La segunda sorpresa podra ser porque iniciar un libro sobre Procesamiento de Voz
con el tema de mtodos de Fourier. La razn es simple, porque otras transformadas
modernas como ondeletas o transformadas tiempo frecuencia no han tenido una
aplicacin signigicativa para el procesamiento de voz. Sin embargo, la aplicacin de
mtodos de Fourier para anlisis, codifcacin, reconocimiento, sntesis y
ensanchamiento de voz es fundamental para todas las aplicaciones de voz.
Por otro lado, el lector no espere en este captulo un texto amplio sobre los mtodos
de Fourier, el objetivo es dar al lector una lectura sencilla y breve sobre estos
mtodos, tanto para el lector que ya tiene experiencia y desea repasarlos o bien para
quien no ha estudiado los mtodos de Fourier.
Es relevante tener presente que los mtodos de Fourier son tan importantes es
porque nos representan a la seal en amplitud, tiempo y frecuencia, que es una
representacin fundamental en el procesamiento de voz; y tambin aumenta su
importancia porque existen algoritmos para su clculo rpido, opcin que no se tiene
en todas las transformadas ortogonales.
Pgina 3
2. Aspectos bsicos de sonidos y voz
Para la comprensin de este captulo se requiere del lector conocer los temas de
cursos bsicos de lgebra, lgebra lneal, geometra analtica y clculo de funciones
reales de variable real.
Pgina 4
2.2 El sistema generador de voz
El sonido es una perturbacin en un medio elstico que causa una alteracin de presin y un
desplazamiento de sus partculas y que puede ser detectado auditivamente.
Cuerpo
vibrante
Un ciclo
Comprimida
Normal
Expandida
Figura 2.1
El aire es un gas elstico que posee masa, un metro cbico de aire tiene una masa un poco
mayor a un kilogramo. Si se tiene una caja cerrada de aire se acelerar segn la segunda ley
de Newton. Si se comprime lentamente por un resorte por uno de sus lados, con una presin
incremental P, se tiene que sta es inversamente proporcional a un incremento de volumen
V,
P KV
Si la compresin es lenta de tal modo que el calor que se genera en el gas durante la
compresin tiene tiempo de fluir a las paredes del contenedor, se dice que la compresin es
isotrmica. Si no hay tiempo durante la compresin para que el calor fluya, se dice que el
proceso es adiabtico. Las ondas sonoras son esencialmente adiabticas.
Pgina 5
2. Aspectos bsicos de sonidos y voz
Figura 2.2. Presin y desplazamiento de una onda de sonido plana producida por una pared que vibra
sinusoidalmente. D1=1/4 onda; D2=1/2 onda; D3=3/4 onda; D4=1 onda; D5=2 ondas. Los puntos muy cercanos
indican un exceso positivo de presin y los separados indican exceso negativo de presin. La frecuencia de
vibracin del pistn es de 100 ciclos por segundo.
Pgina 6
2.2 El sistema generador de voz
2 v 1 v 2
donde c o
2 x c t 2
t: tiempo
x: desplazamiento
: relacin de calor especfico a presin constante sobre calor especfico a presin variable
(1 )
v
(1 )(1 )
donde
: es el mdulo de compresibilidad7
: la razn de Poisson
Para ondas sonoras que esencialmente son las longitudinales tiende a cero, entonces,
P RT
v
M
donde:
Pgina 7
2. Aspectos bsicos de sonidos y voz
M: masa molecular
T: Temperatura
v cte T
As, para el aire son comunes los valores, M=28.8 g/mol, =1.4, R=8.31107
ergios/molgrado y T=300 K.
Entonces
ergios
1.4 8.31 10 7 300K
mol K ergios
v 34.811 10 3
g g
28.8
mol
como:
[ergios]=[dinacm]
[dina]=[gcm/s2]
g cm
s 2 cm cm m
v 34.811 103 34.811 103 348.11 s
g s
Pgina 8
2.2 El sistema generador de voz
Tabla 2.1
La intensidad de una onda sonora se define como la potencia media transportada por unidad
de superficie, como la potencia es igual al producto de la fuerza por la sensacin se puede
llegar al valor medio de la intensidad en un periodo como:
P2
I
2 v
En una sensacin normal se tiene 110-9 [W/cm2] si consideramos un rea de 1[m2] se tiene
una potencia media producida de 110-5 [W]. As un milln de personas producen 10[W] de
potencia acstica. La potencia acstica es muy pequea.
Es muy comn utilizar una escala logartmica llamada nivel de intensidad . Donde I0 es el
nivel de referencia.
Pgina 9
2. Aspectos bsicos de sonidos y voz
I
10 log
I0
Es usual que I0 sea igual a 110-16[W/cm2]. Con este nivel de referencia e I=9410-6[W/cm2],
el nivel de intensidad equivale aproximadamente a 120[dB].
Mquina remachadora 95
Conversacin ordinaria 65
Tabla 2.2
Sensacin sonora
Nivel de intensidad (dB)
Frecuencia (Hz)
Figura 2.4
Pgina 10
2.2 El sistema generador de voz
Tono y timbre
Estos son dos calificativos subjetivos. El tono se refiere a la frecuencia fundamental del
sonido y el timbre a las armnicas presentes y sus amplitudes.
violn
Una cuerda 426 ciclos/s
100
10
1
0 2000 4000 6000 8000 10000 ciclos/s
Figura 2.5
En la realidad no estn presentes todas las armnicas. Cuando se tiene un sonido de varias
frecuencias, el tono queda determinado por la frecuencia de la fundamental; tambin es
posible producir un sonido con muchas armnicas cuyo tono fsicamente no existe.
Efecto Doppler
a a b c d
VL VS
L S
Figura 2.6
Pgina 11
2. Aspectos bsicos de sonidos y voz
(u Vs )t u Vs
f st fs
(u Vs )t u Vs
f st fs
Para obtener estas expresiones observe que: en t=0 el foco se encuentra en b y en t=t en c,
ac ut Vs t (u Vs )t
cd ut Vs t (u Vs )t
Las ondas que se acercan al observador mvil (L) tienen una velocidad de propagacin u+VL
por lo que la frecuencia de estas ondas es igual a:
u VL f fs
f de donde
u VL u Vs
a) Cules son las longitudes de onda delante y detrs del foco mvil si su velocidad es de
50 m/s?
Pgina 12
2.2 El sistema generador de voz
Solucin.
u VS 300 50
0.25m delante
fS 1000
u VL (300 40)
c) f f s 1000 742.86Hz
u Vs (300 50)
Algunos efectos de otros fenmenos del sonido como reflexin, refraccin, difraccin y
atenuacin se muestran en las siguientes figuras.
Superficie de la Tierra
Superficie de la Tierra
Pgina 13
2. Aspectos bsicos de sonidos y voz
Figura 2.7
Refraccin del sonido en la atmsfera. La primera figura representa las condiciones de aire
caliente cerca de la superficie de la tierra y de aire fro a una cierta distancia de la tierra. La
velocidad del sonido en el aire caliente es mayor que en aire fri. Por lo que el sonido se
ser refractado hacia arriba. La segunda figura ilustra las condiciones de aire fro cerca de la
superficie de la tierra y aire caliente a una cierta distancia de la misma. Entonces el sonido
ser refractado hacia abajo. El cambio en la direccin del sonido debida a una variacin
espacial en la velocidad de transmisin del sonido en el medio es la refraccin trmica.
Figura 2.8
Absorcin, reflexin y transmisin del sonido a travs de una pared que parcialmente
absorbe, parcialmente transmite y parcialmente refleja. Un sonido emitido por una fuente
atraviesa una pared. Una parte de la onda incidente es reflejada por la pared, el frente de
onda del sonido reflejado es el mismo que el de una fuente de sonido en la imagen I de la
fuente original del sonido; parte de la onda incidente es absorbida por la pared; y parte de la
onda es transmitida.
Pgina 14
2.2 El sistema generador de voz
Figura 2.9
Difraccin del sonido. Los sonidos emitidos por una fuente pasan por una abertura en una
pared reflectora. Las dimensiones de la abertura son pequeas comparadas con la longitud
de onda del sonido. Una gran parte del sonido es reflejada. Una pequea porcin es
transmitida a travs de la abertura. El sonido que pasa por la abertura radia en todas las
direcciones de la misma forma que si la abertura fuese la fuente del sonido. El esparcimiento
de las ondas sonoras debido al paso a travs de la apertura es la difraccin trmica.
Pgina 15
2. Aspectos bsicos de sonidos y voz
Pgina 16
2.2 El sistema generador de voz
El tracto pulmonar
Los pulmones generan aire comprimido que es conducido por la trquea. stos rganos
controlan la amplitud de los sonidos, y la nica contribucin audible del tracto son los
silencios inter y entre palabras.
Pgina 17
2. Aspectos bsicos de sonidos y voz
Los pulmones son una masa esponjosa de una larga rea. Su capacidad es de 4 a 5 litros en
un adulto. Estn contenidos en una cmara de aire, la pleura, la que est contenida a su vez
lateralmente por las costillas e inferiormente por el diafragma.
Figura 2.11
La Laringe
Est formada por tres cartlagos (cricoide, tiroides y aritenoide), por un conjunto de
msculos, y por las cuerdas vocales. Los dos primeros contienen y controlan las cuerdas
vocales. stas ltimas constituyen la fuente de generacin de sonidos y tambin cierran la
trquea para proteger el tracto pulmonar de objetos y permitir la formacin de presin dentro
del trax y el abdomen.
Pgina 18
2.2 El sistema generador de voz
Las cuerdas vocales son un tejido slido con 19dobleces entre el frente y la parte posterior
de la laringe. Cuando las partes terminales de las cuerdas estn separadas, las cuerdas
estn abiertas, es la posicin para la respiracin. Cuando las partes terminales estn juntas,
las cuerdas estn cerradas y proporcionan el sello al tracto pulmonar para la deglutacin.
Cuando las partes terminales se abren y cierran parcial o 19totalmente, de manera rpida y
secuencial, se producen los sonidos en la 19exhalacin.
Despus de la presin de aire generada por los pulmones, la siguiente funcin es realizada
por la laringe y es llamada 19excitacin. Esta adquiere las formas siguientes: fonacin,
susurreo, fricacin, compresin y vibracin.
Fonacin
Este trmino se refiere a la 19oscilacin de las cuerdas vocales por los movimientos de los
cartlagos aritenoides. Cuando el aire es forzado a travs de las cuerdas vocales, stas
vibran. La apertura y cierre de las cuerdas secciona el pulso de aire en pulsos cuasi-
peridicos llamados pulsos glotales, con una frecuencia fundamental llamada tono. Las
formas de onda son 19aproximadamente triangulares y tienen un ciclo de trabajo del orden
de 0.3 a 0.7; como consecuencia a su forma, las altas frecuencias disminuyen su 19amplitud
a 12 dB/octava. Su naturaleza paso-bajas proporciona un espectro con una fuerte
fundamental y progresivamente ms dbiles armnicas.
Pgina 19
2. Aspectos bsicos de sonidos y voz
denominan sordos. As, por ejemplo, las vocales son sonidos sonoros, y las consonantes
como f, s, p y k son sonidos sordos.
Susurreo
Los susurros son generados en la laringe. Las cuerdas vocales estn juntas por el cartlago
aritenoides20, pero en lugar de sellar completamente la glotis existe una pequea abertura
triangular entre estos cartlagos. El aire que corre a travs de esta apertura genera
turbulencias, que ocasionan ruido de banda ancha, el cual sirve como seal excitadora.
Los susurros son ms dbiles que las fonaciones dado que implican un menor 20volumen de
aire, y tienen mayor energa en altas frecuencias.
Fricacin
La fricacin es similar al susurreo en cuanto que aire turbulento genera ruido de banda
ancha, pero existe un lugar de 20articulacin adicional en el tracto vocal. Los sonidos
producidos son llamados fricativos. La fricacin puede ocurrir con o sin fonacin.
Dado que el lugar de articulacin es cerca de los labios, slo una pequea parte del tracto
vocal est entre la fuente de 20excitacin y el aire de salida. Esto significa que la
modulacin producida por el tracto vocal est limitada en extensin y complejidad.
Compresin
Cuando el tracto vocal est prcticamente cerrado y una persona sigue exhalando, la presin
aumenta y resulta un pequeo transitorio. La combinacin20de un silencio pequeo seguido
por una rfaga de ruido crea una 20excitacin peridica, la onda de presin es una funcin
escaln. Si el transitorio es abrupto y limpio, el sonido es una oclusiva o una plosiva como p
en spin; si es gradual y turbulento, el sonido cae en un sonido muy parecido al fricativo
llamado africativo como en j de reject.
Pgina 20
2.2 El sistema generador de voz
Vibracin
La vibracin es cuasiperidica y puede ocurrir en muchos lugares del tracto vocal, por
ejemplo, la vibrante r involucra la vibracin de la lengua contra el paladar. Estas vibraciones
pueden ocurrir con o sin fonacin.
Figura 2.13
El Tracto vocal
Este trmino engloba a los rganos productores de voz situados arriba de las cuerdas
vocales. Consiste de cinco elementos: faringe laringeal, faringe oral, faringe nasal, cavidad
oral y cavidad nasal.
La parte superior o techo de la boca puede ser dividida en dos regiones. Al frente, el techo
est formado por un hueso llamado palatal que separa la boca de las cavidades nasales.
Atrs del palatal, el techo est formado por un msculo y tejido conectivo llamado el velo. El
velo puede ser elevado por un msculo y presionado contra la pared trasera de la faringe
para sellar los pasajes nasales del resto del tracto vocal. Enfrente del paladar se encuentra
la arista alveolar, formada por la parte gruesa del hueso donde los dientes frontales estn
insertos. La epiglotis es un cartlago en forma de plato por encima de las cuerdas vocales y
atrs de la lengua y no tiene una funcin especfica en la produccin de voz.
Pgina 21
2. Aspectos bsicos de sonidos y voz
modulacin ya que el sonido es modulado por el tracto vocal con objeto de modificar la
calidad del sonido e interponer sonidos adicionales e interrupciones a los sonidos.
La forma de onda glotal es muy rica en armnicas, que son drsticamente modificadas por el
tracto vocal, ste tiene sus frecuencias naturales llamadas formantes que son producidas en
todas las vocales y en algunas consonantes. Se genera una modulacin adicional por parte
de la laringe como interrupciones y rfagas de ruido de banda ancha, que contribuyen a la
formacin de las consonantes.
Un modelo de la voz que se considere completo debe incluir: los cambios en la seal de
excitacin, la respuesta del tracto vocal y los efectos de los labios en la radiacin. Tal modelo
es el fuente-filtro que ha sido usado por casi todos los sistemas de procesamiento de voz.
Figura 2.14
En la figura, la excitacin glotal es la entrada del filtro. Los cinco tipos de excitacin son
reducidos, de manera general, a dos: seales peridicas (sonoras) y ruido turbulento
(sonidos sordos) con distribucin gamma o laplaciana y espectro plano. El espectro glotal es
un tren de impulsos espaciados a frecuencias iguales a la frecuencia del tono fundamental.
El efecto es, aproximadamente, una cada de 12 dB/octava alrededor de 0.8 a 1 kHz.
G
H ( z) N
1 i z i
i 1
Pgina 22
2.2 El sistema generador de voz
donde G representa el factor de ganancia total y i las ubicaciones de los polos. Los polos de
H(z) corresponden a las resonancias o formantes de la voz.
La radiacin de la voz tiene la propiedad que a bajas frecuencias la presin del sonido es
proporcional a la derivada de la velocidad volumtrica. Esto introduce un levantamiento de 6
dB/octava en el espectro que puede ser modelado por
R( z ) 1 z 1
Los tres efectos pueden ser representados por una sola funcin de transferencia todo-polos
llamada espectro de envolvente. En su forma refleja la informacin principal de la seal de
voz y casi todos los sistemas de voz tratan de generarla o recuperarla.
Pgina 23
2. Aspectos bsicos de sonidos y voz
k kilo
Pgina 24
1.3 Transformada rpida de Fourier
q queso
Las vocales
Los fonemas voclicos corresponden a las cinco vocales del alfabeto. Todos son
articulaciones abiertas de corta duracin, completamente sonoras, ya sea que estn
acentuadas o no (figura 2.16).
Pgina 25
2. Aspectos bsicos de sonidos y voz
Los tres primeros formantes voclicos tienen aproximadamente las frecuencias que se
muestran en la tabla 2.4.
Vocal F0 F1 F2
Pgina 26
1.3 Transformada rpida de Fourier
Los fonemas varan lentamente de acuerdo a las posiciones de las vocales en las palabras y
al dialecto o regin de quien habla. Estas variantes se llaman alfonos.
Diptongos
Un diptongo puede ser creciente o decreciente. El primero existe cuando el ncleo silbico
precede al margen silbico, el segundo viceversa.
Pgina 27
2. Aspectos bsicos de sonidos y voz
En la figura 1.4 se muestran los espectros para el diptongo creciente en radio y para el
diptongo decreciente en seis. Para el primero, es dominante el alto contenido en frecuencia
de la vibrante / r / y las transiciones decrecientes en los formantes de las vocales /i/ y /o/.
Para la palabra seis es importante anotar el alto contenido en frecuencia del sonido sordo
/s/ y las transiciones crecientes para los fonemas /e/ e /i/. En los triptongos una vocal
constituye el ncleo silbico y las otras son semiconsonantes o semivocales, dependiendo
de si estn antes o despus del ncleo.
Figura 2.18. Espectros de radio y seis que muestran diptongos crecientes y decrecientes.
Pgina 28
1.3 Transformada rpida de Fourier
Consonantes
Africadas. Existe un cierre inicial del tracto vocal seguido de una expiracin gradual
que produce turbulencia
Nasales. El tracto vocal est cerrado en el punto de articulacin y el velo est abierto.
Plosivas. El tracto vocal est cerrado en el punto de articulacin, el pasaje nasal est
cerrado, y existe una exhalacin limpia y cortante.
Si bien las formas de articulacin dividen a los fonemas en categoras muy amplias basadas
en diferencias de excitacin, el lugar de articulacin identifica diferencias en el tracto vocal
Pgina 29
2. Aspectos bsicos de sonidos y voz
A lo largo del tracto vocal existen aproximadamente ocho regiones o puntos de articulacin
que se asocian con las consonantes.
Dental. La punta de la lengua hace contacto con la parte posterior del diente incisivo
superior.
Pgina 30
1.3 Transformada rpida de Fourier
Concentracin
Clasificacin
articulacin
articulacin
de energa
(Espectro)
Forma de
Alfonos
Lugar de
Ejemplo
Ejemplo
Fonema
0-600,
/j/ sonora palatal mayo [dz] cnyuge
2200-3000 Hz
0-400,
labiodenta 1400-2200,
/f/ sonora caf
l 2900-4000
Fricativas
y 6000-8000 Hz
2600-3600
/s/ sorda alveolar mesa [z] desde
y 5000-8000 Hz
altas
/ c / sorda palatal chile
frecuencias
altas
Nasal
frecuencias
Pgina 31
2. Aspectos bsicos de sonidos y voz
([m] enviar
) enfermo
[M]
altas lanzar
/n/ sonora velar nariz [n]
frecuencias cuento
[ ]
[n] ancho
[N] hongo
altas
// sonora bilabial nio
frecuencias
Laterales
[l] dulce
/l/ sonora alveolar lado
[] el toro
Vibrantes
Tabla 2.5
Pgina 32
1.3 Transformada rpida de Fourier
Plosiva Africativa
/d/ /o/ /n/ /d/ /e/ /mu/ /cha/ /cho/
Nasal Lateral
/n/ /i/ // /o/ /l/ /a/ /d/ /o/
Figura 2.19
Pgina 33
2. Aspectos bsicos de sonidos y voz
Pgina 34
1.3 Transformada rpida de Fourier
El odo est dividido en tres partes: odo externo, odo medio y odo interno.
Odo externo
Consiste en la pinna (pabelln de la oreja, cartlago visible) que incluye una cavidad
resonante llamada concha, el canal externo (conducto auditivo) y el tmpano. La forma de la
pinna provee el sentido de la direccin, especialmente la distincin entre el frente y detrs, o
arriba de abajo.
El canal externo es un tubo uniforme a travs del cual el sonido llega al tmpano. Como todos
los tubos, posee ciertas frecuencias de resonancia, de las cuales slo una en combinacin
Pgina 35
2. Aspectos bsicos de sonidos y voz
con la concha, a 2.5 kHz, se encuentra dentro del rango de la voz. Provee una ganancia de
presin del sonido de 15-20 dB. Existe otro pico de 10-17 dB en 5.5 kHz debido a la
resonancia de la concha.
Figura 2.21. Ganancia promedio de presin de los diferentes componentes del odo externo
El tmpano es una estructura cnica firme que se encuentra al final del conducto auditivo.
Vibra en respuesta al sonido y es el primer vnculo en una cadena de estructuras que
transmiten el sonido a los transductores nerviosos en el odo interno.
Odo medio
Figura: 2.22
El odo medio es una cavidad llena de aire separada del odo externo por la membrana
timpnica y conectado al odo interno por una apertura llamada ventana oval. El odo medio
Pgina 36
1.3 Transformada rpida de Fourier
tambin se conecta al mundo exterior por medio del tubo de eustaquio, que permite la
ecualizacin de la presin del aire entre el odo medio y el medio.
El odo medio posee tres huesos pequeos (oscculos) que proveen acoplamiento acstico
entre el tmpano y la ventana oval. Estos huesos son llamados martillo, estribo y yunque. El
martillo est unido a la membrana timpnica y a la ventana oval, el estribo a la ventana oval,
y el yunque conecta a ambos.
A frecuencias mayores a 2 kHz, varios factores que incluyen la masa de los oscculos y los
menos eficientes modos de vibracin de las estructuras, reducen la transmisin. El efecto
total es que el odo medio presenta una caracterstica paso banda.
Pgina 37
2. Aspectos bsicos de sonidos y voz
Odo interno
Consiste del aparato vestibular, dos membranas: la ventana redonda y la oval, y la cclea.
La cclea es un pasaje en forma de caracol que se comunica con el odo medio por medio
de las ventanas oval y redonda. Contiene los transductores que convierten las vibraciones
acsticas en impulsos nerviosos.
La cclea se encuentra dividida por la mitad, por una estructura fibrosa llamada membrana
basilar, en dos pasajes: escala vestibular y escala timpnica; stos contienen un fluido
llamado perilimfeo.
La energa acstica entra a travs de la ventana oval, manejada por el estribo. El sonido
viaja hacia un lado de la cclea (escala vestibular), pasa hacia el otro lado (escala timpnica)
y viaja a travs de l, saliendo por la ventana redonda. El flujo ocasiona un desplazamiento
en forma de onda de la membrana basilar y las estructuras que estn unidas a ella.
Pgina 38
1.3 Transformada rpida de Fourier
Figura 2.25
El rgano de Corti constituye el transductor auditivo y es aqu donde terminan las fibras
nerviosas. Las fibras nerviosas y venas de la cclea entran en el rgano de Corti a travs de
la parte central de la cclea, el modiolus, una estructura espiral de la cclea que imparte un
giro al nervio y venas.
El rgano de Corti se encuentra sobre la membrana basilar, contiene las clulas receptoras.
stas clulas consisten en una fila de clulas en el lado modiolar del arco de Corti, y entre
tres y, hacia el apex, cinco filas de clulas externas. El hombre posee alrededor de 25,000
de estas clulas.
Pgina 39
2. Aspectos bsicos de sonidos y voz
Las fibras nerviosas en el rgano de Corti conectan las clulas receptoras al octavo nervio
craneal. Este pasa a travs del conducto auditivo interno y entra a la mdula en la regin del
ncleo coclear. La mayor parte de las fibras que salen del ncleo coclear cruzan la lnea
media del cerebro y se dirigen hacia el lado opuesto del ncleo del tlamo y entran en una
pequea regin en la parte posterior de la fisura silviana de la corteza auditiva.
Teora de la Audicin
Las dos principales ideas sobre la audicin se dividen en los siguientes grupos: Teoras del
lugar y Teoras de la frecuencia. La principal diferencia entre stas es la manera en que
funciona la cclea, esto es, la forma en que el sonido se descompone en la misma.
Las teoras del lugar tuvieron un nuevo impulso con los experimentos de Bksy [3], quien
formul una nueva teora basada en ondas viajeras. Observ que cuando un sonido llegaba
al tmpano, las vibraciones causaban el movimiento de los fluidos en la cclea, lo que
iniciaba el desplazamiento de una onda en la membrana basilar.
Pgina 40
1.3 Transformada rpida de Fourier
A una presin constante, cada punto de la membrana basilar tiene una respuesta
aproximadamente constante a bajas frecuencias. Mientras la frecuencia aumenta, se alcanza
una cierta frecuencia de corte en la que la respuesta cae rpidamente. La membrana acta
por tanto como un filtro paso bajas.
Figura 2.28. Respuesta en frecuencia para seis diferentes puntos en la cclea. La amplitud
de la envolvente de la onda viajera fue medida mientras la frecuencia del estmulo era
variada con una velocidad pico en el estribo constante.
Pgina 41
2. Aspectos bsicos de sonidos y voz
La principal idea de la Ley de Ohm del Sonido que origin esta teora estaba basada en la
observacin de que el odo puede descomponer sonidos complejos en tonos y sobretonos
(armnicas). Una idea similar surgi como contra argumento de esta teora. Esto es, que
para un sonido complejo que carece de su fundamental, el sujeto puede reconstruirla,
concluyendo que la descomposicin y el anlisis de la frecuencia es realizado en el cerebro y
no en el odo.
Para un cierto sonido todas las clulas producen disparos de los nervios auditivos con una
frecuencia igual a la del sonido mismo, entonces el cerebro determina la frecuencia midiendo
la tasa a la que ocurren dichos disparos.
La teora ms confiable (teora del telfono) del siglo pasado fue formulada por Rutherford en
1886. l supuso que cualquier clula receptora poda ser estimulada en cualquier lugar de la
cclea por cualquier sonido. Sin embargo, experimentos posteriores han revelado un mximo
de disparos de un nervio de 300 impulsos por segundo. En este siglo, se observ (principio
de Volley) que los disparos de los nervios eran sncronos con la frecuencia de la
estimulacin hasta 5000 disparos por segundo.
Por este principio, diferentes fibras son activadas en diferentes ciclos, por lo que la suma de
las respuestas es capaz de seguir cada ciclo de la forma de onda del estmulo.
Figura 2.29
El hecho de que esta teora falle en alcanzar los lmites superiores de la audicin llev a
Weber y Gray a formular una tercera teora que supone que ambos mecanismos contribuyen
en la percepcin de la frecuencia, la informacin temporal es usada en bajas frecuencias (15
Pgina 42
1.3 Transformada rpida de Fourier
a 400 Hz), y la informacin del lugar en altas frecuencias (ms de 5000 Hz), y ambas se
desempean en la regin de transicin entre ellas.
Figura 2.30
El extremo superior cae con la edad; entre los jvenes puede llegar a 20 kHz, mientras que
en personas mayores puede ser hasta de 10 kHz. Los sonidos debajo de 1 kHz o por encima
de 5 kHz requieren mayor energa para ser escuchados que aquellos en el rango de 1-5 kHz,
esto es, la intensidad mnima o umbral auditivo aumenta fuera del rango de 1-5 kHz.
Pgina 43
2. Aspectos bsicos de sonidos y voz
Para sonidos fuertes hay dos umbrales. El umbral del sentir, esto es, cuando un sonido se
siente en el odo, y el umbral del dolor. stos son mucho menos variables con la frecuencia
que el umbral auditivo.
La voz ocupa nicamente una porcin del campo auditivo con frecuencias en el rango de
100-8000 Hz, y amplitudes entre 30-90 dB (medidas a una distancia de 1m). La percepcin
de la voz es ptima cuando las amplitudes se encuentran dentro del rango de 60-70 dB.
El umbral auditivo depende, entre otros parmetros, de la duracin de los sonidos. Por
ejemplo, si sta es menor a 0.3 s, el umbral aumenta. Para ruido de banda ancha de
duracin menor a 0.3s, el umbral aumenta cerca de 3 dB cada vez que la duracin disminuye
a la mitad. Para tonos que se desplazan o tonos que cambian de frecuencia, si la duracin
es de 50 ms el umbral auditivo puede ser mayor a 5 dB. Las transiciones en los fonemas
ocurren en duraciones menores a 50 ms.
Tono
A pesar del uso ingenieril del trmino tono como la frecuencia fundamental del sonido,
existen otras dos definiciones importantes dadas por los msicos y los psicoacsticos. Para
los segundos, el tono o tono virtual es la frecuencia fundamental percibida de un sonido. En
tonos complejos, el tono es percibido incluso si la fundamental est ausente. Por ejemplo, el
tono de una voz masculina de 120 Hz, es claramente percibida a travs del sistema
telefnico en el que la respuesta en frecuencia corta en 300 Hz. El tono virtual se ha
relacionado con la frecuencia fundamental por medio de la expresin:
Pgina 44
1.3 Transformada rpida de Fourier
1000 f
y 1
log 2 1000
El tono humano es proporcionado por nuestro aparato vocal: hombres 50-250 Hz, mujeres
120-500 Hz. Las armnicas no son escuchadas ordinariamente como tonos separados, sino
todo el conjunto parece un solo tono; la presencia de armnicas mayores se percibe al darle
al sonido una calidad de tono o timbre. El fenmeno perceptual del timbre es importante
porque los sonidos voclicos son distinguidos por sus diferentes contenidos armnicos.
Por debajo de 1 kHz, dos tonos iguales en amplitud deben diferir en 1-3 Hz para ser
distinguidos; mientras que a altas frecuencias, esto aumenta por ejemplo a 8 kHz son 100
Hz. Esta distincin aumenta sustancialmente si el sonido es menor a 20 dB sobre el umbral o
menor a 100 ms. En todo el campo auditivo existen cerca de 1600 frecuencias distinguibles y
350 intensidades (este nmero se reduce si se aslan los tonos). El odo es menos sensible a
sonidos cortos. Por ejemplo, existen 850 niveles de frecuencia distinguibles para tonos de
ms de 250 ms, y 120 niveles cuando la duracin disminuye a 10 ms. Los tonos son
percibidos con mayor precisin que otros sonidos, por ejemplo para ruido de banda ancha,
slo pueden distinguirse 142 frecuencias y 120 intensidades.
Enmascaramiento
Este es el fenmeno en el que un sonido interfiere con nuestra percepcin de otro. Sonidos
simultneos causan enmascaramiento en frecuencia donde el de menor frecuencia
generalmente enmascara al de mayor frecuencia; sonidos retrasados uno respecto del otro
pueden causar enmascaramiento temporal de uno o ambos sonidos.
Pgina 45
2. Aspectos bsicos de sonidos y voz
Cuando se usan dos tonos, aumentan las complicaciones. Por ejemplo, como respuesta a un
par de tonos f1 y f2 Hz siendo f1<f2, el odo genera tonos combinados a f1-f2 Hz y f1+n(f1-f2) Hz,
siendo n un entero. Un tono de 1 kHz en ruido de banda angosta se vuelve inaudible cuando
se encuentra de 2-6 dB por debajo del nivel del ruido, para enmascarar completamente el
ruido debe ser 24 dB mayor [9].
Percepcin de la voz
La principal pregunta realizada por las teoras de la percepcin de la voz es cmo la entrada
acstica del odo es traducida por el cerebro en voz. El cerebro distingue entre sonidos de
voz y sonidos que no pertenecen a voz, procesndolos de manera diferente. La percepcin
est influenciada por el contexto. Varios investigadores han medido la facilidad con que la
voz es percibida midiendo la capacidad de los sujetos para entender voz mezclada con ruido.
Se ha encontrado que las slabas, palabras y frases sin sentido se pierden con mayor
facilidad con el ruido que las que s tienen sentido. Esto ha llevado a la idea de que las
reglas gramaticales, semnticas y del lxico son usadas como ayuda en la verificacin del
anlisis correcto del cerebro sobre la voz entrante.
Pgina 46
1.3 Transformada rpida de Fourier
Teora motora.
Sugiere que la voz es percibida en trminos de articulacin. Esto es, la mente analiza la voz
manteniendo una simulacin mental de los procesos articulatorios de la generacin de voz.
Usando esta simulacin, la mente construye uno o ms modelos articulatorios hipotticos de
la voz entrante y los compara contra una serie de posibilidades.
Distorsin
Se han observado varios tipos de distorsin artificial de una seal de voz causada por
dispositivos electrnicos, as como de degradacin de la inteligibilidad. A continuacin se
presentan algunos de ellos.
Pgina 47
2. Aspectos bsicos de sonidos y voz
Filtrado.
[14] Al usar filtrado paso altas, la inteligibilidad disminuye mientras aumenta la frecuencia de
corte; la inteligibilidad permanece intacta para frecuencias de corte por debajo de 400 Hz;
aproximadamente en 1.7 kHz, el nmero de slabas correctamente reconocidas se reduce a
la mitad, y por encima de 6 kHz la voz se vuelve ininteligible. Al usar filtrado paso bajas se
obtiene el efecto contrario, la inteligibilidad permanece intacta para frecuencias de corte por
encima de 6 kHz; el nmero de slabas correctas se reduce a la mitad en 1.5 kHz
aproximadamente, y a 400 Hz la voz se vuelve ininteligible. Estos resultados varan muy
poco con cambios en amplitud.
Figura 2.31. Efectos de los filtros paso altas y paso bajas en la inteligibilidad de la voz
Truncamiento.
Los sonidos truncados mantienen su inteligibilidad. Si los sonidos son truncados en su parte
central, destruyendo la informacin de baja amplitud, la inteligibilidad disminuye
considerablemente (hasta 20% aproximadamente [15]), sin embargo, si la seal se rellena
con ruido blanco, la inteligibilidad aumenta hasta un 70%.
Pgina 48
1.3 Transformada rpida de Fourier
Interrupciones.
El efecto de alternar la seal de voz entre el odo derecho y el izquierdo fue investigado por
Huggins [16]. Los escuchas pueden percibir la voz de manera correcta si la tasa de cambio
de la seal de voz entre el odo derecho e izquierdo es baja o alta. En una tasa intermedia,
de 3-4 veces por segundo, la inteligibilidad se degrada, esta tasa corresponde
aproximadamente a la tasa de slabas. En conclusin, una slaba debe ser presentada a un
odo para que sea entendida, o puede ser muestreada rpidamente de manera que el resto
de la slaba pueda ser reconstruida.
Cuando la seal de voz es interrumpida las degradaciones son peculiares. Si la seal de voz
es alternadamente encendida y apagada con un ciclo de trabajo del 50% la peor degradacin
ocurre en frecuencias de conmutacin de 1-500 Hz. La interrupcin a tasas de 10-100 Hz
produce efectos menores.
Vocales.
precisa dicha vocal. Esto minimiza la importancia de los estados estables acsticos como
fuentes principales de identificacin.
Consonantes.
Pgina 49
2. Aspectos bsicos de sonidos y voz
Pgina 50
Problemas Propuestos
PROBLEMAS PROPUESTOS
t 3 t 0
x(t )
t 0t 3
Pgina 51