Anda di halaman 1dari 51

2.

ASPECTOS BSICOS SOBRE


SONIDOS Y VOZ

Pgina 1
Pgina 2
Introduccin

INTRODUCCIN

La primera sorpresa al iniciar este captulo es porque se titula los mtodos de Fourier
y no Transformada de Fourier. La explicacin es simple, la serie y transformada de
Fourier famosas en su inicio para seales continuas, se ha expandido a seales
discretas por el uso amplio de sistemas discretos desde la dcada de los 80s del
siglo anterior. ..

La segunda sorpresa podra ser porque iniciar un libro sobre Procesamiento de Voz
con el tema de mtodos de Fourier. La razn es simple, porque otras transformadas
modernas como ondeletas o transformadas tiempo frecuencia no han tenido una
aplicacin signigicativa para el procesamiento de voz. Sin embargo, la aplicacin de
mtodos de Fourier para anlisis, codifcacin, reconocimiento, sntesis y
ensanchamiento de voz es fundamental para todas las aplicaciones de voz.

Por otro lado, el lector no espere en este captulo un texto amplio sobre los mtodos
de Fourier, el objetivo es dar al lector una lectura sencilla y breve sobre estos
mtodos, tanto para el lector que ya tiene experiencia y desea repasarlos o bien para
quien no ha estudiado los mtodos de Fourier.

El captulo se divide en tres subtemas. El primero dedicado a los mtodos aplicados


a seales continuas, que es el tema clsico de Fourier. El segundo a los mtodos
aplicados a seales discretas que aparecen con fuerza en la dcada antes sealada.
Y finalmente, en el ltimo captulo, se realiza una presentacin de las transformadas
rpidas de Fourier, que engloban a su vez un conjunto de mtodos numricos para el
clculo rpido de la transformada o serie de Fourier.

Es relevante tener presente que los mtodos de Fourier son tan importantes es
porque nos representan a la seal en amplitud, tiempo y frecuencia, que es una
representacin fundamental en el procesamiento de voz; y tambin aumenta su
importancia porque existen algoritmos para su clculo rpido, opcin que no se tiene
en todas las transformadas ortogonales.

En el ltimo subtema se ha incluido, al principio, el tpico de transformada discreta


de Fourier de N puntos, que es una derivacin de la transformada discreta de
Fourier. Es importante mencionar que a partir de transformada discreta de Fourier de
N puntos se generan los mtodos de clculo rpido de la transformada de Fourier, y
ya no se utilizan los cuatro mtodos de Fourier de seales continuas y discretas.

Pgina 3
2. Aspectos bsicos de sonidos y voz

En muchas aplicaciones, se tienen datos de una longitud finita y limitados a cierta


cantidad de cifras decimales, de los cuales requerimos obtener informacin. Es aqu
donde se utiliza la transformada discreta de Fourier de N puntos. Sin embargo, es
muy importante conocer las propiedades y caractersticas de los 4 mtodos de
Fourier estudiados en los dos primeros subtemas.

El lector tambin encontrar fascinante la lectura sobre la gestacin histrica de


estos mtodos por parte de Jean-Baptiste-Joseph Fourier, destacado matemtico,
fsico e ingeniero prctico del siglo decimonnico, un hombre de su tiempo.
Desgraciadamente, no se aborda en este texto.

Para la comprensin de este captulo se requiere del lector conocer los temas de
cursos bsicos de lgebra, lgebra lneal, geometra analtica y clculo de funciones
reales de variable real.

Pgina 4
2.2 El sistema generador de voz

2.1 GENERACIN DE SONIDOS

Naturaleza del sonido

El sonido es una perturbacin en un medio elstico que causa una alteracin de presin y un
desplazamiento de sus partculas y que puede ser detectado auditivamente.

Cuerpo
vibrante

Un ciclo

Comprimida

Normal

Expandida

Figura 2.1

El aire es un gas elstico que posee masa, un metro cbico de aire tiene una masa un poco
mayor a un kilogramo. Si se tiene una caja cerrada de aire se acelerar segn la segunda ley
de Newton. Si se comprime lentamente por un resorte por uno de sus lados, con una presin
incremental P, se tiene que sta es inversamente proporcional a un incremento de volumen
V,

P KV

donde K es una constante.

Si la compresin es lenta de tal modo que el calor que se genera en el gas durante la
compresin tiene tiempo de fluir a las paredes del contenedor, se dice que la compresin es
isotrmica. Si no hay tiempo durante la compresin para que el calor fluya, se dice que el
proceso es adiabtico. Las ondas sonoras son esencialmente adiabticas.

Pgina 5
2. Aspectos bsicos de sonidos y voz

La sensacin auditiva se genera en un intervalo de frecuencias de 20 a 20,000 Hz.


Mediciones efectuadas indican que las mximas variaciones de presin que el odo puede
tolerar son 280 dinas/cm2 y la mnima es del orden de 310-4 dinas/cm2, como referencia la
presin atmosfrica es del orden de 1106 dinas/cm2. La elongacin mxima para una onda
sonora de 1000 Hz es igual a 10-3 cm y la correspondiente a una dbil es de 10-5 cm, como
una comparacin, el dimetro de una molcula de oxgeno es de 10-8 cm.

Figura 2.2. Presin y desplazamiento de una onda de sonido plana producida por una pared que vibra
sinusoidalmente. D1=1/4 onda; D2=1/2 onda; D3=3/4 onda; D4=1 onda; D5=2 ondas. Los puntos muy cercanos
indican un exceso positivo de presin y los separados indican exceso negativo de presin. La frecuencia de
vibracin del pistn es de 100 ciclos por segundo.

Longitud del sonido

La propagacin del sonido es esencialmente longitudinal, es decir, la direccin de


movimiento de las partculas es la misma que de la onda.

Pgina 6
2.2 El sistema generador de voz

Figura 2.3. Desplazamiento longitudinal

Y depende bsicamente de las propiedades fsicas del medio.

La velocidad sonora en un gas se deduce de la ecuacin de onda unidimensional.

2 v 1 v 2
donde c o
2 x c t 2

t: tiempo

x: desplazamiento

: relacin de calor especfico a presin constante sobre calor especfico a presin variable

o: presin esttica del gas

: 7densidad media del gas

Su solucin para un fluido encerrado en un tubo de un rea transversal grande es:

(1 )
v
(1 )(1 )

donde

: es el mdulo de compresibilidad7

: la razn de Poisson

Para ondas sonoras que esencialmente son las longitudinales tiende a cero, entonces,

En el caso de un proceso adiabtico =P donde P es la presin para un gas perfecto, como


se sabe: P/=RT/M

P RT
v
M

donde:

R: constante universal de los gases

Pgina 7
2. Aspectos bsicos de sonidos y voz

M: masa molecular

T: Temperatura

Para un gas dado , R, M son constantes, por lo que la velocidad de propagacin es


proporcional a la raz cuadrada de la temperatura absoluta

v cte T

As, para el aire son comunes los valores, M=28.8 g/mol, =1.4, R=8.31107
ergios/molgrado y T=300 K.

Entonces

ergios
1.4 8.31 10 7 300K
mol K ergios
v 34.811 10 3
g g
28.8
mol

como:

[ergios]=[dinacm]

[dina]=[gcm/s2]

g cm
s 2 cm cm m
v 34.811 103 34.811 103 348.11 s
g s

Pgina 8
2.2 El sistema generador de voz

Algunos valores de la velocidad del sonido en diferentes medios son:

Slidos (20C) Lquidos Gases (0C)

[m/s] [m/s] [m/s]

Granito 6000 Agua dulce 1493.2 Aire 331.45

Hierro 5130 Agua de 1532.8 Hidrgeno 1269


mar
Cobre 3750 Oxgeno 317
(Salinidad
3.6%)

Aluminio 5100 Kerosen 1315 Nitrgeno 339

Plomo 1230 Mercurio 1450 Vapor 404

Lucite 1840 100C

Tabla 2.1

Intensidad del sonido

La intensidad de una onda sonora se define como la potencia media transportada por unidad
de superficie, como la potencia es igual al producto de la fuerza por la sensacin se puede
llegar al valor medio de la intensidad en un periodo como:

P2
I
2 v

donde P es la amplitud de los cambios de presin.

Por ejemplo, consideremos valores comunes de =1.2210-3 g/cm3, v=3.46104 cm/s

Sea P=280 dinas/cm2, entonces: I=9410-6 [W/cm2]

Sea P=310-4 dinas/cm2, entonces: I=110-16 [W/cm2]

En una sensacin normal se tiene 110-9 [W/cm2] si consideramos un rea de 1[m2] se tiene
una potencia media producida de 110-5 [W]. As un milln de personas producen 10[W] de
potencia acstica. La potencia acstica es muy pequea.

Es muy comn utilizar una escala logartmica llamada nivel de intensidad . Donde I0 es el
nivel de referencia.

Pgina 9
2. Aspectos bsicos de sonidos y voz

I
10 log
I0

Es usual que I0 sea igual a 110-16[W/cm2]. Con este nivel de referencia e I=9410-6[W/cm2],
el nivel de intensidad equivale aproximadamente a 120[dB].

Origen del ruido Nivel de intensidad [dB]

Umbral o sensacin desagradable 120

Mquina remachadora 95

Conversacin ordinaria 65

Murmullo de las hojas 10

Umbral o sensacin sonora 0

Tabla 2.2

La sensacin sonora equivalente a la intensidad es llamada sonoridad (no es proporcional a


la intensidad). Los niveles de sonoridad dependen de la frecuencia de la onda. Fletcher
desarroll experimentalmente estas caractersticas.

Sensacin sonora
Nivel de intensidad (dB)

Frecuencia (Hz)

Figura 2.4

Pgina 10
2.2 El sistema generador de voz

Tono y timbre

Estos son dos calificativos subjetivos. El tono se refiere a la frecuencia fundamental del
sonido y el timbre a las armnicas presentes y sus amplitudes.

violn
Una cuerda 426 ciclos/s
100

10

1
0 2000 4000 6000 8000 10000 ciclos/s

Figura 2.5

En la realidad no estn presentes todas las armnicas. Cuando se tiene un sonido de varias
frecuencias, el tono queda determinado por la frecuencia de la fundamental; tambin es
posible producir un sonido con muchas armnicas cuyo tono fsicamente no existe.

Efecto Doppler

Cuando un foco sonoro o un observador est en movimiento el tono percibido por el


observador no es el mismo que cuando el foco y el observador estn en reposo. Este
fenmeno es conocido como Efecto Doppler.

En la siguiente figura el observador L se encuentra en la misma lnea de un foco S, sus


velocidades en el mismo sentido positivo son VL y VS.

a a b c d
VL VS
L S

Figura 2.6

Pgina 11
2. Aspectos bsicos de sonidos y voz

Si u es la velocidad de propagacin del sonido, como =u / f, entonces la longitud de onda


delante del foco es:

(u Vs )t u Vs

f st fs

y detrs del foco es:

(u Vs )t u Vs

f st fs

Para obtener estas expresiones observe que: en t=0 el foco se encuentra en b y en t=t en c,

ac ut Vs t (u Vs )t
cd ut Vs t (u Vs )t

Las ondas que se acercan al observador mvil (L) tienen una velocidad de propagacin u+VL
por lo que la frecuencia de estas ondas es igual a:

u VL f fs
f de donde
u VL u Vs

f: frecuencia que percibe el observador

fs: frecuencia del foco

Ejemplo. Sea fs=1000 Hz y u=300 m/s,

a) Cules son las longitudes de onda delante y detrs del foco mvil si su velocidad es de
50 m/s?

b) Si un observador como el de la figura est en reposo y el foco se aleja a 50 m/s cul es


la frecuencia percibida por el observador?

c) Si el observador se mueve a la izquierda a 40 m/s y el foco a la derecha a 50 m/s, cul


es la frecuencia percibida por el observador?

Pgina 12
2.2 El sistema generador de voz

Solucin.

a) u VS 300 50 0.35m atrs


fS 1000

u VS 300 50
0.25m delante
fS 1000

b) f f s u VL 1000 (300 0) 857.14 Hz


u Vs (300 50)

u VL (300 40)
c) f f s 1000 742.86Hz
u Vs (300 50)

Algunos efectos de otros fenmenos del sonido como reflexin, refraccin, difraccin y
atenuacin se muestran en las siguientes figuras.

Superficie de la Tierra

Superficie de la Tierra

Pgina 13
2. Aspectos bsicos de sonidos y voz

Figura 2.7

Refraccin del sonido en la atmsfera. La primera figura representa las condiciones de aire
caliente cerca de la superficie de la tierra y de aire fro a una cierta distancia de la tierra. La
velocidad del sonido en el aire caliente es mayor que en aire fri. Por lo que el sonido se
ser refractado hacia arriba. La segunda figura ilustra las condiciones de aire fro cerca de la
superficie de la tierra y aire caliente a una cierta distancia de la misma. Entonces el sonido
ser refractado hacia abajo. El cambio en la direccin del sonido debida a una variacin
espacial en la velocidad de transmisin del sonido en el medio es la refraccin trmica.

Figura 2.8

Absorcin, reflexin y transmisin del sonido a travs de una pared que parcialmente
absorbe, parcialmente transmite y parcialmente refleja. Un sonido emitido por una fuente
atraviesa una pared. Una parte de la onda incidente es reflejada por la pared, el frente de
onda del sonido reflejado es el mismo que el de una fuente de sonido en la imagen I de la
fuente original del sonido; parte de la onda incidente es absorbida por la pared; y parte de la
onda es transmitida.

Pgina 14
2.2 El sistema generador de voz

Figura 2.9

Difraccin del sonido. Los sonidos emitidos por una fuente pasan por una abertura en una
pared reflectora. Las dimensiones de la abertura son pequeas comparadas con la longitud
de onda del sonido. Una gran parte del sonido es reflejada. Una pequea porcin es
transmitida a travs de la abertura. El sonido que pasa por la abertura radia en todas las
direcciones de la misma forma que si la abertura fuese la fuente del sonido. El esparcimiento
de las ondas sonoras debido al paso a travs de la apertura es la difraccin trmica.

Pgina 15
2. Aspectos bsicos de sonidos y voz

Pgina 16
2.2 El sistema generador de voz

2.2 EL SISTEMA GENERADOR DE VOZ

Los rganos productores de sonidos se pueden dividir en tres regiones:

Tracto pulmonar o respiratorio: Formado por los pulmones y la trquea.


Genera chorros de aire.

Laringe: rea situada superiormente a la trquea e inferiormente a la


faringe. Aqu se generan los sonidos.

Tracto vocal: Formado por la faringe y las cavidades bucal y nasal. Se


modulan los sonidos provenientes de la laringe para producir los sonidos
resultantes.

Figura 2.10: Corte esquemtico del aparato fonatorio humano.

El tracto pulmonar

Los pulmones generan aire comprimido que es conducido por la trquea. stos rganos
controlan la amplitud de los sonidos, y la nica contribucin audible del tracto son los
silencios inter y entre palabras.

Pgina 17
2. Aspectos bsicos de sonidos y voz

Los pulmones son una masa esponjosa de una larga rea. Su capacidad es de 4 a 5 litros en
un adulto. Estn contenidos en una cmara de aire, la pleura, la que est contenida a su vez
lateralmente por las costillas e inferiormente por el diafragma.

El diafragma es un msculo en forma de domo ubicado inferiormente a las costillas. Cuando


se contrae, el domo se extiende hacia fuera, el 18volumen de la pleura se incrementa y el
aire entra a los pulmones. Cuando el diafragma se relaja, su extensin se contrae y el
proceso es inverso. La 18produccin de sonidos requiere de una presin por parte de los
pulmones del orden de 4 cm H2O para sonidos muy suaves hasta 18aproximadamente18te
20 cm H2O para sonidos muy fuertes y de altas frecuencias.

La respiracin consiste de 18inhalaciones y 18exhalaciones regulares de igual longitud,


mientras que la generacin de voz consiste de 18inhalaciones largas o cortas, as como de
exhalaciones controladas.

Figura 2.11

La Laringe

Est formada por tres cartlagos (cricoide, tiroides y aritenoide), por un conjunto de
msculos, y por las cuerdas vocales. Los dos primeros contienen y controlan las cuerdas
vocales. stas ltimas constituyen la fuente de generacin de sonidos y tambin cierran la
trquea para proteger el tracto pulmonar de objetos y permitir la formacin de presin dentro
del trax y el abdomen.

Pgina 18
2.2 El sistema generador de voz

Figura 2.12:Corte esquemtico de la laringe 19segn un plano horizontal

Las cuerdas vocales son un tejido slido con 19dobleces entre el frente y la parte posterior
de la laringe. Cuando las partes terminales de las cuerdas estn separadas, las cuerdas
estn abiertas, es la posicin para la respiracin. Cuando las partes terminales estn juntas,
las cuerdas estn cerradas y proporcionan el sello al tracto pulmonar para la deglutacin.
Cuando las partes terminales se abren y cierran parcial o 19totalmente, de manera rpida y
secuencial, se producen los sonidos en la 19exhalacin.

Despus de la presin de aire generada por los pulmones, la siguiente funcin es realizada
por la laringe y es llamada 19excitacin. Esta adquiere las formas siguientes: fonacin,
susurreo, fricacin, compresin y vibracin.

Fonacin

Este trmino se refiere a la 19oscilacin de las cuerdas vocales por los movimientos de los
cartlagos aritenoides. Cuando el aire es forzado a travs de las cuerdas vocales, stas
vibran. La apertura y cierre de las cuerdas secciona el pulso de aire en pulsos cuasi-
peridicos llamados pulsos glotales, con una frecuencia fundamental llamada tono. Las
formas de onda son 19aproximadamente triangulares y tienen un ciclo de trabajo del orden
de 0.3 a 0.7; como consecuencia a su forma, las altas frecuencias disminuyen su 19amplitud
a 12 dB/octava. Su naturaleza paso-bajas proporciona un espectro con una fuerte
fundamental y progresivamente ms dbiles armnicas.

Existen diferentes modos de vibracin, llamados registros. Los sonidos resultantes de la


fonacin se llaman sonoros, mientras que los sonidos con ausencia de fonacin se

Pgina 19
2. Aspectos bsicos de sonidos y voz

denominan sordos. As, por ejemplo, las vocales son sonidos sonoros, y las consonantes
como f, s, p y k son sonidos sordos.

Susurreo

Los susurros son generados en la laringe. Las cuerdas vocales estn juntas por el cartlago
aritenoides20, pero en lugar de sellar completamente la glotis existe una pequea abertura
triangular entre estos cartlagos. El aire que corre a travs de esta apertura genera
turbulencias, que ocasionan ruido de banda ancha, el cual sirve como seal excitadora.

Los susurros son ms dbiles que las fonaciones dado que implican un menor 20volumen de
aire, y tienen mayor energa en altas frecuencias.

Fricacin

La fricacin es similar al susurreo en cuanto que aire turbulento genera ruido de banda
ancha, pero existe un lugar de 20articulacin adicional en el tracto vocal. Los sonidos
producidos son llamados fricativos. La fricacin puede ocurrir con o sin fonacin.

Dado que el lugar de articulacin es cerca de los labios, slo una pequea parte del tracto
vocal est entre la fuente de 20excitacin y el aire de salida. Esto significa que la
modulacin producida por el tracto vocal est limitada en extensin y complejidad.

La fricacin, de igual manera que el susurreo, es de menor 20amplitud que la fonacin y


tiene una 20proporcin mucho ms amplia de altas frecuencias; sin embargo, los sonidos
fricativos son ms sonoros que los susurros.

Compresin

Cuando el tracto vocal est prcticamente cerrado y una persona sigue exhalando, la presin
aumenta y resulta un pequeo transitorio. La combinacin20de un silencio pequeo seguido
por una rfaga de ruido crea una 20excitacin peridica, la onda de presin es una funcin
escaln. Si el transitorio es abrupto y limpio, el sonido es una oclusiva o una plosiva como p
en spin; si es gradual y turbulento, el sonido cae en un sonido muy parecido al fricativo
llamado africativo como en j de reject.

Pgina 20
2.2 El sistema generador de voz

Vibracin

La vibracin es cuasiperidica y puede ocurrir en muchos lugares del tracto vocal, por
ejemplo, la vibrante r involucra la vibracin de la lengua contra el paladar. Estas vibraciones
pueden ocurrir con o sin fonacin.

Cuerdas vocales Cuerdas Vocales


abiertas Cerradas
Respiracin Fonacin

Figura 2.13

El Tracto vocal

Este trmino engloba a los rganos productores de voz situados arriba de las cuerdas
vocales. Consiste de cinco elementos: faringe laringeal, faringe oral, faringe nasal, cavidad
oral y cavidad nasal.

La parte superior o techo de la boca puede ser dividida en dos regiones. Al frente, el techo
est formado por un hueso llamado palatal que separa la boca de las cavidades nasales.
Atrs del palatal, el techo est formado por un msculo y tejido conectivo llamado el velo. El
velo puede ser elevado por un msculo y presionado contra la pared trasera de la faringe
para sellar los pasajes nasales del resto del tracto vocal. Enfrente del paladar se encuentra
la arista alveolar, formada por la parte gruesa del hueso donde los dientes frontales estn
insertos. La epiglotis es un cartlago en forma de plato por encima de las cuerdas vocales y
atrs de la lengua y no tiene una funcin especfica en la produccin de voz.

En el adulto, el tracto vocal es de aproximadamente 17cm de longitud. Dado que ondas


acsticas pasan por l, su comportamiento espectral es modificado por sus resonancias, las
cuales dependen de las formas que adopte el tracto. Moviendo la lengua se pueden
modificar la estructura de la cavidad oral y de la faringe oral. Se puede desacoplar la cavidad
nasal del sistema levantando el velo de manera que selle la cavidad.

La funcin del tracto vocal, para la produccin de voz, es la coloracin y articulacin de la


voz, principalmente por la lengua, los labios y la mandbula baja. Tambin contiene los
puntos principales desde los cuales los sonidos son radiados. Esta funcin es llamada

Pgina 21
2. Aspectos bsicos de sonidos y voz

modulacin ya que el sonido es modulado por el tracto vocal con objeto de modificar la
calidad del sonido e interponer sonidos adicionales e interrupciones a los sonidos.

La forma de onda glotal es muy rica en armnicas, que son drsticamente modificadas por el
tracto vocal, ste tiene sus frecuencias naturales llamadas formantes que son producidas en
todas las vocales y en algunas consonantes. Se genera una modulacin adicional por parte
de la laringe como interrupciones y rfagas de ruido de banda ancha, que contribuyen a la
formacin de las consonantes.

El modelo digital para voz

Un modelo de la voz que se considere completo debe incluir: los cambios en la seal de
excitacin, la respuesta del tracto vocal y los efectos de los labios en la radiacin. Tal modelo
es el fuente-filtro que ha sido usado por casi todos los sistemas de procesamiento de voz.

Figura 2.14

En la figura, la excitacin glotal es la entrada del filtro. Los cinco tipos de excitacin son
reducidos, de manera general, a dos: seales peridicas (sonoras) y ruido turbulento
(sonidos sordos) con distribucin gamma o laplaciana y espectro plano. El espectro glotal es
un tren de impulsos espaciados a frecuencias iguales a la frecuencia del tono fundamental.
El efecto es, aproximadamente, una cada de 12 dB/octava alrededor de 0.8 a 1 kHz.

El tracto vocal puede ser modelado aproximadamente por la funcin de transferencia:

G
H ( z) N
1 i z i
i 1

Pgina 22
2.2 El sistema generador de voz

donde G representa el factor de ganancia total y i las ubicaciones de los polos. Los polos de
H(z) corresponden a las resonancias o formantes de la voz.

La radiacin de la voz tiene la propiedad que a bajas frecuencias la presin del sonido es
proporcional a la derivada de la velocidad volumtrica. Esto introduce un levantamiento de 6
dB/octava en el espectro que puede ser modelado por

R( z ) 1 z 1

Los tres efectos pueden ser representados por una sola funcin de transferencia todo-polos
llamada espectro de envolvente. En su forma refleja la informacin principal de la seal de
voz y casi todos los sistemas de voz tratan de generarla o recuperarla.

Pgina 23
2. Aspectos bsicos de sonidos y voz

2.3 Fontica Articulatoria y Acstica

Se revisarn algunos aspectos bsicos de la fontica articulatoria y acstica para sonidos en


el idioma espaol, con la limitante de que en Mxico, como en muchos pases, existe una
gran diversidad de acentos. El nmero de palabras del alfabeto espaol difieren de acuerdo
al autor o escuela. Sin embargo, el ms grande de estos alfabetos, incluye 30 letras: 5
vocales y 25 consonantes. Los fonemas asociados casi igualan al nmero de palabras, ver
Tabla 2.3. Esta tabla incluye los smbolos de la IPA (International Phonetics Association).

Fonema Letras Ejemplos Fonema Letras Ejemplos

/a/ a cuatro /n/ n nada

/e/ e seis /l/ l lado

/i/ i cinco // ll llama

/o/ o dos /m/ m mano

/u/ u uno // nio

/b/ b bola /p/ p pera

v vaso /r/ r trozo

/c/ ch muchacho /r / r radio

/d/ d donde rr carro

/f/ f caf /s/ x, z, s, c mesa

/g/ g guerra /t/ t tela

w huevo /j/ x xerox

/x/ j, x caja /y/ y mayo

/k/ c, x casa // z caza

k kilo

Pgina 24
1.3 Transformada rpida de Fourier

q queso

Tabla 2.3 Fonemas del alfabeto espaol de Mxico

Figura2.15:Los fonemas en espaol se pueden clasificar

Las vocales

Los fonemas voclicos corresponden a las cinco vocales del alfabeto. Todos son
articulaciones abiertas de corta duracin, completamente sonoras, ya sea que estn
acentuadas o no (figura 2.16).

Pgina 25
2. Aspectos bsicos de sonidos y voz

Figura 2.16 Configuraciones articulatorias de los fonemas voclicos

Los tres primeros formantes voclicos tienen aproximadamente las frecuencias que se
muestran en la tabla 2.4.

Vocal F0 F1 F2

a 900 1300 2100

e 375 2200 2550

i 325 2300 3900

o 400 550 4300


Tabla 2.4 u 325 425 4500
Los espectros en la figura 2.17 ejemplifican los valores
mostrados en la tabla 2.4.

Pgina 26
1.3 Transformada rpida de Fourier

Figura 2.17 Espectros de los sonidos voclicos

Los fonemas varan lentamente de acuerdo a las posiciones de las vocales en las palabras y
al dialecto o regin de quien habla. Estas variantes se llaman alfonos.

Diptongos

Este trmino se refiere al monoslabo que empieza en o cerca de la posicin articulatoria de


una vocal y se mueve a o hacia la posicin de otra vocal. La vocal con la mayor abertura del
tracto vocal se llama ncleo silbico, la otra vocal con la menor abertura se llama slaba
marginal.

Un diptongo puede ser creciente o decreciente. El primero existe cuando el ncleo silbico
precede al margen silbico, el segundo viceversa.

Para diptongos crecientes, al margen silbico se le llama semiconsonante. Hay dos


semiconsonantes crecientes [j] y [w] y ocho diptongos crecientes:

[ja] hacia, [je] tiempo, [jo] radio, [ju] ciudad

[wa] agua, [we] suelo, [wi] ruido, [wo] antiguo

Pgina 27
2. Aspectos bsicos de sonidos y voz

Para diptongos decrecientes el margen silbico se llama tambin semivocal. Las


semivocales son distintas de las semiconsonantes por su posicin en el diptongo y por la
forma de articulacin. Existen dos semivocales [i] y [u] y seis diptongos decrecientes:

[ai] aire, [ei] seis, [oi] hoy

[au] causa, [eu] feudo, [ou] lo uni

En la figura 1.4 se muestran los espectros para el diptongo creciente en radio y para el
diptongo decreciente en seis. Para el primero, es dominante el alto contenido en frecuencia
de la vibrante / r / y las transiciones decrecientes en los formantes de las vocales /i/ y /o/.
Para la palabra seis es importante anotar el alto contenido en frecuencia del sonido sordo
/s/ y las transiciones crecientes para los fonemas /e/ e /i/. En los triptongos una vocal
constituye el ncleo silbico y las otras son semiconsonantes o semivocales, dependiendo
de si estn antes o despus del ncleo.

/r/ /a/ /d/ /i/ /o/ /s/ /e/ /i/ /s/

Figura 2.18. Espectros de radio y seis que muestran diptongos crecientes y decrecientes.

Pgina 28
1.3 Transformada rpida de Fourier

Consonantes

Las consonantes se clasifican de acuerdo a las maneras de articulacin descritas en la figura


1.1. Estas categoras se refieren a los grados de constriccin del punto de articulacin y la
manera en que se exhala para el siguiente sonido. Sin embargo, es importante describir
todas las categoras para las consonantes.

Africadas. Existe un cierre inicial del tracto vocal seguido de una expiracin gradual
que produce turbulencia

Aspiradas. El tracto vocal est cerrado inicialmente en el punto de articulacin y se


exhala aire antes del siguiente sonido.

Fricativas. El tracto vocal est abierto parcialmente en el punto de articulacin y el


velo est cerrado. Se genera ruido en el punto de articulacin.

Laterales. El tracto vocal est cerrado en el punto de articulacin

Nasales. El tracto vocal est cerrado en el punto de articulacin y el velo est abierto.

Plosivas. El tracto vocal est cerrado en el punto de articulacin, el pasaje nasal est
cerrado, y existe una exhalacin limpia y cortante.

Semivocales. El tracto vocal est parcialmente abierto en el punto de articulacin sin


turbulencia.

Vibrato. Existe una abertura y cierre oscilatorios en el punto de articulacin, seguidos


de una exhalacin gradual que produce turbulencia.

Todos los fonemas que corresponden a vocales, diptongos, semivocales y nasales se


conocen colectivamente como sonorantes. Los fonemas sonorantes implican sonidos
sonoros y excitan al tracto vocal solamente con pulsos cuasi-peridicos originados por la
vibracin de las cuerdas vocales. En contraste, las restantes clases son excitadas
fundamentalmente en punto de constriccin del tracto vocal y se denominan obstructivas.

Si bien las formas de articulacin dividen a los fonemas en categoras muy amplias basadas
en diferencias de excitacin, el lugar de articulacin identifica diferencias en el tracto vocal

Pgina 29
2. Aspectos bsicos de sonidos y voz

de acuerdo al punto mximo de constriccin en el tracto vocal y permiten diferenciar fonemas


que tienen la misma forma de articulacin.

A lo largo del tracto vocal existen aproximadamente ocho regiones o puntos de articulacin
que se asocian con las consonantes.

Alveolar. La punta de la lengua se acerca o toca la punta alveolar en el techo de la


boca.

Dental. La punta de la lengua hace contacto con la parte posterior del diente incisivo
superior.

Glotal. Los dobleces de las cuerdas se cierran o constrien.

Labial. Los labios se constrien. Bilabial denota constriccin en ambos labios,


mientras que labiodental denota contacto del labio inferior con los dientes superiores.

Palatal. El dorso de la lengua se constrie en el paladar duro.

Velar. El dorso de la lengua se aproxima al paladar suave.

Pgina 30
1.3 Transformada rpida de Fourier

Concentracin
Clasificacin

articulacin

articulacin

de energa
(Espectro)
Forma de

Alfonos
Lugar de

Ejemplo

Ejemplo
Fonema

/b/ sonora labial 500-1500 Hz un vaso [] el vaso

/p/ sorda bilabial (dbil) pera

/g/ sonora velar 1500-4000 Hz un gusto [] ese gusto


Plosivas

/k/ sorda velar (concentrado) casa

/d/ sonora dental 4000- Hz el diente [] ese diente

/t/ sorda dental (fuerte) tela

0-600,
/j/ sonora palatal mayo [dz] cnyuge
2200-3000 Hz

0-400,

labiodenta 1400-2200,
/f/ sonora caf
l 2900-4000
Fricativas

y 6000-8000 Hz

// sonora interdental 0-500, caza

2600-3600
/s/ sorda alveolar mesa [z] desde
y 5000-8000 Hz

/x/ sorda velar 0-900 Hz caja


Africativas

altas
/ c / sorda palatal chile
frecuencias

altas
Nasal

/m/ sonora bilabial mesa


es

frecuencias

Pgina 31
2. Aspectos bsicos de sonidos y voz

([m] enviar
) enfermo
[M]
altas lanzar
/n/ sonora velar nariz [n]
frecuencias cuento
[ ]
[n] ancho

[N] hongo

altas
// sonora bilabial nio
frecuencias

// sonora palatal llego


Semivocales

Laterales

[l] dulce
/l/ sonora alveolar lado
[] el toro

/r/ sonora alveolar cara


Semivocales

Vibrantes

/r/ sonora alveolar rezo

Tabla 2.5

Pgina 32
1.3 Transformada rpida de Fourier

Plosiva Africativa
/d/ /o/ /n/ /d/ /e/ /mu/ /cha/ /cho/

Nasal Lateral
/n/ /i/ // /o/ /l/ /a/ /d/ /o/

Figura 2.19

Pgina 33
2. Aspectos bsicos de sonidos y voz

Pgina 34
1.3 Transformada rpida de Fourier

2.4 Percepcin de sonidos y voz

Llamamos escuchar al proceso por el que el sonido es recibido y convertido en impulsos


nerviosos; por percepcin entendemos el post-proceso que realiza el cerebro a travs del
que los sonidos escuchados son interpretados y se les da un significado.

Anatoma del sistema auditivo

El odo est dividido en tres partes: odo externo, odo medio y odo interno.

Figura 2.20. Vista seccional del odo interno, medio y externo

Odo externo

Consiste en la pinna (pabelln de la oreja, cartlago visible) que incluye una cavidad
resonante llamada concha, el canal externo (conducto auditivo) y el tmpano. La forma de la
pinna provee el sentido de la direccin, especialmente la distincin entre el frente y detrs, o
arriba de abajo.

El canal externo es un tubo uniforme a travs del cual el sonido llega al tmpano. Como todos
los tubos, posee ciertas frecuencias de resonancia, de las cuales slo una en combinacin

Pgina 35
2. Aspectos bsicos de sonidos y voz

con la concha, a 2.5 kHz, se encuentra dentro del rango de la voz. Provee una ganancia de
presin del sonido de 15-20 dB. Existe otro pico de 10-17 dB en 5.5 kHz debido a la
resonancia de la concha.

Figura 2.21. Ganancia promedio de presin de los diferentes componentes del odo externo

El tmpano es una estructura cnica firme que se encuentra al final del conducto auditivo.
Vibra en respuesta al sonido y es el primer vnculo en una cadena de estructuras que
transmiten el sonido a los transductores nerviosos en el odo interno.

Odo medio

Figura: 2.22

El odo medio es una cavidad llena de aire separada del odo externo por la membrana
timpnica y conectado al odo interno por una apertura llamada ventana oval. El odo medio

Pgina 36
1.3 Transformada rpida de Fourier

tambin se conecta al mundo exterior por medio del tubo de eustaquio, que permite la
ecualizacin de la presin del aire entre el odo medio y el medio.

El odo medio posee tres huesos pequeos (oscculos) que proveen acoplamiento acstico
entre el tmpano y la ventana oval. Estos huesos son llamados martillo, estribo y yunque. El
martillo est unido a la membrana timpnica y a la ventana oval, el estribo a la ventana oval,
y el yunque conecta a ambos.

Las funciones de estos huesos son:

1) Transformacin de impedancias. Proveen una transferencia ms eficiente de la


energa acstica proveniente del tmpano (baja impedancia) a la ventana redonda
(alta impedancia). Si el sonido llegara a la ventana oval directamente, slo el 8% de
la energa incidente sera transmitida.

2) Limitacin en amplitud. Las contracciones de ciertos msculos en el odo medio se


conocen como reflejos acsticos. Estas contracciones sirven para: proteger al odo de
los daos que pueda causar el ruido, reducir la percepcin de sonido producido por
uno mismo, actuar como un control automtico de ganancia para estmulos a bajas
frecuencias, reducir los efectos perturbadores de las resonancias del odo medio, y
reducir el enmascaramiento de estmulos de altas frecuencias.

A frecuencias mayores a 2 kHz, varios factores que incluyen la masa de los oscculos y los
menos eficientes modos de vibracin de las estructuras, reducen la transmisin. El efecto
total es que el odo medio presenta una caracterstica paso banda.

Figura 2.23. Funcin de transferencia del odo medio

Pgina 37
2. Aspectos bsicos de sonidos y voz

Odo interno

Consiste del aparato vestibular, dos membranas: la ventana redonda y la oval, y la cclea.

El aparato vestibular comprende los canales semicirculares y rganos asociados, usados en


el sentido de la orientacin y equilibrio.

La cclea es un pasaje en forma de caracol que se comunica con el odo medio por medio
de las ventanas oval y redonda. Contiene los transductores que convierten las vibraciones
acsticas en impulsos nerviosos.

La cclea se encuentra dividida por la mitad, por una estructura fibrosa llamada membrana
basilar, en dos pasajes: escala vestibular y escala timpnica; stos contienen un fluido
llamado perilimfeo.

Figura 2.24:Corte transversal de la cclea o caracol.

La energa acstica entra a travs de la ventana oval, manejada por el estribo. El sonido
viaja hacia un lado de la cclea (escala vestibular), pasa hacia el otro lado (escala timpnica)
y viaja a travs de l, saliendo por la ventana redonda. El flujo ocasiona un desplazamiento
en forma de onda de la membrana basilar y las estructuras que estn unidas a ella.

Pgina 38
1.3 Transformada rpida de Fourier

Figura 2.25

El rgano de Corti constituye el transductor auditivo y es aqu donde terminan las fibras
nerviosas. Las fibras nerviosas y venas de la cclea entran en el rgano de Corti a travs de
la parte central de la cclea, el modiolus, una estructura espiral de la cclea que imparte un
giro al nervio y venas.

El rgano de Corti se encuentra sobre la membrana basilar, contiene las clulas receptoras.
stas clulas consisten en una fila de clulas en el lado modiolar del arco de Corti, y entre
tres y, hacia el apex, cinco filas de clulas externas. El hombre posee alrededor de 25,000
de estas clulas.

Figura 2.26: rgano de Corti.

Pgina 39
2. Aspectos bsicos de sonidos y voz

El nervio auditivo y el cerebro

Las fibras nerviosas en el rgano de Corti conectan las clulas receptoras al octavo nervio
craneal. Este pasa a travs del conducto auditivo interno y entra a la mdula en la regin del
ncleo coclear. La mayor parte de las fibras que salen del ncleo coclear cruzan la lnea
media del cerebro y se dirigen hacia el lado opuesto del ncleo del tlamo y entran en una
pequea regin en la parte posterior de la fisura silviana de la corteza auditiva.

Teora de la Audicin

Las dos principales ideas sobre la audicin se dividen en los siguientes grupos: Teoras del
lugar y Teoras de la frecuencia. La principal diferencia entre stas es la manera en que
funciona la cclea, esto es, la forma en que el sonido se descompone en la misma.

Teoras del Lugar

El mecanismo de la audicin se basa en el hecho de que la estructura de la cclea produce


una dispersin espacial de las componentes de frecuencia a travs de la membrana basilar y
nicamente algunos nervios auditivos se disparan dependiendo de las armnicas del sonido.

Una de las primeras y ms famosas teoras de la audicin formuladas (teora de la


resonancia) fue propuesta por Helmholtz en 1857. l afirmaba que la cclea estaba formada
por resonadores individuales, y que para un sonido complejo nicamente los resonadores
sintonizados con la fundamental y armnicas del mismo, disparaban los nervios y clulas
correspondientes. Sin embargo, los resonadores nunca fueron encontrados.

Las teoras del lugar tuvieron un nuevo impulso con los experimentos de Bksy [3], quien
formul una nueva teora basada en ondas viajeras. Observ que cuando un sonido llegaba
al tmpano, las vibraciones causaban el movimiento de los fluidos en la cclea, lo que
iniciaba el desplazamiento de una onda en la membrana basilar.

Pgina 40
1.3 Transformada rpida de Fourier

La vibracin de la membrana basilar creca en amplitud mientras la onda viajaba hacia el


apex, y a partir de cierto punto comenzaba a decrecer rpidamente, marcando un nico
mximo. Los sonidos de baja frecuencia poseen un mximo cerca del apex, mientras que los
de alta frecuencia lo poseen cerca de la base, recorriendo un camino menor.

Figura 2.27. Envolventes de desplazamiento en la particin coclear para tonos de diferentes


frecuencias y velocidad pico constante en el estribo.

A una presin constante, cada punto de la membrana basilar tiene una respuesta
aproximadamente constante a bajas frecuencias. Mientras la frecuencia aumenta, se alcanza
una cierta frecuencia de corte en la que la respuesta cae rpidamente. La membrana acta
por tanto como un filtro paso bajas.

Figura 2.28. Respuesta en frecuencia para seis diferentes puntos en la cclea. La amplitud
de la envolvente de la onda viajera fue medida mientras la frecuencia del estmulo era
variada con una velocidad pico en el estribo constante.

La cclea acta por tanto como un analizador de espectros mecnico-nervioso, que


proporciona al cerebro los lugares de mxima excitacin, realizando una suma de Fourier
para sintetizar el sonido.

Pgina 41
2. Aspectos bsicos de sonidos y voz

La principal idea de la Ley de Ohm del Sonido que origin esta teora estaba basada en la
observacin de que el odo puede descomponer sonidos complejos en tonos y sobretonos
(armnicas). Una idea similar surgi como contra argumento de esta teora. Esto es, que
para un sonido complejo que carece de su fundamental, el sujeto puede reconstruirla,
concluyendo que la descomposicin y el anlisis de la frecuencia es realizado en el cerebro y
no en el odo.

Teoras de la Frecuencia (o Temporales)

Para un cierto sonido todas las clulas producen disparos de los nervios auditivos con una
frecuencia igual a la del sonido mismo, entonces el cerebro determina la frecuencia midiendo
la tasa a la que ocurren dichos disparos.

La teora ms confiable (teora del telfono) del siglo pasado fue formulada por Rutherford en
1886. l supuso que cualquier clula receptora poda ser estimulada en cualquier lugar de la
cclea por cualquier sonido. Sin embargo, experimentos posteriores han revelado un mximo
de disparos de un nervio de 300 impulsos por segundo. En este siglo, se observ (principio
de Volley) que los disparos de los nervios eran sncronos con la frecuencia de la
estimulacin hasta 5000 disparos por segundo.

Por este principio, diferentes fibras son activadas en diferentes ciclos, por lo que la suma de
las respuestas es capaz de seguir cada ciclo de la forma de onda del estmulo.

Figura 2.29

El hecho de que esta teora falle en alcanzar los lmites superiores de la audicin llev a
Weber y Gray a formular una tercera teora que supone que ambos mecanismos contribuyen
en la percepcin de la frecuencia, la informacin temporal es usada en bajas frecuencias (15

Pgina 42
1.3 Transformada rpida de Fourier

a 400 Hz), y la informacin del lugar en altas frecuencias (ms de 5000 Hz), y ambas se
desempean en la regin de transicin entre ellas.

Percepcin del sonido

Qu sonidos son perceptibles?

Qu sonidos puede discriminar una persona?

Cmo interfiere un sonido con otro?

Intensidad y Umbrales. La intensidad percibida es una funcin de la frecuencia y nivel.


Curvas de Fletcher-Munson (1933). Comparan tonos a diferentes frecuencias y amplitudes,
proporcionando contornos de igual intensidad subjetiva. Podemos observar un mnimo en la
regin de 3 a 4 kHz, lo que indica una mayor sensibilidad en esta regin, debida a la
resonancia del conducto auditivo externo y la cclea.

Figura 2.30

El extremo superior cae con la edad; entre los jvenes puede llegar a 20 kHz, mientras que
en personas mayores puede ser hasta de 10 kHz. Los sonidos debajo de 1 kHz o por encima
de 5 kHz requieren mayor energa para ser escuchados que aquellos en el rango de 1-5 kHz,
esto es, la intensidad mnima o umbral auditivo aumenta fuera del rango de 1-5 kHz.

Pgina 43
2. Aspectos bsicos de sonidos y voz

Para sonidos fuertes hay dos umbrales. El umbral del sentir, esto es, cuando un sonido se
siente en el odo, y el umbral del dolor. stos son mucho menos variables con la frecuencia
que el umbral auditivo.

La voz ocupa nicamente una porcin del campo auditivo con frecuencias en el rango de
100-8000 Hz, y amplitudes entre 30-90 dB (medidas a una distancia de 1m). La percepcin
de la voz es ptima cuando las amplitudes se encuentran dentro del rango de 60-70 dB.

El umbral auditivo permanece aproximadamente constante en gran parte del rango de


frecuencias, entre 700 y 7000 Hz se encuentra alrededor de 3 dB. Mientras el umbral
aumenta sustancialmente por encima de 7 kHz, la energa a esas frecuencias es significativa
nicamente para fricativas. El umbral es ms relevante para frecuencias por debajo de 700
Hz, que es la regin de la primera formante as como de la frecuencia fundamental y sus
armnicas ms intensas.

Mientras la amplitud de la voz se reduce, la fundamental y sus primeras armnicas se


pierden perceptualmente. Estas frecuencias no son cruciales para la inteligibilidad de la voz,
sin embargo, las frecuencias menores a 300 Hz contribuyen a su naturalidad.

El umbral auditivo depende, entre otros parmetros, de la duracin de los sonidos. Por
ejemplo, si sta es menor a 0.3 s, el umbral aumenta. Para ruido de banda ancha de
duracin menor a 0.3s, el umbral aumenta cerca de 3 dB cada vez que la duracin disminuye
a la mitad. Para tonos que se desplazan o tonos que cambian de frecuencia, si la duracin
es de 50 ms el umbral auditivo puede ser mayor a 5 dB. Las transiciones en los fonemas
ocurren en duraciones menores a 50 ms.

Tono

A pesar del uso ingenieril del trmino tono como la frecuencia fundamental del sonido,
existen otras dos definiciones importantes dadas por los msicos y los psicoacsticos. Para
los segundos, el tono o tono virtual es la frecuencia fundamental percibida de un sonido. En
tonos complejos, el tono es percibido incluso si la fundamental est ausente. Por ejemplo, el
tono de una voz masculina de 120 Hz, es claramente percibida a travs del sistema
telefnico en el que la respuesta en frecuencia corta en 300 Hz. El tono virtual se ha
relacionado con la frecuencia fundamental por medio de la expresin:

Pgina 44
1.3 Transformada rpida de Fourier

1000 f
y 1
log 2 1000

donde y est en mels y f en Hertz.

El tono humano es proporcionado por nuestro aparato vocal: hombres 50-250 Hz, mujeres
120-500 Hz. Las armnicas no son escuchadas ordinariamente como tonos separados, sino
todo el conjunto parece un solo tono; la presencia de armnicas mayores se percibe al darle
al sonido una calidad de tono o timbre. El fenmeno perceptual del timbre es importante
porque los sonidos voclicos son distinguidos por sus diferentes contenidos armnicos.

Por debajo de 1 kHz, dos tonos iguales en amplitud deben diferir en 1-3 Hz para ser
distinguidos; mientras que a altas frecuencias, esto aumenta por ejemplo a 8 kHz son 100
Hz. Esta distincin aumenta sustancialmente si el sonido es menor a 20 dB sobre el umbral o
menor a 100 ms. En todo el campo auditivo existen cerca de 1600 frecuencias distinguibles y
350 intensidades (este nmero se reduce si se aslan los tonos). El odo es menos sensible a
sonidos cortos. Por ejemplo, existen 850 niveles de frecuencia distinguibles para tonos de
ms de 250 ms, y 120 niveles cuando la duracin disminuye a 10 ms. Los tonos son
percibidos con mayor precisin que otros sonidos, por ejemplo para ruido de banda ancha,
slo pueden distinguirse 142 frecuencias y 120 intensidades.

Enmascaramiento

Este es el fenmeno en el que un sonido interfiere con nuestra percepcin de otro. Sonidos
simultneos causan enmascaramiento en frecuencia donde el de menor frecuencia
generalmente enmascara al de mayor frecuencia; sonidos retrasados uno respecto del otro
pueden causar enmascaramiento temporal de uno o ambos sonidos.

Los experimentos sobre enmascaramiento en frecuencia muestran el efecto de un tono


sobre otro como funcin de su separacin en frecuencia. Si se fija un tono en 1200 Hz y 80
dB SPL, un segundo tono a 800 Hz puede ser escuchado con una amplitud de 12 dB. Sin
embargo, cuando el segundo tono se encuentra a 100 Hz del de 1200 Hz, se necesitan 50
dB para que pueda ser escuchado. Este efecto se mantiene para frecuencias mayores, se
requieren al menos 40 dB para el segundo tono (hasta 4 kHz) para que ste pueda ser
escuchado.

Pgina 45
2. Aspectos bsicos de sonidos y voz

Cuando se usan dos tonos, aumentan las complicaciones. Por ejemplo, como respuesta a un
par de tonos f1 y f2 Hz siendo f1<f2, el odo genera tonos combinados a f1-f2 Hz y f1+n(f1-f2) Hz,
siendo n un entero. Un tono de 1 kHz en ruido de banda angosta se vuelve inaudible cuando
se encuentra de 2-6 dB por debajo del nivel del ruido, para enmascarar completamente el
ruido debe ser 24 dB mayor [9].

El enmascaramiento temporal ocurre si la energa del ruido es cercana a la frecuencia del


tono. El enmascaramiento hacia delante es ms efectivo si el tono ocurre alrededor de 10 ms
del ruido, es mayor a 100 ms y disminuye con el tiempo. El enmascaramiento hacia atrs
decae rpidamente con el tiempo y tiene efecto nicamente con retrasos menores a 20 ms.
Sin embargo, un tono corto que termine 1 ms antes que el ruido puede experimentar 60 dB
de enmascaramiento mientras que el mismo pulso 1 ms despus del ruido es limitado a 30
dB de enmascaramiento [9].

Percepcin de la voz

La principal pregunta realizada por las teoras de la percepcin de la voz es cmo la entrada
acstica del odo es traducida por el cerebro en voz. El cerebro distingue entre sonidos de
voz y sonidos que no pertenecen a voz, procesndolos de manera diferente. La percepcin
est influenciada por el contexto. Varios investigadores han medido la facilidad con que la
voz es percibida midiendo la capacidad de los sujetos para entender voz mezclada con ruido.

Se ha encontrado que las slabas, palabras y frases sin sentido se pierden con mayor
facilidad con el ruido que las que s tienen sentido. Esto ha llevado a la idea de que las
reglas gramaticales, semnticas y del lxico son usadas como ayuda en la verificacin del
anlisis correcto del cerebro sobre la voz entrante.

Teoras de modelado de la voz percibida

Teora del anlisis por sntesis.

Pgina 46
1.3 Transformada rpida de Fourier

La importancia del contexto en la percepcin ha llevado a algunos investigadores a creer que


percibimos la voz modelando internamente al sujeto transmisor. Esto es, cuando
escuchamos al sujeto, duplicamos su voz mentalmente, siguindola y si es posible
anticipndola. Esto es anlisis por sntesis.

Teora motora.

Sugiere que la voz es percibida en trminos de articulacin. Esto es, la mente analiza la voz
manteniendo una simulacin mental de los procesos articulatorios de la generacin de voz.
Usando esta simulacin, la mente construye uno o ms modelos articulatorios hipotticos de
la voz entrante y los compara contra una serie de posibilidades.

Teora de Fant [13].

La percepcin depende principalmente de la capacidad para reconocer rasgos en el sonido


recibido sin necesidad de duplicacin. Esta creencia parece estar influenciada por la
experiencia en el reconocimiento de voz por computadora.

Teora de Cole & Jakimik.

La voz no es reconocida por el simple anlisis de la seal acstica; mientras la elocucin


continua, es analizada y el anlisis es comparado contra el conocimiento fonolgico del
lenguaje, sus reglas gramaticales y del conocimiento que el sujeto receptor tenga sobre el
transmisor.

Distorsin

Se han observado varios tipos de distorsin artificial de una seal de voz causada por
dispositivos electrnicos, as como de degradacin de la inteligibilidad. A continuacin se
presentan algunos de ellos.

Pgina 47
2. Aspectos bsicos de sonidos y voz

Filtrado.

[14] Al usar filtrado paso altas, la inteligibilidad disminuye mientras aumenta la frecuencia de
corte; la inteligibilidad permanece intacta para frecuencias de corte por debajo de 400 Hz;
aproximadamente en 1.7 kHz, el nmero de slabas correctamente reconocidas se reduce a
la mitad, y por encima de 6 kHz la voz se vuelve ininteligible. Al usar filtrado paso bajas se
obtiene el efecto contrario, la inteligibilidad permanece intacta para frecuencias de corte por
encima de 6 kHz; el nmero de slabas correctas se reduce a la mitad en 1.5 kHz
aproximadamente, y a 400 Hz la voz se vuelve ininteligible. Estos resultados varan muy
poco con cambios en amplitud.

Figura 2.31. Efectos de los filtros paso altas y paso bajas en la inteligibilidad de la voz

Truncamiento.

Los sonidos truncados mantienen su inteligibilidad. Si los sonidos son truncados en su parte
central, destruyendo la informacin de baja amplitud, la inteligibilidad disminuye
considerablemente (hasta 20% aproximadamente [15]), sin embargo, si la seal se rellena
con ruido blanco, la inteligibilidad aumenta hasta un 70%.

Pgina 48
1.3 Transformada rpida de Fourier

Interrupciones.

El efecto de alternar la seal de voz entre el odo derecho y el izquierdo fue investigado por
Huggins [16]. Los escuchas pueden percibir la voz de manera correcta si la tasa de cambio
de la seal de voz entre el odo derecho e izquierdo es baja o alta. En una tasa intermedia,
de 3-4 veces por segundo, la inteligibilidad se degrada, esta tasa corresponde
aproximadamente a la tasa de slabas. En conclusin, una slaba debe ser presentada a un
odo para que sea entendida, o puede ser muestreada rpidamente de manera que el resto
de la slaba pueda ser reconstruida.

Cuando la seal de voz es interrumpida las degradaciones son peculiares. Si la seal de voz
es alternadamente encendida y apagada con un ciclo de trabajo del 50% la peor degradacin
ocurre en frecuencias de conmutacin de 1-500 Hz. La interrupcin a tasas de 10-100 Hz
produce efectos menores.

Percepcin de las palabras

Vocales.

La teora dinmica de la percepcin de vocales establece que sta depende de un anlisis


auditivo complejo del movimiento de las formantes en, durante y fuera de la vocal. Esta
teora define la importancia de dos fuentes de informacin: 1) las transiciones de las
formantes en y fuera del ncleo de la vocal y 2) los parmetros temporales que especifican la
longitud intrnseca de la vocal. Experimentos han demostrado que incluso si el ncleo de la
vocal se encuentra ausente, pero se mantienen las componentes iniciales y transicionales
intactas, se puede reconocer de manera muy

precisa dicha vocal. Esto minimiza la importancia de los estados estables acsticos como
fuentes principales de identificacin.

Consonantes.

La informacin dinmica, variable en el tiempo, es de principal importancia en la percepcin


del lugar de articulacin. Furui demostr que se puede borrar una gran parte de una
consonante sin afectar los porcentajes de identificacin en sus experimentos. Sin embargo,
cuando la regin correspondiente a la mxima transicin espectral es truncada, la
identificacin se degrada enormemente. En conclusin, los resultados a los que lleg Furui
indican que las caractersticas dinmicas espectrales juegan un papel inusualmente

Pgina 49
2. Aspectos bsicos de sonidos y voz

significante en la percepcin de las slabas, ms significante que las regiones de estado


estable; y adems las vocales y consonantes son predominantemente percibidas con base
en sus transiciones espectrales.

Pgina 50
Problemas Propuestos

PROBLEMAS PROPUESTOS

1. Para la funcin peridica definida en un periodo por

t 3 t 0
x(t )
t 0t 3

Desarrollarla en series de Fourier de la forma (a) trigonomtrica, (b) exponencial


compleja.

Pgina 51

Anda mungkin juga menyukai