08 2011 Capitulo 2 Conceptos Basicos

2.
ASPECTOS BSICOS SOBRE

SONIDOS Y VOZ
Pgina 1
Pgina 2
Introduccin
INTRODUCCIN
La primera sorpresa al iniciar este captulo es porque se titula los mtodos de Fourier
y no Transformada de Fourier. La explicacin es simple, la serie y transformada de
Fourier famosas en su inicio para seales continuas, se ha expandido a seales
discretas por el uso amplio de sistemas discretos desde la dcada de los 80s del
siglo anterior. ..
La segunda sorpresa podra ser porque iniciar un libro sobre Procesamiento de Voz
con el tema de mtodos de Fourier. La razn es simple, porque otras transformadas
modernas como ondeletas o transformadas tiempo frecuencia no han tenido una
aplicacin signigicativa para el procesamiento de voz. Sin embargo, la aplicacin de
mtodos de Fourier para anlisis, codifcacin, reconocimiento, sntesis y
ensanchamiento de voz es fundamental para todas las aplicaciones de voz.
Por otro lado, el lector no espere en este captulo un texto amplio sobre los mtodos
de Fourier, el objetivo es dar al lector una lectura sencilla y breve sobre estos
mtodos, tanto para el lector que ya tiene experiencia y desea repasarlos o bien para
quien no ha estudiado los mtodos de Fourier.
El captulo se divide en tres subtemas. El primero dedicado a los mtodos aplicados

a seales continuas, que es el tema clsico de Fourier. El segundo a los mtodos
aplicados a seales discretas que aparecen con fuerza en la dcada antes sealada.
Y finalmente, en el ltimo captulo, se realiza una presentacin de las transformadas
rpidas de Fourier, que engloban a su vez un conjunto de mtodos numricos para el
clculo rpido de la transformada o serie de Fourier.
Es relevante tener presente que los mtodos de Fourier son tan importantes es
porque nos representan a la seal en amplitud, tiempo y frecuencia, que es una
representacin fundamental en el procesamiento de voz; y tambin aumenta su
importancia porque existen algoritmos para su clculo rpido, opcin que no se tiene
en todas las transformadas ortogonales.
En el ltimo subtema se ha incluido, al principio, el tpico de transformada discreta

de Fourier de N puntos, que es una derivacin de la transformada discreta de
Fourier. Es importante mencionar que a partir de transformada discreta de Fourier de
N puntos se generan los mtodos de clculo rpido de la transformada de Fourier, y
ya no se utilizan los cuatro mtodos de Fourier de seales continuas y discretas.
Pgina 3
2. Aspectos bsicos de sonidos y voz
En muchas aplicaciones, se tienen datos de una longitud finita y limitados a cierta

cantidad de cifras decimales, de los cuales requerimos obtener informacin. Es aqu
donde se utiliza la transformada discreta de Fourier de N puntos. Sin embargo, es
muy importante conocer las propiedades y caractersticas de los 4 mtodos de
Fourier estudiados en los dos primeros subtemas.
El lector tambin encontrar fascinante la lectura sobre la gestacin histrica de

estos mtodos por parte de Jean-Baptiste-Joseph Fourier, destacado matemtico,
fsico e ingeniero prctico del siglo decimonnico, un hombre de su tiempo.
Desgraciadamente, no se aborda en este texto.
Para la comprensin de este captulo se requiere del lector conocer los temas de
cursos bsicos de lgebra, lgebra lneal, geometra analtica y clculo de funciones
reales de variable real.
Pgina 4
2.2 El sistema generador de voz
2.1 GENERACIN DE SONIDOS
Naturaleza del sonido
El sonido es una perturbacin en un medio elstico que causa una alteracin de presin y un
desplazamiento de sus partculas y que puede ser detectado auditivamente.
Cuerpo
vibrante
Un ciclo
Comprimida
Normal
Expandida
Figura 2.1
El aire es un gas elstico que posee masa, un metro cbico de aire tiene una masa un poco
mayor a un kilogramo. Si se tiene una caja cerrada de aire se acelerar segn la segunda ley
de Newton. Si se comprime lentamente por un resorte por uno de sus lados, con una presin
incremental P, se tiene que sta es inversamente proporcional a un incremento de volumen
V,
P KV
donde K es una constante.
Si la compresin es lenta de tal modo que el calor que se genera en el gas durante la
compresin tiene tiempo de fluir a las paredes del contenedor, se dice que la compresin es
isotrmica. Si no hay tiempo durante la compresin para que el calor fluya, se dice que el
proceso es adiabtico. Las ondas sonoras son esencialmente adiabticas.
Pgina 5
La sensacin auditiva se genera en un intervalo de frecuencias de 20 a 20,000 Hz.

Mediciones efectuadas indican que las mximas variaciones de presin que el odo puede
tolerar son 280 dinas/cm2 y la mnima es del orden de 310-4 dinas/cm2, como referencia la
presin atmosfrica es del orden de 1106 dinas/cm2. La elongacin mxima para una onda
sonora de 1000 Hz es igual a 10-3 cm y la correspondiente a una dbil es de 10-5 cm, como
una comparacin, el dimetro de una molcula de oxgeno es de 10-8 cm.
Figura 2.2. Presin y desplazamiento de una onda de sonido plana producida por una pared que vibra
sinusoidalmente. D1=1/4 onda; D2=1/2 onda; D3=3/4 onda; D4=1 onda; D5=2 ondas. Los puntos muy cercanos
indican un exceso positivo de presin y los separados indican exceso negativo de presin. La frecuencia de
vibracin del pistn es de 100 ciclos por segundo.
Longitud del sonido
La propagacin del sonido es esencialmente longitudinal, es decir, la direccin de

movimiento de las partculas es la misma que de la onda.
Pgina 6
Figura 2.3. Desplazamiento longitudinal
Y depende bsicamente de las propiedades fsicas del medio.
La velocidad sonora en un gas se deduce de la ecuacin de onda unidimensional.
2 v 1 v 2
donde c o
2 x c t 2
t: tiempo
x: desplazamiento
: relacin de calor especfico a presin constante sobre calor especfico a presin variable
o: presin esttica del gas
: 7densidad media del gas
Su solucin para un fluido encerrado en un tubo de un rea transversal grande es:
(1 )
v
(1 )(1 )
donde
: es el mdulo de compresibilidad7
: la razn de Poisson
Para ondas sonoras que esencialmente son las longitudinales tiende a cero, entonces,
En el caso de un proceso adiabtico =P donde P es la presin para un gas perfecto, como

se sabe: P/=RT/M
P RT
v
M
donde:
R: constante universal de los gases
Pgina 7
M: masa molecular
T: Temperatura
Para un gas dado , R, M son constantes, por lo que la velocidad de propagacin es

proporcional a la raz cuadrada de la temperatura absoluta
v cte T
As, para el aire son comunes los valores, M=28.8 g/mol, =1.4, R=8.31107
ergios/molgrado y T=300 K.
Entonces
ergios
1.4 8.31 10 7 300K
mol K ergios
v 34.811 10 3
g g
28.8
mol
como:
[ergios]=[dinacm]
[dina]=[gcm/s2]
g cm
s 2 cm cm m
v 34.811 103 34.811 103 348.11 s
g s

Pgina 8
Algunos valores de la velocidad del sonido en diferentes medios son:
Slidos (20C) Lquidos Gases (0C)
[m/s] [m/s] [m/s]
Granito 6000 Agua dulce 1493.2 Aire 331.45
Hierro 5130 Agua de 1532.8 Hidrgeno 1269

mar
Cobre 3750 Oxgeno 317
(Salinidad
3.6%)
Aluminio 5100 Kerosen 1315 Nitrgeno 339
Plomo 1230 Mercurio 1450 Vapor 404
Lucite 1840 100C
Tabla 2.1
Intensidad del sonido
La intensidad de una onda sonora se define como la potencia media transportada por unidad
de superficie, como la potencia es igual al producto de la fuerza por la sensacin se puede
llegar al valor medio de la intensidad en un periodo como:
P2
I
2 v
donde P es la amplitud de los cambios de presin.
Por ejemplo, consideremos valores comunes de =1.2210-3 g/cm3, v=3.46104 cm/s
Sea P=280 dinas/cm2, entonces: I=9410-6 [W/cm2]
Sea P=310-4 dinas/cm2, entonces: I=110-16 [W/cm2]
En una sensacin normal se tiene 110-9 [W/cm2] si consideramos un rea de 1[m2] se tiene
una potencia media producida de 110-5 [W]. As un milln de personas producen 10[W] de
potencia acstica. La potencia acstica es muy pequea.
Es muy comn utilizar una escala logartmica llamada nivel de intensidad . Donde I0 es el
nivel de referencia.
Pgina 9
I
10 log
I0
Es usual que I0 sea igual a 110-16[W/cm2]. Con este nivel de referencia e I=9410-6[W/cm2],
el nivel de intensidad equivale aproximadamente a 120[dB].
Origen del ruido Nivel de intensidad [dB]
Umbral o sensacin desagradable 120
Mquina remachadora 95
Conversacin ordinaria 65
Murmullo de las hojas 10
Umbral o sensacin sonora 0
Tabla 2.2
La sensacin sonora equivalente a la intensidad es llamada sonoridad (no es proporcional a

la intensidad). Los niveles de sonoridad dependen de la frecuencia de la onda. Fletcher
desarroll experimentalmente estas caractersticas.
Sensacin sonora
Nivel de intensidad (dB)
Frecuencia (Hz)
Figura 2.4
Pgina 10
Tono y timbre
Estos son dos calificativos subjetivos. El tono se refiere a la frecuencia fundamental del
sonido y el timbre a las armnicas presentes y sus amplitudes.
violn
Una cuerda 426 ciclos/s
100
10
1
0 2000 4000 6000 8000 10000 ciclos/s
Figura 2.5
En la realidad no estn presentes todas las armnicas. Cuando se tiene un sonido de varias
frecuencias, el tono queda determinado por la frecuencia de la fundamental; tambin es
posible producir un sonido con muchas armnicas cuyo tono fsicamente no existe.
Efecto Doppler
Cuando un foco sonoro o un observador est en movimiento el tono percibido por el

observador no es el mismo que cuando el foco y el observador estn en reposo. Este
fenmeno es conocido como Efecto Doppler.
En la siguiente figura el observador L se encuentra en la misma lnea de un foco S, sus

velocidades en el mismo sentido positivo son VL y VS.
a a b c d
VL VS
L S
Figura 2.6
Pgina 11
Si u es la velocidad de propagacin del sonido, como =u / f, entonces la longitud de onda

delante del foco es:
(u Vs )t u Vs

f st fs
y detrs del foco es:
(u Vs )t u Vs

f st fs
Para obtener estas expresiones observe que: en t=0 el foco se encuentra en b y en t=t en c,
ac ut Vs t (u Vs )t
cd ut Vs t (u Vs )t
Las ondas que se acercan al observador mvil (L) tienen una velocidad de propagacin u+VL
por lo que la frecuencia de estas ondas es igual a:
u VL f fs
f de donde
u VL u Vs
f: frecuencia que percibe el observador
fs: frecuencia del foco
Ejemplo. Sea fs=1000 Hz y u=300 m/s,
a) Cules son las longitudes de onda delante y detrs del foco mvil si su velocidad es de
50 m/s?
b) Si un observador como el de la figura est en reposo y el foco se aleja a 50 m/s cul es

la frecuencia percibida por el observador?
c) Si el observador se mueve a la izquierda a 40 m/s y el foco a la derecha a 50 m/s, cul

es la frecuencia percibida por el observador?
Pgina 12
Solucin.
a) u VS 300 50 0.35m atrs

fS 1000
u VS 300 50
0.25m delante
fS 1000
b) f f s u VL 1000 (300 0) 857.14 Hz

u Vs (300 50)
u VL (300 40)
c) f f s 1000 742.86Hz
u Vs (300 50)
Algunos efectos de otros fenmenos del sonido como reflexin, refraccin, difraccin y
atenuacin se muestran en las siguientes figuras.
Superficie de la Tierra
Superficie de la Tierra
Pgina 13
Figura 2.7
Refraccin del sonido en la atmsfera. La primera figura representa las condiciones de aire
caliente cerca de la superficie de la tierra y de aire fro a una cierta distancia de la tierra. La
velocidad del sonido en el aire caliente es mayor que en aire fri. Por lo que el sonido se
ser refractado hacia arriba. La segunda figura ilustra las condiciones de aire fro cerca de la
superficie de la tierra y aire caliente a una cierta distancia de la misma. Entonces el sonido
ser refractado hacia abajo. El cambio en la direccin del sonido debida a una variacin
espacial en la velocidad de transmisin del sonido en el medio es la refraccin trmica.
Figura 2.8
Absorcin, reflexin y transmisin del sonido a travs de una pared que parcialmente
absorbe, parcialmente transmite y parcialmente refleja. Un sonido emitido por una fuente
atraviesa una pared. Una parte de la onda incidente es reflejada por la pared, el frente de
onda del sonido reflejado es el mismo que el de una fuente de sonido en la imagen I de la
fuente original del sonido; parte de la onda incidente es absorbida por la pared; y parte de la
onda es transmitida.
Pgina 14
Figura 2.9
Difraccin del sonido. Los sonidos emitidos por una fuente pasan por una abertura en una
pared reflectora. Las dimensiones de la abertura son pequeas comparadas con la longitud
de onda del sonido. Una gran parte del sonido es reflejada. Una pequea porcin es
transmitida a travs de la abertura. El sonido que pasa por la abertura radia en todas las
direcciones de la misma forma que si la abertura fuese la fuente del sonido. El esparcimiento
de las ondas sonoras debido al paso a travs de la apertura es la difraccin trmica.
Pgina 15
Pgina 16
2.2 EL SISTEMA GENERADOR DE VOZ
Los rganos productores de sonidos se pueden dividir en tres regiones:
Tracto pulmonar o respiratorio: Formado por los pulmones y la trquea.

Genera chorros de aire.
Laringe: rea situada superiormente a la trquea e inferiormente a la

faringe. Aqu se generan los sonidos.
Tracto vocal: Formado por la faringe y las cavidades bucal y nasal. Se

modulan los sonidos provenientes de la laringe para producir los sonidos
resultantes.
Figura 2.10: Corte esquemtico del aparato fonatorio humano.
El tracto pulmonar
Los pulmones generan aire comprimido que es conducido por la trquea. stos rganos
controlan la amplitud de los sonidos, y la nica contribucin audible del tracto son los
silencios inter y entre palabras.
Pgina 17
Los pulmones son una masa esponjosa de una larga rea. Su capacidad es de 4 a 5 litros en
un adulto. Estn contenidos en una cmara de aire, la pleura, la que est contenida a su vez
lateralmente por las costillas e inferiormente por el diafragma.
El diafragma es un msculo en forma de domo ubicado inferiormente a las costillas. Cuando

se contrae, el domo se extiende hacia fuera, el 18volumen de la pleura se incrementa y el
aire entra a los pulmones. Cuando el diafragma se relaja, su extensin se contrae y el
proceso es inverso. La 18produccin de sonidos requiere de una presin por parte de los
pulmones del orden de 4 cm H2O para sonidos muy suaves hasta 18aproximadamente18te
20 cm H2O para sonidos muy fuertes y de altas frecuencias.
La respiracin consiste de 18inhalaciones y 18exhalaciones regulares de igual longitud,

mientras que la generacin de voz consiste de 18inhalaciones largas o cortas, as como de
exhalaciones controladas.
Figura 2.11
La Laringe
Est formada por tres cartlagos (cricoide, tiroides y aritenoide), por un conjunto de
msculos, y por las cuerdas vocales. Los dos primeros contienen y controlan las cuerdas
vocales. stas ltimas constituyen la fuente de generacin de sonidos y tambin cierran la
trquea para proteger el tracto pulmonar de objetos y permitir la formacin de presin dentro
del trax y el abdomen.
Pgina 18
Figura 2.12:Corte esquemtico de la laringe 19segn un plano horizontal
Las cuerdas vocales son un tejido slido con 19dobleces entre el frente y la parte posterior
de la laringe. Cuando las partes terminales de las cuerdas estn separadas, las cuerdas
estn abiertas, es la posicin para la respiracin. Cuando las partes terminales estn juntas,
las cuerdas estn cerradas y proporcionan el sello al tracto pulmonar para la deglutacin.
Cuando las partes terminales se abren y cierran parcial o 19totalmente, de manera rpida y
secuencial, se producen los sonidos en la 19exhalacin.
Despus de la presin de aire generada por los pulmones, la siguiente funcin es realizada
por la laringe y es llamada 19excitacin. Esta adquiere las formas siguientes: fonacin,
susurreo, fricacin, compresin y vibracin.
Fonacin
Este trmino se refiere a la 19oscilacin de las cuerdas vocales por los movimientos de los
cartlagos aritenoides. Cuando el aire es forzado a travs de las cuerdas vocales, stas
vibran. La apertura y cierre de las cuerdas secciona el pulso de aire en pulsos cuasi-
peridicos llamados pulsos glotales, con una frecuencia fundamental llamada tono. Las
formas de onda son 19aproximadamente triangulares y tienen un ciclo de trabajo del orden
de 0.3 a 0.7; como consecuencia a su forma, las altas frecuencias disminuyen su 19amplitud
a 12 dB/octava. Su naturaleza paso-bajas proporciona un espectro con una fuerte
fundamental y progresivamente ms dbiles armnicas.
Existen diferentes modos de vibracin, llamados registros. Los sonidos resultantes de la

fonacin se llaman sonoros, mientras que los sonidos con ausencia de fonacin se
Pgina 19
denominan sordos. As, por ejemplo, las vocales son sonidos sonoros, y las consonantes
como f, s, p y k son sonidos sordos.
Susurreo
Los susurros son generados en la laringe. Las cuerdas vocales estn juntas por el cartlago
aritenoides20, pero en lugar de sellar completamente la glotis existe una pequea abertura
triangular entre estos cartlagos. El aire que corre a travs de esta apertura genera
turbulencias, que ocasionan ruido de banda ancha, el cual sirve como seal excitadora.
Los susurros son ms dbiles que las fonaciones dado que implican un menor 20volumen de
aire, y tienen mayor energa en altas frecuencias.
Fricacin
La fricacin es similar al susurreo en cuanto que aire turbulento genera ruido de banda
ancha, pero existe un lugar de 20articulacin adicional en el tracto vocal. Los sonidos
producidos son llamados fricativos. La fricacin puede ocurrir con o sin fonacin.
Dado que el lugar de articulacin es cerca de los labios, slo una pequea parte del tracto
vocal est entre la fuente de 20excitacin y el aire de salida. Esto significa que la
modulacin producida por el tracto vocal est limitada en extensin y complejidad.
La fricacin, de igual manera que el susurreo, es de menor 20amplitud que la fonacin y

tiene una 20proporcin mucho ms amplia de altas frecuencias; sin embargo, los sonidos
fricativos son ms sonoros que los susurros.
Compresin
Cuando el tracto vocal est prcticamente cerrado y una persona sigue exhalando, la presin
aumenta y resulta un pequeo transitorio. La combinacin20de un silencio pequeo seguido
por una rfaga de ruido crea una 20excitacin peridica, la onda de presin es una funcin
escaln. Si el transitorio es abrupto y limpio, el sonido es una oclusiva o una plosiva como p
en spin; si es gradual y turbulento, el sonido cae en un sonido muy parecido al fricativo
llamado africativo como en j de reject.
Pgina 20
Vibracin
La vibracin es cuasiperidica y puede ocurrir en muchos lugares del tracto vocal, por
ejemplo, la vibrante r involucra la vibracin de la lengua contra el paladar. Estas vibraciones
pueden ocurrir con o sin fonacin.
Cuerdas vocales Cuerdas Vocales

abiertas Cerradas
Respiracin Fonacin
Figura 2.13
El Tracto vocal
Este trmino engloba a los rganos productores de voz situados arriba de las cuerdas
vocales. Consiste de cinco elementos: faringe laringeal, faringe oral, faringe nasal, cavidad
oral y cavidad nasal.
La parte superior o techo de la boca puede ser dividida en dos regiones. Al frente, el techo
est formado por un hueso llamado palatal que separa la boca de las cavidades nasales.
Atrs del palatal, el techo est formado por un msculo y tejido conectivo llamado el velo. El
velo puede ser elevado por un msculo y presionado contra la pared trasera de la faringe
para sellar los pasajes nasales del resto del tracto vocal. Enfrente del paladar se encuentra
la arista alveolar, formada por la parte gruesa del hueso donde los dientes frontales estn
insertos. La epiglotis es un cartlago en forma de plato por encima de las cuerdas vocales y
atrs de la lengua y no tiene una funcin especfica en la produccin de voz.
En el adulto, el tracto vocal es de aproximadamente 17cm de longitud. Dado que ondas

acsticas pasan por l, su comportamiento espectral es modificado por sus resonancias, las
cuales dependen de las formas que adopte el tracto. Moviendo la lengua se pueden
modificar la estructura de la cavidad oral y de la faringe oral. Se puede desacoplar la cavidad
nasal del sistema levantando el velo de manera que selle la cavidad.
La funcin del tracto vocal, para la produccin de voz, es la coloracin y articulacin de la

voz, principalmente por la lengua, los labios y la mandbula baja. Tambin contiene los
puntos principales desde los cuales los sonidos son radiados. Esta funcin es llamada
Pgina 21
modulacin ya que el sonido es modulado por el tracto vocal con objeto de modificar la
calidad del sonido e interponer sonidos adicionales e interrupciones a los sonidos.
La forma de onda glotal es muy rica en armnicas, que son drsticamente modificadas por el
tracto vocal, ste tiene sus frecuencias naturales llamadas formantes que son producidas en
todas las vocales y en algunas consonantes. Se genera una modulacin adicional por parte
de la laringe como interrupciones y rfagas de ruido de banda ancha, que contribuyen a la
formacin de las consonantes.
El modelo digital para voz
Un modelo de la voz que se considere completo debe incluir: los cambios en la seal de
excitacin, la respuesta del tracto vocal y los efectos de los labios en la radiacin. Tal modelo
es el fuente-filtro que ha sido usado por casi todos los sistemas de procesamiento de voz.
Figura 2.14
En la figura, la excitacin glotal es la entrada del filtro. Los cinco tipos de excitacin son
reducidos, de manera general, a dos: seales peridicas (sonoras) y ruido turbulento
(sonidos sordos) con distribucin gamma o laplaciana y espectro plano. El espectro glotal es
un tren de impulsos espaciados a frecuencias iguales a la frecuencia del tono fundamental.
El efecto es, aproximadamente, una cada de 12 dB/octava alrededor de 0.8 a 1 kHz.
El tracto vocal puede ser modelado aproximadamente por la funcin de transferencia:
G
H ( z) N
1 i z i
i 1
Pgina 22
donde G representa el factor de ganancia total y i las ubicaciones de los polos. Los polos de
H(z) corresponden a las resonancias o formantes de la voz.
La radiacin de la voz tiene la propiedad que a bajas frecuencias la presin del sonido es
proporcional a la derivada de la velocidad volumtrica. Esto introduce un levantamiento de 6
dB/octava en el espectro que puede ser modelado por
R( z ) 1 z 1
Los tres efectos pueden ser representados por una sola funcin de transferencia todo-polos
llamada espectro de envolvente. En su forma refleja la informacin principal de la seal de
voz y casi todos los sistemas de voz tratan de generarla o recuperarla.
Pgina 23
2.3 Fontica Articulatoria y Acstica
Se revisarn algunos aspectos bsicos de la fontica articulatoria y acstica para sonidos en

el idioma espaol, con la limitante de que en Mxico, como en muchos pases, existe una
gran diversidad de acentos. El nmero de palabras del alfabeto espaol difieren de acuerdo
al autor o escuela. Sin embargo, el ms grande de estos alfabetos, incluye 30 letras: 5
vocales y 25 consonantes. Los fonemas asociados casi igualan al nmero de palabras, ver
Tabla 2.3. Esta tabla incluye los smbolos de la IPA (International Phonetics Association).
Fonema Letras Ejemplos Fonema Letras Ejemplos
/a/ a cuatro /n/ n nada
/e/ e seis /l/ l lado
/i/ i cinco // ll llama
/o/ o dos /m/ m mano
/u/ u uno // nio
/b/ b bola /p/ p pera
v vaso /r/ r trozo
/c/ ch muchacho /r / r radio
/d/ d donde rr carro
/f/ f caf /s/ x, z, s, c mesa
/g/ g guerra /t/ t tela
w huevo /j/ x xerox
/x/ j, x caja /y/ y mayo
/k/ c, x casa // z caza
k kilo
Pgina 24
1.3 Transformada rpida de Fourier
q queso
Tabla 2.3 Fonemas del alfabeto espaol de Mxico
Figura2.15:Los fonemas en espaol se pueden clasificar
Las vocales
Los fonemas voclicos corresponden a las cinco vocales del alfabeto. Todos son
articulaciones abiertas de corta duracin, completamente sonoras, ya sea que estn
acentuadas o no (figura 2.16).
Pgina 25
Figura 2.16 Configuraciones articulatorias de los fonemas voclicos
Los tres primeros formantes voclicos tienen aproximadamente las frecuencias que se
muestran en la tabla 2.4.
Vocal F0 F1 F2
a 900 1300 2100
e 375 2200 2550
i 325 2300 3900
o 400 550 4300

Tabla 2.4 u 325 425 4500
Los espectros en la figura 2.17 ejemplifican los valores
mostrados en la tabla 2.4.
Pgina 26
Figura 2.17 Espectros de los sonidos voclicos
Los fonemas varan lentamente de acuerdo a las posiciones de las vocales en las palabras y
al dialecto o regin de quien habla. Estas variantes se llaman alfonos.
Diptongos
Este trmino se refiere al monoslabo que empieza en o cerca de la posicin articulatoria de

una vocal y se mueve a o hacia la posicin de otra vocal. La vocal con la mayor abertura del
tracto vocal se llama ncleo silbico, la otra vocal con la menor abertura se llama slaba
marginal.
Un diptongo puede ser creciente o decreciente. El primero existe cuando el ncleo silbico
precede al margen silbico, el segundo viceversa.
Para diptongos crecientes, al margen silbico se le llama semiconsonante. Hay dos

semiconsonantes crecientes [j] y [w] y ocho diptongos crecientes:
[ja] hacia, [je] tiempo, [jo] radio, [ju] ciudad
[wa] agua, [we] suelo, [wi] ruido, [wo] antiguo
Pgina 27
Para diptongos decrecientes el margen silbico se llama tambin semivocal. Las

semivocales son distintas de las semiconsonantes por su posicin en el diptongo y por la
forma de articulacin. Existen dos semivocales [i] y [u] y seis diptongos decrecientes:
[ai] aire, [ei] seis, [oi] hoy
[au] causa, [eu] feudo, [ou] lo uni
En la figura 1.4 se muestran los espectros para el diptongo creciente en radio y para el
diptongo decreciente en seis. Para el primero, es dominante el alto contenido en frecuencia
de la vibrante / r / y las transiciones decrecientes en los formantes de las vocales /i/ y /o/.
Para la palabra seis es importante anotar el alto contenido en frecuencia del sonido sordo
/s/ y las transiciones crecientes para los fonemas /e/ e /i/. En los triptongos una vocal
constituye el ncleo silbico y las otras son semiconsonantes o semivocales, dependiendo
de si estn antes o despus del ncleo.
/r/ /a/ /d/ /i/ /o/ /s/ /e/ /i/ /s/
Figura 2.18. Espectros de radio y seis que muestran diptongos crecientes y decrecientes.
Pgina 28
Consonantes
Las consonantes se clasifican de acuerdo a las maneras de articulacin descritas en la figura

1.1. Estas categoras se refieren a los grados de constriccin del punto de articulacin y la
manera en que se exhala para el siguiente sonido. Sin embargo, es importante describir
todas las categoras para las consonantes.
Africadas. Existe un cierre inicial del tracto vocal seguido de una expiracin gradual
que produce turbulencia
Aspiradas. El tracto vocal est cerrado inicialmente en el punto de articulacin y se

exhala aire antes del siguiente sonido.
Fricativas. El tracto vocal est abierto parcialmente en el punto de articulacin y el

velo est cerrado. Se genera ruido en el punto de articulacin.
Laterales. El tracto vocal est cerrado en el punto de articulacin
Nasales. El tracto vocal est cerrado en el punto de articulacin y el velo est abierto.
Plosivas. El tracto vocal est cerrado en el punto de articulacin, el pasaje nasal est
cerrado, y existe una exhalacin limpia y cortante.
Semivocales. El tracto vocal est parcialmente abierto en el punto de articulacin sin

turbulencia.
Vibrato. Existe una abertura y cierre oscilatorios en el punto de articulacin, seguidos

de una exhalacin gradual que produce turbulencia.
Todos los fonemas que corresponden a vocales, diptongos, semivocales y nasales se

conocen colectivamente como sonorantes. Los fonemas sonorantes implican sonidos
sonoros y excitan al tracto vocal solamente con pulsos cuasi-peridicos originados por la
vibracin de las cuerdas vocales. En contraste, las restantes clases son excitadas
fundamentalmente en punto de constriccin del tracto vocal y se denominan obstructivas.
Si bien las formas de articulacin dividen a los fonemas en categoras muy amplias basadas
en diferencias de excitacin, el lugar de articulacin identifica diferencias en el tracto vocal
Pgina 29
de acuerdo al punto mximo de constriccin en el tracto vocal y permiten diferenciar fonemas

que tienen la misma forma de articulacin.
A lo largo del tracto vocal existen aproximadamente ocho regiones o puntos de articulacin
que se asocian con las consonantes.
Alveolar. La punta de la lengua se acerca o toca la punta alveolar en el techo de la

boca.
Dental. La punta de la lengua hace contacto con la parte posterior del diente incisivo
superior.
Glotal. Los dobleces de las cuerdas se cierran o constrien.
Labial. Los labios se constrien. Bilabial denota constriccin en ambos labios,

mientras que labiodental denota contacto del labio inferior con los dientes superiores.
Palatal. El dorso de la lengua se constrie en el paladar duro.
Velar. El dorso de la lengua se aproxima al paladar suave.
Pgina 30
Concentracin
Clasificacin
articulacin
articulacin
de energa
(Espectro)
Forma de
Alfonos
Lugar de
Ejemplo
Ejemplo
Fonema
/b/ sonora labial 500-1500 Hz un vaso [] el vaso
/p/ sorda bilabial (dbil) pera
/g/ sonora velar 1500-4000 Hz un gusto [] ese gusto

Plosivas
/k/ sorda velar (concentrado) casa
/d/ sonora dental 4000- Hz el diente [] ese diente
/t/ sorda dental (fuerte) tela
0-600,
/j/ sonora palatal mayo [dz] cnyuge
2200-3000 Hz
0-400,
labiodenta 1400-2200,
/f/ sonora caf
l 2900-4000
Fricativas
y 6000-8000 Hz
// sonora interdental 0-500, caza
2600-3600
/s/ sorda alveolar mesa [z] desde
y 5000-8000 Hz
/x/ sorda velar 0-900 Hz caja

Africativas
altas
/ c / sorda palatal chile
frecuencias
altas
Nasal
/m/ sonora bilabial mesa

es
frecuencias
Pgina 31
([m] enviar
) enfermo
[M]
altas lanzar
/n/ sonora velar nariz [n]
frecuencias cuento
[ ]
[n] ancho
[N] hongo
altas
// sonora bilabial nio
frecuencias
// sonora palatal llego

Semivocales
Laterales
[l] dulce
/l/ sonora alveolar lado
[] el toro
/r/ sonora alveolar cara

Semivocales
Vibrantes
/r/ sonora alveolar rezo
Tabla 2.5
Pgina 32
Plosiva Africativa
/d/ /o/ /n/ /d/ /e/ /mu/ /cha/ /cho/
Nasal Lateral
/n/ /i/ // /o/ /l/ /a/ /d/ /o/
Figura 2.19
Pgina 33
Pgina 34
2.4 Percepcin de sonidos y voz
Llamamos escuchar al proceso por el que el sonido es recibido y convertido en impulsos

nerviosos; por percepcin entendemos el post-proceso que realiza el cerebro a travs del
que los sonidos escuchados son interpretados y se les da un significado.
Anatoma del sistema auditivo
El odo est dividido en tres partes: odo externo, odo medio y odo interno.
Figura 2.20. Vista seccional del odo interno, medio y externo
Odo externo
Consiste en la pinna (pabelln de la oreja, cartlago visible) que incluye una cavidad
resonante llamada concha, el canal externo (conducto auditivo) y el tmpano. La forma de la
pinna provee el sentido de la direccin, especialmente la distincin entre el frente y detrs, o
arriba de abajo.
El canal externo es un tubo uniforme a travs del cual el sonido llega al tmpano. Como todos
los tubos, posee ciertas frecuencias de resonancia, de las cuales slo una en combinacin
Pgina 35
con la concha, a 2.5 kHz, se encuentra dentro del rango de la voz. Provee una ganancia de
presin del sonido de 15-20 dB. Existe otro pico de 10-17 dB en 5.5 kHz debido a la
resonancia de la concha.
Figura 2.21. Ganancia promedio de presin de los diferentes componentes del odo externo
El tmpano es una estructura cnica firme que se encuentra al final del conducto auditivo.
Vibra en respuesta al sonido y es el primer vnculo en una cadena de estructuras que
transmiten el sonido a los transductores nerviosos en el odo interno.
Odo medio
Figura: 2.22
El odo medio es una cavidad llena de aire separada del odo externo por la membrana
timpnica y conectado al odo interno por una apertura llamada ventana oval. El odo medio
Pgina 36
tambin se conecta al mundo exterior por medio del tubo de eustaquio, que permite la
ecualizacin de la presin del aire entre el odo medio y el medio.
El odo medio posee tres huesos pequeos (oscculos) que proveen acoplamiento acstico
entre el tmpano y la ventana oval. Estos huesos son llamados martillo, estribo y yunque. El
martillo est unido a la membrana timpnica y a la ventana oval, el estribo a la ventana oval,
y el yunque conecta a ambos.
Las funciones de estos huesos son:
1) Transformacin de impedancias. Proveen una transferencia ms eficiente de la

energa acstica proveniente del tmpano (baja impedancia) a la ventana redonda
(alta impedancia). Si el sonido llegara a la ventana oval directamente, slo el 8% de
la energa incidente sera transmitida.
2) Limitacin en amplitud. Las contracciones de ciertos msculos en el odo medio se

conocen como reflejos acsticos. Estas contracciones sirven para: proteger al odo de
los daos que pueda causar el ruido, reducir la percepcin de sonido producido por
uno mismo, actuar como un control automtico de ganancia para estmulos a bajas
frecuencias, reducir los efectos perturbadores de las resonancias del odo medio, y
reducir el enmascaramiento de estmulos de altas frecuencias.
A frecuencias mayores a 2 kHz, varios factores que incluyen la masa de los oscculos y los
menos eficientes modos de vibracin de las estructuras, reducen la transmisin. El efecto
total es que el odo medio presenta una caracterstica paso banda.
Figura 2.23. Funcin de transferencia del odo medio
Pgina 37
Odo interno
Consiste del aparato vestibular, dos membranas: la ventana redonda y la oval, y la cclea.
El aparato vestibular comprende los canales semicirculares y rganos asociados, usados en

el sentido de la orientacin y equilibrio.
La cclea es un pasaje en forma de caracol que se comunica con el odo medio por medio
de las ventanas oval y redonda. Contiene los transductores que convierten las vibraciones
acsticas en impulsos nerviosos.
La cclea se encuentra dividida por la mitad, por una estructura fibrosa llamada membrana
basilar, en dos pasajes: escala vestibular y escala timpnica; stos contienen un fluido
llamado perilimfeo.
Figura 2.24:Corte transversal de la cclea o caracol.
La energa acstica entra a travs de la ventana oval, manejada por el estribo. El sonido
viaja hacia un lado de la cclea (escala vestibular), pasa hacia el otro lado (escala timpnica)
y viaja a travs de l, saliendo por la ventana redonda. El flujo ocasiona un desplazamiento
en forma de onda de la membrana basilar y las estructuras que estn unidas a ella.
Pgina 38
Figura 2.25
El rgano de Corti constituye el transductor auditivo y es aqu donde terminan las fibras
nerviosas. Las fibras nerviosas y venas de la cclea entran en el rgano de Corti a travs de
la parte central de la cclea, el modiolus, una estructura espiral de la cclea que imparte un
giro al nervio y venas.
El rgano de Corti se encuentra sobre la membrana basilar, contiene las clulas receptoras.
stas clulas consisten en una fila de clulas en el lado modiolar del arco de Corti, y entre
tres y, hacia el apex, cinco filas de clulas externas. El hombre posee alrededor de 25,000
de estas clulas.
Figura 2.26: rgano de Corti.
Pgina 39
El nervio auditivo y el cerebro
Las fibras nerviosas en el rgano de Corti conectan las clulas receptoras al octavo nervio
craneal. Este pasa a travs del conducto auditivo interno y entra a la mdula en la regin del
ncleo coclear. La mayor parte de las fibras que salen del ncleo coclear cruzan la lnea
media del cerebro y se dirigen hacia el lado opuesto del ncleo del tlamo y entran en una
pequea regin en la parte posterior de la fisura silviana de la corteza auditiva.
Teora de la Audicin
Las dos principales ideas sobre la audicin se dividen en los siguientes grupos: Teoras del
lugar y Teoras de la frecuencia. La principal diferencia entre stas es la manera en que
funciona la cclea, esto es, la forma en que el sonido se descompone en la misma.
Teoras del Lugar
El mecanismo de la audicin se basa en el hecho de que la estructura de la cclea produce

una dispersin espacial de las componentes de frecuencia a travs de la membrana basilar y
nicamente algunos nervios auditivos se disparan dependiendo de las armnicas del sonido.
Una de las primeras y ms famosas teoras de la audicin formuladas (teora de la

resonancia) fue propuesta por Helmholtz en 1857. l afirmaba que la cclea estaba formada
por resonadores individuales, y que para un sonido complejo nicamente los resonadores
sintonizados con la fundamental y armnicas del mismo, disparaban los nervios y clulas
correspondientes. Sin embargo, los resonadores nunca fueron encontrados.
Las teoras del lugar tuvieron un nuevo impulso con los experimentos de Bksy [3], quien
formul una nueva teora basada en ondas viajeras. Observ que cuando un sonido llegaba
al tmpano, las vibraciones causaban el movimiento de los fluidos en la cclea, lo que
iniciaba el desplazamiento de una onda en la membrana basilar.
Pgina 40
La vibracin de la membrana basilar creca en amplitud mientras la onda viajaba hacia el

apex, y a partir de cierto punto comenzaba a decrecer rpidamente, marcando un nico
mximo. Los sonidos de baja frecuencia poseen un mximo cerca del apex, mientras que los
de alta frecuencia lo poseen cerca de la base, recorriendo un camino menor.
Figura 2.27. Envolventes de desplazamiento en la particin coclear para tonos de diferentes

frecuencias y velocidad pico constante en el estribo.
A una presin constante, cada punto de la membrana basilar tiene una respuesta
aproximadamente constante a bajas frecuencias. Mientras la frecuencia aumenta, se alcanza
una cierta frecuencia de corte en la que la respuesta cae rpidamente. La membrana acta
por tanto como un filtro paso bajas.
Figura 2.28. Respuesta en frecuencia para seis diferentes puntos en la cclea. La amplitud
de la envolvente de la onda viajera fue medida mientras la frecuencia del estmulo era
variada con una velocidad pico en el estribo constante.
La cclea acta por tanto como un analizador de espectros mecnico-nervioso, que

proporciona al cerebro los lugares de mxima excitacin, realizando una suma de Fourier
para sintetizar el sonido.
Pgina 41
La principal idea de la Ley de Ohm del Sonido que origin esta teora estaba basada en la
observacin de que el odo puede descomponer sonidos complejos en tonos y sobretonos
(armnicas). Una idea similar surgi como contra argumento de esta teora. Esto es, que
para un sonido complejo que carece de su fundamental, el sujeto puede reconstruirla,
concluyendo que la descomposicin y el anlisis de la frecuencia es realizado en el cerebro y
no en el odo.
Teoras de la Frecuencia (o Temporales)
Para un cierto sonido todas las clulas producen disparos de los nervios auditivos con una
frecuencia igual a la del sonido mismo, entonces el cerebro determina la frecuencia midiendo
la tasa a la que ocurren dichos disparos.
La teora ms confiable (teora del telfono) del siglo pasado fue formulada por Rutherford en
1886. l supuso que cualquier clula receptora poda ser estimulada en cualquier lugar de la
cclea por cualquier sonido. Sin embargo, experimentos posteriores han revelado un mximo
de disparos de un nervio de 300 impulsos por segundo. En este siglo, se observ (principio
de Volley) que los disparos de los nervios eran sncronos con la frecuencia de la
estimulacin hasta 5000 disparos por segundo.
Por este principio, diferentes fibras son activadas en diferentes ciclos, por lo que la suma de
las respuestas es capaz de seguir cada ciclo de la forma de onda del estmulo.
Figura 2.29
El hecho de que esta teora falle en alcanzar los lmites superiores de la audicin llev a
Weber y Gray a formular una tercera teora que supone que ambos mecanismos contribuyen
en la percepcin de la frecuencia, la informacin temporal es usada en bajas frecuencias (15
Pgina 42
a 400 Hz), y la informacin del lugar en altas frecuencias (ms de 5000 Hz), y ambas se
desempean en la regin de transicin entre ellas.
Percepcin del sonido
Qu sonidos son perceptibles?
Qu sonidos puede discriminar una persona?
Cmo interfiere un sonido con otro?
Intensidad y Umbrales. La intensidad percibida es una funcin de la frecuencia y nivel.

Curvas de Fletcher-Munson (1933). Comparan tonos a diferentes frecuencias y amplitudes,
proporcionando contornos de igual intensidad subjetiva. Podemos observar un mnimo en la
regin de 3 a 4 kHz, lo que indica una mayor sensibilidad en esta regin, debida a la
resonancia del conducto auditivo externo y la cclea.
Figura 2.30
El extremo superior cae con la edad; entre los jvenes puede llegar a 20 kHz, mientras que
en personas mayores puede ser hasta de 10 kHz. Los sonidos debajo de 1 kHz o por encima
de 5 kHz requieren mayor energa para ser escuchados que aquellos en el rango de 1-5 kHz,
esto es, la intensidad mnima o umbral auditivo aumenta fuera del rango de 1-5 kHz.
Pgina 43
Para sonidos fuertes hay dos umbrales. El umbral del sentir, esto es, cuando un sonido se
siente en el odo, y el umbral del dolor. stos son mucho menos variables con la frecuencia
que el umbral auditivo.
La voz ocupa nicamente una porcin del campo auditivo con frecuencias en el rango de
100-8000 Hz, y amplitudes entre 30-90 dB (medidas a una distancia de 1m). La percepcin
de la voz es ptima cuando las amplitudes se encuentran dentro del rango de 60-70 dB.
El umbral auditivo permanece aproximadamente constante en gran parte del rango de

frecuencias, entre 700 y 7000 Hz se encuentra alrededor de 3 dB. Mientras el umbral
aumenta sustancialmente por encima de 7 kHz, la energa a esas frecuencias es significativa
nicamente para fricativas. El umbral es ms relevante para frecuencias por debajo de 700
Hz, que es la regin de la primera formante as como de la frecuencia fundamental y sus
armnicas ms intensas.
Mientras la amplitud de la voz se reduce, la fundamental y sus primeras armnicas se

pierden perceptualmente. Estas frecuencias no son cruciales para la inteligibilidad de la voz,
sin embargo, las frecuencias menores a 300 Hz contribuyen a su naturalidad.
El umbral auditivo depende, entre otros parmetros, de la duracin de los sonidos. Por
ejemplo, si sta es menor a 0.3 s, el umbral aumenta. Para ruido de banda ancha de
duracin menor a 0.3s, el umbral aumenta cerca de 3 dB cada vez que la duracin disminuye
a la mitad. Para tonos que se desplazan o tonos que cambian de frecuencia, si la duracin
es de 50 ms el umbral auditivo puede ser mayor a 5 dB. Las transiciones en los fonemas
ocurren en duraciones menores a 50 ms.
Tono
A pesar del uso ingenieril del trmino tono como la frecuencia fundamental del sonido,
existen otras dos definiciones importantes dadas por los msicos y los psicoacsticos. Para
los segundos, el tono o tono virtual es la frecuencia fundamental percibida de un sonido. En
tonos complejos, el tono es percibido incluso si la fundamental est ausente. Por ejemplo, el
tono de una voz masculina de 120 Hz, es claramente percibida a travs del sistema
telefnico en el que la respuesta en frecuencia corta en 300 Hz. El tono virtual se ha
relacionado con la frecuencia fundamental por medio de la expresin:
Pgina 44
1000 f
y 1
log 2 1000
donde y est en mels y f en Hertz.
El tono humano es proporcionado por nuestro aparato vocal: hombres 50-250 Hz, mujeres
120-500 Hz. Las armnicas no son escuchadas ordinariamente como tonos separados, sino
todo el conjunto parece un solo tono; la presencia de armnicas mayores se percibe al darle
al sonido una calidad de tono o timbre. El fenmeno perceptual del timbre es importante
porque los sonidos voclicos son distinguidos por sus diferentes contenidos armnicos.
Por debajo de 1 kHz, dos tonos iguales en amplitud deben diferir en 1-3 Hz para ser
distinguidos; mientras que a altas frecuencias, esto aumenta por ejemplo a 8 kHz son 100
Hz. Esta distincin aumenta sustancialmente si el sonido es menor a 20 dB sobre el umbral o
menor a 100 ms. En todo el campo auditivo existen cerca de 1600 frecuencias distinguibles y
350 intensidades (este nmero se reduce si se aslan los tonos). El odo es menos sensible a
sonidos cortos. Por ejemplo, existen 850 niveles de frecuencia distinguibles para tonos de
ms de 250 ms, y 120 niveles cuando la duracin disminuye a 10 ms. Los tonos son
percibidos con mayor precisin que otros sonidos, por ejemplo para ruido de banda ancha,
slo pueden distinguirse 142 frecuencias y 120 intensidades.
Enmascaramiento
Este es el fenmeno en el que un sonido interfiere con nuestra percepcin de otro. Sonidos
simultneos causan enmascaramiento en frecuencia donde el de menor frecuencia
generalmente enmascara al de mayor frecuencia; sonidos retrasados uno respecto del otro
pueden causar enmascaramiento temporal de uno o ambos sonidos.
Los experimentos sobre enmascaramiento en frecuencia muestran el efecto de un tono

sobre otro como funcin de su separacin en frecuencia. Si se fija un tono en 1200 Hz y 80
dB SPL, un segundo tono a 800 Hz puede ser escuchado con una amplitud de 12 dB. Sin
embargo, cuando el segundo tono se encuentra a 100 Hz del de 1200 Hz, se necesitan 50
dB para que pueda ser escuchado. Este efecto se mantiene para frecuencias mayores, se
requieren al menos 40 dB para el segundo tono (hasta 4 kHz) para que ste pueda ser
escuchado.
Pgina 45
Cuando se usan dos tonos, aumentan las complicaciones. Por ejemplo, como respuesta a un
par de tonos f1 y f2 Hz siendo f1<f2, el odo genera tonos combinados a f1-f2 Hz y f1+n(f1-f2) Hz,
siendo n un entero. Un tono de 1 kHz en ruido de banda angosta se vuelve inaudible cuando
se encuentra de 2-6 dB por debajo del nivel del ruido, para enmascarar completamente el
ruido debe ser 24 dB mayor [9].
El enmascaramiento temporal ocurre si la energa del ruido es cercana a la frecuencia del

tono. El enmascaramiento hacia delante es ms efectivo si el tono ocurre alrededor de 10 ms
del ruido, es mayor a 100 ms y disminuye con el tiempo. El enmascaramiento hacia atrs
decae rpidamente con el tiempo y tiene efecto nicamente con retrasos menores a 20 ms.
Sin embargo, un tono corto que termine 1 ms antes que el ruido puede experimentar 60 dB
de enmascaramiento mientras que el mismo pulso 1 ms despus del ruido es limitado a 30
dB de enmascaramiento [9].
Percepcin de la voz
La principal pregunta realizada por las teoras de la percepcin de la voz es cmo la entrada
acstica del odo es traducida por el cerebro en voz. El cerebro distingue entre sonidos de
voz y sonidos que no pertenecen a voz, procesndolos de manera diferente. La percepcin
est influenciada por el contexto. Varios investigadores han medido la facilidad con que la
voz es percibida midiendo la capacidad de los sujetos para entender voz mezclada con ruido.
Se ha encontrado que las slabas, palabras y frases sin sentido se pierden con mayor
facilidad con el ruido que las que s tienen sentido. Esto ha llevado a la idea de que las
reglas gramaticales, semnticas y del lxico son usadas como ayuda en la verificacin del
anlisis correcto del cerebro sobre la voz entrante.
Teoras de modelado de la voz percibida
Teora del anlisis por sntesis.
Pgina 46
La importancia del contexto en la percepcin ha llevado a algunos investigadores a creer que

percibimos la voz modelando internamente al sujeto transmisor. Esto es, cuando
escuchamos al sujeto, duplicamos su voz mentalmente, siguindola y si es posible
anticipndola. Esto es anlisis por sntesis.
Teora motora.
Sugiere que la voz es percibida en trminos de articulacin. Esto es, la mente analiza la voz
manteniendo una simulacin mental de los procesos articulatorios de la generacin de voz.
Usando esta simulacin, la mente construye uno o ms modelos articulatorios hipotticos de
la voz entrante y los compara contra una serie de posibilidades.
Teora de Fant [13].
La percepcin depende principalmente de la capacidad para reconocer rasgos en el sonido

recibido sin necesidad de duplicacin. Esta creencia parece estar influenciada por la
experiencia en el reconocimiento de voz por computadora.
Teora de Cole & Jakimik.
La voz no es reconocida por el simple anlisis de la seal acstica; mientras la elocucin

continua, es analizada y el anlisis es comparado contra el conocimiento fonolgico del
lenguaje, sus reglas gramaticales y del conocimiento que el sujeto receptor tenga sobre el
transmisor.
Distorsin
Se han observado varios tipos de distorsin artificial de una seal de voz causada por
dispositivos electrnicos, as como de degradacin de la inteligibilidad. A continuacin se
presentan algunos de ellos.
Pgina 47
Filtrado.
[14] Al usar filtrado paso altas, la inteligibilidad disminuye mientras aumenta la frecuencia de
corte; la inteligibilidad permanece intacta para frecuencias de corte por debajo de 400 Hz;
aproximadamente en 1.7 kHz, el nmero de slabas correctamente reconocidas se reduce a
la mitad, y por encima de 6 kHz la voz se vuelve ininteligible. Al usar filtrado paso bajas se
obtiene el efecto contrario, la inteligibilidad permanece intacta para frecuencias de corte por
encima de 6 kHz; el nmero de slabas correctas se reduce a la mitad en 1.5 kHz
aproximadamente, y a 400 Hz la voz se vuelve ininteligible. Estos resultados varan muy
poco con cambios en amplitud.
Figura 2.31. Efectos de los filtros paso altas y paso bajas en la inteligibilidad de la voz
Truncamiento.
Los sonidos truncados mantienen su inteligibilidad. Si los sonidos son truncados en su parte
central, destruyendo la informacin de baja amplitud, la inteligibilidad disminuye
considerablemente (hasta 20% aproximadamente [15]), sin embargo, si la seal se rellena
con ruido blanco, la inteligibilidad aumenta hasta un 70%.
Pgina 48
Interrupciones.
El efecto de alternar la seal de voz entre el odo derecho y el izquierdo fue investigado por
Huggins [16]. Los escuchas pueden percibir la voz de manera correcta si la tasa de cambio
de la seal de voz entre el odo derecho e izquierdo es baja o alta. En una tasa intermedia,
de 3-4 veces por segundo, la inteligibilidad se degrada, esta tasa corresponde
aproximadamente a la tasa de slabas. En conclusin, una slaba debe ser presentada a un
odo para que sea entendida, o puede ser muestreada rpidamente de manera que el resto
de la slaba pueda ser reconstruida.
Cuando la seal de voz es interrumpida las degradaciones son peculiares. Si la seal de voz
es alternadamente encendida y apagada con un ciclo de trabajo del 50% la peor degradacin
ocurre en frecuencias de conmutacin de 1-500 Hz. La interrupcin a tasas de 10-100 Hz
produce efectos menores.
Percepcin de las palabras
Vocales.
La teora dinmica de la percepcin de vocales establece que sta depende de un anlisis

auditivo complejo del movimiento de las formantes en, durante y fuera de la vocal. Esta
teora define la importancia de dos fuentes de informacin: 1) las transiciones de las
formantes en y fuera del ncleo de la vocal y 2) los parmetros temporales que especifican la
longitud intrnseca de la vocal. Experimentos han demostrado que incluso si el ncleo de la
vocal se encuentra ausente, pero se mantienen las componentes iniciales y transicionales
intactas, se puede reconocer de manera muy
precisa dicha vocal. Esto minimiza la importancia de los estados estables acsticos como
fuentes principales de identificacin.
Consonantes.
La informacin dinmica, variable en el tiempo, es de principal importancia en la percepcin

del lugar de articulacin. Furui demostr que se puede borrar una gran parte de una
consonante sin afectar los porcentajes de identificacin en sus experimentos. Sin embargo,
cuando la regin correspondiente a la mxima transicin espectral es truncada, la
identificacin se degrada enormemente. En conclusin, los resultados a los que lleg Furui
indican que las caractersticas dinmicas espectrales juegan un papel inusualmente
Pgina 49
significante en la percepcin de las slabas, ms significante que las regiones de estado

estable; y adems las vocales y consonantes son predominantemente percibidas con base
en sus transiciones espectrales.
Pgina 50
Problemas Propuestos
PROBLEMAS PROPUESTOS
1. Para la funcin peridica definida en un periodo por
t 3 t 0
x(t )
t 0t 3
Desarrollarla en series de Fourier de la forma (a) trigonomtrica, (b) exponencial

compleja.
Pgina 51

08 2011 Capitulo 2 Conceptos Basicos

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

08 2011 Capitulo 2 Conceptos Basicos

Diunggah oleh

Hak Cipta:

Format Tersedia

2.

ASPECTOS BSICOS SOBRE

El captulo se divide en tres subtemas. El primero dedicado a los mtodos aplicados

En el ltimo subtema se ha incluido, al principio, el tpico de transformada discreta

En muchas aplicaciones, se tienen datos de una longitud finita y limitados a cierta

El lector tambin encontrar fascinante la lectura sobre la gestacin histrica de

2.1 GENERACIN DE SONIDOS

Naturaleza del sonido

donde K es una constante.

La sensacin auditiva se genera en un intervalo de frecuencias de 20 a 20,000 Hz.

Longitud del sonido

La propagacin del sonido es esencialmente longitudinal, es decir, la direccin de

Figura 2.3. Desplazamiento longitudinal

Y depende bsicamente de las propiedades fsicas del medio.

La velocidad sonora en un gas se deduce de la ecuacin de onda unidimensional.

o: presin esttica del gas

: 7densidad media del gas

Su solucin para un fluido encerrado en un tubo de un rea transversal grande es:

En el caso de un proceso adiabtico =P donde P es la presin para un gas perfecto, como

R: constante universal de los gases

Para un gas dado , R, M son constantes, por lo que la velocidad de propagacin es

Algunos valores de la velocidad del sonido en diferentes medios son:

Slidos (20C) Lquidos Gases (0C)

[m/s] [m/s] [m/s]

Granito 6000 Agua dulce 1493.2 Aire 331.45

Hierro 5130 Agua de 1532.8 Hidrgeno 1269

Aluminio 5100 Kerosen 1315 Nitrgeno 339

Plomo 1230 Mercurio 1450 Vapor 404

Lucite 1840 100C

Intensidad del sonido

donde P es la amplitud de los cambios de presin.

Por ejemplo, consideremos valores comunes de =1.2210-3 g/cm3, v=3.46104 cm/s

Sea P=280 dinas/cm2, entonces: I=9410-6 [W/cm2]

Sea P=310-4 dinas/cm2, entonces: I=110-16 [W/cm2]

Origen del ruido Nivel de intensidad [dB]

Umbral o sensacin desagradable 120

Murmullo de las hojas 10

Umbral o sensacin sonora 0

La sensacin sonora equivalente a la intensidad es llamada sonoridad (no es proporcional a

Cuando un foco sonoro o un observador est en movimiento el tono percibido por el

En la siguiente figura el observador L se encuentra en la misma lnea de un foco S, sus

Si u es la velocidad de propagacin del sonido, como =u / f, entonces la longitud de onda

y detrs del foco es:

f: frecuencia que percibe el observador

fs: frecuencia del foco

Ejemplo. Sea fs=1000 Hz y u=300 m/s,

b) Si un observador como el de la figura est en reposo y el foco se aleja a 50 m/s cul es

c) Si el observador se mueve a la izquierda a 40 m/s y el foco a la derecha a 50 m/s, cul

a) u VS 300 50 0.35m atrs

b) f f s u VL 1000 (300 0) 857.14 Hz

2.2 EL SISTEMA GENERADOR DE VOZ

Los rganos productores de sonidos se pueden dividir en tres regiones:

Tracto pulmonar o respiratorio: Formado por los pulmones y la trquea.

Laringe: rea situada superiormente a la trquea e inferiormente a la

Tracto vocal: Formado por la faringe y las cavidades bucal y nasal. Se

Figura 2.10: Corte esquemtico del aparato fonatorio humano.

El diafragma es un msculo en forma de domo ubicado inferiormente a las costillas. Cuando

La respiracin consiste de 18inhalaciones y 18exhalaciones regulares de igual longitud,

Figura 2.12:Corte esquemtico de la laringe 19segn un plano horizontal

Existen diferentes modos de vibracin, llamados registros. Los sonidos resultantes de la

La fricacin, de igual manera que el susurreo, es de menor 20amplitud que la fonacin y

Cuerdas vocales Cuerdas Vocales

En el adulto, el tracto vocal es de aproximadamente 17cm de longitud. Dado que ondas

La funcin del tracto vocal, para la produccin de voz, es la coloracin y articulacin de la