Anda di halaman 1dari 210

UNIVERSIDAD DE PAMPLONA

FACULTAD DE INGENIERAS Y ARQUITECTURA


DEPARTAMENTO DE INGENIERA ELCTRICA ELECTRNICA
SISTEMAS Y TELECOMUNICACIONES
INGENIERA ELECTRNICA

TRABAJO DE GRADO PARA


OPTAR AL TITULO DE INGENIERO EN ELECTRNICA

TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN


CODIFICADOR DE VOZ CELP UTILIZANDO LA HERRAMIENTA
COMPUTACIONAL MATLAB: CALCULO DE LA EXCITACIN

AUTOR: REYNALDO CRDENAS JORGE

PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006

UNIVERSIDAD DE PAMPLONA
FACULTAD DE INGENIERAS Y ARQUITECTURA
DEPARTAMENTO DE INGENIERA ELCTRICA ELECTRNICA
SISTEMAS Y TELECOMUNICACIONES
INGENIERA ELECTRNICA

TRABAJO DE GRADO PARA


OPTAR AL TITULO DE INGENIERO EN ELECTRNICA

TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN


CODIFICADOR DE VOZ CELP UTILIZANDO LA HERRAMIENTA
COMPUTACIONAL MATLAB: CALCULO DE LA EXCITACIN

AUTOR: REYNALDO CRDENAS JORGE

DIRECTOR: PhD. (c) DIEGO FERNEY GMEZ CAJAS

DIRECTOR DE PROGRAMA: Ing. CESAR AUGUSTO RANGEL

PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006

UNIVERSIDAD DE PAMPLONA
FACULTAD DE INGENIERAS Y ARQUITECTURA
DEPARTAMENTO DE INGENIERA ELCTRICA ELECTRNICA
SISTEMAS Y TELECOMUNICACIONES
INGENIERA ELECTRNICA

TRABAJO DE GRADO PARA


OPTAR AL TITULO DE INGENIERO EN ELECTRNICA

TITULO: DISEO E IMPLEMENTACIN SOFTWARE DE UN


CODIFICADOR DE VOZ CELP UTILIZANDO LA HERRAMIENTA
COMPUTACIONAL MATLAB: CALCULO DE LA EXCITACIN
NOMBRES Y FIRMAS DE AUTORIZACIN PARA SUSTENTAR:

---------------------------------------------REYNALDO CRDENAS

-------------------------------------------------PhD. (c) DIEGO FERNEY GMEZ

JORGE

CAJAS

Autor del trabajo de grado

Director del trabajo de grado

-------------------------------------------------------------Ing. CESAR AUGUSTO RANGEL VERA

Director de programa
JURADO CALIFICADOR

---------------------------------------------Ing. ADRIN CARVAJAL

-- --------------------------------------------MSc.(c) WALTER GASTELBONDO

FERRER

BARRAGAN

Presidente

Oponente
--------------------------------------------MSc. (c) JOS DEL CARMEN PEA
Secretario

PAMPLONA-COLOMBIA
NOVIEMBRE DE 2006

DEDICATORIA
Este proyecto va dedicado a Dios, a mi papa Cristbal Crdenas Mendoza, a
mi madre Emilse del Socorro Jorge Arrieta; a mis hermanos, Mauricio Jos,
Mara Anglica; a mi sobrino Reyden Daniel Crdenas Jorge y a todas
aquellas personas que ayudaron a crear en mi un espritu de lucha y
fortaleza, a mis amigos que me colaboraron a que este
efectuara.

proyecto se

PENSAMIENTO

El seor es mi pastor, nada me falta:

En verdes praderas me hace reposar, me conduce hacia las aguas del


remanso y me conforta mi alma; me gua por los sendero de justicia, por
amor a su nombre; aunque vaya por un valle tenebroso, no tengo miedo a
nada, porque tu ests conmigo, tu voz y tu callado me sostienen.

Me preparas una mesa ante mis enemigos, perfumas con ungento mi


cabeza y me llenas la copa a rebozar.

Lealtad y dicha me acompaan todos los das de mi vida; habitar la casa del
seor por siempre jams.

Salmo

AGRADECIMIENTOS

En primer lugar, agradezco a Dios por las bendiciones que me ha dado y por
permitirme culminar esta etapa importante de mi vida, a mi pap Cristbal
Crdenas Mendoza, a mi madre Emilse del Socorro Jorge Arrieta, a mis
hermanos Mauricio Jos, Anglica

Mara, a mi sobrino Reyden Daniel

Crdenas, y a todos mis amigos.

Agradezco a mi director Diego Ferney Gmez Cajas por la colaboracin en


el desarrollo y finalizacin de este proyecto.

Agradezco a mis compaeros que contribuyeron de alguna u otra forma a la


realizacin de este trabajo.

NDICE GENERAL

DEDICATORIA
PENSAMIENTO
AGRADECIMIENTOS
Pag.
RESUMEN Y ABSTRACT

. 13

INTRODUCCIN

.. 16

JUSTIFICACIN

17

DELIMITACIONES

19

CAPITULO I.
EL SONIDO Y SUS CARACTERSTICAS

. 20

El sonido

.. 20

Antecedentes histricos

. 21

Naturaleza del sonido

. 25

CUALIDADES DEL SONIDO

26

Intensidad

. 27

Tono

28

Presin sonora

. 29

Potencia

30

Fenmenos fsicos del sonido

30

Reflexin

31

Refraccin

. 31

Difraccin

. 33

Efecto doppler

. 34

LA VOZ Y SUS CARACTERISTICAS

37

Fonologa y fontica

. 40

Fontica experimental

41

Fontica articulatoria

. 41

ANATOMIA DEL APARATO FONADOR

43

Formantes

45

Clasificacin de los sonidos

.. 49

Oralidad y nasalidad

50

Tonalidad

. 50

Lugar y modo de articulacin

51

Posicin de los rganos articulatorios

. 53

Duracin

54

Unidades fonticas

57

CARACTERISTICAS DE LA VOZ

58

Modelo del tracto voclico

58

ANATOMIA DEL SISTEMA AUDITIVO HUMANO

. 61

El odo

61

El odo externo

62

El odo medio

.. 63

El odo interno

.. 65

Fenmenos asociados al odo

.. 68

Efecto de enmascaramiento

. 69

Capacidad auditiva

. 69

RUIDO Y SUS CARACTERISTICAS

. 72

Ruido externo

.. 73

Ruido industrial

74

Ruido atmosfrico

74

Ruido extraterrestre

75

Ruido interno

... 75

Ruido trmico

.. 76

Ruido de los semiconductores

. 78

Ruido de intermodulacion

.. 78

Ruido blanco o gaussiano

. 79

Ruido de impulso de aguja

80

CAPITULO II.
CODIFICACION DE VOZ

. 81

Definicin de codificacin de voz

81

Historia de los codificadores

... 81

Muestreo y cuantificacin

83

Cuantificacin uniformes

.. 85

Cuantificacin logartmica

89

Cuantificacin no uniforme

89

Cuantificacin vectorial

91

Medida subjetiva de la voz

92.

CLASIFICACION DE LOS CODIFICADORES

.. 91

Codificadores de forma de onda

. 95

Codificadores en el dominio del tiempo

.. 95

Modulacin por codificacin de impulsos

96

Modulacin por codificacin de impulsos diferencial

96

Modulacin delta

98

Modulacin por codificacin de impulsos diferencial adaptativa

99

Codificacin el dominio de la frecuencia


Codificacin perceptual

.. 100
..

Codificacin en subbandas

101
102

Codificacin por transformada

102

Vocoders

105

Vocoder por prediccin lineal

107

Codificadores hbridos

111

Codificacin relp

112

Codificacin mpc

Codificacin celp

112
114

Codificacin vselp

116

Anlisis de predicion lineal

120

Filtro de prediccin de retardo largo

121

Codificadores celp

124

Orgenes del celp

..

127

Estndares

127

Predictor corto

128

Predictor largo

128

Excitacin por cdigo

128

Filtros

129

Filtro FIR

... 130

Fundamentos de diseo

133

Especificaciones de diseo

134

Fundamentos de mtodos de ventaneo

.. 134

Propiedades de las ventanas

135

Filtro IIR

. 140

Capitulo III
CODIFICACIN DE LA VOZ MEDIANTE PREDICCIN LINEAL CON
EXCITACIN

POR

CDIGO

ALGEBRAICO

CONJUGADA ESTANDAR G.729

DE

ESTRUCTURA
.

PRINCIPIOS BSICOS

146

146

10

Prediccin lineal

146

Modelo fuente filtro de la voz

150

Anlisis de prediccin lineal

150

Clculo de la excitacin

.. 152

Predictor de largo plazo

152

Implementacin del codificador CELP

153

Descripcin general del codificador/decodificador

Codificador

.. 155

Decodificador

.. 157

Retardo

154

157

Preprocesamiento

158

Anlisis de la frecuencia fundamental en lazo abierto

. 158

Clculo de la respuesta impulso

. 160

Clculo de la seal objetivo

160

Bsqueda de la tabla de cdigos adaptativos

.. 161

Generacin del vector de tabla de cdigos adaptativos

.. 164

Clculo de palabras de cdigo para retardos de tabla de cdigos


adaptativos

. 164

Clculo de la ganancia de tabla de cdigos adaptativos

.. 165

Tabla de cdigos fijos: estructura y bsqueda

.. 165

Procedimiento de bsqueda de la tabla de cdigos fijos

.. 168

Clculo de palabra de cdigo de la tabla de cdigos fijos

. 168

Cuantificacin de las ganancias

168

Bsqueda de la tabla de cdigos para cuantificacin de la


ganancia

169

Descripcin de las funciones del decodificador

170

Procedimiento de decodificacin de los parmetros

170

Decodificacin de los parmetros de filtro LP

170

Decodificacin del vector de tabla de cdigos adaptativos

171

Decodificacin del vector de tabla de cdigos fijo

172

11

Decodificacin de las ganancias de las tablas de cdigos adaptativos y


Fijos

172

Cdigo en matlab

175

ANALISIS DE CONFIABILIDAD
MARCO ECONOMICO
ANALISIS DE LEGALIDAD
INFLUENCIA AMBIENTAL DEL TRABAJO
RESULTADOS
CONCLUSIONES
RECOMENDACIONES
REFERENCIAS BIBLIOGRAFICAS
ANALISIS BIBLIOGRAFICO
GLOSARIO DE TERMINOS NO CONVENCIONALES
SIMBOLOS NO CONVENCIONALES
ABREVIATURAS UTILIZADAS
ANEXOS

180
181
183
184
185
187
188
189
193
194
196
198
199

12

.
.
..
.
.

..
.....................
.

ndice de Figuras

Nombre

Pg.

FIGURA 1 Intensidad de varios elementos................................................................... 31


FIGURA 2 Reflexin del sonido ..................................................................................... 35
FIGURA 3 Refraccin del sonido................................................................................... 36
FIGURA 4 Difraccin del sonido .................................................................................... 38
FIGURA 5 El efecto Doppler .......................................................................................... 39
FIGURA 6 Corte esquematico del aparato fonador humano ...................................... 48
FIGURA 7 La glotis ......................................................................................................... 48
FIGURA 8 Funcin de rea............................................................................................ 50
FIGURA 9 Formantes de un sonido sonoro.................................................................. 50
FIGURA 10 Formantes de un sonido sordo.................................................................. 51
FIGURA 11 Corte esquematizo de la laringe segn un plano horizontal................... 51
FIGURA 12 Diagrama funcional del aparato fonador .................................................. 52
FIGURA 13 Diagrama funcional del aparato fonador .................................................. 53
FIGURA 14 Zonas del aparato fonador......................................................................... 63
FIGURA 15 El odo.......................................................................................................... 65
FIGURA 16 El Odo externo........................................................................................... 66
FIGURA 17 El Odo medio ............................................................................................. 68
FIGURA 18 El Odo interno............................................................................................ 69
FIGURA 19 Funcionamiento del odo............................................................................ 71
FIGURA 20 Enmascaramiento simultaneo ................................................................... 73
FIGURA 21 Capacidad auditiva de varios animales .................................................... 74
FIGURA 22 Seal continua ............................................................................................ 87
FIGURA 23 Seal discreta ............................................................................................. 88
FIGURA 24 Cuantificacin uniforme.............................................................................. 90
FIGURA 25 Cuantificacin no uniforme ........................................................................ 92
FIGURA 26 Ejemplo de comprensin ........................................................................... 94
FIGURA 27 Ejemplo de comprensin( b)...................................................................... 94
FIGURA 28 Grfico de la ley- para distintos valores de ......................................... 95
FIGURA 29 Calidad de voz vs Velocidad.................................................................... 98
FIGURA 30 Sistema DPCM (a) codificador (b) decodificador....................................101
FIGURA 31Modulacin delta codificador y decodificador ...........................................102
FIGURA 32. Error de sobrependiente ..........................................................................102
FIGURA 33. Codificador/decodificador ADPCM .......................................................103
FIGURA 34. Codificador en sub-bandas....................................................................106
FIGURA 35.Codificador ITU G722 Sub -band.............................................................107
FIGURA 36 .Decodificador ITU G722 Sub band.......................................................108
FIGURA 37.Codificacin por transformada .................................................................109
FIGURA 38.Modelo de produccin de voz.................................................................110
FIGURA 39. Esquema de funcionamiento de Vocoder LPC-10. .............................112
FIGURA 40. Diagrama de bloques del emisor. .........................................................113
FIGURA 41 Diagrama de bloques del Receptor .......................................................114

13

FIGURA 42 Salida del predictor..................................................................................116


FIGURA 43 (a) Seal original. (b) Residuo del filtro LPC (aumentado en 10dB). (c)
Residuo de los filtros LPC y de pitch en cascada (aumentado en 10dB).............117
FIGURA 44 Etapa de anlisis de un transmisor CELP.............................................119
FIGURA 45 Detalle de la figura 44..............................................................................119
FIGURA 46. Decodificador (sintetizador) CELP ........................................................120
FIGURA 47 Decodificador VSELP. .............................................................................121
FIGURA 48 Diagrama del Speech coder ...................................................................122
FIGURA 49. Codificador RPE-LTP..............................................................................123
FIGURA 50. Seal filtrada submuestreada y sus correspondientes secuencias. 126
FIGURA 51.Decodificador RPE-LTP............................................................................127
FIGURA 52. Esquema de un analizador CELP en la prctica ...................................130
FIGURA 53. Especificaciones de diseo de un filtro paso-bajo normalizado...........135
FIGURA 54. Prototipo de filtros pasa-bajo y pasa-alto ...............................................136
FIGURA 55 Prototipo de filtros pasa-banda y banda de rechazo..............................137
FIGURA 56 Filtro FIR pasa-bajo usando ventana de hamming................................140
FIGURA 57 Filtro FIR paso bajo usando ventana de Kaiser......................................141
FIGURA 58 Filtro FIR pasa banda usando ventana de Blackman ............................141
FIGURA 59 Esquema bsico de un filtro IIR ...............................................................142
FIGURA 60 Estrategias de diseo de filtros IIR ..........................................................144
FIGURA 61 Modelo de un sistema digital bsico........................................................146
FIGURA 62 Curva a modelar ........................................................................................147
FIGURA 67 Diagrama general de un Sistema digital de produccin de voz ............148
FIGURA 68.a)seal sorda b) Seal sonora c) excitacin completa ..........................152
FIGURA 69. Diagrama de bloques del predictor corto y largo plazo.........................152
FIGURA 70 Diagrama del filtro de largo plazo ............................................................153
FIGURA 71 Diagrama funcional del modelo conceptual de sntesis (CELP). ..........154
FIGURA 72. Principio de codificacin del codificador CS-ACELP.............................156
FIGURA 73 Principio del decodificador CS-ACELP....................................................157
FIGURA 74 Diagrama de vector de cdigos fijos........................................................167
FIGURA 75 Diagrama de bloques del codificador celp ..............................................174
FIGURA 765 Codificador y Decodificador CELP.........................................................174

14

ndice de Tablas

Nombre

Pg.

TABLA 1 Ejemplo de monemas, grafemas y fonemas ................................................ 43


TABLA 2 Clasificacin de las consonantes de la lengua castellana segn el lugar y
el modo de articulacin y la sonoridad .......................................................................... 57
TABLA 3 Clasificacin de las vocales castellanas segn la posicin de la lengua... 58
TABLA 4 Ortografas alternativas de George Bernard Shaw para dos palabras
inglesas ............................................................................................................................ 59
TABLA 5 Los fonemas del alfabeto fontico internacional utilizados en la lengua
castellana ......................................................................................................................... 60
TABLA 6 Medida subjetiva de la calidad de voz .......................................................... 97
TABLA 7 Respuesta del filtro FIR de largo plazo........................................................125
TABLA 8 Estructura da la tabla de cdigos fijos .........................................................166

15

RESUMEN

Esta investigacin esta orientada al diseo de un codificador de voz CELP


(Code Excited Linear Prediction) utilizando la herramienta computacional
MATLAB calculando la excitacin, tomando como gua el estndar G.729 de
la UIT-T (Unin Internacional de Telecomunicaciones) con el fin de reducir el
numero de bits en la transmisin de voz .

Para el modelado de la seal de voz, se utilizan dos predictores, un predictor


a largo plazo, y uno de corto plazo, el primero intenta modelar la excitacin
peridica de la seal, y el segundo, imita el comportamiento del tracto vocal.
Por otro lado, un vector de cdigos fijos modela la excitacin no peridica de
la seal de voz.

La herramienta computacional MATLAB nos ayuda al diseo del codificador


de voz CS-CELP (Conjugated Structure - Code Excited Linear Prediction)
definido por el estndar G729, pues contiene diferentes funciones que nos
facilitan el clculo de los parmetros del codificador, tales como, los
coeficientes de prediccin lineal, la correlacin de la seales, la
ventanizacin, conversin de LPC a LSP (line espectrum pairs), etc.

Para conseguir nuestro objetivo, primero generamos la excitacin sin pitch


(frecuencia fundamental), es decir, solo la componente sorda de la excitacin
(vector de cdigos fijos), posteriormente le sumamos la excitacin peridica
(seal sonora, que se modela con un vector de cdigos adaptativos)
completando la excitacin.

16

La funcin de este diseo es la de proporcionar informacin del error,


transmitiendo a bajas tasas de bits reduciendo el ancho de banda sin
sacrificar calidad en la voz y tambin, para aprovechar de una forma ms
eficiente los diferentes servicios prestados a travs de las redes que
transportan voz, como Internet, redes de telefona fija, celular, etc.

17

ABSTRACT
This investigation its oriented to design an voice coder CELP (Code Excited
Linear Prediction) using computacional tool MATLAB, calculating the
excitation, taking as guide the G.729 standard from the ITU-T (International
Telecommunications Union - Telecommunications) with the purpose of
reducing the number of bits in the voice transmission.

By obtain the model of voice signal, two predictors are used, an long term
predictor, and other short term predictor, first tries to model the periodic
excitation of the signal, and the second, imitates the behavior of vocal tract.
On the other hand, a vector of fixed codes models the nonperiodic excitation
of the voice signal.

Computacional tool MATLAB helps us to the design of voice coder CS-CELP


(Conjugated Structure - Code Excited Linear Prediction) defined by the G729
standard, because it contains different functions that facilitate the calculation
of the coder parameters, such as, the coefficients of linear lead, the signals
correlation, the windowed, conversion of LPC to LSP (Line Spectrum Pairs),
between others.

First the excitation without pitch is generated (base frequency), that is to say,
single the deaf component of the excitation (vector of fixed codes), later adds
the periodic excitation to him (sonorous signal, that it is modeled with a vector
of adaptive codes) completing the excitation.

18

The task of this design is the one to also provide information of the error,
transmitting to low rates of bits reducing the bandwidth for the improvement of
the voice quality and taking advantage of one more efficient form different
served through the networks that transport voice, like Internet, networks of
fixed, cellular telephony, between others.

19

INTRODUCCION

La voz es la forma ms natural y eficiente de comunicacin entre los seres


humanos. Sin embargo, cada vez son ms frecuentes las situaciones en las
que la comunicacin se establece con una mquina, o aquellas en las que
una mquina puede ayudar a la comunicacin entre dos seres humanos. Por
esta razn hay herramientas que nos permiten el procesamiento de la voz,
tales como los mtodos de codificacin diseados para almacenar y
transmitir la informacin de la voz en forma digital eficientemente, incluso sin
perder calidad.

La codificacin de voz nos ayuda a optimizar la utilizacin del canal de


comunicacin transmitiendo informacin a un ancho de banda menor y una
mayor inteligibilidad y naturalidad. Por ejemplo, cuando se desea transmitir
varias comunicaciones por un solo canal con la mnima perdida de calidad,
optimizando la relacin entre velocidad de transmisin (bits/segundo) e
inteligibilidad del mensaje. Teniendo en cuenta el almacenamiento de
informacin en forma digital la codificacin de voz permite utilizar menos bits
necesarios para el almacenamiento, manteniendo un nivel de calidad de voz
adecuado. Tambin nos permite incorporar algoritmos de cifrado para
establecer comunicaciones privadas y seguras, o realizar grabaciones
indescifrables para otras personas.

20

JUSTIFICACION

OBJETO

Diseo e implementacin software de un modelo para la excitacin de un


codificador CELP para el anlisis de la seal de voz en diferentes entornos,
tales como telefona digital tanto en la red telefnica pblica conmutada,
como en la red celular mvil, utilizando el algoritmo genrico de codificacin
CELP.

PROBLEMA
La comunicacin eficiente de las seales de voz ha sido una necesidad
creciente desde hace ya muchos aos, en particular, la telefona en sus
distintas manifestaciones satelital, mvil, convencional y ms recientemente
con la comunicacin de voz a travs de Internet.
En todos estos sistemas de comunicacin modernos el tratamiento de la
seal de voz para su adecuada transmisin con un mnimo uso de los
recursos del sistema, tales como canales telefnicos, ancho de banda de
radio frecuencia, ranuras (slots) de tiempo, etctera, representa uno de los
intereses ms grandes de la investigacin actual debido a la creciente
demanda de servicios con un nivel de calidad especfico.
La seal de voz en las aplicaciones ms modernas se transmite en forma
digital. sta es la preferida actualmente para los servicios de comunicacin
punto a punto debido a la versatilidad que ofrece para su manipulacin por

21

algoritmos que permitan realizar tareas como compresin, redistribucin de la


energa en el espectro mediante transformaciones, extraccin de parmetros
caractersticos, proteccin contra errores del canal y criptografa.
Las tcnicas de codificacin de voz son usadas tanto para la transmisin
cuanto para el almacenamiento compacto de seales de voz. Ellas son
demandadas para la transmisin compartida por diferentes canales de voz
en comunicaciones telefnicas digitales tanto por la red telefnica pblica
como por la red celular mvil, adems de permitir mayor seguridad y sigilo
mediante la criptografa. Por otro lado, los canales compartidos pueden
transportar vdeo o datos en entornos multimedia, que se estn tornando
cada vez mas frecuentes y en los cuales la versatilidad de disponer de
codificadores que operen a varias tasas de compresin permite establecer
compromisos entre calidad de servicio y cantidad de canales, necesarios
para atender a la demanda de la telefona por paquetes como la telefona va
Internet.

22

DELIMITACIONES

Objetivo general:

En el presente trabajo se busca estudiar el desarrollo que tienen en la


actualidad las diferentes formas de codificacin de voz,

puntualizando la

investigacin en el funcionamiento e implementacin de la excitacin de un


codificador tipo CELP.
Objetivos especficos:

1. Desarrollo conceptual sobre las diferentes tcnicas y dispositivos


utilizados en la codificacin de voz.
2. Estudio del software MATLAB para las diferentes aplicaciones
como elaboracin de filtros, clculos, anlisis de seales.
3. Anlisis de la seal de voz por medio de varios tipos de excitacin.
4. Experimentacin con el codificador CELP, trabajando con una
base de datos de voz.
5. Modelado de la excitacin para un codificador de voz CELP.

23

CAPITULO I. EL SONIDO Y SUS CARACTERSTICAS FSICAS

El Sonido
Fsicamente, el fenmeno sonoro se puede describir como la percepcin de
oscilaciones rtmicas estimuladas por algn objeto fsico vibrante que acta
como fuente emisora, este proceso requiere de una fuente que lo emita, un
canal que lo distribuya y otro que lo reciba. Como formas del lenguaje sonoro
encontramos la voz, la msica, el ruido o efecto sonoro y el silencio. El
fenmeno sonoro se divide en tres [38].

Forma sonora:

Toda configuracin acstica que tiende a ser percibida como un bloque


sonoro unitario y coherente.

Ruido o efecto sonoro:

Conjunto de formas sonoras representadas por sonidos inarticulados o de


estructura musical, de fuentes sonoras naturales y/o artificiales, que
restituyen objetiva y subjetivamente la realidad, construyendo una imagen.

Silencio:

Conjunto continuo de sucesos sonoros poco definidos, configurados por una


disminucin sbita de la intensidad en la evolucin temporal del sonido.

24

Por lo tanto,

el sonido es la vibracin de un medio elstico, bien sea

gaseoso, liquido o slido. Cuando nos referimos al sonido audible por el odo
humano, estamos hablando de la sensacin detectada por nuestro odo, y
que se produce por las rpidas variaciones de presin en el aire por encima y
por debajo de un valor esttico. Este valor esttico nos lo da la presin
atmosfrica (alrededor de 100.000 Pascals) el cual tiene unas variaciones
pequeas y de forma muy lenta, tal y como se puede comprobar en un
barmetro.

Cmo son de pequeas y de rpidas las variaciones de presin que causan


el sonido?:

Cuando las rpidas variaciones de presin se centran entre 20 y 20.000


veces por segundo (igual a una frecuencia de 20 Hz a 20 kHz) el sonido es
potencialmente audible aunque las variaciones de presin puedan ser a
veces tan pequeas como la millonsima parte de un pascal. Los sonidos
muy fuertes son causados por grandes variaciones de presin, por ejemplo
una variacin de 1 pascal se oira como un sonido muy fuerte, siempre y
cuando la mayora de la energa de dicho sonido estuviera contenida en las
frecuencias medias (1kHz - 4 kHz) que es donde el odo humano es ms
sensitivo. El sonido puede ser producido por diferentes fuentes, desde una
persona hablando hasta un altavoz vibrando y puede viajar a travs de
distintos medios de propagacin.

ANTECEDENTES HISTORICOS

Antigedad
Los pueblos antiguos efectuaron numerosas especulaciones sobre los
fenmenos elementales del sonido; sin embargo, con la excepcin de unas

25

pocas suposiciones que resultaron ser ciertas, la ciencia del sonido no


empez a desarrollarse hasta aproximadamente 1600 d.C. A partir de
aquella poca, el conocimiento del sonido avanz con ms rapidez que el
conocimiento de los fenmenos luminosos correspondientes, ya que estos
ltimos son ms difciles de observar y medir. A los antiguos griegos no les
preocupaba demasiado el estudio cientfico del sonido, pero estaban muy
interesados por la msica, y consideraban que representaba los nmeros
aplicados , frente a la aritmtica, que representaba los nmeros puros . El
filsofo Pitgoras descubri que una octava corresponde a una relacin de
frecuencias de dos a uno, y enunci la ley que vincula la consonancia a las
relaciones numricas; posteriormente construy todo un edificio de
especulaciones msticas en torno a esa ley. Aristteles, en unas breves
observaciones sobre el sonido, realiz una suposicin bastante acertada
sobre la naturaleza de su generacin y transmisin. Sin embargo, no se
efectuaron estudios experimentales vlidos hasta 1600, cuando Galileo llev
a cabo un estudio cientfico del sonido y enunci muchas de sus leyes
fundamentales. Galileo determin la relacin entre tono y frecuencia, y unas
leyes musicales de armona y disonancia. Tambin explic de forma terica
cmo la frecuencia natural de vibracin de una cuerda tensa, y por tanto la
frecuencia de los sonidos producidos por un instrumento de cuerda, depende
de la longitud, peso y tensin de la cuerda.
Siglos XVII Y XVIII
El matemtico francs Marin Mersenne realiz medidas cuantitativas en
relacin con el sonido al hallar el tiempo de retorno de un eco y calcular un
valor de la velocidad del sonido que difera del valor real en menos del 10%.
Mersenne tambin fue el primero en medir de forma aproximada la
frecuencia de una nota de tono determinado. Midi la frecuencia de vibracin
de un cable largo y pesado cuyo movimiento era tan lento que poda seguirse

26

a simple vista; despus, a partir de consideraciones tericas, calcul la


frecuencia de un cable corto y ligero que produca un sonido audible.

En 1660, el cientfico ingls de origen Irlands Robert Boyle demostr que el


sonido necesitaba un medio gaseoso, lquido o slido para su transmisin.
Boyle colg una campana de una cuerda en el vaco y mostr que, aunque
poda verse cmo el badajo golpeaba la campana, no se oa ningn sonido.

El matemtico y fsico britnico Isaac Newton fue el primero en realizar un


tratamiento matemtico del sonido en sus principios matemticos de la
filosofa natural (1687). Una vez demostrado que la propagacin del sonido a
travs de cualquier fluido slo dependa de propiedades fsicas medibles del
fluido, como la elasticidad o la densidad, Newton calcul a partir de
consideraciones tericas la velocidad del sonido en el aire.

El siglo XVIII fue sobre todo un periodo de desarrollo terico. El clculo


supuso una potente herramienta nueva para cientficos de muchos campos.
Los matemticos franceses Jean le Rond d'Alembert y Joseph Louis
Lagrange y los matemticos suizos Johann Bernoulli y Leonhard Euler
contribuyeron al conocimiento de cuestiones como el tono y el timbre del
sonido producido por un instrumento musical determinado, o la velocidad y
naturaleza de la transmisin del sonido en diferentes medios. Sin embargo,
el tratamiento matemtico completo del sonido requiere el anlisis armnico,
desarrollado por el matemtico francs Joseph Fourier en 1822 y aplicado al
sonido por el fsico alemn Georg Simon Ohm.

Las variaciones de sonido denominadas batidos , una consecuencia de la


naturaleza ondulatoria del sonido, fueron descubiertas en torno a 1740 por el
violinista italiano Giuseppe Tartini y el organista alemn Georg Sorge. El
fsico alemn Ernst Chladni realiz numerosos descubrimientos sobre el

27

sonido a finales del siglo XVIII, sobre todo en relacin con la vibracin de
cuerdas y varillas.
Siglos XIX Y XX
El siglo XIX supuso, sobre todo, una era de desarrollo experimental. Las
primeras medidas precisas de la velocidad del sonido en el agua fueron
llevadas a cabo en 1826 por el matemtico francs Jacques Charles
Franois Sturm, y a lo largo del siglo se realizaron numerosos experimentos
para determinar con extremada precisin la velocidad de sonidos de
diferentes frecuencias en distintos medios. La ley fundamental que dice que
la velocidad es la misma para sonidos de cualquier frecuencia y depende de
la densidad y elasticidad del medio qued establecida en dichos
experimentos.
Durante el siglo XIX se emplearon en el estudio del sonido aparatos como el
estroboscopio, el fonendoscopio o la sirena. En este siglo se dedic tambin
mucho inters al establecimiento de un patrn de tono. La primera
sugerencia de un patrn la realiz el fsico francs Joseph Sauveur alrededor
de 1700. Sauveur propuso que el do equivaliera a 256 Hz, un patrn cmodo
desde el punto de vista matemtico (al ser una potencia de dos). El fsico
alemn Johann Heinrich Scheibler llev a cabo la primera determinacin
precisa de la frecuencia de un tono, y en 1834 propuso como patrn que el la
equivaliera a 440 Hz. En 1859, el gobierno francs decret que el patrn
para el la fuera de 435 Hz, segn las investigaciones del fsico francs Jules
Antoine Lissajous. Este patrn se acept en muchas regiones del mundo
hasta bien entrado el siglo XX.
En el siglo XIX se inventaron el telfono, el micrfono y diversos tipos de
gramfono, todos ellos muy tiles para el estudio del sonido. En el siglo XX,
los fsicos dispusieron por primera vez de instrumentos que hacan posible

28

un estudio sencillo, preciso y cuantitativo del sonido. Mediante osciladores


electrnicos pueden producirse ondas electromagnticas de cualquier tipo y
convertirlas en sonido mediante sistemas electromagnticos o piezoelctricos.
En sentido inverso, es posible convertir los sonidos en corrientes elctricas
mediante un micrfono, amplificarlas electrnicamente sin distorsin y
analizarlas mediante un osciloscopio de rayos catdicos. Las tcnicas
modernas permiten grabar y reproducir el sonido con una fidelidad
extremadamente elevada.

En la primera Guerra Mundial, las necesidades militares llevaron a emplear


por primera vez el sonar para la deteccin de submarinos, que hoy tambin
se emplea para estudiar las corrientes y capas ocenicas y para realizar
mapas de los fondos marinos. En la actualidad, las ondas de sonido de
frecuencias muy elevadas (ultrasonidos) se emplean en numerosas
aplicaciones tcnicas y mdicas.

Naturaleza del sonido

Las ondas sonoras constituyen un tipo de ondas mecnicas que tienen la


virtud de estimular el odo humano y generar la sensacin sonora. En el
estudio del sonido se deben distinguir los aspectos fsicos de los aspectos
fisiolgicos relacionados con la audicin. Desde un punto de vista fsico el
sonido comparte todas las propiedades caractersticas del comportamiento
ondulatorio, por lo que puede ser descrito utilizando los conceptos sobre
ondas. A su vez el estudio del sonido sirve para mejorar la comprensin de
algunos fenmenos tpicos de las ondas. Desde un punto de vista fisiolgico
slo existe sonido cuando un odo es capaz de percibirlo. El sonido La
sensacin producida en el odo por la vibracin de las partculas que se

29

desplazan a travs de un medio elstico (slido, lquido o gaseoso) que las


propaga.

Para que exista el sonido se tienen en cuenta los siguientes factores.


Una fuente de vibracin mecnica.
Un medio elstico por el cual se propague la perturbacin.

Cuando hay variaciones y perturbaciones est claro que debe haber un valor
esttico, a partir del cual se producen estas variaciones. En el caso del aire,
el valor esttico no los da la presin atmosfrica.
CUALIDADES DEL SONIDO

Intensidad

La intensidad del sonido percibido, o propiedad que hace que ste se capte
como fuerte o como dbil, est relacionada con la intensidad de la onda
sonora correspondiente, tambin llamada intensidad acstica. La intensidad
acstica es una magnitud que da idea de la cantidad de energa que est
fluyendo por el medio como consecuencia de la propagacin de la onda.

Se define como la energa que atraviesa por segundo una superficie unidad
dispuesta perpendicularmente a la direccin de propagacin. Equivale a una
potencia por unidad de superficie y se expresa en W/m2. La intensidad de
una onda sonora es proporcional al cuadrado de su frecuencia y al cuadrado
de su amplitud y disminuye con la distancia al foco.

La magnitud de la sensacin sonora depende de la intensidad acstica, pero


tambin depende de la sensibilidad del odo. El intervalo de intensidades
acsticas que va desde el umbral de audibilidad, o valor mnimo perceptible,

30

hasta el umbral del dolor es muy amplio, estando ambos valores lmite en
una relacin del orden de 1014.

Debido a la extensin de este intervalo de audibilidad, para expresar


intensidades sonoras se emplea una escala cuyas divisiones son potencias
de diez y cuya unidad de medida es el decibelio (dB). Ello significa que una
intensidad acstica de 10 decibelios corresponde a una energa diez veces
mayor que una intensidad de cero decibelios; una intensidad de 20 dB
representa una energa 100 veces mayor que la que corresponde a 0
decibelios y as sucesivamente.

Otro de los factores de los que depende la intensidad del sonido percibido es
la frecuencia. Ello significa que para una frecuencia dada un aumento de
intensidad acstica da lugar a un aumento del nivel de sensacin sonora,
pero intensidades acsticas iguales a diferentes frecuencias pueden dar
lugar a sensaciones distintas.

Los sonidos que percibimos deben superar el umbral auditivo (0 dB) y no


llegar al umbral de dolor (140 dB).

FIGURA 1 Intensidad de varios elementos

31

Tono

El tono es la cualidad del sonido mediante la cual el odo le asigna un lugar


en la escala musical, permitiendo, por tanto, distinguir entre los graves y los
agudos. La magnitud fsica que est asociada al tono es la frecuencia. Los
sonidos percibidos como graves corresponden a frecuencias bajas, mientras
que los agudos son debidos a frecuencias altas. As el sonido ms grave de
una guitarra corresponde a una frecuencia de 82,4 Hz y el ms agudo a
698,5 hertzs. Para que los humanos podamos percibir un sonido este debe
estar comprendido en la franja de 20 a 20.000 Hz. Por debajo tenemos los
infrasonidos y por encima los ultrasonidos. A esto se le denomina rango de
frecuencia audible. Junto con la frecuencia, en la percepcin sonora del tono
intervienen otros factores de carcter psicolgico. As sucede por lo general
que al elevar la intensidad se eleva el tono percibido para frecuencias altas y
se baja para las frecuencias bajas. Entre frecuencias comprendidas entre 1
000 y 3 000 Hz el tono es relativamente independiente de la intensidad.

Timbre
El timbre es la cualidad del sonido que permite distinguir sonidos
procedentes de diferentes instrumentos, aun cuando posean igual tono e
intensidad. Debido a esta misma cualidad es posible reconocer a una
persona por su voz, que resulta caracterstica de cada individuo.

El timbre est relacionado con la complejidad de las ondas sonoras que


llegan al odo. Pocas veces las ondas sonoras corresponden a sonidos

32

puros, slo los diapasones generan este tipo de sonidos, que son debidos a
una sola frecuencia y representados por una onda armnica. Los
instrumentos musicales, por el contrario, dan lugar a un sonido ms rico que
resulta

de

vibraciones

complejas.

Cada

vibracin

compleja

puede

considerarse compuesta por una serie de vibraciones armnico simples de


una frecuencia y de una amplitud determinadas, cada una de las cuales, si
se considerara separadamente, dara lugar a un sonido puro. Esta mezcla de
tonos parciales es caracterstica de cada instrumento y define su timbre.
Debido a la analoga existente entre el mundo de la luz y el del sonido, al
timbre se le denomina tambin color del tono.
Presin Sonora
En primer lugar tenemos la presin atmosfrica, es decir la presin del aire
ambiental en ausencia de sonido. Se mide en una unidad SI (Sistema
Internacional) denominada Pascal (1 Pascal es igual a una fuerza de 1
newton actuando sobre una superficie de 1 metro cuadrado, y se abrevia 1
Pa). Esta presin es de alrededor de 100.000 Pa (el valor normalizado es de
101.325 Pa). Podemos luego definir la presin sonora como la diferencia
entre la presin instantnea debida al sonido y la presin atmosfrica, y,
naturalmente, tambin se mide en Pa. Sin embargo, la presin sonora tiene
en general valores muchsimo menores que el correspondiente a la presin
atmosfrica. Por ejemplo, los sonidos ms intensos que pueden soportarse
sin experimentar un dolor auditivo agudo corresponden a unos 20 Pa,
mientras que los apenas audibles estn cerca de 20 mPa (mPa es la
abreviatura de micropascal, es decir una millonsima parte de un pascal).
Esta situacin es muy similar a las pequeas ondulaciones que se forman
sobre la superficie de una profunda piscina. Otra diferencia importante es
que la presin atmosfrica cambia muy lentamente, mientras que la presin
sonora lo hace muy rpido, alternando entre valores positivos (presin

33

instantnea mayor que la atmosfrica) y negativos (presin instantnea


menor que la atmosfrica) a razn de entre 20 y 20.000 veces por segundo.
Potencia (W)
La potencia acstica es la cantidad de energa radiada por una fuente
determinada. El nivel de potencia Acstica es la cantidad de energa total
radiada en un segundo y se mide en w. La referencia es 1pw = 1E-12 w.
Para determinar la potencia acstica que radia una fuente se utiliza un
sistema de medicin alrededor de la fuente sonora a fin de poder determinar
la energa total irradiada.
La potencia acstica es un valor intrnseco de la fuente y no depende del
local donde se halle. Es como una bombilla, puede tener 100 w y siempre
tendr 100 w la pongamos en nuestra habitacin o la pongamos dentro de
una nave enorme su potencia siempre Serra la misma. Con la potencia
acstica ocurre lo mismo el valor no varia por estar en un local reverberante
o en uno seco. Al contrario de la Presin Acstica que si que varia segn
vare las caractersticas del local donde se halle la fuente, la distancia etc.

Fenmenos fsicos del sonido

Reflexin
Una onda se refleja (rebota al medio del cual proviene) cuando topa con un
obstculo que no puede traspasar ni rodear.

34

FIGURA 2 Reflexin del sonido


El tamao del obstculo y la longitud de onda determinan si una onda rodea
el obstculo o se refleja en la direccin de la que provena. Si el obstculo es
pequeo en relacin con la longitud de onda, el sonido lo rodeara (difraccin),
en cambio, si sucede lo contrario, el sonido se refleja (reflexin). Si la onda
se refleja, el ngulo de la onda reflejada es igual al ngulo de la onda
incidente, de modo que si una onda sonora incide perpendicularmente sobre
la superficie reflejante, vuelve sobre s misma. La reflexin no acta igual
sobre las altas frecuencias que sobre las bajas. Lo que se debe a que la
longitud de onda de las bajas frecuencias es muy grande (pueden alcanzar
los 18 metros), por lo que son capaces de rodear la mayora de obstculos.
En acstica esta propiedad de las ondas es sobradamente conocida y
aprovechada. No slo para aislar, sino tambin para dirigir el sonido hacia el
auditorio mediante placas reflectoras (reflectores y tornavoces).

Refraccin
Es la desviacin que sufren las ondas en la direccin de su propagacin,
cuando el sonido pasa de un medio a otro diferente.

35

A diferencia de lo que ocurre en el fenmeno de la reflexin, en la refraccin,


el ngulo de refraccin ya no es igual al de incidencia.
La refraccin se debe a que al cambiar de medio, cambia la velocidad de
propagacin del sonido. Posteriormente puede producirse dentro de un
mismo medio, cuando las caractersticas de este no son homogneas, por
ejemplo, cuando de un punto a otro de un medio aumenta o disminuye la
temperatura.
Ejemplo: Sobre una superficie nevada, el sonido es capaz de desplazarse
atravesando grandes distancias. Esto es posible gracias a las refracciones
producidas bajo la nieve, que no es medio uniforme. Cada capa de nieve
tiene una temperatura diferente. Las ms profundas, donde no llega el sol,
estn ms fras que las superficiales. En estas capas ms fras prximas al
suelo, el sonido se propaga con menor velocidad.

FIGURA 3 Refraccin del sonido

36

Difraccin

La difraccin es un fenmeno que afecta a la propagacin del sonido.


Hablamos de difraccin cuando el sonido en lugar de seguir en la direccin
normal, se dispersa.

La explicacin la encontramos en el Principio de Huygens que establece que


cualquier punto de un frente de ondas es susceptible de convertirse en un
nuevo foco emisor de ondas idnticas a la que lo origin. De acuerdo con
este principio, cuando la onda incide sobre una abertura o un obstculo que
impide su propagacin, todos los puntos de su plano se convierten en
fuentes secundarias de ondas, emitiendo nuevas ondas, denominadas ondas
difractadas.

La difraccin se puede producir por dos motivos diferentes:

Por que una onda sonora encuentra a su paso un pequeo obstculo y lo


rodea. Las bajas frecuencias son ms capaces de rodear los obstculos que
las altas. Esto es posible porque las longitudes de onda en el espectro
audible estn entre 3 cm y 12 m, por lo que son lo suficientemente grandes
para superar la mayor parte de los obstculos que encuentran.

Por que una onda sonora topa con un pequeo agujero y lo atraviesa.

La cantidad de difraccin estar dada en funcin del tamao de la propia


abertura y de la longitud de onda.

Si una abertura es grande en comparacin con la longitud de onda, el efecto


de la difraccin es pequeo. La onda se propaga en lneas rectas o rayos,
como la luz.

37

Cuando el tamao de la abertura es considerable en comparacin con la


longitud de onda, los efectos de la difraccin son grandes y el sonido se
comporta como si fuese una luz que procede de una fuente puntual
localizada en la abertura.

FIGURA 4 Difraccin del sonido


Efecto Doppler

El fenmeno fue descrito por primera vez por el matemtico y fsico austriaco
Christian Doppler (1803-1853). Consiste en que el sonido emitido por una
fuente es percibido por nuestro odo con distintas frecuencias dependiendo si
dicha fuente est en reposo, acercndose o alejndose. En efecto, la
frecuencia aumenta si la fuente se aproxima (sonido ms agudo) y disminuye
si se aleja (sonido ms grave).

38

FIGURA 5 El efecto Doppler

Una fuente emisora de ondas sonoras que se aproxima, se acerca al


observador durante el periodo de la onda. Y, dado la longitud de la onda se
acorta y la velocidad de propagacin de la onda permanece sin cambios, el
sonido se percibe ms alto. Por esta misma razn, la altura (desplazamiento
de la frecuencia de las ondas sonoras) de una fuente que se aleja, se reduce.
El efecto Doppler se observa siempre que la fuente de ondas se mueve con
respecto al observador. Es el efecto producido por una fuente de ondas mvil
por el cual hay un aparente desplazamiento de la frecuencia hacia arriba
para los observadores hacia los cuales se dirige la fuente y un aparente
desplazamiento hacia debajo de la frecuencia para los observadores de los
cuales la fuente se aleja.

El efecto Doppler se origina cuando hay un movimiento relativo entre la


fuente sonora y el oyente cuando cualquiera de los dos se mueven con
respecto al medio en el que las ondas se propagan. El resultado es la
aparente variacin de la altura del sonido. Existe una variacin en la
frecuencia que percibimos con la frecuencia que la fuente origina.

39

El fenmeno no se restringe al movimiento de la fuente. Si la fuente de


sonido est fija, un oyente que se mueva hacia la fuente observar un
aumento similar en el tono. Un oyente que se aleja de la fuente de sonido
escuchar un sonido de menor tono. El cambio en la frecuencia del sonido
que resulta del movimiento relativo entre una fuente y un oyente se
denomina efecto Doppler.

El efecto Doppler se refiere al cambio aparente en la frecuencia de una


fuente de sonido cuando hay un movimiento relativo de la fuente y del oyente.

Efecto clsico: Mientras la onda avanza, el cuerpo se aleja del observador. El


receptor capta tarde el prximo mximo y dir que el periodo es mas largo, la
frecuencia es menor y la longitud de onda mayor.

40

LA VOZ Y SUS CARACTERISTICAS

Los sistemas de comunicacin transportan informacin. A continuacin se


estudiar un sistema de comunicacin especfico, el de la comunicacin a
travs de seales de voz, es decir seales acsticas tradicionalmente
emitidas y recibidas por seres humanos en forma oral.

Histricamente, desde la Antigua Grecia se han realizado intentos por


generar voces artificiales. En muchos casos eran simplemente juegos de
tuberas conectadas a un locutor humano, en otros autnticos ingenios
acsticos capaces de producir sonoridades voclicas.

El desarrollo de la telefona a principios del siglo XX motiv intensas


investigaciones sobre las propiedades de la voz y la audicin con el fin de
mejorar la calidad de la comunicacin telefnica. El proceso continu y hoy
en da las tecnologas existentes permiten, por ejemplo, disponer de
sistemas de comunicacin oral hombre mquina.

En todo sistema de comunicacin hay varios componentes: emisor, receptor,


mensaje, cdigo, canal y contexto .Se debe conocer algunos aspectos de
cada uno de ellos para poder integrar sistemas que funcionen de manera
eficaz y eficiente. E n l a s p e r s o n a s el emisor es el conjunto integrado por
el cerebro que piensa el mensaje y el aparato fonatorio que lo traduce a
una emisin acstica. El receptor es el aparato auditivo que recibe la onda
sonora y la transforma en impulsos nerviosos que luego son interpretados por
el cerebro. El mensaje es la idea a comunicar. El cdigo es el lenguaje
hablado. La combinacin del mensaje y el cdigo constituyen la seal. El
canal puede ser el medio en el cual se propaga la onda sonora (en general el

41

aire) o un medio de transmisin electrnico que constituye en s mismo otro


subsistema de comunicacin cuyas propiedades son bien conocidas y que
se aproxima en muchos casos (aunque no siempre) a la idealidad. El
contexto puede tener un sinnmero de componentes, que van desde factores
puramente subjetivos o psicolgicos, como el inters, la atencin, la
motivacin hasta factores fsicos tales como respuesta en frecuencia,
interferencias, distorsiones, ruido. De acuerdo con investigaciones realizadas,
existen evidencias suficientes como para establecer que empleamos ms o
menos el 70% de nuestras horas de actividad comunicndonos verbalmente,
es decir, que cada uno de nosotros emplea alrededor de 10 a 11 horas
diarias para comunicarse.
Conceptos sobre lenguaje

La lengua es un sistema de signos lingsticos que permiten la


comunicacin en una comunidad. Es un sistema, cada uno de sus
elementos tiene entidad propia y entidad relativa a su posicin o relacin
con los otros elementos. Es un cdigo de signos. Tiene carcter social, ya
que es comn a una sociedad. El habla es el acto de seleccionar los signos
de entre los disponibles y organizarlos a travs de ciertas reglas. Materializa
el cdigo, es individual, vale decir que cambia de un individuo a otro.

Los signos pueden corresponder al lenguaje escrito o al oral. El lenguaje es


un sistema articulado ya que los sonidos y otros componentes se integran
entre s. Est formado por signos lingsticos, nombre que recibe la seal en
el lenguaje. El lenguaje tiene modalidades regionales llamadas dialectos. Un
signo es algo que reemplaza a otra cosa para comunicarla en un mensaje.
Los signos lingsticos se clasifican en dos tipos: significado y significante.
El significado es el concepto mental, idea o contenido a comunicar. El
significante es la imagen, ya sea grfica o acstica que se le asigna. La

42

relacin entre significado y significante es arbitraria o convencional, aunque


no necesariamente discrecional: involucra acuerdos tcitos, explcitos o
normativos en una comunidad lingstica. En el lenguaje escrito, el
significante es la grafa escrita, formada por combinaciones de letras, en
tanto que en el lenguaje hablado es su realizacin acstica mediante la
palabra hablada. Las

palabras son los elementos

libres mnimos del

lenguaje. La sintaxis es el conjunto de reglas para la coordinacin de las


palabras en frases u oraciones. En su versin escrita las palabras estn
formadas por letras o grafemas, es decir unidades grficas mnimas, y, en el
caso oral, por fonemas. Los fonemas son la unidad fnica ideal mnima del
lenguaje. Se materializan a travs de los sonidos, pero de una manera no
unvoca. Las variantes de los fonemas se denominan alfonos. Los
monemas son unidades mnimas con significado, que puede ser gramatical,
dando origen a los morfemas, o lxico, representado por los lexemas. Los
morfemas tienen relacin con la gramtica, o la forma de organizar o dar
estructura a las categoras bsicas del lenguaje (gnero, nmero, tiempo o
persona de los verbos, etc.), mientras que los lexemas se refieren a
significados externos al lenguaje mismo. Las palabras constan de al menos
un monema, siendo las ms comunes bimonemticas, que incluyen un
lexema y un morfema.

En la tabla siguiente se dan dos ejemplos en los que se identifican los


componentes de la palabra

TABLA 1 Ejemplo de monemas, grafemas y fonemas

43

Fonologa y fontica
La Fonologa estudia los fonemas, es decir el modelo fnico convencional e
ideal del lenguaje. La Fontica, en tanto, se refiere a los sonidos en el
habla, incluyendo su produccin acstica y los procesos fsicos y
fisiolgicos de emisin y articulacin involucrados. As, la Fonologa es el
estudio de los sonidos de la lengua en cuanto a su carcter simblico o de
representacin mental. Procede detectando regularidades o recurrencias en
los sonidos del lenguaje hablado y sus combinaciones, y haciendo
abstraccin de las pequeas diferencias debidas a la individualidad de cada
hablante y de
acento

caractersticas suprasegmentales

como la entonacin, el

(tnico, es decir por aumento de la intensidad y aggico, por

aumento de la duracin). Cada uno de los sonidos abstractos as


identificados es un fonema. Uno de los objetivos de la fonologa es acotar al
mximo la cantidad de fonemas requeridos para representar cada idioma de
una manera suficientemente precisa.

La Fontica estudia experimentalmente los mecanismos de produccin y


percepcin de los sonidos utilizados en el habla a travs del anlisis
acstico, articulatorio y perceptivo. Se ocupa, por consiguiente, de las
realizaciones de los fonemas.
Fontica experimental
Es la que estudia los sonidos orales desde el punto de vista fsico, reuniendo
los datos y cuantificando los datos sobre la emisin y la produccin de las
ondas sonoras que configuran el sonido articulado. Utiliza instrumentos como
los rayos X y el quimgrafo, que traza las curvas de intensidad. El conjunto
de los datos analizados al medir los sonidos depende nicamente de la

44

precisin del instrumental as como de otros conocimientos conexos. Adems


se han descubierto diferencias importantes en cada sonido oral.
Fontica articulatoria
Es la que estudia los sonidos de una lengua desde el punto de vista
fisiolgico, es decir, describe qu rganos orales intervienen en su
produccin, en qu posicin se encuentran y cmo esas posiciones varan
los distintos caminos que puede seguir el aire cuando sale por la boca, nariz,
o garganta, para que se produzcan sonidos diferentes. No se ocupa de todas
las actividades que intervienen en la produccin de un sonido, sino que
selecciona slo las que tienen que ver con el lugar y la forma de articulacin.
Los smbolos fonticos y sus definiciones articulatorias son las descripciones
abreviadas de tales actividades. Los smbolos fonticos que se usan ms
frecuentemente son los adoptados por la Asociacin Fontica Internacional
en el alfabeto fontico internacional (A.F.I.) que se escriben entre corchetes.
Los rganos que intervienen en la articulacin del sonido son mviles o fijos.
Son mviles los labios, la mandbula, la lengua y las cuerdas vocales, que a
veces reciben el nombre de rganos articulatorios. Con su ayuda, el hablante
modifica la salida del aire que procede de los pulmones. Son fijos los dientes,
los alvolos, el paladar duro y el paladar blando. Los sonidos se producen
cuando se ponen en contacto dos rganos articulatorios por ejemplo el
bilabial (p), que exige el contacto entre los dos labios; tambin cuando se
ponen en contacto un rgano fijo y otro articulatorio, y el sonido se nombra
con los rganos que producen la juntura, o punto de articulacin, como por
ejemplo el sonido labiodental (f) que exige el contacto entre el labio inferior y
los incisivos superiores. Cuando es la lengua el rgano mvil no se hace
referencia a ella en la denominacin del sonido, as el sonido (t) que se

45

produce cuando la lengua toca la parte posterior de los incisivos superiores


se llama dental.
El modo de articulacin se determina por la disposicin de los rganos
mviles en la cavidad bucal y cmo impiden o dejan libre el paso del aire.
Esta accin puede consistir en la interrupcin instantnea y completa del
paso del aire para las implosivas; en dejar abierto el paso nasal pero
interrumpido el oral para las nasales; en producir un contacto con la lengua
pero dejar libre el paso del aire a uno y otro lado para las laterales; en
producir una leve interrupcin primero y dejar el paso libre despus para las
africadas; en permitir el paso del aire por un paso estrecho por el que el aire
pasa rozando para las fricativas, y en permitir el paso libre del aire por el
centro de la lengua sin friccin alguna para las vocales.
Se emiten diferentes clases de vocales segn vare la posicin de la lengua,
tanto a partir de su eje vertical (alta, media y baja), como a partir de su eje
horizontal (anterior, central y posterior). Por ejemplo, en espaol son vocales
altas las vocales de la palabra huir, es decir, la [i] y la [u]. Son vocales
medias la [e] y la [o], es decir las vocales de la palabra pero y es vocal baja
la [a] de la palabra va. As, la lengua va de abajo arriba para pronunciar las
dos vocales seguidas de la palabra aire, pero desciende a una posicin
media para pronunciar su ltima vocal. Hace el camino contrario de arriba
abajo para pronunciar puerta. Son vocales anteriores del espaol la [i] y la [e],
es decir las vocales seguidas de la palabra piel; las vocales posteriores son
la [o] y la [u], es decir las vocales de la palabra puro; la [a] es la vocal central.
La lengua se mueve de atrs hacia adelante para emitir las vocales de la
palabra totales, hace el camino contrario para emitir las vocales de la palabra
pilago. Las posiciones que mantiene la lengua para emitir las vocales u, i y
a constituyen los vrtices del llamado esquema voclico uai.

46

Anatoma del aparato Fonador[34]

La voz humana se produce voluntariamente por medio del aparato fonatorio.

ste est formado por los pulmones como fuente de energa en la forma de
un flujo de aire, la laringe, que contiene las cuerdas vocales, la faringe, las
cavidades oral (o bucal) y nasal y una serie de elementos articulatorios: los
labios, los dientes, el alvolo, el paladar, el velo del paladar y la lengua
(Figura 6). Las cuerdas vocales son, en realidad, dos membranas dentro de la
laringe orientadas de adelante hacia atrs (Figura 8). Por adelante se unen
en el cartlago tiroides (que puede palparse sobre el cuello, inmediatamente
por debajo de la unin con la cabeza; en los varones suele apreciarse como
una protuberancia conocida como nuez de Adn). Por detrs, cada una est
sujeta a uno de los dos cartlagos aritenoides, los cuales pueden separarse
voluntariamente por medio de msculos. La abertura entre ambas cuerdas
se denomina glotis. Cuando las cuerdas vocales se encuentran separadas,
la glotis adopta una forma triangular. El aire pasa libremente y prcticamente
no se produce sonido. Es el caso de la respiracin. Cuando la glotis
comienza a cerrarse, el aire que la atraviesa proveniente de los pulmones
experimenta una turbulencia, emitindose un ruido de origen aerodinmico
conocido como aspiracin (aunque en realidad acompaa a una espiracin
o exhalacin). Esto sucede en los sonidos denominados aspirados (como la
h inglesa). Al cerrarse ms, las cuerdas vocales comienzan a vibrar a
modo de lenguetas, producindose un sonido tonal, es decir peridico. La
frecuencia de este sonido depende de varios factores, entre otros del tamao
y la masa de las cuerdas vocales, de la tensin que se les aplique y de la
velocidad del flujo del aire proveniente de los pulmones. A mayor tamao,
menor frecuencia de vibracin, lo cual explica por qu en los varones, cuya

47

glotis es en promedio mayor que la de las mujeres, la voz es en general ms


grave. A mayor tensin la frecuencia aumenta, siendo los sonidos ms
agudos. As, para lograr emitir sonidos en el registro extremo de la voz es
necesario un mayor esfuerzo vocal. Tambin aumenta la frecuencia (a
igualdad de las otras condiciones) al crecer la velocidad del flujo de aire,
razn por la cual al aumentar la intensidad de emisin se tiende a elevar
espontneamente el tono de voz.

FIGURA 6 Corte esquematico del aparato fonador humano

FIGURA 7 La glotis

48

Finalmente, es posible obturar la glotis completamente. En ese caso no se


produce sonido. Sobre la glotis se encuentra la epiglotis, un cartlago en la
faringe que permite tapar la glotis durante la deglucin para evitar que el
alimento ingerido se introduzca en el tracto respiratorio. Durante la respiracin
y la fonacin (emisin de sonido) la epiglotis est separada de la glotis
permitiendo la circulacin del flujo de aire. Durante la deglucin, en cambio,
la laringe ejecuta un movimiento ascendente de modo que la glotis apoya
sobre la epiglotis. La porcin que incluye las cavidades farngea, oral y nasal
junto con los elementos articulatorios se denomina genricamente cavidad
supragltica, en tanto que los espacios por debajo de la laringe, es decir la
trquea, los bronquios y los pulmones, se denominan cavidades infraglticas.
Varios de los elementos de la cavidad supragltica se controlan a voluntad,
permitiendo modificar dentro de mrgenes muy amplios los sonidos
producidos por las cuerdas vocales o agregar partes distintivas a los
mismos, e inclusive producir sonidos propios. Todo esto se efecta por dos
mecanismos principales: el filtrado y la articulacin.

El filtrado acta modificando el espectro del sonido. Tiene lugar en las cuatro
cavidades supraglticas principales: la faringe, la cavidad nasal, la cavidad
oral y la cavidad labial. Las mismas constituyen resonadores acsticos que
enfatizan determinadas bandas frecuenciales del espectro generado por
las cuerdas vocales, conduciendo al concepto de formantes.

Formantes

Son una serie de picos de resonancia ubicados en frecuencias o bandas de


frecuencia que, segn veremos, son bastante especficas para cada tipo de
sonido.

49

FIGURA 8 Funcin de rea

FIGURA 9 Formantes de un sonido sonoro

50

FIGURA 10 Formantes de un sonido sordo

FIGURA 11 Corte esquematizo de la laringe segn un plano horizontal


La articulacin es una modificacin principalmente a nivel temporal de los
sonidos, y est directamente relacionada con la emisin de los mismos y con
los fenmenos transitorios que los acompaan. Est caracterizada por el

51

lugar del tracto vocal en que tiene lugar, por los elementos que intervienen y
por el modo en que se produce, factores que dan origen a una clasificacin
fontica de los sonidos que veremos luego.

rganos
Tracto
Nasal

Pulmones

Laringe

Faringe

Tracto
Vocal

Funcin
Tracto
Nasal

Pulmones

Laringe

Faringe

FIGURA 12 Diagrama funcional del aparato fonador

52

Tracto
Vocal

Efectos Resultantes

Intensidad

Modulacin

Tono fundamental

Presin Subglotal

Modulacin

Modulacin

Traza de
Voz

Pulso Glotal

Fonacin

Articulacin

FIGURA 13 Diagrama funcional del aparato fonador

Clasificacin de los sonidos

Los sonidos emitidos por el aparato fonatorio pueden clasificarse de acuerdo


con diversos criterios que tienen en cuenta los diferentes aspectos del
fenmeno de emisin. Estos criterios son:

Segn su carcter voclico o consonntico.


Segn su oralidad o nasalidad
Segn su carcter tonal (sonoro) o no tonal (sordo)
Segn el lugar de articulacin e) Segn el modo de
articulacin
Segn la posicin de los rganos articulatorios

53

Segn la duracin

Vocales y consonantes

Desde un punto de vista mecanoacstico, las vocales son los sonidos


emitidos por la sola vibracin de las cuerdas vocales sin ningn obstculo o
constriccin entre la laringe y las aberturas oral y nasal. Dicha vibracin se
genera por el principio del oscilador de relajacin, donde interviene una
fuente de energa constante en la forma de un flujo de aire proveniente de
los pulmones. Son siempre sonidos de carcter tonal (cuasiperidicos), y por
consiguiente de espectro discreto. Las consonantes, por el contrario, se
emiten

interponiendo

algn

obstculo

formado

por

los

elementos

articulatorios. Los sonidos correspondientes a las consonantes pueden ser


tonales o no dependiendo de si las cuerdas vocales estn vibrando o no.
Funcionalmente, en el castellano las vocales pueden constituir palabras
completas, no as las consonantes.

Oralidad y nasalidad

Los fonemas en los que el aire pasa por la cavidad nasal se denominan
nasales, en tanto que aqullos en los que sale por la boca se denominan
orales. La diferencia principal est en el tipo de resonador principal por
encima de la laringe (cavidad nasal y oral, respectivamente). En castellano
son nasales slo las consonantes

Tonalidad

Los fonemas en los que participa la vibracin de las cuerdas vocales se

54

denominan tonales o tambin, sonoros. La tonalidad lleva implcito un


espectro cuasi peridico.

Como se puntualiz anteriormente, todas las vocales son tonales, pero


existen varias consonantes que tambin lo son:

, etc. Aquellos

fonemas producidos sin vibraciones glotales se denominan sordos. Varios de


ellos son el resultado de la turbulencia causada por el aire pasando a gran
velocidad por un espacio reducido, como las consonantes

Lugar y modo de articulacin (consonantes)

La articulacin es el proceso mediante el cual alguna parte del aparato


fonatorio interpone un obstculo para la circulacin del flujo de aire. Las
caractersticas de la articulacin permitirn clasificar las consonantes. Los
rganos articulatorios son los labios, los dientes, las diferentes partes del
paladar (alvolo, paladar duro, paladar blando o velo), la lengua y la glotis.
Salvo la glotis, que puede articular por s misma, el resto de los rganos
articula por oposicin con otro. Segn el lugar o punto de articulacin se
tienen fonemas:

Bilabiales: oposicin de ambos labios


Labiodentales: oposicin de los dientes superiores con el labio inferior
Linguodentales: oposicin de la punta de la lengua con los dientes superiores
Alveolares: oposicin de la punta de la lengua con la regin alveolar
Palatales: oposicin de la lengua con el paladar duro
Velares: oposicin de la parte posterior de la lengua con el paladar blando
Glotales: articulacin en la propia glotis

55

A su vez, para cada punto de articulacin sta puede efectuarse de


diferentes modos, dando lugar a fonemas:

Oclusivos: la salida del aire se cierra momentneamente por completo


Fricativos: el aire sale atravesando un espacio estrecho
Africados: oclusin seguida por fricacin
Laterales: la lengua obstruye el centro de la boca y el aire sale por los lados
Vibrantes: la lengua vibra cerrando el paso del aire intermitentemente
Aproximante : La obstruccin muy estrecha que no llega a producir
turbulencia

Los fonemas oclusivos (correspondientes a las consonantes


postnasal,

inicial, postnasal o postlateral,

inicial o
) tambin se

denominan a veces explosivos, debido a la liberacin repentina de la presin


presente inmediatamente antes de su emisin. Pueden ser sordos o sonoros,
al igual que los fricativos (
postvoclica y post vibrante,

postvoclica, postlateral y postvibrante,


,

aspirada,

). Slo existe un

fonema africado en castellano, correspondiente a la ch . Los laterales ( , ll )


a veces se denominan lquidos, y son siempre sonoros. Los dos fonemas
vibrantes del castellano (consonantes

, rr ) difieren en que en uno de

ellos ( ) se ejecuta una sola vibracin y es intervoclico, mientras que en el


otro ( rr ) es una sucesin de dos o tres vibraciones de la lengua. Finalmente,
los fonemas aproximantes (la

y la

cerradas que aparecen en algunos

diptongos) son a veces denominados semivocales, pues en realidad suenan


como vocales. Pero exhiben una diferencia muy importante: son de corta
duracin y no son prolongables.

En la tabla 2 se indican las consonantes clasificadas segn el lugar y el


modo de articulacin, la sonoridad y la oronasalidad. En algunos casos una

56

misma consonante aparece en dos categoras diferentes, correspondiente a


las diferencias observadas.

TABLA 2 Clasificacin de las consonantes de la lengua castellana segn el


lugar y el modo de articulacin y la sonoridad

Posicin de los rganos articulatorios (vocales)


En el caso de las vocales, la articulacin consiste en la modificacin de la
accin filtrante de los diversos resonadores, lo cual depende de las
posiciones de la lengua (tanto en elevacin como en profundidad o
avance), de la mandbula inferior, de los labios y del paladar blando. Estos
rganos influyen sobre los formantes, permitiendo su control.

Podemos clasificar las vocales segn la posicin de la lengua como se


muestra en la tabla 3.

57

TABLA 3 Clasificacin de las vocales castellanas segn la posicin de la


lengua.
Otra cualidad controlable es la labializacin, es decir el hecho de que se haga
participar activamente los labios. Las vocales labializadas, tambin definidas
como redondeadas, son las que redondean los labios hacia adelante,
incrementando la longitud efectiva del tracto vocal. La nica vocal labializada
en el castellano es la

En otros idiomas, como el francs, el portugus, el cataln y el polaco, as


como en lenguas no europeas como el guaran o el hindi, existe tambin el
matiz de oralidad o nasalidad. En las vocales orales el velo (paladar blando)
sube, obturando la nasofaringe, lo cual impide que el aire fluya parcialmente
por la cavidad nasal. En las vocales nasalizadas (u oronasales) el velo baja,
liberando el paso del aire a travs de la nasofaringe. Se incorpora as la
resonancia nasal
Duracin
La duracin de los sonidos, especialmente de las vocales, no tiene
importancia a nivel semntico en el castellano, pero s en el plano expresivo,
a travs de la agogia, es decir el nfasis o acentuacin a travs de la
duracin. En ingls, en cambio, la duracin de una vocal puede cambiar
completamente el significado de la palabra que la contiene

58

El alfabeto fontico internacional


El castellano es un idioma cuya escritura es eminentemente fontica, ya que
salvo pocos casos, hay correspondencia entre grafema y fonema. No todos
los idiomas tienen esta caracterstica. El ingls es un caso quizs extremo, a
tal punto que George Bernard Shaw ha creado posibles ortografas
alternativas para algunas palabras basndose en la forma en que sus
fonemas aparecen escritos en otras palabras. Estas extraas ortografas y el
anlisis correspondiente se muestran en la tabla 4.

TABLA 4 Ortografas alternativas de George Bernard Shaw para dos


palabras inglesas
Se ha compilado un extenso conjunto de smbolos fonticos conocido
como el Alfabeto Fontico Internacional (International Phonetic Alphabet,
IPA) que contiene una gran cantidad de fonemas de los diversos idiomas, y
que

permite

representar

de

una

manera

inequvoca

los

fonemas

independientemente del idioma. El subconjunto correspondiente al idioma


castellano se indica en la tabla 5.

59

TABLA 5 Los fonemas del alfabeto fontico internacional utilizados en la


lengua castellana
Fontica Acstica[39]
Es la que estudia la onda sonora como la salida de un resonador cualquiera;
esto es, equipara el sistema de fonacin con cualquier otro sistema de
emisin y reproduccin de sonidos. En la comunicacin , las ondas sonoras
tienen un inters mayor que la articulacin o produccin de los sonidos, para
un determinado auditorio recibe y descodifica la impresin a pesar de que
haya sido emitida por medio de una articulacin oral, o por medio de un
determinado aparato emisor de sonidos o incluso por medio de una cotorra.
Para grabar las caractersticas ms significativas de las ondas sonoras y
para determinar el resultado de las distintas actividades articulatorias se
puede emplear el espectrgrafo. De forma experimental, para poder llegar a
saber cules son los rasgos necesarios y suficientes que identifican los
sonidos de la lengua, se suprimieron partes de la grabacin de la onda
sonora y se reprodujeron otras.

60

Unidades fonticas

Los alfonos
Los alfonos son cada uno de los sonidos propios de una lengua. Alfonos
son las realizaciones concretas, fonticas, de los fonemas, de acuerdo con
los elementos fnicos que entren en contacto. Son sonidos del habla,
variantes fonticas de un sonido real. Por ejemplo, en castellano la e inicial
de la palabra ejes es ms abierta que la segunda; sin embargo, si
pronunciamos la e ms o menos abierta no cambiamos nunca el
significado de las palabras. Estas dos realizaciones concretas son variantes
fonticas, alfonos, del fonema /e/.
Los fonemas
Se definen como el conjunto de alfonos con el mismo valor fonolgico en
una lengua. Cada lengua tiene un nmero limitado de fonemas, que son
iguales a todos los hablantes en un momento dado (sincrnicamente) y que,
segn la eleccin y combinacin que se haga con ellos, constituyen los
diferentes significantes de los signos lingsticos. Por ejemplo:
/s/, /z/ casa, mismo
/n/, /N/ cana, tango

61

Caractersticas de la voz[46]
Los sonidos se clasifican en sonoros y no sonoros. En los primeros se abren
y cierran las cuerdas vocales, cambiando el rea de la traquea y originando
un tren de impulsos cuasi peridicos. El periodo o frecuencia fundamental de
este tren de impulsos se conoce con el nombre de pitch, y su valor esta
comprendido entre 50 y 400 Hz para los hombres y es superior en mujeres y
nios. En los sonidos no sonoros el aire fluye libremente hasta alcanzar el
tracto vocal al permanecer las cuerdas vocales. Posteriormente, la variacin
voluntaria del tracto vocal, junto con el estado variante de las cuerdas,
produce la voz.

El tracto vocal acta como una cavidad resonante para los sonidos sonoros,
estando centradas las frecuencias de resonancia para la mayora de la gente
en 500 Hz y sus armnicos pares. Esta resonancia causa grandes picos en
el espectro resultante, a los cuales se les llama formantes. Tambin la seal
tiene una naturaleza paso baja y a partir de unos 4KHz comienza a
predominar el ruido.

En cambio, el segmento de voz no sonoro muestra una estructura ruidosa


tanto en el dominio del tiempo como en el de la frecuencia, no tenindose
formantes. Adems la energa de la seal es mucho menor que la de los
sonidos sonoros.
Modelo del tracto voclico[36]

La voz se produce a partir de sonidos formados por la vibracin de las


cuerdas vocales y posterior resonancia en la pared del tracto voclico de la
seal producida. En los adultos, el tracto voclico es un tubo de

62

aproximadamente 17cm de largo con un rea transversal que vara de 0 a 20


cm2.La figura 9 muestra un diagrama del tracto voclico. Los pulmones
actan solamente como emisores de aire. Son las cuerdas vocales las
encargadas de introducir una perturbacin cuasi peridica en el flujo de aire.

FIGURA 14 Zonas del aparato fonador


a) Tracto voclico. a) articulaciones del habla: (1) cuerdas vocales; (2)
faringe; (3) velo; (4) paladar blando; (5) paladar duro; (6) alveolos; (7) dientes;
(8)labios; (9) punta de la lengua; (10) cuerpo lingual; (11) dorso; (12) raz; (13)
mandbula; (14) cavidad nasal; (15) cavidad oral; (16) ventanas nasales; (17)
traquea; (18) epglotis. b) tipos de articulacin de voz: (1) labial; (2) dental; (3)
alveolar; (4) palatal; (5) velar; (6) uvular; (7) faringeal; (8) glotal.
Los sonidos que conforman la voz se pueden clasificar en vocalizados
(sonoros, originados en las cuerdas vocales) y no vocalizados (sordos,
originados por una friccin en el tracto voclico), en la prctica la voz est
formada por una mezcla de ambos. Durante el proceso de generacin de
sonidos vocalizados, las cuerdas vocales estn cerradas, pero la presin
ejercida por el aire contenido en los pulmones fuerza su apertura y su
posterior relajacin ocasionando la vibracin de las cuerdas a una frecuencia
entre los 50 y 400 [Hz]. A esta frecuencia se le conoce como pitch. La forma

63

de la seal que se produce en la vibracin con las cuerdas vocales es


aproximadamente triangular. sta atraviesa el resto del tracto voclico donde
la amplitud se ve alterada por el choque de la seal con las paredes del
tracto. Durante el proceso de generacin de sonidos no vocalizados, las
cuerdas vocales estn completamente abiertas, posibilitando la circulacin
del aire por el tracto voclico, la que se ve ligeramente obstaculizada por el
roce con las paredes del tracto, lo que produce un ruido fricativo. Adems del
movimiento de las cuerdas vocales y del tracto voclico, para modelar el
proceso de generacin de voz se debe considerar tambin los movimientos
de la boca, la lengua, los labios y vibraciones nasales. Por tanto, un modelo
bsico de este proceso debe considerar lo siguiente:

La voz es una seal que emerge de una fuente definida: los pulmones
actan como emisores de aire y la seal se produce por la vibracin
de las cuerdas vocales y la posterior resonancia con las paredes del
tracto voclico.
La voz est formada por la mezcla de seales de excitacin peridica
y ruido.
La variacin temporal de la seal en el tracto voclico produce el
timbre caracterstico que diferencia los fonemas, ciertos fonemas son
articulados sin la presencia de las cuerdas vocales (fonemas sordos).
Antes de pasar por el tracto voclico, la onda sonora tiene un espectro
relativamente plano (sin formantes).
La fuente emisora posee dos estados: generacin de sonidos
vocalizados y no vocalizados.
Si se toman intervalos de tiempos pequeos se puede modelar el
rgano generador de voz a travs de la bsqueda de su funcin de
transferencia, que define relacin entre la entrada (excitacin gltica) y
la salida (voz generada) por medio de filtros.

64

ANATOMIA DEL SISTEMA AUDITIVO HUMANO[48]

EL OIDO
El odo se encarga de recoger los sonidos, procesarlos y mandar seales
sonoras al cerebro mediante el proceso de transduccin .Otra funcin muy
importante del odo es la de mantener el sentido del equilibrio.

FIGURA 15 El odo

El odo se divide entre partes que describiremos a continuacin:


Odo externo
Odo medio
Odo interno

65

ELOIDO EXTERNO

La nica parte visible del odo es el pabelln auditivo (la aurcula) que, debido
a su especial forma helicoidal, es la primera parte del odo en reaccionar ante
el sonido. El pabelln auditivo funciona como una especie de embudo que
ayuda a dirigir el sonido hacia el interior del odo. Sin la presencia de este
embudo las ondas sonoras tomaran una ruta directa hacia el conducto
auditivo. Esto hara que el proceso de audicin fuera difcil e ineficaz ya que
gran parte del sonido se perdera y seria ms difcil escuchar y comprender los
sonidos.

FIGURA 16 El Odo externo


El pabelln auditivo es imprescindible debido a la diferencia de presin que
existe en interior y exterior del odo. La resistencia del aire es mayor en el
interior que en el exterior del odo porque el aire en el interior se encuentra
comprimido, y por ello, a mayor presin. Para que las ondas sonoras penetren
en el odo de la mejor forma posible, la resistencia del aire no debe ser
demasiado alta. El pabelln auditivo es esencial para ayudar a vencer la

66

diferencia de presin en el interior y exterior del odo. El pabelln auditivo


funciona como un vnculo intermedio que hace que esta transicin sea ms
suave y menos brutal, permitiendo que penetren mayor numero de sonidos en
el conducto auditivo (meatus).

Una vez que las ondas sonoras han superado el pabelln auditivo, se
desplazan de dos a tres centmetros dentro del conducto auditivo antes de
golpear el tmpano, tambin conocido como membrana timpnica.

El tmpano
El tmpano (membrana timpnica), el cual seala el inicio del odo medio, es
extremadamente sensible. Para proteger al tmpano, el conducto auditivo se
curva ligeramente haciendo ms difcil que por ejemplo, los insectos puedan
alcanzarlo. Al mismo tiempo la cera del odo (cerumen) del conducto auditivo
ayuda a mantener fuera del odo las materias no deseadas, como el polvo, la
suciedad y los insectos. El conducto auditivo adems de proteger el tmpano,
acta como un audfono natural que amplifica automticamente los sonidos
bajos y menos penetrantes de la voz humana. De este modo, el odo
compensa parte de la debilidad de la voz humana, y hace ms fcil or y
comprender una conversacin normal.

EL OIDO MEDIO

El odo medio est constituido por una cavidad llena de aire, dentro de la
cual se encuentran tres huesecillos, denominados martillo, yunque y estribo,
unidos entre s en forma articulada. Uno de los extremos del martillo se
encuentra adherido al tmpano, mientras que la base del estribo est unida
mediante un anillo flexible a las paredes de la ventana oval, orificio que
constituye la va de entrada del sonido al odo interno.

67

Finalmente, la cavidad del odo medio se comunica con el exterior del cuerpo
a travs de la trompa de Eustaquio, la cual es un conducto que llega hasta
las vas respiratorias y que permite igualar la presin del aire a ambos lados
del tmpano.

FIGURA 17 El Odo medio


Cuando las ondas sonoras se transmiten desde el tmpano a la ventana oval,
el odo medio funciona como un transformador acstico, amplificando las
ondas sonoras antes de que lleguen al odo interno. La presin de las ondas
sonoras es 20 veces mayor en la ventana oval que en el tmpano. La presin
se aumenta debido a la diferencia de tamao entre la superficie
relativamente grande de tmpano y la superficie menor de la ventana oval.
La trompa de Eustaquio
La trompa de Eustaquio se encuentra tambin en el odo medio, y conecta el
odo con la ltima parte del paladar. La trompa de Eustaquio iguala presin
de aire a ambos lados del tmpano, garantizando que la presin no se
acumula en el odo. El tubo se abre cuando tragamos, igualando la presin
de aire en el interior y exterior de odo. En la mayora de los casos la presin

68

se iguala automticamente, pero a veces no ocurre as, y

puede ser

necesario realizar la operacin de tragado de forma energtica. La accin de


tragado forzar a abrirse al tubo que conecta el paladar con el odo,
igualando as la presin. La acumulacin de presin en el odo puede darse
en situaciones en las que la presin en el interior de tmpano es diferente de
la presin en su exterior. Si la presin no se iguala, se acumulara en el
tmpano impidiendo que ste vibre adecuadamente. La vibracin limitada
har que se reduzca ligeramente la capacidad de audicin. Una gran
diferencia de presin provocar malestar e incluso un ligero dolor. La
acumulacin de presin en el odo a menudo se da en situaciones en las que
la presin es cambiante, por ejemplo, cuando volamos o conducimos en
zonas montaosas.

EL OIDO INTERNO[41]
El odo interno es un laberinto de conductos enredados que contienen fluidos
y que estn relacionados con el sentido de odo y con el equilibrio.

Hay tres canales dentro de una estructura con forma de caracol llamada
cclea. Las vibraciones sonoras, amplificadas por los huesos del odo medio,
viajan por estos canales y mueven pequeos pelos que estimulan fibras
conectadas a su vez con el nervio auditivo.

FIGURA 18 El Odo interno

69

La Cclea
En la cclea o caracol, las ondas sonoras se transforman en impulsos
elctricos que se envan al cerebro. El cerebro traduce esos impulsos en
sonidos que podemos reconocer y entender. La cclea parece la concha de
un caracol o una manguera enrollada. La cclea se encuentra llena de un
fluido llamado perilinfa y contiene dos membranas colocadas una muy cerca
de la otra. Estas membranas forman una especie de pared de separacin en
la cclea. Sin embargo, para que el fluido se mueva libremente en la cclea
de un lado a otro en la pared de separacin, la pared dispone de un pequeo
orificio (helicotrema). Este orificio es necesario, ya que garantiza que las
vibraciones de la ventana oval se transmitan a todo el fluido que se
encuentra en la cclea. Cuando el fluido se mueve en interior de la cclea,
miles de microscpicas fibras pilosas que estn en el interior de la pared de
separacin se ponen a su vez en movimiento. Existen aproximadamente
24.000 de estas fibras pilosas, dispuesta en cuatro largas filas.

Todas las fibras pilosas estn conectadas al nervio auditivo y, dependiendo


de la naturaleza de los movimientos en el fluido coclear, se ponen en
movimiento diferentes tipos de fibras pilosas. Cuando estas fibras se mueven
envan seales elctricas al nervio auditivo que est conectado con el centro
auditivo del cerebro. Los impulsos elctricos se traducen en el cerebro en
sonidos que podemos reconocer y entender. Como consecuencia, estas
fibras pilosas son esenciales para nuestra capacidad de audicin. Si estas
fibras resultaran daadas, entonces la capacidad auditiva de la que
disponemos se vera deteriorada.

70

El Vestbulo

Otra parte importante del odo interno es el rgano encargado del equilibrio,
el Vestbulo.
El vestbulo registra los movimientos del cuerpo, garantizando as que
podamos mantener el equilibrio. El vestbulo consta de tres conductos en
forma de anillo, orientados en tres planos diferentes. Los tres conductos
estn llenos de fluido que se mueve conforme a los movimientos del propio
cuerpo. Adems del fluido, estos conductos tambin contienen miles de
fibras pilosas que reaccionan al movimiento del fluido, enviando pequeos
impulsos al cerebro. El cerebro los decodifica y utiliza para ayudar al cuerpo
a mantener el equilibrio.

FIGURA 19 Funcionamiento del odo

71

Fenmenos asociados al odo


Inhibicin: cuando hablamos (no ornos demasiado).
Saciedad verbal: al repetir mucho una palabra empieza a sonarnos
rara.
Sumador verbal: grabar vocales y al reproducirlo percibir palabras.
Comportamiento biaural: en el experimento se percibe cada tono en
su odo inicial.
Cocktail party effect: habilidad para concentrar nuestra atencin
auditiva en un hablante al escuchar una mezcla de conversaciones en
un ambiente ruidoso.
Ilusin auditiva: un sonido de frecuencia eternamente ascendente
Efecto de enmascaramiento[41]

Un sonido puede dejar de orse cuando est situado frecuencialmente (o


temporalmente) cerca de otro sonido de intensidad suficientemente alta, en
la siguiente figura se aprecia un enmascaramiento simultaneo.

72

FIGURA 20 Enmascaramiento simultaneo

CAPACIDAD AUDITIVA

Muchos animales oyen una gama de frecuencias ms amplia que la que son
capaces de or los seres humanos. Por ejemplo, los silbatos para perros
vibran a una frecuencia alta, que los seres humanos no son capaces de
detectar; mientras que ciertas evidencias sugieren que los delfines y las
ballenas se comunican con frecuencias fuera del alcance del odo humano
(ultrasonidos). La frecuencia se mide en hercios, o nmero de ondas sonoras
que un objeto emite por segundo. Cuanto ms vibra el objeto, la frecuencia y
el tono del sonido resultante son ms altos.

73

FIGURA 21 Capacidad auditiva de varios animales


Las ondas sonoras, en realidad cambios en la presin del aire, son
transmitidas a travs del canal auditivo externo hacia el tmpano, en el cual
se produce una vibracin. Estas vibraciones se comunican al odo medio
mediante la cadena de huesecillos (martillo, yunque y estribo) y, a travs de
la ventana oval, hasta el lquido del odo interno. El movimiento de la
endolinfa que se produce al vibrar la cclea, estimula el movimiento de un
grupo de proyecciones finas, similares a cabellos, denominadas clulas
pilosas. El conjunto de clulas pilosas constituye el rgano de Corti. Las
clulas pilosas transmiten seales directamente al nervio auditivo, el cual
lleva la informacin al cerebro. El patrn de respuesta de las clulas pilosas
a las vibraciones de la cclea codifica la informacin sobre el sonido para
que pueda ser interpretada por los centros auditivos del cerebro.

El rango de audicin, igual que el de visin, vara de unas personas a otras.

El rango mximo de audicin en los seres humanos incluye frecuencias de


sonido desde 16 hasta 28.000 ciclos por segundo. El menor cambio de tono
que puede ser captado por el odo vara en funcin del tono y del volumen.

74

Los odos humanos ms sensibles son capaces de detectar cambios en la


frecuencia de vibracin (tono) que correspondan al 0,03% de la frecuencia
original, en el rango comprendido entre 500 y 8.000 vibraciones por segundo.

El odo es menos sensible a los cambios de frecuencia si se trata de sonidos


de frecuencia o de intensidad bajas.

La sensibilidad del odo a la intensidad del sonido (volumen) tambin vara


con la frecuencia. La sensibilidad a los cambios de volumen es mayor entre
los 1.000 y los 3.000 ciclos, de manera que se pueden detectar cambios de
un decibelio. Esta sensibilidad es menor cuando se reducen los niveles de
intensidad de sonido. Las diferencias en la sensibilidad del odo a los sonidos
fuertes causan varios fenmenos importantes. Los tonos muy altos producen
tonos diferentes en el odo, que no estn presentes en el tono original. Es
probable que estos tonos subjetivos estn producidos por imperfecciones en
la funcin natural del odo medio. Las discordancias de la tonalidad que
producen los incrementos grandes de la intensidad de sonido, es
consecuencia de los tonos subjetivos que se producen en el odo. Esto
ocurre, por ejemplo, cuando el control del volumen de un aparato de radio
est ajustado. La intensidad de un tono puro tambin afecta a su entonacin.

Los tonos altos pueden incrementar hasta una nota de la escala musical; los
tonos bajos tienden a hacerse cada vez ms bajos a medida que aumenta la
intensidad del sonido. Este efecto slo se percibe en tonos puros. Puesto
que la mayora de los tonos musicales son complejos, por lo general, la
audicin no se ve afectada por este fenmeno de un modo apreciable.

Cuando se enmascaran sonidos, la produccin de armonas de tonos ms


bajos en el odo puede amortiguar la percepcin de los tonos ms altos. El

75

enmascaramiento es lo que hace necesario elevar la propia voz para poder


ser odo en lugares ruidosos.

EL RUIDO Y SUS CARACTERISTICAS


El Ruido
El ruido consiste en una seal electrnica que es mezcla de varias
frecuencias a muchas amplitudes, que se aaden a una seal de radio de
informacin mientras se transmite de un sitio a otro o mientras se procesa. Al
encender cualquier receptor de AM o FM y sintonizarlo en una posicin entre
estaciones, el biss o esttica que se oye en la bocina es ruido. Este tambin
se presenta en una pantalla de televisin blanco y negro como nieve o en
una pantalla a color como confeti. Si el nivel de ruido es lo suficientemente
alto y/o la seal es lo bastante baja, el ruido puede borrar por completo la
seal original. Cuando el ruido ocurre en la transmisin de datos digitales
causa errores de bits y puede resultar en mutilacin o perdida de la
informacin. El nivel de ruido en un sistema es proporcional a la temperatura
y el ancho de banda, y la cantidad de corriente que fluye por un componente,
la ganancia del circuito y la resistencia del circuito. Al incrementar cualquiera
de estos factores aumenta el ruido. Por lo tanto, el ruido bajo se obtiene con
facilidad mediante circuitos de baja ganancia, bajas corrientes directas, bajos
valores de resistencia y bandas angostas. Tambin ayuda mantener la
temperatura baja.
El ruido es un problema en los sistemas de comunicaciones siempre que las
seales recibidas sean de muy baja amplitud. Si la transmisin es a muy
poca distancia o se utilizan transmisores de ms potencia, en general el ruido
no es un problema. Pero en la mayora de los sistemas de comunicaciones,

76

las seales dbiles son normales y el ruido debe considerarse al momento


del diseo. Es en el receptor donde el ruido es ms perjudicial porque el
receptor debe amplificar la seal dbil y recuperar la informacin de manera
confiable.

Relacin seal a ruido

La relacin seal a ruido (S/N) indica las intensidades relativas de la seal y


el ruido en un sistema de comunicaciones. A mayor intensidad de la seal y
debilidad del ruido, mayor ser la relacin seal a ruido. Si la seal es dbil y
el ruido fuerte, la relacin S/N ser baja y la recepcin no ser confiable. Los
equipos de comunicacin se disean para proporcionar la ms alta relacin
factible de seal a ruido.

Ruido externo

El ruido externo viene de fuentes sobre las cuales se tiene poco o nada de
control industrial, atmosfrico o del espacio. Sin considerar su origen, el ruido
se muestra como un voltaje aleatorio de ca y puede verse en el osciloscopio.

La amplitud vara dentro de un intervalo amplio, como tambin lo hace la


frecuencia. Uno puede decir que el ruido en general contiene todas las
frecuencias, cambiando al azar.

Se debe tener en cuenta todo el ruido externo. El ruido atmosfrico y del


espacio son hachos de la naturaleza y simplemente no pueden eliminarse,
algunos ruidos industriales pueden controlarse en su origen, pero debido al
gran nmero de fuentes de este tipo de ruidos, no hay forma de suprimirlos.

77

La clave para unas comunicaciones confiables, entonces, slo es generar


seales a una potencia bastante alta para contrarrestar el ruido externo.

El ruido externo se clasifica en:

Ruido industrial
Ruido atmosfrico
Ruido extraterrestre

Ruido industrial

El ruido industrial lo producen equipos como sistemas de ignicin automotriz,


motores elctricos y generadores. Cualquier equipo elctrico que cause
voltajes o corrientes altos que deban conmutarse produce transitorios que
crean ruido. Siempre que se pone en marcha o se apaga un motor u otro
dispositivo inductivo, ocurren pulsos de ruido de gran magnitud. Los
transitorios resultantes son muy grandes en amplitud y ricos en armnicas
aleatorias. Las lmparas fluorescentes y otras formas de lmparas rellenas
de gas son otra fuente comn de ruido industrial.
Ruido atmosfrico

Las perturbaciones elctricas que ocurren de manera natural en la atmsfera


de la tierra son otra fuente de ruido. El ruido atmosfrico a menudo se llama
esttica. El ruido de esttica por lo general viene de relmpagos, descargas
elctricas que ocurren entre nubes o entre la tierra y las nubes. Enormes
cargas elctricas se generan en las nubes y cuando la diferencia de potencial
es lo bastante grande, se crea un arco y la electricidad fluye libremente a
travs del aire. El relmpago se parece mucho a las cargas estticas que se
experimentan durante la temporada seca del invierno. Los voltajes

78

involucrados son, sin embargo, enormes, y estas seales elctricas


transitorias de megavolts generan armnicas de alta energa que pueden
viajar a grandes distancias. Igual que el ruido industrial, el ruido atmosfrico
de manera bsica se muestra como variaciones de amplitud que se suma a
una seal e interfieren con ella. El ruido atmosfrico tiene su mayor impacto
en seales a frecuencias menores de 30MHz.
Ruido extraterrestre

El ruido extraterrestre, solar y csmico viene de fuentes en el espacio. Una


de las fuentes principales de este tipo de ruido es el Sol, que radia un
intervalo amplio de seales en un espectro extenso de ruido. La intensidad
de ruido que produce el sol vara con el tiempo. De hecho, el sol tiene un
ciclo de ruido que se repite cada 11 aos. Durante el pico del ciclo, el sol
produce una cantidad pavorosa de ruido que causa enormes interferencias
en las seales de radio, que hacen que muchas frecuencias no puedan
usarse para comunicaciones. Durante otros aos, el ruido se encuentra a
menor nivel. El ruido generado por las estrellas fuera de nuestro sistema
solar por lo general se denomina ruido csmico. No obstante que su nivel no
es tan grande como el que produce el sol, dadas las grandes distancias entre
las estrellas y la tierra, sin embargo es una fuente de ruido que debe
considerarse.

Se muestra de manera principal en el intervalo de 10 MHz a 1.5 GHz, pero


causa los mayores disturbios en el intervalo de 15 a 150 MHz.

Ruido interno

Los componentes electrnicos en el receptor como los resistores, diodos y


transistores son fuentes fundamentales de ruido interno. Este, aun cuando es

79

de bajo nivel, a menudo es lo bastante grande para interferir con seales


dbiles.

El ruido interno se clasifica en:

Ruido trmico
Ruido de los semiconductores
Distorsin por intermodulacin

Ruido trmico

La mayor parte del ruido interno es causado por el fenmeno llamado


agitacin trmica , que es el movimiento catico de los electrones libres de
un conductor, provocado por el calor. Al aumentar la temperatura, este
movimiento atmico se incrementa. Como los componentes son conductores,
el movimiento de los electrones constituye un flujo de corriente que provoca
un pequeo voltaje a travs de ese componente. Los electrones que
atraviesan

un

conductor

como

flujos

de

corriente,

experimentan

impedimentos pasajeros en su trayectoria mientras encuentran a los tomos


agitados de manera trmica. La resistencia aparente del conductor flucta y
as causa el voltaje aleatorio producido trmicamente que se llama ruido.

Ruido de los semiconductores

Componentes electrnicos como diodos y transistores son contribuyentes


mayores de ruido. Adems del ruido trmico, los semiconductores producen
ruido aleatorio, ruido de trnsito y ruido de parpadeo. El tipo ms comn de
ruido de los semiconductores es el ruido de disparo . El flujo de la corriente
en cualquier dispositivo no es directo ni lineal. Los portadores de corriente,
electrones o huecos, algunas veces toman trayectorias al azar desde la

80

fuente hasta destino, ya sea que el destino sea un elemento de salida, la


placa de un tubo, el colector o drenaje de un transistor. Este movimiento
aleatorio es el que produce el efecto de disparo. El ruido de disparo o catico
tambin es producido por el movimiento aleatorio de los electrones o los
hoyos a travs de una unin PN. Aun cuando el flujo de corriente se
establece por la tensin de polarizacin externa, algn movimiento aleatorio
de los electrones o de los huecos ocurrir debido a las discontinuidades en el
dispositivo. Por ejemplo, la interfase entre el conductor de cobre y el material
semiconductor forma una discontinuidad que causa el movimiento aleatorio
de los portadores de corriente.

Otro tipo de ruido que ocurre en los transistores es el ruido de tiempo de


trnsito . El trmino tiempo de trnsito se refiere al tiempo que le toma a un
portador de corriente, como un hueco o un electrn, moverse de una entrada
a una salida. Los dispositivos mismos son muy delgados, por lo que las
distancias implicadas son mnimas; sin embargo, el tiempo que demoran los
portadores de corriente en trasladarse aun una distancia muy corta, es finito.

En frecuencias bajas este tiempo es despreciable, pero si la frecuencia de


operacin es alta y el periodo de la seal que se est procesando es del
mismo orden de magnitud que el tiempo de trnsito, puede haber problemas.

El ruido de tiempo de trnsito se muestra como una variacin aleatoria de los


portadores de corriente dentro de un dispositivo, que ocurre cerca de la
frecuencia de corte superior. El ruido de tiempo de transito es directamente
proporcional a la frecuencia de operacin.

Un tercer tipo de ruido del semiconductor, es el ruido de parpadeo o ruido


excesivo, tambin ocurre en los resistores y en los conductores. Esta
perturbacin se debe a pequeas variaciones aleatorias del material del

81

resistor o del semiconductor. Es directamente proporcional a la corriente y la


temperatura. Sin embargo, es inversamente proporcional a la frecuencia y,
por ello, algunas veces se denomina ruido 1/f. El ruido de parpadeo toma su
mayor valor en las frecuencias bajas y, por lo tanto, no es ruido blanco puro.

Debido a la escasez de componentes de alta frecuencia el ruido 1/f tambin


se llama ruido rosa.

En ciertas frecuencias bajas, el ruido de parpadeo empieza a superar el ruido


trmico o el de disparo. En algunos transistores esta frecuencia de transicin
es tan baja como en algunos cientos de Hz en otro, el ruido puede empezar
a crecer en frecuencias tan altas como 100KHz.

Ruido de ntermodulacin

La distorsin por intermodulacion se debe a la generacin de nuevas seales


y armnicas como resultado de no linealidades en el circuito. Como antes se
menciono. Los circuito nunca pueden ser perfectamente lineales, y si los
voltajes de polarizacin son incorrectos en algn criterio, el posible que
resulte menos lineal que lo esperado. La no linealidad produce modulacin y
efectos heterodinos. En el circuito las frecuencias se mezclan unas con otra y
forman frecuencias de sumas y diferencias. Cuando se trata de muchas
frecuencias, o de pulsos u ondas rectangulares, el gran nmero de
armnicos produce una cantidad aun mayor de frecuencias de sumas y
diferencia. Los productos resultantes son pequeos en amplitud, pero
pueden ser lo bastante grandes para constituir un disturbio que puede
llamarse como cierto tipo de ruido. Este ruido, que no es blanco o rosa, en
realidad puede predecirse porque conocen las frecuencias implicadas ala
generacin de los productos de intermodulacion. Debido a la correlacin

82

predecible entre las frecuencias conocidas y el ruido la distorsin por


intermodulacion tambin se llama ruido correlacionado. Este se produce solo
cuando las seales estn presentes. Los tipos de ruido antes presentados a
veces se denominan ruidos no correlacionados.

El ruido correlacionado se manifiesta como las seales de bajo nivel


llamadas birdies o silbidos. Puede minimizarse con un buen diseo.

Ruido blanco o gaussiano


Es debido a la agitacin trmica de los electrones en la lnea de transmisin,
o a la induccin de lneas elctricas adyacentes. Se considera inevitable,
pero por lo general no es un problema a menos que su nivel sea muy
elevado. Ejemplos de este tipo de ruido los tenemos en el ceceo de fondo o
esttica conocido en radios y telfonos.
Ruido de impulsos o agujas
Es el principal causante de errores en la comunicacin de datos. Es
identificado como un "click" durante las comunicaciones de voz. Este ruido
provoca un error de rfaga en donde dependiendo de la tasa de transferencia
de informacin y la duracin del impulso puede cambiar desde 1 o 2 bits,
hasta decenas o centenas de estos. Las principales fuentes de estos ruidos
son cambios de voltajes en lneas adyacentes, falsos contactos y arcos
elctricos en los interruptores o relevadores en las oficinas telefnicas
antiguas.
Ruido de amplitud
Este ruido comprende un cambio repentino en el nivel de potencia, y es
causado por amplificadores defectuosos, contactos sucios con resistencias

83

variables, cargas agregadas repentinas porque se conmuten nuevos circuitos


durante el da y por labores de mantenimiento.
El ruido de amplitud no afecta las tcnicas de modulacin de frecuencia
debido a que el equipo transmisor y receptor interpretan la informacin de
frecuencia e ignoran la informacin de amplitud.

84

CAPITULO II. CODIFICACION DE VOZ[35]

Definicin de codificacin de la voz

Codificar la voz consiste en convertir las ondas sonoras que la representan a


otro tipo de representacin que, aunque menos natural, si resulta mas
adecuada para determinadas tareas. Veamos un posible ejemplo de
codificacin de voz: supongamos que disponemos de un ordenador que tiene
conectado un micrfono, las ondas sonoras que pueden traducir a valores
numricos (que el ordenador puede almacenar) sin ms que ir midiendo
peridicamente el resultado de la excitacin del micrfono.Consecutivamente,
los valores depositados podran utilizarse para excitar un altavoz, y as
reproducir la voz.

La codificacin tambin estudia, una vez que se ha transformado la seal de


voz a otra representacin, cual es la mejor forma de tratar esa nueva
representacin para que el tratamiento de la informacin obtenida sea optimo.
Historia de los codificadores de voz

Hace unos cincuenta aos que empez la investigacin en el campo de la


codificacin de la voz. El pionero fue Homer Dudley, que trabajaba en los
laboratorios de la Bell Telephone. La estimulacin de esta investigacin
surgi por la necesidad de trasmitir voz por los cables de telegrafa de
pequeo ancho de banda. La idea del vocoder (VOICE CODER, codificador
de voz) de Dudley era analizar la voz para extraer una serie de
caractersticas y que el emisor enviase estas caractersticas, cuando estas le

85

llegasen al receptor reconstruira la voz original. Este codificador recibi gran


atencin mientras la segunda guerra mundial, debido a su potencial en
cuanto a eficiencia y posibilidad de encriptacin se refiere.

Las primeras implementaciones del vocoder eran analgicas, no obstante,


con el nacimiento de los sistemas digitales y de las posibilidades que estos
ofrecen, pronto se paso a las implementaciones digitales. Durante de la
dcada de los 40 hubo una gran actividad en la codificacin por modulacin
de impulsos (PCM). Este tipo de codificacin no sigue la filosofa del vocoder
de Dudley (y de los vocoders en general), sino que simplemente muestra la
voz. A partir de PCM se desarrollaron el DPCM y el ADPCM que fueron
propuestos como estndar por la CCIIT (Internacional Consultative
Committee for Telephone and Telegraph). Gracias a la flexibilidad de los
sistemas digitales, se pudo experimentar con formas mas sofisticadas de
representacin de la voz. Fant, a finales de los 50, trabajo en el modelo de
produccin de voz lineal.

El surgimiento de la tecnologa VLSI, tecnologa de muy baja escala de


integracin durantote los 60 y 70 permiti nuevas soluciones al problema de
la codificacin de la voz. As por ejemplo, Flanagan y Golden propusieron
una solucin basada en la Transformada de Fourier.

De los 80 la investigacin ha ido encaminada a obtener codificadores que


utilicen un ancho de banda cada vez menor mientras que la calidad de la voz
sea cada vez mejor. Con esto se permite utilizar con ms eficiencia y eficacia
los canales de transmisin, se facilita la encriptacin y se aprovechan mejor
los sistemas de almacenamiento.

Una de las principales aplicaciones de la codificaron de voz es la telefona


mvil, en Estados Unidos se utiliza un estndar de 8 Kbps (VSELP) y otro

86

similar, a 6.7 Kbps en Japn. En Europa, dentro del sistema GSM, se usa un
codificador a 13 Kbps.

Muestreo y cuantificacin

La seal de voz es continua en el tiempo y en amplitud. Para que pueda ser


procesada por hardware (y software) digital es necesario convertirla a una
seal que sea discreta tanto en el tiempo como en amplitud.

Muestreo

Consiste en proceso de transformacin de seales continuas a seales


discretas en el tiempo. Este proceso se ejecuta midiendo la seal en
instantes peridicos del tiempo veamos un ejemplo dada la siguiente seal
continua.

FIGURA 22 Seal continua


Muestrendola obtenemos la siguiente seal discreta.

87

FIGURA 23 Seal discreta


En el ejemplo anterior hemos visto el efecto muestrear una seal sinusoidal.
Si aumentamos el numero de muestras por unidad de tiempo, la seal
muestreada se parecer mas a la seal continua. El nmero de muestras por
segundo se conoce en ingles como bit-rate.

Si el bit-rate es suficientemente alto, la seal muestreada contendr la misma


informacin que la original. Respecto a esto el criterio de Nyquist asegura
que para la seal muestreada contenga la misma informacin que la continua,
la separacin mnima entre dos instantes de muestreo debe ser 1/(2w),
siendo w el ancho de banda de la seal. Dicho de otra forma, que la
frecuencia de muestreo debe ser mayor o igual que 2w.

Cuantificacin

La cuantificacin es la transformacin de una seal discreta en el


tiempo evaluada de forma continua a una seal discreta en el tiempo

88

discretamente evaluada. El valor de cada muestra de la seal se


representa como un valor elegido de entre un conjunto finito de
posibles valores.

Se conoce como error de cuantificacin (o ruido), a


entre

la

seal

la

discrepancia

de entrada (sin cuantificar) y la seal de salida (ya

cuantificada), interesa que el ruido sea lo ms bajo posible. Para obtener


esto, se pueden usar distintas tcnicas de cuantificacin:
Cuantificacin uniforme
Cuantificacin logartmica
Cuantificacin no uniforme
Cuantificacin vectorial

Cuantificadores Uniformes

En los cuantificadores uniformes (o lineales) la distancia entre los niveles


de reconstruccin es siempre la misma. No hacen ninguna hiptesis
acerca de la naturaleza de la seal a cuantificar, de ah que no obtenga
los mejores resultados. Sin embargo, tienen como ventaja que son los
ms fciles y menos costosos de realizar.
En la siguiente figura se ve un ejemplo de cuantificacin uniforme:

89

FIGURA 24 Cuantificacin uniforme

FUENTE 1 Universidad de Sevilla


El cuantificador uniforme redondea las amplitudes al valor ms prximo de un
conjunto de niveles. Es un mtodo de cuantificacin sin memoria y con
prdidas. El escaln de cuantificacin

es constante.

FUENTE 2 Universidad de Sevilla

90

Ej. Voz muestreada a 8 kHz., PCM con 8bits/muestra(L=256 niveles)

FUENTE 3 Universidad de Sevilla

FUENTE 4 Universidad de Sevilla

91

Cuantificacin no uniforme

El problema de la cuantificacin uniforme es que conforme aumenta la


amplitud de la seal, adems aumenta el error. Este problema lo resuelve
el cuantificador logartmico de forma parcial. Sin embargo, si conocemos
la funcin de la distribucin de probabilidad, logramos ajustar los niveles
de reconstruccin a la distribucin de forma que se minimice el error
cuadrtico medio. Esto significa que la mayora de los niveles de
reconstruccin se den en la vecindad de las entradas ms frecuentes y,
consecuentemente, se minimice el error (ruido).

En la prctica, se puede usar una estimacin de la distribucin para


disear los cuantificadores. Esta estimacin se puede conseguir a partir
de los datos a cuantificar de forma iterativa.

FIGURA 25 Cuantificacin no uniforme


Se caracteriza por que la anchura

k de los intervalos de cuantificacin Ik

puede diferir.
p(x
Pk

Ik) = prob.de pertenecer al intervalo Ik


= p(x

Ik)/ k densidad media de probabilidad en el intervalo.

92

Para minimizar la varianza del error de cuantificacin. Se debe elegir el paso


de cuantificacin variable de forma que se obtenga mayor precisin en las
zonas ms probables:
Ancho del intervalo k

k= cte/ Pk

Pk

alta densidad => pasos ms pequeos

Pk

baja densidad => pasos ms grandes.

cuantificacin logartmica

Las seales de voz pueden tener un rango dinmico superior a los


60 dB, por lo que para obtener una alta calidad de voz se deben usar un
elevado nmero de niveles de reconstruccin. Sin embargo, interesa
que la resolucin del cuantificador sea mayor en las partes de la seal
de menor amplitud que en las de mayor amplitud. Por tanto, en la
cuantificacin lineal se desperdician niveles de

reconstruccin y ancho

de banda. Esto se puede optimizar incrementando la distancia entre los


niveles de reconstruccin conforme aumenta la amplitud de la seal.

Un mtodo sencillo para obtener esto es haciendo pasar la


un compresor logartmico

seal por

antes de la cuantificacin. Esta seal

comprimida puede ser cuantificada uniformemente. A la salida del


sistema, la seal pasa por un expansor, que ejecuta la funcin inversa al
compresor a esta tcnica se le llama compresin. Su principal ventaja
es que es muy fcil de implementar y funciona razonablemente bien con
seales distintas a la de la voz. A continuacin un ejemplo de comprensin.

93

FIGURA 26 Ejemplo de comprensin


Para llevar a cabo la compresin existen dos funciones muy utilizadas:
Ley-A (utilizada principalmente en Europa) y ley-(utilizada en EEUU).

FIGURA 27 Ejemplo de comprensin( b)


En la mayora de los sistemas telefnicos, A se fija a 87.56 y a 255.
La siguiente figura muestra la grfica de la ley-para distintos valores de
:

94

FIGURA 28 Grfico de la ley- para distintos valores de

Cuantificacin vectorial

FUENTE 5 Universidad de Sevilla


Se suelen utilizar en los codificadores CELP para codificar el residuo de
prediccin.
En

los

mtodos

anteriores,

cada

muestra

se

cuantificaba

independientemente a las muestras vecinas. Sin embargo, la teora


demuestra que sta no es la mejor forma de cuantificar los datos de
entrada. Resulta ms eficiente cuantificar los datos en bloques de N
muestras. El proceso es sencillamente una extensin de los anteriores

95

mtodos escalares descritos anteriormente. En este tipo de cuantificacin,


el bloque de N muestras se trata como un vector N-dimensional.

En la siguiente figura vemos un ejemplo de cuantificacin vectorial (VQ)


en dos dimensiones:

FUENTE 6 Ejemplo de cuantificacin vectorial (VQ) en dos


dimensiones.

La

cuantificacin

vectorial

ofrece

mejores

resultados

que

la

cuantificacin escalar, sin embargo, es ms sensible a los errores de


transmisin y lleva consigo una mayor complejidad computacional.

Medida subjetiva de la calidad de voz

El Test MOS consiste en una evaluacin subjetiva de la calidad de sntesis


de voz de un sistema. Fue normalizado por el comit Consultivo Internacional

96

de Telefona y Telegrafa (CCITT) a principio de los aos 80 y se le ha


utilizado principalmente para medir la calidad en sistemas de comunicacin
celular digital.

MOS: Mean Opinion Store


MOS

Calidad

Degradacin

E x celente

Imperceptible

B u en a

Perceptible pero no
molesta

Med ia

Ligeramente
molesta

Pobre

Molesta

Mala

Muy molesta

TABLA 6 Medida subjetiva de la calidad de voz

Clasificacin de los codificadores de voz

Los codificadores de voz se clasifican en tres grandes grupos, a saber:

codificadores de la forma de onda


vocoders
codificadores hbridos

97

FIGURA 29 Calidad de voz vs Velocidad


En el primer grupo, codificadores de forma de onda, abarcan aquellos
codificadores que intentan reproducir la forma de la onda de la seal de
entrada sin tener en cuenta de donde proviene. Estos, en funcin de en
qu dominio operen, se dividen en:

codificadores en el dominio del tiempo


codificadores

en

el

dominio

de

la frecuencia

Este tipo de codificadores proporcionan una alta calidad de voz a bit


rates medios, del orden de 32 kb/s. Sin embargo, no son tiles cuando se
quiere codificar a bajos bit rates.

En el grupo de vocoders estn aquellos codificadores que s tienen en


cuenta la naturaleza de la seal a codificar, en este caso la voz, y
aprovechan las caractersticas de la misma para ganar en eficiencia.
Permiten trabajar con muy bajos bit rates, pero la seal de voz que

98

producen suena demasiado sinttica.

En el tercer grupo, los codificadores hbridos, encontramos aquellos que


combinando tcnicas de los vocoders y de los codificadores de la forma
de la onda anan las ventajas de ambos, permitiendo una alta calidad de
voz a bajos bit rates.
Codificadores de la forma de onda

Los codificadores de la forma de onda intentan reproducir la forma de la


onda de la seal de entrada. Generalmente se disean para ser
independientes a la seal, de tal forma que pueden ser

usados para

codificar una gran variedad de seales. Presentan una degradacin


aceptable en presencia de ruido y errores de transmisin. Sin embargo,
para que sean efectivos, slo se deben usar a bit-rates medios. La
codificacin se puede llevar a cabo tanto en el dominio del tiempo como
de la frecuencia.

Los codificadores de forma de onda dividen en dos grupos:

en el dominio del tiempo


en el dominio de la frecuencia

Codificadores en el dominio del tiempo

Dentro de este grupo tenemos los siguientes codificadores:

PCM

99

DPCM
DM
ADPCM

Modulacin por codificacin de impulsos (PCM)

La modulacin por codificacin de impulsos es la codificacin de forma


de

onda

ms sencilla. Primordialmente, consiste en el proceso de

cuantificacin. Cada

muestra que entra al codificador se cuantifica en

un establecido nivel entre un conjunto finito de niveles de reconstruccin.


Cada uno de estos niveles se hace pertenecer con una secuencia de
dgitos binarios, y esto es lo que se enva al receptor. Se pueden usar
distintos criterios para llevar a cabo la cuantificacin,

siendo el

ms

usado el de la cuantificacin logartmica.

DPCM
ADPCM

Modulacin por codificacin de impulsos diferencial (DPCM)

Puesto que PCM no tiene en cuenta la forma de la onda de la seal a


codificar, funciona muy bien con seales que no sean las de la voz, sin
embargo, cuando se codifica voz hay una gran correlacin entre las
muestras adyacentes.

Esta correlacin puede aprovecharse para reducir el nmero de muestras


por segundo. Una forma fcil de hacerlo sera transmitir nicamente las
diferencias entre las muestras. Esta seal de diferencia tiene un rango
dinmico mucho menor que el de la voz original, por lo que podr ser

100

cuantificada con un nmero menor de niveles de reconstruccin. En la


figura siguiente se muestra el funcionamiento de DPCM, donde la
muestra anterior se usa para predecir el valor de la muestra actual.

FIGURA 30 Sistema DPCM (a) codificador (b) decodificador


Normalmente, el valor predicho, s n, es una combinacin lineal de un
nmero finito de muestras anteriores, sn:

Ecuacin 1

Ecuacin 2

La seal de diferencia, dn, se denomina residuo y es el residuo lo que


se cuantifica y se enva al receptor. Los coeficientes de prediccin, {ak},
se eligen para reducir el error cuadrtico medio, E:

101

Modulacin delta

FIGURA 31Modulacin delta codificador y decodificador

FIGURA 32. Error de sobrependiente

102

Modulacin por codificacin de impulsos diferencial adaptativa


(ADPCM)

En DPCM tanto el predictor como el cuantificador permanecen fijos


el

tiempo.

en

Se podra obtener una mayor eficiencia si el cuantificador

se adecuase a los

cambios del residuo de prediccin. Conjuntamente,

tambin se podra hacer que la prediccin se adaptase a la seal de la


voz. Esto asegurara que la raz cuadrada del error de prediccin
se minimice continuamente, con independencia de la seal de voz y de
quin la emita.

La siguiente figura muestra un codificador/decodificador ADPCM

FIGURA 33. Codificador/decodificador ADPCM

103

Hay dos mtodos para adaptar los cuantificadores y los predictores,


llamados

adaptacin en feedforward y adaptacin en feedbackward.

En la adaptacin feedforward los niveles de reconstruccin y los


coeficientes de prediccin se calculan en el emisor, usando un bloque
de voz. Posteriormente son cuantificados y
como

informacin

lateral. Tanto el emisor

transmitidos
como

al receptor

el receptor usan

estos valores cuantificados para hacer las predicciones y cuantificar el


residuo. En la adaptacin feedbackward los niveles de reconstruccin
y los coeficientes de prediccin se calculan a partir de la seal
codificada.

Puesto

que la seal es conocida tanto por el emisor como

por el receptor, no hay

necesidad de transmitir informacin lateral, as

el predictor y el cuantificador pueden actualizarse para cada muestra.


La adaptacin feedbackward puede dar menores bir rates, pero es ms
sensible a los errores de transmisin que la adaptacin feedforward.
ADPCM es muy til para codificar voz a bit rates medios.
propone

un

La

CCITT

estndar de codificacin de voz telefnica a una

velocidad de 32 kb/s. Es el estndar G.721. Usa un esquema de


adaptacin

feedbackward tanto para el cuantificador como para el

predictor. El predictor tiene dos polos y seis ceros, por lo que produce
una calidad de salida aceptable para seales que no son de voz.

Codificacin en el dominio de la frecuencia

Este tipo de codificadores dividen la seal en distintas componentes


en frecuencia y codifican cada
independiente. El nmero

de

una
bits

de

stas

forma

usados para codificar cada

componente en frecuencia puede variar dinmicamente:

104

de

Algunos tipos codificadores en el dominio de la frecuencia son:

Codificacin en subbandas
Codificacin por transformada
Codificacin perceptual

Codificacin perceptual

Se basa en como percibe el sonido el odo.

105

FUENTE 7 Universidad de Sevilla

Codificacin en sub-bandas

Es el ms sencillo de los mtodos en el dominio de la frecuencia. A


continuacin codificador en sub-bandas:

FIGURA 34. Codificador en sub-bandas.


La

seal

atraviesa

un

conjunto

106

de

filtros

paso-banda

(BPF).

Posteriormente, cada sub-banda se pasa a banda baja y se realiza un


proceso de decimacin, es decir, se suprimen muestras. Las subbandas se codifican empleando algn mtodo basado en el dominio del
tiempo. El nmero de bits asignados a cada banda pueden variar en
funcin de la importancia de dicha banda. En el receptor, se aaden
muestras y se vuelven a modular las bandas a sus posiciones originales.

Al final, se suman para conseguir la seal de voz de salida. La principal


ventaja de la codificacin en subbandas es que el ruido de cuantificacin
que se origina en cada banda queda confinado a la misma. La
codificacin en subbandas se usa mucho en seales de un gran ancho
de banda, como puede ser en teleconferencia

FIGURA 35.Codificador ITU G722 Sub -band

107

FIGURA 36 .Decodificador ITU G722 Sub band

Codificacin por transformada

Reside en una codificacin por bloques.

La seal

de

entrada

se

transforma en un dominio diferente y se codifican los coeficientes de la


transformacin. En el receptor, el decodificador calcula la transformada
inversa para adquirir la seal original reconstruida.

La transformacin ms usada es la Transformada Discreta del Coseno,


DCT, cuya representacin es la siguiente:

108

Ecuacin 3
La codificacin por transformada se utiliza en la codificacin de seales
de banda ancha de imagen y sonido. Sin embargo, no se usa mucho
en codificacin de voz debido a su complejidad.

FIGURA 37.Codificacin por transformada

Vocoders

Los codificadores de la forma de la onda no tienen en cuenta la


naturaleza de la seal a codificar. Sin embargo, si codificamos una seal
de voz, podemos aprovechar sus caractersticas intrnsecas para que la

109

codificacin se efectu de forma ms ptima. Tambin, los vocoders


(VOice CODERS) suponen el siguiente modelo de produccin de voz:

FIGURA 38.Modelo de produccin de voz.


Los vocoders intentan producir una seal que suene como la voz
original, autnomamente de si la forma de onda se parece o no. En el
transmisor se analiza la voz y se extraen los parmetros del modelo
y la excitacin. Esta informacin se enva al receptor donde se sintetiza o
reconstruye la voz. El resultado es que se produce voz inteligible a muy
bajo bit-rate, pero tiene el problema de que no suena natural.

Algunos tipos de vocoders, que explicaremos a continuacin son:

Vocoder por prediccin lineal


LPC-10 (FS-1015)

110

Vocoder por prediccin lineal

Es el tipo de vocoder ms utilizado. Este vocoder utiliza el mismo


modelo de produccin que otros vocoders

pero

difiere

en

la

determinacin del modelo del tracto vocal. Supone que el tracto


vocal se puede describir por un filtro todo polos de respuesta impulsiva
infinita (filtro IIR),H(z).

Ecuacin 4
A este filtro se le conoce tambin como filtro LPC (Lineal PredictiveCoding).
Es decir, se supone que cada muestra es una combinacin lineal de
las muestras anteriores. Los coeficientes del filtro se calculan para
minimizar el error entre la muestra actual y su prediccin.

En este vocoder, se trabaja sobre bloques de 20 ms de voz. Se trabaja


sobre lo que se conoce como modelo corto, las caractersticas de la
voz se suponen que no varan con el tiempo en intervalos pequeos.

Esos bloques se analizan para establecer los coeficientes de prediccin.

Estos se cuantifican y se envan al receptor junto a otros parmetros. El


efecto de la prediccin es similar a la correlacin entre muestras
adyacentes.

La popularidad de este vocoder viene de que el modelo todo polos del

111

tracto vocal funciona muy bien y es posible alcanzar una seal de voz
sintetizada muy inteligible a bit-rates del orden de 2.4 Kbps.

Vocoder LPC-10 (FS-1015)

Este algoritmo de codificacin de

voz

fue desarrollado

por el

DOD

(Department Of Defense), el Departamento de Defensa Estadounidense.


Permite la codificacin de la seal de la voz a una velocidad de 2400
bps.

FIGURA 39. Esquema de funcionamiento de Vocoder LPC-10.

Emisor

El emisor se divide en dos bloques, que tienen las siguientes funciones:

fase de anlisis
codificacin de parmetros

La fase de anlisis es la encargada de la extraccin del "pitch" y del tipo


de sonido (sonoro o sordo), as como de la extraccin de los
coeficientes de reflexin y la energa de la seal para cada una de las

112

tramas en que dicha seal es dividida. Como coeficientes del filtro LPC
se utilizan los coeficientes de reflexin. Los coeficientes {ak} k=1, .. ,10
presentan unas caractersticas que los hacen inadecuados para su
transmisin. La fase de codificacin es la encargada de codificar
estos parmetros y convertirlos en la secuencia de bits a transmitir.

Este es el diagrama de bloques del emisor:

FIGURA 40. Diagrama de bloques del emisor.


A la seal de voz de se le aplica un preprocesado: atraviesa un filtro
paso banda, y se realiza un prenfasis (el prenfasis reduce los
requerimientos de precisin de los clculos posteriores). Adems, con el
prenfasis se consigue modelar mejor las amplitudes
formantes a

bajas

de

los

altas frecuencias.

Despus, en el anlisis LPC, se calculan los coeficientes LPC con el


mtodo de la covarianza. La voz atraviesa una serie de filtros con el fin
de mejorar el pitch. Despus, la seal de voz se transfiere a la fase
del algoritmo AMFD (Average Magnitude Diference Function) y al
detector de voz (para extraer el pitch y decidir entre sonoro/sordo). Los

113

resultados de este detector, junto con los del pitch, son corregidos

suavizados por un algoritmo de programacin dinmica. Este proceso


se realiza dos veces por cada trama.

Los 10 coeficientes de reflexin, RMS (Root Mean Square, mide la


energa del segmento, se calcula en el pitch) y el pitch se codifican y
se obtiene un bit-rate de 2400 bps.
Receptor

En el receptor, lo que se hace es reconstruir la voz simulando la


excitacin sonora por algn tipo de tren

de

impulsos

repetido

peridicamente a la frecuencia del "pitch" y la sorda simplemente como


ruido. La seal de excitacin as formada se pasa posteriormente por un
filtro

similar

al utilizado

en

la

fase

de

anlisis

que es

el

encargado de simular el tracto vocal. La salida de dicho filtro es escalada


en funcin de la energa RMS para obtener una reconstruccin de la
seal original.

La siguiente figura muestra el diagrama de bloques del receptor:

FIGURA 41 Diagrama de bloques del Receptor

114

Tras la conversin de serie a paralelo, se realiza la deteccin y correccin


de

errores,

as como la decodificacin mediante tablas. Se introduce

una trama de retraso para poder suavizar la trama actual basndose


en la mediana entre la trama presente, la pasada y la futura. Dicha
suavizacin vara dependiendo de la tasa de error. A medida que sta
aumenta es necesario aumentar tambin la suavizacin.

Codificadores Hbridos

En la codificacin hbrida se combinan las tcnicas de los codificadores


de la forma de la onda con las de los vocoders con la intencin de
conseguir una alta calidad de voz a bajos bit-rates (inferiores a 8
Kb/s).En estos codificadores, las muestras de la seal de entrada se
dividen
como si

en bloques
fueran

de
uno

muestras
solo.

(vectores)

Llevan

que son procesados

a cabo una representacin

paramtrica de la seal de voz para tratar que la seal sinttica se


parezca lo ms posible a la original.

De igual forma se les

conoce

como

codificadores de anlisis-por-

sntesis. En el emisor se lleva a cabo un anlisis que obtiene los


parmetros de la seal para

luego sintetizarla

parecido a la original.

Tipos de codificadores codificadores hbridos:

Codificacin RELP
Codificacin multipulso, MPC
Codificacin CELP (FS-1016)
Codificacin VSELP

115

y conseguir el mayor

Codificacin RPE-LTP

Codificacin RELP

Cuando la seal de voz atraviesa un predictor lineal, se elimina la


correlacin entre tramas. Si la prediccin es bastante buena, la salida
del predictor ser aproximadamente ruido blanco, espectralmente plano,
como se muestra en la siguiente figura:

FIGURA 42 Salida del predictor.


El residuo contiene toda la informacin de excitacin y cualquier
informacin que el filtro LPC no considera. La idea de RELP es que
una pequea parte del residuo se transmite y a partir de l reconstruir
el residuo completo en el receptor.

El filtro LPC no elimina la informacin del pitch, y esta informacin no


se modela correctamente por el residuo transmitido. RELP proporciona
buena calidad para una velocidad de transmisin de 9.6 kps.

116

Codificacin multipulso, MPC

Los vocoders categorizan la voz en sonoro o no sonoro pero no


consideran una mezcla de ambos sonidos y de ah su baja calidad. El
codificador multipulso trata de corregir este problema.

El periodo

de

pitch causa una correlacin de retardo largo que no se elimina con el filtro
LPC. Esta correlacin se puede eliminar pasando el residuo a travs de
un segundo predictor lineal, llamado predictor de pitch o filtro de pitch.
Este filtro es del tipo:

Ecuacin 5
Siendo M el periodo del pitch.
La salida de este predictor es aproximadamente ruido gaussiano.

FIGURA 43 (a) Seal original. (b) Residuo del filtro LPC (aumentado en
10dB). (c) Residuo de los filtros LPC y de pitch en cascada (aumentado en
10dB)

117

El codificador multipulso pasa como excitacin a los dos filtros una serie
de impulsos (sobre 4 o 6 impulsos). La posicin y sus amplitudes se
establecen utilizando un procedimiento de anlisis por sntesis (se
sintetiza la voz para cada uno de estos conjuntos de impulsos y el
conjunto que produce el error menor entre la seal reconstruida y la
original se elige como la excitacin).

El codificador multipulso causa una seal de voz de muy buena calidad


a bit-rates del orden de 9.6 kbps. Una variacin de este codificador
consiste en elegir como secuencia de excitacin unos patrones de pulsos
regularmente espaciados. Este codificador se conoce como

RPE

(Regular Pulse Excitation).

Codificacin CELP (FS-1016)

CELP se basa en procedimientos de bsqueda de anlisis por sntesis,


cuantizacin de vectores con pesos (VQ) y prediccin lineal (LP). Se
usa un filtro LPC de dcimo orden para modelar las formantes de
retardo corto de la seal de voz. La periodicidad de retardo largo de la
seal se modela con un diccionario adaptativo

VQ (tambin llamado

pitch). El error de la prediccin lineal de retardo corto y el pitch VQ se


cuantifican utilizando un libro de secuencias estocsticas (son muestras
de ruido aleatorio blanco gaussiano).Al receptor slo
como excitacin el ndice del diccionario y la ganancia.

118

se

le

enva

Codificador

FIGURA 44 Etapa de anlisis de un transmisor CELP.

FIGURA 45 Detalle de la figura 44.


En la figura 44 se muestra la etapa de anlisis de un transmisor CELP
(la figura 45 es la figura 44 en detalle). Este contiene una rplica del
sintetizador del receptor (excepto el post-filtro). A la seal de entrada, se
le resta la salida del sintetizador CELP, esta diferencia se pasa por un
filtro perceptual. El error perceptual se utiliza posteriormente para realizar
la bsqueda en el diccionario. El procedimiento de bsqueda encuentra
las ganancias de los diccionarios estocsticos y adaptativos que
minimizan el error cuadrtico medio. El filtro de prediccin lineal puede
determinarse por tcnicas de anlisis de retardo corto de la seal de
entrada.

119

El objetivo del filtro perceptual es atenuar aquellas frecuencias en las


que el odo humano detecta menos los posibles errores y aumentarlas
para aquellas en que el odo es ms perceptivo. O sea, se lleva a cabo
una comparacin dando ms importancia a aquellas zonas donde el odo
aprecia ms el ruido

Decodificador

FIGURA 46. Decodificador (sintetizador) CELP


El sintetizador CELP (figura 46) se basa en el principio del uso de un filtro
de prediccin lineal cuya ganancia se busca en una tabla. La excitacin se
crea usando, en paralelo, un diccionario estocstico (de valores aleatorios)
fijo y otro diccionario que no es fijo, sino adaptativo. Posteriormente, se
actualiza el diccionario adaptativo con esta excitacin.

En el receptor, se puede mejorar la calidad de la voz sintetizada


aadiendo una fase de post- filtrado.
Codificacin VSELP

El codificador VSELP es el estndar en las comunicaciones celulares


digitales en Estados Unidos. Permite el procesamiento de voz a un bitrate de 7950 bps e incluso de 4.8 Kbps.

120

Este algoritmo es una variacin del CELP. La diferencia radica en la forma


y estructura

del diccionario. El diccionario estocstico de CELP se

convierte en VSELP en dos conjuntos de vectores. La siguiente figura se


corresponde con el decodificador VSELP:

FIGURA 47 Decodificador VSELP.


El codificador/decodificador VSELP utiliza hasta un total de tres fuentes
de excitacin. La primera es el diccionario adaptativo (igual que en
CELP). Las dos restantes son los dos (o uno) diccionarios VSELP. En
las implementaciones de 8 Kbps se usan dos diccionarios VSELP,
cada uno de los cuales contiene 128 vectores. A 4.8 Kbps se usa un
solo diccionario que contiene 2048 vectores. Los diccionarios VSELP,
debidos a su estructura, son muy robustos frente a posibles errores.

Estos diccionarios VSELP contienen vectores que se calculan como


combinacin lineal de unos vectores bsicos. Estas tres fuentes de
excitacin se multiplican por sus correspondientes ganancias y el
resultado se suma, dando la secuencia combinada de excitacin ex(n).
Posteriormente, en cada submuestra, se utiliza ex(n) para actualizar el
diccionario adaptativo. El filtro de sntesis (synthesis filter en la figura)

121

es un filtro LPC de dcimo orden todo polos. Los coeficientes LPC se


codifican una vez por cada trama de 20 mseg. Los parmetros de
excitacin se actualizan cada 5 mseg. En el codificador a 8 Kbps el
nmero de muestras de cada trama ( N ) es 40. Finalmente, el post-filtro
espectral sirve para mejorar la calidad de la seal sintetizada.

Codificacin RPE-LTP

Este algoritmo de codificacin, RPE-LTP (Regular Pulse Excitation Long


Term Prediction), es el que se utiliza en las comunicaciones mviles GSM

FIGURA 48 Diagrama del Speech coder

El siguiente paso es calcular los parmetros del filtro de retardo largo


(LTP), el pitch (retardo del filtro LTP) y la ganancia, en la etapa de
anlisis LTP. El bloque resultante de 40 muestras pasa al bloque

de

anlisis RPE. En este bloque las 40 muestras de entrada se representan


por una de las4 subsecuencias de 13 pulsos cada una.

Los parmetros RPE se utilizan en

un decodificador local RPE para

reconstruir las 40 muestras de la versin cuantizada de la seal residuo


del filtro LTP. Sumando estas muestras al bloque anterior del residuo STP
estimado, se logra

una

versin

reconstruida

actual del filtro STP.

122

de

la

seal residuo

Este bloque de seal residuo del filtro STP se pasa al bloque de anlisis
LTP para producir la nueva estimacin de seal residuo STP que se va a
utilizar

en

el

siguiente

sub-bloque,

completando as el lazo de

realimentacin.

Se definen tres grupos de datos generados por el codificador:

los parmetros del filtro STP


los parmetros del filtro LTP
los parmetros RPE

FIGURA 49. Codificador RPE-LTP

El primer proceso que sufre la seal de voz es una compensacin offset


para originar una seal libre de offset. Esta es despus pasada por un
filtro de prenfasis de primer orden.

123

Anlisis LPC

Segmentacin: La seal de voz s(k) se divide en segmentos no


solapados de 20ms (160 muestras). A cada uno de estos segmentos
se le aplica un anlisis LPC de orden 8 (orden de prediccin p=8).
Como parmetros

del

filtro

LPC

se

utilizan

los coeficientes de

reflexin, r(i). Estos proceden de la teora de que el tracto vocal se


puede representar

mediante una serie de

secciones cilndricas

uniformes. Esta representacin se puede describir por los coeficientes


de reflexin de las razones de rea de las secciones conectadas.
-1 <= r(i) <= +1Ecuacin 6
Los parmetros que se envan son una transformacin de estos. Las
razones Log-rea definidos por:

LAR(i)=log10( (1+r(i)) /(1-r(i)) )Ecuacin 7


Una vez calculados se cuantizan los parmetros LAR.

Para evitar transiciones espurias, que pueden ocurrir si los coeficientes


del filtro

cambian abruptamente, se interpolan

linealmente

dos

conjuntos consecutivos de parmetros LAR. Dentro de un segmento de


160 muestras se trabaja con 4 conjuntos de coeficientes diferentes.

Los coeficientes de reflexin se calculan utilizando la transformacin


inversa.

124

Filtro de prediccin de retardo largo (LTP)

Subsegmentacin: El filtro de prediccin

de retardo largo se evala

cuatro veces por segmento, para cada 5ms (40 muestras). Para cada
subsegmento se calcula el factor de desplazamiento de retardo largo
(pitch) y un factor de ganancia asociado. Como el parmetro de pitch
puede tomar valores entre 40 y 120 se necesitan 7 bits para codificarlo.

El factor de ganancia se codifica con 2 bits.

Si d(k) es la seal residuo del filtro STP, el residuo del filtro LTP, e,
se calcula restando a d una estimacin d". d" se calcula antes a partir
de la seal residuo STP reconstruida previamente, pero ajustada a los
valores del subsegmento actual.

La estimacin de la seal residuo del filtro LTP se denota e', y se suma


a la estimacin d" para obtener el residuo STP reconstruido.
Codificacin RPE

La seal residuo LTP se filtra con un filtro FIR con respuesta impulsiva
dada por:
i

H(i)*2^13 8192

4 (6)

3 (7)

2 (8)

1 (9)

0 (10)

5746

2054

-374

-134

TABLA 7 Respuesta del filtro FIR de largo plazo


|H(Omega=0)|=2.779

125

El propsito de este filtro perceptual es atenuar el espectro en


frecuencia

donde

el error es perceptiblemente menos importante y

amplificar aquellas zonas del espectro donde es perceptiblemente


importante.

Con

esto logramos

una

medida

de

ms

error subjetiva

significativa (propiedad de enmascaramiento del odo humano).

La seal filtrada se submuestrea por un factor de 4, dando lugar a 4


secuencias entrelazadas de longitud 13. Se elige la secuencia de
mayor energa como la representante de la excitacin, secuencia RPE.

FIGURA 50. Seal filtrada submuestreada y sus correspondientes


secuencias.
Decimacin RPE y seleccin de gris

Para cada secuencia, se selecciona el valor absoluta


se cuantiza logartmicamente utilizando

6 bits.

mximo x max, y
Las

muestras se

normalizan al valor cuantizado de la amplitud mxima y se cuantizan


uniformemente con 3 bits.

126

Decodificador RPE-LTP

FIGURA 51.Decodificador RPE-LTP


En el lado receptor se reciben los parmetros codificados y se procede a
reconstruir la seal.

Consta de las siguientes funciones:

Decodificacin RPE
Prediccin de retardo largo
Filtrado de retardo corto, sntesis
Postprocesado

La decodificacin RPE consiste en decodificar y desnormalizar

las

muestras de la seal residuo LTP. Posteriormente se colocan en su


posicin temporal adecuada y la frecuencia de muestreo se incremente
por un factor de 3 insertando el resto de muestras como ceros.

127

Esta seal se aplica al filtro LTP y su salida forma la excitacin el filtro


STP. Por ltimo, la salida del filtro STP se pasa por un filtro
desenfatizador.
CODIFICADORES CELP

Orgenes del CELP [35]:

Atal sugiri en 1982 la posibilidad de lograr alta calidad con regmenes


binarios bajos mediante el empleo de secuencias de excitacin gaussianas,
seleccionadas teniendo en cuenta su impacto a corto plazo ( delayed
decision ).

Mediada la dcada de los 80 se propone el CELP: bsqueda exhaustiva de


la excitacin mediante sntesis:

Inicialmente se propuso una bsqueda en rbol, pero la calidad se


degradaba substancialmente para tasas de 1/2 bit/muestra
Para tasas de 1/4 bit/muestra e inferiores, la bsqueda exhaustiva ya
no parece inabordable.

La codificacin de 1 s. de voz consumi 125 s. de CPU en un Cray 1. Sin


embargo, la posibilidad de codificar voz con calidad a bajas tasas impuls la
investigacin en este campo:

Un ao despus se publicaban diversos trabajos para reducir la complejidad


de la propuesta inicial.

Todas las tcnicas de compresin de voz estn basadas en dos operaciones


intrnsecas [36]:

128

Eliminar la redundancia.
Eliminar la irrelevancia.

La primera operacin utiliza predicciones o transformaciones para eliminar


los datos redundantes, lo cual reduce el ancho de banda necesario para la
seal. La segunda operacin reduce el ancho de banda realizando una
cuantificacin, ya sea de los componentes de la prediccin (o su error) o de
los coeficientes de la transformacin. Obteniendo una seal parecida a la
original pero siempre con un grado de distorsin o error de reconstruccin.

Al aumentar la compresin, es necesario que el codificador minimice la


percepcin del error utilizando propiedades inherentes al habla humano. Esto
quiere decir que el mismo nivel de error de la distorsin es percibido de
distinta manera si es aplicado a seales de voz con distinta energa y bandas
de frecuencia.

La solucin de CELP a ese problema es utilizar la aproximacin: anlisis por


sntesis, donde se mide la percepcin de la distorsin.

Un codebook consiste en una tabla de muestras de seal residual, conocidas


como codewords, los cuales se utilizarn como excitacin de los filtros.

Adems, un filtro llamado de peso de percepcin , es utilizado para asegurar


que la medida del error cuadrtico medio refleje el error de percepcin. Al
aplicar un filtro de percepcin sobre la seal se mejora el rendimiento del
codificador. Los formantes de alta energa disimulan mejor el ruido que las
porciones de baja energa del espectro. La seal de error generada por cada
paso del sintetizador es ponderada apropiadamente para mejorar este efecto
de percepcin. El filtro amplifica la seal de error en las regiones en que no

129

hay formantes y lo atena en las que s. De este modo, una seal de error
cuya energa es concentrada en los formantes es considerada mejor que una
que no.

Los sistemas CELP emplean algoritmos rpidos de bsqueda explotando la


estructura computacional de ste. Es por eso que el esquema original deriv
en un nuevo esquema:

FIGURA 52. Esquema de un analizador CELP en la prctica


ACB

Libro de Cdigos Adaptativos

SCB

Libro de Cdigos Fijos

130

El decodificador toma los parmetros codificados y utilizando el mismo


esquema, pero en sentido inverso, reconstruye la seal original aproximada.
Adems, se encarga de sincronizar la seal construida del ACB, para ello,
utiliza las dos ltimas muestras del subframe anterior.

Estndares

CELP: algoritmo preponderante de 4 a 16 kb/s. U.S. Federal Standard 1016


a 4.8 kb/s.

Estndares americanos de telefona celular IS-54 (7.95kb/s.) e IS-96 (8.5,


4, 2, 0.8 kb/s.)

Estndares japoneses de telefona celular JDC (6.7 kb/s.) y JDC half-rate


(3.45 kb/s.)

Estndares europeo de telefona celular GSM

half-rate

(5.6 kb/s.) y

enhanced full-rate (12.2 kb/s.)

Estndares de la ITU-T a 16 (G.728), 8 (G.729) kb/s y 5.3 6.3 (G.723.1)


kb/s.

Predictor corto

Se determina trama a trama cada 10-30 ms (tiempo de estacionareidad de la


seal de voz).

Los coeficientes suelen interpolarse subtrama a subtrama, realizando


adaptacin forward o backward .

131

Modelado del tracto vocal

Cuando la adaptacin es forward ha de cuantificarse de forma transparente:

Cuantificacin escalar: 30-36 bits


Cuantificacin vectorial 24-28 bits
Predictor largo

Se obtiene despus del predictor corto, para hacerlo surgen dos


posibilidades:

Lazo abierto
Lazo cerrado (mediante sntesis): supone gran parte de la carga
computacional de un codificador CELP
Combinaciones de ambos, para reducir complejidad

Rango tpico del retardo: 2-20 ms. (20-147, 8 KHz)


Cuantificacin: 7 (retardo) + 3-4 (coef.) bits
Tasa de actualizacin: ~ 5 ms
Excitacin por cdigo

Excitacin: aquello que no es predecible y que contribuye significativamente


a la calidad. El modelado de la excitacin, es un mtodo eficaz para tasas de
1/4 bit/muestra e inferiores.

Existen libreras de forma y tamao :

Diseo de la librera (forma):

132

Ruido con caractersticas estadsticas del error de prediccin: ruido


blanco y gaussiano.
Entrenada a partir de un registro de voz representativo: mejores
prestaciones, menos robusta y difcil de estructurar

Cuantificacin de la ganancia (tamao)


4-5 bits
Si la subtrama es pequea: cuantificacin diferencial

Filtros
Es un dispositivo (hardware o software) que se aplica a un conjunto de datos
ruidosos para poder extraer informacin sobre un rea de inters. Un filtro
digital es un sistema lineal e invariante en el tiempo (LTI) que modifica el
espectro en frecuencia de la seal de entrada X(w), segn la respuesta que
tenga en frecuencia H(w) (conocida como funcin de transferencia), para dar
lugar a una seal de salida con espectro:

Y(w) = H(w) * X(w)

H(w) acta como una funcin de ponderacin o funcin de conformacin


espectral para las diferentes componentes frecuenciales de la seal de
entrada.

Los sistemas LTI se clasifican como: FIR (finite impulse response) que se
caracterizan pos ser sistemas no recursivos, e IIR (infinite impulse response)
que se distinguen por tener retroalimentacin en la seal salida.

133

En el rea de las seales, el filtrado es un proceso mediante el cual se


modifica el contenido espectral de una seal.
Tipos de filtro

Filtros analgicos:

Pasivos: resistores y capacitares.


Activos: adems de lo anterior, utilizan amplificadores operacionales.

Filtros digitales:

FIR (no recursivos):


IIR (recursivos):
FILTROS FIR (Finite Impulse Response)

Solo depende de valores y actuales de la entrada usando memoria. Un filtro


FIR de orden M se describe mediante la ecuacin en diferencias

y (n) = b0(n) + b1x(n 1) + b2 x(n 2) + bMx(n M ) Ecuacin 8


donde la secuencia bk son los coeficientes del filtro. En este tipo de filtrado
no existe retroalimentacin.

Adems, la respuesta al impulso H(w), es de duracin finita ya que si la


entrada se mantiene en cero durante M periodos consecutivos la salida
tambin ser cero.

Algunas de las ventajas de este tipo de filtros son las siguientes:

134

Un filtro FIR puede ser diseado para tener fase lineal.

Siempre son estables porque son hechos nicamente con ceros en el


plano complejo.

Los errores por desbordamiento no son problemticos porque la suma


de productos en un filtro FIR es desempeada por un conjunto finito
de datos.

Un filtro FIR es fcil de comprender e implementar.

En la descripcin de un filtro selectivo de frecuencia, se utilizan tres trminos


que estn asociados con su identificacin, banda de paso, banda de
transicin, banda de rechazo

FIGURA 53. Especificaciones de diseo de un filtro paso-bajo normalizado.


La banda de paso se define como el rango de frecuencias en el cual el
espectro de potencia de una seal de entrada es transferida por el filtro
con ganancia aproximadamente unitaria. El espectro de entrada que cae
dentro de la banda de rechazo es atenuado a un nivel que lo elimina
efectivamente. La banda de transicin es el rango de frecuencias que
permite la transicin entre estas dos bandas. Esta banda es cero en el caso
de un filtro ideal, que no es realizable como filtro analgico o digital.

135

Cuatro tipos de filtros pueden ser definidos en

trminos de su

caracterstica de respuesta se frecuencia: Pasa-bajo, pasa-alto,

pasa-

banda y de rechazo-banda

FIGURA 54. Prototipo de filtros pasa-bajo y pasa-alto


Los filtros digitales tambin se pueden categorizar en trminos de su
respuesta impulso h(n), en filtros IIR y filtros FIR. La principal ventaja de los
filtros IIR est en que es posible lograr las caractersticas de frecuencia con
una estructura de bajo orden. Esto se traduce en un gran ahorro en tiempo
de procesamiento y en simplicidad del hardware. T a m b i n s e p u e d e
obtener un filtro IIR, por

discretizacin de filtros analgicos de uso

frecuente. una de las ventajas ms importantes de un filtro FIR, es que


pueden ser diseados para obtener una respuesta de fase lineal. Aunque
estos

filtros

tpicamente

requieren

de

muchos

coeficientes,

su

implementacin por va de convolucin rpida (FFT), reduce el nmero de


clculos requeridos, haciendo que este grupo de filtros sea ampliamente
aplicado.

136

FIGURA 55 Prototipo de filtros pasa-banda y banda de rechazo.

Fundamentos de diseo

Una etapa importante en el desarrollo de un filtro digital es la determinacin


de una funcin de transferencia H(z) realizable y con una respuesta de
frecuencia H(e j ) que se que se aproxime a un conjunto dado de
especificaciones de diseo. El proceso de diseo se inicia con la formulacin
de estas especificaciones, que puede incluir restricciones en la magnitud o
fase de H(e j ), en la respuesta impulso o en la respuesta escaln,
requerimientos en cuanto al tipo de filtro (FIR o IIR), y el orden del filtro. Si
el filtro es del tipo IIR es necesario asegurar adems su estabilidad.

Una vez que las especificaciones han sido definidas, la etapa siguiente es
calcular los coeficientes de la funcin de transferencia H(z) que genere una
respuesta de frecuencia aproximada, acorde con las especificaciones de
diseo. El proceso de derivar los coeficientes de H(z) es reconocido como
el diseo del filtro digital.

137

Especificaciones de diseo

Antes de que el filtro pueda ser diseado, debe ser definido un conjunto de
especificaciones, que puede ser tan simple como remover una seal de
ruido por encima de 30Hz en una seal muestreada a 100KHz. Una
especificacin ms rigurosa podra exigir una magnitud especfica en el
rizado de la banda de paso, atenuacin en la banda de rechazo o el
ancho de la banda de transicin. Una especificacin ms precisa podra
responder a lograr un orden mnimo del filtro, una forma arbitraria de su
respuesta de magnitud o la necesidad de un tipo especfico de filtro. Los
mtodos de diseo de filtros pueden variar en general en la forma como se
especifiquen los requerimientos. En la mayora de las aplicaciones
prcticas, las especificaciones de diseo son formuladas en el dominio de
la frecuencia, en trminos de la respuesta deseada de magnitud y fase.

Generalmente se prefiere una respuesta de fase lineal en la banda de


paso. En el caso de filtros FIR, es fcil lograr esta caracterstica, mientras
que es prcticamente imposible en el caso de filtros IIR.

Fundamentos del mtodo de ventaneo

La idea primordial del diseo usando ventanas es seleccionar un filtro ideal


selectivo de frecuencia, que siempre es anticausal y de duracin infinita, y
truncar su respuesta al impulso para obtener un filtro FIR causal, de duracin
finita y de fase lineal. El nfasis en este mtodo est en seleccionar el filtro
ideal

hd(n)

y la

funcin

de

ventana

especificaciones de diseo.

138

w(n)

ms

apropiada,

segn

Propiedades de las ventanas

Estas ventanas son utilizadas en el anlisis espectral y el diseo de filtros


FIR. Dependiendo de cmo se defina

w(n), podemos obtener diferentes

tipos, cuyas caractersticas se muestran el la siguiente tabla para los cinco (5)
tipos de ventanas bsicas ms frecuentemente utilizadas en DSP.

Tabla 1. Valores caractersticos de ventanas espectrales bsicas.


Seleccin de la ventana y estimacin del orden M del filtro FIR

La forma prctica de seleccionar el tipo de ventana, es a partir de la


atenuacin mnima de la banda de rechazo (As) dada en la tabla anterior.

Utilizando la expresin

de la banda de transicin

(ancho del lbulo

principal) dada en la tabla anterior es posible estimar el orden del filtro. La


magnitud de esta banda se puede calcular a partir de las frecuencias

s.

Funciones de MATLAB para ventanas

A partir de las expresiones de la tabla 1 es posible generar una funcin

139

que determine los valores de la secuencia w(n) asociada con cada ventana;
sin embargo el TBS de MATLAB incluye funciones calculan L=M+1 muestras
para cada tipo de ventana:

w=boxcar(L)

ventana rectangular

w=triang(L)

ventana triangular o de Bartlett

w=hanning(L)

ventana de Hanning

w=hamming(L)

ventana de Hamming

w=blackman(L)

ventana de Blackman

FIGURA 56 Filtro FIR pasa-bajo usando ventana de hamming

140

FIGURA 57 Filtro FIR paso bajo usando ventana de Kaiser

FIGURA 58 Filtro FIR pasa banda usando ventana de Blackman

141

FILTRO IIR (Infinite Impulse Response)

FIGURA 59 Esquema bsico de un filtro IIR


La salida es una combinacin lineal de los valores presente y pasados de la
entrada, as como de los valores pasados de la salida, es un filtro recursivo.
Tiene memoria infinita.

Los filtros digitales IIR tienen respuesta impulso de duracin infinita, y por lo
tanto pueden correlacionarse con filtros analgicos, que tambin tienen
respuesta impulso infinita. Por lo tanto la estrategia bsica de diseo de
filtros digitales IIR se basa en obtener el modelo equivalente discreto H(z), a
partir del modelo analgico H(s), despus calculando los coeficientes del
filtro IIR mediante los cuales se obtiene la siguiente ecuacin en diferencias
y (n) = b0 x (n) + b1 x (n 1) + b2 x(n 2) + K bM x(n M ) a1 y (n 1) a 2 y (n 2) K
a M y(n M )
Donde las variables a K y bK son los coeficientes del filtro.

142

Ventaja de los filtros IIR sobre los FIR

Los filtros IIR requieren menos memoria y menos instrucciones para


implementar su funcin de transferencia.
Un filtro IIR se disea mediante el clculo de polos y ceros en el plano
complejo. El uso de polos confiere a un filtro IIR la capacidad de
implementar funciones de transferencia que es imposible realizar
mediante filtros FIR.
Es posible trasladar un filtro IIR a un modelo analtico.

Sin embargo, algunas consideraciones que se deben tener en cuenta a la


hora de implementar filtros IIR son las siguientes:

Los filtros IIR no son necesariamente estables, es tarea del diseador


buscar la estabilidad del sistema.
Los filtros IIR producen en general distorsin de fase.
La posibilidad de desbordamiento de resultados en las operaciones
realizadas deben ser consideradas ya que un filtro IIR se implementa
mediante sumas de productos que estn basadas en una suma infinita.

La implementacin de filtros IIR puede hacerse de varias formas. Asumiendo


el comportamiento lineal e invariante en el tiempo del sistema, la ecuacin en
diferencias de un filtro puede ser manipulada matemticamente para obtener
una realizacin con N elementos de memoria, (N+M+1) multiplicadores y N
sumadores, conocida como Forma Directa II Transpuesta.

143

FIGURA 60 Estrategias de diseo de filtros IIR

Transformacin anlogo-digital de filtros

Hay varios mtodos que nos permiten obtener el modelo discreto equivalente
H(z), los cuales se fundamentan en preservar algunas de las caractersticas
de modelo analgico.

En DSP los dos mtodos de discretizacin utilizados con mayor frecuencia


son:
Mtodo de impulso invariante
Mtodo de transformacin bilineal

El mtodo de impulso invariante se caracteriza porque busca preservar la


respuesta impulso h(t) del modelo analgico H(s), mientras el mtodo de
transformacin

bilineal

se

basa

en

la aproximacin numrica de la

ecuacin diferencial. Este ltimo es el mtodo ms popular por las ventajas


que ofrece al preservar los valores caractersticos de H(s).

144

Transformacin de la banda de frecuencia

Existen dos estrategias que pueden ser utilizadas para disear otro tipo de
filtro digital IIR selectivo de frecuencia (P-A, P-B y R-B):

Transformacin de la banda de frecuencia en el plano-s


Transformacin de la banda de frecuencia en el plano-z

145

CAPITULO III.
CODIFICACIN DE VOZ MEDIANTE PREDICCIN LINEAL
CON EXCITACIN POR CDIGO ALGEBRAICO DE
ESTRUCTURA CONJUGADA
ESTANDAR G.729
PRINCIPIOS BSICOS

Prediccin lineal

Xz

Yz
Hz

FIGURA 61 Modelo de un sistema digital bsico


Para lograr modelar una seal cualquiera, se debe descomponer en
componentes de diversa naturaleza, y la primera aproximacin es obtener la
tendencia de la seal, lo cual se puede lograr con un sistema de prediccin
lineal, en donde los coeficientes son constantes.

Un predictor lineal, es un polinomio de orden N en el dominio de la


transformada Z, y que en nuestro caso, utilizaremos el anlisis de prediccin,
para el modelado del tracto vocal utilizando un polinomio de orden 10.

A continuacin, exponemos un ejemplo de cmo modelar una seal con

146

prediccin lineal.
N curvas polinomio de orden N

FIGURA 62 Curva a modelar

Orden N

Seal original= sori

Proceso (AR-MA)
Hz Az

Tendencia = T(t)

FIGURA 63 Curva con tendencia


Sori-T(t)

Componente peridica

1/T
T
FIGURA 64 Componente peridica y discretizada.

147

Componente
Peridica
P(t)

Varianza

SN-T(t) - P(t)

F
Ruido blanco gausiano aditivo
FIGURA 66 Descomposicin de la seal.

UG(t)

Ul(t)

Generacin
de excitacin

Sistema Lineal
variable
(Seal de voz)

Generador del
PITCH

Gu(n)

U(n)
G

Generador de ruido
aleatorio

Selector
Sonoro/sordo

Filtro
variable
Hz

S(n)

(Seal de
voz)

FIGURA 67 Diagrama general de un Sistema digital de produccin de voz

148

Parmetros bsicos
H z = a0 + a1 z 1 + a 2 z 2
y(z)
= a 0 + a1 z 1 + a 2 z 2
x( z )
y z = a 0 x( z ) + a1 z 1 x( z ) + a 2 z 2 x( z )

Ecuacin 9

tranformada
inverrsa
y (n) = a 0 x (n) + a1 [n 1]x(n) + a 2 x(n)[n 2]
[n 2]son muestras anteriores

Predictor de un 1 coeficiente

H ( z ) = 1* z 1
y( z)
= z 1
x( z )
y ( z ) = x ( z ) z 1
y[n] = x[n 1]
y[n] = y[n 1] 1

Ecuacin 10

Modelo fuente filtro de la voz

X(Z)

IIR A(Z ) =

Y(Z)

H(Z)

1
TODO POLOS ( AR)( FILTRO SINTESIS )
B(Z )

X(Z) Seal original.


Y(Z) Seal de prediccin

voz

H(Z) Seal que debe ser?

149

X(Z)

P(Z)

X(Z)

e( z ) = x ( z ) x ( z )
p( z ) = 1 + A( z )
A( z) = a1 z 1 + a 2 z 2 + K + a N z N

x( z ) = p ( z ) * x( z )

x( z ) = (1 + A( z )) x( z )
Ecuacin 11

x( z ) = x ( z ) + A( z ) x( z )

x( z ) = x ( z ) + (a1 z 1 x ( z ) + a 2 z 2 x ( z ) + K + a N z N x( z ))

x[n] = x[n] + (a1 x[n 1] + a 2 x[n 2] + K + a N x[n N ])

x[n] x[n] = (a1 x[n 1] + a 2 x[n 2] + K + a N x[n N ]

x[n] x[n] = e[n]


Anlisis de prediccin lineal

exc = x x
como obtengo x ?
p( z ) = 1 + A( z )

x( z ) p( z ) = x

x( z )(1 + A( z )) = x

x( z ) + x( z ) A( z ) = x

150

exc = x ( z ) x = x ( z ) A( z )
e( z ) = x ( z ) A( z )
e( z )
= x( z )
A( z )
e( z )

= x( z )
A( z )
1
x( z )
H ( z) =
=
A( z ) e( z )

Ecuacin 12

Clculo de la excitacin

s (z )

S (z )
Wz

s[n] = seal

original

s[n] = seal

codificada

s ' [n] = seal

original

codificada

S [n] = predictor
e[n] = error

s[ z ] * w( z ) = S[n] si w( z ) = 1 + a1 z + a 2 z K a m z

s( z ) = s( z ) + a1 s ( z ) z 1 + a 2 s( z ) z 2 + K + a m s( z ) z m

S [n] = s[n] + [a1 s[n 1] + a 2 s[n 2] + K + a m s[n m]]

s[n] S[n] = (a1 s[n 1] + a 2 s[n 2] + K + a m s[n m])

eq[n] = (a1 s[n 1] + a 2 s[n 2] + K + a m s[n m])

151

Excitacin sin pitch


Solo estocstica
(Seal sorda)
Vector de cdigos
fijos

Excitacin
peridica
(Seal sonora)
Vector de cdigos
Adaptativos

Excitacin
completa

FIGURA 68.a)seal sorda b) Seal sonora c) excitacin completa


Predictor de largo plazo

La funcin del predictor de largo plazo es ir muestras atrs y multiplicar


vector

vector

para

S(n)

realizar
-

Predictor
Pc(z)

el

r(n)

anlisis

respectivo
-

Predictor
PL(z)

s (n)

e(n)

r (n)

FIGURA 69. Diagrama de bloques del predictor corto y largo plazo

pL ( z) =

m2

g z

i = m1

ecuacion del predictor l arg o Ecuacin 13

152

Libro de cdigos
adaptativos

U(n)

Filtro de
sntesis

Libro de cdigos
fijos
FIGURA 70 Diagrama del filtro de largo plazo

Implementacin del codificador CELP


A continuacin se describe un algoritmo para la codificacin de la voz
mediante Prediccin lineal con excitacin por cdigo algebraico con
estructura conjugada (CS-ACELP, Conjugate Structure

Algebraic Code

Excited Linear Prediction).

El codificador opera con una seal digital obtenida tras efectuar, primero un
filtrado con la anchura de banda telefnica (Recomendacin G.712) de la
seal analgica de entrada, seguido de su muestreo a 8000 Hz y su
conversin a una modulacin por impulsos codificados (MIC), para entrar en
el codificador. La salida del decodificador deber reconvertirse a una seal
analgica siguiendo un mtodo similar.

153

Descripcin general del codificador/decodificador

El codificador CS-ACELP se fundamenta en el modelo de codificacin


mediante la prediccin lineal con excitacin por cdigo (CELP). Trabaja
con tramas vocales de 10 ms correspondientes a 160 muestras a una
velocidad de muestreo de 8000 muestras por segundo. En cada trama de
10 ms se analiza la seal vocal para extraer los parmetros del modelo
CELP (coeficientes de filtros de prediccin lineal, ganancias e ndices de las
tablas de cdigos adaptativos y fijos). Los parmetros en cuestin se
codifican y se transmiten. En el decodificador, dichos parmetros se utilizan
para recuperar los parmetros de excitacin y del filtro de sntesis. La voz
se reconstruye filtrando la excitacin a travs del filtro de sntesis de corto
plazo, como se ve en la Figura 67. El filtro de sntesis de corto plazo se basa
en un filtro de prediccin lineal (PL) de dcimo orden. El filtro de sntesis de
largo plazo o de tono se aplica mediante el mtodo de la llamada tabla de
cdigos adaptativos.

Taba de
cdigos de
excitacin

Filtro de
sntesis de
largo plazo

Filtro de
sntesis de
corto plazo

Seal
de
salida

Decodificacin de parmetros

Tren de bits
recibidos
FIGURA 71 Diagrama funcional del modelo conceptual de sntesis (CELP).

154

Codificador

La seal de entrada pasa a travs de un filtro paso alto. La seal


preprocesada trabaja como la seal de entrada para todo el anlisis posterior.
Se realiza un anlisis de prediccin lineal para cada trama de 10 ms para
poder calcular los coeficientes del filtro LP, convirtindolos despus en pares
de espectro lineal (LSP, Line Spectrum Pairs), logrando una organizacin
adecuada cuantificndolos escalarmente para su respectivo procesamiento.

La seal de excitacin se selecciona utilizando un procedimiento de


bsqueda basado en el anlisis por sntesis, la cual es la discrepancia entre
la seal original y la seal reconstruida.
Los parmetros de excitacin (parmetros de tabla de cdigos fijos y
adaptativos) se establecen para cada subtrama de 5 ms (40 muestras). Los
coeficientes cuantificados y no cuantificados del filtro LP se emplean a la
segunda subtrama, mientras que para la primera subtrama se utilizan
coeficientes del filtro LP interpolados (cuantificados o no), estimando un
retardo de tono en lazo abierto por cada trama de 10 ms.

Consecutivamente se examina el tono en lazo cerrado (para determinar el


retardo y ganancia de la tabla de cdigos adaptativos). La seal x(n) se
actualiza sustrayendo la contribucin (filtrada) de la tabla de cdigos
adaptativos y se aplica este nuevo objetivo, x (n), para la bsqueda de la
tabla de cdigos fijos, con el fin de obtener la excitacin ptima.

Para la excitacin de la tabla de cdigos fijos se emplea una tabla de cdigos


algebraicos de 17 bits ya estipulada. Las ganancias de las contribuciones de
las tablas de cdigos adaptativos y fijos se cuantifican escalar men te con
7 bits (con una prediccin de media mvil aplicada a la ganancia de la

155

tabla de cdigos fijos). Posteriormente, se actualizan las memorias de los


filtros mediante la seal de excitacin as determinada.
Seal vocal
de entrada

Filtro de sntesis

Tabla de cdigos
fijos
Gc

Tabla de cdigos
adaptativos
Gp

Anlisis de tono

Bsqueda da la tabla
de cdigos fijos
Cuantificacin
de la ganancia

Codificacin de parmetros

Informacin lpc

Tren de bits transmitido

FIGURA 72. Principio de codificacin del codificador CS-ACELP.

156

Decodificador

Inicialmente se extraen los ndices a partir del tren de bits recibido. Los
ndices se decodifican para conseguir los parmetros del codificador
correspondientes a una trama de voz de 10 ms. Estos parmetros son los
coeficientes LSP, los dos retardos de tono fraccionarios, los dos vectores de
la tabla de cdigos fijos y ambos conjuntos de ganancias de las tablas de
cdigos adaptativos y fijos. Los coeficientes LSP se convierten en
coeficientes del filtro LP de cada subtrama. Para cada subtrama de 5ms se
emplea los siguientes pasos.

Se construye la excitacin sumando los vectores de las tablas de los


cdigos adaptativos y fijos, puestos a escala por sus respectivas
ganancias
Se reconstruye la seal vocal filtrando la excitacin por el filtro de
sntesis LP
Tabla de cdigos
fijos
Gc

Tabla de cdigos
adaptativos

Filtro de
corto plazo

Salida de la
seal

Gp

FIGURA 73 Principio del decodificador CS-ACELP

Retardo

El codificador codifica la voz y otras seales de audio con tramas de 10 ms.

157

Posteriormente se producen un preanlisis de 5 ms, por lo que el retardo


total es de 15 ms.
Preprocesamiento

S e supone que la entrada del codificador vocal es una seal MIC


(modulacin por impulsos codificados) de 16 bits. Antes de iniciarse la
codificacin hay dos funciones de preprocesamiento que son el escalamiento
de las seales y el filtrado de paso alto, con el fin de reducir la posibilidad de
desbordamientos .

El filtro paso alto es una precaucin para evitar componentes indeseables de


baja frecuencia. Se utiliza un filtro de polos y ceros de segundo orden.

La seal de entrada filtrada a travez de H1N se define como s(n).


Anlisis de la frecuencia fundamental en lazo abierto
Para que el proceso no sea complicado se buscar el mejor retardo de la tabla
de cdigos adaptativos, la bsqueda se limita a un retardo Top, que se logra
de un anlisis de tono en lazo abierto.

Este anlisis se efecta una vez por trama (10ms). La estimacin de tono en
lazo abierto utiliza valores de la seal vocal ponderada sw(n).

El mtodo a continuacin se utiliza como primera medida establece los tres


mximos de la correlacin.

Ecuacin 14

158

Para las tres gamas siguientes

i = 1:80,

,143

i = 2:40,

,79

i = 3:20,

,39

Los mximos retenidos R(ti), i= 1,

,3 se normalizan.

Entre las tres correlaciones normalizadas la mejor favorece aquellos retardos


que presenten valores en la gama inferior. Ello se logra ponderando las
correlaciones normalizadas correspondientes a los retardos ms largos. El
mejor retardo de lazo abierto Top se establece de la siguiente manera.

Ecuacin 15

Ecuacin 16
El recurso de dividir la gama de retardos en tres secciones para favorecer los
valores menores tiene por como finalidad evitar la eleccin de los mltiplos
de la frecuencia fundamental o frecuencia de tono.

159

Clculo de la respuesta impulso

La respuesta a impulsos h(n) del filtro de sntesis ponderado W(z)/(z) se


requeire para analizar las tablas de cdigos adaptativos y fijos. Se calcula
la respuesta de impulso h(n) para cada subtrama filtrando una seal
consistente en los coeficientes del filtro A(z/y1) completado con ceros, a
travs de ambos filtros 1/(z) y 1/A(z/ y2).
Clculo de la seal objetivo

La seal objetivo x(n) para la bsqueda de la tabla de cdigos adaptativos


suele calcularse restando la respuesta de entrada cero del filtro de sntesis
ponderado W(z)/(z) = A(z/y1)/[(z)A(z/y2)] de la seal vocal ponderada
sw(n) de la ecuacin.

Ecuacin 17
Realizando esto para cada subtrama.

Hay otro mtodo para el calculo de la seal objetivo , consiste en filtrar la


seal residual r(n) atravez de la combinacion del filtro de sintesis 1/(z) y el
fitro de ponderacin A(z/y1)/A(z/ y2).

Despus de establecer la excitacin

correspondiente a la subtrama los estados iniciales de dichos filtros se


actualizan filtrando la diferencia entre las seales residual y de excitacin.

La seal residual r(n) es de suma importancia para determinar el vector


objetivo,y tambin se emplea a la bsqueda de la tabla de cdigos
adaptativos. ampliando la memoria

intermedia de la excitacin anterior.

160

simplificando el procedimiento de bsqueda de la tabla de cdigos


adaptativos

para

retardos

menores

que

el

correspondiente

una

subtrama de tamao 40.

El residuo LP est definido por

Ecuacin 18

Bsqueda de la tabla de cdigos adaptativos

Los parmetros de tabla de cdigos adaptativos (o parmetros de


f r e c u e n c i a f u n d a m e n t a l ) son el retardo y la ganancia. Con e l a ju s t e
al mtodo de tabla de cdigos adaptativos para utilizar el filtro de tono, se
repite la excitacin para retardos menores que la longitud de subtrama. En la
fase de reconocimiento, la excitacin se ampla mediante la LP residual,
para simplificar la bsqueda en lazo cerrado. La bsqueda de la tabla de
cdigos adaptativos se efectua para cada subtrama (5ms). En la primera
subtrama, se aplica un retardo de tono fraccionario T1 con una definicin
de 1/3 en el intervalo [19

1
1
, 84 ] y nicamente con enteros en el intervalo
3
3

[85, 143]. Para la segunda subtrama, se utiliza siempre un retardo T2 con


una definicin de 1/3 en el intervalo [int(T1) - 5

2
2
, int(T1) 4
], en que
3
3

int(T1) es la parte entera del retardo de tono fraccionario T1 de la primera


subtrama. Este intervalo se adapta para los casos en que T1 excede los
lmites del intervalo de retardo. Para cada subtrama, el retardo ptimo se
establece mediante un anlisis en lazo cerrado que minimiza el error
cuadrtico medio. En la primera subtrama, se determina el retardo T1

161

analizando un pequeo intervalo (seis muestras) de valores de retardo en


torno al retardo en lazo abierto Top . Los lmites de la bsqueda tmn y tmx
se definen mediante:

Ecuacin 19
Para la segunda subtrama, el anlisis de la frecuencia de tono en lazo
cerrado se efecta en torno a la frecuencia de tono seleccionado de la
primera subtrama, para determinar el retardo ptimo T2. El intervalo de
bsqueda est limitado entre tmn -

2
2
y tmx +
donde tmn y tmx se
3
3

deducen de T1 como sigue:

Ecuacin 20
La bsqueda de la frecuencia de tono de lazo cerrado reduce al mnimo el
error cuadrtico medio ponderado entre la seal vocal original y la
reconstruida. Esto se logra haciendo mximo el trmino

162

Ecuacin 21
Donde la seal objetivo x(n) e yk(n) la excitacin filtrada anterior en el
retardo k [excitacin anterior convolucionada con h(n)], el intervalo de
bsqueda est limitado en torno a un valor preseleccionado, correspondiente
al tono en lazo abierto Top para la primera subtrama y T1 para la segunda
subtrama.

La convolucin yk(n) se calcula para el retardo tmn.

Para los dems

retardos enteros en el intervalo de bsqueda k = tmn + 1,...,tmx, se


actualiza mediante la relacin recursiva:

Ecuacin 22
Donde u(n) n = -143,.,39 es la memoria intermedia de excitacin e yK-1(1)=0. S e

puede

observar

que

en

la fase de bsqueda, las

muestras u(n), n=0,..,39 no se conocen y se necesitan para establecer los


retardos de tono inferiores a 40. Para facilitar la bsqueda, se copia la LP
residual a u(n), de modo que la relacin expresada en la ecuacin anterior
sea vlida para todos los retardos.

Para determinar T2 y T1 cuando el retardo en lazo cerrado entero ptimo es


inferior a 85, deben experimentarse las fracciones alrededor del retardo
entero ptimo. La bsqueda de tono fraccionario se realiza interpolando la
correlacin normalizada de la ecuacin.

163

Ecuacin 23
Generacin del vector de tabla de cdigos adaptativos

Una vez determinado la frecuencia de tono se calcula el vector de tabla de


cdigos adaptativos v(n) interpolando la seal de excitacin anterior u(n) en
el retardo entero dado k y la fraccin t:

Ecuacin 24
El filtro de interpolacin se basa en una funcin sinc de Hamming
ventanizada con truncamiento a 29 y se completa con ceros a 30
[b30(30)=0 ]. El filtro tiene una frecuencia de corte (-3dB) a 3600 Hz en el
dominio de sobremuestra.
Clculo de palabras de cdigo para retardos de tabla de cdigos
adaptativos
El retardo de tono T1 se codifica con 8 bits en la primera subtrama y el
retardo relativo en la segunda subtrama se codifica con 5 bits. El retardo
fraccionario T est representado por su parte entera int(T) y su parte
fraccionaria .

El valor del retardo de tono T2 se codifica en relacin con el valor de T1.


Para que el codificador sea ms resistente a los errores de bit estocasticos,
se calcula un bit de paridad P0 en el ndice de retardo P1 de la primera
subtrama. El bit de paridad se crea mediante una operacin o exclusivo

164

(XOR) en los seis bits ms significativos de P1. En el decodificador este bit


de paridad se vuelve a calcular, y si el valor nuevamente establecido no
concuerda con el transmitido, se emplea un procedimiento de ocultamiento
de errores.

Clculo de la ganancia de tabla de cdigos adaptativos

Despus de determinar el retardo de tabla de cdigos adaptativos, se calcula


la ganancia de tabla de cdigos adaptativos gp segn:

Ecuacin 25
Donde x(n) es la seal objetivo e y(n) es el vector de tabla de cdigos
adaptativos filtrado [respuesta al estado cero de W(z)/(z) respecto de v(n)].

Este vector se obtiene mediante convolucin de v(n) con h(n):

Ecuacin 26
Tabla de cdigos fijos: estructura y bsqueda

La tabla de cdigos fijos se basa en una estructura de tabla de cdigos


algebraica mediante un diseo de permutacin de impulso individual
intercalado (ISPP,

interleaved single-pulse permutation). En esta tabla,

cada vector de tabla de cdigos contiene cuatro impulsos no cero. Cada


impulso puede tener amplitudes +1 o -1 y adjudicarse las posiciones que

165

aparecen en el siguiente cuadro.

TABLA 8 Estructura da la tabla de cdigos fijos

El vector de tabla de cdigos c(n) se construye tomando un vector cero de


dimensin 40 e introduciendo los cuatro impulsos unitarios en las posiciones
encontradas, multiplicados por su signo correspondiente:

Ecuacin 27
Donde (0) es un impulso unitario. Una caracterstica especial incorporada
en la tabla de cdigos es que el vector de tabla de cdigos seleccionado se
pasa a travs de un prefiltro adaptativo P(z) que ampla los componentes
armnicos para mejorar la calidad de las seales . Se utiliza para ello el filtro:
Ecuacin 28
Donde T es la componente entera del retardo de tono de la subtrama actual
y una ganancia de la frecuencia de tono. El valor de se hace
adaptativo aplicando la cuantificacin de la ganancia de tabla de cdigos
adaptativos de la subtrama anterior, es decir:

Ecuacin 29

166

Para retardos menores de 40, la tabla de cdigos c(n) de la ecuacin.

Ecuacin 30
Se modifica con arreglo a:

Esta modificacin se incorpora a la bsqueda de la tabla de cdigos fijos


modificando la respuesta a impulsos h(n) segn:

Code Book (Libro de


cdigos fijos)
Toma
valores de
0o1

Gc Ganancia de
cdigos fijos

Ci[n]

indice

Vector de
cdigo fijo

N cdigos fijos

FIGURA 74 Diagrama de vector de cdigos fijos

167

Procedimiento de bsqueda de la tabla de cdigos fijos

La tabla de cdigos fijos se examina para minimizar el error cuadrtico


medio entre la seal de voz de entrada. y la seal de salida. Se actualiza la
seal objetivo utilizada para la bsqueda de la frecuencia de tono en lazo
cerrado restando la contribucin de la tabla de cdigos adaptativos, o sea:

Ecuacin 31
Donde y(n) es el vector de la tabla de cdigos adaptativos y gp corresponde
a la ganancia de la tabla de cdigos adaptativos.

Ecuacin 32

Clculo de palabra de cdigo de la tabla de cdigos fijos

Las posiciones de los impulsos i0, i1, e i2 se codifican con 3 bits cada una,
en tanto que la posicin de i3 se codifica con 4 bits. La amplitud de cada
impulso se codifica con 1 bit. Esto suministra un total de 17 bits para los
cuatro impulsos. definiendo s = 1 cuando el signo es positivo y s = 0
cuando el signo es negativo, la palabra de cdigo del signo se obtiene de:
Ecuacin 33
Y la palabra de cdigo de la tabla de cdigos fijos se obtiene de:

168

Ecuacin 34
Cuantificacin de las ganancias

La ganancia de las tablas de cdigos adaptativos (ganancia de tono) y la


ganancia de la tabla de cdigos fijos son vectores cuantificados con 7 bits.
La bsqueda de la tabla de cdigos de ganancia se lleva a cabo haciendo
mnimo el error cuadrtico medio ponderado entre la seal de voz original y la
seal reconstruida, dado por:

Ecuacin 35
donde x es el vector objetivo, y es el vector de la tabla de cdigos
adaptativos y z es el vector de la tabla de cdigos fijos convolucionado con
h(n).

Bsqueda de la tabla de cdigos para cuantificacin de la ganancia

La ganancia de tabla de cdigos adaptativos gp y el factor y se cuantifican


escalarmente. La ganancia cuantificada de la tabla de cdigos adaptativos se
determina mediante.

Ecuacin 36
Mientras que la ganancia cuantificada de la tabla de cdigos fijos viene dada
por:

Ecuacin 37

169

La ganancia ptima de tono gp y la ganancia de tabla de cdigos fijos gc se


obtienen a partir de la ecuacin

Ecuacin 38

Descripcin de las funciones del decodificador


Primero se decodifican los parmetros (vector de tabla de cdigos
adaptativos, vector de tabla de cdigos fijos y ganancias). Estos parmetros
decodificados se utilizan para calcular la seal d e
Procedimiento de decodificacin de los parmetros
El proceso de decodificacin tiene lugar en el siguiente orden.

Decodificacin de los parmetros de filtro LP

Los ndices recibidos L0, L1, L2 y L3 del cuantificador LSP se utilizan para
reconstruir los coeficientes LSP cuantificados. Se aplica el procedimiento de
interpolacin

para

obtener

dos

conjuntos

de

coeficientes

LSP

(correspondientes a dos subtramas). Para cada subtrama, los coeficientes


LSP interpolados se convierten en coeficientes ai del filtro LP, que se utilizan
para sintetizar la seal en la subtrama.

Se repiten los siguientes pasos para cada subtrama:decodificar el vector de


tabla de cdigos adaptativos;decodificar el vector de tabla de cdigos fijos;
decodificar las ganancias de las tablas de cdigos adaptativos y fijos;calcular
la seal de salida.

170

Decodificacin del vector de tabla de cdigos adaptativos

En caso tal no haya

error de paridad, el ndice P1 de tabla de cdigos

adaptativos se utiliza para establecer las partes entera y fraccionaria del


retardo de tono T1. La parte entera int(T1) y la parte fraccionaria de T1 frac
se obtienen a partir de P1 como se indica a continuacin:

Ecuacin 39
Las partes entera y fraccionaria de T2 se obtienen a partir de P2 y tmn,
donde tmn se deriva de T1 como sigue:

Ecuacin 40
Ahora se decodifica T2 mediante:

Ecuacin 41

171

El vector de tabla de cdigos adaptativos v(n) se encuentra interpolando la


excitacin u(n) (en el retardo de tono) mediante.

Ecuacin 42
Decodificacin del vector de tabla de cdigos fijo

El ndice recibido C de tabla de cdigos fijos se utiliza para extraer las


posiciones de los impulsos de excitacin. Los signos de los impulsos se
obtienen a partir de S. Para ello se invierte el proceso descrito en Clculo de
palabra de cdigo de la tabla de cdigos fijos. Una vez decodificados los
signos y las posiciones de los impulsos, se construye el vector c(n) de
tabla de cdigos fijos de acuerdo con la ecuacin
Ecuacin 43
Si la parte entera del retardo de tono T es inferior al tamao de la subtrama,
fijado en 40, se modifica c(n) con arreglo a la ecuacin

Decodificacin de las ganancias de las tablas de cdigos adaptativos y


fijos
^

El ndice recibido de tabla de cdigos de ganancia determina la ganancia g p


^

de la tabla de cdigos adaptativos as como el factor de correccin y de


la ganancia de tabla de cdigos fijos. El procedimiento se describe en
cuantificacin de las ganancias Se calcula la ganancia estimada gc de la

172

tabla de cdigos fijos mediante la ecuacin

Ecuacin 44
El vector de tabla de cdigos fijos se obtiene a partir del producto del factor
de correccin de ganancia cuantificado y por la ganancia predicha, segn
la ecuacin

Ecuacin 45
La ganancia de tabla de cdigos adaptativos se reconstruye mediante la
ecuacion

Ecuacin 46

173

CELP

Entrada s(n)

Codebook estocstico

U(n)
+

s (n)

Pc(z)

Ponderacin
del error

PL(z)

Valor cuadrito
medio
FIGURA 75 Diagrama de bloques del codificador celp
CODIFICADOR

Entrada s(n)

Generador de
Excitacin

U(n)

Filtro de
sntesis

s (n)

Ponderacin
del error

Minimizacin
del error
DECODIFICADOR

Generador de
excitacin

U(n)

Filtro de sintesis

s (n)

FIGURA 765 Codificador y Decodificador CELP

174

ew(n)

Cdigo en matlab

A continuacin se describe las funciones utlizadas por separado.

Funcin para el anlisis LPC

function [tramaPred,coefLPC,VarExc]=anaLPC(trama)
[coefLPC,VarExc]=lpc(trama,10);
tramaPred=filter(coefLPC,1,trama);
end,

Clculo de la excitacin Peridica

function [excPer]=calcExcPer(trama)
kini=20;
kfin=39;
[max_corr(1),Ind(1)] = corr_voz(trama,kini,kfin);
kini=40;
kfin=79;
[max_corr(2),Ind(2)] = corr_voz(trama,kini,kfin);
kini=80;
kfin=143;
[max_corr(3),Ind(3)] = corr_voz(trama,kini,kfin);
RTop=max_corr(1);
Top=Ind(1);

175

if max_corr(2)>0.85*RTop
RTop=max_corr(2);
Top=Ind(2);
end
if max_corr(3)>0.85*RTop
RTop=max_corr(3);
Top=Ind(3);
end
Correlacin
function [max_corr,Ind] = corr_voz(trama80m,kini,kfin)
for k=kini:kfin,
r(k)=0;
for i=1:80,
r(k)=r(k)+trama(119+i)*trama(119+i-k);
end
end

Prepropresado
function [tramaPrep] = preProc(trama)
N=[ 0.9201 -1.8401

0.9201];

D=[ 1.0000 -1.8337

0.8465];

tramaPrep = filter(N,D,trama);
end

Codigo completo de codificador de voz CELP


close all

176

fvoz=fopen('corto.raw'); % Abro el archivo y se lo entrego al manejador de


archivo fvoz
voz=fread(fvoz,'int16'); % leo los datos a los que apunta el manejador fvoz y
los guardo en voz

plot(voz)
vozNorm=voz/(2^16);
%SOUND(vozNorm,8000);

tamF=length(voz) % voz almacena los valores de la amplitud de las muestras


de voz y compruebo que son 82102 como se puede ver en Cooledit
% tamF es el tamao del fichero
numT=int16(tamF/80)
% tamT es el nmero de tramas que voy a analizar

for i=1 : 400, %numT-1,

posIni=80*(i-1)+1;
posFin=posIni+79;

if i<3

if i==1 trama(1:120)=zeros(120);
else

trama(1:40)=zeros(120);
trama(41:120)=voz(posIni-80:posFin-80);

end
end
trama(121:200)=voz(posIni:posFin);

trama(201:240)=voz(posIni+80:posFin+40);

177

tramaPrep=preProc(trama);

[tramaPred,coefLPC,VarExc]=anaLPC(trama);
% [tramaPred,coefLPC,VarExc]=anaLPC(tramaPrep);

exc=tramaPrep-tramaPred;

Vcoef(i,:)=coefLPC;

[excPer, excAleat]=calcExc(tramaPrep);
%preProc(trama);
% coefLPC=anaLPC(trama);
% [excPer, excAleat]=calcExc(trama);
%
%

sintPar(coefLPC,excPer,excAleat);

end

% Decodificacin
for j=250 : 375 , %numT, ((75 : 175) es (600 : 1400) ) 1:400 para evitar
overflow
excEstoc=VDesvStand(j)*randn(80,1);
coefLPCDec=Vcoef(j,:);

% tramaDec = filter(-1,[coefLPCDec(2:end)],excEstoc);
excDec=Vexc(:,j);
tramaDec = filter(-1,[coefLPCDec(2:end)],excDec);

posIni=80*(j-1)+1;
posFin=80*(j);

178

vozDec(posIni:posFin,1)=tramaDec;

end

figure(2)

% for k=130:131,
%
%

posIni=80*(k-1)+1;

posFin=80*(k);

vozDec(posIni:posFin,1)=vozDec(80*128+1:80*129);

%
% end

% vozDec(10001:11000)=vozDec(9001:10000);

plot(vozDec,'r')

figure(3)
plot(tramaPrep);
hold on
plot(tramaDec,'r');
hold off

vozNormDec=vozDec/(2^16);
SOUND(vozNormDec,8000);

179

ANALISIS DE CONFIABILIDAD

Donde se lleva a cabo la simulacin y diseo del codificador como es un


computador que requiere mantenimiento principalmente su hardware,
realizando este tipo de mantenimiento la funcionalidad del equipo tendr un
tiempo promedio para fallar muy largo teniendo en cuenta tambin las
especificaciones del fabricante para su manejo adecuado.

La confiabilidad de este diseo depende de los diferentes factores tales como


el ambiente, manejo adecuado del software por parte del operador.

180

PRESUPUESTO ECONOMICO
Marco Econmico
Las tcnicas de codificacin de la seal de voz son usadas tanto para la
transmisin a tasas bajas de bits tambin para el almacenamiento de seales
de voz y envi de datos. En Colombia la investigacin en tecnologas de
codificacin de voz es mnima y las empresas del pas se limitan casi
exclusivamente a importar la tecnologa de empresas extranjeras, para la
prestacin de servicios. Por ello, se pretende con esta tesis. impulsar de una
forma mayor la investigacin en esta rea en la Universidad de Pamplona y
en Colombia.

181

COSTOS DE INVERSION
Presupuesto de Medios Bsicos
DENOMIN
ACIN
GENERAL
Computador

CANTIDA
D
1

COSTO
UNITARI
O
$ 1800000

COSTO
TOTAL

PROVEDOR

OBSERVACONE
S

$
1800000

Pallares
computienda

Herramienta
computacional de
trabajo
Dispositivo para
almacenamiento
de informacin
Libro de
Telecomunicacion
es
Modalidad de
grado

Dispositivo
USB

$ 80000

$80000

TECNICOM
SA

Material
Bibliogrfico

$ 95000

$95000

Librera
universitaria

Matricula
Diplomado

$800000

$800000

Universidad de
Pamplona

MATLAB 6.5

$ 0.0

$0.0

Mathworks Inc.

TOTAL DE
INVERSION

3
$2775000

$277500
0

Herramienta
computacional de
trabajo

Presupuesto de Medios de Rotacin


DENOMINACI
N GENERAL

CANTIDA
D

COSTO
UNITARIO

COSTO
TOTAL

PROVEDO
R

OBSERVACONE
S

Servicio de
Internet mensual

$ 35000

$140000

Telecom

Servicio publico
de Internet

Papelera

---

$ 90000

$90000

General

Materiales y otros
suministros como
fotocopias

Recursos
humanos
mensuales
TOTAL DE
INVERSION

$200000

$800000

Domicilio

Servicios bsicos
de recursos
humanos

$325000

$103000
0

182

ANALISIS DE LEGALIDAD

El software MATLAB 6.5 de MATLAB, el cual la Universidad de Pamplona


cuenta con la licencia de esta versin por tal motivo desde el punto de vista
legal el diseo se encuentra libre de requisitos que comprometan la
propiedad intelectual y material del mismo. La cual en este caso, solo le
corresponde al autor y a la universidad de Pamplona

183

INFLUENCIA AMBIENTAL DEL TRABAJO

Este proyecto cumple con uno de los objetivos primordiales de la ingeniera


como es dar soluciones concretas a problemas especficos, ms aun cuando
se traten de problemas que abarque un sentido social y de conservacin
ambiental.

Esta investigacin representa el esfuerzo que hace toda la comunidad


cientfica de todo el mundo, para conservar y aprovechar de una forma ms
eficiente los recursos naturales.

Este proyecto no genera ninguna clase de contaminacin auditiva por la


frecuencia a la que se trabajo esta en el rango audible.

184

RESULTADOS
Se logr modelar la seal de voz, en cuanto al clculo de la excitacin,
teniendo en cuenta su doble naturaleza, por un lado su componente
peridica, y por el otro su componente estocstica, logrando una buena
adaptacin del modelo sugerido por el algoritmo de prediccin lineal excitado
por cdigo - CELP.

Para el alcance del objetivo principal de esta tesis, se implement un


conjunto de programas y funciones para desarrollar los diferentes clculos
que eran necesarios para modelar la excitacin, as mismo, se obtuvieron
una serie de datos y experiencias que van a servir para su posterior anlisis
y perfeccin del trabajo hasta aqu desarrollado.

Por otro lado, este diseo y simulacin proporciona a los alumnos una
valiosa herramienta pedaggica, para el entendimiento sobre codificacin de
voz.

Debido a la complejidad matemtica utilizada por el modelo CELP, algunas


funciones deben ser perfeccionadas para obtener mejores resultados, sin
embargo, ya que stas estn fuera del alcance de la tesis, se dejan como
trabajos futuros.

185

CONCLUSIONES

Al implementar y desarrollar este proyecto se obtuvo una herramienta para el


clculo del error generado por el filtro de sntesis, almacenando y
transmitiendo a una buena calidad de voz a una tasa de bits relativamente
baja reduciendo el ancho de banda lo cual hace a este tipo de codificador
muy eficiente por esta razn las compaas telefnicas se inclinan ms para
este tipo de comprensin de voz porque le permite tener una buena
inteligibilidad.

Teniendo el error de prediccin, generado por el clculo de los coeficientes


del filtro de sntesis, se puede obtener un modelo de la excitacin que nos
ayuda a perfeccionar el modelo de produccin de voz, pues en el modelo, se
tiene en cuenta la doble naturaleza de la excitacin (componente sorda y
sonora).

Cave destacar que la ejecucin de este trabajo de investigacin cuyo objetivo


era la creacin de un codificador CELP calculando la excitacin presenta un
bajo costo econmico ya que las herramientas utilizadas son de muy fcil
acceso, siendo lo ms costoso, el tiempo invertido en el aprendizaje de los
conceptos necesarios para la implementacin del modelo.

186

RECOMENDACIONES

Se recomienda que la materias pertinentes a este tema como es la


codificacin de voz se fortalezcan y si hay carencia en esta rea incluirla el
los planes de trabajo de la Universidad de Pamplona de esta forma seguir
trabajando como lneas futuras en la profundizacin del conocimiento del
codificador CELP y sus aplicaciones

187

REFERENCIAS BIBLIOGRAFICAS
Libros:

[1]

[2]
[3]
[4]

M.Sc. Ing. Gan Acosta Antonio, Ph. D. Ing. Tarantino Alvarado Rocco,
Metodologas para trabajos de grado, Pamplona, Colombia, Mayo del
2006
Wayne Tomasi, Sistemas de Comunicaciones Electronicas, Edit.
Pearson Educacin 2. Edicion, Latinoamrica 1996
A.M. Kondoz: Digital Speech: Coding for Low Bit Rate, Communications
Systems; Chichester, England: John Wiley & Sons; 1994.
P. Kroon and B.S. Atal: Predictive Coding of Speech Using Analysisby
Synthesis Techniques ; in Advances in Speech Signal Processing, S.
Furui and M. Sondhi, Ed.; New York, USA: Marcel Dekker; 1991.

Artculos:
[5]

Borella, M. S., Measurement and interpretation of internet packet loss


Journal of Communications and Networking, vol. 2, no. 2, pp 93-102,
Jun. 2000.
[6] Choi, S. H., Kim, K., Lee, H. S., Speech recognition using quantized
LSP parameters and their transformations in digital communication ,
Speech Communication, vol. 30, pp. 223-233, 2000.
[7] Colas Pasamontes, J. Estrategias de incorporacin de conocimiento
sintctico y semntico en sistemas de comprensin de habla continua
en espaol Comunidad Virtual de Usuarios asociada a la lista de
distribucin Infoling (En lnea), Escuela Tcnica Superior de Ingenieros
de Telecomunicacin, Madrid (Espaa) Vol 12, 2001.
[8] ETSI Speech processing, Transmission and Quality aspects (STQ)
Distributed speech recognition (DSR); Front-end feature extraction
algorithm; Compression algorithms (ES 201 108), Ab. 2000.
[9] ETSI Speech processing, Transmission and Quality aspects (STQ),
Distributed Speech Recognition Front-end extension for tonal language
recognition and speech reconstruction (DES/STQ-00030), 2001.
[10] Euler, S., Zinke, J., The Influence of Speech Coding Algorithms on
Automatic Speech Recognition , Proc. IEEE Int. Conf. on Acoustics,
Speech and Signal Processing (ICASSP), Australia, vol. 1, pp. 621-624,
1994.

188

[11] Gallardo-Antoln, A., Daz-de-Mara, F., Valverde-Albacete, F., Avoiding


Distortions Due to Speech Coding and Transmission Errors in GSM ASR
Tasks , Proc. IEEE Int. Conf. on Acoustics, Speech and Signal
Processing (ICASSP), Phoenix, Arizona, EE.UU., vol. I, pp. 277-280,
1999
[12] Gallardo-Antoln, A., Daz-de-Mara, F., Valverde-Albacete, F.,
Recognition from GSM Digital Speech , Proc. International Conference
on Spoken Language Processing (ICSLP), Sidney, Australia, 1998.
[13] Gallardo-Antoln, A., Daz-de-Mara, F., Valverde-Albacete, F., BravoMenndez-Rivas, R., Reconocimiento de voz procedente de telfonos
mviles digitales , Telecom I+D, Madrid, pp. 379-387, 1998.
[14] Gallardo-Antoln, A., Pelez-Moreno, C., Daz-de-Mara, F., A robust
front-end for ASR over IP and GSM networks: an integrated scenario
Proc. of European Conference on Speech Communication and
Technology (Eurospeech), vol.2, pp. 1103-1106, Aalborg, Dinamarca,
Sep. 2001.
[15] Haeb-Umbach, R., Robust speech Recognition fr Wirless Networks and
Mobile Telephony , Proc. of European conference on Speech
Communication and Technology (Eurospeech), pp. 2427-2430, 1997.
[16] Huerta, J. M., Speech Recognition in Mobile Environments , Tesis
Doctoral, Abril, 2000.
[17] Kanal, L. N., Sastry, A. R. K., Models for Channels with Memory and
Their Applications to Error Control, Proc. of the IEEE, vol. 66, pp. 724744, Jul. 1978.
[18] Kim, H. K., Cox, V., A bitstream-based front-end for wireless speech
recognition on IS-136 communications system , IEEE Transactions on
Speech and Audio Processing, vol. 9, no. 5, Jul. 2001.
[19] Kumar, A. Comparative performance analysis of versions of TCP in a
local network with a lossy link , In IEEE/ACM Transactions on
Networking, vol. 6, pp. 485-498, 1998.
[20] Kumar, H., Sundarasen, K., Implementation of de Code Excited Linear
Predictive (CELP) for VOIP Department of Electrical Engineering, State
University of New York at Buffalo.
[21] Lilly, B. T., Paliwal, K. K., Effect of Speech Coders on Speech
Recognition Performance , Proc. International Conference on Spoken
Language Processing (ICSLP) , vol. 4, pp. 2344-2347, Philadelphia,
EE.UU., 1996.
[22] National Institute of Standards and Technology (NIST) (distribuidor),
The resource management corpus part 1 (RM1) , 1992.
[23] Paxon, V., Measurements and Analysis of End-to-End Internet
Dynamics , Tesis doctoral, University of California, Berkeley, 1997.
[24] Pelez, C. Reconocimiento de habla mediante transparametrizacin:
una alternativa robusta para entornos mviles e IP , Tesis doctoral, Univ.
Carlos III de Madrid, Legans, Espaa, 2002.

189

[25] Pelez-Moreno, C., Gallardo-Antoln, A., Daz-de-Mara, F.,


Recognizing Voice over IP networks: a Robust Front-End for Speech
Recognition on the WWW , IEEE Trans. on Multimedia, vol. 3, no. 2, pp.
209-18, Jun. 2001.
[26] Pelez-Moreno, C., Gallardo-Antoln, A., Daz-de-Mara, F.,
Recognizing IP over IP: towards Spoken Language Interfaces for Ebusiness , Proc. eBusiness and eWork Conference, pp. 1065-1071,
Madrid, 2000. o E-business: Issues, Applications and Technologies, pp
1065-1071, Smith and P.T. Kidd (Eds.) IOS Press, 2000.
[27] Pelez-Moreno, C., Zambrano-Miranda, A., Gallardo-Antoln, A., Dazde-Mara, F., Reconocimiento de habla en internet: una aproximacin
eficiente , Proc. Telecom I+D, Madrid, 1999.
[28] Salami, R., Laflamme, C., Adoul, J., Kataoka, A., Hayashi, S., Moriya,
T.,Lamblin, C., Massaloux, D., Proust, S., Kroon, P., Shoham, Y.,
Design and Description of CS-ACELP: A Toll Quality 8 kbp/s Speech
coder IEEE Transactions on speech and audio processing, vol 6, No 2,
marzo 1998.
[29] Salami, R., Laflamme, C., Adoul, J., Massaloux, D. A Toll quality 8
Kbp/s Speech Codec for the Personal Communications System (PCS)
IEEE Transactions on vehicular technology, vol 4 No 3, agosto de 1994.
[30] UIT-T,
Recomendacin G729 --Codificacin de la voz a 8 kbit/s
mediante prediccin lineal con excitacin por cdigo algebraico de
estructura conjugada (CS-ACELP), Marzo, 1996.
[31] Young, S. et al, HTK-Hidden Markov Model Toolkit (Ver 3.0) ,
Cambridge University, 2000.

Internet

[32]
[33]
[34]
[35]
[36]
[37]
[38]
[39]
[40]
[41]
[42]
[43]
[44]
[45]

www.angelfire.com/
www.dfgomezup.google.pages.com
www.tsc.uc3m.es/~fdiaz/ 'Fernando Daz
www.personal.us.es/murillo/docente/radio/ 'universidad de Sevilla'
www.inf.udec.cl/revista/edicion7/jbustos.htm
lilaproject.org/ 'tecnologias del habla'
www.eie.fceia.unr.edu.ar/ 'naturaleza del sonido'
es.wikipedia.org/Fontica 'fontica'
www.ehu.es/acustica/
lilaproject.org/veu/ 'seal de voz
www.tsc.uc3m.es/
physionet.cps.unizar.es/
paginas.fe.up.pt/
spanish.youth.hear-it.org/

190

[46]
[47]
[48]
[49]

www.jcee.upc.es/
es.wikipedia.org/ '
spanish.hear-it.org
www.personal.us.es/

191

ANALISIS BIBLIOGRAFICO

Al realizar este trabajo de grado se manipularon muchos textos y paginas


web s que fueron de gran ayuda para la realizacin de este proyecto a
continuacin se nombrara solo el numero mencionado el las referencias
bibliograficas anteriores y la parte en que se enfoca mas, para aquellas
personas que deseen profundizar en el tema.

[33] Muy substancial para saber todo lo referente al procesamiento digital de


seales.
[8]Buena explicacin sobre las distintas tcnicas de codificacin.
[35]Todo lo referente a cualidades la voz.
[37]Muy importante en lo que concierne a las tcnicas del habla.

192

GLOSARIO DE TRMINOS NO CONVENCIONALES

[A]
Agudos
Sonidos cuyas frecuencias de vibraciones son grandes.
Alfonos
Los alfonos son cada uno de los sonidos propios de una lengua.

[C]
Codificacin
Es la conversin de la seal de voz a una secuencia binaria o representacin
digital.
Convolucin
Es la multiplicacin entre dos o ms seales.
Cuantificacin
Es la conversin de una seal discreta evaluada en el tiempo de forma
continua a una seal discretamente evaluada en el tiempo.

[F]
Filtro
Sistema que dependiendo de algunos parmetros, realiza un proceso de
discriminacin de una seal de entrada obteniendo variaciones en su salida.
Fontica
Rama de la lingstica que estudia la produccin, naturaleza fsica y
percepcin de lo sonidos de una lengua.

193

[G]
Graves
Sonidos cuyas frecuencias de vibraciones son pequeas.

[I]
Intensidad
Es la cantidad de energa acstica que contiene un sonido.

[M]
Muestreo
Es el proceso de conversin de seales continuas a seales discretas en
tiempo.

[P]
Potencia (W)
Es la cantidad de energa radiada por una fuente determinada.

[T]
Timbre
Cualidad del sonido que permite distinguir ente dos sonidos de la misma
intensidad.
Tono
Caracterstica del sonido que permite distinguir entre sonidos graves, agudos
o medios.

194

SIMBOLOS NO CONVENCIONALES
W p (n ) = Ventana de anlisis.

S ' (n) = Seal vocal ventanizada.


r (k ) = Coeficientes de autocorrelacion.

fs

= Frecuencia de muestreo.

ai

= Coeficientes del filtro LP.

F ' ( z ) = Polinomio.
e + jN i = Races conjugadas.
cos(mw) =Polinomio de chebyshev.
qi =Coeficientes LSP.

w(z ) =Filtro de ponderacin perceptual.


flat (m ) =subtrama anterior

c1c 2 =ndice da tabla de cdigos fijos.


p1 p 2 =Retardo de la tabla de cdigos adaptativos.
Hk1 ( z ) =filtro de paso alto de entrada.

Hp (z ) = Postfiltro de largo plazo.


Hc (z ) =Filtro de compensacin de pendiente.
p(z) =Prefiltro para tabla de cdigos fijos.
Hf (z) =Postfiltro de corto plazo.
ew(n) = Seal de error.
h(n) =Respuesta impulso de los filtros de ponderacin y sntesis.
r (n) =Seal residual.
s(n) = Seal vocal procesada.

s (n) = Seal vocal reconstruida.

195

sf (n) = Salida de postfiltro.


sw(n) =Seal vocal ponderada.
g p = Ganancia de la tabla de cdigos adaptativos.

g c =Ganancia de la tabla de cdigos fijos.


Top =Retardo de tono en bucle abierto.

wi =Frecuencias normalizadas.

r ' (k ) = Coeficientes de autocorrelacion modificados.

196

ABREVIATURAS UTILIZADAS

CELP = Predictor lineal excitado por cdigo.


CS-ACELP=Prediccin lineal excitada por cdigo algebraico con estructura
conjugada.
VQ = Cuantificacin vectorial.
ADPCM = Modulacin por Codificacin impulsos adaptativo diferencial.
DM=modulacin delta
LPC= Lineal Predictive Coding.
PCM = Modulacin por codificacin de impulsos.
DPCM = Modulacin por codificacin de impulsos diferencial.
LP = Prediccin lineal.
IIR=Respuesta al impulso infinito.
FIR=Respuesta al impulso finito.
LTI=Sistema lineal e invariante en el tiempo
MPC = Codificacin multipulso.
dB = Decibel.
Bit-rate=Numero de muestras por segundo.
CCIIT=International Consultative Committee for Telephone and Telegraph.
MSE=Error cuadrico medio.
Mos=Medida subjetiva de la calidad de voz (Mean Opinion Store).
Pitch=Frecuencia fundamental o de tono.
LTP=Long term predictor (predictor de largo plazo).
STP=short term predictor (predictor de corto plazo).
Codebook=Libro de codigos
RELP=Residual Excited linear prediction.
RPE-LTP = Regular Pulse Excitation

Long Term Prediction

197

ANEXOS
Gua rpida sobre MATLAB 6.5

Definicin
MATLAB es el nombre abreviado de MATrix LABoratory . MATLAB es un
programa para realizar clculos numricos con vectores y matrices. Como
caso particular puede tambin trabajar con nmeros escalares tanto reales
como complejos, con cadenas de caracteres y con otras estructuras de
informacin ms complejas. Una de las capacidades ms atractivas es la de
realizar una amplia variedad de grficos en dos y tres dimensiones.
MATLAB tiene tambin un lenguaje de programacin propio.
MATLAB es un gran programa de clculo tcnico y cientfico. Para ciertas
operaciones es muy rpido, cuando puede ejecutar sus funciones en cdigo
nativo con los tamaos ms adecuados para aprovechar sus capacidades de
vectorizacin. En otras aplicaciones resulta bastante ms lento que el cdigo
equivalente desarrollado en C/C++ o Fortran.

198

Fig. Ventana inicial de MATLAB


La parte ms importante de la ventana inicial es la Command Window, que
aparece en la parte derecha.
En esta sub-ventana es donde se ejecutan los comandos de MATLAB, a
continuacin del prompt (aviso) caracterstico (>>), que indica que el
programa est preparado para recibir instrucciones.
En la parte superior izquierda de la pantalla aparecen dos ventanas tambin
muy tiles: en la parte superior aparece la ventana Current Directory, que
se puede alternar con Workspace clicando en la pestaa correspondiente.
La ventana Current Directory muestra los ficheros del directorio activo o
actual. El directorio activo se puede cambiar desde la Command Window, o
desde la propia ventana (o desde la barra de herramientas, debajo de la
barra de mens) con los mtodos de navegacin de directorios propios de
Windows. Clicando dos veces sobre alguno de los ficheros *.m del directorio
activo se abre el editor de ficheros de MATLAB, herramienta fundamental
para la programacin sobre la que se volver en las prximas pginas. El
Workspace contiene informacin sobre todas las variables que se hayan

199

definido en esta sesin y permite ver y modificar las matrices con las que se
est trabajando.
En la parte inferior derecha aparece la ventana Command History que
muestra los ltimos comandos ejecutados en la Command Window. Estos
comandos se pueden volver a ejecutar haciendo doble clic sobre ellos.
Clicando sobre un comando con el botn derecho del ratn se muestra un
men contextual con las posibilidades disponibles en ese momento. Para
editar uno de estos comandos hay que copiarlo antes a la Command
Window.
Comandos Bsicos
ver: Muestra la versin, el cdigo de licencia y las toolboxes disponibles.
whos: Lista todas las variables disponibles.
save archivo: Guarda todas las variables
>> save -ascii % almacena 8 cifras decimales.
>> save -ascii -double % almacena 16 cifras decimales.
>> save -ascii -double -tab % almacena 16 cifras separadas por tabs.
save archivo (a b): Guarda las variables a y b
load archivo: Carga variables
quit: Salir
Ayudas y documentacin
Ayuda en modo texto mediante comandos

200

Fig. Demos disponibles en MATLAB


A continuacin se describirn algunas de las funciones con las que cuenta la
ayuda de MATLAB:
Help funcin: Muestra la ayuda de una funcin.
Help, vale tanto para las funciones como para desarrollos propios.
Helpwin: Carga el men de ayuda en otra ventana y posee enlaces por
categoras.

Ayuda on-line
Pgina oficial de soporte: http: // www.mathworks.com/support/
*Documentacin.
*Soluciones a problemas ordenadas por categoras.
*Ejemplos de cdigo.
*Noticias.
*Actualizaciones.

201

Toolboxes.
Libreras especializadas en materias concretas. Incluyen:
* Manuales tipo tutorial (UsersGuide) (HTML, PDF).
Referencia de las funciones (Treference Guide) (HTML, PDF).
*Programas de demo.
*Aplicaciones completas listas para utilizar.
Entre las toolboxes ms utilizadas se encuentran:
Technical Computing
Mathematical computation, analysis, visualization, and algorithm development.
Control design
Model-Based

Design

for

control

systems,including

simulation,

rapid

prototyping, and code generation for embedded systems.


Signal Processing and Communications

Model-Based Design for signal processing and communication systems,


including simulation, code generation, and verification.
Image processing
Image acquisition, analysis, visualization, and algorithm development.

Test & Measurement


Hardware connectivity and data analysis for test and measurement
applications.

Financial Modeling and Analysis


Financial modelling, analysis, and application deployment.

202

OPERACIONES CON MATRICES

Ya se ha comentado que MATLAB es fundamentalmente un programa para


clculo matricial. Inicialmente se utilizar MATLAB como programa
interactivo, en el que se irn definiendo las matrices, los vectores y las
expresiones que los combinan y obteniendo los resultados sobre la marcha.
Si estos resultados son asignados a otras variables podrn ser utilizados
posteriormente en otras expresiones. En este sentido MATLAB sera como
una potente calculadora matricial (en realidad es esto y mucho ms...).

Definicin de matrices desde el teclado

Como en casi todos los lenguajes de programacin, en MATLAB las matrices


y vectores son variables que tienen nombres. Ya se ver luego con ms
detalle las reglas que deben cumplir estos nombres. Por el momento se
sugiere que se utilicen letras maysculas para matrices y letras
minsculas para vectores y escalares (MATLAB no exige esto, pero puede
resultar til). Para definir una matriz no hace falta declararlas o establecer de
antemano su tamao (de hecho, se puede definir un tamao y cambiarlo
posteriormente). MATLAB determina el nmero de filas y de columnas en
funcin del nmero de elementos que se proporcionan (o se utilizan). Las
matrices se definen o introducen por filas6; los elementos de una misma
fila estn separados por blancos o comas, mientras que las filas estn
separadas por pulsaciones intro o por caracteres punto y coma

(;). Por

ejemplo, el siguiente comando define una matriz A de dimensin (33):

>> A=[1 2 3; 4 5 6; 7 8 9]

La respuesta del programa es la siguiente:

203

A=
1

A partir de este momento la matriz A est disponible para hacer cualquier


tipo de operacin con ella (adems de valores numricos, en la definicin de
una matriz o vector se pueden utilizar expresiones y funciones matemticas).
Por ejemplo, una sencilla operacin con A es hallar su matriz traspuesta. En
MATLAB el apstrofo (') es el smbolo de transposicin matricial. Para
calcular A' (traspuesta de A) basta teclear lo siguiente (se aade a
continuacin la respuesta del programa):
>> A'
ans =
1

Como el resultado de la operacin no ha sido asignado a ninguna otra matriz,


MATLAB utiliza un nombre de variable por defecto (ans, de answer), que
contiene el resultado de la ltima operacin.
La variable ans puede ser utilizada como operando en la siguiente expresin
que se introduzca. Tambin podra haberse asignado el resultado a otra
matriz llamada B:
>> B=A'
B=
1

204

Ahora ya estn definidas las matrices A y B, y es posible seguir operando


con ellas. Por ejemplo, se puede hacer el producto B*A (deber resultar una
matriz simtrica):
>> B*A
ans =
66

78

90

78

93

108

90

108 126

Invertir una matriz es casi tan fcil como trasponerla. A continuacin se va a


definir una nueva matriz A -no singular- en la forma:

>> A=[1 4 -3; 2 1 5; -2 5 3]


A=
1

-3

-2

Ahora se va a calcular la inversa de A y el resultado se asignar a B. Para


ello basta hacer uso de la funcin inv( ) (la precisin o nmero de cifras con
que

se

muestra

el

resultado

se

puede

cambiar

con

el

men

File/Preferences/General):

B=inv(A)
B=
0.1803

0.2213

-0.1885

0.1311

0.0246

0.0902

-0.0984

0.1066

0.0574

Para comprobar que este resultado es correcto basta pre-multiplicar A por B;


>> B*A
ans =

205

1.0000

0.0000

0.0000

0.0000

1.0000

0.0000

0.0000

0.0000

1.0000

Operadores Aritmticos

MATLAB puede operar con matrices por medio de operadores y por medio
de funciones. Se han visto ya los operadores suma (+), producto (*) y
traspuesta ('), as como la funcin invertir inv( ). Los operadores matriciales
de MATLAB son los siguientes:
+

adicin o suma
sustraccin o resta

multiplicacin

'

traspuesta

potenciacin

divisin-izquierda

divisin-derecha

.*

producto elemento a elemento

./ y .\

divisin elemento a elemento

.^

elevar a una potencia elemento a elemento

Tipos de Datos
Ya se ha dicho que MATLAB es un programa preparado para trabajar con
vectores y matrices. Como caso particular tambin trabaja con variables
escalares (matrices de dimensin 1). MATLAB trabaja siempre en doble
precisin, es decir guardando cada dato en 8 bytes, con unas 15 cifras
decimales exactas.

206

MATLAB dispone de tres funciones tiles relacionadas con las operaciones


de coma flotante. Estas funciones, que no tienen argumentos, son las
siguientes:
Eps: devuelve la diferencia entre 1.0 y el nmero de coma flotante
inmediatamente superior. Da una idea de la precisin o nmero de cifras
almacenadas. En un PC, eps vale 2.2204e-016.
Realmin: devuelve el nmero ms pequeo con que se puede trabajar
(2.2251e-308).
Relamas: devuelve el nmero ms grande con que se puede trabajar
(1.7977e+308).
Otros tipos de datos: Integer, Float y Logical
MATLAB trabaja con variables de punto flotante y doble precisin (double).
Con estas variables pueden resolverse casi todos los problemas prcticos y
con frecuencia no es necesario complicarse la vida declarando variables de
tipos distintos, como se hace con cualquier otro lenguaje de programacin.
Sin embargo, en algunos casos es conveniente declarar variables de otros
tipos porque puede ahorrarse mucha memoria y pueden hacerse los clculos
mucho ms rpidamente.

MATLAB permite crear variables enteras con 1, 2, 4 y 8 bytes (8, 16, 32 y 64


bits). A su vez, estas variables pueden tener signo o no tenerlo. Las variables
con signo representan nmeros en intervalos "casi" simtricos respecto al 0;
las variables sin signo representan nmero no negativos, desde el 0 al
nmero mximo.
Los tipos de los enteros con signo son int8, int16, int32 e int64, y sin signo
uint8, uint16, uint32 y uint64. Para crear una variable entera de un tipo
determinado se pueden utilizar sentencias como las siguientes:

207

>> i=int32(100);

% se crea un entero de 4 bytes con valor 100

>> j=zeros (100); i=int32(j);

% se crea un entero i a partir de j

>> i=zeros (1000,1000,'int32'); % se crea una matriz 1000x1000 de enteros


Las funciones intmin('int64') e intmax('int64') permiten por ejemplo saber el
valor del entero ms pequeo y ms grande (en valor algebraico) que puede
formarse con variables enteras de 64 bits:

>> disp ([intmin('int64'), intmax('int64')])


-9223372036854775808 9223372036854775807

La funcin logical(A) produce una variable lgica, con el mismo nmero de


elementos que A, con valores 1 0 segn el correspondiente elementos de
A sea distinto de cero o igual a cero. Una de las aplicaciones ms
importantes de las variables lgicas es para separar o extraer los elementos
de una matriz o vector que cumplen cierta condicin, y operar luego
selectivamente sobre dichos elementos. Obsrvese, el siguiente ejemplo:

>> A=magic(4)
A=
16

13

11 10 8

14 15 1

12

>> j=A>10
j=
1

208

>> isa(j,'logical')
ans =
1
>> A(j)=-10
A=
-10

-10 10

-10 -10

-10
8
-10
1

Variables y Expresiones
Una variable es un nombre que se da a una entidad numrica, que puede
ser una matriz, un vector o un escalar. El valor de esa variable, e incluso el
tipo de entidad numrica que representa, puede cambiar a lo largo de una
sesin de MATLAB o a lo largo de la ejecucin de un programa. La forma
ms normal de cambiar el valor de una variable es colocndola a la izquierda
del operador de asignacin (=).
Cuando se quiere tener una relacin de las variables que se han utilizado en
una sesin de trabajo se puede utilizar el comando who. Existe otro
comando llamado whos que proporciona adems informacin sobre el
tamao, la cantidad de memoria ocupada y el carcter real o complejo de
cada variable. Se sugiere utilizar de vez en cuando estos comandos en la
sesin de MATLAB que se tiene abierta. Esta misma informacin se puede
obtener grficamente con el Workspace Browser, que aparece con el
comando View/Workspace o activando la ventana correspondiente si estaba
abierto.

El comando clear tiene varias formas posibles:

209

clear

sin argumentos, clear elimina todas las variables creadas

previamente (excepto las variables globales).


clear A, b

borra las variables indicadas.

clear global

borra las variables globales.

clear functions

borra las funciones.

clear all

borra todas las variables, incluyendo las globales, y las

funciones.

210

Anda mungkin juga menyukai