Vocoder

ESCUELA TCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIN
Titulacin : INGENIERO TCNICO DE TELECOMUNICACIN, ESPECIALIDAD EN SONIDO E IMAGEN
Ttulo del proyecto:
ESTUDIO SOBRE EL VOCODER HOMOMRFICO
Alumno: Ion Aritz Dallo Tutor: Miroslav Zivanovic Jeremic Pamplona, 19 de Junio del 2012
Proyecto Fin de Carrera
Ion Aritz Dallo
INDICE
INTRODUCCION
Resumen/problemtica Aplicaciones Estado del arte
5
5 8
9
OBJETIVOS REVISION TEORICA

La voz humana
Produccin de la voz humana. Particularidades de la voz humana Frecuencia de pitch Formantes Codificacin del mensaje de voz
11 12
12
12 13 14 15 16
Modelo de creacin de la voz Procesado homomrfico

El dominio cepstral Cepstrum de la seal de voz 1.1.1. 1.1.2. 1.1.3. Consideraciones computacionales Separacin de las componentes en el dominio cepstral Regreso al dominio temporal
17 19
19 21 24 26 27
DIGITALIZACIN DE LA VOZ
Muestreo Cuantizacin
28
28
29
DESCRIPCIN DE LAS HERRAMIENTAS Y MTODO DE EVALUACIN

Preprocesado
31
31
2
Ion Aritz Dallo
Enventanado Cepstrum complejo

1.1.4. 1.1.5. 1.2. Codificador Decodificador
34
37 38 41 45 47
Cepstrum real
1.2.1. Sonoridad y frecuencia de pitch
1.3. Reconstruccin de la seal

1.4.
50
50
Mtodo de evaluacin
RESULTADO EXPERIMENTAL
1.5. Introduccin 1.6. Seales utilizadas en el estudio comparativo 1.7. Calidad subjetiva 1.8. Anlisis SRR de las seales decodificadas 1.9. Anlisis SRR trama a trama
1.9.1. 1.9.2. 1.9.3. Primera seal Segunda seal Tercera seal
52
53 54 56 60 60
61 63 65 68 68 70 72 78 85 86 87 88 89
1.10. Anlisis del error 1.10.1. 1.10.2. 1.10.3. Primera seal Segunda seal Tercera seal
1.11. Impacto del preprocesado en la seal 1.12. Cantidad de informacin requerida en la codificacin 1.13. Capacidad de deteccin de sonoridad y pitch 1.13.1. 1.13.2. 1.13.3. Seal n 1 aeiou Seal n 2 maana soleada Seal n 3 Universidad Pblica de Navarra
CONCLUSIONES Y LINEAS FUTURAS
91
3
Ion Aritz Dallo
BIBLIOGRAFA
94
Ion Aritz Dallo
INTRODUCCION
RESUMEN/PROBLEMTICA
La voz humana consiste en sonidos generados por la apertura y cierre de la glotis (cuerdas vocales), lo que produce una onda peridica con muchos sonidos armnicos. Este sonido bsico es entonces filtrado por la nariz y la garganta (un complicado sistema resonante conocido como el tracto vocal) de forma controlada, creando la amplia variedad de sonidos de habla. Hay otro conjunto de sonidos, conocidos como sordos, que no son generados por la vibracin de las cuerdas vocales, pues estas permanecen abiertas cuando el aire pasa a travs de ellas y slo influye el tracto vocal. Existen varias representaciones para la seal de voz. Se puede representar la forma de onda basndose en procesos de muestreo y cuantificacin. Esto pretende mantener la forma de onda original. Otra forma es la representacin paramtrica. En ella se considera la seal de voz como la salida de un sistema de produccin de voz que puede ser representado como un conjunto de parmetros. Tambin existen vocoders que son mezcla de los anteriores, se usan tcnicas paramtricas y de forma de onda mezcladas, dando lugar a lo que se conoce como vocoder hbrido. El vocoder que se disear en este proyecto es de este tipo. Un Vocoder (nombre derivado de voice-coder, codificador de voz) es un analizador y sintetizador de voz. Fue desarrollado en la dcada de 1930 como un codificador de voz para telecomunicaciones. Su primer uso fue la seguridad en radiocomunicaciones, donde la voz tiene que ser digitalizada, cifrada y transmitida por un canal de ancho de banda estrecho. El vocoder examina el habla encontrando los parmetros de inters, y midiendo cmo cambian las caractersticas espectrales con el tiempo grabando el habla. Esto da como resultado una serie de nmeros representando esas frecuencias modificadas en un tiempo particular a medida que el usuario habla. Al hacer esto, el vocoder reduce en gran medida la cantidad de informacin necesaria para almacenar el habla. Para recrear el habla, el vocoder simplemente revierte el proceso. El resultado es habla inteligible, aunque algo mecnica en los vocoders de tipo paramtrico. Con los vocoders hbridos se consiguen mejores resultados a costa de sacrificar Ancho de Banda (BW). El vocoder hbrido diseado es un vocoder homomrfico, basado en un modelo de representacin de la voz convolucional, en el que la seal de voz se considera como la salida de un filtro lineal al que se le aplica una seal de excitacin. La seal de voz s(n) es la convolucin entre la excitacin e(n) y el filtro lineal H(f) que modela el tracto vocal.
Ion Aritz Dallo
En tiempo tenemos que:
s(n) = e(n) * h(n)
Y en espectro:
S() = E() H()
Separar las dos seales no es un problema trivial, pues no estn superpuestas aditivamente. Si las seales ocuparan intervalos temporales distintos o bandas frecuenciales separadas sera posible separarlas fcilmente en cualquiera de los dos dominios. El problema que se pretende resolver es una deconvolucin. El procesado homomrfico sirve de ayuda transformando la convolucin en una suma. La deconvolucin se define como la operacin inversa de la convolucin. Por lo tanto si se supone que una seal se ha formado por la convolucin de dos seales, es posible separar dichas seales aplicando la operacin inversa o deconvolucin.
s(n) = e(n) * h(n)
(n) = (n) + (n)
El procesado homomrfico o anlisis cepstral, tiene como objetivo transformar la seal de voz, de manera que las dos componentes se superpongan aditivamente, y se puedan separar linealmente, en el dominio cepstral.
Ion Aritz Dallo
La transformacin se hace mediante un operador D*:
[n] = D* ([n]) = D*(1[n] * 2[n]) = D*(1[n]) + D*(2[n]) = 1(n) + 2(n)
Se logra pasar as de una convolucin de difcil resolucin a una suma de logaritmos, en definitiva a una suma de dos seales de muy distintas caractersticas en frecuencia, ya que la seal de excitacin tiene variaciones temporales muy superiores a la respuesta de filtro. Si se realizara una nueva transformada de Fourier al resultado actual, se separaran claramente las seales en regiones apartadas dado que la respuesta del filtro ocupar las bajas frecuencias y la excitacin las regiones de ms alta frecuencia.
Una vez separados se puede deshacer la transformacin mediante el operador inverso D*

1
, y si se quiere recuperar la seal original slo hay que realizar la convolucin entre la seal de
excitacin y el tracto vocal
D*
-1
(1 [n]) = s1 [n]
s1 [n] * s2 [n] = s [n]
APLICACIONES
Las aplicaciones que se le pueden dar a los vocoders son variadas; codificacin (almacenamiento y transmisin), sntesis (generacin de voz humana), reconocimiento (sistemas de seguridad), artsticas (el vocoder como efecto) El objetivo de este proyecto es el anlisis de dos tipos de vocoder para su uso en codificacindecodificacin con el objeto de buscar una representacin de la seal de voz que permita comprimirla al mximo manteniendo una calidad aceptable.
Ion Aritz Dallo
Se busca el mnimo nmero de bits para una calidad mxima, de esta forma se ahorra ancho de banda en transmisin y espacio de almacenamiento. Hoy en da la reduccin de la tasa de bits con la mxima calidad se hace necesaria por el continuo aumento del trfico de datos en telefona mvil, pues la voz ahora tiene que compartir canal con todo el trfico multimedia.
Reduccin de la velocidad binaria en los telfonos mviles y llamadas usando las redes 3G/4G sin prdida de calidad.
Seguridad: encriptacin de la informacin.
El codificador LPC debido a la baja calidad pero poca demanda de ancho de banda resulta til en situaciones donde la alta calidad no es imprescindible, pero si la capacidad de encriptacin y el poder usar el sistema en lugares con redes de telecomunicacin precarias como podra ser en campaas militares en pases remotos. No obstante la calidad conseguida es muy baja e inaceptable en sistemas de uso civil o domstico. La calidad conseguida con el vocoder homomrfico, es mucho mayor como podr ver ms adelante.
ESTADO DEL ARTE

Hace unos cincuenta aos que empez la investigacin en el campo de la codificacin de la voz. El pionero fue Homer Dudley, que trabajaba en los laboratorios de la Bell Telephone. La motivacin para realizar esta investigacin surgi por la necesidad de transmitir voz por los cables de telegrafa de pequeo ancho de banda. La idea del vocoder de Dudley era analizar la voz para extraer una serie de caractersticas y que el emisor enviase esas caractersticas, cuando stas le llegasen al receptor reconstruira la voz original. Este codificador recibi gran atencin durante la Segunda Guerra Mundial, debido a su potencial en cuanto a eficiencia y posibilidad de encriptacin se refiere. Las primeras implementaciones del vocoder eran analgicas, sin embargo, con el nacimiento de los sistemas digitales y de las posibilidades que stos ofrecen, pronto se pas a las implementaciones digitales. Durante la dcada de los 40 hubo una gran actividad en la Codificacin por Modulacin de Impulsos (PCM). Este tipo de codificacin no sigue la filosofa del vocoder de Dudley (y de los vocoders en general), sino que simplemente muestrea la voz. A partir del PCM se desarrollaron el DPCM y el
Ion Aritz Dallo
ADPCM, que fueron propuestos como estndar por la CCITT (International Consultative Committee for Telephone and Telegraph). Gracias a la flexibilidad de los sistemas digitales, se pudo experimentar con formas ms sofisticadas de representacin de la voz. Fant, a finales de los 50, trabaj en el modelo de produccin de voz lineal. El surgimiento de la tecnologa VLSI, tecnologa de muy baja escala de integracin, durante los 60 y 70 permiti nuevas soluciones al problema de la codificacin de la voz. As, por ejemplo, Flanagan y Golden propusieron una solucin basada en la Transformada de Fourier. Durante los 80 y 90, la investigacin ha ido encaminada a conseguir codificadores que utilicen un ancho de banda cada vez menor mientras que la calidad de la voz sea cada vez mejor. Con esto se permite utilizar con ms eficiencia y eficacia los canales de transmisin, se facilita la encriptacin y se aprovechan mejor los sistemas de almacenamiento. Una de las principales aplicaciones de la codificacin de voz es la telefona mvil. En telefona mvil, en Estados Unidos se utiliza un estandar de 8 Kbps (VSELP) y otro similar, a 6.7 Kbps, en Japn. En Europa, dentro del sistema GSM, se usa un codificador a 13 Kbps.
Ion Aritz Dallo
OBJETIVOS
El objeto de este proyecto es programar en Matlab un vocoder homomrfico o de anlisis cepstral, analizar su comportamiento como codificador-decodificador, y realizar una comparativa de calidad de las seales decodificadas con los resultados obtenidos con un vocoder LPC. Los 2 vocoders comparados aqu se diferencian en el proceso en el que se obtienen los parmetros y en el nmero de estos, lo que marca una diferencia clara en el resultado obtenido al decodificar la seal de voz. Se realizar una comparativa en la que se mida la calidad de ambos vocoders y la cantidad de datos (bits por segundo) que maneja cada uno. Por ltimo se usar la herramienta creada para el anlisis de seal de voz con el fin de determinar si una trama de voz es sonora o sorda y determinar la frecuencia fundamental de las tramas de voz sonoras.
10
Ion Aritz Dallo
REVISION TERICA
LA VOZ HUMANA
PRODUCCIN DE LA VOZ HUMANA
La produccin de voz tiene lugar en el aparato fonador. La seal de voz es una onda de presin acstica que se produce por la vibracin de las cuerdas vocales. El aparato fonador est formado por cavidades y elementos articuladores. El aire exhalado de los pulmones es modulado y formado por la vibracin en las cuerdas vocales y el tracto vocal. Ese sonido producido por la vibracin de las cuerdas vocales es llevado al exterior por el propio aire espirado que ha causado la vibracin. Dependiendo del tipo de sonido, las cuerdas vocales pueden vibrar o no y as tendremos una seal cuasiperidica o aleatoria.
Figura 1: Imagen del aparato fonador y elementos articuladores
Controlando a voluntad los elementos articuladores se pueden modificar los sonidos en un amplio rango mediante 2 mecanismos: Filtrado: Modifica el espectro del sonido. Lo llevan a cabo la faringe, cavidad nasal y cavidad oral (tracto vocal). Constituyen resonadores acsticos que enfatizan
11
Ion Aritz Dallo
determinadas bandas frecuenciales. Estas bandas se denominan formantes o picos de resonancia. Articulacin: Se trata de la modificacin de las formas, posiciones y tensiones de los elementos del aparato de fonacin. Esto supone interponer un obstculo para la circulacin del flujo de aire. Se enfatizan diferentes armnicos, pudiendo diferenciarse los distintos fonemas. Los elementos articuladores son los labios, dientes, alvolos, paladar, lengua y glotis.
PARTICULARIDADES DE LA VOZ HUMANA
La voz humana presenta unas particularidades que nos ayudan a la hora de su anlisis. Las seales de voz se caracterizan por ser no estacionarias y con variaciones lentas en el dominio del tiempo y se procesan normalmente en segmentos de tiempo cortos, entre 20 y 40 ms, siendo tpicamente 30 ms. Es por ello que el anlisis de la seal de voz se realiza por tramas y no toda la seal a la vez. Si se consideran tramos cortos de la seal de voz, sus propiedades permanecern semipermanentes. Se puede tomar entonces cada tramo como si hubiese sido generado por la excitacin de un sistema lineal invariante temporal. Esta seal de excitacin es un tren de pulsos cuasiperidicos o ruido aleatorio. En la Figura 2 podemos ver una ventana de duracin 60 ms de una seal de voz sonora. En ella se puede apreciar la cuasi-periodicidad.
Figura 2: Ventana de 60 ms de una seal de voz
12
Ion Aritz Dallo
En estos segmentos la seal puede aproximarse a una seal cuasiestacionaria y cada segmento o trama puede ser clasificada como sonora o sorda. Los sonidos sonoros tienen una naturaleza cuasiperidica en el dominio del tiempo y una estructura armnica fina en el dominio de la frecuencia, provocada por la vibracin de las cuerdas vocales. Adems, su espectro decae hacia altas frecuencias. Su energa es alta debido a que el aire encuentra poca obstruccin al pasar por el tracto vocal. Estas caractersticas pueden observarse en la figura 3.
Figura 3: Seal de voz sonora en tiempo y su espectro en frecuencia en dB
Los sonidos no sonoros tienen una estructura tpica aleatoria, sin periodicidades marcadas en el dominio del tiempo y un espectro mucho ms compensado en frecuencia, sin los picos de energa de los armnicos (Figura 4).
13
Ion Aritz Dallo
Figura 4: Seal sorda en tiempo y su espectro en frecuencia en escala en dB
Frecuencia de pitch
El periodo de los segmentos sonoros se caracteriza por un pitch o frecuencia fundamental en el dominio de la frecuencia. Este pitch es un parmetro importante para algunos algoritmos de codificacin de voz. Se puede identificar como la periodicidad de los picos de la amplitud en la forma de onda y la estructura fina del espectro. Las frecuencias de pitch de hombres y mujeres normalmente se encuentran en el rango 50-250 Hz (4-20 ms) y 120-500 Hz (2-8,3 ms), respectivamente [L. Rabiner, B.H. Juang].
14
Ion Aritz Dallo
Figura 5: Seal sonora en tiempo y la magnitud del espectro en escala lineal
Formantes Los sonidos sonoros consisten en una frecuencia fundamental (frecuencia de pitch) y una serie de componentes armnicos de la misma, producidos por las cuerdas vocales. El espectro de la seal de voz vara con el tiempo debido a las variaciones en la forma y en la posicin del tracto vocal. Los formantes son las frecuencias de resonancia del espectro, es decir, los picos de la envolvente del espectro de la seal de voz que representan las frecuencias de resonancia del tracto vocal. En seales de voz esas frecuencias dependen del tamao y de la forma del tracto vocal. As pues, los formantes caracterizan a un sonido frente a los dems, y son los que nos permiten distinguir a las personas. En un fonema, los ms importantes son los 3-4 primeros formantes, que son los que tienen la mayor parte de energa (Figura 6).
15
Ion Aritz Dallo
Figura 6: Formantes de la seal de voz en el espectro
CODIFICACIN DEL MENSAJE DE VOZ
La informacin a codificar en el mensaje hablado se puede dividir en 2: 1. 2. El mensaje: La voz puede representarse como una concatenacin de fonemas. Informacin aadida: El mensaje oral no slo son fonemas. Sino que son tambin la identidad del hablante, su estado anmico, la velocidad del habla, la intensidad, entonacin, etc. Sirven para que la informacin sea completa. Para que estos sistemas funcionen correctamente es importante por una parte que preserven el mensaje para que no se reciba un mensaje distorsionado. Pero por otra existe un compromiso tecnolgico, en el que el mensaje debe ser presentado de forma conveniente para su almacenaje, transmisin y manipulacin. Los sistemas de transmisin de voz sobre telefona (por cable o fija) y ms concretamente los ms modernos de voIP, disponen de BW finito. Existen 3 grandes grupos de representacin de la seal de voz: 1. Representacin de forma de onda: Pretende mantener la forma de onda original de la seal analgica. Se basa en procesos de muestreo y cuantificacin. 16 la
Ion Aritz Dallo
2.
Representaciones hbridas: Utilizan un modelo de produccin de voz modificado para obtener una calidad intermedia entre los dos anteriores. A este tipo de representacin pertenece el vocoder homomrfico creado en este proyecto.
3.
Representacin paramtrica: Considera la seal de voz como la salida de un sistema de produccin de voz, que puede ser representado por un conjunto de parmetros. Es el modelo que se utiliza en los vocoders tipo LPC. (a) Parmetros de excitacin. (b) Parmetros de respuesta del tracto vocal.
Figura 7: Diferentes tipos de representacin en funcin de la calidad y tasa binaria
Como se puede observar en el grfico la relacin de requerimientos de BW aumentan con la calidad obtenida.
MODELO DE CREACIN DE LA VOZ

Se ha acordado que en general existen dos tipos de sonidos, sonoros y sordos. Estos se producen con diferentes excitaciones producidas por la exhalacin de aire y modificadas por las caractersticas del tracto vocal as como por la posicin que adoptan los elementos articuladores.
17
Ion Aritz Dallo
La generacin de voz puede modelarse por un sistema, con una seal de excitacin y un proceso de filtrado. Se utiliza por lo tanto un modelo convolucional en el que la seal de excitacin que es el aire que sale de los pulmones es filtrada por un filtro que simula el tracto vocal. Ambos, excitacin y tracto vocal, son variables en el tiempo. En el caso de los sonidos sonoros la excitacin es similar a un tren de pulsos glotales y en el caso de los sonidos sordos es similar al ruido. Los formantes corresponden a los polos de la funcin de transferencia. En general un modelo slo polos representa bastante bien la mayora de las seales vocales. Sin embargo, la teora acstica dice que los sonidos nasales y sordos, con un contenido mayor en altas frecuencias necesitan polos y zeros para ser representados correctamente [L.R.Rabiner/R.W Schafer].
Figura 8: Modelo completo del aparato fonador
No obstante los efectos de los zeros se pueden representar incluyendo ms polos.
El modelo solo polos en el que:
Figura 8: Modelo del aparato fonador slo polos
18
Ion Aritz Dallo
Este es el modelo en el que se basan los vocoders paramtricos. La limitacin principal de un sistema de codificacin paramtrica, como puede ser el LPC, es la mala calidad de la seal de excitacin, e[n]. Esta seal se aproxima por pulsos con una frecuencia de pitch, para tramas sonoras y un generador de ruido blanco para tramas sordas. Adems para obtener la seal de excitacin se usan muestras anteriores. Es decir, se aproxima la seal de excitacin por una combinacin lineal de muestras anteriores. De esta forma, entre la seal de voz original y la que predecimos se comete un cierto error. En el caso del vocoder homomrfico la diferencia es que, en lugar de codificar la seal de excitacin como una aproximacin por tramas sonoras o sordas, esta, se codifica tal cual. Se obtiene directamente de la seal de voz s[n], por lo tanto no es necesario realizar una aproximacin. As, obtenemos una seal de excitacin mucho ms compleja y rica en matices, ms fiel a la original.
Figura 9: Modelo convolucional del con seal de excitacin completa e[n] Los resultados obtenidos con un decodificador homomrfico son mucho mejores como veremos en las pruebas, a costa de sacrificar necesidad de transmisin pues la tasa de bits aumenta considerablemente.
PROCESADO HOMOMRFICO
EL DOMINIO CESTRAL El objetivo del anlisis cepstral es separar la seal de voz en seal de excitacin y filtro lineal sin saber a priori nada acerca del filtro o la excitacin. La seal de voz s[n] es la convolucin de la
s[n] = e[n] * h[n]
19
Ion Aritz Dallo
Como se ha mencionado anteriormente, el procesado homomrfico permite pasar de una convolucin a una suma y extrar la seal seal de excitacin e[n] y el filtro lineal h[n] El esquema general del procesado homomrfico es el siguiente:
Donde x[n] es una trama de voz e y[n] es esa trama de voz en el cepstrum. Se habla de dominio cepstral para diferenciar del tiempo, y el eje horizontal representa Quefrency y no segundos o herzios. Cepstrum no es ms que una conjugacin de spectrum , as como Quefrency de frecuency. Para que este esquema funcione, es necesario encontrar el operador D que transforme dos seales combinadas convolucionalmente en dos seales combinadas aditivamente. Adems debe tener un operador inverso D .
-1
El operador D, lo vamos a obtener en 3 pasos: Transformada de Fourier: Permite pasar de una convolucin a un producto:
Logaritmo complejo: Permite pasar de un producto a una suma:
Transformada inversa Fourier: Permite la transformacin al dominio cepstral.
20
Ion Aritz Dallo
Esquemticamente este es el proceso:
La seal que se obtiene a la salida se denomina cepstrum complejo.
Cepstrum de la seal de voz Se ha mencionado ms arriba como es el modelo completo que usamos para representar el aparato fonador:
En el que V(z) incorpora la respuesta del tracto vocal y se modela como:
21
Ion Aritz Dallo
Y que segn la teora acstica: Para los segmentos nasales es una funcin solo polos. Para los nasales y sordos se usan polos y ceros.
R(z) representa el efecto de la radiacin y se modela como un nico cero:
G(z) incorpora el efecto de la glotis y se modela como un sistema slo ceros:
El cepstrum complejo es:
Si analizamos el cepstrum del tracto vocal para un sonido sonoro, slo polos, ser:
22
Ion Aritz Dallo
El cepstrum complejo del tracto vocal tiene las siguientes propiedades:
La distribucin de energa depende de los polos ck. La energa decae rpidamente conforma aumenta n. La energa por lo tanto esta concentrada alrededor del origen.
La excitacin es un tren de pulsos, en espectro un tren de deltas.
Su cepstrum ser:
Podemos deducir que son unas deltas espaciadas NP. Las propiedades del cepstrum de la excitacin son las siguientes:
23
Ion Aritz Dallo
La distribucin de energa depende de los coeficientes r. La energa se concentra en las deltas equiespaiadas Np.
En el siguiente esquema se puede apreciar como es la representacin de una seal en el espectro as como su separacin haciendo uso del procesado homomrfico (Figura 10).
Figura 10: Representacin del anlisis cepstral
CONSIDERACIONES COMPUTACIONALES Lo discutido aqu hasta ahora es conocido como el cepstrum complejo. Se computa a partir del valor de magnitud y de fase del espectro. El cepstrum real no tiene en cuenta el valor de la fase, slo la magnitud. Por lo tanto no es posible la reconstruccin de la secuencia a partir del cepstrum real. La transformada de Fourier, o Z, es un nmero complejo. Su logaritmo viene dado por:
24
Ion Aritz Dallo
Para calcular el cepstrum complejo se utiliza el logartmo complejo.
Tambin se puede calcular el cepstrum real, tomando slo la parte real del logaritmo, es decir, sin tener en cuenta la fase.
c[n] es de la forma:
25
Ion Aritz Dallo
El cepstrum real es til a la hora de analizar la voz humana pues su representacin en Quefrency permite discernir ms fcil la informacin necesaria para el clculo del pitch y as diferenciar una trama sonora de una sorda o para el anlisis de los formantes.
SEPARACIN DE LAS COMPONENTES EN EL DOMINIO CEPSTRAL (LIFTERING) La manera de extraer independientemente las caractersticas del tracto vocal y la excitacin es aislando cada parte usando una ventana en el quefrency. Este proceso se conoce como Liftering (La conjugacin del trmino filtering). En lneas anteriores se ha hablado sobre el cepstrum y se ha dicho que el tracto vocal lo compone la informacin cercana al origen mientras que la excitacin esta contenida en la parte alta del cepstrum, cerca de la posicin del primer pico y ms all. Se usarn ventanas para separar o filtrar los componentes del tracto vocal y la excitacin, las cuales se multiplican con el cepstrum en el proceso conocido como liftering. El tracto vocal esta contenido en las primeras muestras de quefrecncy, siempre ms abajo del primer pico, sobre las primeras 20-30 muestras. Se usar una ventana rectangular que es nula ms all de n0.
Donde NP es la posicin del primer pico.
Para la extraccin de la excitacin el proceso es el mismo, slo que la mscara es nula desde el origen hasta n0.
26
Ion Aritz Dallo
REGRESO AL DOMINIO TEMPORAL Una vez hemos separado la respuesta del tracto vocal y la seal de excitacin, debemos volver de vuelta al dominio temporal mediante en operador inverso D . El operador inverso D , que nos permite recuperar la seal original, se realiza tambin en 3 pasos: Transformada Z (o transformada de Fourier):
-1 -1
Funcin exponencial:
Transformada Z inversa (o de Fourier):
El esquema:
Esquema general de todo el procesado homomrfico
27
Ion Aritz Dallo
DIGITALIZACIN DE LA SEAL
En esta seccin se explicara los motivos por lo se que se ha elegido la frecuencia de muestreo de 8000 Hz con 16 bits de cuantizacin para las seales que se sometern a las pruebas
MUESTREO
La frecuencia de muestreo elegida para las seales usadas en este proyecto es de 8 KHz. De acuerdo al modelo de produccin de voz, la seal de voz no esta inherentemente limitada en banda. La amplitud de las altas frecuencias tiende a caer rpidamente. Se ha observado que para una seal sonora las altas frecuencias estn ms de 30 dB por debajo del pico del espectro para las frecuencias por encima de 4 KHz. Las seales no-sonoras o sordas no presentan esa cada tan pronunciada hasta los 8 KHz. Los primeros formantes (hasta el 4) habitualmente se localizan antes de los 3400 herzios. Por lo tanto bastar esa informacin para reconocer los fonemas y al interlocutor. Adems la transmisin telefnica tiene un efecto de paso bajo filtrando las seales a partir de 3,5 KHz. En la siguiente pgina se representa el espectro de una seal de conversacin tpica telefnica [L.R.Rabiner/R.W Schafer] (figura 11).
Figura 11: Efecto del filtro paso bajo de la lnea telefnica sobre la seal de voz
Por lo tanto, a efectos prcticos y computacionales, se asume que una frecuencia de muestreo de 8 KHz es suficiente para seales de transmisin telefnica, puesto que no compromete la inteligibilidad del mensaje.
28
Ion Aritz Dallo
Las figuras siguientes muestran el espectro de una seal mixta, Universidad Pblica de Navarra (Figura 12).
Figura 12: Seal en tiempo y su espectro con escala en dB
Se puede ver como la mayor parte de la energa esta contenida en bajas frecuencias, sobre los 500 Herzios, y en la zona de 2000 Herzios.
CUANTIZACIN
En realidad una cuantificacin de 8 bits (2^8=256 niveles) resulta pausible pero esta origina una seal con bastante ruido de cuantizacin, y poco margen dinmico. Para una seal de 8 bits el SNR es de
29
Ion Aritz Dallo
50 dB, por lo tanto lo usual es usar 16 bits de cuantificacin, lo que da 65536 niveles y un SNR de 98 dB. Tambin se emplean tcnicas de cuantificacin no lineales que dan una calidad excelente. Por lo tanto la entrada del programa tiene una seal digital a 8 KHz y 16 bits.
30
Ion Aritz Dallo
DESCRIPCIN DE LAS HERRAMIENTAS Y MTODO DE EVALUACIN

Este es el esquema general del vocoder homomrfico:
Figura 13: Esquema del vocoder homomrfico
Como se observa la seal original sufre un preprocesamiento previo al enventanado. Se calcula el cepstrum complejo de la seal y de ah se saca la seal de excitacin y el tracto vocal, que es lo que se usa para reconstruir la seal. El cepstrum real se usa para calcular la sonoridad y el pitch de la seal, as como para realizar un anlisis de los formantes del tracto vocal.
31
Ion Aritz Dallo
PREPROCESADO
Figura 13: Esquema del vocoder homomrfico Los pulsos glotales y los labios producen un efecto de prdida de energa a altas frecuencias, similar a un filtro paso bajo lo que se traduce en una cada sensible de energa a altas frecuencias. Este efecto es consecuencia de la friccin del aire en las paredes del tracto local y sobre todo debido al efecto de la radiacin en los labios. La energa disipada debida a la radiacin es proporcional a la parte real de la impedancia de la radiacin [L.R.Rabiner/R.W Schafer] (Figura 14). Adems tpicamente, los segmentos de voz tienen una curva espectral negativa. A esto hay que aadir que la audicin humana es ms sensible en la zona alrededor de los 2,5KHz, y hay que considerar que para la inteligibilidad de la voz esa es una zona crucial. Para contarrestar esta cada se aplicar una enfatizacin a las frecuencias altas de la seal de voz
32
Ion Aritz Dallo
Figura 14: Efecto de impedancia de la radiacin en la seal de voz Para que la seal de excitacin obtenida sea ms inteligible y compensar esa prdida en altas frecuencias se le aplica un filtro equalizador, que corrige la cada tpica y aplana el espectro. Esta aplicacin se realiza despus de que la seal de entrada se tiene digitalizada. Generalmente se usa un filtro digital de primer orden cuya funcin de transferencia es la siguiente:
Donde 0,9 a 0,95, valor que se escoge cercano a la unidad a fin de que la parte alta del espectro sea acentuada. La representacin en frecuencia del filtro de prenfasis mencionado se muestra en la figura nmero 15.
Figura 15: Filtro de preprocesado
En la siguiente figura se observa como el espectro se aplana considerablemente.
33
Ion Aritz Dallo
Figura 15: efecto del filtro de preprocesado sobre la seal de voz Como se observar ms adelante, la aplicacin de este enfatizador de altas frecuencias mejora los resultados obtenidos en la decodificacin.
ENVENTANADO
La seal se analiza en tramas regulares, para que las propiedades de la seal de voz se mantengan cuasi-estacionarias. El enventanado requiere que cada una de las tramas sea multiplicada por una funcin limitada en tiempo de tal manera que su valor fuera de ese intervalo sea nulo. De esta forma, el enventanado consiste en agrupar las muestras de la seal x[n] en bloques de N elementos y multiplicarlas por una ventana w[n].
34
Ion Aritz Dallo
Figura 16: Aplicacin de la ventana a la seal de voz
Cuanto ms rpidamente cambien las caractersticas de la seal, ms corta deber ser la ventana para poder detectar esos cambios en el tiempo. Por otra parte a medida que decrece la longitud de la ventana se reduce la resolucin frecuencial, es decir la capacidad de distinguir componentes cercanas en frecuencia. Por lo tanto aparece un compromiso en la seleccin de la longitud de la ventana entre la resolucin en tiempo y en frecuencia. Queda recogido en lneas anteriores que las caractersticas de la voz permanecen semi-estacionaias en periodos de tiempo cortos, normalmente comprendido entre los 10 y los 60 ms. Se trata por lo tanto de elegir una duracin temporal de la ventana que mantenga las propiedades de la seal de voz estacionarias.
Figura 17: Seal de voz y las diferentes ventanas Existen diferentes tipos de ventanas temporales. La ms tpica es la ventana rectangular. Otras ventanas son curvas, suavizndose en los bordes. Cada una de ellas tiene un efecto en el dominio espectral. Al multiplicar la seal por una ventana, la representacin frecuencial se ver alterada, y lo que en tiempo es una multiplicacin, en el espectro se convierte en una convolucin. x[n] w[n] X() * W()
35
Ion Aritz Dallo
La representacin espectral de la funciona ventana rectangular es una sinc.
Figura 18 : Representacin en mdulo de un seno convolucionado con un sinc.
Figura 19: Espectro de las diferentes ventanas Por lo tanto la representacin frecuencial de la seal se ver alterada por el rizado que produce la sinc. Los dems tipos de ventanas tienden a suavizar el rizado a costa de aumentar la anchura del lbulo central. En el diseo planteado esto no es crucial puesto que el anlisis no se centra tanto en el
36
Ion Aritz Dallo
dominio frecuencial si no en el cepstral. Sin embargo, es importante tener en cuenta el efecto que produce el enventanado de la seal.
CEPSTRUM COMPLEJO
En este paso es donde se hace todo el proceso de transformacin de la seal al dominio cepstral, liftering, y extraccin por separado de la seal de excitacin y del tracto vocal. Se seguir el proceso descrito en la seccin 3.
CODIFICADOR
Figura 20: Codificador homomrfico
La transformada inversa de Fourier permite pasar de tiempo a frecuencia. En este caso como la DFT ha sido alterada por el logaritmo la representacin es en el dominio cepstral. Adems como el cepstrum proviene del logaritmo de un espectro, es tambin simtrico. Por lo tanto slo interesa una parte, motivo por el que se ha dibujado la parte derecha del cepstrum. Para este ejemplo se usar una seal de voz sonora, la vocal a.
37
Ion Aritz Dallo
Figura 21: Seal de voz en tiempo a
El primer paso es enventanar la seal. Para el ejemplo se usar una ventana de 60 ms, que a la frecuencia de muestreo de 8 KHz da ventanas de 480 muestras.
Se observa claramente la periodicidad de la seal. En la siguiente figura se observa el mdulo de la DFT de la ventana. Al ser una seal sonora el espectro presenta mayor energa en bajas frecuencias.
38
Ion Aritz Dallo
Se aplica el logaritmo al espectro para el posterior paso al cepstrum.
El logaritmo es una versin comprimida del espectro, en el que han desaparecido los picos dominantes y la energa ya no se concentra en una zona concreta. El ltimo paso es aplicar una DFT inversa. Al aplicar el logaritmo al espectro no volvemos a tiempo sino al cepstrum
39
Ion Aritz Dallo
En la ltima grfica se pueden apreciar las caractersticas del cepstrum de la seal de voz. Estas caractersticas son las siguientes: La informacin del tracto vocal est contenido en las muestras cercanas al origen. La excitacin son los picos equiespaciados, de los que slo el primero es fcilmente reconocible en la muestra 75 ms o menos.
Una vez con la seal en el dominio cepstral, hay que crear unas ventanas con las que se har el proceso de liftering y se separaran el tracto vocal y la seal de excitacin. En el ejemplo, el tracto vocal se ha declarado como las primeras 30 muestras, as que se ha creado una ventana que es nula a partir de la muestra 31. Si se usan ms muestras para el tracto vocal, se entra en una zona del cepstrum donde la seal se empieza a mezclar con la seal de excitacin. Se pueden usar menos muestras para caracterizar el tracto vocal, pero cuantas ms informacin para modelar el filtro H(Z) mejor. Por lo tanto se ha de llegar a un compromiso y finalmente se ha decidido usar 30 muestras para el cepstrum, por que es un estndar
Se multiplica la mscara creada con el cepstrum (Figura 26)
Figura 26: Aplicacin de la ventana del tracto al cepstrum de la seal de voz (Mdulo)
Y este es el tracto vocal extrado del cepstrum real (Figura 27)
40
Ion Aritz Dallo
Figura 27: Cepstrum del tracto vocal
Para la extraccin de la seal de excitacin se crea una mscara con valores nulos para las primeras 30 muestras.
Figura 26: Aplicacin de la ventana para la extraccin del cepstrum (Mdulo)
Y este es la excitacin extrado del cepstrum real (Figura 29)
41
Ion Aritz Dallo
Figura 29: Excitacin en el cepstrum
Con la seal de excitacin y tracto vocal por separado en el dominio cepstral, se realizar el proceso inverso para llegar con las seales por separado al punto de partida, en el dominio tiempo.
DECODIFICADOR
Figura 36: Esquema del decodificador homomrfico
Ms adelante se presenta el ejemplo de una seal sonora (vocal a) y su deconvolucin en las componentes tracto vocal y excitacin as como su representacin en cepstrum, frecuencia, log de espectro y tiempo. La componente del tracto vocal correspondiente a las primeras 30 muestras del cepstrum.
42
Ion Aritz Dallo
Se aplica la DFT para obtener el logaritmo del espectro del tracto vocal. Es interesante apreciar que este logaritmo del espectro es una versin suavizada del logaritmo el espectro de la seal, y puede servir para localizar los formantes.
Para eliminar la transformacin logartmica usamos la funcin exponencial. Se puede observar que el espectro no ha variado mucho. El logaritmo tiene menos rango dinmico. Y por ltimo se aplica la transformada inversa para obtener la respuesta al impulso.
43
Ion Aritz Dallo
Se har el mismo proceso pero con la componente de excitacin del cepstrum. Aqu se obtiene la componente de la excitacin en el cepstrum. Se puede observar como la parte que falta es la correspondiente al tracto vocal.
Este es el logaritmo del espectro de la seal de excitacin. Se observa fcilmente la diferencia con el tracto vocal. La informacin se concentra alrededor de los picos.
Y aqu se muestra el espectro de la seal de excitacin tras aplicar la funcin exponencial. Se puede ver que es un espectro de una seal sonora, su frecuencia fundamental y los armnicos.
Y finalmente se obtiene la seal de excitacin en el dominio temporal.
44
Ion Aritz Dallo
Este es el proceso completo para separar la excitacin del tracto vocal y volver con las seales independientes al dominio del tiempo. El proceso para la obtencin de la seal de voz es filtar la seal de excitacin con el tracto vocal.
CEPSTRUM REAL
Figura 36: Esquema de la obtencin del cepstrum real
Anteriormente se ha comentado que para el clculo del pitch y la sonoridad era preferible analizar el cepstrum real. A continuacin se explica por qu. En la Figura 37, se realiza la representacin cepstral de la seal en tiempo enventanada mostrada en la primera grfica. Esta primera grfica corresponde a la ventana de la seal en tiempo. La segunda corresponde al cepstrum complejo y la tercera al cepstrum real.
45
Ion Aritz Dallo
Figura 37: Ventana temporal de la seal de voz, su cepstrum complejo y el real
En ambas grficas se puede observar la gran cantidad de informacin cerca del origen y ms alejado los impulsos aislados que caracterizan el tono (pitch), separados del origen la a la distancia de pitch. Los coeficientes de orden bajo (cerca del origen) son debidos a las caractersticas del tracto vocal y proveen informacin sobre la envolvente. Las rpidas variaciones de la parte superior del cepstrum representan las caractersticas de la excitacin de la trama de voz. El primer pico es el que da la informacin de pitch y es indicativo de la sonoridad de la trama. Los siguientes, que no tienen por que aparecer siempre, son los mltiplos de la fundamental y estn a la misma distancia entre ellos. En una secuencia sorda el cepstrum no muestra ese pico a la frecuencia fundamental, lo que nos indica que la trama no es sonora, no hay una excitacin peridica y por lo tanto carece de frecuencia fundamental o pitch.
46
Ion Aritz Dallo
SONORIDAD Y FRECUENCIA DE PITCH
Figura 32: Deteccin de picos en el cepstrum real para la obtencin del pitch y la sonoridad
Con la seal de excitacin real se calcula el pitch de la seal buscando la posicin del primer pico. Si lo hay, se califica la trama como sonora y se calcula la frecuencia de pitch. Si no lo hay, la trama se califica como sorda y no se calcula la frecuencia de pitch. En la figura 31 se observa que la trama de voz sonora tiene un pico cerca del origen. Pico que no aparece en la trama sorda. Por lo tanto estas propiedades del cepstrum pueden usarse para determinar la sonoridad o no de una trama de voz. La distancia del pico al origen sirve para determinar la frecuencia de pitch. La forma de estimar la sonoridad y el pitch es fcil. Se busca un pico en el cepstrum en la zona de la excitacin, que est a unas 50 muestras ms all del origen (recordar que ms o menos las primeras 30 corresponden al tracto vocal). Si el pico esta por encima de un umbral es pausible pensar que la trama ser sonora. La posicin de este sirve para determinar la frecuencia fundamental. No obstante la ausencia de este pico no es un fuerte indicativo de que la seal no es sonora. La fuerza e incluso la existencia de este pico dependen de muchos factores, incluyendo la longitud de la ventana y la estructura de los formantes de la seal. La amplitud mxima de este pico es la unidad. Este caso slo se da cuando hay dos periodos de la seal idnticos, situacin que nunca se dar en la seal de voz. Para voces masculinas, las cuales son ms graves y por consiguiente con un periodo mayor, es necesaria una duracin de la ventana mayor, sobre los 40 ms. Para voces con pitch ms alto es posible utilizar una ventana ms corta, lo que favorece que las caractersticas de la voz permanezcan cuasiestacionarias en la trama.
47
Ion Aritz Dallo
Tambin influye el tipo de ventana que se utilice. Por ejemplo es ms fcil que una ventana rectangular capture dos periodos enteros antes que una ventana Hamming, que por naturaleza tiende a suavizar los bordes.
Figura 38: Seal sonora con ventana de 40 ms y su cepstrum real
48
Ion Aritz Dallo
Figura 39: Seal sonora con ventana de 40 ms y su cepstrum real
Figura 40: Seal sorda con ventana de 40 ms y su cepstrum real 49
Ion Aritz Dallo
RECONSTRUCCIN DE LA SEAL
Figura 41: Convolucin entre e[n] y h[n] de la seal enventanada
Para reconstruir la seal original es necesario realizar la convolucin de la seal de excitacin con el tracto vocal. Este proceso se realiza trama a trama, y despus se concatenan todas las ventanas para obtener la seal decodificada. Esto permite evaluar y comparar los resultados trama a trama y con la seal entera.
MTODO DE EVALUACIN
Un mtodo sencillo de evaluacin de la seal decodificada es por comparacin con la seal original, pero este mtodo, aunque sencillo, es un mtodo subjetivo, por lo que necesitamos evaluar la seal de manera que obtengamos un valor que nos permita comparar los resultados de un vocoder y otro.
Como mtodo de evaluacin usaremos la relacin existente entre las 2 seales atendindonos al ratio seal-seal en dB (RSS dB) , que nos da un valor con el cual poder hacer comparaciones objetivas.
Anlisis de la tramas convolucionadas:
50
Ion Aritz Dallo
Figura 41: Obtencin del SRR ventana a ventana
Se realiza el anlisis SRR de cada trama y se dibujan en un grfico en tiempo. As se puede apreciar que evolucin sigue la calidad de la seal decodificada obtenida trama a trama.
Anlisis de la seal decodificada:
Figura 42: Obtencin de la seal decodificada y su SRR
En este paso se concatenan las tramas y se obtiene la seal decodificada. Se compara con la original y se realiza la evaluacin de SRR para obtener un parmetro de calidad objetivo.
51
Ion Aritz Dallo
RESULTADO EXPERIMENTAL
INTRODUCCIN
Una vez explicadas las tcnicas y las herramientas utilizadas se procede al anlisis de los resultados obtenidos. Adems se proceder al estudio comparativo entre el vocoder lpc y el homomrfico. Se pretende comparar y analizar:
Calidad subjetiva El ratio seal-seal (SRR) de la seal decodificada Anlisis trama a trama de SRR Cantidad de ancho de banda requerido en bits Impacto que produce el preprocesado de la seal Capacidad de deteccin de sonoro/sordo y clculo de pitch
El mtodo utilizado ser el siguiente: Se han grabado 10 frases cortas en las mismas condiciones por dos locutores, un varn y una mujer. Se aplicar a cada frase ambos vocoders y analizaremos 3 de las frases para ver el comportamiento de cada vocoder. Adems se elaborar una lista con los resultados de SRR para la seal completa para poder hacer una valoracin global. Para poder hacer las comparaciones se usar el mismo tipo de ventana en ambos vocoders, esto es una ventana rectangular. Para la comparativa de las 20 seales la duracin de la ventana se establecer en 30 ms para ambos vocoders.
52
Ion Aritz Dallo
SEALES UTILIZADAS EN EL ESTUDIO COMPARATIVO

Como se ha comentado son 20 seales. 10 frases cortas grabadas por una voz masculina y por una femenina. En ellas hay una mezcla de frases con una sonoridad ms o menos marcada, para que sea una batera de pruebas heterognea. Estas son las seales: 1. 2. 3. 4. 5. 6. 7. 8. 9. a e i o u Diccionario enciclopdico Sentimientos diferentes Estroboscpico Ingeniera tcnica de telecomunicaciones Maana soleada Produccin digital de voz y audio Sentimiento diferentes Universidad publica de Navarra
10. Vocoder homomrfico
De las 10 seales se han elegido 3 que sern las que se analicen con detalle.
53
Ion Aritz Dallo
PRIMERA SEAL
A e i o u
Figura 43: Seal a e i o u
El anlisis comenzar con una seal muy simple, son las cinco vocales. Todas ellas seales sonoras. Se puede observar la envolvente de cada una de ellas. El ataque pronunciado, y un decaimiento corto, sobre todo la o.
54
Ion Aritz Dallo
SEGUNDA SEAL
Vocoder homomrfico
Figura 44: vocoder homomrfico En esta grfica tambin se puede ver la separacin de las silabas, y sobe todo como antes de una consonante oclusiva como es la c (segundo 07), o fricativo como la f (segundo 18), hay un pequeo espacio por el cambio que hay que hacer en el modo de articulacin de la lengua y los labios, as como el ataque pronunciado que tienen. Tambin es posible distinguir la entonacin, pues las slabas acentuadas tienen mayor energa.
55
Ion Aritz Dallo
TERCERA SEAL
Maana soleada
Figura 45: Seal maana soleada.
La ltima seal es una frase en la que se mezclan vocales con bastantes consonantes sordas (oclusivas t y fricativas s). En la grfica de tiempo se diferencian fcilmente las dos palabras y tambin se puede apreciar como el principio de soleada al ser sonido sordo s tiene menor energa y no tiene un ataque pronunciado, como por ejemplo la vocal que viene despus o.
56
Ion Aritz Dallo
CALIDAD SUBJETIVA
En este primer anlisis se han escuchado tanto las seales originales como las decodificadas, y se ha realizado una primera valoracin subjetiva. Sin ninguna duda se puede decir que la balanza se decanta a favor del decodificador homomrfico. Las pruebas arrojan unos resultados objetivos que no admiten duda alguna. Las seales procesadas con el Vocoder lpc aunque se entienden, suena latosas, como si las pronunciase una mquina y adems la seal tiene una distorsin que hace complicado la identificacin del locutor. Sin embargo la reproduccin de las tramas sonoras y sordas se mantiene en lneas generales como en la original, exceptuando algunas tramas. Se puede decir que las frases son medianamente inteligibles. El Vocoder homomrfico es muy superior en cuanto a calidad se refiere. Las frases decodificadas se mantienen prcticamente fieles a la original. La inteligibilidad es muy buena, y se puede identificar fcilmente al locutor. Solamente se escucha un ruido que suena como un crack cclico, pero que apenas molesta.
ANLISIS DEL SRR DE LAS SEALES DECODIFICADAS
VOZ MASCULINA Seal aeiou vocoder sentimientos produccin estroboscpico maana diccionario artistas Decodificada cepstrum 25,4 15,6 5,0 5,1 16,6 10,8 9,9 2,6 Decodificada LPC -34,5 -36,2 -30,0 -31,9 -32,3 -32,4 -34,2 -31,4
57
Ion Aritz Dallo
Decodificada cepstrum
30,0
aeiou
25,0 20,0 RSS dB

vocoder estroboscopico m aana diccionario
15,0 10,0
produccin sentim ientos universidad artistas ingeniera
5,0 0,0 Seal
Decodificada LPC
0,0 -5,0 -10,0 RSS dB -15,0 -20,0 -25,0 -30,0 -35,0 -40,0
aeiou sentim ientos produccin estroboscopico m aana vocoder artistas diccionario universidad ingeniera
Seal
58
Ion Aritz Dallo
VOZ FEMENINA Seal aeiou vocoder sentimientos produccin estroboscpico maana diccionario artistas ingeniera universidad Decodificada Cepstrum 1,9 7,7 10,7 5,1 16,6 10,8 9,9 9,4 2,8 5,9 Decodificada LPC -30,5 -31,1 -22,4 -30,0 -35,2 -27,6 -30,8 -33,1 -37,2 -34,6
Decodificada Cepstrum
18,0 16,0 14,0 12,0 RSS dB 10,0 8,0 6,0 4,0 2,0 0,0 Seal
aeiou vocoder produccin universidad ingeniera sentim ientos m aana diccionario artistas estroboscopico
59
Ion Aritz Dallo
Decodificada LPC
0,0 -5,0 -10,0 RSS dB -15,0 -20,0 -25,0 -30,0 -35,0 -40,0
aeiou vocoder produccin estroboscopico sentim ientos m aana diccionario artistas universidad ingeniera
Seal
Los nmeros dejan claro que el vocoder que mejor calidad obtiene es el homomrfico, pues mantiene en todas las seales un valor de SRR positivo. Como era de esperar los valores SRR del vocoder lpc son negativos en todas las seales. No obstante es curioso como los resultados del vocoder lpc, aunque malos, mantienen unos valores constantes en todas las seales analizadas, hecho que no ocurre en el vocoder homomrfico, donde vemos una mayor variabilidad entre los resultados obtenidos. Tras ver los resultados de SRR para toda la seal se va a proceder al anlisis del valor SRR para las 3 seales trama a trama.
ANLISIS SRR TRAMA A TRAMA

En este apartado se analiza el comportamiento trama a trama. En los siguientes grficos se muestran las 3 seales y el valor SRR de cada trama con el vocoder homomrfico y con el lpc
60
Ion Aritz Dallo
PRIMERA SEAL
Decodificador lpc
Figura 46: 1 Seal en tiempo, la seal decodificada y el valor SRR de cada trama
61
Ion Aritz Dallo
Decodificador homomrfico
SEGUNDA SEAL
62
Ion Aritz Dallo
Decodificador lpc
63
Ion Aritz Dallo
TERCERA SEAL
64
Ion Aritz Dallo
Decodificador lpc
65
Ion Aritz Dallo
En lneas generales tambin se ve la superioridad del vocoder homomrfico, puesto que analizando trama a trama, el SRR es siempre positivo, exceptuando una o dos tramas, el vocoder lpc por el contrario en ninguna trama llega a tener un resultado SRR positivo. Sin embargo hay una aspecto en el que el vocoder lpc es mejor, y es que mantiene el SRR constante trama a trama, sin grandes saltos en su valor. El vocoder homomrfico aunque obtiene mejores resultados siempre, no es muy lineal trama a trama. Vemos tramas en los que el valor SRR obtiene mximos que no se vuelven a repetir en toda la seal, as como valores negativos que slo se dan en una o dos tramas. Lo que resulta fcil ver es que la seal decodificada con el vocoder homomrfico es muy parecida a la original, mientras que la decodificada del vocoder lpc, guarda menos parecido, y es normal pues la calidad es mucho peor. Al fin y al cabo, la seal de excitacin del decodificador lpc se compone se una serie de trenes de pulsos glotales para las tramas consideradas sonoras y ruido aleatorio para las tramas consideradas sordas. Esto resulta muy fcil de ver en las grficas. Se diferencian perfectamente 66
Ion Aritz Dallo
los tramos que han sido generados con una seal de excitacin compuesta por un tren de pulsos y los que han sido generados con ruido. Sin embargo, aunque la seal decodificada con el vocoder homomrfico parece idntica, no es as. Para verlo resulta ms til el anlisis del error cometido en la seal decodificada, en la que podemos ver que diferencias existen entre la seal original y la decodificada.
ANLISIS DEL ERROR
67
Ion Aritz Dallo
PRIMERA SEAL
Decodificador lpc
Figura 52: 1 Seal en tiempo, la seal decodificada y el error cometido
Decodificador homomrfico 68
Ion Aritz Dallo
SEGUNDA SEAL
69
Ion Aritz Dallo
Decodificador lpc
Ion Aritz Dallo
TERCERA SEAL
71
Ion Aritz Dallo
Decodificador lpc
Ion Aritz Dallo
En estas grficas se puede ver que aunque la seal decodificada con el vocoder homomrfico es ms fiel a la original tiene unas diferencias sutiles pero visibles. Se pueden ver unos picos en el error que mantienen una periodicidad. Esto es ese crack cclico que se escucha en la seal decodificada. Es muy difcil una separacin total en el dominio cepstral de la seal de excitacin y el tracto vocal, por que ambas se acaban mezclando en el punto de separacin como se vio en las grficas de las mscaras. Por eso la seal de excitacin no es exactamente igual a la original, y por lo tanto se acaba cometiendo un pequeo error. En la seal decodificada con el vocoder lpc se ve que la seal de error es parecida a la seal original, sin embargo lo que aparece en el error son los detalles rpidos en tiempo que no presenta la seal decodificada. En todo caso la seal decodificada es de baja calidad y por lo tanto es normal que el error sea bastante mayor que el del vocoder homomrfico.
73
Ion Aritz Dallo
La seal decodificada usando el vocoder lpc es de baja calidad incluso cuando apenas hay seal, es decir en los silencios. En la siguiente grfica se muestra la diferencia existente entre la seal original y la decodificada en una zona donde apenas existe seal alguna (Figura 55).
Figura 58: Diferencias entre la seal original y la decodificada con el vocoder lpcy el valor de RSS de cada trama Se observa como la grfica de la seal original se mantiene plana excepto un pequeo pulso. La seal decodificada sin embargo no dibuja el pulso correctamente y adems introduce ms ruido en forma de ondulaciones de baja amplitud donde la seal original no lo tiene. Esta trama corresponde con la n 73 en la grfica del SRR (17600/240 73). En el siguiente caso, se aprecia como en el lmite que separa una trama de otra, cada una de ellas se reconstruye con seales de excitacin totalmente diferentes. La primera trama considerada sorda y la siguiente sonora, y as, se forman unos cambios muy notables en la seal decodificada (Figura 56).
74
Ion Aritz Dallo
Figura 59: Diferencias entre la seal original y la decodificada con el vocoder lp, y el error de esta.
En este otro ejemplo se ve como la seal original no tiene una periodicidad muy marcada, de hecho pocas tramas guardan una periodicidad total. Como el vocoder lpc slo decodifica la seal usando un tren de pulsos o ruido rosa, este el resultado de una mala caracterizacin de la seal de excitacin (Figura 57).
75
Ion Aritz Dallo
Figura 60: Diferencias entre la seal original y la decodificada con el vocoder lpc
En la parte superior la seal original y debajo la decodificada con el vocoder lpc. Se puede ver que la trama decodificada es perfectamente peridica, creada por un tren de pulsos glotales con una frecuencia de pitch, al haber sido considerada la trama sonora. El vocoder homomrfico no tiene la limitacin del lpc a la hora de generar la seal de excitacin en el decodificador, pues el decodificador recibe la seal de excitacin entera, y no se limita a generar un tren de pulsos glotales o ruido aleatorio, obteniendo as unos resultados mejores. Sin embargo en las grficas de SRR trama a trama vemos que algunas de ellas obtienen un resultado negativo. Si hacemos zoom sobre las seales apreciaremos ligeras diferencias (Figura 61).
76
Ion Aritz Dallo
Figura 61: Anlisis de varias tramas decodificadas con el vocoder homomrfico La trama n 83 corresponde aproximadamente con las muestras anteriores a la n 20000 (20000/240 83). La trama n 89 que corresponde con las muestras entre la 20000 y la 25000 (89*240 = 21360), en la que si miramos detenidamente se observan diferencias sutiles.
77
Ion Aritz Dallo
IMPACTO DEL PREPROCESADO EN LA SEAL

En la programacin del vocoder homomrfico se ha usado un preprocesado que funciona parecido a un equalizador actuando positivamente en la zona de agudos. Aplana el espectro. Por las pruebas con resultados positivos realizadas en la programacin del vocoder homomrfico, el preproceso se introdujo en el cdigo. Sin embargo el vocoder lpc no implementaba este preproceso, por que el cdigo es anterior a este proyecto. No obstante para la comparativa se ha decidido integrarlo en el cdigo y que ambas pruebas sean con la misma seal. El resultado es impresionante, la calidad de la seal decodificada mejora muchsimo en el vocoder lpc. Para comprobar los resultados se mostraran a continuacin las grficas y los resultados de la seal vocoder homomrfico decodificadas con y sin preprocesado con ambos vocoders. Se muestra primero el resultado con el vocoder homomrfico. Seal decodificada preprocesada
Figura 62: 1 Seal en tiempo, la seal decodificada y el error cometido 78
Ion Aritz Dallo
Esta, Es la seal decodificada y el error cometido respecto a la original con el vocoder homomrfico usando el preproceso. Como se puede ver, es prcticamente igual, salvo zonas en las que el error es mayor. Debajo se muestra la misma seal decodificada y su error pero sin ser preprocesada la seal con anterioridad:
Seal decodificada sin preprocesar
Hay una mayor diferencia entre la seal original y la decodificada, y as se observa en el error, que es mayor tambin. Se puede decir que sin aplicar el preproceso a la seal original, la seal decodificada obtenida muestra mayores diferencias.
79
Ion Aritz Dallo
Seguidamente se encuentran los resultados con el vocoder lpc. Seal original vocoder homomrfico
Figura 64: Seal original
Seal decodificada con vocoder lpc aplicando el preproceso
Figura 65: Seal decodificada con vocoder lpc de la seal sin preprocesar
Seal decodificada con vocoder sin aplicar preproceso.
Figura 66: Seal decodificada con vocoder lpc de la seal preprocesada 80
Ion Aritz Dallo
No es necesario realmente ver el error cometido, puesto que la diferencia es muy notable. La seal decodificada sin preprocesar no mantiene la integridad de la seal. Slo esta compuesta por una especie de pulsos cuadrados, y la parte negativa casi desaparece. Sin embargo al aplicar el preproceso, la seal decodificada, an siendo todava bastante diferente a la original, empieza a tomar un parecido mayor. Se sigue manteniendo la limitacin del lpc, en forma de claras diferencias entre tramas sordas o sonoras para la seal de excitacin. Y para finalizar se mostrarn los resultados SRR de las seales decodificadas con ambos vocoders con la seal original sin preprocesar.
VOZ MASCULINA Seal aeiou vocoder sentimientos produccin estroboscpico maana diccionario artistas ingeniera universidad decodificada cepstrum 8,8 15,5 4,8 3,7 10,8 9,9 -0,6 21,8 -0,6 3,5 decodificada LPC -55,7 -60,8 -58,8 -59,6 -53,9 -55,0 -57,3 -51,4 -57,1 -55,6
81
Ion Aritz Dallo
Decodificada Cepstrum
25,0 20,0
vocoder artistas
15,0 RSS dB 10,0 5,0 0,0

diccionario ingeniera aeiou estroboscopico m aana sentim ientos produccin
universidad
-5,0 Seal
Decodificada LPC
-46,0 -48,0 -50,0 RSS dB -52,0 -54,0 -56,0 -58,0 -60,0 -62,0
sentim ientos produccin vocoder aeiou estroboscopico m aana diccionario artistas
universidad ingeniera
Seal
82
Ion Aritz Dallo
VOZ FEMENINA seal aeiou vocoder sentimientos produccin estroboscpico maana diccionario artistas ingeniera universidad decodificada cepstrum 7,1 17,5 -2,4 10,7 16,3 4,2 14,6 10,4 3,7 4,7 decodificada LPC -51,3 -45,3 -44,3 -49,1 -48,9 -45,5 -49,5 -48,9 -52,0 -50,6
Decodificada cepstrum
20,0 15,0
produccin vocoder
estroboscopico diccionario artistas
RSS dB
10,0 5,0 0,0 -5,0
aeiou m aana universidad ingeniera
sentim ientos
Seal
83
Ion Aritz Dallo
Decodificada LPC
-40,0 -42,0 -44,0 RSS dB -46,0 -48,0 -50,0 -52,0 -54,0 Seal
aeiou estroboscopico produccin diccionario artistas universidad ingeniera sentim ientos vocoder m aana
Se observa que la prdida en el vocoder lpc es asombrosa, pues pasa de estar en unos valores entorno a -30 dB a obtener -40 dB en el mejor de los casos y ms de 60 dB negativos en el peor. Con las seales del vocoder homomrfico los cambios no son tan acusados, y adems no se observa una relacin general, pues algunas seales obtienen resultados peores y otras sin embargo peores. Lo que esta claro es que este proceso que no tiene coste computacional, ni impacto en la cantidad de informacin enviada, mejora de forma general el proceso de codificacin-decodificacin. Tambin resulta interesante remarcar que el proceso de equalizacin realza las frecuencias donde se centra la inteligibilidad de la voz, entorno a los 2500 Hz. Esa zona es donde ms sensible es a la audicin del odo humano; es algo gentico, Los humanos son ms sensibles a las frecuencias del habla humana para poder entender y or mejor a otras personas. Hay que apuntar que se pierde un poco de volumen, pues la voz humana concentra gran parte de la energa a 500 Hz, cosa fcilmente solucionable. Para finalizar: en la comunicacin es ms importante la inteligibilidad, algo que el preprocesado ayuda a mejorar.
84
Ion Aritz Dallo
CANTIDAD DE INFORMACIN REQUERIDA PARA CODIFICAR LA SEAL

El vocoder lpc ofrece unos resultados muy pobres, pero en contrapartida los requerimientos de ancho de banda son muy escasos. Para codificar una trama de voz son necesarios slo 13 parmetros: Solamente 3 para la seal de excitacin Sonoridad: sonora/sorda. Pitch, en el caso de que sea sonora. Energa de la seal.
Y 10 para parametrizar el filtro del tracto vocal Respuesta al impulso del filtro lineal.
En el vocoder homomrfico se usan muchos ms. 30 son para modelizar el tracto vocal (los 30 primeros del cepstrum). N-30 para la seal de excitacin, donde N es dependiente de la ventana.
En los ejemplos mostrados con una ventana de 30 ms y seales a 8 KHz se obtienen ventanas de 240 muestras -30 del tracto vocal = 210. La diferencia es notable; se dedican 3 parmetros para la seal de excitacin en el vocoder lpc, por unos 200 en el vocoder homomrfico. En el tracto vocal la diferencia no es tanta, y adems se pueden utilizar ms de 10 parmtros en el vocoder lpc para el filtro H(z), como tambin se puede reducir el n de muestras representativas del tracto vocal en el cepstrum, a 25 o incluso 20. No obstante no es esto lo que marca la diferencia, sino la seal de excitacin usada en cada uno de los sistemas. El vocoder lpc esta muy limitado por la mala calidad de la seal de excitacin que se genera en el decodificador: Solamente hay dos posibilidades para cada trama, o un tren de pulsos glotales o ruido aleatorio, y la ganancia de cada una de ellas. Con los pocos parmetros disponibles no es posible aumentar la seal de excitacin. Habra que recurrir a otras tcnicas.
85
Ion Aritz Dallo
En el vocoder homomrfico es posible recuperar la seal de excitacin prcticamente intacta pues son pocos los valores que se pierden en la zona del cepstrum en la que se mezclan tracto vocal y excitacin, y as, la seal de excitacin es de mucha mayor calidad, y por consiguiente la seal decodificada.
CAPACIDAD DE DETECCIN DE SONORIDAD Y PITCH

Ambos vocoders usan tcnica diferentes para determinar la sonoridad o no de una trama. El vocoder lpc se basa en calcular la auto-correlacin de la tama, y el vocoder homomrfico determina la sonoridad a partir del cepstrum real. Se ha realizado una prueba comparativa con varias seales, y se ver como diferencian las tramas sonoras de las sordas y como evalan el pitch. Las primera seal probada es la ms sencilla de nuestro banco de pruebas, la seal a e i o u. Es una seal totalmente sonora, en la que ser fcil ver cuando detectan una trama sonora y cuando no. La segunda seal ser la frase maana soleada, que tiene una s al principio de la segunda palabra, y las dems tramas deberan ser sonoras. Y la ltima seal es Universidad Pblica de Navarra, que en general en una frase sonora con una s en medio de la primera frase, y bl en la mita de la segunda.
86
Ion Aritz Dallo
SEAL N 1 AEIOU
Picth cepstrum
Pitch lpc
87
Ion Aritz Dallo
SEAL N 2 MAANA SOLEADA.
Pitch cepstrum
Pitch lpc
88
Ion Aritz Dallo
SEAL N 3 UNIVERSIDAD PBLICA DE NAVARRA
Pitch cepstrum
Pitch lpc
89
Ion Aritz Dallo
En la primera seal se ve como el vocoder homomrfico recoge muy bien los espacios entre vocales como sordas, las vocales las interpreta como sonoras, exceptuando alguna trama de la vocal u, quiz por el bajo volumen de esta. El vocoder lpc aunque en lneas generales interpreta bien las vocales como tramas sonoras, tiene problemas en sealar los silencios como tramas sordas, de ah que algunas frecuencias de pitch sean algo raras, como la que marca en la trama 62 como 400 Hz, cuando posiblemente esa trama sea sorda, pues pertenece al final de la o. La segunda seal es ms complicada, y aqu ya se pueden ver las deficiencias de la autocorrelacin, pues donde el vocoder homomrfico detecta muy bien los silencios y la s de soleada como tramas sordas, el vocoder lpc no, y marca muchas tramas como sonoras cuando no lo son. En clculo del pitch, las tramas en las que coinciden ambos vocoders en calificar como sonoras, el resultado es igual.
Y en la tercera seal, ms larga y por ello ms compleja, el vocoder homomrfico sigue diferenciado muy bien los silencios de la seal, y tanto la s, como bl las interpreta como sordas, y el vocoder lpc tiene los mismo problemas que antes, confusin con los silencios.
En lneas generales, el vocoder homomrfico, valindose del cepstrum real, comete menos errores que el lpc. Lpc usa la auto-correlacin de la trama como mtodo de distincin sorda/sonora, mtodo que tiene problemas para declarar correctamente las tramas sordas. Esto se debe a que la autocorrelacin compara la seal consigo mismo, y en una trama en la que hay silencio, la forma de onda es muy bsica y no presenta las aleatoriedades del ruido o una seal sorda, sino ms bien pequea ondulaciones que pueden crear una falsa trama sonora.
90
Ion Aritz Dallo
CONCLUSIONES Y LNEAS FUTURAS
CONCLUSIONES
Al margen de los objetivos concretos del presente proyecto, cualquier estudio o proyecto de investigacin tiene como objetivo principal llegar a ciertas conclusiones sobre el tema estudiado. Recordando los objetivos de este proyecto, se buscaba disear un vocoder basado en el anlisis cepstral, que mejorara la calidad de las seales decodificadas, respecto a un vocoder lpc, y realizar una comparativa entre ambos. Adems se intent ver si el anlisis cepstral resultaba una herramienta til en la clasificacin clsica de tramas en sonoras o sordas y en la determinacin del pitch.
Se ha dicho que la seal de voz se puede expresar como la convolucin de una seal de excitacin y un filtro que modela el trato vocal, y ambos cambian en el tiempo. La posibilidad que brinda el procesado Homomrfico junto a las propiedades de la seal de voz, permiten realizar una transformacin de la seal en tiempo al dominio cepstral y volver al tiempo mediante el proceso inverso, sin que la seal sufra degradacin, pues es una transformacin lineal. En el dominio cepstral se ha visto que el tracto vocal se concentra en la zona ms cercana al origen, y tiende a desaparecer con n grandes, mientras que la seal de excitacin se compone de unos picos que aparecen en el cepstrum ms all de las primeras muestras.
La separacin en el dominio cepstral mediante ventanas de la seal de excitacin y el tracto vocal, y su posterior convolucin ha demostrado ser una tcnica que consigue unas seales decodificadas de mucha mayor calidad que lo que consigue el vocoder lpc. La principal razn es que la seal de excitacin no hay que generarla en el decodificador, pues gracias al anlisis cepstral conseguimos sacarla de la propia seal de voz.
As pues en lugar de tener una seal de excitacin simple, tenemos toda la seal de excitacin con todos sus matices. Al filtrar la seal excitacin con el filtro que modela el tracto vocal (al volver a convolucionar) obtenemos una rplica muy buena de la seal original. Esto conlleva que la demanda en cuanto a ancho de banda sea mucho mayor tambin, pues con el vocoder lpc, slo se necesitan 3 parmetros para reconstruir la seal de excitacin, y en vocoder homomrfico se la seal entera.
91
Ion Aritz Dallo
No obstante aunque la tendencia general es positiva, los resultados obtenidos muestran muchas diferencias entre las diferentes seales de prueba utilizadas, hecho que no curre con el vocoder lpc, donde los valores de SRR son malo, pero igual de malos para todas las seales.
Tambin cabe destacar que el comportamiento del vocoder homomrfico no se ve alterado por una seal de voz de pitch ms alto como puede ser la de una mujer. Los resultados con la seal de voz femenina siguen un patrn parecido.
Uno de los descubrimientos de este proyecto ha sido el filtro de preprocesado de la seal. El vocoder homomrfico no necesariamente se beneficia de l, puesto que sin aplicar preprocesado a la seal de entrada, los resultados ya son buenos. Sin embargo donde ms se nota este proceso en el vocoder lpc. Los resultados obtenidos con el vocoder con la seal preprocesada han mejorado notablemente haciendo la seal decodificada ms inteligible y adems no incrementa las necesidades de ancho de banda.
Por ltimo el cepstrum real ha demostrado ser una herramienta mejor para la clasificacin de las tramas en sonoras o sordas, por que el mtodo de la autocorrelacin tiende a clasificar algunas tramas que son silencio como sonoras. De querer usarse este mtodo, sera conveniente acompaarlo con algn criterio ms como el clculo de la energa, para descartar aquellas tramas en las que hay silencio pero que han sido consideradas como sonoras.
LNEAS FUTURAS
En este proyecto se ha analizado el procesado homomrfico para la separacin de la seal de excitacin y tracto vocal de la propia seal de voz como tcnica de codificacin-decodificacin de esta. Se ha visto que resultados se obtienen del anlisis cepstral y se ha realizado una comparativa con un vocoder lpc. Se ha podido comprobar el potencial del procesado homomrfico y las posibilidades que ste brinda, y a la vista est que la calidad obtenida es muy buena, sin embargo, sigue habiendo ruido y clicks en la seal decodificada, ruidos, que posiblemente se deben a que la separacin en el dominio cepstral del tracto vocal y la seal de excitacin no es del todo limpia. Para mitigar estos problemas se podra 92
Ion Aritz Dallo
trabajar en una mejora del proceso de separacin, por ejemplo usando ventanas diferentes a la rectangular. En la presente memoria se ha hablado del enventanado y los efectos que tiene sobre la seal, as como las diferentes ventanas existentes, y quiz aplicando alguna ventana que reduzca el peso de las muestras d los extremos se pueda lograr que la s interferencias entre tracto vocal y seal de excitacin en el cepstrum desaparezcan. En lo que respecta al ancho de banda necesario, es un aspecto importante en cualquier vocoder y por lo tanto siempre es importante intentar reducir la cantidad de informacin pero con la menor prdida posible en la calidad. En ese aspecto se puede trabajar en el dominio cepstral, en la parte que ocupa la excitacin, reduciendo la cantidad de muestras, pues la seal de excitacin es la que mayor cantidad requiere para ser transmitida, mucho ms que el tracto vocal Una reduccin de la cantidad de muestras de la excitacin traer consigo una reduccin tambin en la calidad final, por lo tanto hay que valorar con cuantas muestras podemos trabajar y donde esta el lmite que compromete la calidad. Para este fin se puede implementar la tcnica de anlisis por sntesis, partiendo por ejemplo de la mitad o un cuarto de las muestras totales e ir comprobando hasta que punto sale rentable aadir ms muestras de la excitacin en el cepstrum y as reducir la cantidad de informacin en el codificador. Otra tcnica que se puede probar en la direccin de intentar reducir la cantidad de informacin transmitida es aplicar la teora de la repuesta psicoacstica. La audicin humana es sabido que no es lineal con la frecuencia, y adems debido al enmascaramiento un sonido deja de percibirse debido a la presencia de otro, por lo tanto se podra probar estas tcnicas que al fin y al cabo consisten en la compresin de la seal sin prdida aparente de calidad.
93
Ion Aritz Dallo
BIBLIOGRAFA
L. Rabiner, R.W. Schafer, Digital Processing of Speech Signals. Prentice-Hall, 1978.
T. F. Quattieri, Discrete-Time Speech Signal Processing. Principles and Applications. Prentice-Hall, 2002.
A. Spanias, T. Painter, V. Atti, Audio Signal Processing and Coding. Wiley, 2006.
R. Goldberg, L. Riek, A practical handbook of speech coders. CRC Press, 2000.
D. OShaughnessy, Speech Communications. Human and Machine (2nd. Ed.). IEEE Press 2000.
B. Gold, N. Morgan, Speech and audio signal processing. John Wiley & Sons, 2000.
L. Rabiner, B.H. Juang, Fundamenatls of speech recognition. Prentice-Hall, 1993.
A. V. Oppenheim, A.S. Willsky, S. Hamid Nawab, Signals and Systems Second Edition. Prentice Hall. 1997.
S. S. Soliman, M.D. Srinath, Continuous and Discrete Signals and Systems Second Edition, PrenticeHall, 1998.
S. Haykin, B. Van Veen, Seales y Sistemas Limusa Wiley, 2001.
F. G. Stremler, Introduccin a los sistemas de comunicaciones Adisson-Wesley, 1990.
J. G. Proakis, D . Manolakis, Tratamiento Digital de Seales, Tercera Edicin. Prentice-Hall, 1998.
A. V. Oppenheim, Discrete-time Signal Processing, Prentice-Hall, 1989.
94

Vocoder

Diunggah oleh

Informasi Dokumen

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Vocoder

Diunggah oleh

Hak Cipta:

Format Tersedia

ESCUELA TCNICA SUPERIOR DE INGENIEROS INDUSTRIALES Y DE TELECOMUNICACIN

Titulacin : INGENIERO TCNICO DE TELECOMUNICACIN, ESPECIALIDAD EN SONIDO E IMAGEN

Ttulo del proyecto:

ESTUDIO SOBRE EL VOCODER HOMOMRFICO

Proyecto Fin de Carrera

Ion Aritz Dallo

OBJETIVOS REVISION TEORICA

Modelo de creacin de la voz Procesado homomrfico

DESCRIPCIN DE LAS HERRAMIENTAS Y MTODO DE EVALUACIN

Proyecto Fin de Carrera

Ion Aritz Dallo

Enventanado Cepstrum complejo

1.3. Reconstruccin de la seal

CONCLUSIONES Y LINEAS FUTURAS

Proyecto Fin de Carrera

Ion Aritz Dallo

Proyecto Fin de Carrera

Ion Aritz Dallo

Proyecto Fin de Carrera

Ion Aritz Dallo

En tiempo tenemos que:

s(n) = e(n) * h(n)

S() = E() H()

s(n) = e(n) * h(n)

(n) = (n) + (n)

Proyecto Fin de Carrera

Ion Aritz Dallo

La transformacin se hace mediante un operador D*:

[n] = D* ([n]) = D*(1[n] * 2[n]) = D*(1[n]) + D*(2[n]) = 1(n) + 2(n)

Una vez separados se puede deshacer la transformacin mediante el operador inverso D*

excitacin y el tracto vocal

s1 [n] * s2 [n] = s [n]

Proyecto Fin de Carrera

Ion Aritz Dallo

Seguridad: encriptacin de la informacin.

ESTADO DEL ARTE

Proyecto Fin de Carrera

Ion Aritz Dallo

Proyecto Fin de Carrera

Ion Aritz Dallo

Proyecto Fin de Carrera

Ion Aritz Dallo

PRODUCCIN DE LA VOZ HUMANA

Figura 1: Imagen del aparato fonador y elementos articuladores

Proyecto Fin de Carrera

Ion Aritz Dallo

PARTICULARIDADES DE LA VOZ HUMANA

Figura 2: Ventana de 60 ms de una seal de voz

Proyecto Fin de Carrera

Ion Aritz Dallo

Figura 3: Seal de voz sonora en tiempo y su espectro en frecuencia en dB

Proyecto Fin de Carrera

Ion Aritz Dallo

Figura 4: Seal sorda en tiempo y su espectro en frecuencia en escala en dB

Proyecto Fin de Carrera

Ion Aritz Dallo

Figura 5: Seal sonora en tiempo y la magnitud del espectro en escala lineal

Proyecto Fin de Carrera

Ion Aritz Dallo

Figura 6: Formantes de la seal de voz en el espectro

CODIFICACIN DEL MENSAJE DE VOZ

Proyecto Fin de Carrera

Ion Aritz Dallo

Figura 7: Diferentes tipos de representacin en funcin de la calidad y tasa binaria

[n] = D* ([n]) = D(1[n] 2[n]) = D(1[n]) + D(2[n]) = 1(n) + 2(n)