Anda di halaman 1dari 8

UCSP - Facultad de Ingeniera Ing.

Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

SEGUNDA UNIDAD: PROCESADO DE LA SEAL DE VOZ

2
Alumno(s):

Gua de Prcticas
HERRAMIENTAS BSICAS DE ANLISIS DE VOZ Y AUDIO

Grupo: ___________

Nota:

___________________________________________________ ___________________________________________________

I. Objetivos
En este laboratorio se explorarn una serie de tcnicas de anlisis de la seal de voz, mediante las cuales se podrn extraer los distintos parmetros que caracterizan a este tipo de seales como: Obtencin de la energa. Estimacin de la frecuencia fundamental por medio de la funcin de autocorrelacin. Observacin de las caractersticas frecuenciales utilizando la transformada localizada de Fourier y el espectrograma.

II. Contenido terico


El contenido del laboratorio esta basado en la segunda Unidad del curso. Dado que la seal de voz no es estacionaria, es decir, sus caractersticas varan con el tiempo, el procesado de la misma debe ser dependiente del mismo y por lo tanto requiere la utilizacin de ventanas. El tipo de ventana que se utilice, as como la longitud de la misma, jugarn un papel fundamental a la hora de interpretar los resultados obtenidos; es decir, existe siempre un compromiso entre la resolucin temporal y frecuencial de la duracin de la ventana que se pondr de manifiesto en esta prctica.

III. Cuestionario previo a. Cul es la diferencia entre energa y energa localizada que duracin temporal debe de poseer la
ventana para que se pueda utilizar en el tratamiento de la seales de voz? ______________________________________________________________________________________

b. Qu es la funcin de Autocorrelacin, que aplicaciones tiene?


______________________________________________________________________________________

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

c. Grafique y encuentre su representacin matemtica de las siguientes ventanas: Bartlett (o


triangular), Blackman, Boxcar (o rectangular), Hamming, Hanning y Kaiser.? ______________________________________________________________________________________

IV. Equipos y materiales


Laboratorio: Electrnica y Comunicaciones Equipos y dispositivos: Ordenador Personal Micrfono Auricular Software: Matlab, Toolbox de Adquisicin de Datos

V. Actividades
Actividad 1: ENVENTANADO
El enventanado de una seal consiste en la seleccin de un segmento de la misma que ser el que posteriormente se estudie; para ello se multiplica la seal s(n) por una ventana w(n), que debe tener las siguientes propiedades: Ha de ser suficientemente corta para que las propiedades de la seal de voz no varen durante la misma. Ha de ser suficientemente larga para proveer la informacin necesaria para estimar los parmetros deseados.

Las prestaciones de las distintas ventanas dependen de las siguientes caractersticas: Longitud de la ventana (o anchura del lbulo principal, en el dominio de la frecuencia). Forma de la ventana (o amplitud relativa de los lbulos secundarios respecto al principal, en frecuencia). El enventanado de una seal s(n) implica una operacin de convolucin en el dominio de la frecuencia, es decir:

Donde y(n) es la seal enventanada y * denota la operacin de convolucin.

En MATLAB implemente mediante un archivo M las siguientes ventanas: Bartlett (o triangular), Blackman, Boxcar (o rectangular), Hamming, Hanning y Kaiser. Use comandos como hann, y para tener una idea del resultado use el comando wvtool.

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

Dibuje sobre una misma figura las distintas ventanas en el dominio temporal y observe los distintos perfiles. Haga lo mismo que en el punto anterior pero en el dominio de la frecuencia (utilice una fft cuya longitud sea potencia de 2). Preguntas: a. Cul es la ventana que introduce menor distorsin en este dominio temporal? ______________________________________________________________________________________ ______________________________________________________________________________________

b. Cul es el inconveniente de la ventana rectangular en este dominio?.


______________________________________________________________________________________ ______________________________________________________________________________________

Actividad 2: ENERGA LOCALIZADA


En general, cualquier anlisis localizado en el dominio del tiempo sobre una seal se puede expresar de la siguiente manera:

Donde T[s(n)] es una transformacin (posiblemente no lineal). En el caso de la energa T[s(n)] toma la forma:

La energa de la seal vara dependiendo de si el tramo es sonoro, sordo o se trata de silencio.

Fig.1 Representacin conjunta de forma de onda y energa

Grabe en Matlab una seal de voz ejemploVoz.wav de una duracin de 2 segundos.

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

Determine su energa en cada instante utilizando ventanas de hamming de igual longitud; utilice para ello una funcin llamada energa. Cambie la longitud de la ventana y compare la energa encontrada con el anterior paso.

Cree un archivo M que clasifique la seal de voz en 3 niveles, segn la cantidad de energa que poseen cada trama de la seal los niveles se clasificaran como sonoro, sordo y ruido. Preguntas:

a. Qu ocurre si la ventana es demasiado grande o demasiado pequea?


______________________________________________________________________________________ ______________________________________________________________________________________

b. Qu tipo de ventana utilizara si quisiera detectar cambios bruscos y de corta duracin en la


seal?. ______________________________________________________________________________________ ______________________________________________________________________________________

Actividad 3: ESTIMACIN DE LA FRECUENCIA FUNDAMENTAL


Para la estimacin de la frecuencia fundamental se puede utilizar la funcin de Autocorrelacin, que no es ms que una medida del parecido de la seal consigo misma desplazada un nmero de muestras k. As, para tramos sonoros (es decir, cuasi-peridicos), cuando el desplazamiento k coincide con el periodo fundamental la autocorrelacin alcanza un mximo; por tanto, podremos determinar el periodo a partir de la posicin del mximo correspondiente. Concretamente, la funcin de autocorrelacin (localizada) Rn (k ) viene definida por:

Grabe en Matlab un fichero llamado ejemplosonoro.vaw que corresponder a una trama sonora de seal de voz. Utilice la funcin xcorr para calcular su autocorrelacin localizada (tenga en cuenta que la longitud de la ventana escogida debe ser lo suficientemente grande como para abarcar varios periodos de la seal de voz en los tramos sonoros; de lo contrario, la periodicidad de la seal no se reflejar en la autocorrelacin). La funcin Rn (k) es simtrica y por tanto slo se muestra la parte positiva de la misma. Observe cmo cuando la seal de entrada es peridica, la funcin de autocorrelacin presenta picos separados precisamente igual al periodo fundamental. Encuentre la frecuencia fundamental de su voz, a partir de la funcin de Autocorrelacion y un mapeo, espacio de muestreo temporal. Repita ahora el ejercicio anterior con un tramo sordo grabado en el fichero ejemploSordo.wav; observe que la autocorrelacin decae muy rpidamente.

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

Periodo de la Fo

Fig.2 Seal de Autocorrelacin de un tramo de seal sonora

Preguntas:

a. Qu frecuencia posee el tono fundamental de su voz, comprelo con el de su compaero?


______________________________________________________________________________________ ______________________________________________________________________________________

b. Qu ocurre cuando se calcula la autocorrelacion de una seal de ruido?.


______________________________________________________________________________________ ______________________________________________________________________________________

Actividad 4: TRANSFORMADA DE FOURIER LOCALIZADA Y ESPECTROGRAMA


Al igual que las caractersticas anteriores, la transformada de Fourier tambin ha de calcularse localizada en el tiempo para el anlisis de la seal de voz; de tal modo que podamos observar sus caractersticas frecuenciales durante un corto periodo de tiempo (en el que podemos considerarla estacionaria), y su evolucin temporal. La transformada de Fourier localizada viene definida por:

Como es sabido, en la seal de voz pueden distinguirse dos contribuciones: por una parte, la del tracto vocal, responsable de la estructura de formantes, y por otra, la de la excitacin, que proporciona la estructura fina (armnica en el caso sonoro) del espectro. La primera se caracteriza por tener una variacin lenta a lo largo del tiempo, mientras que la segunda, por el contrario es ms rpida. Por tanto, si la longitud de la ventana es corta no se podr observar la estructura armnica de la seal puesto que la resolucin en frecuencia es muy pequea; sin embargo, como la resolucin temporal es elevada se podrn detectar eventos de poca duracin sin ms que observar la evolucin de la transformada de Fourier con el tiempo. Por el contrario, cuando la longitud de la ventana sea grande obtendremos una mayor resolucin en frecuencia y podremos observar la estructura armnica (cuando exista); como contrapartida, la resolucin temporal ser pequea.

Utilice la funcin stft para obtener la transformada de Fourier localizada de la seal de voz ejemploSonoro.wav. Observe los efectos de utilizar ventanas de distintos tipos y longitudes.

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

Preguntas:

a. Qu efecto tiene el utilizar los diferentes tipos de ventanas, a su parecer cual sera la ventana
mas optima, compare los resultados de las diferentes ventanas? ______________________________________________________________________________________ ______________________________________________________________________________________

Actividad 5: EL ESPECTROGRAMA
Una de las representaciones ms utilizadas para el anlisis de la seal de voz es el espectrograma: se trata de una representacin en dos dimensiones de la transformada localizada de Fourier, Sn(ejw) con w en ordenadas, n en abcisas, y Sn(ejw) segn una escala de grises (o de colores). Dependiendo de la longitud de la ventana, se distinguen dos tipos de espectrograma: de banda ancha y de banda estrecha. La siguiente figura muestra un espectrograma de banda ancha (longitud de la ventana, 32 muestras):

Fig.3 Espectrograma de Banda Ancha

En l se puede observar cmo la resolucin frecuencial es pequea (de ah que se denomine de banda ancha) y, sin embargo, puede verse cada periodo de la seal siguiendo su evolucin temporal, como consecuencia de la mayor resolucin en este dominio. A continuacin, se muestra un espectrograma de banda estrecha (longitud de la ventana, 512 muestras):

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

Fig.4 Espectrograma de Banda Angosta

Aqu, por el contrario, se pueden observar los armnicos de la frecuencia fundamental como lneas horizontales, y los distintos formantes como zonas ms oscuras.

Utilice la funcin spectrogram para obtener un espectrograma de banda ancha y otro de banda estrecha de la seal de voz ejemploSonora.wav. Puede obtener una sensacin de mayor continuidad en el espectrograma aumentando el nmero de puntos de la fft calculada y el solapamiento temporal de las sucesivas ventanas de anlisis. Sin embargo, tenga en cuenta que no obtendr mayor resolucin, ya que se trata de una mera interpolacin.

Actividad 6: CRUCES POR CERO (ZCR)


La tasa de cruces por cero nos da una informacin vinculada al contenido espectral de la ventana que estamos analizando. Del anlisis de la tasa de cruces por cero sobre seales simples, podemos analizar su valor sobre diferentes sonidos. Representando, de forma anloga a como se hizo con la energa, la tasa de cruces por cero y la forma de onda veremos que en la seal de voz hay sonidos con baja tasa de cruces (las vocales, por ejemplo) y otros con una tasa alta (como las fricativas). Esta diferencia en valores de tasa de cruces por cero pone de manifiesto cmo los diferentes sonidos presentan distribuciones espectrales de energa diferentes. La formula de la ZCR es la siguiente:

Si queremos obtener el nmero de cruces por cero por segundo con una ventana rectangular podemos calcular como:

UCSP - Facultad de Ingeniera Ing. Telecomunicaciones Tratamiento de Seales Multimedia

2009-2 Ebert San Romn Castillo

Fig.5 Tasa de Cruces por cero de una seal de voz

En este sentido proponemos que se mida la tasa de cruces por cero de seales artificiales segn los dos casos siguientes: Caso A: una seal que sea un slo tono: y = cos(2*pi*(x)/25); Caso B: una seal compuesta por la suma de dos tonos (uno de baja frecuencia y otro de alta frecuencia) y = a1*cos(2*pi*(x1)/25) + a2*cos(2*pi*(x1)/4);

Medir la tasa de cruces por cero por tramas ya sean sonoras sordas y ruido.

Anda mungkin juga menyukai