Informef

ARIEL E.
STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL
Speech Enhancement via EMD

Kais Khaldi, Abdel-Ouahab Boudraa, Abdelkhalek Bouchikhi y Monia Turki-Hadj Alouane
1. el n umero de extremos y el n umero de cruces por cero puede diferir, a lo sumo, en uno; 2. el valor medio entre la envolvente denida a partir de los m aximos locales y la envolvente denida a partir de los m nimos locales es nulo. Para ser completamente descompuesta en IMFs, x(t) debe tener al menos dos extremos, un m nimo y un m aximo. A continuaci on, se describe el proceso de sifting: 1. jar un umbral y asignar j 1 (j - esimo IMF); 2. rj 1 (t) x(t) (residuo); 3. extraer el j - esimo IMF : a) hj,i1 (t) rj 1 (t), i 1 (i, n umero de sifts), b) extraer los m aximos y m nimos locales de hj,i1 (t), c) obtener las envolventes superior e inferior Uj,i1 (t) y Lj,i1 (t) interpolando, mediante splines c ubicas, los m aximos y m nimos locales de hj,i1 , respectivamente; d) calcular el promedio de las envolventes como: Uj,i1 (t) + Lj,i1 (t) , 2 e) actualizar hj,i (t) = hj,i1 (t) j,i1 (t), e i = i + 1; f ) calcular el siguiente criterio de detenci on: j,i1 (t) =
T
ResumenEn el presente trabajo se har a una revisi on y reproducci on de parte de las propuestas presentadas en el trabajo Speech Enhancement via EMD realizado por Khaldi et al. y publicado en Hindawi Publishing Corporation, EURASIP Journal on Advances in Signal Processing, Volume 2008.
I.
I NTRODUCCI ON
El realce de la calidad e inteligibilidad de las se nales de habla es un problema t pico de procesamiento de se nales, particularmente, cuando puede proponerse un modelo v alido de ruido gaussiano aditivo a la se nal de inter es. Cuando se cuenta con una estimaci on del ruido presente en la se nal, pueden llevarse a cabo m etodos lineales de ltrado tales como el dise no de un ltro de Wiener que posee, como ventaja, la facilidad al momento de su implementaci on pero no resulta capaz de procesar se nales de tipo impulsivas de corta duraci on. Como propuesta para superar estas limitaciones pueden emplearse m etodos no-lineales de procesamiento, tales como el umbralamiento de coecientes wavelet. Sin embargo, en este caso surge como limitante que, para una se nal dada, debe jarse un conjunto de funciones con respecto al cual se realizar a la descomposici on. En el trabajo analizado, se introducen dos estrategias de reducci on de ruido en se nales de habla basadas en la descomposici on emp rica en modos o EMD (del ingl es, Empirical Mode Decomposition). A diferencia de las anteriores, la EMD es una t ecnica de an alisis completamente guiada por los datos que realiza la descomposici on de una se nal en un conjunto de funciones AM-FM denominadas modos intr nsecos o IMFs (del ingl es, Intrinsic Mode Functions) a trav es de un proceso iterativo denominado sifting. Las ventajas fundamentales de esta descomposici on yacen en que, al tratarse de una t ecnica completamente guiada por los datos, no se realizan suposiciones de estacionariedad, linealidad y las funciones de la base respecto de las cuales se expresar a una funci on dada son provistas por la misma funci on. Si bien ambos m etodos est an basados en esta t ecnica, la diferencia de enfoque entre ellos radica b asicamente en la posibilidad de contar con una medida del nivel de ruido presente en las se nales a procesar. De ser posible esta estimaci on, surge la estrategia que los autores denominan EMD-MMSE y, de no serlo, EMD-Shrinkage. II. A LGORITMO DE EMD
SD(i) =
t=1 T
(|hj,i1 (t) hj,i (t)|2 /(hj,i1 (t))2 ), (|j,i1 (t)|2 /(hj,i1 (t))2 );
t=1
g) repetir los pasos desde 3b a 3f hasta que SD(i) < y luego asignar IMFj (t) hj,i (t) (j - esimo IMF); 4. actualizar el residuo: rj (t) = rj 1 (t) IMFj (t); 5. repetir el paso 3 con j = j + 1 hasta que el n umero de extremos en rj (t) sea menor o igual a 2; donde T es la duraci on temporal de x(t). El resultado del proceso de sifting es que x(t), la se nal a analizar, pueda ser escrita como
C
x(t) =
j =1
IMFj (t) + rC (t),
(1)
donde C es el n umero de IMFs y su valor depende de la elecci on del criterio de detenci on, en este caso, basado en SD(i). III. P LANTEO DEL ESQUEMA DE LIMPIEZA DE RUIDO Sea s(t) una se nal limpia de habla que ha sido contaminada por ruido blanco gaussiano aditivo b(t), de modo que: x(t) = s(t) + b(t) (2)
Como ya se introdujo, la EMD descompone una se nal x(t) dada en una serie de IMFs a trav es de un proceso denominado sifting. Por denici on una IMF, o simplemente modo, es una funci on que satisface dos condiciones:
ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL
La se nal ruidosa x(t) es descompuesta mediante EMD de manera que:

C
Finalmente, para obtener f j = [IMFj (t), j ], se lleva a cabo el umbralamiento en este caso de tipo hard de acuerdo a la siguiente regla: f j (t) = IMFj (t), 0, si |IMFj (t)| > j si |IMFj (t)| j (10)
x(t) =
j =1
IMFj (t) + rC (t),
(3)
donde IMFj (t) es una versi on ruidosa de la informaci on de inter es fj (t): IMFj (t) = fj (t) + bj (t) (4)
III-B.
EMD-MMSE
Una estimaci on f on j (t) de fj (t) basada en la observaci ruidosa IMFj (t) est a dada por: f j (t) = [IMFj (t), j ] , (5)
donde [IMFj (t), j ] es una funci on de preprocesamiento, denida por un conjunto de par ametros j , aplicada a IMFj (t). La funci on es escogida de acuerdo a si se cuenta con una caracterizaci on del nivel de ruido. Cuando esta estimaci on es posible se reduce a un ltro MMSE. Sin embargo, cuando esta estimaci on no puede llevarse a cabo, el pre-procesamiento puede ser un umbralamiento (o thresholding), en cuyo caso j es un par ametro asociado al umbral empleado. Finalmente, la se nal procesada, s (t), est a dada por:
C
El m etodo aqu presentado posee algunas modicaciones en la notaci on y algunos conceptos empleados respecto del presentado por los autores en el art culo analizado. Esta t ecnica, que surge de la combinaci on de EMD y el uso de un ltro MMSE, requiere de una estimaci on del nivel de ruido presente en la se nal. Para ello, los autores emplean el m etodo de Boll que consiste en la detecci on de los per odos de silencio existentes en la se nal a partir de los cuales se estima la densidad espectral de potencia (PSD1 ) del ruido. El m etodo consiste en tomar los M primeros frames de la se nal ruidosa considerados como momentos de silencio, estimar sus stas para dar una respectivas PSDs y, nalmente, promediar e estimaci on global de la PSD del ruido presente; esto es2 : k )|2 = |B( 1 M
M 1
|B(k , i)|2 ,
i=0
(11)
s (t) =
j =1
f j (t) + rC (t),
(6)
donde queda impl cito que el residuo no posee ruido en s . III-A. EMD-Shrinkage
Esta t ecnica, que surge de la asociaci on de EMD y el hard til cuando no es posible shrinkage, se hace particularmente u contar con una estimaci on del nivel de ruido presente en la se nal a procesar. Este caso podr a darse, por ejemplo, si se desea limpiar el registro de una vocal sostenida en el tiempo, en cuyo caso el per odo de silencio a partir del cual estimar el nivel de ruido presente podr a no existir directamente. El procesamiento consiste en aplicar, tiempo a tiempo, un umbral adecuado sobre cada uno de los modos obtenidos a trav es de la descomposici on. Para ello, debe formularse un modelo que represente c omo se descompone y distribuye el ruido sobre los modos obtenidos. En base a ello, se estiman estos umbrales como: j = 2 log (T )j , (7)
donde |B(k , i)|2 es el valor de la densidad espectral de potencia del frame i a la frecuencia discreta k , con k Z. nica Como puede verse, esta promediaci on resulta en una u PSD de ruido v alida para toda la se nal, esto equivale a plantear que el m etodo trabaja bajo la suposici on de ruido estacionario. Como ya se introdujo, esta estrategia se logra combinando sta consiste en procesar cada EMD y el ltrado MMSE. As , e uno de los IMFs con un ltro MMSE como sigue: j (k , m) = Hj (k , m) IMFj (k , m), F (12)
j (k , m) son el espectro del j donde IMFj (k , m) y F simo IMF ruidoso y el espectro de se e nal estimado en el j - esimo IMF, respectivamente, correspondientes al frame m. Hj (k , m) es descripta como3 : Hj (k , m) =
j) SNR( p (k , m) j) 1 + SNR( p (k , m)
(13)
j) j (k , m 1) y donde SNR( se calcula en base a F p (j ) SNRi (k , m), es decir, una estimaci on del espectro de se nal j) asociado al frame anterior y una estimaci on de la SNR( p instant anea, respectivamente: j) SNR( p (k , m) =
donde T es la longitud de la se nal y j es una estimaci on de la desviaci on est andar del ruido presente en el modo j . En base a otros trabajos, los autores proponen que, para j = 1: 1 = 1,4826 mediana {|IMF1 (t) mediana {IMF1 (t)}|} (8) Para el resto de los modos se propone una estimaci on de j en base a 1 de la forma: j = 1 2
j 1
j (k , m 1)|2 |F j (k )|2 |B
(j )
+ (1 ) max SNRi (k , m), 0 , (14)

ingl es, Power Spectrum Density. diferencia del m etodo presentado por los autores, por redundancia, k ). aqu se ha eliminado el ndice m de B( 3 A diferencia del m etodo presentado por los autores, aqu el m etodo se presenta con una Hj (k , m) diferente para cada modo.
2A 1 Del
, con j 2
(9)
donde es un factor de ponderaci on (en este caso, tomado (j ) igual a 0.98) y SNRi (k , m) se dene como4 : SNRi (k , m) = IV. IV-A. EMD-Shrinkage
(j )
12
10
|IMFj (k , m)| 1 j (k )|2 |B
(15)
SNRout, dB
R ESULTADOS
SNRout, dB
A continuaci on, se ilustran los resultados obtenidos a trav es de la implementaci on de esta t ecnica tal como lo sugieren los autores, con la diferencia que se tom o la funci on logaritmo en base 10 en la Ec. 7, donde se denen los umbrales correspondientes a cada modo. Se hace esta aclaraci on porque, si bien en el art culo analizado no est a dado de manera expl cita de qu e base se trata, revisando art culos relacionados como [1] se encontr o que en este tipo de m etodos se toma el logaritmo en base e. Sin embargo, los resultados aqu presentados emplean el logaritmo en base 10 dado que de esta manera se obtuvieron mejores relaciones se nal a ruido luego del procesamiento. Como medidas de desempe no, se emplean las relaciones de se nal a ruido a la entrada y a la salida denotadas respectivamente como SNRin y SNRout y denidas como: SNRin = 10 log10 SNRout = 10 log10
T 2 t=1 s (t) T 2 t=1 [x(t) s(t)] T 2 t=1 s (t) T s(t) s(t)]2 t=1 [
2 10
4 2 SNRin, dB
(a) Vocal /a/ sostenida.

9 8 7 6 5 4 3 2 1 0
(16) (17)
1 10
donde T , s(t), x(t) y s (t) son, respectivamente, la cantidad de muestras de las secuencias, la se nal limpia, la se nal ruidosa y la se nal reconstruida luego del procesamiento de los modos intr nsecos de x(t) = s(t) + b(t). En la Fig. 1 se muestran los resultados obtenidos mediante el m etodo EMDhard-Shrinkage sobre dos se nales limpias diferentes una frase y una vocal sostenida en las cuales puede verse c omo mejora la SNR como consecuencia del procesamiento. Para construir estas curvas, se consideraron 20 realizaciones de cada se nal por cada SNR a la entrada del m etodo. En la Fig. 2 se muestran superpuestas la evoluci on temporal de la se nal contaminada con ruido, la se nal limpia y la se nal procesada por este m etodo donde puede verse la reducci on de ruido, sobre todo en los per odos de silencio. Para este caso, se tom o una SNRin = 0 dB y se obtuvo una SNRout = 5,45 dB. EMD-soft-thresholding. Si bien en la introducci on del trabajo analizado se menciona como posibilidad y nalmente no se propone como m etodo, con una idea similar a la planteada en la Ec. 10, uno de los autores del art culo analizado hab a llevado a cabo en [2] el m etodo EMD-soft-thresholding, denido como: IMFj (t) j , si IMFj (t) > j 0, si |IMFj (t)| j f (18) j (t) = IMF (t) + , si IMF (t) <
j j j j
4 A diferencia de la SNR culo, aqu se le ha i (k , m) presentada en el art sustra do la unidad al cociente de PSDs, lo que da sentido a la comparaci on presente en el segundo t ermino de la Ec. (14). (j )
4 2 SNRin, dB
(b) Frase hablada.
Figura 1: Variaci on de la relaci on se nal a ruido (SNR) luego de aplicar el m etodo EMD-hard-Shrinkage.
SNRin=0dBhshrinkageSNRout=5.45dB
10
15 0 0.2 0.4 0.6 0.8 1 1.2 tiempo, s 1.4
seal ruidosa seal original seal mejorada 1.6 1.8 2
Figura 2: Evoluci on temporal de la se nal deseada y las se nales de entrada y salida asociadas al m etodo.
donde j viene dado por la Ec. 7. En la Fig. 3 pueden verse los resultados obtenidos mediante este m etodo sobre un conjunto de se nales generado de la misma manera que la empleada para el conjunto de entrada al m etodo EMD-hard-Shrinkage. Dado que el procesamiento de tipo soft modica la amplitud de los modos en todos los casos, es de esperar que el desempe no medido en t erminos de SNRout con respecto a

Vocal sostenidaEMDsshrinkage 7
5 SNRout, dB
0 10
4 2 SNRin, dB FraseEMDsshrinkage
(a) Vocal /a/ sostenida.

5 4.5 4 3.5 SNRout, dB 3 2.5 2 1.5 1 0.5 0 10 8 6 4 2 SNRin, dB
a cabo la descomposici on modal emp rica?, por qu e se plantea el modelo de ruido en la Ec. (8)?, a qu e se k , m 1) sin el sub reere y c omo se obtiene F( ndice j ? para qu e estima |B(k )|2 en la Ec. (7) si nalmente emplea |B(k , m 1)|2 en la Ec. (11) y |B(k , m)|2 en la Ec. (12)? En el primer t ermino de la Ec. (11), deber a haberse tomado el m odulo de cada uno de los espectros previo a elevar a potencia y realizar el cociente entre ambos. En el segundo t ermino de la Ec. (11), se toma la funci on max {SNRinst (k , m), 0}, donde SNRinst (k , m) viene dado de acuerdo a la Ec. (12) en la cual, una vez m as, se ve el error de no tomar el m odulo de los espectros en cuesti on. Adem as, por tratarse de un cociente de potencias, SNRinst ser a siempre un n umero real positivo y la expresi on max {SNRinst (k , m), 0} no tiene sentido a menos que la relaci on se nal a ruido involucrada se encuentre en dB o alguna otra medida relativa, hecho que en el art culo no es as . SOBRE EMD-S HRINKAGE V. D ISCUSI ON Las implementaciones que pudieron llevarse a cabo muestran que, desde un punto de vista objetivo basado en la medici on de la SNR, el m etodo EMD-Shrinkage muestra un buen desempe no. Sin embargo, dada la esencia del m etodo umbralar tiempo a tiempo cada modo se presentan grandes discontinuidades en la se nal reconstruida. De esta manera, desde un punto de vista perceptual, no resulta en una mejora sino en lo contrario. As , los resultados obtenidos personalmente contradicen ciertas armaciones que realizan los autores al introducir el m etodo EMD-Shrinkage donde establecen que a partir de este m etodo puede obtenerse una versi on m as suave de la se nal ruidosa y, hacia el nal de la secci on de resultados donde establecen que los dos m etodos presentados en su art culo producen menores ruidos residuales a la escucha y menor distorsi on del habla para todas las se nales analizadas comparadas frente al ltrado MMSE o el m etodo basado en wavelet. Si bien no se implement o el m etodo basado en wavelet para poder hacer la comparaci on correspondiente, puede decirse que la distorsi on de la se nal es tal que deja de percibirse el contenido de inter es que porta a la entrada del m etodo. VI. C ONCLUSIONES Pudo llevarse a cabo la revisi on de un art culo cient co particular y reproducir parte de los m etodos propuestos. Se encontr o que es necesario contar con bases aanzadas para llevar a cabo la interpretaci on correcta de las ideas propuestas. Desde las dicultades encontradas, se vio adem as la importancia que cobran aspectos como el rigor, la notaci on en stas expresiones matem aticas y aclaraciones pertinentes a e como herramientas o recursos para la comunicaci on clara de ideas, sobre todo en esta rama del conocimiento. R EFERENCIAS
[1] A.-O. Boudraa, J.-C. Cexus et al., Denoising via empirical mode decomposition, Proc. IEEE ISCCSP, vol. 4, 2006. [2] A. Boudraa, J. Cexus, and Z. Saidi, Emd-based signal noise reduction, International Journal of Signal Processing, vol. 1, no. 1, pp. 3337, 2004.
(b) Frase hablada.
Figura 3: Variaci on de la relaci on se nal a ruido (SNR) luego de aplicar el m etodo EMD-soft-thresholding.
SNRin (denidas seg un las Ecs. 17 y 16, respectivamente) empeore si se compara respecto a los resultados obtenidos con el procesamiento de tipo hard. IV-B. EMD-MMSE
En este caso no se ha podido reproducir el m etodo propuesto por los autores debido a serios errores de notaci on y falta de aclaraciones correspondientes a las variables involucradas. A continuaci on, se har an algunas observaciones con referencia a las ecuaciones numeradas seg un el art culo analizado: No queda clara la presencia del ndice m en la Ec. (7), es decir, se establece que se estima un espectro de potencia tomando el promedio sobre los M primeros frames temporales considerados momentos de silencio pero, a qu e se reere m?; No queda claro por qu e se presenta el modelo del nivel de ruido en los modos en la Ec. (8) si no se hace uso de ello o al menos no se establece c omo hasta la Ec. (13), ya correspondiente al m etodo EMD-Shrinkage (y no a EMD-MMSE); Por la notaci on empleada en la Ec. (9), se interpreta que se emplea el mismo ltro caracterizado por H(k , m) para todos los modos pero, de ser as , tiene sentido llevar

Informef

Diunggah oleh

Informasi Dokumen

Judul Asli

Hak Cipta

Format Tersedia

Bagikan dokumen Ini

Bagikan atau Tanam Dokumen

Opsi Berbagi

Apakah menurut Anda dokumen ini bermanfaat?

Apakah konten ini tidak pantas?

Hak Cipta:

Format Tersedia

Informef

Diunggah oleh

Hak Cipta:

Format Tersedia

ARIEL E.

STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

Speech Enhancement via EMD

IMFj (t) + rC (t),

ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

La se nal ruidosa x(t) es descompuesta mediante EMD de manera que:

IMFj (t) + rC (t),

+ (1 ) max SNRi (k , m), 0 , (14)

ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

|IMFj (k , m)| 1 j (k )|2 |B

(a) Vocal /a/ sostenida.

(b) Frase hablada.

15 0 0.2 0.4 0.6 0.8 1 1.2 tiempo, s 1.4

seal ruidosa seal original seal mejorada 1.6 1.8 2

ARIEL E. STASSI - PROCESAMIENTO ESTADISTICO DE SENALES - TRABAJO FINAL

(a) Vocal /a/ sostenida.

(b) Frase hablada.

Anda mungkin juga menyukai