discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/215688348
CITATIONS READS
3 538
4 authors, including:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Oral-diadochokinesis rates in Parkinson Disease: comparison across Spanish, German and Czech View
project
Oral-diadochokinesis rates for Spanish, German and Czech: norms for adults View project
All content following this page was uploaded by Elkyn A. Belalcazar-Bolaos on 15 August 2017.
DETECCIN DE HIPERNASALIDAD EN EL
ESPAOL USANDO FUNCIONES DE
RETRASO DE GRUPO
E. Belalcazar, H. Felipe Serna, J. Felipe Garcs, J. Rafael Orozco y J. Francisco Vargas
implementada, junto con la base de datos usada para probar C. Funciones de retraso de grupo modificada (MDGF, por
los mtodos introducidos en la seccin II. La seccin IV las siglas en ingls Modify Delay Group Function)
muestra los resultados obtenidos junto con una breve Para solucionar ese problema, Murthy et al en [10], sugiere
discusin, y en la seccin V se presentan las conclusiones. hacer una modificacin a la forma como se estima la funcin
original, y se plantea mediante la expresin (3).
II. MARCO TERICO
En esta seccin se presentan los aspectos tericos y
conceptuales ms importantes de la metodologa
implementada.
Donde , representa el signo que tiene la expresin
A. Anlisis del espectro de voz. (2), si es mayor que cero ser y si es menor que cero
ser . Los parmetros y , fueron sintonizados,
Los sonidos voclicos, son generados por vibraciones que se buscando los mejores resultados para la metodologa expuesta
dan en las cuerdas vocales, caracterizados por un fuerte en este trabajo, luego de pruebas exhaustiva sobre una base de
contenido armnico; mediante la representacin del espectro datos diferente, conformada por 5 registros de nios
de dichos sonidos es posible identificar tipos de resonancias, hipernasales y 5 nios sanos, los resultados indicaron que los
las cuales reciben el nombre de formantes voclicos. valores ms apropiados para el experimento que se pretende
Para la fonacin de vocales y sostenidas, la hipernasalidad desarrollar son: y . es el suavizado
afecta tanto la ubicacin como la amplitud de dichos cepstral, aplicado sobre la seal , tal como se muestra en
formantes [8]. Adicionalmente, de acuerdo con los estudios la figura 1, donde es una ventana rectangular y es un
previos [4], en muchas ocasiones aparecen resonancias extra
filtro pasa bajos en el dominio cepstral.
dentro del espectro de la voz. La voz sana presenta un primer
formante claro y de alta amplitud, mientras que la voz
hipernasal presenta un formante distorsionado con mayor
ancho de banda y menor amplitud, adems de que est
rodeado de mltiples picos extras.
Para poder observar con mejor resolucin la zona de bajas Fig.1 Diagrama de bloques, Cepstral Smoothing
frecuencias se hace uso de las funciones de retraso de grupo
que sern explicadas en la siguiente sub-seccin. III. METODOLOGA
A. Base de datos
B. Funciones de retraso de grupo
La base de datos utilizada para el desarrollo del trabajo, fue
Las funciones de retraso de grupo permiten mejorar la suministrada por el grupo de Procesamiento y Reconocimiento
resolucin del espectro, debido a que poseen la propiedad de de Seales (GPRS) de la Universidad Nacional de Colombia,
superposicin en la frecuencia que permite discriminar picos sede Manizales. Est conformada por registros de voz de las 5
cercanos en dicho dominio. vocales pronunciadas de forma sostenidas, por 110 nios
Se define como el negativo, de la derivada de fase respecto a sanos y 156 con labio y/o paladar hendido con edades entre 5
la frecuencia. La Funcin de Retraso de Grupo, , puede y 15 aos, cuyas voces fueron diagnosticadas con
ser expresada mediante la ecuacin (1). hipernasalidad por un experto en fonoaudiologa.
Las muestras de audio fueron capturadas en condiciones
controladas, dentro una cabina sonoamortiguada, utilizando un
micrfono de alta ganancia, cableado balanceado y una tarjeta
digitalizadora profesional configurada con una frecuencia de
Dada la seal , con transformada de Fourier (TF) muestreo de 44100Hz a 16 bits de cuantizacin.
, donde es su parte real y
imaginaria. Para el caso de la seal ,
cuya TF , donde es la parte real B. Preprocesado
y es la parte imaginaria. Inicialmente los registros de audio fueron submuestrados a
De acuerdo con [6] la funcin de retraso de grupo puede ser 22050Hz y 8000Hz con el fin de evaluar el comportamiento
expresada en la ecuacin (2). de la MDGF ante diferentes tasas de muestreo. En las figuras
2 y 3 se muestra que para frecuencias de muestreo de 22050Hz
y 44100Hz la MDGF es ruidosa y se dificulta la deteccin de
picos en el espectro. La figura 4 muestra una resolucin
ptima, obtenida con una frecuencia de muestreo de 8000Hz,
La funcin de retraso de grupo es sensible al ruido presente en para el anlisis de la zona de baja frecuencia entre el pico de
la seal de entrada, , y a la distorsin producida por el 250Hz y el primer formante voclico.
enventanado[10]. Por lo tanto se necesita realizar una
modificacin que ser explicada a continuacin
XVI SIMPOSIO DE TRATAMIENTO DE SEALES, IMGENES Y VISIN ARTIFICIAL STSIVA 2011
2500
2000
1500
MDGF
1000
500
-500
0 0.5 1 1.5 2 2.5
FRECUENCIA (Hz) 4
x 10
Fig.2 MDGF, frecuencia de muestreo 44100Hz Fig. 6 Grafica con ventanas Hamming
2500
2000
1500
MDGF
1000
500
-500
0 2000 4000 6000 8000 10000 12000
FRECUENCIA (Hz)
Fig.3 MDGF, frecuencia de muestreo 22050Hz Fig. 7 Grafica con ventanas Hanning
500
400
300
MDGF
200
100
0
0 500 1000 1500 2000 2500 3000 3500 4000
FRECUENCIA (Hz)
Fig.4 MDGF, frecuencia de muestreo 8000Hz Fig. 8 Grafica con ventanas Blackman
Para buscar los formantes se considerarn los siguientes IV. RESULTADOS Y DISCUSIN
aspectos, tal y como se seala en [4].
Para el fonema /a/, el formante nasal, F1, se puede Para el efecto del filtro pasa bajos, en [4] proponen usar
localizar entre los 250Hz y los 300Hz; mientras que el filtro con corte en 800Hz. Las figuras 10 y 11 evidencian la
formante voclico, F2, se encontrar entre 500Hz y 800Hz. mejora de la resolucin para la zona de baja frecuencia, lo
Tanto para /i/ como /u/, el formante nasal F1 se encontrara cual permite concentrarse en la bsqueda de los picos debido a
entre 200Hz y 325Hz; el formante voclico, F2, se ha la nasalizacin.
observado en 500Hz. 500
Para las vocales adicionales, diferentes a las analizadas en 400
[4], /e/ y /o/, se examin sobre los mismo parmetros de
300
las vocales /i/ e /u/
MDGF
Vale la pena resaltar que existe entre F1 y F2 un tercer 200
naturaleza mucho mayor que el primer formante voclico, Fig. 10 MDGF sin filtro
por lo cual es posible proponer una mtrica muy sencilla,
analizando cocientes. 80
La clasificacin de un registro sano o hipernasal, se hace
comparando los resultados de evaluar la ecuacin (4), de cada 60
ventana, con un umbral previamente definido; en este trabajo
MDGF
se hace anlisis para umbrales en 1 y 1.5. Estos umbrales 40
Enventanado
Caculo Espectro
Funcin Retraso
Grupo Modificada
Si
>1 Hipernasal
No
Sano
Fig. 9, metodologa
VI. AGRADECIMIENTOS
Las tablas I y II, muestran las tasas de acierto obtenidas para El presente trabajo hace parte del proyecto cdigo
cada una de las vocales, con diferentes tipos de venta MC10-1-08, financiado por el Comit para el Desarrollo de la
encampanada y umbral de decisin. Los resultados de la Investigacin (CODI) de la Universidad de Antioquia y
primera se obtienen sin aplicar el filtrado, la segunda se adelantado en asocio con la Clnica Noel de Medelln. Trabajo
obtiene con un filtro pasa bajos, cuyo corte es en 800Hz, que se llev a cabo en virtud de concesiones de ARTICA,
evidenciando un aumento de hasta 4 puntos porcentuales financiado por Colciencias y el ministerio de TIC en
cuando se aplica el filtro. Colombia, proyecto No. 1115-470-22055. Los autores
De acuerdo con las tasas de acierto obtenidas con y sin agradecen al grupo de Procesamiento y Reconocimiento de
filtrado, adems de los distintos tipos de ventana Seales (GPRS) de la Universidad Nacional de Colombia,
encampanada, es posible afirmar que con la metodologa sede Manizales, por su colaboracin en la base de datos usada,
presentada se pueden alcanzar aciertos aceptables. Los valores de igual forma al ingeniero Johnny Alexander Uribe por sus
alcanzados en este trabajo estn muy por debajo de los valiosos aportes durante la realizacin de este trabajo.
presentados por P. Vijalayakshmi en [4]; sin embargo, se debe
tener en cuenta que la base de datos usada en dicho trabajo REFERENCIAS
considera pacientes con LPH no corregido, mientras que en
[1] G. Castellanos, Analisis acustico de voz y de posturas labiales en
este trabajo todos los pacientes considerados ya haban sido pacientes de 5 a 15 aos con labio y/o paladar hendido corregido en la
operados al momento de la grabacin, por lo tanto ya se zona centro del pas, Colciencias, Tech. Rep. 2005
encuentran adelantando su terapia fonoaudiolgica. [2] Congenital mal formations worldwide, International Clearinghouse for
Birth Defects Monitoring Systems, Amsterdam, Holland, Tech, Rep.
Hamming Hanning Blackman 1991
Umbral Umbral Umbral Umbral Umbral Umbral [3] G. Castellanos, G. Daza, L. Sanchez, O. Castrillon, and J. Suarez,
1.0 1.5 1.0 1.5 1.0 1.5 Acoustic speech analysis for hipernasality detection in children, in
Proc. 28th Annual Int. Conf. of the IEEE Engineering in Medicine And
/a/ 74.27 63.51 76.54 57.74 74.40 54.54
Biology Society EMBS 06, 2006, pp. 5507-5510.
/e/ 72.68 67.99 73.60 67.13 73.28 67.17
[4] P. Vijayalakshmi, M. Ramasubba Reddy, and Douglas OShaughnessy,
/i/ 57.20 60.26 53.72 55.10 55.83 57.49 Acoustic Analysis and Detection of Hypernasality Using a Group
/o/ 72.35 63.74 70.03 60.10 71.80 63.60 Delay Function IEEE Transactions on Biomedical Engineering, Vol.
/u/ 60.54 60.16 57.63 58.88 61.04 57.97 54, No. 4, Abril 2007
Tabla I. con ventanas encampanadas sin filtro [5] O. Fujimura and J. Lindqvist., Sweep-tone measurements of the vocal
tract characteristics, Journal of the Acoustical Society of America, vol.
Hamming Hanning Blackman 49, no. 2, pp. 541-558, 1971
Umbral Umbral Umbral Umbral Umbral Umbral [6] S. Murillo, J.R. Orozco, J.D. Arias, J.F. Vargas, G. Castellanos
1.0 1.5 1.0 1.5 1.0 1.5 Automatic Detection of Hypernasality in Children IWINAC 2011,
Lecture Notes in Computer Science, Springer-Verlag, 2011.
/a/ 77.62 50.96 76.76 50.00 77.04 50.00
[7] J.R. Orozco, S. Murillo, A.M. lvarez, J.D. Arias, E. Delgado, J.F.
/e/ 73.78 53.18 75.65 51.27 75.05 50.00
Vargas and C.G. Castellanos Automatic Selection of Acoustic and
/i/ 52.54 57.91 52.73 58.19 52.73 54.74
Non-linear Dynamic Features in Voice Signals for Hypernasality
/o/ 74.62 50.64 75.07 50.00 73.53 50.00 Detection (Accepted to INTERSPEECH 2011).
/u/ 55.68 54.83 57.63 53.91 57.36 52.09 [8] P. Tarun, Analysis, vocal-tract modeling and automatic detection of
Tabla II. con ventanas encampanadas y filtro pasabajos vowel nasalization, PhD Thesis U. of Maryland, Tech. Rep. 2005
[9] J.R. Orozco, J.A. Uribe, J.F. Vargas Operador de Energa de Teager
para la deteccin de Hipernasalidad en nios con Labio y Paladar
V. CONCLUSIONES Hendido TecnoLgicas, Ed. ITM, Medelln, 2011.
Se presenta una metodologa que implementa las Funciones de [10] H. Murthy and B. Yegnanarayana, Formant extraction from minimum
Retraso de Grupo Modificadas. Se aplicaron diferentes tipos phase group delay function. In Speech Comm. pp. 209-221, 1991.
[11] H. A. Murthy and V. Gadde, The modified group delay function and its
de ventana, lo cual permite excluir la ventana tipo rectangular, application to phoneme recognition, in Proc. IEEE Int. Conf. Acoust.,
debido a sus problemas, y resaltar la ventana tipo hanning. Se Speech and Signal Processing, Apr. 2003, pp. 6871.
prob la estimacin de la MGDF con y sin el uso de un filtro
pasabajas, mostrando que es conveniente aplicar dicho filtrado Elkyn Belalcazar Naci en San Juan de
con una frecuencia de corte de 800Hz; adems se efectuaron Pasto, Colombia en 1.990. Actualmente es
pruebas con diferentes frecuencias de muestreo y evidencio estudiante de Ingeniera Electrnica desde
que la frecuencia que ms beneficia la obtencin de picos en el ao 2.008, en la Universidad de
baja frecuencia es 8000 muestras por segundo, posibilitando la Antioquia. Sus principales intereses son el
aplicacin de esta metodologa en voces de calidad telefnica. procesamiento digital de seales y
A pesar de que las tasas de acierto no son altas y estn por reconocimiento de patrones.
debajo de las presentadas en el estado del arte, los resultados
de este trabajo son relevantes porque analizan la utilidad de las
Funciones de Retraso de Grupo Modificadas en la deteccin Hernn Felipe Serna Naci en Medelln,
automtica de hipernasalidad en pacientes con Labio y/o Colombia. Actualmente es estudiante de
Paladar Hendido corregido, los cuales se encuentran en terapia Ingeniera Electrnica, en la Universidad
fonoaudiolgica, por lo tanto pueden presentar niveles de de Antioquia. Sus principales intereses son
hipernasalidad ms bajos que los de pacientes que an no han el procesamiento digital de seales y
sido operados. reconocimiento de patrones.
XVI SIMPOSIO DE TRATAMIENTO DE SEALES, IMGENES Y VISIN ARTIFICIAL STSIVA 2011