ISSN: 0325-8203
interdisciplinaria@fibercorp.com.ar
Centro Interamericano de Investigaciones
Psicolgicas y Ciencias Afines
Argentina
RESUMEN
La necesidad de una evaluacin instrumental
y objetiva de la calidad de voz se refleja en el
creciente nmero de mtodos de anlisis acsticos desarrollados para el diagnstico clnico y
la investigacin.
En el trabajo que se informa se realizaron
anlisis acsticos utilizando dos programas diferentes: PRAAT y ANAGRAF. Ambos sistemas
son programas informticos de uso comn en
Latinoamrica, en contextos clnicos y de investigacin, para detectar y caracterizar el habla,
la voz y los desrdenes vocales. El propsito fue
comparar los resultados obtenidos con un conjunto de mediciones acsticas, muchas de las
cuales se definen de manera similar en ambos
programas y analizar si se puede distinguir clnicamente entre la normalidad y la patologa en
sus diferentes niveles de severidad. Un total de
776 muestras de voz correspondientes a 4 repeticiones de la vocal /a/ de 194 hablantes de espaol en Buenos Aires se midieron utilizando los
parmetros disponibles como lo son: la frecuencia fundamental, jitter, shimmer y harmonic-to-noise ratio. Los resultados muestran valores similares de frecuencia fundamental (F0)
para ambos programas. Sin embargo, los valores
de jitter, shimmer y harmonic-to-noise ratio
(HNR) fueron significativamente menores meINTERDISCIPLINARIA, 2012, 29, 2, 339-357
ABSTRACT
The need for instrumental objective assessment
of voice quality is reflected in the increasing
number of acoustic analysis methods developed for
clinical diagnosis and as research outcome in the
area. Acoustics measures of vocal productions
received much attention in the literature and a
variety of commercial packages are available.
Those systems packages are presented as objective
tools with apparently standardized, well-designed
measurement protocols and acceptably low incidence of technical problems. The fact of using the
same labels for similar measurement output like
mean jitter or mean shimmer induce to think that
results from different programs are comparable.
339
Elisei
INTRODUCCIN
La voz humana constituye el medio ms
rpido y sencillo para comunicarse. Con el
desarrollo de las tecnologas en telecomunicaciones ha aumentado considerablemente
el uso de la voz as como tambin se han incrementado los desrdenes vocales, que ocurren en un 3 a 9% de la poblacin.
Desafortunadamente, a pesar de la potencia con la que se pueden computar los datos, no parece ser completamente posible
analizar la voz humana objetivamente y conocer ms profundamente cules son los
procesos que gobiernan la produccin de la
voz. Aunque las tcnicas modernas pueden
analizar la voz, an existen temas conflictivos e irresueltos.
INTERDISCIPLINARIA, 2012, 29, 2, 339-357
Elisei
resultados de estos procedimientos se resumen en las tablas 1 y 2, se detallan y discuten considerando las medidas individualmente.
MEDICIONES DE FRECUENCIA FUNDAMENTAL
El clculo preciso de la frecuencia fundamental (F0) de la seal de habla es un requisito indispensable para procesamientos
posteriores. La evaluacin de parmetros relacionados con la variacin de la F0 depende fuertemente de que sta haya sido estimada con el mnimo error posible.
Como se observa en la Tabla 1, la media
de la frecuencia fundamental (F0) medida
con PRAAT en la muestra de sujetos normales (H) es igual a 119 Hz ( 20) para los
varones y 207 Hz ( 24) para las mujeres,
con importantes variaciones en ambos grupos.
La medicin de frecuencia fundamental
en ANAGRAF ofrece tres posibilidades:
f0_pr, fc_cp y f0_cc. El primero, (f0_pr) se
calcula con un mtodo de correlacin
(RAPT); el segundo se calcula con un mtodo frecuencial (cepstral) y con el tercero
se realiza un clculo temporal: ciclo a ciclo.
Este ltimo es el menos confiable, pero el
ms arriesgado en casos que los otros mtodos no permitan calcular. Por ello, es la informada en el reporte de ANAGRAF. En
este estudio slo se midieron dos: F0_pr y
F0_cc. En la Tabla 2 se observa que los valores obtenidos son semejantes a PRAAT
cuando se mide con f0_pr y presentan mayor
variacin cuando se lo compara con f0_cc,
confirmando as lo dicho anteriormente sobre su menor confiabilidad.
Los resultados obtenidos con ambos programas concuerdan con lo que se esperaba
debido a las diferencias entre sexos para todos los parmetros relacionados con la frecuencia fundamental, encontrndose mayor
variabilidad en el sexo femenino. El rango
de valores para la frecuencia fundamental
(F0) se extiende de 87 a 181-182 Hz para los
varones y de 165 a 262-265 Hz para las mujeres.
INTERDISCIPLINARIA, 2012, 29, 2, 339-357
Elisei
MEDICIONES DE RUIDO
La relacin armnico-ruido (HNR) es una
medida que cuantifica la cantidad de ruido
aditivo en la seal de la voz. Consiste en el
cociente entre la energa espectral debida a
las componentes armnicas de la seal y la
correspondiente al ruido. En ANAGRAF, la
media de la relacin armnico-ruido (HNR)
en el grupo H fue igual a 6,53 dB y 6,63 dB
para mujeres y hombres, respectivamente.
En este caso la muestra analizada supera los
valores dados como normales. Se supone
que esto es consecuencia de la alta exigencia en los criterios de inclusin impuestos a
la seleccin de la muestra del grupo de voces normales (H).
PRAAT propone que una medida original
de HNR debe ser de 20 para /a/ /i/ y de 40
para la vocal /u/. En consecuencia, una
HNR por debajo de 20 es considerada como
una medida de notable ronquera. En la
muestra estudiada se encontr HNR de
24,35 y 22,07 para mujeres y hombres, respectivamente.
SECCIN II. VALORES PATOLGICOS
Se han resumido, en los casos en que ha
sido posible, los datos en tablas que intentan
aproximar a normas, entindase medias, desviaciones tpicas y rango de valores de los
parmetros de ANAGRAF y PRAAT. Slo
intentan servir como guas para interpretar
los resultados.
Para cada grupo y sexo se compararon los
valores medios de frecuencia fundamental,
perturbacin de la frecuencia y perturbacin
de la amplitud y ruido de la vocal /a/ del Espaol de Buenos Aires, que es la vocal informada en la clnica. Se analizaron estos
valores con relacin a los puntos de corte
que establece cada medicin en cada sistema en comparacin.
Muchas de las mediciones son tiles para
un amplio espectro de desrdenes vocales,
por lo que la clasificacin por tipo de patologa no result la adecuada, pero s se conINTERDISCIPLINARIA, 2012, 29, 2, 339-357
MEDICIONES DE RUIDO
Los valores medidos de HNR en ANAGRAF tanto en hombres como en mujeres
mostraron ser relativamente ajustados aun
considerando los desvos estndares en el
anlisis (ver Tabla 3).
MEDIDAS
Se analizaron las mismas medidas anteriormente descriptas por el grado de severidad de la patologa (Elisei, 2011) para eva345
Elisei
luar si la influencia de la variedad diagnstica del hablante normal (N), con patologas
leves a moderadas (LM) y moderadas a severas (MS) haca variar estos resultados.
Por no cumplirse el supuesto de homocedasticidad o supuesto de homogeneidad de
variancias, para el anlisis de la variancia
(test de Levene) se utiliz el test robusto de
Brown Forsythe. En la vocal /a/ se encontraron diferencias significativas para las variables, exceptuando la media y mediana de
tono para las mujeres y el mnimo tono para
los hombres. Aplicando el test a posteriori
de Dunnet con un nivel de significacin
global del 5% se encontraron diferencias
significativas en todos los parmetros medidos exceptuando los sigiuentes casos:
En mujeres, en la mediana del tono (median pitch) y la media del tono (mean pitch)
entre las 3 categoras: N, LM y MS, de lo
que se interpreta que estos parmetros no
son los ms sensibles a la hora de caracterizar subgrupos, sino ms bien casi constantes
del sexo. Tampoco se encontraron diferencias entre tono mnimo y mximo (minimum
y maximum pitch) entre LM y MS, pero s
entre N y LM y N y MS, por lo que se interpreta que esta medida s puede ser relevante al momento de distinguir entre diferentes niveles de severidad. Las cinco
medidas de jitter no muestran diferencias
significativas entre LM y MS, pero s con N,
indicando que si bien (an con sus limitaciones) son medidas sensibles para distinguir voces normales de patolgicas, no pueden caracterizar grados de severidad en
patologas.
En hombres se encontr que la mediana
y la media del tono no se diferencian para
LM y MS pero s logran diferencias significativas ambos con N. La medida del tono
mnimo se comporta de forma semejante a
las mujeres: no muestran diferencias significativas entre niveles de severidad, aunque
s se observan diferencias en el parmetro de
tono mximo en los tres niveles. En tres de
los jitter no se observan diferencias Jita,
RAP y DDP, al igual que APQ11.
En ANAGRAF se realiz el mismo anlisis encontrndose diferencias significativas
346
valores prximos a 1 indicarn fuerte asociacin lineal positiva, los valores prximos
a -1 indicarn fuerte asociacin lineal negativa y los valores prximos a 0 indicarn no
asociacin lineal, lo que no significa que no
pueda existir otro tipo de asociacin.
En las Tablas 3, 4, 5, 6 y 7 se presentan
los valores de las correlaciones y se observa
que es poco probable que esta correlacin se
d por el azar para la mayora de los parmetros. Los coeficientes menores a .7 sugieren, a diferencia de los dems, que existe
una media y baja correlacin entre las muestras. La medicin de la frecuencia fundamental parece ser estable y confiable; sin
embargo, esta alta correlacin disminuye en
la medida de desviacin estndar dando
cuenta all de las discrepancias o variaciones
que pueden existir en la produccin de un
tono sostenido. En las mediciones de jitter,
se observa una estabilidad alta con coeficientes de .807 a .879 para los normales y de
moderada a baja con valores entre .881 a
.547 para los patolgicos. Esto se asocia con
las limitaciones que encuentran estas mediciones para el clculo cuando la seal contiene mayores irregularidades y deja de ser
cuasi peridica. Las mediciones de perturbacin de la amplitud vara entre .831 a .798
en voces normales y de .872 a .691 para las
voces patolgicas, mostrando un comportamiento semejante a la perturbacin de frecuencia. Dentro de los parmetros de ruido,
ambos logran altas consistencias en sus mediciones. Tambin se puede observar que
LM tiene menor correlacin en general que
N y MS.
CONCLUSIONES
En este trabajo se han presentado las mediciones tradicionales relacionadas con la
frecuencia fundamental, la perturbacin de
la frecuencia y la amplitud y la relacin armnico - ruido, dado que a pesar de no ser
una medida de aperiodicidad es tradicin
medirla en la clnica diaria. Es difcil determinar con precisin las normas para medidas acsticas tales como jitter, shimmer,
INTERDISCIPLINARIA, 2012, 29, 2, 339-357
Elisei
348
.29
.17
1.43
.16
1.81
.41
.04
.51
.08
.10
6.09
.00
.00
.00
.00
.00
.00
.00
.00
.01
APQ %
ShdB (dB)
Shim %
.16
PPQ %
RAP %
13.86
.15
24.1
24.2
Jitta (us)
207
Jitt %
Mean_pitch
207
Median_pitch
PRAAT VR
> . 20*
> .20*
< .10*
< .10*
> .20*
> .20*
< .05
< .05
< .05
Umbral p
1.99
.22
2.52
.34
.35
41.66
.59
200 - 120
200 - 120
3.07
.35
3.81
.84
.68
83.20
1.04
Umbral
Valores estndar
.81
.09
1.00
.29
.33
36.48
.54
.68
.68
TABLA 1
RESULTADOS MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES
1.81
.26
2.93
.21
.18
31.31
.35
119
119
.93
.13
1.53
.08
.08
14.59
.13
20.35
20.42
.00
.00
.00
.00
.00
.00
.00
.00
.00
349
350
HNR
Shimmer
jitter-cc
f0_cc
f0_pr
ANAGRAF
2.02
2.55
1.35
6.53
.27
.67
25.31
23.97
207
206
.66
.09
.01
.3
200 / 120
200 / 120
Umbral
Valores estndar
6.63
.32
1.02
118
118
2.4
.12
1.72
20.42
20.45
.13
.93
.41
TABLA 2
RESULTADOS MEDIDOS CON ANAGRAF EN MUJERES Y HOMBRES NORMALES
Elisei
98
155
78
98
155
78
98
155
78
98
155
78
N
LM
MS
N
LM
MS
N
LM
MS
N
LM
MS
f0_cc
jitter-cc
shimmer
HNR
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
98
155
7 78
N
LM
MS
Fuente
f0_pr
ANAGRAF
6.53
3.34
1.26
.27
.38
.83
1.35
4.37
9.12
206
200
203
207
199
193
2.55
2.63
2.64
.67
.20
1.1
2.02
20.43
12.45
25.308
27.627
57.72
23.969
27.257
66.845
Mujeres
-.13
-2.71
-3.86
-1.68
.11
.20
.26
.11
.12
130
148
92
165
147
0
10.8
8.57
6.41
6.49
1.67
8.14
10.63
254
55.47
268
288
395
262
280
374
Rango
.55
.762
.863
.274
.729
.808
.728
.351
.374
.986
.89
.86
.991
.975
.855
98
64
69
98
64
69
98
64
69
98
64
69
98
64
69
6.63
2.31
.06
.32
.63
.92
1.02
3.42
5.48
118
131
127
118
133
147
2.4
3.0
2.77
.12
.40
.69
1.72
3.35
3.96
20.42
22.9
62.01
20.45
21.19
46.79
Hombres
.01
-5.43
-5.4
.13
.21
.35
.21
.32
.51
84
65
0
87
89
90
10.58
7.78
5.3
.8
2.21
4.23
10
10
10
182
180
312
181
180
329
Rango
TABLA 3
RESULTADOS MEDIDOS CON ANAGRAF EN MUJERES Y HOMBRES NORMALES SEGN GRADO DE SEVERIDAD DE LAS PATOLOGAS
Anlisis acstico de la voz normal y patolgica
351
352
98
155
78
98
155
78
98
155
78
98
155
78
98
155
78
N
LM
MS
N
LM
MS
N
LM
MS
N
LM
MS
N
LM
MS
Median pitch
Mean pitch
SD
Minimum pitch
Maximum pitch
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
Fuente
PRAAT
211.62
204.82
229.95
202.59
189.34
176.37
1.8
3.56
13.14
206.89
197.48
200.59
206.82
197.6
199.24
24.32
29.42
82.21
23.93
35.33
56.62
.68
8.48
26.69
24.17
28.61
49.99
24.2
28.94
52.71
Mujeres
170
127
102
160
74
74
.72
.67
.67
165
111
91
165
103
90
268
308
496
258
277
386
3.47
74.35
145.47
264
288
422
265
288
419
Rango
DE LAS PATOLOGAS
.997
.919
.874
.998
.086
.779
.045
.332
.708
.999
.927
.874
.999
.917
.811
98
64
66
98
64
66
98
64
66
98
64
66
98
64
66
122
141
163
116
123
122
1
3
10
119
131
144
119
132
144
22.11
23.9
60.66
20.09
22.5
38.16
.63
6.14
20.19
20.35
20.71
41.8
20.42
21.14
43.98
Hombres
91
95
93
85
77
73
1
1
1
87
88
89
87
88
89
184
196
365
179
176
227
5
43
107
182
179
295
182
179
321
Rango
TABLA 4
RESULTADOS DE FRECUENCIA FUNDAMENTAL MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGN GRADO DE SEVERIDAD
Elisei
98
155
78
98
155
78
N
LM
MS
N
LM
MS
PPQ5
DDP
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
.17
.25
.38
98
155
78
N
LM
MS
RAP
98
155
78
N
LM
MS
Jita
.16
.24
.34
13.86
21.97
39.31
.29
.42
.67
98
155
78
N
LM
MS
Jitt
Fuente
.29
.52
1.1
.08
.21
.46
.10
.17
.37
6.09
16.77
68.31
.15
.31
.90
Mujeres
.23
.14
.29
.09
.06
.10
.08
.05
.10
6.12
3.76
7.64
.16
.09
.18
1.97
4.6
8.13
.66
1.99
3.31
.66
1.53
2.71
41.54
137.62
430.4
1
2.86
5.99
Rango
.807
.561
.882
.816
.466
.855
.807
.561
.882
.879
.679
.881
.807
.547
.907
98
64
66
98
64
66
98
64
66
98
64
66
98
64
66
.55
1.26
2.66
.21
.40
.91
.18
.42
.89
31.31
60.82
117.41
.35
.74
1.56
.25
2.19
4.16
.08
.51
1.55
.08
.73
1.39
14.59
100.32
184.12
.13
1.15
2.36
Hombres
.95
8.45
12.31
.2
.32
.31
.08
.13
.11
.07
.11
.11
1.76
16.17
20.42
.50
3.59
9.04
.59
5.39
6.81
9.45 90.01
11.65 712.44
10.97 974.08
.16
.21
.23
Rango
TABLA 5
RESULTADOS DE PERTURBACIN DE LA FRECUENCIA FUNDAMENTAL MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGN
Anlisis acstico de la voz normal y patolgica
353
354
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
98
155
78
N
LM
MS
98
155
78
N
LM
MS
APQ5
DDA
98
155
78
N
LM
MS
APQ3
98
155
78
98
155
78
N
LM
MS
ShdB
N
LM
MS
98
155
78
N
LM
MS
Shim
APQ11
Fuente
PRAAT
2.91
4.38
8.25
1.43
2.06
3.69
1.1
1.68
3.04
.97
1.46
2.75
.16
.24
.46
1.81
2.71
5.06
.88
2.73
5.02
.41
1.26
2.33
.32
1.14
1.76
.29
.91
1.67
.04
.15
.29
.51
1.71
3.02
Mujeres
1.64
.90
1.78
.74
.56
1.05
.64
.37
.75
.55
.30
.59
.09
.05
.12
1.02
.61
1.33
5.58
23.17
23.48
2.77
10.6
12.71
2.1
9.44
7.97
1.86
7.72
7.83
.29
1.31
1.22
3.32
14.47
12.72
Rango
.827
.827
.832
.798
.691
.806
.826
.771
.833
.825
.827
.832
.831
.836
.872
.826
.824
.876
98
64
66
98
64
63
98
64
65
98
64
66
98
64
66
98
64
66
4.72
7.2
11.68
2.44
3.52
4.44
1.81
2.81
4.22
1.57
2.4
3.89
.26
.4
.64
2.93
4.53
7.16
2.63
4.98
9.59
1.22
2.47
2.92
.93
2.04
3.63
.88
1.66
3.2
.13
.28
.53
1.53
3.17
5.92
Hombres
1.24
2.1
3.01
.81
.96
1.4
.53
.81
1.14
.41
.70
1
.08
.13
.16
.88
1.41
1.82
14
24.99
37.89
7.14
11.65
12.95
5.46
9.77
20.49
4.67
8.33
12.63
.79
1.39
2.2
8.76
15.48
24.57
Rango
TABLA 6
RESULTADOS DE LA PERTURBACIN DE LA AMPLITUD MEDIDOS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGN GRADO DE
Elisei
98
155
78
98
155
78
98
155
78
N
LM
MS
N
LM
MS
N
LM
MS
AC
NHR
HNR
Notacin
N: normal
LM: leve-moderada
MS: moderada-severa
PRAAT
Fuente
2.33
3.59
4.52
0
.01
.11
0
.01
.06
Mujeres
24.35
22.03
16.54
.01
.01
.06
.99
.99
.96
15.12
11.25
3.94
0
0
0
.96
.91
.67
1
1
1
29.04
31.78
23.81
.04
.10
.65
Rango
PATOLOGAS
.879
.912
.951
.823
.648
.904
.838
.71
.923
98
64
66
98
64
66
98
64
66
3.28
5.16
6.08
.01
.08
.24
.01
.06
.13
Hombres
22.07
18.26
13.12
.01
.05
.16
.99
.96
.89
12.63
5.38
1.06
0
0
.01
.92
.73
.56
29.86
27.14
22.82
.09
.48
.84
1
1
.99
Rango
TABLA 7
RESULTADOS DE MEDIDAS DE RUIDO REALIZADAS CON PRAAT EN MUJERES Y HOMBRES NORMALES SEGN GRADO DE SEVERIDAD DE LAS
Anlisis acstico de la voz normal y patolgica
355
Elisei
REFERENCIAS BIBLIOGRFICAS
Baken, R.J. & Orlikoff, R. (2000). Clinical
measurement of speech and voice (2da. ed.).
San Diego, USA: Singular Publising Group.
doi: 10.3109/14417040008996786.
Bielamowicz, S., Kreiman, J., Gerratt, B.R., Dauer,
M.S. & Berke, G.S. (1993). Comparison of
voice analysis systems for perturbation measurements. Journal of Acoustical Society of
America, 9(4), 2337. doi:10.1121/1.4062 76.
Boersma, P. (2009). Should jitter be measured by
peak picking or by waveform matching? Folia
Phoniatrica et Logopaedica, 61, 305-308. doi:
10.1159/000245159.
Burris, C. (2011). Acoustic analysis software: A
quantitative and qualitative comparison of four
systems. Tesis de Maestra no publicada. University of Wisconsin. Maddison, USA.
Damborenea, D., Fernndez, R., Llorente, E.,
Naya, M.J., Marn, C., Rueda, P. et al. (1999).
Efecto del consumo de tabaco en el anlisis
acstico de la voz [Smoking effects in voice
acoustic analysis]. Acta Otorrinolaringolgica
Espaola - Sociedad Espaola de Otorrinolaringologa, 50(2), 448-452.
Deliysky, D.D. & Boersma, P. (1993). Accurate
short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a
sampled sound. Proceedings of the Institute of
Phonetic Sciences, 17 (pp. 97-110). Pases
Bajos: Universidad de Amsterdam.
Dwire, A. & McCauley, R. (1995). Repeated measures of vocal fundamental frequency perturbations obtained using de Visi-Pitch. Journal
of Voice, 9, 156-162. doi:10.1016/ S089219
97(05)80249-8.
Elisei, N.G. (2011). Evaluacin acstica y perceptual de la voz para la deteccin y caracterizacin de los desrdenes vocales [Acoustic
and perceptual voice assessment for the detection and characterization of vocal disorders].
Tesis Doctoral no publicada, Universidad de
Buenos Aires. Buenos Aires.
356
357