Rector
Gustavo Eduardo Lugones
Vicerrector
Mario E. Lozano
Gustavo Basso
Oscar Pablo Di Liscia
Juan Pampin
(compiladores)
Bernal, 2009
Colección Música y Ciencia
Dirigida por Oscar Pablo Di Liscia
Basso, Gustavo
P
isbn 987-558-
1. P
CDD
ISBN: 987-558-
ISBN-13: 978-987-558-
Queda hecho el depósito que marca la ley 11.723
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Los autores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Técnicas de espacialización basadas en indicios de intensidad . . . . . . . . . 100
Simulación de la ubicación angular en dos dimensiones . . . . . . . 100
por medio del panorámico de intensidad . . . . . . . . . . . . . . . . . . . . 100
Simulación de la distancia mediante indicios de intensidad . . . . . 103
Simulación de la ubicación angular en tres dimensiones
por medio del panorámico de intensidad . . . . . . . . . . . . . . . . . 106
Simulación de la directividad de la fuente acústica
mediante indicios de intensidad . . . . . . . . . . . . . . . . . . . . . . . . 110
Técnicas de espacialización basadas en indicios de tiempo . . . . . . . . . . . . 115
Simulación de las características de recintos mediante indicios
de intensidad y tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
Simulación de ecos tempranos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Ley de panorámico seno-coseno y el dominio ms . . . . . . . . . . . . . . . . . . . 129
Ley de panorámico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
El dominio ms . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
Las transformadas estéreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Rotación-panorámico estéreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
Panorámicos más allá de +/-45º. Moviéndose más allá
de los altoparlantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
Ancho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Balance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
Panorámico medio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
Asimetría . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Panorámico izquierdo y derecho. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
R-pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
L-pan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
Dirección-abilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
Transformadas dependientes de la frecuencia . . . . . . . . . . . . . . . . . . . . . . 152
Ecualización espacial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Dispersión estéreo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
Otras transformadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Capítulo V. El espacio acústico tridimensional y su simulación
por medio de Ambisonics
Dave Malham . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
Estandarizaciones de sonido surround . . . . . . . . . . . . . . . . . . . . . . . . . 203
Especificaciones de canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Sistemas propietarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
Canal de efectos de baja frecuencia . . . . . . . . . . . . . . . . . . . . . . . . 204
Sistema de administración de bajas frecuencias . . . . . . . . . . . . . . . 204
Sistemas multicanal matriciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Codificación perceptual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Estéreo de tres canales (3-0 stereo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Sonido cuadrafónico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
Surround de cuatro canales (3-1 stereo). . . . . . . . . . . . . . . . . . . . . . 206
Dolby stereo optical. Dolby surround pro logic . . . . . . . . . . . . . . . . . . . . . 208
Surround de 5.1 canales (3-2 stereo) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
El canal de efectos de baja frecuencia y el uso de subwoofers . . . . . 211
Descripciones y asignación de pistas . . . . . . . . . . . . . . . . . . . . . . . . 212
Dolby Digital, Dolby Pro Logic ii . . . . . . . . . . . . . . . . . . . . . . . . . . 212
dts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 214
Surround de 6 canales. Dolby stereo 70 mm . . . . . . . . . . . . . . . . . . . . . . . 214
Surround de 6.1 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Dolby Digital Surround EX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
CI CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
Dolby Pro Logic IIx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
dts-es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
Surround de 7.1 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
CI CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Sony sdds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218
Dolby Digital Plus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
Dolby Digital True hd. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
dts-hd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Surround de 10.2 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
Surround de 22.2 canales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221
thx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
mpeg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
mlp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
dvd-audio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Super audio cd . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Otros formatos multicanal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 226
Presentación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Preámbulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
Ejecución. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Formatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230
Estereofonía con dos altoparlantes . . . . . . . . . . . . . . . . . . . . . . . . . 231
Estéreo 3-2 (5.1 canales envolventes) . . . . . . . . . . . . . . . . . . . . . . 232
Octofonía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234
Ambisonics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
Síntesis de campo de onda (wfs) . . . . . . . . . . . . . . . . . . . . . . . . . . 237
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
Capítulo VIII. La interpretación de la espacialización electroacústica:
atributos espaciales y esquemas auditivos
Gary S. Kendall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
El espacio inmanente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261
La crisis en el sistema de categorías estilísticas . . . . . . . . . . . . . . . . . . . . . 263
La textura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
Emancipación de la textura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
Hacia una estética de la heterogeneidad y de la concreción . . . . . . . . . . . 267
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 286
Capítulo XI. Música para sitios específicos: nuevas correlaciones
entre espacio acústico, público y fuentes sonoras
Martín Liut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301
uom . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 302
Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
Dispositivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304
Espacio y materia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Transformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310
Reflexiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
Entanglement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
Lugar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 314
Flujo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 315
Perturbación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316
Teleausencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
Bibliografía . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
Presentación
Este libro explora los aspectos más relevantes del estado actual del arte en el
estudio de las relaciones entre espacio, sonido y música. Dada la extensión del
tema y sus numerosas ramificaciones en áreas diversas (tales como acústica,
psicoacústica, percepción sonora, tecnología de audio, arte sonoro y música,
por mencionar solo algunas), resulta necesario abordarlo desde una pluralidad
de perspectivas que asegure una cobertura amplia y sistemática. Para lograr
este objetivo, el libro organiza sus capítulos en tres secciones principales: la
primera examina los aspectos básicos de la audición espacial, la segunda son-
dea las técnicas y tecnologías comprometidas en la simulación e implementa-
ción del sonido espacial, y la última plantea la problemática de la espacialidad
en la producción musical y sonora, tanto desde el punto de vista del análisis
como desde la composición musical.
Los dos primeros capítulos desarrollan las nociones básicas necesarias
para comprender la percepción espacial del sonido. En el primero, a partir
de las señales que se originan directamente en las fuentes acústicas (Basso y
Di Liscia) y en el segundo, desde el ambiente acústico que rodea al oyente
(Basso). Este último, además, introduce los principios fundamentales de la
acústica arquitectónica desde una doble perspectiva, histórica y técnica. Estos
dos capítulos son de lectura insoslayable para el lector que no esté familiari-
zado con la audición espacial de sonido y constituyen la base sobre la que se
desarrollaron muchas de las técnicas de espacialización que se tratan en el
resto del libro.
Siguen luego cuatro capítulos dedicados a las técnicas de espacialización
corrientemente utilizadas en la música por computadoras y en la industria
del audio. El capítulo iii (Di Liscia) analiza las técnicas de simulación de
localización de sonido usando indicios de intensidad y tiempo. El capítulo iv
(Anderson) realiza una profunda exploración de los aspectos técnicos y de las
aplicaciones prácticas de las transformadas de la imagen estéreo en la ingenie-
ría de audio. El capítulo v (Malham) desarrolla extensamente la técnica de
espacialización Ambisonics en sus aspectos básicos y en sus actuales extensio-
15
nes. Malham también estudia en este capítulo algunos aspectos de audición
espacial, y discute los límites y la naturaleza de lo que debe considerarse una
imitación de la realidad sonora espacial. El capítulo vi (Cura) realiza una
reseña histórica y un análisis técnico de las implementaciones para sonido
surround (“envolvente”) en la industria de audiovisual (principalmente en
el cine) y en su uso hogareño. El capítulo vii (Dow) desarrolla la transición
desde la visión técnica/tecnológica hacia la implementación concreta de la
espacialización en la música electroacústica, centrándose en la problemática
estética y práctica que surge en la difusión de la obra electroacústica.
Los siguientes dos capítulos presentan propuestas que se orientan hacia el
análisis estético y técnico-musical de la espacialidad en la música. El capítulo
viii (Kendall) propone un marco conceptual para el análisis de la espacialidad
en la música electroacústica desde la perspectiva de la psicología cognitiva.
Concretamente, este enfoque está basado en los conceptos de “atributos espa-
ciales” y de “esquemas auditivos”. El capítulo ix (Fessel) aborda la espacialidad
del sonido desde el ángulo de la música instrumental del siglo xx. Es la noción
de textura, que según Fessel comienza a desarrollarse de manera significativa
en la música del siglo xx, la que provee las tendencias básicas (descentramien-
to y concreción) a partir de las que es posible pensar en un espacio musical
segmentado, múltiple y particular.
Finalmente, los tres últimos capítulos tratan diferentes casos de puesta
en obra de la espacialidad de la música y el sonido, de manera general uno de
ellos, y de forma específica los otros dos. En el capítulo xi, Liut enfoca la espa-
cialidad en la producción sonora desde la perspectiva de su correlación con los
espacio-entornos. En dicho enfoque se tienen en cuenta tanto las cuestiones
físicas como la carga semántica y la disposición de los oyentes, que surgen de
–o sugieren– los diferentes entornos. En el capítulo x, el autor considera algu-
nas instancias generales pero, sobre todo, las específicas a su obra Interiores, a
partir de lo que denomina una “integración de la música al espacio virtual”.
Finalmente, en el capítulo xii Pampin desarrolla los aspectos tecnológicos y
estéticos de la espacialidad en dos de sus obras (UOM y Entanglement) y provee
una base conceptual para la vinculación de estos aspectos con la carga refe-
rencial e histórica de los entornos de audición.
La complejidad conceptual y técnica de los artículos originales en inglés
requirió una revisión detallada de sus traducciones, tarea que estuvo a cargo
de Juan Pampin. Los compiladores, además, desean agradecer muy especial-
mente al licenciado Emanuel Bonnier (aka Lord-of-the-graphic-vectors), cuya
pericia y dedicación posibilitó la confección de las imágenes que ilustran los
capítulos i, ii y vi.
Vale la pena destacar que los autores que participan en este libro, además
16
de ser especialistas en los aspectos científico-tecnológicos del área que los
ocupa, son músicos formados y activos. Esto último asegura que, por técnico
que sea el tratamiento de cada tema, siempre esté enlazado con la producción
y la performance musical-sonora. Resulta difícil sugerir un lector ideal pen-
sando en disciplinas o áreas de formación tradicional, cristalizada y estanca.
Antes bien, una de las cualidades imprescindibles del lector que esperamos,
debería ser su disposición a explorar uno de los aspectos más concretos y, a la
vez, más misteriosamente inasibles de la música, el espacio, sin confinarlo a
una disciplina aislada.
Gustavo Basso
Oscar Pablo Di Liscia
Juan Pampin
17
Los autores
19
llos en aplicaciones informáticas para música y audio digital, estética y teoría
compositiva.
20
Gary S. Kendall (Escuela de Música y Artes Sonoras, Centro de Investigación
en Artes Sonoras, Queen’s University, Belfast, Irlanda del Norte). Obtuvo
su Ph.D. en la Universidad de Texas, Austin, en 1982. Luego fue profesor
asociado y jefe del programa en Tecnología de la Música en la Northwestern
University. Desde 2008 es profesor invitado en el Centro de Investigación en
Artes Sonoras de la Queen’s University. Ha publicado numerosos artículos
sobre audio 3D y espacialización de sonido, entre otros, en Computer Music
Journal, Organised Sound y la icmc. Sus investigaciones se han presentado en
la Electroacoustic Music Studies Conference, seamus, la Audio Engineering
Society y la Acoustical Society of America. Sus composiciones se han
difundido en seamus, el festival Spark y el Florida Electroacoustic Music
Festival.
21
Capítulo I
Audición espacial de sonido: conceptos básicos
y estado actual de la cuestión
Gustavo Basso
Oscar Pablo Di Liscia
23
ámbito o recinto se tratan extensamente en el capítulo ii. Sin embargo, dado
que todas las particularidades de la audición espacial son interdependientes y
que es prácticamente imposible tratar a una de ellas de manera completamen-
te aislada de las otras, se realizan algunas menciones a la audición de recintos
cuando resulta imprescindible.
Plano
Plano medio
frontal
Atrás r
º
º
Adelante
º
Plano º
horizontal
24
Indicios de ubicación espacial de sonido
25
fuente acústica en el ángulo horizontal. Varía entre 0 y 690 µs para señales
cuyos ángulos de azimut corresponden a 0º y 90º, respectivamente. Como
una onda acústica que se propaga en el aire tarda aproximadamente 30 µs en
recorrer 1 cm, para ir de un oído al otro necesita aproximadamente 690 µs.2
Si las señales son estrictamente sinusoidales, una diferencia de tiempo
equivale a una diferencia de fase. A bajas frecuencias la información conteni-
da en la diferencia de fase es significativa, pero a altas frecuencias la longitud
de onda es menor que la distancia entre oídos y la diferencia de fase provee
datos ambiguos. A una longitud de onda de 23 cm, similar a la distancia
promedio entre oídos, le corresponde una frecuencia de 1.500 Hz. Si la señal
posee 10 kHz entran varios ciclos completos en esa distancia y la fase deja de
aportar información espacial unívoca. En la figura 2 se pueden apreciar estas
dos situaciones.
a)
º
Baja frecuencia
F1
b)
F1
F2
Alta frecuencia
26
En este caso, los movimientos de la cabeza reducen en parte la ambigüedad de
fase, pero ésta resulta muy grande para frecuencias por encima de los 1.500 Hz
y el mecanismo de itd pierde toda efectividad.
En la figura 3 se aprecia la diferencia de recorrido en función del ángulo
de entrada de las señales que llegan a los oídos.
sen
Figura 3. Cálculo de la diferencia de recorrido entre las señales que llegan a ambos oídos
d = r θ + r sen θ
0,6
0,5
0,4
0,3
0,2
0,1
0,0
0º 20º 40º 60º 80º 100º 120º 140º 160º 180º
27
IID (diferencia interaural de intensidad)
30
20
6000 10
Diferencia interaural de intensidad (dB)
0
5000 10
0
4000 10
0
Fecuencia (Hz)
3000 10
0
2500 10
0
1800 10
0
1000 10
0
500 10
0
200 10
0
0º 30º 60º 90º 120º 150º 180º
28
detección de diferencias interaurales de intensidad a la parte superior del
espectro audible.
En cuanto al mínimo cambio detectable en la iid, se ha comprobado que
llega a 1 dB para señales frontales siempre que la frecuencia de la señal supere
los 1.000 Hz.
Un buen ejemplo relacionado con la iid lo provee la reproducción este-
reofónica, en la que toda la información espacial está codificada únicamente
en términos de diferencias de intensidad (en los registros de audio más cuida-
dos, sin embargo, se contempla también la información de fase).
29
Amplitud 10dB
0º
0º 18º
18º
36º
36º
54º
54º
72º
72º
)I
90º 90º
IH (
106º 106º
126º 126º
144º 144º
162º 162º
180º
180º
0,2 0,5 1 2 5 10 15
Frecuencia (kHz)
Figura 6. Funciones de transferencia desde el campo externo hasta la entrada del canal
auditivo externo (hrtf) con el ángulo horizontal θ como parámetro
3 Cuando las señales que llegan a los dos oídos son idénticas se dice que el estímulo es dió-
tico, y cuando son diferentes se lo llama dicótico.
30
conocimiento previo de la fuente y de las condiciones acústicas del ambiente
es relevante. Sin embargo, como cada pabellón auricular provee filtros dife-
rentes y conocidos, se los puede separar de los datos espectrales externos.4 G.
Plenge presentó evidencia de que cuando un sujeto no está familiarizado con
las características de la fuente y del ambiente acústico la localización monoau-
ral se degrada (Plenge, 1974). Pero en compensación se requieren muy pocos
segundos para habituarse a la nueva situación. Esta acomodación espacial es de
gran importancia en la audición y ejecución de música en vivo.
Cuando se comparan los espectros de la señal entrante en cada uno de los oídos
se descubren significativas diferencias entre estos. De manera análoga al caso
de las hrtf monoaurales, estas diferencias se deben al efecto complejo de “fil-
trado” debido a la acción del torso superior, cuello, cabeza y, particularmente
en este caso, los pabellones auditivos de los oyentes en función del ángulo de
incidencia del frente de onda. Las diferencias espectrales binaurales son usadas
por el sistema auditivo para la determinación de la posición de la fuente acús-
tica en tres dimensiones (particularmente en el plano medio y en la discrimi-
nación frente-atrás, que es en donde los indicios de itd e iid son ineficaces). La
figura 7 muestra el espectro de la respuesta a impulso en cada uno de los oídos
de un individuo para una ubicación espacial hacia la izquierda de este.
Las mediciones de las hrtf se obtienen realizando los productos de la
función de transferencia de la fuente y del equipo de grabación con el oído
contralateral y el oído ipsilateral respectivamente.
A despecho de que existen sutiles variaciones entre los diferentes indivi-
duos debido a sus constituciones físicas,5 se pueden establecer ciertos rasgos
comunes en las hrtf binaurales que son independientes de estos factores. Por
ejemplo, en lo que respecta a la magnitud no hay duda de que las diferencias
son más marcadas en la región de frecuencia por arriba de 1.500 Hz, y esto
se explica en virtud de que es a partir de esta frecuencia hacia arriba que la
cabeza (por su tamaño en comparación con la longitud de onda de los compo-
nentes de frecuencia de la señal) actúa de manera más efectiva produciendo
una sombra acústica. De hecho, se puede pensar a las diferencias espectrales
binaurales como un posterior “refinamiento” de las iid, que constituiría su
4 Un ejercicio interesante consiste en “aplastar” los pabellones contra la cabeza y salir a dar
una caminata. Es notable como se altera nuestra percepción acústica del espacio al modifi-
car levemente los filtros hrtf.
5 ¡Y aun debido a sus vestimentas!
31
Figura 7. Gráfico de magnitud del espectro de la respuesta a impulso de los oídos izquier-
do y derecho de una cabeza artificial, para una señal ubicada a un ángulo horizontal de
45° y de altitud de 0°. Se realizó una fft de 256 muestras con una ventana Blackman-
Harris*
* El gráfico se generó con las respuestas a impulso medidas a partir de grabaciones binau-
rales realizadas con la cabeza artificial Kemmar (información detallada en: <http://sound.
media.mit.edu/KEMAR.html>).
32
medición por bandas de frecuencia diferentes. También se observan (Kendall,
1995) picos significativos en la región de 3.000 Hz (debidos a la resonancia
del canal auditivo) y valles producidos por la interferencia de ondas directas y
reflejadas en el torso (debajo de los 2.000 Hz) y en los pabellones auriculares
(arriba de los 4.000 Hz). Cuando la fuente de sonido se mueve desde el frente
hacia atrás, se observa que el ancho de banda del valle cercano a los 3.000 Hz
crece y que un valle cerca de los 8.000 Hz se traslada hacia arriba. En lo que
respecta a la fase, también existen diferencias significativas entre un oído y
otro. Dado que estas diferencias son especialmente sensibles al tamaño de la
cabeza de los individuos, varían significativamente de uno a otro y, particu-
larmente, de niños a adultos.
Los indicios relativos a la distancia que se tratarán son los siguientes: 1) inten-
sidad global del sonido; 2) proporción entre la señal reverberada y la señal
directa; 3) absorción de altas frecuencias; y 4) efecto de proximidad.
33
Figura 8. Amplitud de la señal directa y de la reverberada
34
línea punteada muestra la amplitud de la reverberación. Puede observarse que
esta última se mantiene constante. Como consecuencia de esto, la proporción
entre la intensidad de la señal directa y la reverberada en el punto de audición
cambia. En el tercer caso ambas son iguales mientras que, en el cuarto caso, la
reverberación tiene mayor intensidad que la señal directa.
35
A(f) = f / 100.000
Tabla 1. Atenuación al aire libre en dB para una señal a 500 y 1.000 Hz en función del
viento y el tipo de cobertura del terreno
Pasto ralo 3 dB 3 dB
Árboles 8 dB 10 dB
Efecto de proximidad
36
Supongamos que la diferencia de recorrido de la onda al alcanzar la cara
frontal y la posterior del diafragma sea de 10 mm. Como la longitud de onda es
función de la frecuencia, a igual intensidad habrá mayor diferencia de presión
a altas frecuencias. Esto se puede apreciar esquemáticamente en la figura 10.
Figura 10. Forma de onda de dos señales. En la señal de baja frecuencia, la diferencia de
presión –en líneas gruesas– es menor que en la de alta frecuencia
Esta dependencia entre la presión y la frecuencia genera una curva que crece
a razón de 6 dB/octava, como se muestra en la figura 11.
El otro componente que produce el gradiente de presión a ambas caras
del micrófono es la diferencia de intensidad provocada por la distancia a la
fuente y que sigue, como ya se explicó, la ley del inverso del cuadrado de la
distancia. La combinación de ambos factores (presión y distancia) se puede
ver en la figura 12.
37
Figura 11. Aumento de la presión entre ambas caras del diafragma de un micrófono en
función de la frecuencia
38
Figura 13. Resultado de la aplicación de una atenuación de -6 dB/octava para una fuente
alejada
Mientras la fuente quede lejos del micrófono, la respuesta resulta casi plana.
Pero si la fuente se acerca mucho, debido a la ley del cuadrado de la distancia,
su componente crece significativamente y “empuja” la curva resultante hacia
arriba, como se aprecia en la figura 14.
39
Se produce así el llamado “efecto de proximidad”. Su magnitud depende
del diseño del micrófono, pero es generalmente mayor en los direccionales por
gradiente de presión, y nulo en los omnidireccionales.
La curva de audibilidad del oído humano posee una atenuación hacia las
altas frecuencias, similar a la descripta. Es por eso que el efecto se percibe direc-
tamente al acercar una fuente acústica a unos pocos centímetros del oído. Sin
embargo, el efecto no es tan pronunciado como en el caso de un micrófono de
gradiente de presión. Una situación común en la que oímos el efecto de proxi-
midad es cuando se enfatizan las bajas frecuencias de la voz de un locutor.
40
iguales de energía acústica en todas las direcciones. La que se encuentra al
costado izquierdo es altamente direccional, con un patrón que suele denomi-
narse “hipercardioide”. En ambos casos, las flechas marcan la magnitud de la
radiación de la energía acústica hacia la dirección a la que apuntan (simboli-
zan vectores de radiación).
Figura 15. Esquema bidimensional de radiación de dos fuentes acústicas, a la derecha del
oyente una fuente omnidireccional, y a la izquierda una fuente direccional con patrón
hipercardioide
41
a. Características direccionales del violín
para cinco frecuencias diferentes
42
b. Características direccionales de la tuba
para cinco frecuencias diferentes
43
c. Características direccionales de un piano de cola
para cinco frecuencias diferentes
44
d. Características direccionales del corno
para cinco frecuencias diferentes
45
di(f) = 10 log10 Q(f)
46
Figura 18. Efecto espectral de la directividad de un altavoz (basado en Ballou, 1991, p. 555)
47
Figura 19. Diagrama direccional en 3D de un altavoz (realizado con el software CATT-
Acoustic)
48
Figura 20. (Continuación)
49
Figura 21. Arreglo vertical y cluster central de altavoces
50
Si el diseño que se explicó se realiza de la manera adecuada, es posible asegurar
que cada uno de los espectadores recibirá una cantidad adecuada de energía
acústica sin grandes distorsiones de espectro o fase.
51
plano horizontal como en el vertical. Cada instrumentista tocaba notas cortas
aisladas que fueron grabadas filtrándolas por bandas de octava, desde 125 Hz
hasta 8.000 Hz. Se registraron así las variaciones de directividad en función
de la frecuencia de cada instrumento y se calculó su promedio. Se compro-
baron significativas disparidades en ambas, pero en la dimensión vertical las
variaciones fueron más prominentes (Causse, 2002). Mediante un software
especial de simulación de acústica de salas se realizó un modelo de una cono-
cida sala de conciertos de Suecia.9 Los parámetros acústicos que se tuvieron
en cuenta en tal simulación fueron: nivel de presión sonora (spl), factor de
claridad (C80), fracción de energía lateral (LF80) y tiempo de decaimiento
temprano (edt).10
Se usaron tanto notas específicas de cada instrumento (DO4 para la
trompeta, SI3 para el corno y DO#4 para el clarinete) como su directividad
promedio en todo el rango de su registro. El análisis de los resultados mostró
–como era de esperarse– claras diferencias de distribución espacial en el
recinto que son atribuibles a la directividad de cada instrumento usado. Las
más significativas fueron las de spl y C80, menos pronunciadas para LF80 y
prácticamente nulas para edt.
También se realizaron experimentos de audición con once oyentes entre-
nados previamente y que estaban acostumbrados a escuchar en la sala real
que fue simulada. Se realizaron auralizaciones de melodías breves (aproxi-
madamente 10 segundos) y se les presentaron a los oyentes de a pares para
que realizaran una elección cualitativa forzada entre ambas en base a cinco
parámetros subjetivos: sonoridad, reverberación percibida, claridad, facilidad
de localización y naturalidad del timbre instrumental.
El estudio estadístico de los resultados de los test dio como resultado que
el parámetro perceptual favorecido fue la sonoridad (todos los sujetos pudieron
percibir la diferencia de intensidad debida a la directividad específica de cada
fuente), luego la reverberación (fue distinguida en dos de los tres instrumentos),
la claridad solo fue importante para el corno, mientras que tanto las diferencias
en la audibilidad de la localización como del timbre fueron irrelevantes.
52
hacia la determinación de cuáles son los rangos de variación perceptibles de
un indicio, en qué medida nuestro sistema auditivo tiene en cuenta la infor-
mación que proporciona, y cuáles son las condiciones que debe cumplir la
señal acústica para ser portadora de esa información.
Dentro de los más significativos trabajos en este sentido se cuenta el
de Wightman y Kistler (1995). En él sus autores realizan una clara reseña
y clasificación previa de los indicios utilizados por nuestro sistema auditivo
en la localización angular de sonido y luego describen los experimentos que
realizaron para juzgar cuáles indicios, y en qué condiciones, son considerados
más relevantes por nuestro sistema auditivo en una situación dada.
La clasificación de Wightman y Kistler se basa en dos criterios combina-
dos: a) las señales consideradas (binaural o monoaural); y b) la información
evaluada (temporal o espectral). La tabla 2 ilustra esquemáticamente los
indicios y su clasificación.
Temporal Espectral
1. IID
Binaural ITD
2. Diferencias espectrales binaurales
53
de oyente a oyente (un indicio altamente idiosincrásico, como las hrtf, es
menos confiable) y en qué medida la información provista por el indicio no
es ambigua.
Las conclusiones generales respecto de la confiabilidad favorecen a la itd
en primer lugar, y luego a la iid. Sin embargo, se deben remarcar las observa-
ciones de los autores respecto de la magnitud de la ambigüedad, en el sentido
en que, tanto la itd como la iid son ambiguas, dado que una determinada itd
o iid no es indicio de una sola posición espacial. Como un simple ejemplo de lo
antedicho, piénsese en una fuente acústica que se mueve en el perímetro de un
círculo en el plano medio, con la cabeza del oyente en el centro. En este caso,
tanto las itd como las iid que se registren serán iguales a cero y, por lo tanto,
deberemos recurrir a otros indicios para determinar la posición de la fuente en
el ángulo de elevación.
54
dado que los “...estímulos de banda angosta proveen un conjunto típicamente
ambiguo y empobrecido de indicios...”. En la consideración específica de las
regiones del espectro en las que cada indicio opera con mayor intensidad, es
importante observar que los principales indicios alcanzan mayor efectividad
en diferentes regiones del espectro, compensando de esta manera las limita-
ciones de los otros. La tabla 3 muestra un resumen de las conclusiones:
Tabla 3. Los indicios de localización y la región de frecuencia en la que son más promi-
nentes, según Wightman y Kistler (1995)
55
Sin embargo, en las señales acústicas producidas artificialmente es com-
pletamente posible lograr, para distintas bandas de frecuencias, datos contra-
dictorios en el mismo indicio. Wightman y Kistler, a través de numerosos tests,
comprueban que nuestro sistema auditivo es capaz de seguir al indicio plausible
y descartar aquellos que no lo sean. Los datos de sus experimentos son muy sig-
nificativos, porque demuestran que basta un solo dato respecto de un indicio en
una banda de frecuencia que sea inconsistente con los datos del mismo indicio
en otras bandas de frecuencias para que el sistema auditivo debilite totalmente
la importancia de ese indicio y siga a otros que sean consistentes.
56
intensidad acústica de la señal no es lineal) depende fuertemente del conoci-
miento a priori de las fuentes acústicas involucradas. De hecho, no se piensa
que el sonido producido por una persona susurrando cerca del oyente es más
fuerte que el sonido producido por una persona gritando lejos, aun cuando la
primera señal superara en energía intensidad a la segunda.
Las diferencias espectrales que se producen por el efecto del aire en fun-
ción de la distancia de la fuente son solo efectivas a distancias mayores de
30 m y requieren por parte del oyente un conocimiento de las características
de la fuente acústica.
El indicio más efectivo en la apreciación de la distancia entre la fuente
acústica y el oyente es la proporción entre reverberación y sonido directo. Sin
embargo, ya que tal indicio sólo se manifiesta en recintos, es interesante descri-
bir lo que ocurre cuando los oyentes son privados de estos indicios. Por ejemplo,
en el campo libre no actúa el sistema de evaluación de la perspectiva relaciona-
do con la reverberación, y la precisión de los juicios con relación a la distancia
se reduce significativamente. Estas situaciones se han estudiado en experiencias
de laboratorio, con fuentes sinusoidales ubicadas en cámaras anecoicas, en las
que se preserva solamente la información relacionada con la intensidad física.
Un estudio relativamente reciente (Zahorik, 2002) revela que existe
en el sistema auditivo una tendencia a subestimar distancias grandes (i.e.,
percibir que una fuente lejana está más cerca de lo que en realidad está) y
sobreestimar distancias pequeñas (i.e., percibir que una fuente cercana está
más lejos de lo que en realidad está). Además de ello, en dicha investigación
se demuestra que la importancia asignada a los dos indicios que se estudiaron
(intensidad y proporción entre sonido directo y reverberación) varía signi-
ficativamente en función de los dos estímulos usados (ruido y habla) y de la
posición angular de la fuente en el plano medio (0° a 90°).
Consecuentemente, todo lo antedicho puede constituir la causa por la que
la apreciación que realiza nuestro sistema auditivo de la distancia entre la fuente
acústica y el oyente no sea muy precisa.
Efecto Doppler
El efecto Doppler, responsable –por ejemplo– del cambio de altura en las sire-
nas de las ambulancias cuando pasan a nuestro lado, es una importante fuente
de información sobre el cambio en el sentido del movimiento relativo entre el
emisor acústico y el oyente. El efecto Doppler es un fenómeno físico que hace
57
que la frecuencia aparente en el punto de recepción aumente si este se acerca
a la fuente, y que disminuya si se aleja de ella. En la figura 22 se ilustra el caso
con una fuente acústica en movimiento hacia un receptor en reposo.
Si la fuente se encuentra quieta la onda acústica llenará la distancia FR
que la separa del receptor en un tiempo ∆t = FR/c, con c como la velocidad del
sonido en el aire. La longitud de onda en este caso es λ = FR / f ∆t. Pero si la
fuente se desplaza hacia el receptor a velocidad vF la onda acústica recorrerá
en el mismo tiempo una distancia menor F’R. La fuente se habrá movido en
ese lapso una distancia F’R – FR = vF ∆t y la nueva longitud de onda será λ’
= F’R / f ∆t. Tomando en cuenta la relación general v = λf y luego de algunas
operaciones algebraicas sencillas se tiene que:
c - vF
f’ = f
c
En la ecuación anterior f es la frecuencia de la señal emitida por la fuente y f ’
es la frecuencia aparente en el punto de recepción. Si se considera también la
posibilidad de movimiento del receptor a velocidad vR la ecuación se modifica
levemente:
c - vF
f’ = f
c - vR
La simulación del efecto Doppler tiene un impacto significativo en la plau-
sibilidad de los efectos especiales para cine y multimedia y se emplea desde
hace tiempo en música electroacústica a partir de módulos específicos de
procesamiento.12
Figura 22. Efecto Doppler con una fuente F en movimiento a velocidad vF hacia un recep-
tor R en reposo
58
Efecto Haas o efecto de precedencia
Bibliografía
59
Kirkwood, B. et al (2003), “Perceived influence of changes in musical ins-
truments directivity representation”, SMAC03 Proceedings, Estocolmo,
Stockholm Music Acoustics Conference.
Moore, F. R. (1990), Elements of Computer Music, Nueva Jersey, Prentice
Hall.
Plenge, G. (1974), “On the difference between localization and lateraliza-
tion”, Journal of the Acoustical Society of America, vol. 56.
Rossing, T. (1996), “Modes of Vibration and Directivity of Percussion
Instruments”, en <http://www.acoustics.org/press/131st/lay10.html>.
Wallach H., E. Newman y M. Rosenzweig (1949), “The precedence effect in
sound localization”, American Journal of Psychology, 52, pp. 315-336.
Wightman F. y D. Kistler (1995), “Factors Affecting the Relative Salience
of Sound Localization Cues.”, en Gilkey, R. H. y T. R. Anders (eds.)
(1997), Binaural and spatial hearing in real and virtual environments, Nueva
Jersey, Laurence Erlbaum Associates, pp. 1-23.
Zahorik, Pavel (2002), “Assessing auditory distance perception using virtual
acoustics”, Journal of the Acoustical Society of America, N° 111 (4).
60
Capítulo II
Percepción espacial del ambiente acústico
Gustavo Basso
Albert Bregman llamó análisis auditivo de escenas al proceso que permite reunir
en una unidad perceptiva el conjunto de datos provenientes de una fuente
acústica externa (Bregman, 1994). Una fuente acústica es una entidad física
que genera ondas en el aire. Un agregado auditivo es un percepto causado por
un grupo de elementos sonoros que se experimenta como un todo y que parece
emanar de una única fuente acústica externa. Normalmente, las propiedades
emergentes que definen cada agregado están correlacionadas con las propie-
dades de los objetos físicos asociados.
Resulta interesante comparar las estrategias de agrupamiento y segrega-
ción de datos que operan en los sentidos de la visión y de la audición. Existe
una diferencia crucial en el modo en que usamos la energía acústica y la lumí-
nica para obtener información del mundo exterior. Cuando analizamos audi-
tivamente un espacio hacemos uso de la energía emitida por ciertos objetos
físicos (las fuentes acústicas) y casi no tomamos en cuenta la energía reflejada
61
en otros objetos físicos. En una situación normal existe la misma cantidad
de agregados auditivos, que podríamos denominar también objetos sonoros,
y de fuentes acústicas físicas. Las reflexiones –que cambian en función del
contexto espacial– degradan la información que nos llega de cada una de las
fuentes. En consecuencia necesitamos atenuar la información que llega por
reflexión y colocar en primer plano la que nos llega directamente (en una sala
de conciertos situamos auditivamente el piano en el escenario, aun cuando
gran parte de su energía nos llega por reflexión desde las paredes y el cielorraso
de la sala). Por el contrario, la información visual está causada principalmente
por la reflexión de la luz en los objetos de interés. Encendemos una lámpara
no porque nos interese mirarla, sino para ver por reflexión los objetos de la
sala. A diferencia de la gran cantidad de fuentes acústicas que nos acompañan
desde siempre, hubo una sola fuente de luz a la vez a lo largo de gran parte
de nuestro recorrido evolutivo. En resumen, los datos auditivos y visuales son
diferentes y se complementan para brindarnos un panorama verosímil del
mundo exterior.
Las características acústicas del ambiente, que pueden tomar la forma
de reflexiones discriminables o de reverberación difusa, pueden percibirse
separadas de la fuente acústica o pueden integrarse alterando de algún modo
su calidad sonora. El efecto de precedencia describe las circunstancias que
determinan la emergencia de una de estas dos alternativas.
Efecto de precedencia
62
Figura 1. Región de validez del efecto de precedencia
región superior de la figura 1 las reflexiones superan los límites del efecto de
precedencia –llegan muy retrasadas o con demasiada intensidad con relación
a la señal directa– y se las percibe como ecos aislados; en la parte interme-
dia las reflexiones aportan información del entorno acústico en la forma de
ensanchamiento de la imagen auditiva o de sensación de espacialidad; y en la
región inferior las reflexiones se vuelven inaudibles.
El efecto de precedencia se usa, entre otras aplicaciones, para preservar
la localización espacial de la fuente física cuando se emplean varios altavoces
separados por distancias significativas (Basso, 2006).
Perspectiva auditiva
63
el infinito. Si continuamos desarrollando la analogía con el sentido de la vista,
se podría decir que la sonoridad disminuye con la distancia tal como ocurre
con el tamaño aparente de los objetos, y que la definición tímbrica se atenúa
de modo similar al gradiente de color en la visión. La distancia aparente de
la fuente acústica que define la perspectiva auditiva compone una importante
dimensión psicoacústica, aunque no siempre es reconocida como tal. Los
investigadores que desarrollan dispositivos acústicos para cine y sistemas mul-
timedia han concentrado gran parte de su interés en el perfeccionamiento de
modelos virtuales de perspectiva auditiva.
En el dominio de la audición la constancia de la sonoridad funciona de
modo análogo a la constancia de tamaño para el sentido de la vista. Si una
fuente acústica de intensidad constante se aleja de nosotros, la intensidad físi-
ca que nos llega disminuye proporcionalmente con el cuadrado de la distan-
cia. No debe sorprendernos entonces que una fuente cuya intensidad decrece
parezca alejarse. Sin embargo, también podemos experimentar la sensación de
oír una fuente acústica que disminuye de intensidad sin alejarse –un instru-
mento musical en decrescendo–, cuyo equivalente en el campo visual podría
ser un globo que se desinfla.
La figura 2 sintetiza los trabajos de John Chowning a partir de una gran
cantidad de experimentos sobre la perspectiva auditiva (Chowning, 1999).
Representa una generalización del cambio de la composición espectral de una
señal de banda ancha en función de la altura tonal, la dinámica y la distancia.
A causa de la gran cantidad de dimensiones necesarias para describir los datos
físicos se han incluido espacios bidimensionales (espectros de potencia) den-
tro de un espacio tridimensional cerrado.
Una fuente de información adicional sobre la distancia aparente de
la fuente la proporciona la reverberación del recinto. La percepción de la
reverberación de un campo acústico se puede considerar un caso especial
de integración auditiva. El tiempo de reverberación de un espacio –abierto
o cerrado– aporta información sobre sus características generales: mate-
riales, forma, volumen, distancia a la que se encuentra la fuente acústica,
etcétera.
La relación entre la intensidad de la onda directa y la de la reverbe-
ración es interpretada por el oyente como un índice de distancia. En un
espacio cerrado típico la intensidad del campo reverberante no varía con
la distancia a la fuente, mientras que el sonido directo sí lo hace. Sabemos,
por experiencias previas, que el nivel del campo reverberante depende de
la intensidad de la fuente que lo excita y usamos este conocimiento para
evaluar la intensidad y distancia de las fuentes acústicas en recintos cerrados
(Basso, 2006).
64
Figura 2. Espacio distancia-intensidad-frecuencia según Chowning
Acústica de salas
65
salas no había progresado y el tratado de Vitruvio seguía siendo la referencia
obligada. Los intentos por reunir teoría y práctica llevaron a la creación
de complicados sistemas de imposible realización. El maravilloso tratado
Musurgia Universalis, editado en 1650 por Athanasius Kircher, es el mejor
ejemplo que nos ha llegado del intento moderno por derivar la acústica de
salas de principios geométricos simples.
En forma paralela, la construcción de espacios destinados a representacio-
nes teatrales y líricas seguía las reglas empíricas que permitieron el desarrollo
que va desde el teatro circular medieval hasta el teatro de ópera en herradura,
una de las tipologías arquitectónicas más exitosas de la historia. Pero, mas allá
de dichos procedimientos empíricos, no existía una comprensión profunda de
los principios que rigen la acústica de salas. Vale a modo de ejemplo la con-
clusión de Charles Garnier, el arquitecto que diseñó la Ópera de París en la
década de 1870. Luego de revisar casi por completo la literatura sobre acústica
de salas de su época, declaró que la acústica le resultaba una “ciencia extraña”,
en la que las reglas y los principios se contradecían entre sí.
A fines del siglo xix se habían consolidado dos tipologías arquitectóni-
cas que llevaron a la creación de las dos grandes formaciones instrumentales
dominantes durante el período: la orquesta sinfónica romántica y la combina-
ción de orquesta y canto en la gran ópera.
En el caso de la ópera la tipología arquitectónica provenía en línea direc-
ta de los teatros en herradura italianos del siglo xviii (Alla Scala de Milán,
La Fenice de Venecia), con algunas variantes locales como en los casos de la
planta circular de la ópera de París o el ejemplo solitario del teatro del festival
de Bayreuth diseñado por Richard Wagner.
En cuanto a la música sinfónica, la necesidad de albergar la mayor canti-
dad posible de espectadores –convertida en exigencia a partir de la revolución
francesa– determinó la tipología estándar de los auditorios. El ancho quedaba
determinado por las vigas transversales de madera más largas necesarias para
sostener el techo –entre 20 m y 24 m–, el largo por la distancia máxima desde
la que se pueden ver con un tamaño razonable los músicos en el escenario. La
altura debía permitir la renovación del aire por convección. Nació así la “caja
de zapatos” característica de la mayoría de los auditorios del siglo xix y de alguna
de las salas del siglo xx. Si a esta caja le agregamos las características de estilo
propias de la época, como casetones, nichos, alto y bajo relieves, esculturas
y otros ornamentos de texturas difusoras, tenemos los elementos básicos que
definen, por ejemplo, al Konzerthaus de Berlín, inaugurado en 1821.
En la actualidad se ha retomado esta tipología arquitectónica, hecho que
no debe sorprendernos. La orquesta sinfónica romántica –pensemos en las
sinfonías de Brahms o de Tchaikovsky– nació y se ajustó en su interior. El
66
Figura 3. Konzerthaus de Berlín
El estudio científico de la acústica de salas para música nació con los trabajos
realizados por Wallace Clement Sabine (1868-1919) a fines del siglo xix. En
67
1895, Sabine, entonces un joven físico de Harvard, fue comisionado para
corregir la acústica deficiente del salón de lectura del Fogg Art Museum.
Tras dos años de estudio y experimentación pudo mejorar considerablemente
la sala. En el año 1900, a raíz de este logro, fue contratado como consultor
acústico para la construcción de un nuevo music hall en la ciudad de Boston,
la primera sala en la que se aplicaría desde el comienzo una teoría acústica
cuantitativa. El diseño de Sabine fue un gran éxito, y el Boston Symphony
Hall es considerado desde entonces como una de las mejores salas del mundo
para música sinfónica.
Durante los años de investigación dedicados tanto al Fogg Art Museum
como al Boston Symphony Hall, y los que le siguieron en los Riverbank
Laboratories, Sabine pudo establecer la relación que existe entre el tamaño
del recinto, la cantidad de material absorbente y la calidad acústica del mismo.
Introdujo el concepto de tiempo de reverberación, definido como el tiempo que
tarda el sonido en extinguirse al cesar la fuente acústica.4 El tiempo de rever-
beración se constituyó, a partir de ese momento, en el principal parámetro
a considerar en el proyecto de una sala para música. Los trabajos de Sabine,
consolidados por el éxito alcanzado con el Symphony Hall de Boston, dieron
inicio a una nueva era en el diseño científico aplicado a la arquitectura.
Modelo de Sabine
El modelo de Sabine establece que la calidad acústica de una sala para música
depende de solo tres parámetros independientes: la sonoridad, el balance y la
reverberación (Sabine, 1922). La sonoridad está relacionada directamente con
la cantidad de energía acústica puesta en juego en el sistema y depende de
la potencia de la fuente y de las características físicas del recinto. El balance
involucra a un conjunto de condiciones temporales y espectrales que tienen
que ver con la preservación del timbre de los sonidos. La mayor contribución
de Sabine fue, sin duda, su teoría de la reverberación.
Según la definición clásica, el tiempo de reverberación (tr) es el tiempo,
medido en segundos, que tarda el nivel de presión sonora en caer 60 dB a par-
tir del momento en que cesa la fuente de señal. Sabine dedujo una fórmula de
cálculo a partir de una hipótesis estadística que supone que la distancia media
entre reflexiones es de 4 V/S, expresión en la que V es el volumen cúbico del
recinto y S la suma de sus superficies interiores. Aunque queda claro que no
todas las posibles geometrías cumplen con esta condición estadística, sí lo
68
hacen las salas estándar en las que ninguna dimensión supera ampliamente a
las otras dos. Por ejemplo, no se la puede aplicar a salas muy largas y angostas,
o con cielorrasos excesivamente bajos.
A partir de esta hipótesis estadística Sabine definió el tiempo de rever-
beración:
Autor TR óptimo
Mozart 1,5 s
Brahms 1,8 s
Stravinsky 1,4 s
El trabajo del consultor acústico nunca fue tan sencillo: solo había que
establecer el tipo de música que se interpretaría en la sala, seleccionar el tr
5La anterior es la fórmula de Sabine para calcular la reverberación. Existen otras fórmulas
diferentes, entre las que se destacan las de Eyring, Millington, Fitzroy y Poujoule.
69
óptimo de tablas como la de Kuhl y aplicar la fórmula de Sabine al diseño
arquitectónico definitivo. El resultado, tal como aseguraban los textos de
época, no debería diferir mucho del logrado por Sabine en Boston.
Figura 4. Decaimiento exponencial teórico del nivel de presión sonora en una sala de alta
difusión
70
Figura 5. Medición del nivel de presión sonora en una sala de difusión media
71
comentó que la impresión general era que la sala sonaba como “un gran
limón amarillo de 16 millones de dólares”. George Szell, director estable de la
Orquesta de Cleveland, se mostró francamente desanimado. Los juicios más
frecuentes hablaban de la falta de bajos, del sonido plano y de la dificultad de
ejecución instrumental en el escenario. En la actualidad, Beranek admite que
el caso resultó una enorme humillación profesional, pero que algo de respon-
sabilidad les cabe a los arquitectos que modificaron el diseño original.7
Aunque la sala se rediseñó en la década de 1980 –a cargo de Cyril Harris–
y hasta cambió su nombre original por el de Avery Fischer Hall, se la sigue
considerando insatisfactoria. En la actualidad existen nuevos proyectos de
modificación.
Sin embargo, el Philharmonic Hall cumplía todos los requisitos exigidos
por la teoría de Sabine. La crisis fue tan grande que hasta se habló de una
“catástrofe de la acústica clásica”. Sin embargo, el fracaso del auditorio no
fue infecundo: de su autopsia se obtendría nuevo y valioso conocimiento, al
brindar a otros acústicos la gran oportunidad de testear sus propias teorías para
explicar qué fue lo que estuvo mal.
Los fracasos registrados en gran cantidad de auditorios a lo largo del siglo xx,
algunos de ellos resonantes como el caso del Philharmonic Hall, convencie-
ron a un grupo de investigadores sobre la necesidad de revisar por completo
la teoría de Sabine. A fines de la década de 1960 varios autores intentaron
corregir el modelo de Sabine incorporando nuevos parámetros temporales
complementarios. En la figura 6a se puede ver un esquema que representa la
energía acústica que le llega a un oyente desde una fuente acústica impulsiva
en el interior de una sala. La distancia entre emisor y receptor, la geometría
de la sala y las características acústicas de las superficies determinan el retardo,
la intensidad y la composición espectral de cada reflexión. En el reflectograma
de la figura 6b se ve que la señal directa es la primera en llegar, luego aparecen
las señales que se han reflejado unas pocas veces en las superficies, y al final
llega una gran cantidad de reflexiones apenas separadas entre sí. Solamente en
esta porción tardía del reflectograma, en la que la cantidad y la distribución
estadística de las reflexiones permiten aproximar la curva a un decaimiento
exponencial, es posible definir un tiempo de reverberación como el de Sabine.
El patrón total de reflexiones, sin embargo, es claramente no exponencial.
7En la década de 1990 Beranek retomó la investigación en acústica y diseñó las salas del
Tokyo Opera City.
72
a)
b)
Figura 6. Esquema del patrón de reflexiones en una sala típica y reflectograma en un sector
de la platea
73
acústica promedio de las superficies. En teoría pueden realizarse modifica-
ciones en cualquier lugar de la sala con idénticos resultados. En cambio, la
reverberación temprana (edt) es muy sensible a la variación en las primeras
reflexiones que ocurren en la zona próxima a la fuente acústica. A partir del
edt el campo acústico de una sala para música se polarizó definitivamente y
la zona cercana a las fuentes adquirió entidad propia.
Una enumeración de los parámetros acústicos temporales que se utilizan
en el diseño acústico contemporáneo debería incluir el tiempo de reverberación
(tr) (Sabine, 1922; Eyring, 1930); la reverberación temprana (edt) (Atal,
Schroeder y Sessler, 1965; Jordan, 1970); el retardo de la primera reflexión
(Beranek, 1962); la función de crecimiento de la energía; la definición (Thiele,
1953); la relación señal /ruido (Lochner y Burger, 1961); la claridad a 80 ms
y a 50 ms (Reichardt, 1974); el centro de tiempo (Dietsch y Kraak, 1986); y
muchos otros que, aunque resultan útiles en diferentes contextos, poseen una
característica común: son monofónicos.9
74
Este método permitió la casi instantánea comparación entre la acústica
de dos salas diferentes –o de dos butacas de la misma sala– con la misma fuente
acústica y la misma pieza de música. Los sujetos podían comparar las salas con
su memoria de corto término, cosa imposible de realizar con las salas reales.
Si se utiliza el método de elección forzada entre dos alternativas, en el que el
oyente está obligado a elegir una sala de cada par que se le presenta, es posible
establecer un orden de preferencia perceptual. Es decir, se puede construir una
escala de calidad acústica comparativa.10
Los datos obtenidos fueron sometidos al análisis de factores multidi-
mensionales, y los resultados de las preferencias perceptuales (“subjetivas”
según Schroeder) se correlacionaron con diferentes parámetros acústicos
físicos (“objetivos” según Schroeder). En la conclusión del estudio los autores
propusieron la utilización de un parámetro binaural –no monofónico– como
principal criterio para la evaluación de las bondades acústicas de una sala. Este
parámetro, el coeficiente de correlación cruzada interaural (iacc), cuantifica la
diferencia entre las señales que llegan a los dos oídos del oyente y se relaciona
con la impresión espacial que este percibe.11 Schroeder propuso al iacc como
el parámetro más destacado para la evaluación de la calidad acústica de una
sala, aun por encima del tiempo de reverberación clásico. A partir de ese
momento el tr dejó de ocupar la posición de privilegio que había mantenido
desde los trabajos iniciales de Sabine.
El iacc da una medida de las diferencias entre las ondas que llegan a los
dos oídos. Si estas son iguales toma el valor 1, y si las dos ondas son estadísti-
camente independientes vale 0. A partir del iacc, Leo Beranek (1996) definió
el factor de espacialidad (1–iacc) que se emplea en la actualidad. Cuando un
oyente está inmerso en un campo acústico de alto factor de espacialidad se
siente “rodeado” por el sonido, y dicha sensación de inmersión en un ambien-
te –que incluye tanto a la fuente como a su entorno cercano– es uno de los
factores más apreciados a la hora de evaluar la calidad acústica de una sala
para música.
A modo de ejemplo, en la figura 7 se pueden ver las respuestas al impulso
presentes a los oídos derecho e izquierdo de un oyente situado en la segunda
bandeja de la Sala Ginastera del Teatro Argentino de La Plata.
10 Se pueden realizar varias críticas al método, que soslaya el juego dinámico establecido
durante la ejecución de música en vivo al eliminar la sensibilidad de la fuente frente al
flujo de información proveniente del recinto. Sin embargo, su capacidad para enfrentar casi
simultáneamente dos salas diferentes constituye un mérito imposible de negar.
11 La descripción matemática de este parámetro se encuentra en el apéndice de este capí-
tulo.
75
Figura 7. Ecogramas simulados en computadora para la segunda bandeja de la Sala
Ginastera del Teatro Argentino de La Plata
Figura 8. Correlación cruzada entre dos señales y definición del iacc. En abscisas se indica
el tiempo de retardo de la señal entre ambos oídos
76
El iacc da cuenta de las pequeñas diferencias entre ambas señales. En el caso
de la figura 7, el iacc de la segunda bandeja del Teatro Argentino resultó de
0,26 y el factor de espacialidad (1–iacc), de 0,74. Como referencia, el criterio
de Ando, Barron e Hidaka establece que el factor de espacialidad debe ser
mayor que 0,60 en una buena sala.12
No hay que confundir este verdadero parámetro espacial con la fracción
lateral de energía (le) (Barron, 1971) que, aunque correlacionado con el
iacc, es un parámetro monofónico que compara la salida de un micrófono de
diagrama bidireccional (con lóbulos en forma de 8) con la de un micrófono
omnidireccional (Ando et al., 1997).13
Desde la llegada de los criterios espaciales se incorporaron al diseño de
salas gran cantidad de elementos difusores de sonido entre los que se des-
tacan los estocásticos y los basados en la teoría de los residuos cuadráticos
(Schroeder, 1979 y 1980). En las salas construidas durante los siglos xviii y
xix la profusión de estatuas, columnas y adornos de gran tamaño contribuía al
establecimiento de campos acústicos difusos.
Las señales que llegan desde el plano medio (las diferencias interaurales de
tiempo ∆t y de intensidad ∆I son nulas) son las que generan mayores valores
de iacc y menores factores de espacialidad. Las salas simétricas con cielorrasos
planos, que suponen diferencias ∆t y ∆I ≅ 0 son, en consecuencia, las de peor
comportamiento en ese sentido. Sin embargo, aumentar el factor de espacia-
lidad (1–iacc) no significa simplemente “correr” la señal de un oído al otro.
Por ejemplo, si la señal llega antes y con mayor intensidad al oído derecho –en
cuyo caso las diferencias interaurales de tiempo ∆t y de intensidad ∆I no son
nulas–, no implica necesariamente que esté decorrelacionada. Como el tiem-
po máximo de desajuste τ permitido entre las señales es de 1 ms, el iacc podría
tomar un valor cercano a 1.14 Es decir, si las dos señales son muy parecidas y
están solo desfasadas el factor de espacialidad no aumenta necesariamente.
Sacar provecho de estos principios teóricos no es sencillo. La aplicación
práctica de los criterios acústicos espaciales se puede dividir para su estudio
en dos grupos: los que se basan en el diseño geométrico del recinto y los que
parten de la eliminación de las reflexiones especulares.
77
Factor de espacialidad y geometría
78
La orientación relativa de las paredes, por otra parte, incide notablemen-
te sobre el valor del factor de espacialidad. En la figura 11 las paredes paralelas
contribuyen significativamente al total de energía que le llega lateralmente
al espectador.
En cambio, en una sala con paredes que se abren hacia el fondo –carac-
terística de muchos auditorios y cines construidos en las décadas de 1950 y
1960–, las paredes no aportan energía lateral. El factor de espacialidad en esta
clase de salas es, de no mediar algún factor compensatorio, muy bajo.
79
Figura 12. Energía lateral en una sala con planta en forma de abanico
Reflexiones difusas
80
Una superficie difusora devuelve la energía en un abanico de direcciones
diferentes. En general, la modulación volumétrica de una superficie difunde
las señales que posean longitudes de onda del orden de su tamaño. Cuanto
más grandes las irregularidades –molduras, casetones, columnzas, esculturas,
altorrelieves, etc.–, más baja será la frecuencia a partir de la cual la superficie
comienza a comportarse como difusora.
Los estilos arquitectónicos de los siglos xviii y xix presentaban gran canti-
dad de elementos difusores. En contraste, durante gran parte del siglo xx pre-
valecieron las grandes superficies lisas. Al descubrirse la gran importancia de la
difusión espacial en la calidad acústica de una sala, los arquitectos reclamaron
el diseño de elementos difusores compatibles con las nuevas concepciones
estéticas. Por ejemplo, las formas cilíndricas de la figura 15 difunden acepta-
blemente las ondas acústicas.
En el año 1979, Manfred Schroeder publicó un artículo en el que proponía
el desarrollo de superficies difusoras de gran rendimiento. Basadas en secuencias
matemáticas específicas (números primos, residuos cuadráticos, etc.) permiten
un control detallado tanto de las características espaciales como del rango de
frecuencias útiles. En la figura 16 se puede ver la estructura de un difusor de
Schroeder.
La respuesta en frecuencia de esta clase de difusores se puede controlar en
la fase de diseño: la frecuencia de corte inferior, a partir de la que se muestran
efectivos, depende de la profundidad de las celdas. La frecuencia de corte supe-
rior, por su parte, es función del ancho de las celdas.
81
Figura 16. Difusor de Schroeder basado en la teoría de los residuos cuadráticos
82
a)
b)
83
Figura 18. Planta del auditorio de Kirishima
84
Figura 19. Cielorraso del auditorio de Kirishima
85
Figura 21. Reflectores que aportan energía lateral en el Christchurch Town Hall
86
las señales cuya longitud de onda resulte menor que el tamaño del reflector
serán afectadas por este. En otros términos, cada reflector actúa como un filtro
pasaaltos cuya frecuencia de corte es función de su tamaño. Es posible com-
binar varios reflectores pequeños en forma de red de difracción para obtener
frecuencias de corte más bajas que las que se consiguen con un único reflector
de gran tamaño.
Agregado de difusión
87
Figura 24. Agregado de difusión al cielorraso de la Beethovensaal de Bonn
Como conclusión de este capítulo vamos a comparar dos auditorios para músi-
ca sinfónica muy diferentes que se destacan por su gran factor de espacialidad.
El primero es un exponente clásico de la arquitectura del siglo xix, el Grosser
Musikvereinsaal de Viena, diseñado por Theophil Ritter von Hansen e inau-
gurado en 1870, que se puede ver en la figura 27.
Las paredes paralelas, la profusión de ornamentos de una amplia variedad
de tamaños, el cielorraso alto y de gran difusión, nos indican la presencia de un
gran factor de espacialidad. Lo anterior, unido a un tiempo de reverberación
óptimo, ubica al Musikverein entre los tres mejores auditorios del mundo.
Sabine siguió este modelo, junto al del antiguo Gewandhaus de Leipzig, al
diseñar el Boston Symphony Hall.
El segundo ejemplo que vamos a presentar es la Philharmonie de Berlín
(figura 28). Producto de la colaboración entre Hans Scharoun y Lothar
Cremer, se inauguró en 1963 y es un claro ejemplo de la mejor arquitectura
de su tiempo.
88
Figura 25. Difusores de Schroeder en el estudio de grabación del Conservatorio Gilardo
Gilardi de La Plata
89
Figura 27. Grosser Musikvereinsaal de Viena
90
En este caso el gran factor de espacialidad se obtiene con elementos total-
mente diferentes a los del Musikverein. La sala presenta una profusión de
pequeñas paredes y frentes de bandejas, reflectores sobre el escenario y un
cielorraso de difusión de banda media que arman un campo acústico mucho
menos difuso y más determinístico que el de su par en Viena, pero de similar
efectividad.
El desafío de la acústica actual consiste en obtener los campos acústicos
apreciados por los oyentes al margen de la forma y del estilo arquitectónico
propuesto en cada caso. Quizá en un futuro no muy lejano se diseñe primero el
campo acústico y, sobre él se monte la arquitectura que mejor se le adapte.
91
Apéndice
Descripción de los parámetros citados
Es el tiempo, en segundos, que tarda la energía acústica de una sala en caer los
primeros -10 dB desde el valor existente al interrumpirse la fuente de señal,
multiplicado por 6 (Atal, Schroeder y Sessler, 1965; Jordan, 1970).
Respuesta al impulso
92
fd (t) = pn (t) * gd (t)
∞
∴ f(d, i) (t) = ∑ pn (t) * An w n (t − ∆t n ) * hn (d, i) (t)
n= 0
Esta expresión es la base de casi todos los cálculos que se emplean en el pro-
cesamiento digital de señales o dsp.
∫
T
Φ (τ)=Tlim 0
h(t) h(t + τ)dt
→∞
A=
[∫ ∞
0,05
h 2 (t) dt ]
1/ 2
[∫ 0,05
0
h (t) dt]
2
93
Fracción lateral de energía (LE)
∫
⎡ 0,08 h 2 (t) dt ⎤
8
LE = ⎢ 0,005 ⎥ 100%
⎣ ∫ 0 h 0 (t) dt ⎦
⎢ 0,08 2 ⎥
∫
t0
h d (t) h i (t + τ) dt
0
Φd, i (τ ) = 1/ 2
{∫ t0
0
2
h d (t) dt ∫
t0
0
2
h i (t) dt }
IACC = máximo Φd, i (τ) para τ ≤ 1ms
ERF (τ )= ∫ 0 h 2 (t) dt
τ
94
D50 =
[∫0
0,05
h 2 (t) dt ] 100 %
[∫ ∞
0
h 2 (t) dt ]
Claridad a 80 ms y a 50 ms (Reichardt, 1974)
C 80 = 10log
[∫ 0
0,08
]
h 2 (t) dt
dB
[∫ ∞
0,08
h (t) dt ]
2
C50 = 10log
[∫ 0
0,05
h (t) dt ]
2
dB
[∫ ∞
0,05
h (t) dt ]
2
S /R = 10log
[∫ 0,095
0
a(t)⋅ h 2 (t) dt ] [ dB ]
[∫ ∞
0,095
h 2 (t) dt ]
⎧ 1 0 ≤ t ≤ 35ms
⎪ 1
a (t) = ⎨ − (t −95) 35ms ≤ t ≤ 95ms
⎪ 60
⎩ 0 t ≥ 95ms
95
∫
τ
t ⋅ h 2 (t) dt
t c (τ) = 0
; tc =τlim
→∞ t c (τ)
∫
τ
h 2 (t) dt
0
Bibliografía
96
—— (1996), Concert and Opera Halls: How they Sound, Nueva York,
Acoustical Society of America.
—— et al. (2000), “Acoustical design of the opera house of the New National
Theatre, Tokyo, Japan”, Journal of the Acoustical Society of America, 107
(1), pp. 355-367.
Blauert, J. (1997), Spatial Hearing. The psychophysics of human sound localiza-
tion, Cambridge, mit Press.
Bregman, A. (1994), Auditory Scene Analysis, Cambridge, mit Press.
Chowning, J. (1999), “Perceptual Fusion and Auditory Perspective”, en
Cook, P. R. (ed.), Music, Cognition, and Computarized Sound, Cambridge,
mit Press.
Cox, J. T. y B. Shield (1999), “Audience questionnaire survey of the acoustics
of the Royal Festival Hall, London, England”, Acustica & Acta Acustica,
(85), pp. 547-559.
Eyring, C. F. (1930), “Reverberation Time in ‘Dead’ Rooms”, Journal of the
Acoustical Society of America.
Fitzroy, D. (1959), “Reverberation formulae which seems to be more accurate
with non-uniform distribution of absorption”, Journal of the Acoustical
Society of America.
Haas, H. (1951), “Uber den eingluss eines einfachechos auf die horsamkeit
von sprache”, Acustica, vol. 1. [trad. al inglés, (1972), “The influence of
a single echo on the audibility of speech”, Journal of the Audio Engineering
Society, vol. 20].
Hidaka, T. et al. (1995), “Interaural cross-correlation, lateral fraction, and
low and high frecuency sound levels as measures of acoustical quality
in concert halls”, Journal of the Acoustical Society of America, 98 (2), pp.
988-1007.
Jordan, V. L. (1970), “Acoustical criteria for auditoriums and their relation
to model techniques”, Journal of the Acoustical Society of America, 47, pp.
408-412.
Kuhl, W. (1954), “Uber Versuche zur ermitlung der Gunstigsten Nachhallaeit
Grossen Musikstudios”, Acustica, 4, pp. 618-634.
Morimoto, M. et al, (1994), “Relation between Auditory Source Width
in Various Sound Fields and Degree of Interaural Cross-Correlation:
Confirmation by Constant Method”, Applied Acoustics, 42, pp. 233-238.
Sabine, Wallace (1922), Collected Papers on Acoustics, Cambridge, Harvard
University Press [reimpresión: Dover, 1964].
Schoroeder, M. (1979), “Binaural dissimilarity and optimum ceilings for con-
cert halls: More lateral sound diffusion”, Journal of the Acoustical Society
of America, 65, pp. 958-963.
97
——, D. Gottlob y F. Siebrasse (1974), “Comparative study of European concert
halls: correlation of subjetive preference with geometric and acoustic para-
meters”, Journal of the Acoustical Society of America, 56, pp. 1195-1201.
Wallach, H. et al. (1949), “The Precedence Effect in Sound Localization”,
American Journal of Psychology, vol. 57.
98
Capítulo III
Técnicas de localización espacial de sonido con
altoparlantes usando indicios de intensidad y tiempo
Oscar Pablo Di Liscia
Introducción
En los capítulos i y ii de este libro se han tratado los indicios (i.e., los rasgos
distintivos de la señal acústica) que utiliza el sistema auditivo para evaluar sus
características espaciales.
En este capítulo se tratarán diferentes técnicas para la simulación de los
indicios de intensidad y tiempo en señales acústicas para ser reproducidas con
sistemas de múltiples altoparlantes. Las técnicas que se tratarán no son todas
las existentes, pero se ha intentado cubrir los aspectos más básicos y corrien-
temente utilizados.1
Las aplicaciones y/o dispositivos tecnológicos que trabajan sobre la cua-
lidad espacial del sonido intentan imitar lo mejor posible aquellos rasgos de
la realidad sonora que sirven mejor a sus propósitos. Pero dado que no nece-
sariamente la imitación perfecta de la realidad conduce al resultado percep-
tivo más plausible, y que deben tenerse en cuenta cuestiones de eficiencia y
recursos involucrados, parece no existir una solución tecnológica perfecta. Sin
embargo, se puede afirmar que los numerosos desarrollos e investigaciones en
el tema han producido un considerable progreso en la efectividad perceptiva
de las tecnologías que actualmente se usan.
Las técnicas de dsp (Digital Signal Processing o procesamiento de señal
digital) que se emplean en la espacialización de sonido han sido y son
extensamente investigadas desde hace tiempo. El trabajo de John Chowning
(1971), quien es el primero en desarrollar un programa de computación para
espacialización de sonido, constituye una referencia inicial en esta área.
Afortunadamente existe una gran cantidad de investigación y desarrollo tec-
99
nológico muy bien documentados sobre el tema (véanse Moore, 1983, 1989
y 1990; Chowning, 1971; Dodge, y Jerse, 1985; Kendall et al., 1989; Moorer,
1979; Karpen, 1998 y Cetta, 2007, entre otros) a la que el lector puede recu-
rrir para ampliar lo que se expondrá.
100
resolverse con una función simple. Algunas de las funciones más utilizadas
para el panorámico de intensidad son: la función lineal, la ley del seno y
la energía constante (también llamada ley de la tangente, o panorámico de
coseno/seno).
g1 = 1 - Θ / ΘM E. 1
g2 = Θ / ΘM E. 2
g1 - g 2 sin(Θ s )
=
g1 + g 2 sin(Θ 0 ) E. 3
g1 sin(Θ 0 ) + sin(Θs )
=
g 2 sin(Θ 0 ) − sin(Θs) E. 4
Los valores de ganancia para cada canal que surgen de la ecuación anterior
deben ser normalizados para su uso práctico, ya que solo se establece la rela-
ción entre ellos. Para ese propósito se usa la siguiente fórmula:
p p p
g 1 + g 2 =1 E. 5
En este caso es fácil ver que, dado que la energía acústica equivale al cuadrado
101
de la amplitud, la suma de las ganancias de ambos canales elevada al cuadrado
será siempre igual a la unidad, conservando así la energía total entregada cons-
tante para cualquier ángulo. Es decir:
g1 (Θ)2 + g2 (Θ)2 = 1 E. 7
Finalmente Chowning (1971) postula otra ley para el cálculo de las ganancias
de cada canal:
1 + tan(Θ − Θ max /2)
g (Θ) =1− E. 10
1 2
g 2 (Θ) = 1 + tan(Θ − Θ max /2) E. 11
102
1
g(ch1)
0
1
g(ch2)
0
g(ch1)2 1
+ g(ch2)2
0
g(ch1) 1
+ g(ch2)2 0
Lineal Ley del seno (con p=1) Energía constante Chowning, 1971
Figura 1
nadas por las impresiones subjetivas de cada oyente y de que permite la experi-
mentación extensiva sin grandes costos e infraestructura (Pulkki, 1999); y 3) test
perceptivos realizados con oyentes (Guastavino et al., 2007; West, 1998).
Una de las debilidades de la técnica de panorámico de intensidad
mediante pares de altoparlantes es la falta de homogeneidad de la imagen
sonora que produce. En efecto, cuando la fuente virtual se ubica en el mismo
ángulo que un altoparlante, se obtiene una imagen sonora puntual y precisa,
dado que la energía sonora irradia solo de este altoparlante. Por otro lado,
cuando la fuente sonora virtual se ubica entre dos altoparlantes, la imagen
sonora es difusa, porque se produce por la suma de las señales que emiten. Las
técnicas que usan siempre todos los altoparlantes de un sistema4 poseen una
mayor homogeneidad en este sentido. Desde ya, es obvio que este problema
disminuye en la medida en que se usan más altoparlantes.
Otra de las debilidades del panorámico de intensidad, que es común a
todas las técnicas, es la que se deriva del efecto de precedencia.5 A causa de este
efecto, en la medida en que el/los oyente/s están alejados del punto ideal de
audición tienden a atribuir la ubicación de la fuente virtual al altoparlante
más cercano. La decorrelación de las señales de los diferentes altoparlantes
de un sistema mediante filtros todopaso (alpass) con distribución aleatoria de
las fases en varias bandas de frecuencia ayuda a sobrellevar este incoveniente
(Kendall, 1995).
4 Por ejemplo, Ambisonics. Véase el capítulo v de este libro dedicado a esta técnica.
5 Véase el capítulo i de este libro.
6 En efecto, son técnicas de localización angular.
103
simular sencillamente escalando la amplitud de la señal de la fuente virtual de
manera proporcional a la distancia entre esta y el/los oyentes.7 Para tener en
cuenta la distancia, las ganancias de cada canal de audio en un sistema estéreo
pueden calcularse de acuerdo con las siguientes ecuaciones:
7Por supuesto, existen otras técnicas para simular la distancia entre fuente y oyente/s. Entre
ellas, la utilización de filtros para imitar la absorción de la humedad y el efecto de proximi-
dad. Además, en recintos cerrados, la proporción entre reverberación densa y señal directa
es un indicio muy robusto para la estimación de distancia. Tales recursos no serán tratados,
dado que exceden los objetivos de este capítulo. Véase al respecto: Cetta (2007), Di Liscia
(2004, cap. 9), Moore (1990, cap. 4) y Moorer (1979).
104
Dist = x*x + y*y
amp=
amp= sin(θ -45º) / Dist
cos(θ -45º) / Dist
(amp= 0)
Figura 2
105
de la señal para los altoparlantes i y ii se calcula de acuerdo con el ángulo entre
la fuente y el oyente (θ), y la distancia entre la fuente y el oyente (D).8 Por otro
lado, los altoparlantes iii y iv tienen ganancia cero para el directo en este caso.
8 Para simplificar, los ángulos se indican en grados. Dada la ubicación de los altoparlantes,
es necesario restarle al ángulo de ubicación de la fuente 45° para que esté en el rango de 0°
a 90°(0 a π/2 radianes).
9 Del inglés Vector Based Amplitude Panning.
106
Altoparlante k
Fuente
virtual
Altoparlante n
Altoparlante m
Oyente
Figura 3
pT = g Lnmk. E. 18
en donde gn, gm y gk son los factores de ganancia para cada altoparlante, g = [gn
gm gk] y Lnmk = [ln lm lk] T.
g = pT L-1nmk
⎡l nx l ny l nz ⎤
−1
⎢ ⎥
g = [ pn pm pk ] ⋅ ⎢l mx l my l mz
⎥
⎣ l kx l ky l kz ⎦
E. 19
107
Los valores del vector g deben normalizarse antes poder ser usados, esto se
realiza multiplicando cada uno de ellos por un escalar e, tal que:
1
e
g + g k2 + g m2
2
n
E. 20
Altoparlantes
Ángulo horizontal Ángulo de elevación
y fuente virtual
ln 45° 0°
lk 90° 45°
lm 135° 0°
ln 0,707107 0,707107 0
lk 0 0,707107 0,707107
lm -0,707107 0,707107 0
pT 0 0,939693 0,34202
108
0,707107 0 -0,707107
0,707107 0 0,707107
gn gk gm
109
Figura 4
13 Para mayores detalles sobre la percepción de la directividad de las fuentes acústicas, véase
el capítulo i de este libro.
110
en donde r(θ,α) es la magnitud de un vector de radiación en la dirección θ de
una fuente acústica con orientación α.
A pesar de que la emisión de energía acústica de las fuentes acústicas
reales posee patrones muy complicados, puede aproximarse a través de diseños
esquemáticos expresados mediante ecuaciones. Por ejemplo, un patrón muy
conocido y usado, tanto en audio como en acústica, es el denominado cardioi-
de, junto con sus derivaciones en hipercardioide. F. R. Moore, en su programa
Space (Moore, 1983, 1989), propone modelar en dos dimensiones la radiación
hipercardioide de una fuente acústica a partir de la siguiente ecuación:
2
⎡ (back −1)|α −θ|⎤
r (θ,α) = ⎢1+ ⎥⎦
⎣ π E. 23
Figura 5
111
α = 0, θ = 90 α = 90, θ = 90 α = 270, θ = 90
Figura 6
112
Para calcular la radiación en tres dimensiones es necesario tener en cuenta
tanto el ángulo horizontal (azimut) como el ángulo de elevación de la direc-
ción de la radiación. En algunos casos, resulta útil representar la direccio-
nalidad de las fuentes acústicas con el modelo de cuerpos rígidos, a través de
ecuaciones que expresen las coordenadas cartesianas de los puntos que cons-
tituyen su superficie. Por ejemplo, si se construye una variante arbitraria en
tres dimensiones15 de un patrón cardioide, sus coordenadas cartesianas surgen
de las siguientes ecuaciones:
x = cos(θ)cos(ψ) −π ≤ θ ≤ π E. 24
y = sin(θ)cos(ψ) −π /2 ≤ ψ ≤ π /2 E. 25
z = sin(ψ − c) c ≈ 0,5 E. 26
Figura 7
113
Para calcular la amplitud de la radiación de una fuente acústica imaginaria con
las propiedades de directividad que surgen de esas ecuaciones, simplemente
basta con calcular la magnitud del vector que surge desde su centro (en este
caso, el origen) hasta un punto de su superficie indicado por los dos ángulos del
vector (azimut y elevación). Esto se hace muy sencillamente, ya que:
r(θ,ψ) = x 2 + y2 + z 2 E. 27
16 DirectX es una api (Advanced Programming Interface) para multimedia del sistema ope-
rativo MS Windows.
17 Por ejemplo, los archivos obj de Alias Wavefront que, en su forma más simple, definen
114
una esfera (radiación omnidireccional). Valores cambiantes de acuerdo con
los ángulos podrían representar muy diversos patrones de directividad; este es
el enfoque que usa el entorno SoundScape (Wozniewski et al., 2007).
Finalmente se mencionará la posibilidad del cambio gradual de las carac-
terísticas de directividad de una fuente acústica. Si se cambia gradualmente el
parámetro back en la ecuación 23, por ejemplo, se puede lograr el paso gradual
de una fuente omnidireccional a una fuente hipercardiode.18
t=d/c E. 28
D (x a , y a , z a , x b , y b , z b ) = (x a - x b )2 + (y a - y b )2 + (z a - z b )2 E. 29
Se suelen usar los datos que surgen de las dos ecuaciones anteriores (28 y 29)
para simular: 1) el tiempo de arribo del frente de onda a un solo punto global
18El efecto en el oyente, sin embargo, será el de un cambio de intensidad, a menos que se
simulen los ecos de un recinto teniendo en cuenta la directividad de la fuente acústica y/o se
usen otros indicios espectrales. Véase la sección Simulación de las características de recintos
mediante indicios de intensidad y tiempo (p. 117 de este capítulo).
115
en el que se asume que está el/los oyente/s (Chowning, 1971); 2) el tiempo
de arribo del frente de onda a cada uno de los oídos de un oyente, denomina-
do también simulación de itd; y 3) el tiempo de arribo del frente de onda a
cada uno de los altoparlantes que se ubicarán en puntos determinados de un
recinto para simular una determinada situación de audición. Este último caso
se corresponde con el modelo realizado por F. R. Moore (1989 y 1983) en su
unidad de espacialización Space.
La ecuación 29 puede ser usada para calcular la distancia entre la fuente
virtual y el oyente, y la ecuación 28 para calcular el retardo que debe efec-
tuarse en la señal a los efectos de simular el indicio temporal de distancia. En
general, muchas implementaciones asumen que el oyente está situado en el
origen (x = y = z = 0), por lo que la distancia entre este y la fuente de sonido
se calcula de forma mucho más sencilla:
D = x 2 + y2 + z 2 E. 30
116
el mismo buffer para leer la señal almacenada en él con diferentes retardos,
provistos del hecho ya mencionado de que estos no superen su longitud (véase
Moore, 1990, cap. iv).
La itd (diferencia interaural de tiempo) es un indicio que se produce por
el diferente tiempo de arribo de la señal acústica a los oídos del oyente cuando
la fuente de sonido se encuentra en una ubicación diferente del plano medio
(véase el capítulo i de este libro).
Tomando como base la medida de la distancia de un oído a otro en una
“cabeza promedio” (aproximadamente 20 cm) es muy sencillo calcular el
tiempo de arribo a cada oído de la señal acústica de acuerdo con su ángulo de
posición. Se trata solo de aplicar la ecuación 29 a dos puntos situados respec-
tivamente a -0,1 m y 0,1 m de la posición del oyente.
A pesar de ser un indicio muy contundente de ubicación espacial de soni-
do, la itd no es apta para su utilización en sistemas de altoparlantes porque la
posición de los oyentes y su propensión a mover la cabeza reducen completa-
mente su efectividad.20
Sin embargo, hay dos casos en los que la simulación de retardos no solo es
necesaria, sino inevitable. Uno es la simulación del efecto Doppler y el otro es
la simulación de los ecos tempranos,21 o primeras reflexiones de un recinto.
El efecto Doppler surge, como ya se mencionó (véase capítulo ii de este
libro), de la modificación dinámica de velocidad radial relativa a fuente acús-
tica y oyente. Para implementarlo se usa la misma técnica de buffer circular
ya explicada, pero respecto de un solo punto espacial en donde se supone
que está el oyente. Debe ser mencionado, por supuesto, que tal simulación es
rigurosa solo para el punto en donde se calcula.
Introducción
117
Los primeros ecos son una colección de reflexiones que ocurre aproximada-
mente en los primeros 80 milisegundos a partir del momento en que comienza
la señal directa. Proveen información sobre el recinto y, parcialmente, sobre
la localización relativa de fuente y oyente, siendo especialmente significativo
el lapso entre el comienzo de la señal directa y el primer eco. Pasados los 80
milisegundos, aproximadamente, la colección de ecos es cada vez más densa,
y se percibe de manera estadística. A este otro fenómeno se lo denomina
habitualmente reverberación densa.22
En este capítulo se tratará únicamente la simulación de ecos tempra-
nos, dado que las técnicas que involucra tienen estrecha relación con las ya
explicadas.
capítulo.
118
Para efectos musicales más prácticos25 y considerando una geometría
simple del recinto, la mayoría de las aplicaciones de audio para simulación
de localización y movimiento de una o varias fuentes acústicas en un recinto
implementan el llamado método de la imagen.26 Este método consiste en el cál-
culo de las primeras reflexiones que llegan al oyente clasificadas por orden (es
decir, las de primer orden son las que rebotaron una sola vez, las de segundo
orden dos veces, y así sucesivamente). A pesar de que se sabe que este método
no es completamente apto para la simulación precisa de la respuesta a impulso
de una sala, la aproximación que realiza es suficiente para obtener los ecos
que los oyentes utilizan para conjeturar la localización de la fuente acústica.
La figura 8 muestra las reflexiones de primer orden que surgen de una fuente
omnidireccional de acuerdo con el método de la imagen, con respecto a un
oyente situado en el origen de un plano en dos dimensiones. En este caso, se
obtiene un rayo por cada una de las paredes del recinto.
20
20
(8,12)
(8,8)
(12,8)
(-28,8)
(0,0)
(8,-28)
Figura 8
25 A diferencia del propósito de diseño acústico de salas, que requiere de una mayor preci-
sión en la imitación de fenómeno físico. Véase el capítulo ii de este libro.
26 Image method, en inglés. Véase Allen y Berkeley (1979).
119
El método de la imagen tiene también la ventaja de ser simple y, por consi-
guiente, más fácil de implementar. Consiste en rebatir la imagen de la sala
hacia la izquierda, la derecha, el frente, atrás, arriba y abajo (si se calcula en
tres dimensiones). La nueva posición de la fuente en tales imágenes tiene
una distancia y un ángulo en relación con el oyente que son equivalentes a
la reflexión del orden que corresponda. Si se desea calcular las reflexiones
de segundo orden, estas surgen de un nuevo rebatimiento de las imágenes de
las reflexiones de primer orden obtenidas, y así sucesivamente. En la figura
9 se muestran esquemáticamente en dos dimensiones las fuentes fantasmas
que se calculan para las reflexiones de primer y segundo orden del recinto,
oyente y fuente que se encuentran en el rectángulo central. El orden de las
reflexiones se marca con la intensidad del sombreado.
Las ecuaciones que permiten calcular la posición de las coordenadas
cartesianas de la nésima fuente virtual en tres dimensiones con el método de la
imagen (McGovern, 2004) son:
1−(−1)i
x i = (−1)i x s +[i + ]x r E. 31
2
1−(−1) j
y j = (−1) j y s +[ j + ]y r E. 32
2
1−(−1)k
zk = (−1)k zs +[k + ]zr E. 33
2
donde i , j y k son enteros que indican el número de fuente fantasma. Si algu-
no de ellos es 0, entonces las ecuaciones 31, 32 y 33 retornan la coordenada
cartesiana correspondiente de la fuente, mientras que si son negativos las
ecuaciones retornarán la coordenada cartesiana correspondiente a la fuente
fantasma en la pared opuesta. En estas ecuaciones, xs, ys, zs son las coordena-
das cartesianas de la fuente en el recinto, xr es la dimensión del recinto en la
dimensión x (ancho), yr es la dimensión del recinto en la dimensión y (largo)
y zr es la dimensión del recinto en la dimensión z (alto).
La distancia de dichas fuentes fantasmas (equivalentes a las reflexiones)
al oyente se puede calcular con la ecuación 28 o, si se asume que el oyente
está en el centro, con la ecuación 29.
Por supuesto, a medida que el orden de las reflexiones se incrementa, la canti-
dad de fuentes virtuales a simular crece de manera geométrica. La cantidad k
de reflexiones a calcular en tres dimensiones con el método de la imagen, en
función del orden n de estas surge de acuerdo a la siguiente ecuación (Varga,
2000):
120
((4n + 6)n + 8)n
k= E. 34
3
En la tabla siguiente se muestra una lista de la cantidad de reflexiones a
calcular desde n = 1 hasta n = 10 de acuerdo a la ecuación anterior. Puede
apreciarse claramente con el aumento de reflexiones el proceso de pasaje
progresivo desde ecos tempranos a reverberación densa por la progresiva
acumulación de estos. Es evidente también que el incremento geométrico de
la cantidad de reflexiones en función del orden torna casi imposible su simu-
lación en tiempo real más allá de un orden determinado. Por lo antedicho, la
mayoría de las aplicaciones suele dar al usuario la posibilidad de establecer el
valor máximo de n (orden de los ecos a calcular), o bien un valor de amplitud
que el programa puede usar como umbral mínimo para determinar cuántas
reflexiones debe calcular y simular.27
Figura 9
121
Orden (n) Reflexiones (k)
1 6
2 24
3 62
4 128
5 230
6 376
7 574
8 832
9 1.158
10 1.560
28 Nuevamente debe advertirse que un cálculo y una simulación precisos de tal efecto debe-
rían incluir los cambios en el espectro de la señal en relación a la respuesta en frecuencia
y fase del material que recubre las superficies reflejantes y el ángulo de incidencia de la
122
Fuente
Reflexión
Oyente
Figura 10
cada muestra de audio, o bien a frecuencias menores y utilizar algún tipo de interpolación
entre los valores obtenidos.
31 Si bien, rigurosamente hablando, no se trata de efecto Doppler, la manera de concebirlo
e imitarlo es exactamente igual a la que se usa para la emulación del efecto Doppler en la
señal directa.
123
Conclusiones
Bibliografía
124
Dodge, Ch. y T. Jerse (1985), Computer Music Synthesis, composition and per-
formance, Nueva York, Schirmer Books.
Guastavino, C. et al. (2007), “Spatial audio quality evaluation: comparing
transaural, Ambisonics and stereo”, Proceedings of the 13th International
Conference on Auditory Display, Montreal.
Karpen, R. (1998), “Space and Locsig Ugs”, en The Csound Manual (<http://
www.csounds.com/manual/html/locsig.html>, <http://www.csounds.
com/manual/html/space.html>).
Kendall, G. et al. (1989), “Spatial reverberation, discussion and demonstra-
tion”, en Mattews, M. y J. Pierce, Current Directions in Computer Music
Research, Cambridge, mit Press.
Kendall, G. (1995), “The decorrelation of Audio Signals and its impact on
Spatial Imaginery”, Computer Music Journal, vol. 19, Cambridge, mit
Press.
McGovern, S. (2004), A model for room acoustics (<http://www.2pi.us/rir.
html>, consultado el 20 de febrero de 2008).
Moore, F. R. (1990), Elements of Computer Music, Nueva Jersey, Prentice
Hall.
—— (1989), “Spatialisation of sounds over loudspeakers”, en Mattews, M. y
J. Pierce, Current Directions in Computer Music Research, Cambridge, mit
Press.
—— (1983), “A General Model for Spatial Processing of Sounds”, Computer
Music Journal, vol. 7, N° 3.
Moorer, A. (1979), “About this reverberation business”, Computer Music
Journal, vol. 3, Nº 2.
Pulkki, V. (2001), Spatial sound generation and perception by amplitude panning
techniques, Reporte N° 62, Universidad Tecnológica de Helsinki.
—— et al. (1999), “Analyzing virtual sound source attributes using a binaural
auditory model”, Journal of the Audio Engineering Society, 47 (4), pp.203-
217.
Savioja, L. (1999), Modeling Techniques for Virtual Acoustics, tesis doctoral,
Helsinki University of Technology, Finlandia (<http://www.tml.tkk.
fi/~las/publications/thesis/>, consultado el 20 de febrero de 2008).
Stevens, S. S. (1970), “Neural events and Phychophisical Law”, Science, 170.
Varga, I. (2000). “Spat3d Unit Generator”, The Csound Manual (<http://
www.csounds.com/manual/html/spat3d.html>).
West, J. (1998), Five-channel panning laws: an analytical and experimental com-
parison, tesis de maestría, Universidad de Miami.
Wozniewski, M. et al. (2007), “AudioScape: A Pure Data library for manage-
ment of virtual environment and spatial audio”, Pure Data Convention,
125
Montreal (<http://www.audioscape.org/twiki/pub/Audioscape/Audioscape
Publications/audioscape_pdconv07_final.pdf>).
126
Capítulo IV
Transformadas clásicas de la imagen estéreo.
Un análisis
Joseph Anderson
Introducción
127
el ingeniero de grabación purista el asunto puede ser algo más correctivo.
Particularmente para grabaciones hechas en conciertos, en las que cuestiones
de puesta en escena y línea de visión pueden no siempre dar como resultado
grabaciones bien balanceadas, centradas, o de alguna manera bien representa-
das, la acción reparadora puede ser necesaria. El ingeniero de grabación puris-
ta puede necesitar re-apuntar, re-balancear o re-guiar el resultado, en esencia
“remezclando espacialmente”, para producir una grabación más apropiada y
utilizable. Al hacer mención del acusmático y el purista, la intención no es
acotar la audiencia para el análisis que sigue. Se podría suponer, idealmente,
que todos los profesionales del audio deberían estar familiarizados con las
técnicas que se discutirán, y particularmente, el ingeniero de masterización
y mezcla.
El propósito de esta discusión es revisar una variedad de transforma-
das clásicas de la imagen estéreo, y aunque estas no sean capaces de cubrir
necesariamente todas las características de una grabación estéreo calificables
como atributos espaciales, un rango de cualidades puede manejarse ergonó-
micamente.
Aunque varias de las transformadas que serán comentadas son conocidas
y muy utilizadas por los profesionales del audio, algunas de ellas no lo son, y
han sido catalogadas habitualmente como oscuras y misteriosas.
Las transformadas en sí se presentan en forma de variaciones de la ley
de panorámico seno-coseno, también mencionada en la literatura como ley de
panorámico tangente o ley estéreofónica de senos (Malham, 1998; Griesinger,
2002).
Inspirados por los “diagramas polares estéreo” de Julstrom (1991) que él
mismo utiliza para ilustrar la sensibilidad de un arreglo de micrófonos estéreo
coincidentes y la distribución del escenario estéreo resultante, los cambios
aplicados por las transformadas al campo estéreo son ilustrados mediante el
uso de figuras similares a las que muestra la pantalla de un goniómetro.2 La
intención, idealmente, es conducir “con mil palabras” al lector hacia una
comprensión intuitiva de la acción de las transformadas de imagen. Gran
parte de este trabajo es el resultado de la lectura y reflexión sobre el trabajo de
Michael Gerzon, y el objetivo es hacer un intento de ilustración y unificación
de algunas de sus discusiones sobre el tópico.
Por último, al cierre y sugiriéndose una lectura más profunda de Gerzon,
se tratará ligeramente la noción de transformadas de imagen dependientes de
la frecuencia.
128
Ley de panorámico seno-coseno y el dominio ms
Ley de panorámico
129
Dutton y Vanderlyn, 1958). Se utilizan dos micrófonos bidireccionales cruza-
dos; el micrófono que captura la parte izquierda de la escena apunta 45º hacia
la izquierda, y el encargado de capturar la parte derecha de la escena apunta
45º hacia la derecha, ambos respecto del centro. Esta técnica es muy recono-
cida por su capacidad de producir grabaciones vívidas, estables, enérgicas y
“objetivas”, ubicando al oyente en el espacio de la grabación.
El dominio MS
S = 2 (L − R)
2
E. 2
R= 2 (M − S )
2
E. 3
130
M pan = cos (θp )M
Span = sin (θp )M E. 4
131
la ley de panorámico seno-coseno dado que los elementos están posicionados
más allá de los +45º y -45º comúnmente establecidos como límites en las
mezcladoras pensadas para usuarios estándar (este punto se discute más ade-
lante). La señal exhibida en la figura 2 se usará como una señal identidad y las
transformadas a examinar en el resto de este trabajo serán ilustradas actuando
sobre esta señal estéreo.
Rotación-panorámico estéreo
132
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 1. Dominios lr y ms, con señales ubicadas en +30°, 0° y -45°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 2. Imagen estéreo con señales posicionadas de 0° a -15°, con incrementos de +15º
133
Lrotate = cos (θr )L + sin(θr )R
Rrotate = −sin (θr )L + cos (θr )R E. 6
Por supuesto que la rotación puede ser utilizada tanto creativa como correcti-
vamente. Es claro que, así como uno podría querer ubicar una señal monofóni-
ca en una mezcla estéreo, colocándola en un ángulo de azimut deseado, podría
querer hacer lo mismo con una señal estéreo, posicionándola dentro de una
mezcla estéreo. El uso de la rotación preserva la totalidad de las pistas vívidas
y la información espacial de una señal estéreo mientras se altera el azimut. Un
uso correctivo de la rotación podría ser la re-imagen de una grabación estéreo
para que un elemento previsto en el centro de la imagen, tal vez un cantante,
sea traído a esa ubicación.
134
–y dependiendo del material sonoro, puede parecer estar pasando el límite del
altoparlante izquierdo. Al incrementar aun más el θp el sonido puede parecer
moverse más allá del altoparlante, tornándose por lo general borroso, difuso
y ubicuo. Cuando θp es igual a +90º (+S) los parlantes izquierdo y derecho
son alimentados con señales que poseen la misma ganancia, pero polaridades
opuestas. Kendall (1995) ha descrito la impresión de tal señal como cercana
en apariencia al oyente. Para el autor, el sonido se siente ligeramente posicio-
nado detrás de la cabeza.
Volviendo a la rotación y aplicando un θr de 0º a la señal identidad de
la figura 2 obtendremos la señal de la figura 2. Este es el caso para todas las
transformadas a estudiar; aplicar 0º da como resultado una transformación
transparente. Aplicar una rotación de +7,5º, +15 y +30º dará como resultado
las señales ilustradas en las figuras 3, 4 y 5. Como puede verse en todas estas,
los elementos de la imagen identidad que estaban previamente entre +/-45º
(izquierda/derecha) están ahora rotados hacia regiones “fásicas”. Análogamente,
los elementos previamente en regiones “fásicas” están ahora entre +/-45º.
Veremos que todas las transformadas son similares en este aspecto, llevando
algunos elementos de regiones “no fásicas” a “fásicas” y viceversa.
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
135
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 4. Rotación +15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 5. Rotación +30°
136
Ancho
Esto cambia la dirección de rotación aplicada al canal derecho. Más que rotar
al mismo tiempo L y R a través del escenario estéreo, R gira en la dirección
opuesta a L. Valores negativos de 0º a -45º estrecharán el ancho de la ima-
gen; este rango de valores rota L y R hacia el centro, resultando a -45º el
colapso de la imagen a mono, en el centro del escenario estéreo. La figura 6
ilustra la transformación del ancho de la señal identidad por -30º. Compárese
esta ilustración con la rotación de +30º de la figura 5. Nótese que la marca
que indica la localización de la transformación de la entrada +R para ambas
aparece en el mismo azimut, -15º. Esto no debería sorprendernos, sobre todo
si consideramos la discusión anterior. La entrada +L ha sido rotada -30º (en
sentido horario) mientras +R ha sido rotada +30º (en sentido anti-horario)
en la dirección opuesta.
Cotejando la señal identidad de entrada, pueden observarse otras caracte-
rísticas de la transformación de ancho. Junto con la compresión de elementos
hacia el centro, nótese los cambios de ganancia aplicados a los elementos de
la entrada. Para los elementos en +/-45º frontal, los cambios de ganancia son
mínimos, siendo el más significante cercano a un incremento de 2dB, aplicado
al elemento central de la imagen. Sin embargo, es más significativa la reduc-
ción de ganancia aplicada a los elementos en las regiones fásicas (entre +L/-R
y -L/+R) de la entrada. Los elementos ubicados en el eje S han tenido una
reducción de ganancia de casi 9 dB. Además, se han aplicado desplazamientos
de azimut a todos los elementos de la señal de entrada, excepto aquellos en
los ejes M y S.
En principio, el ancho de una imagen se verá incrementado con valores
positivos, aunque el resultado puede no ser tan simple como parece inicial-
mente. La figura 7 ilustra una transformación de +15º, que da como resultado
137
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 6. Ancho -30°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 7. Ancho +15°
138
el ensanchamiento del frente +/-45º del escenario estéreo. Puede verse que los
elementos de los ejes L y R han sido desplazados hacia la región fásica. Como
se dijo antes, según el material sonoro, estos elementos pueden parecer ahora
un poco más allá de los altoparlantes izquierdo y derecho. Adicionalmente,
lo que se encontraba en +/-30º ahora aparece en los ejes L y R.
La transformación del ancho en +30º da como resultado la señal ilus-
trada en la figura 8, produciendo una distorsión significativa de la imagen.
Quizá lo más notable es la ganancia aplicada a los elementos dispuestos en
el frente +/-45º del escenario; ahora los elementos en el eje M están casi 9
dB más bajos. Debido a los desplazamientos de azimut, los elementos están
comprimidos ahora hacia el eje S más que hacia el eje M, como era el caso
para un ancho de -30º. De la misma manera que para la transformación de
ancho de -30º, compárese la ilustración de un ancho de +30º con la de una
rotación de +30º (figuras 8 y 5). Nótese que los elementos que estaban a
+45º y +15º en la señal identidad ahora aparecen a +75º y +45º en ambos
resultados de las transformadas. Mientras estos dos elementos se encuentran
en el mismo azimut, la ganancia del elemento que ahora está a +45º, difiere
en 6 dB.
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 8. Ancho +30°
139
Probablemente, el ancho en el dominio ms sea la forma en que la mayoría de
los lectores han encontrado esta transformada:
Balance
140
L balance = 2 cos (45° − θ b )L
R balance = 2 sin (45° − θ b )R E. 10
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
141
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 10. Balance +30°
Panorámico medio
6 El autor también ha visto referencias al panorámico medio como panorámico central, mez-
cla de dirección y control de dirección.
142
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 11. Balance -30°
143
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 12. M-pan +15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 13. M-pan +30°
144
el mismo corrimiento de lo que estaba a 0º, m-pan realiza cambios de ganan-
cia mucho más bajos que los producidos por el balance, aproximadamente 3
dB menos en L en lugar de 9 dB. En comparación con la rotación, los cambios
de azimut de toda la señal se reducen, en tanto que el cambio se enfoca mayor-
mente en la modificación de lo que estaba en el centro de la imagen. Es por
estas razones que para ajustar un campo estéreo se prefiere, en algunos casos,
el algoritmo m-pan por sobre el balance y la rotación.
Asimetría
El lector debería advertir una fuerte similitud entre las ecuaciones 12 y 11.
Como ocurre con m-pan, la representación de la asimetría en el dominio lr es
significativamente menos elegante, y por eso es aquí omitida.
La figura 14 y la figura 15 ilustran el resultado de la aplicación de la trans-
formada de asimetría a la señal identidad, con argumentos de +30º y +60º.
Comparando las figuras de asimetría y m-pan de +30º (figura 13) véase que
la asimetría mantiene, como era de esperarse, lo que estaba a +/-M anclado al
eje M. También obsérvense los nuevos emplazamientos de los elementos que
estaban en los ejes L y R. Para el mismo argumento, la asimetría y el m-pan
desplazan estos a un mismo azimut, pero con ganancias diferentes. La asimetría
y el m-pan de +30º mueven lo que estaba en el eje R a -30º, un desplazamiento
de +15º. Sin embargo, mientras la asimetría ha incrementado la ganancia de
este elemento en casi 2 dB, el m-pan ha dado como resultado una reducción
145
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 14. Asimetría +30°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 15. Asimetría +60°
146
de casi 3 dB. Luego de ver este desplazamiento de 15º de los elementos previa-
mente ubicados en los ejes L y R, puede ser provechoso para el lector revisar
estas dos ilustraciones en relación con la rotación de 15º de la figura 4.
Mas allá de las aplicaciones más obvias de la re-imagen, que implican
el re-acomodamiento de una imagen estéreo existente mientras el elemento
central se mantiene en el centro de la imagen, Gerzon (1990) ha sugerido una
cantidad de usos correctivos muy creativos para la asimetría. La discusión de
Gerzon es de interés para el ingeniero de masterización, a quien se le requiere la
producción de un resultado estéreo utilizable a partir de una grabación inicial
con problemas técnicos intermitentes en uno o ambos canales. Es de particular
interés la incorporación de dependencias de frecuencia y/o amplitud en el
algoritmo. Como se mencionó en la introducción, una breve enumeración
de las dependencias de frecuencia será explorada en la sección final de este
estudio. El lector interesado puede remitirse a las brillantes consideraciones
de Gerzon.
R-pan
8 Debe recordarse, de la discusión acerca del ancho, que la transformación de ancho puede
ser vista como el enlace de l-pan y r-pan juntos, asignando un valor negativo al ángulo de
rotación dado en R.
147
rotación en el dominio lr (ecuación 6). Para los escalares en el canal izquier-
do, L, θr es reemplazado por 0º, resultando:
L-pan
Ll − pan = cos (θ lp ) L
Rl − pan = −sin (θ lp ) L + R E. 14
148
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 16. R-pan +15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 17. R-pan +30°
149
En la ecuación 14 no hay nada que restrinja los valores asignados a
θlp para mantener lo que estaba previamente entre +/-45º en la región no
fásica. La figura 18 y la figura 19 ilustran el resultado de transformar la señal
identidad con un l-pan de +15º y +30º. En general, las mesas de mezcla por
hardware son incapaces de aplicar la transformada ilustrada aquí, porque sus
implementaciones de la ley de panorámico restringen al l-pan y al r-pan a la
región no fásica. Para un practicante creativo del audio esta restricción puede
ser limitadora e indeseable. Revisando las ilustraciones de l-pan y rotación
de +15º, y m-pan y asimetría de +30º (figuras 18, 4, 13 y 14) se ve que todas
estas transformadas ubican lo que estaba en el eje L a +60º. En este caso,
a diferencia de la rotación, l-pan cambia mínimamente la ganancia de los
elementos.
Dirección-abilidad*
150
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 18. L-pan -15°
+M
+6
+L +R
0
-6
-12
-18
-24
+S -S
-R -L
-M
Figura 19. L-pan -30°
151
L Ldir-i
Rotar (-θr) Imagen (θi) Rotar (θr)
R Rdir-i
152
La
Ra Imagen (θi)
L
Red de
crossover Lb
R Lxover-i
Rb
Rxover-i
Ecualización espacial
153
informativo, a los lectores interesados se les sugiere consultar su clarificante
discusión de este tópico.
El autor considera a la ecualización espacial una parte indispensable del
juego de herramientas del ingeniero de grabación purista. En tanto admiradas
por su claridad y definición de imagen, las técnicas de microfoneo de punto
coincidente único son a menudo criticadas por su “falta de espaciosidad”
al compararlas con técnicas de micrófonos espaciados.9 Mediante el ensan-
chamiento del escenario de baja frecuencia, la imagen de una grabación
coincidente puede ser apropiadamente expandida, reteniendo aun la claridad
en definición de la imagen admirada en esta técnica y habitualmente perdi-
da en grabaciones no coincidentes. De manera similar, las imágenes estéreo
construidas en el estudio con señales mono posicionadas con potenciómetros
de panorámico pueden mejorarse a través de la aplicación de la ecualización
espacial, ensanchando la imagen y expandiendo un sentido de inmersión espa-
cial y estabilidad al emparejar los escenarios de alta y baja frecuencia. Es por
estas razones, y las de más atrás, que el autor se sorprende de la no inclusión
regular de la ecualización espacial como parte del conjunto de herramientas
estándar de las estaciones de trabajo de audio digital estéreo, particularmente
si se considera que esta técnica ha sido presentada en la literatura especializa-
da hace ya algún tiempo.
Dispersión estéreo
154
varse de simples imágenes puntuales a imágenes ensanchadas con una amplia
sensación de cuerpo.
La implementación inicial de Orban (1970) aplica un método que da
como resultado filtros cuyas fases no son coincidentes entre los canales L y
R.10 Es posible argumentar que tal configuración puede ser deseable, dado que
el objetivo es extender el ancho de una imagen de entrada y la incongruen-
cia de fase puede agregarse para una sensación de ensanchamiento. Se ha
argumentado contra este enfoque en especial debido al incremento “fásico”*
resultante en la imagen. Aun así, el autor ha encontrado al método de Orban
práctico y apto –con el debido cuidado– para una variedad de materiales
sonoros, especialmente si tenemos en cuenta su fácil implementación. Gerzon
(1992; 1997) ha demostrado un número de arquitecturas de red alternativas,
todas dispuestas a mitigar el aspecto fásico del enfoque de Orban. Tal vez la
más ingeniosa de ellas implica el uso de una red de retroalimentación unitaria
para crear una red de rotación dependiente de la frecuencia y compensada en
fase. El lector interesado puede referirse a la discusión detallada de Gerzon al
respecto.
Otras transformadas
10 La implementación inicial de Orban está limitada a entradas mono. Sin embargo, con
el agregado de la rotación, Gerzon (1992) ha adaptado el método de Orban para entradas
estéreo.
* Phasiness en el original en inglés. [N. de los T.]
155
reflexión sobre este método sugerirá que el algoritmo de más atrás puede
no ser el ideal. Muy probablemente, la banda de frecuencias seleccionada
incluirá también sibilancia de la voz. Cuando el platillo no esté tocando,
enmascarando la voz, probablemente aparezcan separados los fricativos de
la voz, y en nuestro caso, corridos fuera de eje en relación al resto de la voz.
Por lo tanto, si bien esta intervención corregiría el platillo, introduciría otro
problema para la voz.
Pensando un poco más el resultado deseado, puede hacerse un método
más adecuado. En detalle, el problema es reposicionar el platillo seleccio-
nado por su rango de frecuencias, mientras se retiene la posición de la sibi-
lancia del cantante en el centro. Revisando las transformadas discutidas, la
tarea descrita coincide con la realizada por la asimetría. Más que para rotar la
banda seleccionada, la asimetría puede usarse para mover el platillo al tiem-
po que se mantiene la sibilancia vocal centrada y en su lugar. Se describen
aquí algunas opciones, pero la implementación de una red de selección de
frecuencias se dejará al lector. La más simple de ellas es el empleo de un par
de filtros pasabanda y rechazabanda, de amplitudes complementarias pero
no coincidentes en fase. Dependiendo de la cantidad de asimetría aplica-
da, la distorsión de fase adicional puede ser mínima y bastante aceptable.
Como segunda estrategia se podría elegir una aproximación de Linkwitz-
Riley, con pares de filtros pasabanda y rechazabanda dispuestos a la manera
Linkwitz-Riley. Tal tipo de red no induce distorsión de fase, por lo que
puede ser preferible en algunas circunstancias y considerarse una solución
más general. Más especulativamente, y aunque el autor no ha intentado
hacerlo, sería posible implementar el algoritmo deseado como una red de
retroalimentación unitaria. Si bien no es la más sencilla de las opciones,
dado que las redes de retroalimentación unitarias no son particularmente
intuitivas, esta aproximación podría ser una solución elegante, llevando a
un resultado no fásico, con cambios suaves y balanceados de la imagen a
través de la frecuencia.
Como uno esperaría, el conjunto de algoritmos de imagen discutidos más
arriba puede ser adaptado y modificado mediante una variedad de dependen-
cias de frecuencia, dando como resultado una amplia gama de oportunidades
creativas y reparadoras de imagen para el practicante del audio. Si bien solo
algunas pocas han sido discutidas en esta sección, muchas más son posibles y,
de hecho, deseables. Un cuidadoso examen y la consideración de los ajustes de
imagen disponibles en cada una de las transformadas seno-coseno por sí solas
puede, con el agregado de la selección de frecuencias, conducir al lector hacia
nuevas herramientas y métodos.
156
conclusiones
Más allá de la rotación en sí, hemos visto que las transformadas de imagen
estéreo clásicas aquí exploradas son meras modificaciones de la transformada
de rotación (panorámico seno-coseno para estéreo) en un dominio (lr o ms) u
otro. El ancho y el balance son equivalentes entre los dominios: el ancho rota
los ejes lr juntos, mientras que el balance hace lo mismo para los ejes ms. El
m-pan y la asimetría tienen correspondencia con l-pan y r-pan; el m-pan y la
asimetría rotan solo el eje M y el eje S, respectivamente, mientras que l-pan
y r-pan actúan sobre los ejes L y R como sus nombres lo indican. Además,
las transformadas de eje único (m-pan, asimetría, l-pan y r-pan) están, como
sería de esperarse, vinculadas cercanamente a las transformadas de dos ejes
(ancho, balance). El m-pan y la asimetría pueden pensarse como dos versiones
del balance, llevando a sus extremos los ejes ms juntos. La diferencia, en la
imagen final, tiene que ver con las posiciones de azimut finales de los ejes en
la imagen resultante. Por ejemplo, el balance con un θb igual a +45º reflejará
una imagen similar, salvo por el azimut resultante, a una asimetría con un θa
igual a -90º. Ambos devolverán la entrada L con una ganancia de +3 dB; sin
embargo, el balance mantiene a L en su lugar, mientras la asimetría ha dejado
a M fijo, dando como resultado a L en el medio de la imagen. Un m-pan con
el θm igual a +90º da como resultado a L en el eje S. Las mismas relaciones
guardan validez para el ancho, y l-pan y r-pan; y hemos mencionado que, en la
práctica (únicamente para estrechar), el ancho es implementado por usuarios
de mezcladoras estéreo por hardware o software habitualmente a través del
panorámico de los canales izquierdo y derecho en forma independiente.
Dado que las ecuaciones de cada una de las transformadas han sido pre-
sentadas, se ofrece al lector la oportunidad de implementar, escuchar e incor-
porar estas poderosas herramientas dentro de su práctica creativa con el audio,
ganando control sobre algunos de los atributos espaciales importantes codifi-
cados en una señal estéreo. Y si bien no ha sido investigada en detalle aquí,
se ha presentado la utilísima noción de “dirección-abilidad” de las imágenes
básicas, inspirando idealmente más experimentación y exploración. De modo
similar, han sido abordadas algunas instancias de aplicaciones que dependen
de la frecuencia, sugiriendo posibilidades para algunas intervenciones más
imaginativas y reparadoras de un escenario estéreo. Asimismo, y siendo dema-
siado numerosas para mencionarlas en detalle, las modificaciones adicionales
(ej., dependencia de amplitud, modulación regular o irregular, modulación
dependiente de amplitud y/o frecuencia, etc.) pueden sumarse para crear una
amplia variedad de efectos espaciales interesantes y atractivos al oído. ¡Todo
esto a partir de la humilde ley de panorámico seno-coseno!
157
Bibliografía
158
Kendall, G. S. (1995), “The Decorrelation of Audio Signals and Its Impact on
Spatial Imagery”, Computer Music Journal, 19 (4), pp. 71-87.
Lipshitz, S. P. (1986), “Stereo Microphone Techniques: Are the Purists
Wrong?”, Journal of the Audio Engineering Society, 34 (9), pp. 719-744.
——, D. Griesinger y M. A. Gerzon (1987) “Comments on ‘Spaciousness
and Localization in Listening Rooms and Their Effects on the Recording
Technique’ and ‘Stereo Shuffling. New Approach –Old Technique’ and
Authors’ Replies”, Journal of the Audio Engineering Society, 35 (12), pp.
1013-1014.
Malham, D. G. (1998), “Approaches to spatialisation”, Organised Sound, 3
(2), pp. 167-177.
Orban, R. (1970), “A Rational Technique for Synthesizing Pseudo-Stereo
from Monophonic Sources”, Journal of the Audio Engineering Society, 18
(2), pp. 157-164.
Lord Rayleigh (J. W. Strutt, tercer Barón de Rayleigh) (1907), “On our per-
ception of sound direction”, Philosophical Magazine, 13, pp. 214–232.
Rumsey, F. (2002), “Spatial Quality Evaluation for Reproduced Sound:
Terminology, Meaning, and a Scene-Based Paradigm”, Journal of the
Audio Engineering Society, 50 (9), pp. 651-666.
Windsor, L. (2000) “Through and around the acousmatic: the interpreta-
tion of electroacoustic sounds”, en Emmerson, S. (ed.), Music, Electronic
Media and Culture, Aldershot, Ashgate Publishing, pp. 7-35.
159
Capítulo V
El espacio acústico tridimensional y su simulación
por medio de Ambisonics
Dave Malham
Consideraciones fisiológicas
Para entender las formas en las que los compositores electroacústicos han
usado el espacio en la música, es apropiado considerar a la música en el espa-
cio o, más precisamente, a las tecnologías que se pueden usar para realizar los
deseos musicales del compositor. Para comprender cómo funcionan, resulta
útil revisar brevemente los mecanismos conocidos que los humanos usamos
para adquirir información acerca de las características espaciales de los campos
sonoros que nos rodean constantemente. Se debe señalar que la siguiente lista
no debe ser considerada como exhaustiva, dado que no es para nada claro que
nuestro actual nivel de conocimiento (hasta el 2007) se pueda considerar
completo.
Diferencias temporales de llegada entre los dos oídos. Una fuente sonora ubicada
en cualquier punto de una línea trazada desde el frente hacia arriba y hacia
atrás (el plano medio) producirá un frente de onda que llegará a los dos oídos
simultáneamente. Al mover la fuente afuera de esta línea, un oído comenzará
a recibir el frente de onda antes que el otro. Esto se conoce como diferencia
interaural de tiempo o ITD (Interaural Time Difference).* La diferencia mínima
entre los tiempos de llegada que puede ser percibida depende de la naturaleza
del sonido y varía entre 5 y 1,5 microsegundos (Begault, 1994, p. 44).
Diferencias de nivel entre los dos oídos. El sonido de una fuente a la izquierda
de la cabeza, por ejemplo, llegará directamente al oído izquierdo, pero será
*Por razones de práctica habitual en el área, en este artículo se usarán términos y siglas que
provienen de la denominación en inglés. [N. del T.]
161
difractado alrededor de la cabeza para alcanzar al oído derecho. Su amplitud
será menor en el oído derecho que en el izquierdo, como resultado tanto del
efecto de obstrucción de la cabeza como, en una menor medida, del efecto de
distancia extra recorrida. Esto se conoce como diferencia interaural de nivel o
ILD (Interaural Level Difference).
162
Reverberación. Es la proporción entre sonido directo y reverberado. En un
entorno razonablemente reverberado, la energía en el campo reverberado
permanece más o menos constante para todas las combinaciones de ubicación
oyente/fuente, lo que significa que para un nivel de fuente dado, la intensidad
de la reverberación permanece igual mientras que la intensidad de la fuente
disminuye con el incremento de la distancia. Es este factor en particular el
que dificulta la ubicación de un “objeto sonoro” más cerca que el altoparlante
más cercano en un sistema de difusión.
Para fuentes sonoras con una silueta física (i.e., no la fuente puntual de sonido
hipotética, que no existe en la naturaleza, a pesar de que existen sus aproxi-
maciones cercanas), se producen cambios espectrales en la medida en que la
forma angular del objeto cambia (Malham, 2001).
Distorsión relacionada con el aire. Para altos niveles de presión sonora, el incre-
mento de la distorsión con la distancia de la fuente, que resulta de las diferentes
velocidades de propagación de los picos positivos y negativos de la onda de
presión (Czerwinski et al., 2000), es un indicio extra posible para la distancia
de la fuente.
r4JIBZEJGFSFODJBTJOUFSBVSBMFTEFOJWFM
FTUBTTFJODSFNFOUBOFOMBNFEJEB
en que la fuente sonora se aproxima a la cabeza como resultado del hecho de
163
que la diferencia en distancia deviene una fracción mensurable de la distancia
total. Por ejemplo, la ild puede aumentar de 4 a 20 dB para una fuente a 90º
en la medida en que la distancia desde la cabeza disminuye de un metro a
pocos centímetros.
r&TUBTEJGFSFODJBTJOUFSBVSBMFTEFOJWFMTPONVDIPNÃTTFOTJCMFTBMPTNPWJ-
mientos de la cabeza cuando la fuente sonora está cerca de la cabeza, nueva-
mente como resultado de que la diferencia en distancia deviene una fracción
mensurable de la distancia total.
r)BZVOGJMUSBEPQBTBCBKPTFGFDUJWPEFMBTGVFOUFTDFSDBOBTBMBDBCF[B&TUP
resulta de una combinación de la sombra acústica de la cabeza para el oído
más lejano a la fuente sonora y la difracción en el oído más cercano.
r 6O FGFDUP DPOPDJEP DPNP paralaje acústico produce que algunas de las
características de altas frecuencias de la hrtf en el oído más cercano resul-
ten corridas en el azimut a causa del cambio en la relación geométrica entre
la fuente de sonido, el oído y el centro de la cabeza en la medida en que el
objeto se mueve desde el campo lejano al cercano. Este corrimiento puede ser
de 40º o más.
r 6O DBNCJP EF UJNCSF EFM TPOJEP EJSFDUP FO DPNQBSBDJÓO DPO FM TPOJEP
reverberado, como resultado del cambio de la respuesta a impulso que ocurre
cuando objetos con una superficie radiante mayor que la longitud de onda del
sonido que emiten se encuentran cerca del oyente.
164
a causa de las dificultades en el trabajo experimental en cuestiones como la
percepción a través de la cavidad del pecho o en mecanismos de conducción
de los huesos, hay pocos trabajos publicados en estos medios de recolección de
información acústica y sus posibles capacidades de discriminación direccional.
En vez de esto, a causa de la relativa facilidad con la que se pueden hacer
mediciones basadas en auriculares, casi todos los más importantes estudios
de audición direccional se han concentrado en información presentada en
auriculares. Experimentación informal realizada por el autor, sin embargo, ha
mostrado que dichos mecanismos de percepción de sonido no aurales necesitan
ser investigados más profundamente. En particular, hay una razón para creer
que la cavidad del pecho puede jugar un rol en la discriminación direccional de
bajas frecuencias y que la creencia sostenida comúnmente de que no podemos
determinar la dirección de fuentes usando frecuencias muy bajas, en donde la
diferencia de fase entre los dos oídos resulta muy pequeña, puede ser cierta solo
para presentaciones en auriculares. Si se probara, esto tendría serias implica-
ciones para sistemas de difusión en donde las frecuencias bajas se presentan a
través de un número limitado de altoparlantes de baja frecuencia (subwoofers),
o donde la reproducción se realiza únicamente con auriculares.
Cuestiones perceptivas
r&TDVDIBSFTNÃTWFSEBEFSBNFOUFUSJEJNFOTJPOBM
FOFMTFOUJEPFORVFQPEF-
mos oír cosas en todas las direcciones simultáneamente con solo variaciones
165
menores en sensibilidad, mientras que la vista se restringe a cerca de un cuarto
del espacio que nos rodea.
r/PQPEFNPTDFSSBSWPMVOUBSJBNFOUFOVFTUSBBVEJDJÓO
QFSPMBWJTUBQVFEF
interrumpirse cerrando los ojos.
r-BNBZPSÎBEFMBTDPTBTRVFFTDVDIBNPTDPODJFOUFNFOUFTPOFOTÎNJTNBT
la fuente de sonido que escuchamos (aun a pesar de ecos muy intensos), pero
la mayoría de las cosas que vemos son, más o menos, reflectores pasivos, y
entonces estamos más concientes de las fuentes sonoras como participantes
activas de nuestro mundo.
r"EFNÃTEFMIFDIPEFRVFMBBVEJDJÓODPNQSFOEFVOFTQFDUSPNVDIPNÃT
ancho que el de la vista (aproximadamente diez octavas contra tres cuartos de
una octava), la audición la aventaja en el dominio temporal (con una capa-
cidad efectiva de resolución de 5µS en algunos procesos), en el que la vista
es bastante pobre, si bien es menos capaz que la audición en el dominio de la
frecuencia. La audición, sin embargo, es a menudo considerada como menos
capaz en el dominio de la frecuencia que la vista, que puede resolver cientos
de colores por octava. Seguramente, la audición no es tan capaz como la vista
en el dominio espacial.
r-BBVEJDJÓOFTTJHOJGJDBUJWBNFOUFNFOPTDBQB[RVFMBWJTUB
DFSDBEFVO
de precisión (Ashmead, Le Roy y Odom, 1990), en proveer una estimación
exacta de distancia (Abrahams y Landgraf, 1990).
166
Resulta ampliamente, pero quizá erróneamente, aceptado que cuando
hablamos acerca de nuestra percepción de lo que llamamos realidad, el sen-
tido visual es el preeminente.1 Ciertamente, el sentido visual normalmente
tiende a ser considerado como “más importante” que el sentido de la audición.
Este autor sostendrá que este punto de vista representa una seria distorsión de
la realidad. Considere su sitio favorito al aire libre. Este puede ser, quizá, un
lugar junto al mar con luz solar centelleando desde las olas en frente de usted,
riscos escarpados detrás, los sonidos de las olas en la playa y las gaviotas arriba.
O tal vez sea una escena en un campo en donde le prestamos más atención a
la silueta de las sierras y el púrpura de los matorrales, con los puntos blancos
de las ovejas esparcidos en ellos. El sonido del viento moviéndose a través de
los matorrales, el balido de las ovejas y el canto plañidero del zarapito tienden
a estar en un plano secundario, tal como lo estaban las gaviotas en la playa.
Más aun, imagine esas escenas sin los sonidos. Sin estos, ellas ya no son más
una escena verosímil que vive y respira. Sin el paisaje sonoro correcto, pierden
mucho de su profundidad, transformándose solo en otra fotografía.
Esta pérdida de “realidad” que ocurre cuando el sonido está ausente o se
presenta inadecuadamente al oyente, es aun más pronunciada cuando la esce-
na es una realización artificial de la realidad. Sólo es necesario considerar lo
que ocurre cuando la banda de sonido se pierde en un film o en un programa
de la televisión para advertir que este es, de hecho, el caso. El corolario de
esto es que, al menos cuando estamos tratando de capturar/reproducir realidad
(sin importar lo que realmente sea), necesitamos esforzarnos para asegurar
que el grado de equivalencia con la realidad que consigamos sea tan alto como
sea posible. Si deseamos que un sistema produzca realidad sonora completa, es
obviamente necesario que todos los puntos de partida de la equivalencia con
la realidad en el sistema estén por encima de los umbrales relevantes de la per-
cepción. Por supuesto, como se mencionó antes, el/la compositor/a de música
electroacústica puede tener requerimientos específicos que involucran no solo
el uso de este criterio para los sonidos en su composición. Las necesidades
compositivas pueden de hecho ser para sonidos no reales, parcialmente reales
o aun hiper-reales (Field, 1998).
Cuando se trata con eventos musicales la importancia del elemento
visual puede ser disminuida o hasta ausente. Sin duda, como se discutió
antes, la ausencia de elementos visuales es menos problemática que la ausen-
cia de sonido cuando se intenta proveer un sentido de realidad. Después de
todo, estamos bastante acostumbrados a sonidos que no tienen una fuente
167
inmediatamente evidente a nuestros otros sentidos, así que esto no es per-
cibido necesariamente como inusual o engañoso. Las experiencias visuales
sin una fuente física que los acompañe, por el otro lado, son menos usuales
y percibidas como engañosas, posiblemente a causa de su asociación con
perturbaciones visuales durante la enfermedad. No obstante estos casos,
cuanto más capaces sean nuestros sistemas de difusión de sonido de imitar la
realidad, más opciones tendrán los compositores para explorar los elementos
espaciales en su música.
Dos puntos deben fijarse en la mente cuando se examina lo que la
investigación en percepción nos dice: primeramente que la investigación
en esta área está todavía largamente en sus primeros días, y que el desarrollo
de una suerte de aproximación holística que sea probablemente mejor en la
predicción del rendimiento de un sistema en condiciones que no sean las de
laboratorio es todavía objeto de considerable investigación. En particular,
los datos cuantitativos sobre los mecanismos perceptivos no son, ni de cerca,
tan amplios como los que provienen de la investigación de los mecanismos
subyacentes de adquisición de datos pero, no obstante ello, el trabajo es al
menos de utilidad cualitativa para diseñadores y compositores involucrados
en sonido tridimensional.
En segundo lugar, si el procesamiento off-line en tiempo no real es acepta-
ble, las técnicas de simulación acústica estándar, ampliamente disponibles, ya
producen imágenes acústicas que son tanto suficientemente detalladas como
suficientemente precisas en sus errores para estar cerca de los límites percep-
tuales. Sin duda, el mayor indicio de la irrealidad de las imágenes producidas
por estos sistemas es el hecho de que actualmente deben ser reproducidas como
una grabación, produciendo así una falta de interacción con el usuario. El área
donde hay mayor necesidad de la información que produzca la investigación
perceptiva la constituyen los sistemas en tiempo real, donde se necesita un
cierto grado de esquematización* por así decirlo (Lennox, Myatt y Vaughan,
1999) o simplificación de la imagen. Sin embargo, dada la creciente disponibi-
lidad de potencia de proceso digital, cabe preguntarse por cuánto tiempo más
esto seguirá siendo así. Lo que se puede decir es:
r&TGVOEBNFOUBMRVFTFQSPWFBBMPZFOUFEFJOEJDJPTDPOTJTUFOUFTP
BMNFOPT
que la consistencia de los indicios sea similar a la que se obtendría en un
campo sonoro natural.
168
r%BEPRVFOVFTUSBFYQFSJFODJBFOFMNVOEPSFBMFTEFTPOJEPTFOVOFOUPS-
no, al menos la primera parte perceptivamente importante de la interacción
del sonido con ese entorno, i.e., las primeras pocas reflexiones, deben ser
modeladas.
r%FCFIBCFSVOQBJTBKFTPOPSPEFUBMMBEPZDSFÎCMFFOTFHVOEPQMBOP
EBEP
que el entorno acústico en el que normalmente existimos es complejo y
nuestros mecanismos perceptivos han evolucionado para tratar los aspectos
espaciales de un objeto sonoro en relación con dicho segundo plano.
169
trabaja sólo en el plano horizontal, y ocho si se requiere también altura. La
cuestión importante para señalar es que es innecesario considerar los detalles
reales del sistema de reproducción durante la grabación original o la síntesis,
con la única excepción de que se requiere un sistema de reproducción capaz
de representar la altura si la dimensión vertical es esencial. Si se siguen las
especificaciones del formato B, y asumiendo que se usen combinaciones de
altoparlantes y decodificador apropiadas, entonces la operación en diferentes
salas será tan similar como la acústica local lo posibilite. En todos los otros
aspectos las dos partes del sistema, codificación y decodificación, son comple-
tamente independientes.
Ecuaciones de codificación
x 2 + y 2 + z2 ≤ 1 E. 1
170
entonces sus coordenadas se consideran en referencia con el centro frente,
según las siguientes expresiones:
x = cosθ cos φ
y = sinθ cos φ
z = sinφ E. 2
Fuente
Ø
X
Frente θ
Y
W = (señal) × 0,707
X = (señal) × cosθ cos φ
Y = (señal) × sinθ cos φ
Z = (señal) × sinφ E. 3
171
B Ambisonics, describen esencialmente las salidas que se obtendrían de un
conjunto de cuatro micrófonos coincidentes, uno omnidireccional (sensible a
la presión) y tres de figura en ocho (sensibles a la velocidad) que son mutua-
mente perpendiculares. Ya que esto es físicamente imposible, el micrófono
Soundfield (Gerzon, 1975a; Farrah, 1979) logra un resultado aproximado
muestreando el sonido en la superficie de una esfera, que es acústicamente
pequeña en relación, usando cuatro cápsulas sub-cardiodes y luego aplicando
un proceso para crear la salida de formato B.
La alternativa es posicionar sonidos individuales en un campo sonoro de
formato B usando mecanismos de panorámico basados en la ecuación 3, pero
nótese que no hay información implícita de distancia incluida en estas fórmulas.
En el pasado, los sonidos posicionados en formato B Ambisonics se ubicaban, o
bien en la superficie de una esfera “unidad”, o bien en el interior de esta.
En aquel momento, la mayoría de los experimentos en Ambisonics se
hicieron en el dominio analógico, que hacía difícil, por no decir imposible,
tratar efectivamente con los indicios de distancias más importantes tales
como el patrón de primeras reflexiones y la proporción entre sonido directo y
reverberado. Los indicios de distancia, si se usan, deben ser provistos por sepa-
rado con el mínimo tamaño de la esfera-unidad realmente determinado por
el tamaño del arreglo de altoparlantes final. Los campos de sonido naturales,
tales como los grabados por el micrófono Soundfield, no tienen, por supuesto,
el problema de sintetizar indicios de distancia pero existe todavía el problema
de reproducir correctamente sonidos cercanos. Se advirtió desde una época
temprana que si se hubieran implementado los controles Ambisonics digital-
mente, la situación hubiera cambiado (véase, por ejemplo, Malham, 1987).
Aun en el dominio analógico, una ley de ganancia relativa a la distancia
no se podría implementar fácilmente. Con la aparición de proceso digital
más accesible en la década de 1980, se le dio un nuevo ímpetu al desarrollo
de controles digitales Ambisonics. La naturaleza de la ley de ganancia que
se requiere fue investigada experimentalmente en 1990 por Clarke (1990, p.
43) y Hood (1990, p. 10) y fue implementada empíricamente por el autor en
1992 cuando se revisó el programa “Ambicont” de Clarke (Clarke y Malham,
1992)3. Anteriormente a la revisión, Ambicont sufrió el efecto (muy audible)
del cambio de signo súbito en los canales de primer orden en la medida en que
el sonido era “paneado”* a través del centro del campo sonoro. Previamente a
la revisión, el procedimiento operativo estándar para tratar con esto era correr
3 Ambicont fue escrito por Clarke (1990) para el actual controlador de Soundfield progra-
mable digitalmente desarrollado por el autor (Malham, 1984).
* En inglés, panned, término muy común en la ingenieria de audio, que indica el traslado
172
Figura 2. Arreglo de la cápsula del micrófono MkIII Soundfield
gradual de una señal de audio entre varios canales mediante su multiplicación por una
función determinada y que proviene de la palabra inglesa panoramic (en español, “panorá-
mico”). [N. del T.]
4 Él acuñó posteriormente el término “W-panning” para esta concepción (Menzies, 2002).
5 En algunos libros se usa una notación diferente, relativa al uso en la industria aero-espacial.
En ella la rotación se refiere como yaw, el ladeo como roll y la inclinación como pitch.
173
fácilmente, ocurrir (los ángulos positivos de rotación son antihorarios o, por
convención, se usa la rotación hacia la izquierda).*
Una rotación se define como un movimiento circular en un eje predefi-
nido, normalmente el eje Z, siendo esto lo mismo que un movimiento anti-
horario en el plano horizontal. Un ladeo se define como una rotación en el
eje X. Esto es lo mismo que un movimiento antihorario en el plano vertical
(izquierda-derecha). Una inclinación se define como una rotación en el eje Y.
Esto es lo mismo que un movimiento antihorario en el plano vertical (frente-
atrás), i.e. cuando miramos a la izquierda.
Rotación
Z
Rotación
Ladeo
X Inclinación
Frente
Y
* Respectivamente rotation, tilt y tumble, en el original en inglés de este artículo. [N. del T.]
174
Simplificando:
Y sustituyendo en X y en Y:
X′ = X cosδ − Y sinδ
Y′ = X sinδ + Y cos δ E. 6
Ladeo
W′= W
X′ = X
Y ′ = Y cosε − Z sinε
Z ′ = Y sinε + Z cosε E. 7
Inclinación
W′= W
X ′ = X cosδ − Z sinδ
Y′ = Y
Z ′ = X sinδ + Z cosδ E. 8
Rotación-ladeo
W ′= W
X ′ = X cosδ − Y sinδ
Y ′ = X sinδ cosε + Y cosδ cosε − Z sinε
Z ′ = X sinδ sinε + Y cosδ sinε + Z cosε E. 9
175
Cualquier combinación de estas operaciones es, por supuesto, posible, pero
el lector deberá estar advertido de que, a diferencia de muchas operaciones
matemáticas, las rotaciones no son conmutativas. En otras palabras, el orden
en el que las operaciones se realizan afecta la orientación final del campo
sonoro, ya que todas las operaciones se consideran con respecto a la posición
central de audición y no respecto del campo sonoro. Para comprender esto,
considérese qué ocurre cuando primero rotamos un dado y luego lo inclinamos
(figura 4).
Pero si inclinamos el dado primero y luego lo rotamos, obtenemos un
resultado final diferente (figura 5).
Además de estos movimientos de rotación, son posibles varias operacio-
nes, por ejemplo el reflejo (mirroring) y la dominancia.
Figura 4
Figura 5
Reflejo
El control original analógico para reflejo como se usa, por ejemplo, en la uni-
dad Audio+Design Pan-Rotate,6 consiste en un control rotatorio que permite
al usuario mover el campo sonoro de formato B desde la reproducción normal
a través de un campo sonoro cada vez más difuso, eventualmente alcanzando
un punto en donde no hay esencialmente información direccional. Emergería
desde esta región siendo cada vez menos difuso, pero con las fuentes de soni-
do en posiciones diametralmente opuestas a sus posiciones originales. Esto
6 La unidad Audio+Design Pan-Rotate tenía ocho entradas mono, cada una con su control
individual de panorámico (únicamente horizontal), siendo las salidas de formato B de las
ocho mezcladas para formar la salida.
176
fue raramente usado, ya que la cualidad difusa de las ubicaciones del sonido
entre los extremos no les gustó a la mayoría de los usuarios. Esto se debió a
las limitaciones de la tecnología de control analógica usada en esa época. Las
transformaciones en espejo se realizaron por medio de una inversión contro-
lable de los canales direccionales (X, Y, Z) de manera tal que sus ganancias
variaban desde +1 pasando por 0 hasta -1. Parcialmente a causa de que los
elementos de control en los panorámicos-rotaciones eran potenciómetros
normales y parcialmente a causa de que esto era más flexible, no se ejecutó
en el campo sonoro completo,7 sino por el contrario en cada control indivi-
dualmente. La operación se puede realizar mucho más fácilmente en el campo
sonoro completo en el dominio digital y, de hecho, se puede realizar en una
manera tal que mucho de la característica difusa se puede evitar. Ejecutando
la inversión a lo largo de un solo eje (digamos, el eje x) las fuentes en el plano
y-z perpendicular al eje x permanecen correctamente posicionadas aun en el
punto central. Esto sirve como un “ensanchador” de la percepción del oyente
del campo sonoro y los sonidos ya no se mueven a posiciones diametralmente
opuestas sino, en cambio, a posiciones directamente opuestas a sus posiciones
originales. Esto es, un sonido a la izquierda en el frente se mueve hacia la
izquierda atrás, uno a la derecha atrás se mueve a la derecha al frente y así,
sucesivamente.
Dominancia
177
Sin embargo, en el diseño original para controles de campo sonoro, en donde
se llamó control de ancho, se proveyeron las siguientes ecuaciones:
W ′ = W + 2λX
X′ = X + 2λW
Y′ = Y 1− λ2
Z′ = X 1− λ2 E. 11
Vale la pena notar, sin embargo, que la versión que se usa en el micrófono
Soundfield original no altera los canales Y y Z (Farrah, 1979). En cada caso,
el efecto es el incremento de la ganancia de los sonidos en el frente para λ > 1
y simultáneamente reducir la ganancia de los sonidos traseros, de esta manera
logrando que los que están al frente parezcan más cercanos y los que están
atrás más lejanos. A diferencia de los lentes de zoom ópticos, sin embargo,
la separación angular entre las fuentes frontales decrece y las fuentes traseras
se separan y, por supuesto, es sólo el indicio de distancia, que no es el más
importante, el que se manipula.
Ni la dominancia ni el reflejo están limitados a actuar solo en uno de los
ejes predefinidos del campo sonoro. En el caso más simple, es posible rotar
el campo sonoro (en tres dimensiones) de manera tal que el eje sobre el que
se desea operar quede alineado en frente-atrás antes de ejecutar la transfor-
mación que se requiera en ese eje. Aplicando luego una rotación inversa el
campo sonoro original será restituido a su orientación original y la acción del
proceso ocurrirá a lo largo del eje deseado en el campo sonoro. Una concep-
ción más directa sería, por supuesto, modificar las ecuaciones de dominancia
o reflejo directamente.
178
de las grabaciones uhj es muy buena, así que las grabaciones uhj bien hechas
realmente proveen una presentación bastante fina cuando se reproducen en
un sistema estéreo normal. Con un decodificador apropiado y cuatro o más
altoparlantes ubicados horizontalmente, virtualmente se puede lograr toda la
ejecución de un sistema completo de formato B horizontal (Gerzon, 1977a;
1977b).
Este método de codificación, conocido como codificación UHJ, se ha usado
para producir grabaciones Ambisonics compatibles con estéreo, cintas mag-
netofónicas y transmisiones de radio. Las señales X, Y y Z se transcodifican en
dos canales usando la siguiente transformada:
Derecho = (0,0928 − 0,255 j)X + (0, 4699+ 0,171 j)W − (0,3225 + 0,00855 j)Y
Izquierdo = (0,0928+ 0,255 j)X + (0, 4699 − 0,171 j)W + (0,3225 − 0,00855 j)Y
E. 12
179
miles a causa de la más alta frecuencia de muestreo y la respuesta en bajos
sumamente extendida. En el pasado, esto lo hacía impropio para la operación
en tiempo real, como en la implementación producida en la década de 1990
por el Dr. Ambrose Field usando una computadora sgi Origin, que era varias
veces más lenta que el tiempo real. Sin embargo, las modernas computadoras
son más que suficientemente rápidas para hacer esto en tiempo real, a pesar de
que la necesidad de uhj ha desaparecido en gran medida con el advenimiento
de medios de distribución multicanal como el dvd.
La codificación uhj, al menos en su versión de dos canales, no puede
preservar toda la información del campo sonoro horizontal, como puede verse
fácilmente de las consideraciones de la teoría de la información. Un diseño
cuidadoso tanto del codificador como del decodificador puede concentrar la
pérdida de información en la parte trasera de la imagen en donde hay menos
de lo que es espacialmente crítico (con la música más convencional, de todas
maneras). Esto deja lugar para mejorar la cualidad de la imagen en el área
frontal, que es más crítica.
El miembro básico (de dos canales) de la familia uhj puede ser suplemen-
tado con un tercer canal para remover las anomalías que resten para la repro-
ducción horizontal. Este puede ser de banda reducida sin degradar mucho las
cosas si es necesario por razones operativas, por ejemplo si se transmite la señal
usando modulación de sub-portadora en un transmisor de fm. Se puede añadir
un cuarto canal para proporcionar información de altitud. Las ecuaciones
para decodificar son tales que un decodificador para cualquiera de los niveles
siempre extraerá sólo la información que realmente usa de entradas de mayor
orden, permitiendo al sistema ser compatible “hacia arriba”.
180
itd domina los procesos de audición espacial) hay alguna emisión anti-fase
de los altoparlantes opuestos a la ubicación de la fuente de sonido. Gerzon
dice en sus escritos sobre decodificación8 que esto provee un refuerzo extra de
los indicios posicionales para los oyentes centrales. Sin embargo, para áreas
más grandes como las salas de conciertos, la experiencia ha mostrado que es
mejor aplicar la concepción que ha sido alternativamente denominada como
en-fase (Malham, 1992) u opuestos controlados (Furse, [1]). En primer lugar,
se debe hacer notar que el diseño de un decodificador es considerablemente
facilitado si la distribución de altoparlantes es tan regular como sea posible.
Sin duda, hasta la aparición del así llamado diseño de decodificadores Vienna
(Barton y Gerzon, 1992) la mayoría de los diseños de decodificadores pre-
dicaba el uso de arreglos de altoparlantes consistentes de una distribución
regular de pares, con los altoparlantes de cada par montados en los finales
opuestos de una línea que cruza el centro del arreglo, en donde estaría la
posición de audición principal. Esto fue conocido como el teorema del par
diamétrico (Gerzon, 1977b). En general, esto significa que los altoparlantes
deben ser dispuestos en uno de los sólidos geométricos regulares, o bien en el
medio de sus caras, o en los vértices. Las configuraciones reconocidas inclu-
yen cuadrados y hexágonos regulares para el trabajo solo horizontal, con un
cubo siendo el mínimo práctico para el trabajo “con altitud”. Para arreglos
regulares de esta clase, el mínimo absoluto de altoparlantes es 2M + 1 en
sistemas solo horizontales y (M + 1)2 para sistemas con altitud, donde M es
el orden del sistema (Daniel, 2000, p. 179).
Sin embargo, existen considerables ventajas en usar más altoparlantes
que esto, para minimizar la influencia tanto de la posición de audición como
de las disparidades entre los altoparlantes y la acústica del recinto.
Para la decodificación en-fase, la entrada para cada altoparlante es sim-
plemente una combinación de las señales de formato B que corresponde a
la posición del altoparlante respecto del centro del arreglo. Esto se puede
expresar con la siguiente ecuación, en la que el altoparlante tiene un ángulo
antihorario α desde el frente y un ángulo de elevación β arriba o abajo del
plano horizontal:
181
dioide que se necesita para la decodificación en-fase. Esto es óptimo tanto para
audiencias que puedan estar cerca de la posición de los altoparlantes como para
audiencias ubicadas fuera del arreglo de altoparlantes, dado que elimina cual-
quier posibilidad del fenómeno conocido como bounce-back* (Malham, 1992).
Bounce-back
1
PLF = W + (X + Y )
2
1
PRF = W + (X −Y )
2
1
PLB = W + (−X + Y )
2
1
PRB = W + (−X −Y )
2 E. 14
* Literalmente “rebote-de-vuelta”, efecto que consiste en que la señal parece provenir del altopar-
lante opuesto diametralmente del que debería provenir. Se adoptó aquí directamente su denomi-
nación en inglés, dado que no existe traducción de uso corriente en español. [N. del T.]
9 Véanse las discusiones detalladas que siguen, sobre el diseño de decodificadores.
182
Y para un arreglo cúbico, las señales son:10
1 ⎛ 1 ⎞
PLFU = W + ⎜ (X + Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRFU = W + ⎜ (X −Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PLBU = W + ⎜ (−X + Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRBU = W + ⎜ (−X −Y ) + Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PLFD = W + ⎜ (X + Y ) − Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRFD = W + ⎜ (X −Y) − Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PLBD = W + ⎜ (−X + Y ) − Z ⎟
2⎝ 2 ⎠
1 ⎛ 1 ⎞
PRBD = W + ⎜ (−X −Y ) − Z ⎟
2⎝ 2 ⎠ E. 14
En la práctica, se puede tolerar en los arreglos una cierta asimetría sin que cause
excesivos problemas. La experiencia ha mostrado, por ejemplo, que el arreglo
cuadrado puede variar desde un rectángulo con una proporción de ancho/pro-
fundidad de dos a uno, hasta un rectángulo con una proporción de uno a dos
sin que la imagen tenga serios problemas, provistos del hecho de que se hagan
los cambios apropiados a las ecuaciones de decodificación.
Una manera de compensar esta suerte de irregularidad es modificar la
señal de formato B antes de que alimente al decodificador de la disposición
regular correspondiente. Por ejemplo, si se alimenta un decodificador para una
disposición cuadrada con X e Y modificados como sigue:
X ′ = X 2 sinα
Y ′ = Y 2 cosα E. 16
10Los decodificadores que se basan en estas ecuaciones se pueden construir fácilmente, ya sea
con electrónica analógica simple o por software. Es aun posible usar una consola de mezcla con
ocho entradas y ocho salidas para implementar el diseño cúbico. Esto se realiza ingresando
183
es posible compensar razonablemente bien el uso de arreglos rectangulares en
donde el ángulo α de los altoparlantes frontales esté no más de ±15° fuera del
cuadrado (patente británica Nº 1.494.751).
De manera similar, para un arreglo cúbico se puede aplicar la siguiente
compensación:
X ′ = X 3 sinα
3
Y′ = Y cosα 2 sinβ
2
3
Z′ = Z cosα 2 cos β
2 E. 17
cada señal de formato B en dos canales de la consola, uno normal y el otro con la polaridad
invertida, disponiendo la ganancia del mezclador y la asignación de las señales de acuerdo
con las ecuaciones presentadas arriba y enviando a los altoparlantes las ocho salidas.
184
donde r es el radio del arreglo en metros, c es la velocidad del sonido y Fm
es la función de transferencia que afecta a los componentes Ambisonics de
orden m como lo define en su artículo y lo reproduce en la ecuación 32. Para
un sistema Ambisonics de primer orden, esto equivale a un filtro pasaaltos de
6 dB por octava que tiene una caída de -3dB en 53/r Hz (patente británica
Nº 2.073.556) así que, en el caso de arreglos de altoparlantes para el tamaño
de salas de conciertos, la frecuencia resultante tiende a ser tan baja que hace
innecesario tal filtro.
Vectores de velocidad
185
Si la contribución vectorial de cada altoparlante es:
⎛cosθ i⎞
svi = Li ⎜ ⎟
⎝sinθ i ⎠ E. 20
n
s vi )
rv = ∑ s vi
i=1 P E. 21
Vectores de energía
Cuando las frecuencias que nos interesan involucran longitudes de onda que
son pequeñas comparadas con la cabeza, la suma de vectores de velocidad ya
no es aplicable, ya que los oídos responden preferentemente a las ild en esta
área. En este caso, de acuerdo con Gerzon, la suma de las contribuciones
de energía de cada altoparlante provee una buena indicación de la calidad de
reproducción.
re = ∑
n
( sei ) )
sei
i=1
E E. 23
186
La localización aparente del sonido dada por re es, de acuerdo con Gerzon,
válida para un oyente central en frecuencias arriba de 700Hz y por debajo de
4.000Hz y también para la situación en donde la suma vectorial de velocidades
es inválida en bajas frecuencias, por ejemplo cuando el oyente está desviado
del centro por un monto que es significativo para la frecuencia en cuestión.
Es fácil demostrar matemáticamente que la magnitud de re no se puede
igualar al valor óptimo de 1, a menos que un solo altoparlante emita sonido y
así, los sonidos de alta frecuencia en un arreglo Ambisonics de primer orden
nunca producirán tan buenos indicios de localización como los de baja fre-
cuencia. Sin embargo, si la decodificación es óptima, al menos no variará junto
con la posición de la fuente como lo hace en sistemas como el surround itu 5.1.
Esto explica ampliamente la tendencia observada en los sistemas Ambisonics
de volver los altoparlantes “invisibles”. Como “regla de pulgar”, la cantidad 1-|
re| es aproximadamente proporcional al grado de movimiento de la imagen en
la medida en que el oyente mueve su cabeza (Gerzon, 1992).
Maximizar |re | y lograr la condición |rv | = 1 se excluyen mutuamente.
Para un arreglo destinado a grandes áreas es deseable que |re | se maximice
a expensas de rv, ya que esto minimiza el bounce-back mientras que retiene
una buena imagen. Para arreglos grandes, con oyentes cercanos a los bordes,
la mejor y más fácil manera de lograr esto es la estrategia de la decodificación
en-fase ya discutida. No obstante, allí donde el área de audición resulta más
limitada, se puede obtener alguna ventaja al maximizar re, como lo discute
Jerome Daniel en Daniel, Rault y Polack (1998) y Daniel (2000). Munro
(2000) presenta un tratamiento algo más simple y claro de esta cuestión.
Efectos locales
12La experiencia ha mostrado que ambos efectos tienden a causar más problemas en fuentes
de sonido estacionario que en las que se mueven dentro del campo sonoro.
187
reconstrucción del frente de onda se lleva a cabo correctamente en todas
las frecuencias. Cuando un altoparlante de un arreglo tiene una ganancia
acústica diferente a la de los otros, la reconstrucción del frente de onda
estará desviada. Si el error en ganancia acústica depende de frecuencia
(como podría ser cuando se usan diferentes tipos de altoparlantes) entonces
la desviación del frente de onda será dependiente de la frecuencia, causando
que las imágenes de banda ancha sean borrosas.13 El mismo efecto ocurre
cuando las superficies reflectivas cercanas a un altoparlante causan que los
sonidos de este alcancen la posición del oyente con retardos adicionales
produciendo filtrado significativo de tipo “peine” en la banda del sonido
que reproduce. Ambos efectos se pueden disminuir por medio del uso de
más altoparlantes, ya que la contribución de cada uno de ellos al frente de
onda final es menor.
Allí donde el espacio de ejecución sea problemático en términos de
superficies reflectivas, las dificultades pueden encararse de varias maneras,
por ejemplo, ubicando los altoparlantes a alguna distancia de tales superfi-
cies. Al ubicarlos suficientemente lejos se hace que el retardo tenga bastante
duración como para forzar los “dientes” del filtro-peine a estar más cerca el
uno del otro, lo que ayudará a reducir la audibilidad del efecto, y la pérdida
adicional de amplitud a causa del mayor recorrido reducirá la profundidad (y
altura) de los dientes, lo que también reducirá la audibilidad.
Fragmentar las superficies reflectivas en otras que sean aleatoriamente
difusas es otra posibilidad, a pesar de que esto sea difícil para una instalación
no permanente. Angelo Farina sugirió una alternativa en un correo electró-
nico del 18 de abril de 2002 al grupo Sursound (2), que es la de convolver
la señal de cada altoparlante con un fragmento breve, diferente para cada
señal (10 ms) de ruido con una envolvente exponencial. Esta estrategia,
que parece ser de interés potencial, para citar a Farina, “...vuelve aleatorias
las fases del sonido reproducido, y evita alteraciones dinámicas de fase* y
otros artefactos......”. Otras posibilidades incluyen el desarrollo de la técnica
del espejo acústico de tiempo invertido** que se usa, entre otras cosas, para
extender el rango de los sistemas de sonar (Kuperman et al., 1998). En los
sistemas de sonar de este tipo, se usa un arreglo aleatorio de transmisores
de sonar (a menudo implementado con un arreglo aleatorio de difusores,
tales como pequeñas esferas, enfrente del transmisor). Para disponer el sis-
13 Nótese que cuando todos los altoparlantes tienen las mismas características espectrales,
esto causa solamente un cambio de timbre y no una desviación del frente de onda.
* Phasiness, en el original en inglés. [N. del T.]
** Acoustic time reversal mirror, en el original en inglés. [N. del T.]
188
tema, un transmisor se ubica en el lugar en donde el rayo del sonar necesita
concentrarse, se usa para emitir un rayo de sonar de vuelta hacia el arreglo
transmisor principal y se mide la respuesta a impulso de cada uno de los
transmisores ubicados aleatoriamente en el arreglo. Esta respuesta a impul-
so incluye tanto los efectos de la aleatoriedad deliberada del arreglo como
aquellos de las reflexiones producidas por las obstrucciones a lo largo del
camino por la que el rayo viajó. Al disponer en reverso y reflejar la respuesta
a impulso para cada lugar focal del camino del transmisor y luego aplicarla
a la señal de ese transmisor, cuando el arreglo principal emite su rayo los
efectos aleatorios, incluidos los del entorno, son cancelados cuando todos
los rayos llegan al lugar focal. Esto tiene claras posibilidades para arreglos
de sonido surround, ya sea produciendo fuentes de sonido individuales (que
podrían, por ejemplo, ser posicionadas cerca de los asientos en el espacio de
audiencia) o para producir un arreglo de altoparlantes virtuales que está más
lejos de las paredes del lugar de ejecución (y, de esta manera, más inmune
a sus efectos) de lo que los altoparlantes pueden situarse físicamente. Una
concepción similar, que involucra el uso de los así llamados “spots acústi-
cos” que usan la naturaleza no lineal del aire a altas presiones sonoras para
rectificar (y por consiguiente detectar, como en un receptor de radio) rayos
de ultrasonido modulados en audio, ha sido sugerida por otro estudiante del
York Music Technology Group, Alex Cohen, en su proyecto final (Cohen,
1999).
Efectos globales
El efecto global principal se origina por la conocida dificultad que posee cual-
quier sistema de reproducción basado en altoparlantes de no ser capaz de pro-
ducir correctamente sonidos que aparenten estar más cercanos al oyente que
el radio de reverberación. El radio de reverberación se produce por la proporción
del sonido directo de un altoparlante y la reverberación que produce ese soni-
do en el espacio de ejecución en sí mismo. Esto se evita mejor teniendo una
acústica seca y ubicando los altoparlantes lo más cerca posible a pesar de que
estas medidas crean sus propios problemas. Espejos de reverso temporal y otras
estrategias relacionadas pueden tener un papel para representar en esto, como
también lo tiene la posibilidad de usar sistemas híbridos de auriculares y alto-
parlantes juntos, como se discutió en la sección sobre el realismo. Finalmente,
vale la pena destacar que nuevas ideas publicadas muy recientemente (Daniel,
Nicol y Moreau, 2003) parecen ofrecer una respuesta más directa al problema
de la producción de fuentes sonoras cercanas. Esto se discute brevemente en
la sección que sigue, sobre Ambisonics de orden más alto.
189
Sistemas Ambisonics de orden más alto
Armónicos esféricos
190
constituir la base para la notación que se usa en este trabajo, excepto cuando
se indique algo diferente.
En esta notación, los armónicos esféricos se describen por la siguiente
ecuación:
⎧cos(nθ) if σ =1
Ymn
σ
(θ,φ) = Pmn (sinφ)⎨
⎩sin(nθ) if σ = −1 E. 24
191
cada polinomio (ya sea matemáticamente o numéricamente) de manera explí-
cita y luego invertida. A diferencia de las funciones de Legendre, hasta donde
este autor conoce no se ha descubierto hasta ahora una fórmula recurrente
simple para generar los factores de escalamiento requeridos automáticamente.
Los factores para convertir la representación formal, matemática, SN3D en la
versión FuMa, que se usa en los sistemas prácticos de ingeniería, se muestran
hasta el tercer orden en la tabla 1 junto con las designaciones convencionales
de los canales a los que corresponden.
Factor
Orden m,n,σ Canal Definición SN3D Y
FuMa
X
Frente
0 0,0,1 W 1 1/√
2
1,1,1 X cosθcosø 1
1,1,-1 Y sinθcosø 1
1,0,1 Z sinø 1
192
2,0,1 R (3sin2ø -1)/2 1
2
2,1,-1 T (√ 3/2) sinθsin(2ø) 2/√
3
3 3,0,1 K sinø(5sin2ø-3)/2 1
193
3,1,1 L (√3/8) sinθcosø(5sin2ø-1) √45/32
194
En general, el uso de la nomenclatura basada en letras para los nombres de
canal no se usa más allá del tercer orden, a pesar de que el alfabeto inglés
podría realmente albergar los nueve canales del cuarto orden. En su lugar, se
usa para designar a los canales el sistema m, n, σ. Este sistema, que se adoptó
por conveniencia tipográfica, es ligeramente diferente de la notación mate-
mática convencional porque σ no es un superíndice arriba de las otras dos.*
La rotación en el eje Z tal como se describe en la sección sobre Ambisonics
básico puede ser extendida fácilmente a estos órdenes más altos. Tanto Daniel
(Daniel, 2000, p. 165) como Furse (2) han publicado las matrices para primer
y segundo orden con ligeras diferencias en las convenciones. Ya que la tabla
1 cubre el tercer orden, las matrices de rotación hasta este orden se presentan
aquí. Ya que la matriz W es la matriz identidad bajo todas esas transformacio-
nes, es trivial y no se incluye.
Matrices de rotación
Para una rotación a lo largo del eje Z por un ángulo β, las matrices son como
sigue:
⎡cos β −sinβ 0⎤
⎢ ⎥
⎢sinβ cos β 0⎥
⎢⎣ 0 0 1⎥⎦ E. 25
⎡1 0 0 0 0 ⎤
⎢ ⎥
⎢ 0 cos β −sinβ 0 0 ⎥
⎢ 0 sinβ cos β 0 0 ⎥
⎢ ⎥
⎢0 0 0 cos 2β −sin2β⎥
⎢⎣ 0 0 0 sin2β cos 2β ⎥⎦ E. 26
195
Componentes de tercer orden
Orden de fila (entrada) K,L,M,N,O,P,Q
Orden de columna (salida) K′,L′,M′,N′,O′,P′,Q′
⎡1 0 0 0 0 0 0 ⎤
⎢ ⎥
⎢ 0 cos β −sinβ 0 0 0 0 ⎥
⎢ 0 sinβ cos β 0 0 0 0 ⎥
⎢ ⎥
⎢0 0 0 cos 2β −sin2β 0 0 ⎥
⎢0 0 0 sin2β cos 2β 0 0 ⎥
⎢ ⎥
⎢0 0 0 0 0 cos 3β −sin 3β⎥
⎢⎣ 0 0 0 0 0 sin 3β cos 3β ⎥⎦ E. 27
Ladeo e inclinación
Ya que, a partir del segundo orden, las formas de los armónicos involucrados
tanto en el ladeo como en la inclinación ya no son simples, generar las matrices
necesarias no es trivial. Derivar las matrices de segundo orden no es tan difícil,
a pesar de que requiere un monto significativo de manipulación de ecuacio-
nes trigonométricas para llegar a los resultados obtenidos por Furse o Daniel.
Sin embargo, el tercer orden y los más altos constituyen una tarea “bastante
intrincada”, por citar una página web (Simulgen Proyect a) relacionada con
el proyecto de investigación de la Unión Europea Simulgen Esprit. Uno de los
acercamientos investigados en este proyecto fue el uso de los armónicos esfé-
ricos para definir la iluminación direccional en sistemas de simulación visual
que tienen la misma necesidad de rotaciones arbitrarias. Allí se advierte que
no se había encontrado en 1995 la solución al problema de una generación
simple de las matrices de rotación que se requieren, pero que esto se había
resuelto en 2000, la fecha de la página web. Desafortunadamente, no se dan
más detalles ni en la página web ni en los documentos del proyecto disponi-
bles al público. Sin embargo, una búsqueda en la literatura de otro campo en
el que se usan los armónicos esféricos intensivamente, la físicoquímica, arrojó
como resultado un artículo de Choi, Ivanic, Gordon y Ruedenberg, (1999)
que presenta una fórmula recursiva estable para la rotación de los armónicos
esféricos que parece ser adaptable a las convenciones usadas en Ambisonics.
196
Dominancia
Daniel afirma (Daniel, 2000, p. 166), sin dar una prueba explícita, que no
es posible implementar el efecto de dominancia más allá del primer orden
usando la transformada Lorentz sin perturbar el proceso de reconstrucción
de la forma de onda. Cotterell (2002, p. 123) proporciona una demostración
numérica de esta afirmación en su tesis doctoral. Se requiere más trabajo para
hallar una transformada apropiada que provea esta útil función en los sistemas
de orden más alto. En su sección sobre este tema, Daniel sugiere buscar una
matriz de transformación lineal que se base en las relaciones entre las fun-
ciones de Legendre asociadas. Richard Furse, en una comunicación privada,
sugiere usar una aproximación numérica. Él ha desarrollado un método basado
en una plantilla de cálculo para investigar esta cuestión, pero al tiempo de este
artículo todavía no se han conducido tests de audición. Una posibilidad más
que vale la pena investigar sería muestrear espacialmente el campo sonoro
usando un número de puntos de muestreo lo suficientemente amplio para
evitar “aliasing”* espacial y luego producir un nuevo campo sonoro por re-
muestreo de los puntos usando una función de torsión apropiada.
r ∞
p(r ) = ∑ j m j m (kr) ∑ BσmnYmnσ (θ,δ)
m= 0 0≤ n≤ m,σ = ±1
∞
+ ∑ j m h m (kr) ∑ AσmnYmnσ (θ,δ)
m= 0 0≤ n≤ m,σ = ±1 E. 28
Con el número de onda, k=2πf/c, jm(kr) son las funciones esféricas de Bessel
(primeras series) y hm(kr) son las funciones esféricas divergentes de Hankel.
197
La parte derecha de la primera línea de la ecuación es equivalente a la
actual formulación Ambisonics expresada en el dominio de la frecuencia
para fuentes externas al arreglo de altoparlantes. Si se asume una onda
plana, los coeficientes B se convierten en las ganancias de los componentes
armónicos esféricos. La segunda línea describe frentes de onda dentro del
arreglo. Estas son ambas intrínsecamente curvas y también dependientes de
la frecuencia.
m n
(m + n)! ⎛ − jc ⎞
FmR c (ω) = ∑ n ⎜ ⎟
n= 0 (m − n)!n!2 E. 30
⎝ ωR ⎠
198
Bibliografía
199
transmission et à la reproduction de scènes sonores complexes dans un
contexte multimédia”, tesis de doctorado, 1996-2000, Université Paris 6.
——, J. B. Rault y J. D. Polack (1998), “Ambisonics Encoding of Other
Audio Formats for Multiple Listening Conditions”, preprint 4795 de la
convención 105 de la Audio Engineering Society, San Francisco.
——, R. Nicol y S. Moreau (2003), “Further Investigations of High Order
Ambisonics and Wavefield Synthesis for Holophonic Sound Imaging”,
presentado en la Convención 114 de la Audio Engineering Society,
Amsterdam.
Farrah, K. (1979), “The SoundField Microphone”, Wireless World, pp.
99-103.
Fellgett, P. B. (1972), “Directional Information in Reproduced Sound”,
Wireless World, vol. 78, pp. 413-417.
Field, A. (1998), entrevista en Austin, L. (2001), “Sound Diffusion in
Composition and Performance Practice II: An Interview with Ambrose
Field”, Computer Music Journal, vol. 25, N° 4, pp. 21-30.
Gerzon, M. A. (1973), “Periphony: With-height Sound Reproduction”,
Journal of the Audio Engineering Society, vol. 21, N° 1, pp. 2-10.
—— (1975a), “The Design of Precisely Coincident Microphone Arrays for
Stereo and Surround Sound”, presentado en la Convención 50 de la
Audio Engineering Society, Londres.
—— (1975b), “Panpot and Soundfield Controls”, NRDC Ambisonics Technology
Report, N° 3.
—— (1977a), “Surround Sound Decoders”, Wireless World, (en 7 partes)
enero a agosto de 1977.
—— (1977b) “Design of Ambisonics Decoders for Multi Speaker Surround
Sound”, presentado en la Convención 58 de la Audio Engineering
Society, Nueva York.
—— (1992), “General Metatheory of Auditory Localisation”, Preprint 3306
de la convención 92 de la Audio Engineering Society, Viena.
Gibson, D. (1996), “Designing an ssb outphaser, part 2”, Electronics World,
vol. 102, N° 1722, pp 392-394.
Gibson, J. J. (1979), The Ecological Approach to Visual Perception, Boston,
Houghton Mifflin.
——, R. M. Christensen y A. L. R. Limberg (1972),“Compatible FM
Broadcasting of Panoramic Sound”, Journal of the Audio Engineering
Society, vol. 20, pp. 816-822.
Hood, T. (1989), “Investigation into the Ambisonics Surround Sound sys-
tem”, proyecto final para el MA/Msc en Music Technology, Universidad
de York.
200
Kaplan, W. (1981), Advanced mathematics for engineers, Reading, Addison-
Wesley, pp. 710-714.
Kopčo, N., S. Santarell y B. Shinn-Cunningham (2000), “Tori of confusion:
Binaural localization cues for sources within reach of a listener”, Journal
of the Acoustic Society of. America, vol. 107, N° 3, pp. 1627-1635.
Kuperman, W. A, W. S. Hodgkiss, H. C. Song, T. Akai, C. Ferla y D. R. Jackson
(1998), “Phase conjugation in the ocean: Experimental demonstration of an
acoustic time-reversal mirror”, Journal of the Acoustical Society of America,
vol. 103, N°1, pp. 25-40.
Leakey, D. M. (1959), “Some measurements on the effects of interchannel
intensity and time difference in two channel sound systems”, Journal of
the Acoustic Society of America, vol. 31, pp. 977-987.
Lennox, P. P., A. Myatt y J. M. Vaughan (1999), “From Surround to True
3-d”, presentado en la conferencia 116 de la Audio Engineering Society
sobre reproducción espacial de sonido, Rovaniemi, Finlandia.
Lennox, P.P., J. M. Vaughan y A. Myatt (2001), “3D Audio as an Information
Environment”, presentado en la conferencia 19 de la Audio Engineering
Society, Schloss Emlau, Alemania.
Macpherson, E. A. y J. C. Middlebrooks (2002), “Listener weighting of cues
for lateral angle: The duplex theory of sound localization revisited”,
Journal of the Acoustical Society of America, vol. 111, N° 5, pp. 2219-
2236.
Makita, Y. (1962), “On the directional localization of sound in the stereopho-
nic sound field”, EBU Technical Review, parte A N° 73, pp. 102-108.
Malham, D. G. (2001), “Spherical Harmonic Coding of Sound Objects - the
Ambisonics ‘O’ Format”, Proceedings de la Conferencia 19 de la Audio
Engineering Society, Schloss Elmau, Alemania, pp. 54-57.
—— (1987), “Computer Control of Ambisonics Soundfields”, preprint N°
2463, presentado en la convención 82 de la Audio Engineering Society,
Londres.
—— y R. Orton (1991), “Progress in the Application of Ambisonics. Three
Dimensional Sound Diffusion Technology to Computer Music”, ICMC
Montreal 1991 Proceedings, pp. 467-470.
Menzies, D. (1999), “New Electronic Performance Instruments for
Electroacoustic Music”, tesis de doctorado, Universidad de York, pp.
99-101.
Menzies, D. (2002), “W-panning and O-format, Tools for Object
Spatialization”, Proceedings de la 8° conferencia internacional sobre
Auditory Display, Kioto, Japón (<http://www.icad.org/websiteV2.0/
Conferences/ICAD2002/proceedings/29_DylanMenzies.pdf>).
201
Munro, G. (2000), “In-phase corrections for Ambisonicss”, Proceedings of
ICMC 2000, Berlín, pp. 292-295.
Nicol, R. y M. Emerit (1999), “3D-Sound Reproduction over an Extensive
Listening Area: a Hybrid Method Derived from Holophony and
Ambisonics”, conferencia 16 de la Audio Engineering Society sobre
reproducción espacial de sonido, Helsinki 1999, preprint N° 66819.
Nielsen, S. H. (1993), “Auditory Distance Perception in Different Rooms”,
Journal of the Audio Engineering Society, vol. 41, N° 10, pp. 755-770.
Press, W. H., S. A. Teukolsky, W. T. Vetterling y B. P. Flannery (1997),
Numerical Recipes in C, Cambridge, Cambridge University Press, pp.
252-254.
Vennonen, K. (1994), “A Practical System for Three-Dimensional Sound
Projection”, en los anuarios del simposio de Computer Animation y
Computer Music, Synaesthetica ‘94, Australian Centre for the Arts and
Technology, Canberra, Australia.
Weinberg, S. (1972), Gravitation and Cosmology. Principles and Applications of
the General Theory of Relativity, Nueva York, John Wiley and Sons.
Wishart, T. (1985), On Sonic Art, York, Imagineering Press.
202
Capítulo VI
Sistemas de sonido multicanal para la industria
audiovisual
Mariano Martín Cura
Introducción
203
Especificaciones de canales
Sistemas propietarios
204
el subwoofer. Esta técnica no está estandarizada y depende específicamente de
la implementación de cada sistema en particular.
Codificación perceptual
205
separación (+/-45º) entre los canales izquierdo y derecho. En los sistemas
surround de cinco canales los canales izquierdo y derecho se ubican a +/-30º
para tener compatibilidad con sistemas estéreo de dos canales. Segundo, el
canal central permite un punto de escucha más amplio ya que la imagen
sonora no colapsa tan fácilmente con el altoparlante más cercano. Tercero,
en su utilización en salas de cine donde el ancho de la pantalla hace inviable
la localización de una fuente virtual en el centro (estéreo de dos canales) el
canal central permite una buena localización de los diálogos en el centro de la
pantalla. Cuarto, la imagen central no sufre modificaciones espectrales como
en el estéreo de dos canales, ya que emana de una fuente sonora real.
Sonido cuadrafónico
206
Figura 1
Figura 2
207
En los sistemas hogareños el canal surround monofónico generalmente
alimenta a dos difusores ubicados en posiciones similares a la configuración
5.1 que se describirá más adelante.
La mayor limitación de este sistema es la imposibilidad de lograr un buen
campo sonoro envolvente, ya que para esto se necesitaría al menos distintas
señales a los costados de los espectadores.
Figura 3
208
ción de ruido Dolby A (véase Dolby Laboratories Technical Library, s/f), que
en las más recientes fue reemplazado por Dolby sr (véase Dolby Laboratories
Technical Library, s/f). El sistema Dolby Surround Pro Logic (véase Rumsey
2001, cap. iv) es una posterior adaptación al mercado hogareño, utilizando la
misma configuración lcrs y almacenando los cuatro canales con una matriz
4-2-4 en los dos canales analógicos de las cintas de video.
La matriz 4-2-4 de Dolby Stereo que se ve en la figura 4 codifica el canal
surround mono sumándolo fuera de fase (+-90º) en los canales izquierda y dere-
cha. El canal central es codificado sumándolo a los canales izquierdo y derecho
en fase. Al resultado de esta suma se lo llama Lt/Rt (“izquierda total y derecha
total”). De esta manera, en el proceso de decodificación, se puede separar el
canal surround de los canales frontales realizando una suma de las señales Lt/
Rt fuera de fase, extrayendo la señal de la diferencia estéreo. Al canal central
se lo decodifica sumando Lt/Rt en fase.
Figura 4
Figura 5
209
Al realizar la decodificación, con el objeto de corregir efectos secundarios
del proceso de codificación/decodificación (señales localizadas en el campo
frontal que parecen provenir del campo trasero) se realizan otros procesos,
como se puede ver en el diagrama de decodificación básica de la figura 5.
Además de realizar las sumas y restas de canales, al canal surround se lo limita
en banda de 100 Hz a 7 kHz y se lo retrasa entre 20 y 30 milisegundos (depen-
diendo de la distancia entre parlantes) aprovechando el efecto de precedencia
(véanse los capítulos i y ii de este libro) para que los receptores localicen la
señal de acuerdo al primer frente de onda recibido, por lo que las señales que
se encuentran en todos los canales tenderán a una localización frontal. De
esta forma se facilita la separación adelante/atrás entre canales. En los deco-
dificadores activos más avanzados se utiliza una matriz adaptativa que realiza
una serie de procesos con el objeto de determinar la localización de la fuente
dominante para poder selectivamente atenuar los canales menos importantes.
Por ejemplo, si la señal predominante es el diálogo en el canal central, se
atenuará la salida de los otros canales.
210
Figura 6
211
Figura 7
Como el uso del canal de bajas frecuencias es similar en el formato 5.1 al que
se utiliza en los formatos que describiremos a continuación, en adelante se
hará referencia a la cantidad de canales de baja frecuencia de cada sistema.
212
Tabla 1. Asignaciones de pistas para surround 5.1
1 L Izquierda Amarillo
2 R Derecha Rojo
3 C Centro Naranja
-3 dB en caso de surround
5 LS Surround izquierdo Azul
mono
-3 dB en caso de surround
6 RS Surround derecho Verde
mono
Preferentemente señal
Libre para uso de intercambio
7 izquierda de una mezcla Violeta
de audio
estéreo
Preferentemente señal
Libre para uso de intercambio
8 izquierda de una mezcla Marrón
de audio
estéreo
Figura 8
213
La versión para el mercado consumidor de Dolby Digital utiliza la misma
codificación AC-3 pero con un decodificador Dolby Pro Logic II (véase Dolby
Laboratorios Technical Library, s/f), que incorpora parámetros de control
específicamente diseñados para salas hogareñas y mantiene compatibilidad
con la codificación por matrices de Dolby Pro Logic.
DTS
El sistema dts (Digital Theater Systems) (véase Rumsey 2001, cap. iv) es otra
implementación del formato 5.1 para salas de cine. En él se utilizan técnicas
de compresión de audio destructivas para lograr un rango de frecuencias de
transferencia de entre los 32 kbit/seg hasta los 4.096 Mbit/seg (un poco
mayor que en Dolby Digital) y con frecuencias de muestreo de hasta 192
kHz, permitiendo también técnicas de compresión no destructivas. Es por
esto que en teoría permite configuraciones de mayor calidad de audio que
Dolby Digital, pero en la práctica las configuraciones más utilizadas son
equivalentes.
En la película de 35 mm el sistema dts graba una pista de sincronía al
lado de la pista estéreo óptica (Dolby Stereo) y utiliza un reproductor de
audio específico, externo al proyector, con las pistas de audio. De esta manera
se puede editar una misma película en multiformato, con los tres sistemas
surround para cine: Dolby Digital, dts, sdds (que se detallará más adelante)
y la pista estéreo analógica Dolby Stereo. Ya que estos sistemas se almacenan
en diferentes sectores de la película de 35 mm, permiten una compatibilidad
casi universal con las salas de cine actuales.
Para el mercado consumidor este sistema puede ser utilizado en las edi-
ciones de dvd (véase Pohlmann, 2002, cap. xi) y realizar la reproducción en
5.1 con el correspondiente decodificador. Cabe aclarar que la mayoría de los
reproductores hogareños pueden decodificar tanto dts como Dolby Digital.
A fines de la década del setenta Dolby realizó una adaptación del sistema
Dolby Stereo Optical (con formato 3-1 stereo) a salas de gran tamaño con
pantallas anchas para mejorar la representación del campo sonoro frontal,
agregando dos canales en el frente con posiciones intermedias entre el canal
central y los laterales y un canal mono surround.
En la figura 9 se puede observar la distribución de los canales izquierda,
centroizquierda, centro, centroderecha, derecha y surround.
214
CI CD
surround
Figura 9
215
Figura 10
El sistema Dolby Pro Logic IIx (véase Dolby Laboratories Technical Library,
s/f) es la última versión hasta la fecha de la familia de decodificadores hogare-
ños Pro Logic; utiliza la misma configuración de canales 6.1 que se puede ver
en la figura 10 y está destinado a decodificar mezclas estéreo y 5.1, y transfor-
marlas en la configuración 6.1.
DTS-ES
216
cenamiento que dts y almacena de forma discreta los siete canales de audio.
Este sistema generalmente se lo encuentra en dvd y no se ha utilizado para
salas de cine.
El primer formato 7.1 de la industria fue un derivado del 5.1 que se adaptó
para salas de grandes tamaños con pantalla anchas (widescreen) en las que la
localización de la fuente sonora frontal se perjudicaba por la distancia entre los
altoparlantes de los canales frontales. Para solucionar este problema se agregan
dos canales ubicados en centroizquierda y centroderecha como se puede ver en
la figura 11, y los canales surround y de efectos de baja frecuencia mantienen la
misma distribución que en el formato 5.1.
En la actualidad, existe un segundo formato 7.1 que hasta el momento
tiene más aceptación en productos del mercado hogareño. Es una derivación
del formato 5.1 pero con dos canales extras para surround trasero y derecho, de
CI CD
Figura 11
217
manera que la configuración es: izquierda, centro, derecha, surround izquierdo,
surround derecho, surround trasero izquierdo, surround trasero derecho, efectos
de baja frecuencia (l, c, r, ls, rs, bsl, bsr, lfe), como muestra la figura 12.
De esta manera se mejora uno de los principales problemas del formato
5.1, que era la gran separación entre los canales surround, lo que permite una
mejor representación del campo sonoro envolvente.
En las diferentes implementaciones en sistemas propietarios de este for-
mato, puede haber diferentes modos de reproducción específicos para música
o cine, en los que es necesario reorganizar la ubicación de los altoparlantes en
la sala.
Sony SDDS
El sistema sdds (Sony Dynamic Digital Sound) (véase Rumsey, 2001, cap. iv) es
el tercero de los sistemas más utilizados en las salas de cine. Está especialmente
diseñado para salas grandes en las que el ancho de la pantalla es demasiado
Figura 12
218
extenso para el sistema 5.1. La distribución de los 7.1 canales que se puede ver
en figura 11 es l, lc, c, rc, r, ls, rs, lfe (izquierda, centroizquierda, centro,
centroderecha, derecha, surround izquierdo, surround derecho, canal de bajas
frecuencias), que permite una mayor precisión en la localización espacial de
las fuentes sonoras en el campo sonoro frontal.
Se utiliza el sistema de reducción de datos Sony atrac (véase Pohlmann,
2002, cap. xii), que codifica los ocho canales con una compresión de aproxi-
madamente cinco veces. El almacenamiento del sdds se realiza de forma
óptica entre los orificios de arrastre de la película de 35 mm opuestos a los
utilizados en Dolby Digital.
Dolby Digital Plus (véase Dolby Laboratories Technical Library, s/f) utiliza la
configuración básica 7.1 que se puede ver en la figura 12 (l, lc, c, rc, r, ls,
rs, lfe). Es una evolución del Dolby Digital con AC-3 en la que se utilizan
técnicas de compresión de audio destructivas para conseguir tasas de trans-
ferencia de hasta 6 Mbps (mega bits por segundo) en un solo flujo de datos
digitales con ocho canales discretos de audio, permitiendo así mayor calidad
de codificación que su predecesor.
En el formato hd dvd (dvd de alta definición) se utiliza con una tasa de
3 Mbps y en el Blue-ray Disc de 1,7 Mbps. Es soportado por la nueva interfaz
hdmi (High-Definition Media Interface) para interconectar audio y video de
alta calidad en un solo cable.
Este formato, que ha sido adoptado para transmisiones de televisión de
alta definición, video por cable y satelital, es uno de los posibles formatos a ser
estandarizados y adoptados masivamente para este tipo de aplicaciones.
Dolby Digital True hd (véase Dolby Laboratories Technical Library, s/f) uti-
liza la configuración básica 7.1 que se puede ver en la figura 12 (l, lc, c, rc,
r, ls, rs, lfe).
Utiliza una nueva técnica de compresión de audio no destructiva, que al
realizar la decodificación permite obtener la señal original sin ninguna pérdi-
da de calidad. Soporta una tasa de transferencia de hasta 18 Mbps y resolución
de audio de rango completo a 24 bits 96 kHz de frecuencia de muestreo. Si
bien permite más canales para el formato hd dvd y Blu-ray Disc, utiliza ocho
canales de audio y es también soportado por la interfaz hdmi (High-Definition
Media Interface).
219
DTS-HD
220
Figura 13
combinación de los dos modos. Si bien las frecuencias graves son omnidirec-
cionales, la decorrelación de estas frecuencias otorga una mejor separación
izquierda-derecha y una mayor sensación de espacialidad.
221
Figura 14
thx
thx (véase Rumsey, 2001, cap. iv) no es un formato surround sino un sistema
de control de alta fidelidad de reproducción de sonido para salas de cine, par-
lantes multimedia, consolas de video juego y sistemas de sonido de autos.
El sistema fue desarrollado por Tomlinson Holman para Lucasfilm; la
sigla thx viene de Tomlinson Holman Experiment.
El objetivo principal del sistema para su uso en cine es el de asegurar una
calidad de reproducción de sonido lo más parecida posible a las que se utiliza-
ron en el proceso de mezcla de la película. Para lograr este propósito thx otorga
certificaciones de salas en las que se cumplen las especificaciones requeridas,
que deberán ser evaluadas periódicamente por personal certificado por thx.
Estos requerimientos son de dos tipos: 1) equipamiento utilizado para la
reproducción sonora: diseño de parlantes, crossovers, amplificadores, etcétera.
thx proporciona una lista de fabricantes y productos certificados; 2) la acús-
tica de la sala, con especificaciones de diseño como piso flotante, paredes no
paralelas (para reducir ondas estacionarias), paredes con tratamiento acústico
(para controlar reflejos), tipo de reverberación y ruido ambiente, estrictas
condiciones de insonorización, etc. Cabe destacar que thx no publica las
especificaciones referidas a la acústica de salas, sino que certifica a profesio-
nales, que a su vez se encargarán de la certificación de las salas.
mpeg
222
El formato mpeg-1 es de dos canales de audio, mientras que el mpeg-2
permite información multicanal. Existen dos versiones de mpeg-2: el bc
(backwards compatible), que permite la compatibilidad con mpeg-1, y el aac
(Advanced Audio Coding, o codificación avanzada de audio) que no permite
tal compatibilidad.
Los formatos y algoritmos surround mpeg no han sido implementados con
mucho éxito en aplicaciones del mercado consumidor, cine y televisión, ya
que formatos como el Dolby AC-3 han resultado más populares en la indus-
tria. Sin embargo la estandarización para dos canales como el mpeg-1 Layer
3 (el formato MP3) ha sido ampliamente adoptada en la gran mayoría de los
productos hogareños.
mlp
mlp (Meridian Lossless Packing) (véase Pohlmann, 2002, cap. xi) es un siste-
ma de compresión no destructiva de audio multicanal, que Meridian Audio
licencia a través de Dolby Labs.
Fue especificado para el dvd-Audio con el objeto de poder almacenar
mezclas multicanal de hasta seis canales en alta resolución, de hasta 192 kHz
en 24 bits sin perder calidad. Con esta tecnología el audio, una vez decodi-
ficado, es exactamente igual a la señal original, no como en los procesos de
compresión destructiva como Dolby Digital, mpeg, etcétera.
dvd-audio
223
Tabla 2
Mono (1.0) Sí Sí Sí Sí Sí Sí
Estéreo (2.0) Sí Sí Sí Sí Sí Sí
Estéreo (2.1) Sí Sí Sí Sí No No
224
Super audio cd
Híbrido: el más popular de los tres. En un dvd de 4,7 GB, en su primera capa
o layer almacena una edición de cd “Red Book” (compatible con casi todos
los reproductores existentes de cd) y en el segundo layer la edición de alta
definición, en estéreo o multicanal, y la resolución de audio dependerá de la
cantidad de tiempo a almacenar. Generalmente un disco híbrido puede alma-
cenar una hora de audio en su capa de cd a 44,1 kHz/16 bits y una hora en 5,1
en dsd con una resolución similar a pcm de 48 kHz/24 bits.
Dual-layer (capa doble): en un dvd de 8,5 GB, sin capa de cd, con carac-
terísticas idénticas al single-layer, pero con casi el doble de capacidad de
almacenamiento. Permite más cantidad de minutos de audio, más canales,
mayor resolución o la combinación deseada. Este tipo de sacd es muy poco
utilizado.
225
que en el proceso del diseño de puesta sonora del proyecto se implementen
configuraciones específicas de altoparlantes y se utilicen diferentes técnicas
de espacialización, como las detalladas en este libro, en función de las nece-
sidades de cada caso.
Bibliografía
226
Capítulo VII
Presentación
Preámbulo
227
trabajo. El proceso de composición de música acusmática en un ambiente de
estudio es naturalmente reflexivo, dando lugar tanto a la impresión de estar
trabajando directamente con el sonido, como a la sensación de que “lo que se
oye es lo que se obtiene”. Además, el producto final del trabajo en el estudio
es algo que es “fijado” en un medio particular. En el caso de un medio digital,
el sonido es representado por una cadena de números que pueden ser copiados
exactamente una y otra vez: la intención del compositor ha tomado forma
absoluta, transformándose en un original cuidadosamente producido y capaz
de ser clonado, al menos en apariencia.
La reproducción de sonido tiene, a primera vista, potencial para la
fidelidad: la recreación literal del sonido dentro de un espacio específico de
reproducción. La reproducción ideal de un trabajo acusmático consiste, para
muchos, en establecer una relación transparente entre el sonido intencional
(presumiblemente, lo experimentado por el compositor en el estudio) y el
sonido real experimentado por la audiencia. El actual y renovado interés en
la reproducción multicanal es impulsado parcialmente por el deseo de crear
esta transparencia.
No obstante, como James Lastra ha señalado, cada sonido es:
228
equipo no es de la calidad suficiente como para reproducir eventos estructura-
les importantes dentro de la composición, pero aun efectos más sutiles pueden
cambiar la percepción de la música por parte del público.
La acústica de un auditorio puede, naturalmente, tener un efecto inmenso
en la recepción de un sonido reproducido, particularmente en lo que respecta
a detalles espaciales grabados. Es importante saber que esto produce, frecuen-
temente, una tensión entre la yuxtaposición de un espacio virtual (planeado)
y un espacio real (ejecutado), y el movimiento de objetos sonoros dentro de
estos espacios. Esto se observa más frecuentemente cuando una fuente con
un alto grado de reverberación en la grabación (sea real o artificial) es repro-
ducida en un espacio altamente reverberante, lo cual es una buena razón en
contra de la práctica sorprendentemente común de tratar la totalidad de una
composición acusmática ya terminada con un cierto nivel de reverberación
artificial, para crear la impresión de un espacio virtual cohesivo. No obstan-
te, hacia el otro extremo, una grabación de un evento sonoro de una fuente
cercana en un espacio “seco”, sonará distante y reverberante si es reproducida
y escuchada respectivamente en los extremos opuestos de una gran catedral,
por ejemplo. De esta manera, es imposible componer con la esperanza de crear
algún sentido de espacio absoluto.
Ejecución
229
debe ser intuitiva y, en cierta medida, espontánea: una fuerza creativa en
su propio derecho. Como lo ha expresado Nicholas Cook, la aplicación de
estos enfoques analítico e instintivo a la música es casi como “crear una
chispa a través de la yuxtaposición de dos polos eléctricos opuestos” (Cook,
1999).
La difusión artística puede tomar riesgos jugando con las expectativas de
la audiencia y, de hecho, puede optar por hacer caso omiso a las tácticas de
difusión sugeridas por los compositores. Por ejemplo, gestos cortos, energé-
ticos y rápidos como aparecen en el comienzo de la obra Shortstuff, de Pete
Stollery (1993), sugerirían automáticamente a la mayoría de los ejecutantes
acusmáticos una articulación rápida y enérgica de estos gestos dentro un espa-
cio de ejecución tridimensional, enfatizando su forma natural y trayectoria,
que crean un sentimiento de excitación y energía. Siendo un artista expe-
rimentado de la difusión, Stollery casi seguramente compuso esta obra con
la expectativa de que esto ocurriría, y cabe señalar que Shortstuff es, incues-
tionablemente, un trabajo que puede parecer muy plano en el estudio y muy
vivo si se ejecuta correctamente en una sala de concierto: es un trabajo que
requiere ejecución. Sin embargo, otros enfoques de la ejecución de Shortstuff
pueden simplemente ignorar estas expectativas. Un ejecutante puede decidir,
en otra ocasión, luchar en contra de la evidente estructura de la obra. Estas
interpretaciones pueden revelar otras facetas de la música, tal vez menos
evidentes, presentando una comprensión más profunda de esta a través de la
intervención del ejecutante.
Formatos
230
Estereofonía con dos altoparlantes
231
y/o dinámica entre los sonidos, que facilita su separación espacial durante la
difusión. Sin embargo, esto limita las posibilidades de interacción espacial que
el compositor puede explorar.
En la música acusmática rica en espacialización, el uso de solo dos canales
(particularmente en un espacio de ejecución típico) a menudo no es suficiente
para transmitir la suntuosidad espacial de la imagen sonora; sin embargo la
distribución de esta imagen en múltiples altoparlantes no necesariamente
lleva a la formación de una imagen sonora coherente y simplemente mayor.
Por el contrario, las múltiples imágenes tienen tendencia a distorsionar y
borronear la imagen general, creando una percepción más difusa.
1 Para más detalles de la 3.2 estéreo, véase, por ejemplo, Rumsey (2003, pp. 86-94).
232
“paneados”*4detrás de él. Vale la pena advertir que, aun cuando se usan
altoparlantes adicionales paralelos a los envolventes, tal como esta permitido
en el estándar itu (para proporcionar suficiente cobertura envolvente en
espacios más grandes y distribuidos uniformemente entre los ±60° y ±150°),
en el estándar envolvente 5.1 no hay altoparlantes dispuestos directamente
detrás de la audiencia.
Para el compositor acusmático, el sistema 5.1 de canales envolventes
tiene numerosos defectos graves, en particular cuando utiliza un material
espacialmente rico. El estándar 5.1 no fue concebido teniendo en mente
una producción precisa de imágenes en 360°, y la desigual distribución de
los altoparlantes (y, de nuevo, la disposición de altoparlantes envolventes
suplementarios y paralelos en el estándar) hacen difícil conseguirla. Hay, por
supuesto, varias técnicas de microfoneo que se han propuesto para hacer gra-
baciones en un formato más o menos adecuado para reproducirse en sonido
envolvente 5.1 aunque, a menos que se use un método Ambisonics utilizando
un micrófono Soundfield, hay que recordar que ninguna de estas técnicas es
particularmente portable, haciendo que la grabación ambiental y otros tipos
de grabación in situ sean prácticamente imposibles.25En general, sin embargo,
las imágenes de arreglos 5.1 son inevitablemente mejores entre los altoparlan-
tes del frente, bastante pobres en los traseros, y decididamente variables en los
costados (Rumsey, 2003).
Estas técnicas pueden ser adecuadas para la reproducción de imágenes
sonoras relativamente estables (grabaciones de música, sonido de películas,
etc.), particularmente donde la mayor parte de la información sonora rele-
vante es frontal, pero para el compositor acusmático, que desea tanto poder
procesar estas grabaciones como manipular sus cualidades espaciales, las gra-
baciones multicanales destinadas a la reproducción 5.1 son excepcionalmente
difíciles de utilizar. En cambio, muchos de los compositores que trabajan en
5.1 confían en materiales originales basados en grabaciones fiables de dos
canales estéreo o aun mono, que son luego manipuladas espacialmente con
distintos grados de éxito en el escenario 5.1, usando leyes de panorámico y
reverberación artificial.
Si se utilizan señales estéreo, el altoaltoparlante del centro es frecuente-
mente visto como un problema. En este caso, en términos de imagen, no hay
ninguna señal grabada asignada a este altoparlante por lo que, o se vuelve
redundante, o su señal se deriva de alguna manera de los canales de la derecha
* Castellanización de la expresión inglesa panning, término de uso corriente por parte de los
ingenieros de audio de habla española. [N. del T.]
2 Véase, por ejemplo, Theile (2001).
233
y de la izquierda (si bien esto puede generar buenos resultados si se ejecuta
apropiadamente, produciendo, por ejemplo, una imagen sonora central más
estable).36Más aun, este altoparlante central requiere de un uso muy cuida-
doso: puede volverse fácilmente demasiado prominente, y tanto puede realzar
la imagen estéreo frontal como también destruirla, particularmente si se le
asigna una señal decorrelacionada.
Si el altoparlante central es esencialmente ignorado, el compositor se
queda con un sistema cuadrafónico no uniforme, que es como, desafortuna-
damente, el sistema 5.1 es usado por algunos compositores. La forma irregular
del arreglo de altoparlantes y sus anchos ángulos laterales hacen que sea bási-
camente imposible el panorámico estéreo uniforme, y esto puede tentar a los
compositores a tratar a los objetos sonoros de manera monoaural, conduciendo
a que su movimiento percibido se ubique en la periferia del sistema 5.1, y que
suenen muy a menudo localizados como si estuvieran “en” el altoparlante.
En términos de rendimiento, el sistema 5.1 presenta problemas similares a
los otros sistemas multicanal (por ejemplo, octofonía). Dado que usualmente no
hay en 5.1 una imagen real ni coherente, esta no puede ser manipulada con sen-
satez como una imagen estéreo en un arreglo estéreo múltiple. Los compositores
que se interesan tanto por el 5.1 como por la proyección sonora, tienen ten-
dencia a difundir la imagen frontal derecha/izquierda normalmente, dejando los
altoparlantes del centro, los traseros y los de los lados fijos para aquellos “efectos
especiales” que no pueden ser logrados fácilmente a través de la difusión (por
ejemplo, movimiento circular o aleatorio y separación adelante/atrás genuina).
Pueden usarlos también para dar énfasis al ambiente envolvente, o para crear
una fuente central separada del resto del sistema de difusión allí donde tenga
sentido (por ejemplo, texto y otros materiales vocales grabados).
Finalmente, cabe señalar que el canal lfe (efectos de baja frecuencia), limi-
tado a una banda de hasta 120 Hz, realmente no tiene cabida en la composición
de música acusmática ni, ciertamente, tampoco en su interpretación. Como los
otros cinco canales son de banda completa, la utilización de este canal parece
tener poco sentido, particularmente cuando un apropiado sistema de manejo de
bajos es utilizado, como es de rigueur en sistemas de difusión profesionales.
Octofonía
234
provista por programas como max/msp, pd y Supercollider para la creación de
señales multicanal y para el procesamiento espacial. La configuración de alto-
parlantes más común es la de un círculo uniforme alrededor de la audiencia,
con los altoparlantes espaciados uniformemente a intervalos de 45°, ya sea
tanto con altoparlantes centrales al frente y atrás (es decir, puestos a 0°, ± 45°,
± 90°, ± 135° y 180°: conocida a veces como configuración en “doble diaman-
te”) o la misma configuración rotada a 22,5° para lograr un frente plano (es
decir puestos a ± 22,5°, ± 67,5°, ± 112,5° y ± 157,5°: conocida a veces como
configuración en “cuatro pares”).
Sin embargo, el actual repertorio acusmático no se limita a estos formatos
uniformes; indudablemente la variedad de formatos de 8 canales existentes
requiere que el compositor sea bastante específico en las instrucciones de
difusión de la obra, tanto acerca de la disposición de los altoparlantes, como
en sus expectativas de reproducción. Streams (1999) de Jonty Harrison, por
ejemplo, usa cuatro pares de altoparlantes estéreo ubicados en diferentes pla-
nos espaciales (“principal”, “ancho”, “atrás” y “distante”). Esto facilita la posi-
bilidad de hacer fluir la imagen sonora entre diferentes perspectivas estéreo
y permite una fácil integración con las actuales configuraciones de difusión
estéreo, creando así algún potencial de ejecución. Los principales objetivos
de los arreglos de 8 canales regulares son, por el contrario, permitir tanto un
panorámico uniformemente balanceado de los objetos sonoros alrededor de la
audiencia, como una distribución sonora uniforme que posibilite envolverla
por completo.
Los sistemas de reproducción octofónicos ofrecen un cierto grado de flexi-
bilidad y su uso puede ser abordado de diversas maneras. La configuración en
doble diamante puede ser considerada como un sistema de múltiples planos 3-0
estéreo, donde el altoparlante central compensa el ángulo relativamente gran-
de formado entre los altoparlantes “derecho” e “izquierdo”. En la situación más
simple, esto podría consistir en un sistema estéreo 3-0 frontal y uno trasero, con
compensación lateral. Sin embargo, este arreglo permitiría también la proyec-
ción de múltiples y simultáneas imágenes estéreo, como también panorámicos
estéreo graduales en tres canales.
La distribución de “cuatro pares” parece ser, en cierta medida, más un
sistema de difusión estándar de dos canales con pares delanteros y traseros, y
dos pares laterales. El panorámico de dos canales estéreo puede lograrse fácil-
mente, aunque el ancho de la imagen es en realidad demasiado estrecho como
para producir una buena imagen estéreo. Sin embargo, un material original
estéreo 2-0 puede ser tratado como lo sería en un sistema de difusión de dos
canales, particularmente si el arreglo regular es deformado parcialmente, ajus-
tando el ángulo de los pares delanteros y traseros para lograr una mejor imagen
235
(tendiendo hacia ±30° y ±150°), y ajustando los pares laterales delanteros y
traseros para que actúen más como altoparlantes “de ancho” y “laterales”. Una
imagen frontal más amplia puede, por consiguiente, ser lograda combinando
los altoparlantes “principales” y “de ancho”, y el movimiento de una imagen
desde el frente hacia atrás puede ser realizado vía los altoparlantes “laterales”.
Para el intérprete de música acusmática, la difusión de piezas de 8 canales
tiene dificultades similares a las ya descritas para el sistema envolvente 5.1,
a menos que estén diseñadas teniendo en mente algún tipo de difusión no
estándar (por ejemplo, nuevamente, Streams), aunque al menos no existen las
dificultades asociadas con la forma irregular de la disposición 5.1. Los experi-
mentos que utilizan múltiples arreglos octofónicos (supuestamente como una
extrapolación del uso de múltiples pares de altoparlantes en muchos sistemas
de difusión) han tendido a concentrarse en el movimiento dentro del espacio
de audición, utilizando trayectorias sonoras encuadradas, circulares y, hasta
cierto punto, más variadas: no existe aquí una percepción real de una imagen
sonora, con su espacio asociado y compuesto, articulándose en el espacio de
audición. Sin duda, este tipo de sistemas hace muy difícil la creación de una
ilusión con la solidez aural requerida para una difusión exitosa, particularmen-
te si la música investiga un material espacialmente rico.
Ambisonics
236
siste normalmente en un arreglo simétrico de 4 o más altoparlantes en pares
aunque, en teoría, es posible también decodificar la señal para arreglos no
simétricos, como el sistema envolvente de 5.1 canales. Si el componente de
altura debe ser decodificado, se necesitarán también altoparlantes por arriba
y abajo de la audiencia. Lo que es especialmente útil, es que el compositor
puede producir un trabajo en formato B que luego puede ser decodificado en
cualquier sistema Ambisonics, incluyendo el arreglo de 8 canales, actualmen-
te muy usado, ya sea en la configuración de “doble diamante” como en la de
“cuatro pares”. Esto es especialmente interesante para los compositores que
utilizan material espacialmente rico, ya que Ambisonics no solo puede recrear
la experiencia completa de estar en un lugar determinado, sino que también
lo puede hacer de una manera que no es completamente dependiente de una
determinada configuración de reproducción.
Desafortunadamente Ambisonics tiene algunas serias limitaciones, par-
ticularmente en términos de la interpretación de música acusmática. Puesto
que esta técnica recrea el campo de onda en un punto particular del espacio, el
sweet spot es particularmente pequeño, aunque se pueden usar varios métodos
para que esto sea menos problemático, de hecho la experiencia de escucha
“fuera de eje”, aunque no sea exactamente la ideal, es ciertamente tolerable.
La imagen es fija, esto quiere decir que al menos con los sistemas existentes,
no tenemos la posibilidad de mover imágenes alrededor del oyente en tiempo
real y, de esta manera, difundir un trabajo en Ambisonics.
En términos del primer problema, con sistemas Ambisonics de más alto
orden, que tienen componentes adicionales de dirección, se puede crear una
codificación direccional mejorada, cubriendo una mayor área de escucha en la
reproducción. Sin embargo, no hay un micrófono diseñado actualmente que
pueda grabar en formato Ambisonics de segundo orden, lo que es una dificultad
para los interesados en usar grabaciones espacialmente ricas. Algunos composi-
tores que usan Ambisonics de segundo orden (como Natasha Barret) sintetizan
estas señales artificialmente, ya sea de grabaciones en formato B o estéreo. Por
ejemplo, de la misma manera que en la síntesis de campo de onda (véase más
adelante), se pueden crear fuentes de sonido estéreo virtuales dentro de las
fuentes Ambisonics (imagine usar un micrófono Soundfield para grabar un
sonido estéreo emitido por dos altoparlantes en un espacio particular).
237
to, particularmente en el ámbito del sonido para cine. Como Ambisonics,
wfs también intenta recrear un campo de onda particular, pero lo hace a lo
largo de un área en vez de en un punto. Su sistema de reproducción utiliza un
arreglo (que puede ser lineal o circular) de pequeños altoparlantes que actúan
como fuentes puntuales que en combinación recrean el campo de onda.
wfs no sufre el mismo problema de cobertura limitada que Ambisonics. Sin
embargo, es esencialmente imposible grabar el campo de onda de un espacio
dado con la misma facilidad con que se realiza en Ambisonics utilizando el
micrófono Soundfield, dado el tamaño de muestra que se requiere.
En lugar de ello, las técnicas actuales de wfs: a) graban el sonido directo
de cada fuente de audio (i.e., los tratan como una fuente puntual usando un
micrófono direccional); b) graban las reflexiones tempranas de cada fuente
y c) graban la reverberación del espacio sonoro. Estas grabaciones son luego
“combinadas” en la reproducción para dar la impresión del sonido en un
espacio particular. Los sonidos pueden ser localizados extremadamente bien
dentro del espacio de reproducción, aunque puede haber problemas si la
fuente sonora se encuentra ubicada exactamente donde un miembro de la
audiencia está sentado: en este caso el sonido se siente como si en realidad
estuviera en el centro de la cabeza de uno, lo que puede ser muy perturbador.
Se están desarrollando sistemas que permiten a los sonidos-fuente moverse en
el espacio en tiempo real, o sobre trayectorias programadas.
El principal problema para el compositor acusmático, muy preocupado
por supuesto por el carácter intrínsecamente espacial de su material-fuente, es
que dicho carácter espacial no puede ser realmente grabado, sino que puede
ser únicamente sintetizado. También se debe tener en cuenta que se necesitan
tantos canales grabados como sonidos puntuales sean manipulados en el espa-
cio, aunque es posible crear estéreo virtual (o, sin duda, 5.1 u otros formatos
multicanales) dentro del campo de onda, como ocurría con las grabaciones
Ambisonics. De este modo, se podrían tener grabaciones estéreo emitidas, por
así decirlo, por pares de altoparlantes virtuales.
Conclusiones
238
apasionados tiempos de refinados sistemas de altoparlantes multicanales,
aún tiene un rol importante como mediador entre la creación artística y su
recepción.
De los formatos investigados en este artículo, el estéreo parece todavía
ofrecer el mejor compromiso entre ser capaz de representar información
espacial sobre un área relativamente grande y ofrecer oportunidades reales de
ejecución. Ambisonics y wfs no son completamente capaces de ofrecer esto
todavía, pero en el futuro podrían ofrecer mucho más.
Agradecimientos
Bibliografía
239
Capítulo VIII
La interpretación de la espacialización electroacústica:
atributos espaciales y esquemas auditivos*
Gary S. Kendall
*Partes de este capítulo fueron tomadas del artículo “The Artistic Play of Spatial Organization:
Spatial Attributes, Scene Analysis and Auditory Spatial Schemata”, publicado en las actas de la
2007 International Computer Music Conference, Copenhage, Dinamarca.
241
señales de audio crea un contexto en el cual pueden ocurrir interacciones
singularmente complejas entre la audición espacial y otros dominios de la
percepción y la cognición. Esto es particularmente cierto cuando los composi-
tores electroacústicos juegan con los fundamentos de la organización espacial
en la música, manipulando los agrupamientos perceptivos y los esquemas
espaciales. El audio espacial, y en particular el audio espacial de la música
electroacústica, es un campo artístico que a menudo pone de relieve las con-
venciones espaciales del mundo natural, ya sea distorsionándolas o violándo-
las. Con el fin de apreciar el entrecruzamiento de límites y convenciones de
esta interacción artística, nuestros conceptos y nuestro vocabulario deberían
estar bien alineados con los procesos perceptivos y cognitivos del oyente.
Atributos espaciales
242
to (Barron y Marshall, 19891). Este evoluciona en el estudio interrelacionado
del ancho aparente de la fuente y el envolvimiento del oyente* (Ando, 1998;
Griesinger, 1997).
Estos atributos de la percepción espacial fueron estudiados inicialmente
en el contexto de la acústica de salas de concierto y, más recientemente, en el
de la reproducción sonora en sistemas surround.
En la acústica subjetiva de la reproducción electrónica, Zacharov y
Koivuniemi (2001) y Rumsey (2002) aportan profundos argumentos y la cla-
sificación de numerosos atributos perceptivos del espacio.
Berg y Rumsey (2003) toman en cuenta más de 30 términos que pueden
ser clasificados en 17 categorías. Estos trabajos han considerado en profun-
didad cuestiones relacionadas a los atributos espaciales y su terminología
asociada.
Si bien es cierto que hay mucho que se puede extraer de estas investi-
gaciones, la diferencia entre los contextos considerados en ellas y los de la
música electroacústica es profunda. Por una parte, la acústica de la sala de
concierto y el sonido reproducido por altoparlantes son a menudo segmen-
tados conceptualmente en sonido directo, reflexiones indirectas y reverbe-
ración. Esto se refleja en una terminología que puede separarse en términos
relacionados con la fuente y aquellos vinculados al ambiente acústico. Pero
es de destacar que la música electroacústica no se limita al modelo fuente-en-
ambiente. Además, hay diferencias profundas en lo que respecta a la materia
sonora. Esto es particularmente importante por dos razones: las percepciones
espaciales son definidas en parte por el contenido de las fuentes sonoras
(Mason, 2002; Mason, Brookes y Rumsey, 2005a) y los compositores electro-
acústicos no están limitados a fuentes acústicas preexistentes. ¡Los composi-
tores electroacústicos no tienen solamente la libertad de diseñar sonidos que
dan soporte específico a efectos de espacialización, sino que pueden también
explorar ámbitos acústicos que pueden derribar la validez ecológica!
243
claros y preferiblemente unidimensionales” (en otras palabras, deberían repre-
sentar una sola idea perceptiva). Las cualidades espaciales tienen que ver con
la tangibilidad de los aspectos tridimensionales del sonido, incluyendo propie-
dades como ancho y distancia. Es de destacar que Rumsey1 distingue las cua-
lidades espaciales de las cualidades de los espacios, esto es, de las propiedades
de las salas (u otros espacios). Los atributos de los espacios han incluido tradi-
cionalmente propiedades como la reverberación y vivacidad.* La confluencia
de estas categorías no ha sido examinada en la evaluación subjetiva de salas de
concierto y sistemas de reproducción de audio, donde se asume que las fuentes
sonoras están contenidas en sus ambientes (y, de hecho, la argumentación de
Rumsey está dirigida hacia tales ajustes típicos de la reproducción).
Esta confluencia de categorías es esencialmente un desfasaje entre la
acústica física y la perceptual.
Así, por ejemplo, si trasladamos totalmente nuestra orientación a la
organización auditiva del oyente, y observamos que el sonido indirecto de las
reflexiones tempranas influye en la percepción auditiva de la fuente, enton-
ces, ese sonido indirecto es esencialmente parte de la audición de la señal de
la fuente, tanto como el sonido directo. Y, a partir de este punto, debemos ser
particularmente claros sobre la separación entre la señal acústica (con todos
sus componentes acústicos) y la imagen percibida de la fuente (con todas sus
características perceptivas del espacio).
La separación de estas categorías es particularmente útil en música elec-
troacústica, donde el modelo fuente-sonora-en-ambiente, es solo una de muchas
posibilidades en el tratamiento espacial.
Habiendo realizado una clara distinción entre las características espaciales
respecto de otras propiedades del sonido en el espacio, Rumsey se dedica a
examinar las cualidades espaciales en el contexto del análisis de la escena audi-
tiva. Creando un marco organizativo para evaluar la clase de reproducción de
sonido que le interesa, Rumsey propone cuatro niveles de organización que son
comunes en la experiencia de la escucha de música grabada: fuente, ensamble,
sala y escena. Estas etiquetas están pensadas para ser categorías generales de
organizaciones jerarquizadas, más que simplemente tipos de fuentes acústicas.
En la figura 1 se ilustra cómo interactúan estos cuatro niveles de organización
con el atributo espacial de ancho. En el nivel más bajo de organización, una
fuente individual tiene “ancho”. En el nivel superior siguiente de organización
y agrupamiento, un ensamble de fuentes tiene “ancho de ensamble”. Tal agru-
pamiento depende de las particularidades de la escena y, por ejemplo, podría
1 Todas las notas subsecuentes referidas a Rumsey se corresponden con Rumsey (2002).
* Liveness en el original en inglés. [N. del T.]
244
Ancho de la fuente
Escena
245
abarca el dominio de la percepción espacial auditiva descrito por términos
interrelacionados tales como impresión espacial, “espaciosidad” (spaciousness)
y “envolvimiento”. Dentro de este marco de análisis de la escena, Rumsey reco-
mienda la adopción de solo dos términos: envolvimiento y presencia. Propone
que el término “envolvimiento” designe a la experiencia de encontrarse rodea-
do por el sonido de múltiples fuentes sonoras, o de un campo difuso, como
el de la reverberación. Estos tipos de “envolvimiento” son llamados “relativo
a las fuentes” y “ambiental”, respectivamente. Rumsey ha propuesto reciente-
mente que el término “presencia” designe a la “sensación de estar dentro de
un espacio (cerrado)”. Adoptaremos la terminología completa de Rumsey (con
nuestro pequeño agregado) en aras de la coherencia y postergaremos el análisis
del uso del término “presencia” para próximos trabajos. Nuestra terminología
resultante puede resumirse entonces del siguiente modo:
3 Un tipo diferente de sentido mítico se produce cuando escuchamos sonidos cuyas fuentes
tienen connotaciones míticas, tales como el océano o el bosque.
246
Ancho
Profundidad
Distancia
Dirección
Envolvimiento
Oyente
Figura 2. Atributos espaciales para los niveles de la escena auditiva (según Rumsey, 2002)
que solo presagian sentido. Esta es la verdadera esencia del placer producido
por lo acusmático. En un sentido análogo para el espacio, hay sonidos de
localización espacial misteriosa (por ejemplo, campos espaciales difusos) que
pueden afectarnos porque invocan niveles preracionales y míticos de nuestra
experiencia espacial.
Los esquemas auditivos espaciales son los patrones recurrentes a través de los
cuales comprendemos el comportamiento del sonido en el espacio. Estos esque-
mas son aprehendidos y reforzados principalmente por la experiencia cotidiana
del ambiente espacial. En la vida cotidiana, todas nuestras capacidades senso-
riales contribuyen a conformar nuestros esquemas espaciales básicos (Johnson,
1987) y, por lo tanto, los esquemas auditivos espaciales pueden entenderse
mayormente como proyecciones de esquemas espaciales multimodales dentro
del dominio auditivo. El esquema general de objeto da lugar al esquema audi-
tivo de fuente. El esquema general de colección da lugar al de ensamble.
Ambos poseen atributos y comportamientos espaciales típicos. También es
importante destacar que los esquemas auditivos espaciales nos ayudan a dar
247
sentido y significación a la experiencia espacial. Con los esquemas musicales,
tratamos de comprender las organizaciones musicales que estamos percibiendo.
Con los esquemas espaciales, tratamos de comprender el espacio de los acon-
tecimientos espaciales que estamos percibiendo. La construcción de sentido se
realiza en forma simultánea con la reducción de la complejidad perceptiva.
Generalmente se reconoce que la localización del sonido tiene una
influencia débil en la escena auditiva. Por esta razón, los esquemas espaciales
tienen un papel particularmente importante en la escucha espacial, porque los
esquemas le dan coherencia a información espacial que de otro modo podría
resultar vaga o incompleta. Los esquemas espaciales son particularmente
importantes para la reproducción de audio cuando no hay otra información
sensorial que pueda colaborar con el contenido auditivo espacial. Nuestro
esquema espacial de trayectoria da coherencia a efectos de movimiento
que de otro modo podrían ser muy frágiles. Además, el sonido incorpóreo de
la reproducción de audio es interpretado frecuentemente en un marco que es
específico a este contexto. Por ejemplo, la disposición espacial de fuentes en
una típica canción pop en estéreo no tiene ningún sentido físico. Aceptamos
esta disposición espacial como un modismo de la reproducción de audio, un
modismo musical-espacial. La naturaleza inmaterial de la reproducción de
audio permite al arte auditivo espacial explotar los esquemas espaciales de la
vida cotidiana.
248
puede haber situaciones en las que no haya una clara delimitación entre
fuente y conjunto, esto es, entre la percepción de una o varias fuentes. Luego,
también, la simulación de la “sala” puede lograrse a partir del tratamiento
de una señal acústica con un algoritmo de reverberación. En el caso en que
la señal de la fuente original es omitida, la salida del reverberador deviene
esencialmente una fuente en sí misma. El sentido original de la distinción
entre fuente, ensamble y sala se diluye. En segundo lugar, la impresión de
“sala” que tiene el oyente es algo distinto del tratamiento de una señal acús-
tica: es una comprensión que el oyente adopta en respuesta a la experiencia
auditiva. “Sala” es parte de nuestra comprensión cognitiva tomada de los
esquemas espaciales auditivos de sala. Dependiendo de las circunstancias, el
oyente puede o no invocar el esquema de sala durante el proceso de com-
prensión de la escena auditiva. En algunas circunstancias podemos imaginar
que la comprensión de “sala” es automática y afín a la segregación de estratos
basada en esquemas (Berg y Rumsey, 2003). En otras circunstancias, “sala”
puede bien ser una inferencia basada en información acústica incompleta
o fragmentaria. No es la percepción de las relaciones jerarquizadas la que
determina las categorías.
Entonces, ¿qué queda de la idea original de una organización jerarquizada
de relaciones espaciales? Claramente, la percepción del oyente de relaciones
espaciales jerárquicas depende de circunstancias tangibles, las particularidades
de la escena auditiva. Para la música electroacústica, los elementos en una
estructura jerárquica no están limitados a priori a un conjunto de categorías
relacionales. Una descripción completa del contenido espacial y sus implica-
ciones en un contexto artístico puede llegar a ser muy compleja. Los esquemas
espaciales auditivos pueden ser deformados o aun violados. Nuestra habilidad
para describir y categorizar estas interacciones complejas depende de tener
conceptos y terminología claros de tal manera que podamos reconocer el
entrecruzamiento de límites y la disrupción de normas espaciales en el inter-
juego artístico.
249
a los mecanismos de agrupamiento como a los de localización. Hay numerosas
técnicas que crean tales perturbaciones, técnicas que pueden ser manipuladas
para ajustar el grado de disrupción y, de este modo, permitir la exploración
de límites perceptivos. Si bien pueden ser conceptualmente diferentes, estas
técnicas a menudo producen resultados similares. Con el fin de describir
adecuadamente los cambios en las características espaciales que se asocian a
estas técnicas, necesitamos distinguir cuatro marcos de referencia asociados
a la palabra “fuente”. Primero está la “señal-fuente”, que es la señal acústica
o una representación de la señal acústica. Segundo, está la “imagen-fuente”
tangible, la “fuente” que tiene atributos espaciales en la escena auditiva. Está
la “fuente conceptual”, el objeto que el oyente identifica con la fuente, inde-
pendientemente de sus atributos espaciales (“fuente conceptual” es entendida
aquí del mismo modo que el concepto de Smalley [1986] de consolidación de
la fuente).* Finalmente, se encuentra el esquema espacial del oyente, “fuen-
te”. La imagen-fuente, más allá de si es aprehendida como una o muchas
fuentes conceptuales, es habitualmente un estrato auditivo; de qué manera el
juego artístico reordena la organización perceptiva del oyente es algo que se
discute a continuación.
250
Grande
ENSAMBLE
Imagen-fuente
Chica FUENTE
Fuente conceptual
Una Múltiple
251
asociadas con una fuente conceptual única (algo que la organización cogni-
tiva puede combatir). En el medio, están las borrosas fronteras entre fuente/
ensamble y una/muchas imágenes fuente. Un ejemplo particular es el caso en
el que bandas de frecuencia de la señal son sistemáticamente distribuidas
en el espacio, dando lugar a la percepción de una singular/múltiple, fuente/
ensamble, distribuida/s en el espacio (Torchia y Lippe, 2004; Kim-Boyle,
2007). La síntesis granular y el phase vocoding pueden ser manipulados para
crear estas posibilidades en toda la gama de opciones entre imagen-fuente y
fuente conceptual.
Técnicas tipo 2. Existe otro tipo de técnicas que a menudo dan lugar a este
juego con los límites. Este segundo tipo de técnica involucra la ruptura de
la formación de eventos perceptivos a través de la manipulación de la infor-
mación binaural y es, por lo tanto, una técnica que básicamente afecta los
atributos espaciales a lo largo del eje lateral izquierda-derecha. Una conocida
técnica de grabación nos brinda un ejemplo sencillo. Imaginemos que se gra-
ban dos interpretaciones vocales idénticas. Una difiere de la otra solamente
por micro variaciones. Si una de las grabaciones es paneada al parlante de
la izquierda y la otra al de la derecha, el resultado es que se perciben dos
instancias de la misma grabación, una en cada lado. Las diferencias de las
micro variaciones impide la creación de una imagen espacial única. Esta es
una situación extrema en la cual hay una fuente conceptual y dos imágenes-
fuente. Típicamente, las diferencias entre las señales recibidas en cada oído
provocan que la imagen-fuente se ensanche (la medida del ancho puede vin-
cularse directamente a la medida de la similitud entre las señales que llegan
a los oídos, a menudo expresada como el coeficiente de correlación cruzada
interaural).
Hay numerosas maneras de crear microvariaciones que den lugar a
diferencias binaurales y cada una de ellas se puede lograr mediante el proce-
samiento de una señal-fuente para crear múltiples versiones, o sintetizando
múltiples señales-fuente en forma directa. El modo en que las múltiples
señales-fuente son creadas es inmaterial. Creando pequeñas diferencias de
frecuencia estáticas o diferencias de fase estáticas entre las señales-fuente
se obtiene una única fuente conceptual con una imagen-fuente ensanchada
(Kendall, 1995; Potard y Burnett, 2004; Vaggione, 2001). Las diferencias
de frecuencia dinámicas (tales como el jitter o el vibrato) proporcionan un
modo particularmente efectivo de manipular las relaciones entre fuentes
conceptuales e imágenes-fuente. En el caso en que múltiples señales-fuente,
con diferencias de frecuencia dinámicas, sean asignadas a una sola ubicación
(y no creen diferencias binaurales constantes) la magnitud de las diferencias
252
de frecuencia determinará la posición de la fuente conceptual a lo largo de un
continuum que va de una a varias, mientras mantiene una sola imagen-fuente.
Un ejemplo convencional de esto es el chorusing en un solo canal. En el caso
en el que múltiples fuentes estén dispersas espacialmente (de modo tal que
creen una diferencia dinámica binaural en los oídos del oyente), entonces
habrá una imagen-fuente ensanchada, con una o más imágenes conceptuales.
En el caso en el que las diferencias dinámicas de frecuencia sean de una mag-
nitud suficiente, la imagen-fuente ensanchada se fragmentará en múltiples
imágenes. El particular poder que tiene el vibrato para afectar el agrupamiento
auditivo es bien conocido a partir de una demostración de Steve McAdams y
Roger Reynolds (McAdams, 1984; McAdams y Bigand, 1993). Aquí, el vibra-
to sincronizado para los armónicos pares en un canal y los impares en el otro
lleva al oyente a percibir una única imagen sonora. Cuando el vibrato en cada
canal es progresivamente desincronizado, el oyente gradualmente empieza a
percibir dos imágenes auditivas. Al igual que en el campo bidimensional de
posibilidades de la figura 3, la figura 4 representa la asociación del cambio
de tamaño de la imagen-fuente y el número de fuentes conceptuales. Una
representación más completa se muestra en la figura 4b, en la que se agrega un
tercer eje para captar el número variable de estratos auditivos.
Atributos inmersivos
253
Grande
Imagen-fuente Vibrato
McAdams/Reynolds
Chica
Fuente conceptual
Una Múltiple
(a)
Grande
Vibrato
McAdams/Reynolds
Imagen-fuente
Chica
Una Múltiple
Estratos
(b)
254
Grande multi-channel multi-channel
Fuente conceptual
Una Muchas
255
interno, un espacio que puede contener a otro objeto. Lo que hemos aprendido
sobre la contención como esquema auditivo es que un objeto con un espacio
interno que contiene un objeto sonoro transforma a ese objeto dependiendo
de las características del contenedor. Más aun, una sala es una especie de con-
tenedor, un tipo particular de contenedor que puede contener tanto al oyente
como a los objetos sonoros. Una sala transforma el sonido de modo diferente
que otros contenedores, en parte debido a que también produce un sentido de
inmersión para el oyente cuando este se encuentra dentro de la sala. Estos
conceptos se representan gráficamente en la figura 6.
El juego artístico con los esquemas auditivos espaciales en la música
electroacústica puede realizarse de muchas formas. Una manera análoga a los
ejemplos anteriores es la manipulación de las expectativas normales. La viola-
ción de esquemas espaciales auditivos tiene el efecto de dirigir la atención del
oyente hacia un contenido resaltado por relaciones inusuales o inesperadas.
De esta manera, el dominio de la perturbación deviene tema para la expresión
artística. Por ejemplo, consideremos la posibilidad del oyente de estar dentro
de un contenedor que no sea una sala (el juego entre espacio abierto y espacio
contenido es un elemento central en la obra de Denis Smalley, Empty Vessels
(2000), en la cual el punto de vista del oyente está alternativamente en un
espacio abierto o dentro de un enorme maceta de jardín). Consideremos
también la posibilidad de que un oyente perciba el sonido de una fuente pro-
viniendo de una dirección determinada y el sonido de la sala que contiene a la
fuente llegando desde otra dirección. Estas posibilidades están representadas
gráficamente en la figura 7.
a)
b)
256
a)
b)
Conclusión
Agradecimientos
El autor quiere agradecer especialmente a Mauricio Ardila por las muchas dis-
cusiones profundas sobre inmersión y audio espacial que ayudaron a inspirar
el presente artículo.
257
Bibliografia
258
Terminology, Meaning, and a Scene-based Paradigm”, Journal of the
Audio Engineering Society, 50 (9).
—— (1999), “Subjective Evaluation of the Spatial Attributes of Reproduced
Sound”, Proceedings of the Audio Engineering Society 15th International
Conference.
Smalley, D. (2000), Program notes to Empty Vessels included in the compact
disk About Sources/scenes, IMED 0054, empreintes DIGITALes, 2000.
—— (2007), “Space-form and the acousmatic image”, Organised Sound, 12
(1).
—— (1986),“Spectromorphology and structuring processes”, en Emmerson,
S. (ed.), The Language of Electroacoustic Music, Basingstoke, Macmillan
Press.
—— (1997), “Spectromorphology: explaining sound-shapes”, Organised
Sound, 2 (2), Cambridge, Cambridge University Press, pp. 107-126.
Torchia, R. y C. Lippe (2004), “Techniques for Multi-Channel Real-Time
Spatial Distribution Using Frequency-Domain Processing”, Proceedings of
the 2004 Conference on New Interfaces for Musical Expression.
Truax, B. (1999), “Composition and diffusion: space in sound in space”,
Organised Sound, 3 (2).
Vaggione, H. (2001), “Composing Musical Spaces By Means of Decorrelation
of Audio Signals”, Addendum of the Conference on Digital Audio Effects.
Zacharov, N. y K. Koivuniemi (2001), “Unravelling the Perception of Spatial
Sound Reproduction”, Proceedings of the Audio Engineering Society 19th
International Conference.
259
Capítulo IX
Descentramiento y concreción del espacio
en la música del siglo XX
Pablo Fessel
Introducción
El espacio inmanente
261
sucesividad. La música disponía sus materiales en forma sucesiva, al igual que
el discurso lo hace con las oraciones de que se compone. La linealidad se cons-
tituyó así en la organización básica de ese espacio musical. La polifonía no
hizo más que complicar esa representación, sin alterarla en sus fundamentos.
La música polifónica estaba concebida como resultado de una “superposición”
de líneas.2
La progresiva racionalización de las simultaneidades sonoras que resul-
taban de tales superposiciones expuso la insuficiencia de esa representación
y derivó en una revalorización del antiguo paradigma pitagórico.3 Pero el
espacio de la música sólo se dejó regir bajo los principios de la matemática
al precio de su reducción a los atributos abstractos de la altura musical. Así,
durante el período tonal, la racionalidad del espacio descansó en una regula-
ción de las relaciones entre los sonidos simultáneos basada en sus relaciones
de altura. El concepto de acorde resumía, en su carácter abstracto, la logici-
dad del espacio musical.
Mientras la tonalidad conservó su naturalidad aparente o su actualidad
histórica, el espacio de la música mantuvo una condición unitaria. La tonali-
dad no sólo aseguraba un cierto grado de cohesión de los diversos momentos
formales en el tiempo de la obra, sino que también cohesionaba, integraba
su simultaneidad. La identificación de la tonalidad como una segunda natu-
raleza, esto es, el reconocimiento de su carácter histórico y convencional, a
comienzos del siglo xx, posibilitó un descentramiento del espacio musical.
Este perdió la referencia a un elemento organizador unitario.
Paralelamente a su descentramiento, un proceso contemporáneo modi-
ficó el espacio de la música en otro aspecto y de modo no menos profundo.
Mientras la música se ordenó sobre la base de alguna forma de tematismo, el
espacio tuvo el carácter de una dimensión secundaria de la estructura musi-
cal, derivada de una disposición de materiales concebidos con anterioridad a
aquel. Su conformación concreta estuvo considerada en la teoría de la música
occidental hasta avanzado el siglo xx como un problema de escritura. El aban-
dono del tematismo haría posible concebir el espacio como una dimensión
inmediata, como un atributo del mismo material. El concepto de textura se
constituyó en el pensamiento del siglo xx como uno de los conceptos centra-
les de ese espacio musical descentrado y concreto.
262
La crisis en el sistema de categorías estilísticas
el HMT y el New Grove (ambas de Wolf Frobenius) para comprobar el alcance de estas
redefiniciones. Véase Frobenius (1980; 2001).
7 Véase Fessel (2007c).
8 Según el cual la música occidental habría evolucionado de la monofonía a la polifonía,
y de esta última a la homofonía armónica. Para una versión de este esquema, cf. von
Helmholtz (1863).
263
debilitó y terminaría por fragmentarse. La aproximación categorial dio lugar a
una aproximación conceptual, fundada en el concepto de textura.
La textura
264
una serie de conceptos como los de motivo, tema y material. Los materiales
caracterizados como texturas tienen como uno de sus atributos esenciales el
de no existir con anterioridad al espacio musical en el que se encuentran. A
diferencia del motivo y el tema, susceptibles de una disposición en la simul-
taneidad musical –en la voz superior, en el comes, o repartidos en la textura
como en la durchbrochene Arbeit, por mencionar sólo algunas posibilidades–,
el espacio que despliega la textura representa uno de sus mismos atributos.12
En esta concepción, la textura alude al contenido concreto de la simultanei-
dad y se identifica con conceptos como los de material y sonoridad. El con-
cepto de textura se revela así como un concepto antinómico, una antinomia
dada por la contraposición entre una concepción formal y una concepción
material de la textura.
Emancipación de la textura
265
fenómeno de enmascaramiento textural, que se podría entender incluso con
categorías pictóricas, como un estrato que cubre a otro –en una idea etimoló-
gicamente más literal del enmascaramiento. Se revela aquí una concepción
del espacio vinculada a una ilusión de proximidad, en la cual un material se
ubicaría delante de otro, al que oculta. Se trata sin duda de términos figurados,
pero esta representación del espacio se aproxima ya conceptualmente a la
figuración del espacio físico. La textura estratificada, por otra parte, asociada a
una individuación de los elementos que componen la totalidad, representa una
precondición para la incorporación del espacio a la música, en la medida en
que el espacio físico de la música tradicional cuenta como totalidad, y por eso
mismo se cancela en cuanto tal. Ese espacio es todavía homogéneo, y en ese
sentido indistinto. La operación compositiva del espacio presupone en cambio
una disociación al interior de ese campo espacial. Es allí donde se puede ubicar
ese punto de unión entre la textura estratificada, basada en la individuación
de los elementos que la componen, y la disociación del espacio, que permite
operar con él como una dimensión compositiva.
El segundo proceso de desarrollo de la música de concierto en el siglo xx
se manifiesta de forma inequívoca en la música de György Ligeti, compues-
ta luego de su contacto con los compositores seriales ligados al círculo de
Darmstadt. La generalización de la serie en la música de estos compositores
había terminado por producir una indiferenciación interválica, contradic-
toria con el principio serial. A la dispersión de la textura característica del
serialismo de la década de 1950, Ligeti contrapone una textura compleja pero
en última instancia integrada, próxima a una idea de masa.13 Una individua-
ción análoga a la de la estratificación resulta en este caso del abandono de
los principios abstractos para la conformación de la simultaneidad musical.
La textura entendida como sonoridad se encuentra ligada a un pensamiento
concreto de los materiales. El tratamiento matérico de la sonoridad, como
“sustancia” de la simultaneidad, se ubica aquí en primer lugar.14
Los dos procesos tienen, en última instancia, un origen común. Ambos
representan consecuencias disímiles de la crisis y disolución de la tonali-
dad. En efecto, la incorporación de niveles crecientes de disonancia en la
estructura acórdica en la música del siglo xix terminaría por desdibujar las
oposiciones tonales.15 Una de las consecuencias de esta indiferenciación
acórdica estará dada por el detrimento del papel del acorde como regulador
13 Para un análisis textural de Apparitions, obra que marca una articulación en la producción
compositva de Ligeti, véase Fessel (2007b).
14 Sobre este punto véase Fessel (2007a).
15 Esta interpretación histórica se encuentra desarrollada en Hualpa (1985).
266
de una simultaneidad integrada. La indiferenciación acórdica determina,
indirectamente, una individuación de los estratos que conforman la textura.
Esa individuación puede interpretarse así, en la música de Ives, como una
crítica inmanente de la condición vinculante de la simultaneidad dada por
la tonalidad.
Una indiferenciación análoga operada sobre la categoría del intervalo
terminaría por neutralizar el carácter distintivo de la serie en la música cen-
troeuropea de la década de 1950. La indiferenciación estructural que Ligeti
interpreta como fatalidad del serialismo conducirá a las texturas integradas
características de su propia música desde la década de 1960. En esa indiferen-
ciación, que terminaría por alcanzar a la misma abstracción del pensamiento
musical, se concentra la crítica de Ligeti al desarrollo del serialismo durante
la década de 1950. Como en Ives, la indiferenciación se vuelve, dialéctica-
mente, individuación. En el caso de Ligeti, la individuación de las sonorida-
des es tal que su carácter interválicamente equivalente se vuelve irrelevante.
No se trata sólo de que la distinción entre consonancia y disonancia haya
sido neutralizada. El intervalo como categoría –su naturaleza abstracta–
pierde toda sustancia en una música que destaca el carácter concreto de sus
sonoridades.
Se establece así un notable paralelismo en los desarrollos de la textura
en uno y otro caso. Su conformación representa una expresión, disímil e
históricamente distante, de procesos similares de indiferenciación e indivi-
duación creciente. La crítica de la idea de totalidad por la individuación y
de los principios abstractos por la concreción textural son las expresiones
más claras de nominalismo en el proceso histórico que Jonathan Dunsby
caracterizó, no sin algo de énfasis, como “emancipación de la textura” (véase
Dunsby, 1989).
267
estructura, esto es, de la inclusión de los elementos individuales en un entra-
mado funcional, por sobre los atributos concretos del material musical, como
fundamento de su valor estético.16 Se trataría, en otras palabras, de funda-
mentar la racionalidad de una autosuficiencia del material. Por su parte, esa
primacía de las relaciones funcionales sobre la materialidad de las sonoridades
representa una negación del momento de genuina multiplicidad contenido
en el concepto de textura; hace de tal multiplicidad una forma mediata de la
unicidad. Una estética de la heterogeneidad textural podría apoyarse asimis-
mo en una legitimación de la autosuficiencia, dirigida ahora a los estratos que
componen la textura desintegrada.17
No se trataría tanto de negar la pretendida imposibilidad de una ver-
dadera relación entre cosas de distinta naturaleza como de desplazar el foco
de la mirada hacia un plano de especulación que pudiera sustraerse de la
centralidad del concepto de relación, sin relegar por ello los elementos a la
condición de los objetos inertes. La disposición, un atributo capital de la textu-
ra heterogénea, y la materialidad de la textura producen una significativa con-
fluencia desde un punto de vista estético. Ambos suponen un desplazamiento
del concepto de relación, fundado en propiedades abstractas, a la condición
situada, ubicada en un tiempo y un espacio musicales precisos, de la textura
en su particularidad.
Son justamente esos dos atributos, la estratificación y la concreción de la
textura, los que permiten establecer una asociación entre el concepto de tex-
tura y el espacio físico, entendido como objeto compositivo. La estratificación
implica pensar la textura en términos de una disposición de los materiales, y
es precisamente en la idea de disposición que se establece un vínculo con el
espacio. La disposición de las fuentes sonoras en el espacio real de audición
conlleva su descentramiento, la idea de que ese espacio ya no cuenta como
totalidad, sino que se puede concebir como un espacio segmentado y múltiple.
La concreción, por su parte, permite asimismo una transposición al plano del
espacio: a diferencia de la música de concierto tradicional, que presupone
un espacio abstracto, indistinto, la incorporación del espacio físico al diseño
compositivo implica un cierto grado de particularización del espacio en el que
la música acontece.
268
Bibliografía
269
Moor, A. y J. Moor (1996), “Photography”, en Turner, J. (ed), The Dictionary
of Art, London, Macmillan, vol. 24, p. 651.
Neubauer, John (1992), La emancipación de la música. El alejamiento de la
mímesis en la estética del siglo XVIII, Madrid, Visor.
Powers, Harold (1980), “Language Models and Musical Analysis”, Ethno
musicology, 24/1 p. 49.
Reed, E. y R. Jones (eds.) (1982), Reasons for Realism, Hillsdale, L. Erlbaum.
Von Helmholtz, H. (1863), Die Lehre von den Tonempfindungen als physiologi-
sche Grundlage für die Theorie der Musik, reeditado en 1968 en Hildesheim,
por Georg Olms, p. 396.
270
Capítulo x
Integración de la música al espacio virtual
Pablo Cetta
271
Gran parte de las obras compuestas desde fines de la década de 1940 hasta
principios de la década de 1960 se caracterizaron por la búsqueda de una inte-
gración de los parámetros musicales partiendo de la organización de la altura
en series dodecafónicas. Tal es el caso de Three Compositions for Piano (1947)
de Milton Babbitt, donde el compositor deriva de una serie pancombinatoria
la dinámica, los ritmos, los intervalos de ataque de las notas, el orden de las
acentuaciones y la densidad polifónica, anticipándose al racionalismo extremo
de Modo de valores e intensidades (1949) de Olivier Messiaen. Es aquí donde
comienza un nuevo camino de intentos de formalización absoluta de la música,
basado como es bien sabido en las creaciones de la Segunda Escuela vienesa.
Más hacia fines del período en cuestión, basta con observar la primera
y la última página de la Klavierstücke IX (1961) de K. Stockhausen, para
determinar la resultante de la composición de fuerzas que allí operan. El autor
propone una trayectoria que parte de un nivel máximo de periodicidad (un
acorde repetido 140 veces) para finalizar con un alto grado de aperiodicidad
(acciacaturas rápidas ubicadas aleatoriamente dentro del compás), con los
desvíos intermedios necesarios que le permiten construir el discurso musi-
cal. El concepto de periodicidad se proyecta a la vez sobre otros parámetros,
estableciendo comportamientos cíclicos del registro, de la dinámica, de las
articulaciones y de la densidad polifónica. Las notas del acorde repetido
conforman las componentes complejas de un espectro en evolución, que va
del ff al pppp, mientras que las frecuencias de movimiento de los parámetros
citados se establecen, en cambio, fuera del registro audible, permaneciendo en
el dominio temporal. Todo esto es discernible a partir de la descomposición
de los movimientos de los parámetros en ejes del espacio multidimensional, o
como una totalidad que transforma de manera muy sutil y compleja el timbre
y el espacio interno de la obra, a partir de movimientos periódicos de distinta
frecuencia. Resulta clara, además, la influencia que en este período ejerce
la música electrónica sobre la composición instrumental. Diversos procesos
propios de la síntesis y la transformación del sonido (uso de filtros, de envol-
ventes, modulación en frecuencia o amplitud, etc.) se trasladan al ámbito de
la creación para instrumentos tradicionales.
Nuevos intentos de integración de los parámetros musicales surgen a
mediados de la década de 1970, a partir de la identificación de las com-
ponentes de la música con las componentes del sonido. Este movimiento,
denominado “espectralista”, encuentra sus antecedentes inmediatos en la
música de Boulez y Stockhausen, pero también en los procesos graduales pro-
pios del minimalismo, y en las paradojas psicoacústicas planteadas por Ligeti.
Así es como Gérard Grisey propone la resíntesis instrumental del sonido del
trombón en Partiels (1975), logrando una fusión íntima de la altura, de la
272
intensidad y del tiempo, tal como aparecen en la naturaleza misma del sonido.
El efecto de zoom temporal, necesario para la reconstrucción mecánica de las
delicadas variaciones de estos parámetros, podría convertirse en clave de una
posible exteriorización del espacio interno de la música.
En este último período también vemos que la incorporación de técnicas
electroacústicas incrementa la riqueza espacial del timbre. En Gondwana
(1980), Tristan Murail resintetiza espectros generados por frecuencia modu-
lada, creando así sonoridades inusuales para la orquesta. Los gestos de la
introducción son claros, doce ataques que modulan gradualmente en espectro,
y cuyas envolventes dinámicas parten de la imitación de una campana hasta
llegar a una trompeta.
Vemos, entonces, que los eventos sonoros, al igual que las estructuras
musicales, se desenvuelven en un espacio propio e interno, delimitado por
los parámetros que los caracterizan. Algunas propiedades de ese espacio son
observables a través de los movimientos de un intérprete o un director de
orquesta, que transforma y exterioriza los recorridos inscriptos en la partitura
en gestos visibles.
En relación al espacio externo, sabemos que si bien la disposición de
fuentes sonoras en el ámbito de representación acompaña a la música desde
sus orígenes –partiendo del canto antifonal o responsorial, pasando por la
policoralidad practicada en San Marcos en el siglo xvi–, es en la década de
1950 donde comienzan a utilizarse fuentes sonoras aparentes como resultado
de la utilización de dispositivos tecnológicos en la música. Gesang der Jünglinge
(1955-1956) de Stockhausen, concebida originalmente para cinco grupos de
parlantes distribuidos en las esquinas y en el techo del auditorio, es la primera
obra electroacústica que explora las posibilidades de la localización espacial
del sonido.
A partir de allí, ocurre una proliferación de obras instrumentales, electro-
acústicas y mixtas que exploran las propiedades del espacio, así como también,
el desarrollo de sistemas de simulación de fuentes aparentes en entornos vir-
tuales mediante el uso de parlantes.
El tratamiento de la localización espacial del sonido en la composición,
siguiendo esta idea de división del espacio en la música, puede concebirse
como una exteriorización del espacio interno, y a la vez, como una interio-
rización del espacio externo. Esto significa que las trayectorias espaciales se
desarrollan en relación a los recorridos interiores del sonido, o bien, que los
parámetros del sonido y la música pueden ser alterados por la trayectoria de
las fuentes virtuales. Distinguimos, entonces, dos casos posibles.
Para el primero, exteriorización del espacio interno, partimos del análisis
del sonido a espacializar. Este proceso, que puede ser realizado en tiempo real,
273
comprende la detección de algunos parámetros, cuyas magnitudes se trasladan
en proporción sobre los ejes de coordenadas del espacio virtual. De este modo,
la altura puede asociarse al eje vertical (eje z), el nivel de tonicidad de los
sonidos al eje x, y la intensidad al eje y. Otras variables fácilmente asimilables
son la duración de los eventos, la densidad cronométrica, la densidad polifóni-
ca o la riqueza del espectro. Cualquier variación de estas magnitudes se refleja
en un desplazamiento de la fuente en el espacio.
Un mismo fragmento sonoro puede realizar trayectorias bien distintas,
pues depende de la terna de parámetros y el sistema de coordenadas elegido
(cartesianas o esféricas). En cualquier caso, existe un marcado correlato entre
las transformaciones de los eventos sonoros y su distribución espacial. Y al
existir dos o más fuentes, la espacialización nos ayuda a apreciar y comparar
la materia sonora de cada una de ellas, a “visualizar” sus diferencias a partir de
las distintas trayectorias que se establecen.
Veamos un ejemplo. Existe un modo de representación de la altura, uti-
lizado en psicoacústica, en el cual los grados cromáticos se distribuyen bajo la
forma de una espiral ascendente, y donde las notas de igual nombre coinciden
verticalmente. La espacialización de este modelo conduce a una registración
espacial de la altura, pues cada grado ocupa un lugar fijo en el espacio virtual.
Si ejecutamos una escala cromática de cuatro octavas, el sonido del instrumen-
to define una trayectoria que gira cuatro veces, a la vez que asciende. Resulta
interesante observar lo que sucede con la velocidad de desplazamiento de la
fuente en relación a la interválica de un fragmento musical, pues si en lugar de
ejecutar una escala cromática interpretamos una escala por tonos, la velocidad
del movimiento se duplica. En una situación más compleja, los intervalos que
se suceden linealmente se manifiestan en el espacio como transformadores
de la velocidad, mientras que la direccionalidad melódica determina el sen-
tido de giro. Siguiendo el mismo criterio, podemos incorporar la dinámica al
modelo, de modo que influya en el diámetro de la espiral. Nuevamente aquí,
la superposición de dos o más fuentes conduce a la percepción de una imagen
sonora del contrapunto que resulta muy efectiva.
Cuando se trata de detectar los parámetros del sonido que ingresan a la
computadora, la programación del entorno de procesamiento en tiempo real
requiere ciertas consideraciones. En este último ejemplo, que el sistema rea-
lice las interpolaciones necesarias frente a cambios bruscos de altura, o tome
decisiones cuando el grado de tonicidad de los sonidos es muy bajo.
En general, es necesario desarrollar previamente un modelo eficaz para
el posicionamiento de las fuentes, basado en transformaciones geométricas,
cualquiera sea el sistema de espacialización utilizado. Encuentro apropiado,
en particular para otras aplicaciones que veremos más adelante, un modelo
274
basado en dos vectores solidarios, ambos de longitud variable. El primero parte
del origen de coordenadas, ubicado en el centro del espacio virtual, y llega
hasta un punto definido por su magnitud, un ángulo de azimut y un ángulo
de elevación. El segundo, unido al extremo del primero, define su posición a
partir de las mismas tres variables, como si se tratara del satélite de un planeta
en movimiento. Esto permite lograr desplazamientos complejos y fácilmente
controlables, donde una o más fuentes –satélites– rotan sobre sus ejes a la vez
que se desplazan en conjunto.
Aun más, teniendo en cuenta que la exteriorización del espacio interno
de determinados fragmentos musicales puede ser aprehendida rápidamente
por el oyente, la rotación y la traslación sobre los tres ejes de la imagen acús-
tica completa brinda una riqueza todavía mayor. En relación al ejemplo de
registración espacial de la altura, la espiral gira o se desplaza, siguiendo una
trayectoria prefijada, o bien de acuerdo al comportamiento de otras caracte-
rísticas presentes en la música.
En relación a la interiorización del espacio externo, la composición del
espacio transforma al sonido. Partimos ahora de una trayectoria establecida
de algún modo, que puede o no depender del comportamiento de la música.
El movimiento se descompone sobre los tres ejes de coordenadas y estos valo-
res, convenientemente escalados, modifican tres aspectos sonoros elegidos.
Veamos un ejemplo, los valores x, y y z de un recorrido afectan a la frecuencia
de corte, al ancho de banda y a la ganancia de un filtro aplicado a uno o varios
objetos sonoros. La trayectoria puede ser externa a la música o bien, a fin de
establecer un correlato, ser extraída del registro, del ámbito y de la dinámica,
respectivamente, del fragmento musical compuesto a partir de esos objetos.
Los usos compositivos que surgen de estas ideas son muy variados. Si bien
buscamos un vínculo fácilmente perceptible entre música y espacio, es posible
establecer diferencias que enriquezcan el discurso a partir de procedimientos
simples como la imitación, aumentación o disminución, y retrogradación de
las relaciones entre los recorridos internos de la música y las trayectorias de las
fuentes virtuales, o incluso, de las dimensiones o características acústicas del
espacio virtual.
Es posible lograr una interiorización eficaz del espacio externo a partir de
comparar el tiempo subjetivo de un fragmento musical con las dimensiones
del espacio virtual. Desde el punto de vista perceptual, al aumentar el espacio,
la sensación de transcurso del tiempo parece disminuir. Esta idea, considerada
a través del tema que nos ocupa, puede justificarse a través de diversas causas,
una es la acción de la reverberación, que disminuye la resolución temporal.
Otra surge en relación a los primeros ecos, los intervalos entre los tiempos de
arribo de las primeras reflexiones aumenta a medida que el espacio crece.
275
Al citar ese breve recorrido histórico, caracterizado por una búsqueda
de integración de los parámetros musicales, hice mención del efecto de zoom
temporal aplicado al análisis de un sonido para su posterior resíntesis instru-
mental, utilizado por los espectralistas. Podríamos partir del mismo principio
con el propósito de establecer un nexo entre las cualidades del espacio virtual
y las relaciones temporales de una pieza musical. Si efectuamos un aumento
considerable de las dimensiones del espacio, aumentan en proporción las
diferencias en los tiempos de llegada de las reflexiones. El cambio de escala
trae aparejado un cambio en la percepción, pasamos de mínimas diferencias
temporales, que favorecen la localización, a tiempos de ataque expresables en
términos de ritmo musical.
Estas transformaciones en el modo de percibir el sonido ocurren de muy
variadas formas. Es bien sabido que si utilizamos una línea de retardo con
realimentación con un tiempo muy breve el sonido se transforma a nivel
espectral, si aplicamos en cambio un tiempo mayor percibimos un fenómeno
similar al eco. Algo parecido ocurre al aumentar gradualmente la frecuencia
de un generador de pulsos, al principio oímos sonidos breves separados por
un determinado intervalo de tiempo, luego un único sonido cuya altura
varía con la frecuencia. La diferencia en la percepción de eventos repetidos
a bajas frecuencias y a frecuencias “audibles” sirvió como punto de partida a
Stockhausen en su intención de establecer una relación coherente entre la
altura de los sonidos y sus duraciones, aplicable a la composición musical.
La técnica de producción de ritmos a partir del análisis de las reflexiones
permite generar secuencias modulatorias interesantes y variadas, de acuerdo
a la trayectoria establecida. La ampliación gradual del espacio virtual lleva,
a partir de cierto punto, a la percepción de una célula rítmica susceptible de
ser resintetizada mediante instrumentos convencionales. Y en tal sentido, las
dimensiones del ambiente se manifiestan como un indicador de tempo.
Para alcanzar este propósito de forma rápida y efectiva diseñé un pro-
grama de computación cuyas variables de entrada son las dimensiones de un
ambiente tridimensional y la trayectoria de una fuente virtual que reproduce
un sonido impulsivo. Este programa devuelve en tiempo real una secuencia
de células rítmicas, que resultan de capturar periódicamente el estado de las
reflexiones a intervalos especificados por el usuario, fácilmente trasladables
a notación musical ya que las diferencias entre los tiempos de ataque son
cuantizadas a un mínimo valor elegible. Los datos obtenidos conforman un
material útil en la composición de procesos graduales. En estos, la trayectoria
de la fuente se relaciona de un modo firme con las estructuras temporales que
establecen el orden de los eventos sonoros de un fragmento musical.
Otros modos de exteriorizar el espacio interno de la música se relacionan
276
con el tratamiento de la textura. Los mayores indicios que revelan al sistema
perceptual la posición de una fuente ocurren durante el ataque del sonido. Es
por eso que nos resulta difícil detectar las sucesivas posiciones de un sonido
largo, y no iterativo, que se encuentra en movimiento. Y una forma creativa
de capitalizar esta dificultad es a través de la fragmentación de eventos conti-
nuantes, proceso que se basa en la distribución espacial de gránulos extraídos
de varias copias del sonido original. La suma de todos los gránulos y su con-
centración en un punto, aplicando las envolventes adecuadas, reconstruye el
sonido. La distribución de los gránulos en el espacio crea, por otra parte, una
textura de interés musical. Para lograr esto, es importante contar con varias
fuentes virtuales que puedan moverse de forma combinada, concentrarse en
un punto o distribuirse gradual y aleatoriamente sobre una parte o la totali-
dad de la superficie de una esfera que rodee al oyente. La integración de la
música al espacio se manifiesta de forma perceptible si la exteriorización de
los comportamientos musicales determina los recorridos o formas descritas
por las fuentes. La duración de cada gránulo, el tipo de envolvente dinámica
establecido, y la densidad de la nube de eventos permiten, a la vez, mutar de
una distribución espacial a una transformación tímbrica que modifica sustan-
cialmente la naturaleza del sonido original.
Una variante posible, partiendo del modelo antes descrito para el posicio-
namiento de fuentes virtuales –basado en dos vectores solidarios controlados
por transformaciones geométricas– es la generación de volúmenes sonoros.
Para ello, partimos de una figura geométrica tridimensional –un cubo por
ejemplo– y ubicamos en cada uno de sus vértices una fuente. La ubicación del
primer vector es la misma para todas las fuentes, parte del origen de coordena-
das y su extremo alcanza el centro del cuerpo elegido. El segundo vector parte
del centro y se dirige al vértice que corresponde, para cada una de las fuentes.
Esto permite una traslación y rotación en conjunto de todos los vértices, como
si se tratara de una forma que se desplaza y gira sobre sí misma. Cada fuente
posee un sonido característico, que proviene de distintos instrumentos, o ver-
siones transformadas tímbricamente del mismo instrumento. De este modo,
la rotación del cuerpo se percibe acústicamente, el objeto virtual nos muestra
sus facetas y sus cualidades materiales, que asociamos con las características
texturales propias de cada sonido o estructura sonora.
Haciendo uso de nuestra imaginación, a fin de llevar esto más lejos aún,
podríamos pensar que quien se desplaza y rodea al objeto es el oyente, como
si se tratara de una verdadera escultura sonora. Tendríamos así la posibilidad
de modificar el tiempo de lectura de ese objeto, y detenernos en aquello
que transmite de acuerdo a nuestro propio tiempo interno. El interés crece,
obviamente, frente a la presencia de diversos objetos interrelacionados y dis-
277
tribuidos en el espacio virtual, y a la de otros eventos cuyo tiempo y espacio
no dependen de nuestra voluntad perceptiva.
Diversos programas de espacialización y composición asistida, así como
parte de las ideas aquí expuestas, han sido la base de la composición de mi
obra Interiores (2004), escrita para flauta, oboe, saxo alto, clarinete bajo y
piano, con procesamiento electrónico del sonido en tiempo real. Tanto la
parte de procesamiento como las aplicaciones de composición asistida fueron
creadas en el entorno Max-msp.1
Las tareas de programación comienzan con el diseño y desarrollo de
varias unidades de localización espacial del sonido basadas en la técnica
Ambisonics,2 con decodificación en ocho canales y parlantes dispuestos en
los vértices de un cubo. El modelo incorpora el diseño del ambiente virtual, el
cálculo y la reproducción en tiempo real de las primeras reflexiones, y la absor-
ción del aire en función de las distancias recorridas. Continúa luego con la
programación de objetos destinados a la generación de trayectorias definidas
en coordenadas cartesianas y esféricas, y a la aplicación de transformaciones
geométricas a diversas fuentes que se mueven en conjunto, utilizando coorde-
nadas homogéneas.
La detección de los parámetros musicales se realiza con diversos progra-
mas orientados a la exteriorización del espacio interno. La altura, la duración
de los sonidos, el grado de tonicidad, la densidad de los eventos, se constitu-
yen en variables de la espacialización. Otras unidades de procesamiento, en
cambio, realizan transformaciones tímbricas de los sonidos instrumentales, y
sirven a la interiorización del espacio externo.
Objetos destinados a la registración espacial de la altura y la generación
de volúmenes virtuales, procesos antes mencionados, junto a la armonización
de determinados sonidos utilizando conjuntos de grados cromáticos, se inte-
gran al programa principal de procesamiento en tiempo real.
Los programas de composición asistida, por otra parte, se utilizan para el
control de la altura en la obra, y para la construcción de secuencias rítmicas
derivadas de los intervalos de ataque del sonido directo y de las primeras
reflexiones.
La obra se divide en 17 secciones, con una duración total aproximada de
25 minutos.
Desde el punto de vista de la notación musical, la escritura de esta pieza
exhibe por momentos cierto grado de flexibilidad en el aspecto temporal, lo
1 <http://www.cycling74.com/products/maxmsp>.
2 <http://www.york.ac.uk/inst/mustech/3d_audio/welcome.html>. Véase, además, el capí-
tulo v de este libro.
278
cual apunta a una mayor libertad y naturalidad en la interpretación, aprove-
chando la posibilidad de tratamiento en tiempo real. Según se observa en la
figura 1, la articulación entre los constituyentes del gesto musical depende
en gran medida de la acción del director, y a simple vista podemos imaginar
trayectorias asociadas a los desplazamientos que ocurren en el espacio interno
de ambos fragmentos.
En esta sección, las articulaciones de los acordes, enmarcadas por el
piano, son cada vez más complejas y variadas. Aumenta gradualmente la
rugosidad de los acordes tenidos, partiendo de sonidos lisos hasta llegar a los
trinos y trémolos. La estructura de alturas es también modulante. El tipo de
distribución espacial de los eventos se realiza por registración espacial de la
altura, y luego por simulación de los primeros ecos, en un ambiente virtual
que crece en dimensiones.
La organización de la altura de toda la pieza se establece a partir de la
utilización de conjuntos de grados cromáticos (pcs, por pitch class sets). Del
análisis de las características de los conjuntos surgen clasificaciones orientadas
a la generación de similitudes, oposiciones o transformaciones entre campos
de altura. En el caso de los conjuntos formados por cuatro sonidos, por ejem-
plo, una clasificación posible surge en relación al grado de asociación respecto
al sistema tonal –acordes de séptima, tríadas con notas agregadas, acorde
bimodal, conjuntos cuyos subconjuntos son acordes por terceras, acordes por
cuartas, fragmentos de escalas reconocibles– o disociación respecto a este
sistema, ordenados por sus características propias.
Las relaciones entre los campos de altura se regulan en función al nivel
de consonancia de cada conjunto. La determinación del grado de consonancia
Figura 1
279
puede establecerse por varios métodos, pero básicamente tiene en cuenta la
cantidad y calidad de las clases interválicas presentes en cada grupo, y la dis-
posición vertical u horizontal de sus sonidos en el registro. En el ordenamien-
to se comparan todos los conjuntos, pero también se establecen subcategorías
de acuerdo a la ausencia de uno o más intervalos en particular, la cantidad de
clases interválicas presentes, la cantidad de transposiciones o inversiones no
redundantes, etcétera.
Considerando este método de organización, la registración espacial de la
altura, y en consecuencia las trayectorias asociadas a los distintos giros meló-
dicos, no solo depende de la direccionalidad y la duración de cada nota, sino
también de la interválica lineal que cada fragmento presenta. A intervalos
más amplios, mayor es la velocidad de desplazamiento de la fuente, por lo cual
es posible especular con la disposición de los pcs en el registro y con sus per-
mutaciones, a fin de controlar la velocidad y la aceleración de los recorridos
sonoros. La figura 2 ilustra de algún modo este fenómeno, que trae aparejado
la percepción del contrapunto en términos espaciales.
El piano, en esta misma sección, ejecuta una secuencia de acordes modu-
lante en consonancia, cuyo ritmo proviene de las relaciones temporales entre
los ecos de un espacio particular, en relación con la posición de la fuente virtual
en ese ámbito (en este caso la reproducción del sonido del instrumento, que
va rotando alrededor de la sala). Luego de este fragmento y eliminado el plano
contrapuntístico, el piano permanece solo continuando la secuencia de acordes.
Se perciben claramente aquí las características modulatorias de la sucesión de
ritmos provenientes de la imitación de los primeros ecos (véase la figura 3).
Por otra parte, el sector M de la obra, rítmicamente muy preciso, presenta
otra instancia de exploración de las primeras reflexiones. En el 6/4 de la figura
Figura 2
280
4 se observa una resíntesis del comportamiento de los primeros ecos, propios
del ambiente simulado. Significa que el comportamiento “natural” de la sala
virtual es luego imitado por los ataques de los instrumentos.
Figura 3
Figura 4
281
Aquí también se trata de un proceso gradual, pues a partir de M, el espa-
cio virtual crece en dimensiones –lo cual se aprecia al escuchar el comporta-
miento de las reflexiones para cada ataque de los vientos– hasta alcanzar un
punto en el cual se produce la resíntesis mencionada.
Pero volviendo al tratamiento de la altura, cuando varios instrumentos
monódicos ejecutan simultáneamente las notas de un conjunto, cada soni-
do se diferencia por su timbre, por el modo de ejecución empleado y por la
ubicación de cada instrumentista en el escenario. Cualquiera de estas carac-
terísticas puede ser transformada aplicando el procesamiento adecuado. Pero
es posible, además, simular la producción de varias alturas organizadas con
un único instrumento monódico, transportando aquella que ejecuta a otras
distancias, y aplicando a cada nota un tratamiento tímbrico diferenciado y
una ubicación particular en el espacio.
Para la implementación de este proceso programé un objeto de control que
genera los índices de transposición a utilizar. Estos índices son calculados para
conjuntos de grados cromáticos de tres y cuatro elementos, cuya denominación
se especifica en una de sus entradas. Si elegimos el pcs 4-15, por ejemplo, e
informamos al programa que la nota ejecutada corresponde a la posición de la
contralto, al tocar un do, es posible obtener do#, mi y fa#, que completan el
conjunto antes mencionado en las tres voces restantes. El objeto calcula una
transposición posible y decide si lo invierte o no, por lo cual, en cada inter-
pretación de la misma nota escuchamos un acorde con la misma estructura
interválica pero transpuesta, invertida, o permutada de formas distintas.
Las transposiciones del sonido de un mismo instrumento presentan un
nivel de coherencia mucho mayor que en el caso de varios instrumentos eje-
cutando las notas de un acorde. Obviamente la relación de las componentes
espectrales es la misma para todas, pero desplazada en frecuencia. Esta carac-
terística genera una integración de los sonidos que guía a la percepción de un
único espectro, por lo cual este tratamiento de la altura produce resultados
más bien tímbricos. El efecto se potencia en la combinación de estos acordes-
espectros con el tratamiento interválico de las fundamentales.
Con el propósito de generar acciones musicales variadas, recurrimos a un
objeto que detecta si la nota supera en duración un cierto umbral. Solo en ese
caso la operación de armonización es llevada a cabo. Esto permite la ejecución de
giros rápidos –adornos, por ejemplo– sin armonización y detenciones, donde la
armonía aparece a través de un crescendo programado. La distribución espacial de
estas acciones complementa el efecto buscado. La figura 5 muestra un fragmento
solista donde se aprecian los puntos de detención que dan lugar a la armonización.
Los acordes que se producen poseen la misma interválica que los giros melódicos,
estableciéndose así cierta coherencia entre el aspecto horizontal y vertical.
282
Figura 5
283
Figura 6
284
Figura 7
Figura 8
285
Bibliografía
286
Capítulo XI
Música para sitios específicos: nuevas correlaciones
entre espacio acústico, público y fuentes sonoras
Martín Liut
Las obras musicales y de arte sonoro creadas para sitios específicos han puesto
de relieve la multiplicidad de relaciones posibles que pueden establecerse,
no solo entre el público y las fuentes sonoras, sino entre ambos y el espacio
acústico en el que transcurren las performances.
En Occidente la situación de concierto se homogeneizó a partir del predo-
minio del modelo de teatro a la italiana, con el público enfrentado a los músicos.
A su vez, la composición musical se llevó a cabo sobre la idea de una escritura
para lo que podríamos denominar espacios acústicos genéricos. Salvo excepcio-
nes, los compositores de la era moderna han escrito sobre el supuesto de que sus
obras serían interpretadas y escuchadas en salas, teatros o iglesias de diferentes
ciudades, cuyos espacios acústicos pueden tener cualidades diferentes pero carac-
terísticas esenciales similares. Un ejemplo de ello es el tiempo de reverberación.
Si se compone una obra sacra, se contempla el hecho probable de que la obra
tenga que lidiar con un tiempo de reverberación mayor que el de una sala de
concierto, ya que probablemente será interpretada en una capilla o iglesia.
La creación para sitios específicos, por el contrario, toma nota desde su
génesis de las particularidades topológicas del espacio a ser utilizado. Ya se
trate de espacios dados o construidos ad hoc, una característica saliente de
este tipo de obras es que promueven diferentes vínculos entre la música y el
espectador. Estos pueden ser, además, variables. De hecho, muchas de estas
obras contemplan y fomentan la opción de una escucha móvil, no estática,
durante su transcurso.
El presente artículo se propone analizar los diferentes tipos de vínculo
entre espacio acústico, fuentes sonoras y público que promueven las creacio-
nes para sitios específicos. Se tomarán como base para la discusión las primeras
consideraciones taxonómicas propuestas por los compositores Iannis Xenakis
y Llorenç Barber, y las propias. Se ofrecerán luego algunos ejemplos de obras
realizadas en la ciudad de Buenos Aires que permitirán reunir los diferentes
aspectos estudiados.
287
Se trata de una temática nueva para el campo de la composición, que
admite diferentes tipos de soluciones, en función de las premisas estéticas del
autor de la obra. Los casos de Xenakis y Barber son, en este sentido, paradig-
máticos: compartiendo el interés por la composición para sitios específicos,
sin embargo, sus obras difieren notablemente en su resultado sonoro debido a
su adscripción a paradigmas estéticos diferentes. El primero se basó en mode-
los estadísticos y estocásticos para construir texturas de alta complejidad. El
segundo toma como modelo el minimalismo y las ideas de Cage y Satie, como
la no-narratividad y la repetición de mínimos materiales. En el caso de insta-
laciones e intervenciones sonoras también la estética determina estrategias y
herramientas diversas, aun en puestas sonoras similares en su diseño.
Entendemos por arte para sitios específicos a aquellas creaciones que toman
en cuenta en forma integral el espacio elegido para su presentación. Integral
implica no solo atender a los aspectos topológicos del espacio sino, también,
a su carga simbólica, su relación con el uso cotidiano que tiene por parte de
la comunidad que lo transita, circula o habita, su historia y el imaginario
asociado a él. Como señala Omar Corrado: “Tocar el espacio de la ciudad es
entrar en contacto con una zona rica y conflictiva del hacer humano. Allí se
anudan las vicisitudes de lo privado y lo público, de la historia y el presente,
de la cultura y la política de una ciudad que es, también, los poderes que la
representan” (Corrado, 2001).
Planteado en estos términos, queda claro por qué no se consideran aquí
los espectáculos masivos realizados al aire libre de músicas originalmente
pensadas para su recepción en recintos cerrados. Se trate de música clásica
o popular, lo habitual en esos casos es, amplificación mediante, intentar que
la señal acústica que se genere llegue con la mejor claridad perceptiva a los
oyentes. Para lograrlo, los ingenieros de sonido tratan de disimular la evidente
diferencia entre la acústica típica de, por ejemplo, un estadio de fútbol respec-
to de una sala de conciertos. En estas situaciones, el espacio acústico, más que
un tema, es un problema, algo que se padece y se intenta neutralizar.
En el capítulo ii de este libro, Gustavo Basso analiza la acústica de recin-
tos dedicados a la música, los que han producido con los siglos una especie de
“normalización” en el modo de la generación y recepción del hecho musical:
la acústica de estos espacios es una extensión de los instrumentos, pero no
suele ser estructurante de las obras interpretadas. Por el contrario, la realiza-
ción de experiencias artísticas sonoras en espacios no convencionales puede
288
ayudar a tomar conciencia sobre las características acústicas particulares en sí
de un determinado punto de la ciudad.
Los investigadores Barry Blesser y Linda-Ruth Salter (2006) denominan
“arquitectura aural” a las particularidades acústicas que posee un espacio
determinado:
canos, véase Kwon (2004). Sobre la relación entre espacio público y sonido véase aa. vv.
(2005).
3 Mayoritariamente son de tipo cuantitativo. Un caso de análisis cualitativo destacable es
289
Por otra parte, los estudios realizados hasta el presente en torno de la
percepción de la ubicación espacial de fuentes sonoras están lejos de poder
predecir lo que ocurrirá en estos campos acústicos complejos (véase Basso,
¿???), en los que se suelen utilizar múltiples fuentes de emisión y zonas de
recepción notablemente diferenciadas en sus cualidades.
Los primeros ensayos teóricos para el campo de la creación sonora para
sitios específicos se produjeron alrededor de las obras cercanas a las artes
visuales expandidas como las instalaciones sonoras. Desde el terreno musical,
a través de escritos de compositores como Iannis Xenakis y Llorenç Barber.
5 Xenakis presentó estas obras en otras exposiciones internacionales, como las de Montreal
(1967) y Osaka (1970). En espacios al aire libre estrenó Persépolis en el Irán gobernado por
el Sha Reza Palevi (1971) y en Micenas en la Grecia que emergía de la dictadura (1978).
También realizó un polytope en las termas romanas de Cluny, en París, en 1974. Sobre estas
obras, sus implicancias estéticas y políticas, véase Harley (1998), pp. 55-65.
290
Xenakis distingue cinco grupos de cuestiones: la dimensión de la perfor-
mance, las relaciones espacio-temporales, la naturaleza de las fuentes, el tipo
de receptáculo (de espacio) y la tecnología. Nos centraremos en el segundo
punto.
Xenakis plantea que se pueden dar al menos cinco tipo de relaciones
espacio-temporales entre el público y las fuentes, entendidas estas últimas en
un sentido amplio.6
1. Las fuentes se encuentran delante del público de modo frontal. Se trata
de la tradicional situación en teatros “a la italiana”.
2. Las fuentes se encuentran en el centro y el público las rodea. Esta
situación, según recuerda el propio Xenakis, se da en una arena, un ring, un
hipódromo, estadios. La sala de la Filarmónica de Berlín, construida durante
la era Karajan, permite que el público rodee a la orquesta, incluso por detrás:
no es el mejor lugar para escuchar música sinfónica, pero sí para ver de frente
al director ubicado en el podio.
3. Las fuentes están alrededor del público que se encuentra en el centro.
El dispositivo surround del cine y el home theater son la versión comercial de
un tipo de dispositivo utilizado en muchas instalaciones sonoras y en con-
ciertos de música electroacústica multicanal, que permiten la ubicación y el
desplazamiento virtual de fuentes sonoras en el espacio. Las obras Persepphassa
para seis percusionistas del propio Xenakis, o Gruppen, para tres orquestas, de
Stockhausen, ofrecen este planteo con fuentes sonoras acústicas.
4. Las fuentes y el público se encuentran entremezcladas. Xenakis ofrece
como ejemplo un paseo por la ciudad, tradición iniciada por el movimiento
canadiense de los Soundscapes7 (Murray Schaffer y Barry Truax, entre otros),
experiencia que también se llevó a cabo en las calles de Montevideo, gracias
a la iniciativa de Daniel Maggiolo. Xenakis menciona sus obras Terretektorh y
Nomos Gamma, en las que músicos y públicos comparten el mismo espacio.
5. Relación lineal. Xenakis denomina de este modo a la situación propia
de un desfile militar, procesión religiosa o el paso de una carrera de bicicletas.
En ellas, el público se encuentra inmóvil a ambos lados de la acera, mientras
las fuentes sonoras atraviesan la calle. Eine Brise, del argentino Mauricio
Kagel, explora esta posibilidad. Se trata de una pieza para 111 ciclistas,
munidos de cornetas y timbres, que pasan raudamente delante del público,
emitiendo sonidos, silbidos y susurros.
Una sexta opción es alguna posible combinación entre las 5 mencionadas
anteriormente.
291
Como bien señala Xenakis, estas combinaciones no se ven alteradas
sustancialmente si las fuentes, el público, o ambos están estáticos o en movi-
miento. Sin embargo, es particularmente relevante para comprender no solo
el aspecto topológico de la relación entre fuente y público, sino el modo en
que el público en particular percibirá la música u obra de arte sonoro.
El estatismo o movimiento del espectador determinan modos de escucha
radicalmente diferentes y que deben considerarse al momento mismo de la
creación. Para ampliar este aspecto, apelaremos al compositor catalán Llorenç
Barber.
En movimiento
Por definición, una obra sonora presentada en un espacio público plantea dos
problemas en torno a la situación del público. El primero supone aceptar la
enorme divergencia perceptiva que habrá de la obra, según los múltiples pun-
tos de escucha del espacio seleccionado para su presentación. Mientras que las
salas de concierto tienden idealmente a buscar una escucha similar, sin impor-
tar la ubicación del público, el espacio público, no pensado para la difusión
sonora “artística”, se impone en su diversidad como campo complejo.
La composición de música para ciudades, como las que viene desarro-
llando Llorenç Barber (España, 1948), impone una renuncia al control sobre
las infinidad de variables que ponen en juego espacios acústicos complejos y
públicos dispersos en él. Estas obras proponen un dilema, un juego de búsque-
da “detectivesca”, en palabras del propio compositor catalán. ¿Dónde debe
ubicarse el público? ¿Debe quedarse quieto o deambular? La segunda cuestión
es radicalmente innovadora respecto de la situación de concierto tradicional,
en el que la escucha está asociada a la contemplación estática.
Barber ocupa un lugar destacado en el campo de la producción musical
en espacios públicos. Con sus “conciertos de ciudades” se propone generar
hechos artísticos valiéndose de las fuentes sonoras naturales (i.e., sin media-
ción de la amplificación) con que se encuentre en cada ciudad o pueblo donde
es convocado. Particularmente fructífera le ha resultado la frecuente presencia
de campanarios en los centros urbanos a los que ha acudido. También ha
incluido bandas de pueblo, fuegos de artificio, y bocinas antiaéreas y de buques
cuando así lo ha podido.
Barber define a este tipo de obras como música plurifocal: “Multiplicidad
de focos sonoros que participan en cada concierto: tantos campanarios o
grupos instrumentales como existan en cada ciudad” (Lopez Cano, 1997). La
consecuencia para la composición es que se tiene una disposición casual de
292
los focos sonoros. Esto requiere un estudio urbano acústico del campus sónico:
disposición y morfología de plazas, calles, avenidas, altura general de los edi-
ficios que puedan interferir el desplazamiento del sonido.
La dimensión de estos conciertos varía de escala notablemente. Pueden
transcurrir en una plaza de toros como en su Alberomundo en Alicante; en
torno a un grupo de manzanas del casco histórico de ciudades tan disímiles en
su traza como Madrid, Buenos Aires, Pollenza o Alcalá, hasta un valle, como
el de Innsbruck, que reúne un conjunto de pueblos vecinos entre sí, pero dis-
tantes a kilómetros unos de otros.
La escala de las performances puede proponer al espectador, según Barber,
tres tipos de audición: estática: el público sube a techos o balcones o se aposta
en los cruces de calles; panorámica: el público sale del casco urbano donde se
realiza el concierto para subir a montañas, colinas o miradores panorámicos
de las carreteras; y peripatética: el público deambula por las calles de la ciudad,
atiende los ecos y rebotes, se sumerge en los tubos sonoros en que se convier-
ten algunas calles estrechas.
La ubicación de cada escucha, así como el tipo de audición que este elija,
reorganiza por completo, una y otra vez, la estructura espacial de la obra.8
Zonas de audición
293
puntos de escucha. Por el contrario, en la sala de concierto, se piensa en una
zona restringida de audición “ideal” para lograr trayectorias sonoras de mayor
refinamiento y precisión.
Por otra parte, una sala de conciertos separa la obra de la “realidad” de
una manera tajante, pero esa frontera no existe al aire libre. En espacios abier-
tos se produce una zona de transición (que puede abarcar unos pocos metros
hasta varias cuadras) en la que el espectador va sumergiéndose paulatinamen-
te en la intervención sonora, que se mezcla con el paisaje sonoro propio del
lugar. Aquí el tipo de materia sonora utilizada en las obras será determinante
para producir una separación tajante con el entorno acústico cotidiano. O,
por el contrario, producir una mimesis con él. También es determinante, y de
un modo no menor, el grado de preaviso del espectador o potencial especta-
dor, respecto de la ocurrencia de performance.
La ausencia de límites en este tipo de obras genera, creemos, un nuevo
tópico a tener en cuenta en el proceso de composición: se trata de la clasifica-
ción y posterior estudio de diferentes zonas de audición. El compositor deberá
hacer una cartografía de las mismas y establecer qué tipo de correlaciones se
podrán estableces entre las fuentes sonoras y el público.
Los límites de cada zona de audición serán claros o difusos, dependiendo
del tipo de arquitectura aural involucrada en cada caso.
En principio, mencionaremos cuatro tipos de zonas de audición: 1) ideal;
2) de transición o intercambio; 3) residuales, o no previstas; y 4) neutras/no
artísticas.
Se entiende por zona “ideal” a aquella en la cual el compositor o artista
sonoro tiene un control lo más eficiente posible sobre las variables en juego
en materia de emisión y recepción de la información sonora. Esta zona se
corresponde, en principio, con la zona de audición dentro de una sala de
conciertos “tradicional”.
La zona de transición o intercambio es aquella en la que la energía sonora
de la obra, instalación o performance compite o dialoga con el caudal propio
del espacio a ser intervenido. Se trata de una zona que puede ser particular-
mente móvil y dinámica, ya que depende de las relaciones de energía entre
ambos. En espacios abiertos, la transición puede abarcar desde unos pocos
metros hasta varias cuadras, en las que el espectador va sumergiéndose paula-
tinamente en la obra sonora.
Las características de este tránsito (un crossfade a escala natural) se modi-
ficarán según el tipo de materia sonora involucrado, tanto de la intervención
como del paisaje circundante, como así también del grado de preaviso del
espectador o potencial espectador.
Si la intervención se nutre de sonidos similares a los del paisaje sonoro
294
circundante, se puede producir una total mimetización, lo que llevaría a una
especie de “suma cero”, una paradoja cageana. También puede crear espe-
jismos sonoros, como los de escuchar una Plaza de Mayo repleta de gente,
cuando se trata en verdad de una reproducción amplificada.
Las zonas “residuales” pueden ocurrir en algunos espacios públicos abier-
tos a los que llega la información sonora de un modo particularmente transfor-
mado o disociado de la acción visual que lo provocó. Citamos como ejemplo
el caso de la performance que con el grupo Buenos Aires Sonora realizamos
en la zona de Puerto Madero, en la ciudad de Buenos Aires. La performance
consistió en la transformación del Puente de la Mujer, un puente peatonal
diseñado por el arquitecto valenciano Santiago Calatrava, en un instrumento
musical. Por las dimensiones del lugar, y para reforzar la asociación entre la
zona en la que se generaban las señales acústicas y el sistema de amplificación,
se decidió girar el puente de modo tal de ubicarlo en forma paralela a uno de
los malecones, donde estaría ubicado el público. En esa dirección se ubicaron
todas las columnas de sonido disponibles, que estaban sobre el mismo puente.
Hacia la otra orilla, lo que se escuchó fue la señal que se reflejaba en unos
silos de la ribera opuesta y la pared de piedra del malecón. La señal sonora
hacía un recorrido lo suficientemente extenso como para que se disociara de
la señal visual de la acción musical, además de modificar notablemente la
calidad espectral del audio (había, por caso, fragmentos en los que se emitían
voces cuya inteligibilidad se perdía por completo).
Las zonas ciegas, neutras o “no artísticas” son aquellas en las que la
instalación sonora o performance, por efecto de la distancia o algún tipo de
elemento corpóreo, no se escucha, aunque pueda llegar a ser visible. En el caso
de espacios abiertos esto puede ocurrir, por ejemplo, en el caso de que haya
viento con una velocidad suficiente como para desviar la propagación lineal
de la señal acústica.
En la mayoría de las obras en espacios no tradicionales conviven estas zonas
de un modo dinámico y dependiente del tipo de arquitectura aural presente.
Veamos algunos ejemplos. En la instalación Mayo, los sonidos de la plaza9
se dispuso un círculo octofónico de parlantes en el centro de la Plaza de Mayo
de Buenos Aires, cuyo diámetro era de alrededor de 70 metros. Esta confi-
guración suponía contar con una zona de escucha ideal, en la que no solo se
podían superponer múltiples fuentes sonoras gracias a la cantidad de salidas
9Producción del grupo Buenos Aires Sonora, fue comisionada por la Ciudad de Buenos
Aires para el año del casco histórico, 2003. Tiene una duración de 64 minutos. Se estrenó
en la Plaza de Mayo el 5 de julio de 2003, y se volvió a presentar el 9 y el 16 de septiembre
de 2006. Más información sobre esta obra en : <www.buenosairessonora.blogspot.com>
295
independientes, sino también trabajar el espacio acústico en forma integrada
virtual, como en el sistema surround propio del cine.
No se trató de una elección meramente técnica sino estética. Para la obra
se pretendía lograr un efecto inmersivo en el espectador, el que, por ejemplo,
debía, a través del sonido, sentirse dentro de una de las tantas manifestaciones
masivas ocurridas en la historia de la plaza principal de la vida política argen-
tina, mientras escuchaba, proviniendo del balcón de la Casa de Gobierno, los
discursos de los diferentes dirigentes que allí hablaron.
De todos modos, debido a la energía sonora involucrada y a la falta de
límites arquitectónicos, los sonidos de la obra se podían percibir con claridad
en toda la plaza. Y, según las variantes producidas en el tráfico circundante
(no se cortaron las calles aledañas durante la performance) la obra podía perci-
birse hasta dos o tres cuadras a la redonda. En ese límite, la conciencia sobre
el hecho artístico dependía totalmente de la información previa que tuviera el
transeúnte: si se trataba de un paseante ocasional y desinformado, la informa-
ción acústica que recibía podía, por ejemplo, llevarlo a la conclusión de que
en la Plaza de Mayo estaba ocurriendo una manifestación política real, y no la
recreación que proponía la obra.
El viernes 18 de octubre de 2002, entre las 19.30 y las 21, el compositor
Nicolás Varchausky realizó una intervención sonora de la Torre Monumental
(ex Torre de los ingleses), en Retiro, Buenos Aires.
En el día y la hora de mayor movimiento de personas y vehículos que
tiene esa zona de la ciudad, el tradicional reloj se transformaría, según
Varchausky en un “atalaya sonoro [...] que duplicará, restituirá y señalará los
sonidos que ocurren en la realidad”.10
Para lograrlo, el compositor ubicó cuatro columnas de sonido en sendas
ventanas ubicadas en cada una de las cuatro caras del monumento, a aproxima-
damente 15 metros de altura. Para cada cara-parlante de la torre, Varchausky
asignó diferentes materiales sonoros, tomados de la ciudad, en los que la voz
es la protagonista. Así, la cara oeste, que apunta hacia la avenida Figueroa
Alcorta y la barranca de Retiro, recibió en forma directa la grabación de un
pastor evangelista que suele predicar en la plaza Once. En la cara sur, que da
al hotel Sheraton, se escucharon las comunicaciones de la onda de radio de
las policías Bonaerense y Federal. Hacia el Este, zona de Aduana y portuaria,
reprodujo grabaciones de diversos músicos callejeros de la calle Florida.
Como los parlantes no eran visibles, se generaba una zona de confusión:
las voces que se escuchaban correspondían a un “aquí y ahora” (particular-
mente con la grabación correspondiente al predicador evangelista), pero
296
no se podía identificar con precisión el lugar de donde provenían. Esta
performance permitió comprobar una vez más que las características de la
zona de transición, esa que va de lo “real” a la “obra”, dependen no solo
del tipo de materia sonora involucrada (tanto de la intervención como del
paisaje circundante), como así también del grado de preaviso del espectador
o potencial espectador.
En Será Buenos Aires, el concierto citadino presentado por Barber en el
casco histórico de la ciudad de Buenos Aires, la difusión previa de carácter
masivo jugó un rol decisivo para, a la vez, convocar y prevenir a los paseantes
sobre la situación performática. Una vez más la zona de transición tuvo una
ubicación y tamaño diferente en función del preaviso o no del espectador. Es
una cuestión problemática y no menor: ¿se trata de que el público se tope con
la obra o que sea convocado?
Hay que recordar que la ocupación del espacio público, aunque sea acota-
da en el tiempo es una tentación para el mundo político. Como señala Omar
Corrado, quien participó de la experiencia como uno de los “campaneros” de
la obra de Barber:
Conclusiones
297
La composición debe incluir desde su génesis un estudio de la arquitectura
aural del espacio a ser intervenido, ya que desconocerlo puede llevar al fracaso
de la obra misma en lo que hace a su difusión y su recepción. El compositor
también debe renunciar a la idea de obra cerrada y bajo control.
La obra pierde casi inevitablemente su antiguo estatuto de existencia
como un todo “orgánico” y cerrado, para dar paso a una constelación de
posibles versiones finales que están representadas por las trayectorias y ubica-
ciones de cada uno de los espectadores.
El público es interpelado por las obras en espacios no tradicionales. Puede
continuar con el viejo hábito de la escucha estática, pero ya nadie asegura un
lugar ideal de escucha. En muchos casos, además, las obras invitan a un tipo
de audición “peripatética”, que fomenta recorridos individuales y activos en
la construcción de sentido alrededor de la obra percibida.
Por último se debe recordar que todas estas nuevas situaciones nada dicen
sobre el resultado sonoro de las obras en sí: mientras que Xenakis prefiere, por
ejemplo, configuraciones texturales de tipo estadísticos, como los trabajos con
clusters, nubes de sonido, etc., Barber apela a herramientas técnicas prove-
nientes del minimalismo para construir sus obras. La repetición de elementos
simples no es tan solo una cuestión operativa, esto es, de practicidad para
hacer sonar su música plurifocal. También es para Barber un comentario al
aire libre sobre su idea de una música no narrativa. Dice Corrado sobre Será
Buenos Aires, la versión porteña de su concierto de ciudad: “El fluir sonoro se
organiza en la sucesión de un número reducido de morfologías de base, que
reaparecen, con distintas modificaciones, en distinto orden, para señalizar
el transcurrir”.11 Estos materiales son recurrentes a lo largo de la obra, estas
morfologías “se encuentran fuertemente estructuradas en su textura, duración
y relación de éstas con el espacio. La consecuencia es una música no discursi-
va, hecha de bloques estáticos, en la que se perciben los ecos del pensamiento
temporal de Satie, Cage y el minimalismo”.12 Esta opción, sin embargo es
producto de una elección estética, que no es la única posible, aun dentro del
mismo dispositivo por él propuesto.
En el caso de la intervención de Nicolás Varchausky hay un espíritu
duchampiano en su decisión de no manipular las grabaciones emitidas en cada
cara de la torre de los ingleses. Prefiere hacer foco en el objeto en sí mismo,
ayudar a dirigir una mirada, que comentar desde el montaje dicho material.
Por el contrario, en la intervención de la Plaza de Mayo hay una idea de diá-
logo con el relato histórico-político disparado desde los documentos sonoros
11 Corrado (2001).
12 Corrado (2001).
298
históricos. Una vez más, se trata de decisiones basadas en premisas estéticas
diferentes, que resuelven, sin embargo, problemas comunes: el del diálogo
entre fuentes sonoras, público y arquitectura aural.
Bibliografía
299
Capítulo XII
Espacio y materia, de lo auditivo a lo corporal.
Apuntes sobre la composición de UOM y Entanglement
Juan Pampin
Introducción
1 El ciclo está compuesto por las obras Métal Hurlant (1996), Toco madera (1997), Skin
Heads (1998) y On Space (2000). Una nueva versión de On Space fue realizada en 2005
para la grabación del ciclo por el ensamble de percusión Les Percussions de Strasbourg, en
Estrasburgo, en enero de 2006.
2 Para una presentación detallada de Ambisonics, véase el capítulo v de este libro.
3 La definición de arte sonoro es problemática, en particular en su relación con la música.
Este tópico excede el marco de este libro; para una introducción al tema se sugiere la lectura
de LaBelle (2006).
301
uom
estilístico. Como se verá más adelante, esta distinción es importante puesto que el material
de la obra alude, alegóricamente, a la imposibilidad de hallar dicha condición de pureza en
la política, la cual parece reclamar siempre un grado de contaminación en su praxis.
7 Este capítulo del libro fue elegido no solo por ser el nudo de la narración de los hechos
que hace Walsh, donde describe las acciones posteriores al asesinato de Rosendo García,
sino también por sus múltiples alusiones al sonido. Por ejemplo, Walsh dice que tras caer al
piso derribado por un disparo, Rosendo “oyó el resto de los tiros que zumbaban sobre él”, y
más tarde, cuando cesó el tiroteo, “lo rodeó el tropel de pasos fugitivos”. También podría-
mos imaginar a Rosendo oyendo claramente la dirección del balazo que lo derrumbó y así
preguntarse “quién a su espalda, qué cuenta arreglada”. Si bien ninguna de estas referencias
sonoras fueron usadas de manera explícita en UOM, sí permitieron imaginar el paisaje sonoro
de la masacre, aludido en forma poética en el final de la obra.
8 Hecho jamás esclarecido por la policía argentina e investigado a fondo por el propio
302
Especificidad
Si bien UOM puede ser considerada una obra autónoma, que puede ejecutarse
en cualquier entorno sin dejar de funcionar musicalmente, es indudable que
su construcción en función de un espacio específico marcó su materialidad
y arquitectura musical. Su versión original, estrenada en la fábrica metalúr-
gica impa de Buenos Aires, fue creada para “resonar” de manera simbólica
y sonora con ese espacio fabril. Con este propósito en mente, di forma a un
material que pudiera desplegarse al interior del espacio de la fábrica de manera
“parasitaria”, aprovechando al máximo sus cualidades simbólicas y acústicas,
apelando a las múltiples conexiones semánticas que el oyente pudiera realizar
inmerso en ese sonido en ese lugar.9 El uso de un dispositivo electroacústico
Ambisonics dio soporte a esta estrategia, permitiendo crear un entorno sonoro
inmersivo dentro de la fábrica y la ilusión de que dichos sonidos pertenecían
a su paisaje sonoro.10 Otro aspecto de la obra relacionado con su especificidad
de sitio es la referencia a la uom y a su historial político a partir de la cita del
libro de Walsh, que en el contexto político y social en que la obra fue presen-
tada (septiembre de 2001) apuntaba claramente a la crisis de representación
política del gobierno de la Alianza, y a la vez a un problema central de la
democracia argentina posdictadura. De algún modo, uom como sonido, como
onomatopeya, funcionó como pre-eco trágico del estallido por venir.11
Walsh, en el que también murieron Domingo Blajaquis y Juan Zalazar, militantes de base
de la uom de Avellaneda.
9 El siguiente pasaje de la crítica de UOM que Federico Monjeau escribió para el diario Clarín
apunta a este efecto simbólico que plantea la obra: “La obra de Pampin trabaja con un mate-
rial que hoy también resulta dramáticamente referencial: un sonido de fundición, que crece
y se hace progresivamente más complejo [...] En términos concretos (en el extenso sentido
de esta palabra) dicho sonido no es más que una síntesis digital que nada tiene que ver con
el sonido de una fundición, pero que al ‘resonar’ en el espacio de la fábrica parece volverse
‘dramáticamente referencial’”. La versión completa de la crítica de Monjeau puede hallarse
en el archivo digital del diario Clarín, <http://www.clarin.com/diario/2001/09/07/c-00601.
htm>.
10 Esta estrategia fue reforzada también por la localización del espacio del concierto dentro
de la fábrica, que forzaba a los oyentes a subir en un montacargas y atravesar las instalacio-
nes, rodeados de maquinarias y pilas de metal, antes de escuchar la obra.
11 Fueron múltiples e inesperadas las reacciones que generó este aspecto de la obra, inclu-
yendo la reedición de debates políticos al interior de la uom (en particular respecto del rol
de Augusto Vandor en el asesinato de Rosendo García) que generaron una fuerte tensión
entre la conducción política de impa y los artistas, que casi resulta en la cancelación de los
conciertos. Por obvias razones de pertinencia y espacio me abstengo de allanarme aquí en
esta dimensión de la obra que probablemente demandaría un artículo en sí misma.
303
Dispositivo
0
30 330
60 300
90 270
120 240
150 210
180
12 El dispositivo electroacústico usado para difundir UOM fue consensuado con el compo-
sitor Nicolás Varchausky, quien en principio propuso una disposición en estrella de ocho
parlantes para su obra La Bonaerense/La Federal, que junto con UOM conformó el concierto
“La estrella federal” (título que hacía referencia a esta disposición de parlantes). La pro-
puesta original de Varchausky fue modificada levemente para adaptarse a la reproducción
Ambisonics de UOM, que requiere una distribución homogénea de las fuentes sonoras. Esta
modificación también ayudó a resolver algunos problemas de efecto de precedencia del
arreglo original.
304
Estos dos sistemas de parlantes funcionan de forma independiente, cada uno
de ellos con ecuaciones de decodificación adaptadas a su morfología.13 Esta
característica del dispositivo, con dos sistemas bidimensionales en lugar de
uno tridimensional, plantea un problema para la localización de sonidos con
ángulos de elevación intermedios (entre ambos sistemas), puesto que la señal
Z no pudo ser usada en la codificación en formato B.14 Para resolver este pro-
blema, fue necesario desarrollar ecuaciones de codificación modificadas que
tuvieran en cuenta el ángulo de elevación de los sonidos; este es el sistema de
ecuaciones utilizado para la codificación:
1
Wl = s ⋅ cos(γ ⋅ π 2)⋅
2
X l = s ⋅ cos(γ ⋅ π 2)⋅ cos(α)
Yl = s ⋅ cos(γ ⋅ π 2)⋅ sin(α)
1
Wu = s ⋅ sin(γ ⋅ π 2)⋅
2
X u = s ⋅ sin(γ ⋅ π 2)⋅ cos(α)
Yu = s ⋅ sin(γ ⋅ π 2)⋅ sin(α)
donde W1, X1, Y1 y Wu, Xu, Yu son las señales de formato B correspondientes a
los sistemas bidimensionales de parlantes, inferior y superior respectivamente;
s es la señal mono a codificar, α el ángulo de azimut (0 a 360 grados), y γ el
coeficiente de elevación (0 a 1). Nótese que para un valor de γ de 0 las señales
del sistema superior serían eliminadas, utilizando el sistema inferior ecuacio-
nes estándar de codificación en dos dimensiones. Un valor de γ de 1 derivaría
en la situación opuesta, con el sistema inferior eliminado y el superior uti-
lizando ecuaciones estándar de codificación bidimensional. Con valores de
γ entre estos límites, la energía de la señal a codificar sería repartida entre
ambos sistemas, codificando la fuente con igual intensidad en ambos sistemas
con un valor de γ de 0.5. Durante la difusión de la obra, cada una de las seña-
les de formato B es decodificada para su arreglo de parlantes correspondiente
usando matrices de decodificación estándar:15
13 Esto se debe a que no forman un poliedro Ambisonics estándar, que hubiese requerido
una distribución cúbica de los parlantes.
14 Para una presentación en detalle de la codificación Ambisonics en formato B, véase el
305
⎡ 1 1 ⎤
⎢ 1 ⎥
2 2
⎢ 1 1 ⎥ ⎡1 1 0⎤
⎢ 1 − ⎥ ⎢ ⎥
2 2 1 0 1⎥
L =⎢ ⎥ U =⎢
⎢ 1 1 ⎥ ⎢ 1 −1 0 ⎥
1 − −
⎢ 2 2 ⎥ ⎢ ⎥
⎢ ⎥ ⎣ 1 0 −1 ⎦
1 1
⎢ 1 − ⎥
⎣ 2 2 ⎦
Espacio y materia
16 Podríamos agregar que por más que trabajemos con un sistema Ambisonics, los parámetros
perceptivos de escucha de los oyentes seguirán siendo estereofónicos, y por consiguiente una
buena decodificación dependerá en gran medida de la creación de una imagen estereofónica
estable, sin la que sería muy difícil crear la ilusión de inmersión. Para una presentación en
detalle de técnicas estereofónicas, véase el capítulo iv de este libro.
17 El micrófono utilizado para estas grabaciones fue un Soundfield ST250. Para más infor-
306
granulación de un sonido de cualidades sonoras metálicas.18 El rango audible
de frecuencia fue dividido en 25 bandas correspondientes a las bandas críticas
de audición o la escala Bark,19 el sonido sintético fue procesado en forma indi-
vidual en cada banda usando un sistema de granulación en el cual cada grano
es codificado en formato B en forma independiente.20 La dispersión angular de
cada banda espectral fue controlada con un sistema de distribuciones estadísti-
cas, que permitió dar forma espacial a los flujos granulares concentrándolos en
ciertos puntos del espacio o esparciéndolos de manera difusa. El diagrama de
bloques de la figura 2 muestra un canal del sistema de síntesis y espacialización
usado en la obra.
18 La fuente de la mayor parte de estos sonidos sintéticos fue el análisis espectral realizado
con el programa ats (Pampin, 2004) de un sonido de gong proveniente de mi obra para
percusión y sonidos electrónicos Métal Hurlant (véase Di Liscia, 2005).
19 El sistema de análisis ats, utilizado para la obra, está basado en este modelo psicoacústico.
Una presentación detallada de este sistema de análisis puede verse en Pampin (2004). La
escala Bark y su relación a las bandas críticas fue introducida por E. Zwicker (1961). Una pre-
sentación más detallada y profunda de este tema puede hallarse en Zwicker y Fastl (1990).
20 Este procedimento es similar al utilizado en la sección “North” de On Space, la cual fue
compuesta a partir de un material metálico muy similar al del comienzo de UOM; la principal
diferencia es que mientras que en On Space el procedimiento de espacialización está basado
en un pricipio de transfomación de la señal Ambisonics de formato B (véase “Dominancia” en
el capítulo v de este libro), en UOM la espacialización fue realizada durante la codificación
misma de cada grano, generando texturas de mucha mayor densidad. Para una presentación
del sistema de espacialización usado para On Space véase Di Liscia (2005).
307
La primera mitad de la obra presenta una construcción por capas usando este
sistema, en la cual sucesivos estratos espectrales van cubriendo gradualmente el
espacio hasta esparcirse en todas direcciones a la manera de una niebla granular.
La figura 3 muestra diagramas polares de dispersión angular correspondientes a
cuatro momentos de la primera parte de la obra. La figura 3a, correspondiente
al comienzo, muestra un estrato que conforma una distribución espacial de tipo
hipercardioide apuntando hacia el Norte (0 grados). Espectralmente, este estra-
to está constituido por bandas de frecuencia de 16 a 20 Bark (cubriendo algo
más que una octava de 3.150 Hz a 7.700 Hz).21 La figura 3b, correspondiente
a dos minutos de la obra, muestra un incremento en la dispersión angular del
estrato anterior (A), que describe ahora una distribución espacial de tipo car-
dioide rotada 60 grados hacia el Este (300 grados en el diagrama polar). El eje
central de la distribución angular de este estrato (A) es usado como referencia
para la generación de nuevos estratos. En este gráfico pueden verse diagramas
polares correspondientes a otros dos nuevos estratos: B, con bandas espectrales
de 14 a 15 Bark (2.320 Hz a 3.150 Hz), y C, con bandas espectrales de 21 a 22
Bark (7.700 Hz a 12.000 Hz). Ambos estratos presentan distribuciones espacia-
les hiper-cardioides ubicadas a ±45 grados respecto del eje de referencia (estrato
A). La figura 3c, correspondiente a cuatro minutos de la obra, muestra las distri-
buciones espaciales de cinco estratos, puede verse que los estratos presentes en
el diagrama anterior (A, B y C) continúan aumentando su dispersión angular y
rotando en sentido contrario a las agujas del reloj (el eje de referencia, estrato
A, se encuentra ahora en 240 grados), se agregan a ellos dos nuevos estratos:
D, con bandas espectrales de 9 a 13 Bark (1.080 Hz a 2.320 Hz), y E, con una
banda espectral correspondiente a 23 Bark (12.000 Hz a 15.500 Hz); ambos
estratos conforman distribuciones espaciales hiper-cardioides a ±135 grados
respecto del eje de referencia (estrato A). La figura 3d muestra el estado de las
distribuciones espaciales de los distintos estratos hacia el final de la primera
parte de la obra (seis minutos); puede verse que la dispersión angular ha llegado
a su mayor punto en el estrato A, cubriendo casi por completo la circunferencia
espacial, y describiendo un patrón cuasi omnidireccional. Aparecen en este
gráfico dos nuevos estratos: F y G con bandas espectrales de 8 Bark (920 Hz a
1.080 Hz) y 24 Bark (15.500 Hz a 20 KHz) respectivamente, ambos describen
distribuciones espaciales hiper-cardioides a ±135 grados respecto del eje de refe-
rencia (que se encuentra ahora en 180 grados). Estos siete estratos abarcan un
total de dieciséis bandas críticas (cerca de cuatro octavas y media). A la par de
este proceso, en el cual los diversos estratos espectrales van revelándose gradual-
21Nótese que los valores en Bark indican la frecuencia central de las bandas críticas en
cuestión, y los valores en Hertz su ancho de banda.
308
mente y ocupando el espacio, cada uno de ellos sigue una evolución temporal
diferente, consistente en cambios lentos (no lineales) de amplitud y densidad
granular. Perceptivamente, esta evolución temporal insinúa la cadencia de una
respiración, donde los cambios que suceden en el interior del sonido se reflejan
en su superficie como paulatinos cambios de brillo e intensidad.
(a)
0
30 330
60 300
90 270 A
120 240
150 210
180
(b)
0
30 330
60 300
A
90 270 B
C
120 240
150 210
180
309
(c)
0
30 330
60 300
A
B
90 270 C
D
E
120 240
150 210
180
(d)
0
30 330
60 300
A
B
C
90 270 D
E
F
G
120 240
150 210
180
Figura 3. (Continuación)
Transformación
310
mera mitad de la obra, después de nueve minutos. A partir de allí las ocho
bandas críticas inferiores (de 0 a 7 Bark) son introducidas paulatinamente
y serán la base para la construcción del clímax y la articulación formal más
importante de la pieza, en la cual el sonido, hasta ahora morfológicamente
indefinido (similar al rumor de una maquinaria metálica), irá creciendo en
volumen hasta tomar la forma de una máquina de escribir. Esta transfor-
mación morfológica cumple una doble función: por un lado presenta una
metáfora sonora, mutando una máquina en otra (de la “fundición”22 a la
máquina de escribir), transfigurando el paisaje sonoro de la fábrica en el
espacio íntimo de la narración escrita del texto de Walsh. Por otro lado,
esta transformación marca también un cambio drástico en la difusión del
material sonoro, pasando de una textura difusa y envolvente, a una con
capas de sonidos claramente articulados y de localización espacial precisa,
creando la ilusión de que la máquina de escribir emerge de la niebla metálica
que la precede, develando así la presencia del narrador. La figura 4 muestra
un sonograma que comprende esta transformación y el crecimiento gradual
de energía que la antecede.
311
Puede verse en el sonograma que la transformación fue realizada por bandas,
mutando gradualmente las siete bandas de 14 a 21 Bark (que abarcan aproxi-
madamente dos octavas de 2.320 Hz a 9.500 Hz). A la par de esta mutación
espectral, un nuevo material aparece en el extremo superior del espectro cer-
cano a los 18 KHz, descendiendo luego en forma continua hasta los 13 KHz
y ocupando por completo la banda correspondiente a 23 Bark (de 12.000 Hz
a 15.500 Hz). Este material, una textura que en principio podría asimilarse
al sonido de un cristal roto, no es más que una decomposición del sonido de
la máquina de escribir, tomando solo parte de sus ataques y filtrándolos en el
registro indicado luego de someterlos a una granulación de altísima densidad.
Este proceso, que toma forma espacial en tres dimensiones, tiene una dura-
ción apenas superior a un minuto y culmina con la articulación normal de la
máquina de escribir cubriendo el total del espectro.
Después de esta transformación, en el final de la obra, los materiales irán
gradualmente dividiéndose en dos capas espaciales, una asignada al arreglo
de parlantes superior, con la máquina de escribir (ya articulada normalmen-
te) y restos de la textura metálica de la sección precedente que desaparecen
gradualmente, y otra asignada al arreglo de parlantes inferior con el texto de
Walsh narrado por una voz velada. Además de estar separadas en altura, estas
dos capas presentan también un contraste en su difusión espacial: la voz tiene
un carácter omnidireccional, mientras que la máquina de escribir, grabada
con un micrófono Ambisonics y casi sin procesamiento hacia el final de la
obra, presenta una imagen espacial clara que deja translucir el recinto en el
que fue grabada. La intención aquí fue la de superponer un espacio interno a
uno externo: la voz, que parece susurrar desde el interior de nuestras cabezas
(su carácter omnidireccional la vuelve también omnipresente), y la máquina
de escribir, que con su articulación revela el espacio físico en el que se escribe
el texto.
Reflexiones
312
LaBelle, 2006)– buscan la extensión del sonido más allá de los límites de la
audición, como una manera de transformar la experiencia sonora en algo
físico.
A nivel tecnológico, el trabajo con Ambisonics continuó siendo central
en esta búsqueda, tanto por sus posibilidades de control perifónico del sonido
como por sus capacidades de inmersión, pero no resultó suficiente para lograr
trascender la “esfera” creada por los parlantes. 23 Fue el trabajo con ultrasonido
lo que me permitió crear flujos espaciales altamente localizados que trascien-
den los límites del espacio virtual creado por los parlantes e ingresan al propio
espacio físico, yendo de una concepción puramente auditiva del espacio a una
que involucra lo corporal. La instalación sonora Entanglement (2008) fue el
primer trabajo artístico de dimensiones realizado con esta tecnología. En la
sección siguiente se presentan en detalle los componentes conceptuales y téc-
nicos de este trabajo, en particular los relacionados a las nociones de espacio
y cuerpo.
Entanglement
ambos estudiantes de doctorado del Center for Digital Arts and Experimental Media de
la Universidad de Washington. El título de la obra posee múltiples significados en inglés
(enredo, vínculo, red, etc.) que tornan difícil una traducción literal al castellano. Podríamos
decir que el título hace referencia a la manera en que la percepción auditiva de los partici-
pantes de la obra queda atrapada en una red interactiva que involucra también a su cuerpo,
vinculándolo con el de otros participantes a la distancia.
313
construcción acústica que es solo perturbada por los visitantes de la instala-
ción, quienes con sus cuerpos pueden bloquear –en forma total o parcial– su
flujo sonoro continuo. La interacción física con este flujo sonoro tiene como
resultado la dispersión de sus partículas granulares en todo el espacio de la
galería, produciendo localmente un estado acústico inmersivo. Al mismo
tiempo, una sombra acústica, resultante del bloqueo parcial o total del flujo, es
proyectada telemáticamente en el otro sitio, produciendo una discontinuidad
sonora. Podríamos decir que Entanglement explora la idea de “tele-ausencia”
(en lugar de “tele-presencia”, véase Ascott, 1990; 2003) usando un canal
acústico virtual para proyectar remotamente una presencia inmaterial de sus
visitantes.
Lugar
25 Este concepto de lugar debe ser entendido como unidad espacial. Esta idea es muy cercana
a la que Juan José Saer presenta en su literatura y está apoyada en su concepto de “zona”.
Sobre este tema se recomienda la lectura de Premat (2002).
26 El diseño de estas estructuras fue realizado en gran parte por Eunsu Kang.
27 El micrófono capta además una señal de ultrasonido que es usada como parámetro de
314
Figura 5. Imágenes de la instalación: a) estructura con emisor ultrasónico, b) estructura
con receptor (micrófono)
Flujo
315
atraviesa longitudinalmente a ambos sitios. Este flujo es creado a partir de un
haz de ultrasonido proyectado desde uno de los extremos de la sala. Una de las
propiedades del ultrasonido es que, debido a su largo de onda (aproximadamen-
te 1,7 cm o menor), tiene un patrón de radiación altamente direccional, como
puede apreciarse en el diagrama de radiación polar de la figura 6.
Creando patrones de interferencia (o batidos) en el rango del ultraso-
nido pueden generarse sonidos dentro del rango audible y aprovecharse las
características del ultrasonido para construir transductores de audio altamente
direccionales.29 Por ejemplo, dos sonidos sinusoidales de 40 y 41 KHz respec-
tivamente, transmitidos desde una misma fuente acústica con alto nivel de
presión sonora (mayor a 100 dB SPL) pueden producir un sonido diferencial
audible y altamente localizado de 1 KHz (y otro inaudible de 81 KHz). Una
manera sencilla de producir este efecto con una señal de audio de banda ancha
(no sinusoidal) es usando una portadora ultrasonora (a 40 KHz, por ejemplo)
que sea modulada en amplitud por la señal de audio a reproducir. Por cada
componente en la señal de audio se producirán bandas laterales alrededor de
la portadora creando copias en espejo del espectro del sonido en el rango del
ultrasonido. Una vez transmitida esta señal compuesta a través de un trans-
ductor ultrasonoro, el aire actúa como demodulador haciendo audible la señal
de audio moduladora.30 Además de su alta concentración espacial de energía,
produciendo solo un área estrecha dónde el sonido es perceptible, este tipo de
haz sonoro tiene también la particularidad de ser altamente reflectivo. Esta
otra característica del ultrasonido es aprovechada en la obra para crear la ilu-
sión de que las partículas granulares que constituyen el flujo sonoro refractan
del cuerpo de la persona que lo interrumpe, esparciéndolas en el espacio de la
instalación. La siguiente sección se refiere a este aspecto de la obra.
Perturbación
29 Los efectos no lineales producidos en el aire por ultrasonido de alto nivel fueron estu-
diados en la década de 1960 por P. Westervelt (Westervelt, 1963), quién acuñó el término
arreglo acústico paramétrico para describir este tipo de transductor. Para una historia detallada
del arreglo acústico paramétrico se recomienda la lectura del artículo de divulgación publica-
do por la empresa atc (Croft y Norris, 2001).
30 Debe notarse que este esquema de modulación tiene algunos problemas de distorsión
espectral debido a la intermodulación de las bandas laterales. Para una discusión en detalle
acerca de métodos de modulación más eficientes ver Barbagallo, Kleiner, y Sarti (2008).
316
0
20 340
0
40 320
-6
60 -12 300
-18
80 -24 280
-30
120 240
140 220
160 200
180
densidad que solo es percibido cuando se lo atraviesa.31 Una vez dentro del área
afectada por el flujo sonoro, el cuerpo del participante actúa como un objeto
perturbador, difractando parte de las partículas granulares, bloqueando así su
trayectoria hacia el otro sitio en forma total o parcial. De esta manera, una per-
turbación local del flujo sonoro produce una remota, cambiando las condiciones
acústicas del otro sitio. Podríamos decir que desde la perspectiva del otro sitio, la
perturbación local del flujo sonoro es percibida como una sombra acústica: una
presencia acusmática fantasmagórica (véase la sección siguiente).
Desde un punto de vista técnico, la ilusión de perturbación es crea-
da mediante la interacción de un haz ultrasónico y un sistema de sonido
Ambisonics. El haz ultrasónico emitido desde un lado del recinto es captado
por un micrófono en el extremo opuesto del mismo. La amplitud del haz es
analizada por un agente informático que produce una señal de control, utili-
zada para medir el nivel de interrupción del flujo sonoro. Esta métrica es apli-
cada a múltiples parámetros del sistema, produciendo un intercambio sonoro
entre el haz ultrasónico y el arreglo Ambisonics. Por ejemplo, al atravesar los
límites del área cubierta por el flujo sonoro, el cuerpo del participante produce
31 Al entrar a uno de los sitios, los participantes pueden oír solo un rumor de este sonido,
mayormente debido a su refracción. La relación de nivel entre este reflejo y el sonido direc-
to (medido dentro del haz de ultrasonido) es de al menos 70 dB.
317
una discontinuidad en la señal de control; según el nivel de esta disconti-
nuidad un mayor o menor número de partículas granulares son emitidas por
el sistema Ambisonics, produciendo una ilusión de difracción e inmersión.
También el patrón de dispersión y la densidad de estas partículas granulares
es controlado con este parámetro, yendo de un patrón cardioide con alta den-
sidad granular (complementario al flujo sonoro) a un patrón omnidireccional
con baja densidad, para niveles de perturbación bajos y altos respectivamente.
Este sistema de control multidimensional usa un mapeo paramétrico no lineal
que controla a su vez un reverberador artificial para crear la ilusión de un cam-
bio dinámico del tamaño del recinto. La figura 7a muestra la señal de control
para diferentes niveles de bloqueo del flujo sonoro. La figura 7b muestra la
curvas de correspondencia de los diferentes parámetros del sistema en función
de la señal de control. La curva a controla la densidad granular del sonido, el
rango de este parámetro va de 10 granos/seg (a = 0) a 100 granos/seg (a = 1).
La curva b controla la dispersión angular de los granos, el patrón polar de la
dispersión está dado por la siguiente ecuación:
318
(a)
0.8 B
nivel del flujo
0.2 A
0 5 10 15 20 25
tiempo (s)
(b)
0.8
0.6 a
mapeo
b
c
0.4 d
0.2
Figura 7. a) Señales de control para diferentes niveles de bloqueo del flujo sonoro; b) cur-
vas de correspondencia paramétrica en función de la señal de control: a. densidad granular,
b. dispersión angular, c. nivel de reverberación, d. nivel del sistema Ambisonics
319
Teleausencia
Mediante la exploración del espacio acústico de uno de los sitios, los partici-
pantes transforman el paisaje sonoro de la instalación tanto local como remo-
tamente. Su presencia en uno de los sitios es transferida al otro a través del
sonido o, más precisamente, del silencio, mediante la interrupción del flujo
sonoro continuo, creando una sombra acústica. La obra explora el principio
de “teleausencia” mediante el uso de un canal acústico virtual que proyecta
esta presencia incorpórea de los participantes de un sitio a otro a través de
internet.
Técnicamente, este sistema telemático consiste de un agente de emisión
de audio por internet que transmite el sonido capturado por un micrófono
usando un canal dedicado. Este canal es sintonizado por un agente de recep-
ción en el sitio remoto; el sonido recibido a través de la red es decodificado,
procesado y luego emitido por el transductor ultrasonoro local. Debe notarse
que solo si el haz es bloqueado completamente en ambos sitios –creando una
sombra acústica en espejo– se abrirá en el sistema un canal de comunicación
bidireccional, intercambiando el sonido de ambos sitios a través del flujo
ultradireccional.32 Esta nueva capa del sistema, que solo es revelada en situa-
ciones especiales, es extremamente delicada ya que al menor movimiento de
los cuerpos fuera del área de incidencia del flujo sonoro el sistema tenderá a
retornar a su estado de equilibrio, cerrando el canal de comunicación. Este
componente interactivo involucra el cuerpo de los participantes de manera
radical, ya que solo forzando la interrupción del flujo sonoro, quebrando el
fluir con su cuerpo, y permaneciendo inmóviles a ambos lados del canal,
podrán los participantes atravesar la distancia acústica que los separa y esta-
blecer comunicación.
Conclusiones
32Este canal es a su vez afectado por líneas de retardo que simulan la distancia “acústica”
entre ambos sitios, introduciendo un retardo temporal similar al que ocurriría si pudiéramos
proyectar nuestra voz a dos kilómetros de distancia.
320
esta red tiene un número limitado de componentes, la interacción local y
remota, aislada o simultánea, vuelven al sistema impredecible en términos de
su comportamiento: estando la interacción de los participantes con el medio
ambiente de la instalación basada en la retroalimentación del sonido entre
ambos sitios, pueden emerger del sistema estados acústicos imprevistos. Este
es un punto importante de destacar, el cual está relacionado directamente
con el título de la obra, que hace referencia a la manera en que la percepción
auditiva de los participantes se encuentra atrapada en una red interactiva que
involucra también su cuerpo: no hay manera de separar el acto de oír del acto
de enmascarar y viceversa.
Es interesante comparar este sistema abierto con el sistema cerrado que
constituye UOM, en el cual los oyentes no tienen una participación activa:
su presencia física es necesaria pero no central en la construcción de la obra
como lo es en el caso de Entanglement. Podríamos decir que UOM es una obra
musical con una narrativa espacial de sitio específico, es decir que su conte-
nido material resuena política y acústicamente con su espacio de ejecución
(la fábrica metalúrgica). Esta narrativa espacial difiere de la de Entanglement,
donde la propia experiencia espacial de los participantes se ve continuamente
sometida a modificaciones a través de un lazo de retroalimentación interac-
tivo, que involucra tanto lo auditivo como lo corporal. Es importante notar
también que hay algo paradójico en esta interacción: en nuestro intento por
oírlo, nuestro cuerpo perturba o destruye el flujo sonoro que es eje del sistema,
transformando en el mismo acto la acústica del espacio de audición.
Por otra parte, ambas obras están basadas en la transformación dinámica
del espacio y la materia, utilizando materiales y procedimientos electro-
acústicos muy similares pero en escalas temporales totalmente diferentes.33
Mientras que UOM presenta una arquitectura material y espacial que se articu-
la gradualmente a lo largo de dieciocho minutos, las articulaciones morfológi-
cas de Entanglement suceden en una escala temporal más cercana a la cadencia
de nuestros movimientos corporales, revelando transformaciones sonoras más
lentas cuando la interacción con el sistema es prolongada o si el participante
decide mantenerse estático bloqueando el flujo central de la obra.34 De esta
33 Los materiales de base utilizados para Entanglement provienen de objetos de vidrio y cerá-
mica destruidos a martillazos. A diferencia de los sonidos metálicos de UOM, estos sonidos
pierden completamente su identidad material al ser transformados digitalmente, siendo
imposible reconocer su origen, solo conservando algunas de sus características morfológicas
y su contenido espectral global.
34 Este aspecto del sistema fue utilizado de manera extensa en una segunda versión de la obra
producida para el museo Ssamzie Space, en Corea. En esta versión, los participantes que
bloqueaban el flujo sonoro por un largo período de tiempo eran recompensados con una muta-
321
manera lo formal está también ligado a lo corporal y a lo físico, y no solo a
lo auditivo.
Desde un punto de vista técnico, el trabajo en simultáneo con ultrasonido
y Ambisonics permitieron la construcción de un sistema que es mayor a la
suma de sus partes. La alta granularidad espacial que permite el uso de un haz
de ultrasonido fue combinada con la capacidad de inmersión de Ambisonics
y sus posibilidades de control de la direccionalidad del sonido para crear un
sistema dinámico que pudiera transformar rápidamente el espacio acústico
en función de la interacción de los participantes de la instalación. La inte-
gración de ambas tecnologías permitió también homogeneizar la experiencia
acústica de la obra: la refracción de partículas granulares en los cuerpos de
los participantes fue acentuada por reflejos tempranos presentes en el sistema
Ambisonics; también los cambios de dispersión angular fueron dramáticamen-
te acentuados por la transición de un sistema de reproducción al otro. Podría
pensarse en maneras de extender este campo de integración entre ambas
técnicas para la creación de entornos interactivos de mayor granularidad espa-
cial, utilizando múltiples haces de ultrasonido en simultáneo con un sistema
Ambisonics de segundo o tercer orden.35 Además de una mayor agudeza en la
reproducción espacial, un sistema como este –en combinación con un sistema
de control similar al usado en Entanglement– permitiría una partición más
fina del espacio físico, utilizando los haces ultrasonoros para la detección del
movimiento y la localización de los participantes. Nuestros presentes trabajos
de investigación están dedicados a indagar en las posibilidades artísticas de
este tipo de sistemas.
Bibliografía
ción gradual del sonido que terminaba inundando el espacio por completo con una textura
de gran densidad e intensidad.
35 De esta manera podrían alinearse aun más los patrones polares de radiación de ambos sis-
temas de reproducción. Para una descripción de los sistemas Ambisonics de segundo y tercer
orden, y sus ecuaciones de codificación y decodificación, véase el capítulo v de este libro.
322
Bamford, J. S. (1995), “An Analysis of Ambisonic Sound Systems of First
and Second Order”, tesis de maestría, Waterloo University, Ontario,
Canadá.
Barbagallo, M., M. Kleiner y A. Sarti (2008), “Modulation and Demodulation
of Steerable Ultrasound Beams for Audio Transmission and Rendering”,
Proceedings of the 11th International Conference on Digital Audio Effects
(DAFx-08), Espoo, Finlandia.
Blauert, J. (1997), Spatial Hearing, Cambridge, mit Press.
Blesser, B. y L. R. Salter (2007), Spaces speak, are you listening?: Experiencing
aural architecture, Cambridge, mit Press.
Burnham, J. (1974), “Systems Esthetics”, Great Western Saltworks, Nueva
York, George Braziller.
Croft, J. J. y J. O. Norris (2001), Theory, History, and the Advancement of Parametric
Loudspeaker, (libro blanco del) American Technology Corporation (atc)
en <http://atcsd.com/pdf/HSSWHTPAPERRevE.pdf>.
Di Liscia, O. P. (2005), “Los modos de vínculo de la espacialidad del sonido
con la poiesis de la música electroacústica”, tesis doctoral, Facultad de
Humanidades y Artes, Universidad Nacional de Rosario.
Forsyth, M. (1985), The Architect, The Musician, and the Listener from the
Seventeenth Century to the Present Day, Cambridge, mit Press.
Kahn, D. (1999), Noise, Water, Meat: A History of Sound in the Arts,
Cambridge, mit Press.
Kendall, G. S. (1995), “A 3-D Sound Primer: Directional Hearing and Stereo
Reproduction”, Computer Music Journal, 19:4, Cambridge, mit Press.
—— (1995), “The decorrelation of Audio Signals and its impact on Spatial
Imaginery”, Computer Music Journal, 19:4, Cambridge, mit Press.
LaBelle, B. (2006), Background Noise: Perspectives On Sound Art, Nueva York,
Continuum International.
Malham, D. G. (1998), “Approaches to Spatialisation”, Organized Sound, 3:2,
Cambridge University Press.
—— y M. Anthony (1995), “3-D Sound Spatialization using Ambisonic
Techniques”, Computer Music Journal, 19:4, Cambridge, mit Press.
Pampin, J. (2004), “ATS: A System for Sound Analysis, Transformation,
and Synthesis Based on a Sinusoidal Plus Critical Band Noise Model”,
Proceedings of the 2004 International Computer Music Conference, Miami,
International Computer Music Association.
——, J. S. Kollin y E. Kang (2007), “Applications of Ultrasonic Sound Beams
in Performance and Sound Art”, Proceedings of the 2007 International
Computer Music Conference, Copenhagen, International Computer
Music Association.
323
——, O. P. Di Liscia, W. Moss y A. Norman (2004), “ATS User Interfaces”,
Proceedings of the 2004 International Computer Music Conference, Miami,
International Computer Music Association.
Premat, J. (2002), “Saer fin de siglo y el concepto de lugar”, Foro hispánico,
vol. 24, Rodopi.
Rumsey, F. (2001), Spatial Audio, Oxford, Focal Press.
Schulz, B. (2002), Resonances: Aspects of Sound Art, Heidelberg, Kehrer
Verlag.
Tschumi, B. (1996), Architecture and Disjunction, Cambridge, mit Press.
Walsh, R. (1969), ¿Quién mató a Rosendo?, Buenos Aires, Tiempo contem-
poráneo.
Westervelt, P. J. (1963), “Parametric Acoustic Array”, Journal of the Acoustical
Society of America, vol. 35, N° 4, abril de 1963.
Wishart, T. (1985), On Sonic Art, York, Imagineering Press.
Zwicker, E. (1961), “Subdivision of the audible frequency range into critical
bands (Frequenzgruppen)”, Journal of the Acoustical Society of America,
vol. 33, N° 2, febrero, p. 248.
—— y H. Fastl (1990), Psychoacoustics Facts and Models, Berlín, Springer.
324
325
326
colofón
327
328