El Vocoder fue el primer compresor-descompresor de voz que se quiso utilizar para transmisiones telefnicas trasatlnticas. Pretenda optimizar los recursos fsicos limitados, los cables, comprimiendo la voz para transmitir ms comunicaciones por ellos. Homer W. Dudley fue el tcnico de los laboratorios Bell encargado de desarrollar el proyecto. El artculo describe las etapas de anlisis y razonamiento que emple Dudley. Con el estudio de la articulacin vocal, el anlisis espectral de los sonidos y unas imaginativas propuestas consigui que el aparato funcionase. El Vocoder fue utilizado como sintetizador de voz y favoreci los estudios de fontica.
Inmediatamente se sinti sorprendido ante la naturaleza de la voz del prototipo LNE. Tena un timbre como jams lo tuvo ninguna voz de robot que l hubiera odo (y haba odo muchas). Formaba slabas como el campanillo de un carilln de tono bajo. Esto era tan sorprendente que el tcnico tard unos momentos en or, las slabas formadas por esos sonidos celestiales. Eran: Da, da, da gu. Lenny. Isaac Asimov. (en Los soadores expertos 1969)
l Vocoder fue un compresor de voz analgico para canales telefnicos construido en los aos treinta. Qu originales hiptesis sobre la voz humana pudieron llevarlo a cabo?, cmo era el diseo electrnico que lo materializ? En los aos veinte, AT&T, ante la creciente demanda de servicios telefnicos, dese extender la red telefnica a travs del Atlntico con cables submarinos. Inventara el primer compresordescompresor de voz, el Vocoder para aumentar el nmero de conversaciones en las lneas. El aparato abri las puertas a otras nuevas investigaciones: la sntesis artificial del habla. Cmo se desarroll este importante hito cientfico y tecnolgico?
Retrato de Homer W. Dudley. Por el Dr. John Ohala. Cortesa del Departamento de Lingstica de la Universidad de Estocolmo.
24
que la invencin del aislante de polietileno protegiese los cables de la accin del agua marina. La red submarina fue posible a partir de 1956. En la red telefnica, los caminos de transmisin y recepcin necesitan separarse para comprimir en un extremo y descomprimir en el otro, Figura 1. Esto incrementara la complejidad y el coste del proyecto.
sitan en ambos. La vibracin (tono larngeo o frecuencia fundamental) constituye un elemento fijo pero las variaciones de la tensin muscular, que modifica la frecuencia, son elementos variables. La hiptesis de Dudley para afrontar la posibilidad de la compresin consideraba que el habla tiene un grado de prediccin que genera el oyente segn va escuchando. Este factor predecible se podra suprimir en el transmisor y regenerar en el receptor, antes de entregar el mensaje al oyente. La consecuencia sera la disminucin de la informacin y el ancho de banda. El problema era identificar dicho factor. Qu propiedades constitutivas del habla son prescindibles?
EL MODELO ELCTRICO
Harvey Fletcher describi en su libro Speech and Hearing publicado en 1929, un circuito elctrico similar al rgano fonador: la seal de un oscilador armnico, elemento fijo, era moldeada por filtros que se seleccionaban con conmutadores, elementos variables, para producir el sonido adecuado.
no, su componente principal es ruido (por ejemplo, los sonidos fricativos u oclusivos). El smil elctrico de Fletcher se complicaba, era necesario aadir un generador de ruido para los sonidos sordos. Dudley dividi el espectro completo, Figura 2, en dos modelos conceptuales: 1) El espectro discreto como una subbanda acotada alrededor el tono larngeo y sus armnicos. 2) El espectro continuo como un conjunto de subbandas que divide la banda vocal. Consider a priori diez subbandas. El siguiente paso fue el anlisis dinmico, la variacin de la energa sonora en las subbandas a lo largo del tiempo. Como resultado enumer una serie de caractersticas constantes y variables. Entre las primeras: a) Una distribucin de energa sensiblemente constante en determinadas subbandas. b) La presencia de una frecuencia espectral que alterna desde el espectro continuo al discreto con ligeras variaciones de la posicin de la fundamental. c) Las variaciones de la frecuencia fundamental y la energa ocurren en los intervalos silbicos. Entre las segundas: d) Cambios bruscos del promedio de energa en cada subbanda. e) La naturaleza de la onda de tono larngeo que es una magnitud de la frecuencia fundamental tanto en generacin del espectro continuo como en el discreto.
Posicin de labios y lengua para sonidos voclicos. Fletcher, Harvey. Speech and hearing. Ed. D. Van Nostrand Co. Nueva York, 1929.
25
Dudley haba encontrado los elementos prescindibles: eran las caractersticas constantes de la dinmica del habla que aparecan en sus modelos espectrales. Sera suficiente transmitir solo las variaciones de determinados parmetros extrados de la voz. En el circuito compresor, un analizador realizara esta funcin. En el descompresor, un regenerador aportara las caractersticas constantes para completar el mensaje sonoro al oyente.
ESBOZANDO EL CIRCUITO
Dudley defini unos patrones funcionales que le ayudasen a concebir el circuito analizador: el patrn de frecuencia y el patrn de amplitud. El patrn de frecuencia distribuir la energa sonora segn el modelo espectral y el patrn de amplitud lo har segn el modelo continuo. En el receptor, la actuacin conjunta de ambos patrones reconstruir el espectro original. Concibe estos patrones como mdulos que simplificarn el diseo de los circuitos (bloques verdes y naranjas de las figuras).
El siguiente paso fue averiguar cunto tiempo invierte cada elemento activo en completar un ciclo de cambio de posicin. Fletcher, aos antes, ya film pelculas del movimiento de los labios, los dientes, la lengua, etc. durante el habla. Efectuaban hasta 10 ciclos por segundo. El producto de las variables independientes (10) por el tiempo (10 cps) proporciona las combinaciones posibles en que pueden interactuar. El ancho de banda mnimo para transmitir toda la informacin sera 100 cps. Las pruebas posteriores en el laboratorio demostraron valores adecuados desde 350 cps hasta 600 cps. Por lo tanto, el espectro vocal poda reducirse a 350 Hz.
PROYECTO VOCODER
1) La presin del aire durante la espiracin. 2) Las cuerdas vocales. 3) La parte posterior de la cmara bucal. 4) La parte anterior de la cmara bucal. 5) La apertura y cierre de atrs hacia delante de la cmara bucal. 6) La apertura de la boca. 7) La cmara de resonancia nasal. 8) La posicin del velo del paladar y la vula. 9) La posicin y oclusin de los labios y dientes. 10) Apertura de la boca en las consonantes fricativas. Estos parmetros los tom como variables independientes que intervienen en la produccin de los sonidos. Regulan la cantidad de energa en relacin con la frecuencia y su actuacin queda reflejada en las subbandas. Las diez subbandas que consider a priori surgen como una equivalencia de estas variables. El proyecto se denomin Vocoder, Voice Operated reCOrDER y lleg a patentarse con el n US 2.151.091, Figuras 3-A y 3-B. La descripcin es la siguiente.
LA COMPRESIN DE LA VOZ
Pero... Cul es el ancho de banda mnimo en que puede comprimirse la voz manteniendo la inteligibilidad del mensaje reconstruido? La calidad del mensaje se entenda como la identificacin del sujeto hablante por parte del oyente. Dudley vuelve a recurrir a los fonetistas. Primero, partiendo de los rasgos fonticos como son los tipos de sonidos: vocales, semivocales y las consonantes; los modos de articulacin: oclusivas y fricativas; o la sonoridad: sonoras y sordas, enumer los parmetros que los crean:
Esquema de un circuito para producir sencillos sonidos voclicos. Fletcher, Harvey. Speech and hearing. Ed. D. Van Nostrand Co. Nueva York, 1929.
26
filtrando la salida de un multivibrador controlado por un oscilador patrn de 60 Hz. Los filtros C0-C10 evitan los solapamientos. Las portadoras moduladas se suman en el amplificador AL para transmitir este nuevo espectro reducido por el enlace telefnico. Para la demodulacin se enva una seal patrn de 60 Hz.
pasar una parte proporcional de frecuencia que proviene de la fuente patrn. La recuperacin total del ancho de banda se realiza en el amplificador AL y se entrega a un altavoz.
El ecualizador E0 y el detector D0 realizan una conversin de frecuencia en tensin. Un filtro FS0 acota el ancho de banda. En las ramas de amplitud, PA1-PA10 (naranja), el ecualizador E1 mantiene el nivel original del micrfono. Los filtros F1 -F10 crean las subbandas y los detectores D1-D10 de cada una traducen las variaciones de energa en tensin. En el compresor (bloques azules), las tensiones de los canales modulan las portadoras, f0-f10. Las portadoras se extraen
LA VOZ DE LA LLUVIA
Hacia 1939 Dudley simplific el Vocoder, Figuras 5 y 6. Suprimi los moduladores y demoduladores e investig la regeneracin vocal. Para la correcta reconstruccin del espectro los filtros del regenerador deben ser iguales a los del analizador, pero qu ocurre si se altera esta concordancia? Hubo muchos experimentos. Cuando un canal se intercambiaba por el adyacente provocaba la confusin entre algunas slabas. Si algunas subbandas se
Artculo sobre el Vocoder en la revista Science News Letter en enero de 1939. Cortesa del archivo fotogrfico del Science Service de Smithsonian Institution.
27
supriman, la voz se escuchaba sin timbre, artificial. Variando la frecuencia del oscilador patrn o alterando la banda de paso de los filtros, la energa apareca en tonos ms agudos o ms graves, resultaba que una voz varonil poda convertirse en femenina o infantil y viceversa. Los filtros podan modificar la voz hasta convertirla en susurros o gruidos. El Vocoder permiti mezclar sonidos. Las fuentes de frecuencia se podan sustituir por un tocadiscos u otro micrfono. Los sonidos de la lluvia, del oleaje, las cataratas, el motor de un avin, el trino de aves o instrumentos musicales, previamen-
te grabados en un disco, eran modelados por la voz humana creando efectos que poticamente describi Dudley como la voz de la lluvia las conversaciones de las hojas de otoo. Propuso su aparato para la creacin de efectos sonoros en el cine.
Modulation, PCM). Durante la Segunda Guerra Mundial, el Vocoder, junto con circuitos PCM, particip como encriptador de comunicaciones secretas del ejrcito aliado. Despus de la guerra, el Vocoder en Europa, se uni a la plyade de instrumentos electrnicos musicales contribuyendo a la nueva exploracin sonora y esttica. A partir del diseo del Vocoder, Dudley cre el primer sintetizador verdadero de voz: el Voder. Pero esto son otras historias. q
REFERENCIAS
AT&T. http://www.att.com/history/index. html BELL SYSTEM. http://www.bellsystemmemorial.com/about.html BELL TELEPHONE LABORATORIES. http://www.bell-labs.com/about/history/index.html DUDLEY, Homer W. Estados Unidos patente nm. 2.151.091. Signal transmission. Asignada a Bell Telephone Laboratories, Nueva York, Nueva York. Solicitud: 30 octubre 1935. Pblica: 21 marzo 1939. DUDLEY, Homer W. Estados Unidos patente nm. 2.243.089. System for the artificial production of vocal or other sounds. Asignada a Bell Telephone Laboratories, Nueva York, Nueva York. Solicitud: 13 mayo 1939. Pblica: 27 mayo 1941. FLETCHER, Harvey. Speech and hearing. Ed. D. Van Nostrand Co. Nueva York, 1929. 331 pginas. MARTINEZ Celdrn, E. Fontica. Editorial Teide, Barcelona 1994.
28