Anda di halaman 1dari 5

REPORTAJE

El Vocoder fue el primer compresor-descompresor de voz que se quiso utilizar para transmisiones telefnicas trasatlnticas. Pretenda optimizar los recursos fsicos limitados, los cables, comprimiendo la voz para transmitir ms comunicaciones por ellos. Homer W. Dudley fue el tcnico de los laboratorios Bell encargado de desarrollar el proyecto. El artculo describe las etapas de anlisis y razonamiento que emple Dudley. Con el estudio de la articulacin vocal, el anlisis espectral de los sonidos y unas imaginativas propuestas consigui que el aparato funcionase. El Vocoder fue utilizado como sintetizador de voz y favoreci los estudios de fontica.

Inmediatamente se sinti sorprendido ante la naturaleza de la voz del prototipo LNE. Tena un timbre como jams lo tuvo ninguna voz de robot que l hubiera odo (y haba odo muchas). Formaba slabas como el campanillo de un carilln de tono bajo. Esto era tan sorprendente que el tcnico tard unos momentos en or, las slabas formadas por esos sonidos celestiales. Eran: Da, da, da gu. Lenny. Isaac Asimov. (en Los soadores expertos 1969)

El Vocoder: la voz de la lluvia


Luis Fernando Real Martn, Ingeniero Tcnico de Telecomunicaciones, lrealmar@gmail.com

l Vocoder fue un compresor de voz analgico para canales telefnicos construido en los aos treinta. Qu originales hiptesis sobre la voz humana pudieron llevarlo a cabo?, cmo era el diseo electrnico que lo materializ? En los aos veinte, AT&T, ante la creciente demanda de servicios telefnicos, dese extender la red telefnica a travs del Atlntico con cables submarinos. Inventara el primer compresordescompresor de voz, el Vocoder para aumentar el nmero de conversaciones en las lneas. El aparato abri las puertas a otras nuevas investigaciones: la sntesis artificial del habla. Cmo se desarroll este importante hito cientfico y tecnolgico?

CABLES SUBMARINOS Y COMPRESORES DE VOZ


Las comunicaciones telefnicas de principios de siglo XX demostraron que no era necesario transmitir todo el ancho de banda vocal para entender los mensajes. Si la energa se concentra principalmente entre 200Hz y 3.000 Hz: cunto ms se podra comprimir el espectro sin perder inteligibilidad?, sera tcnicamente posible? AT&T deseaba responder a estas preguntas y afrontar el nuevo reto para desarrollar su proyecto de redes transatlntica. En 1928 encarg a Homer W. Dudley que investigase la compresin de voz en el departamento Speech and Hearing de los Laboratorios Bell. A pesar de los esfuerzos, hubo que esperar a

Retrato de Homer W. Dudley. Por el Dr. John Ohala. Cortesa del Departamento de Lingstica de la Universidad de Estocolmo.

24

Antena de Telecomunicacin / SEPTIEMBRE 2008

Figura 1. Compresor y descompresor de voz en una lnea telefnica.

que la invencin del aislante de polietileno protegiese los cables de la accin del agua marina. La red submarina fue posible a partir de 1956. En la red telefnica, los caminos de transmisin y recepcin necesitan separarse para comprimir en un extremo y descomprimir en el otro, Figura 1. Esto incrementara la complejidad y el coste del proyecto.

MODELOS DE SISTEMA VOCAL


El primer paso de Dudley fue conocer los rganos fonadores humanos. La fontica de la poca era conocida como articulatoria, porque se crea que la posicin y el lugar donde los rganos se colocan durante la pronunciacin, punto de articulacin, era la base del habla (la teora de formantes o fontica acstica la sustituy en los aos cincuenta). Las partes fisiolgicas se dividen en dos grupos: los elementos variables o activos, cuya posicin vara desde la produccin de un sonido a otro como son los labios, los dientes o la lengua y los elementos fijos como la cavidad nasal, la laringe o la faringe. Las cuerdas vocales se

sitan en ambos. La vibracin (tono larngeo o frecuencia fundamental) constituye un elemento fijo pero las variaciones de la tensin muscular, que modifica la frecuencia, son elementos variables. La hiptesis de Dudley para afrontar la posibilidad de la compresin consideraba que el habla tiene un grado de prediccin que genera el oyente segn va escuchando. Este factor predecible se podra suprimir en el transmisor y regenerar en el receptor, antes de entregar el mensaje al oyente. La consecuencia sera la disminucin de la informacin y el ancho de banda. El problema era identificar dicho factor. Qu propiedades constitutivas del habla son prescindibles?

EL MODELO ELCTRICO
Harvey Fletcher describi en su libro Speech and Hearing publicado en 1929, un circuito elctrico similar al rgano fonador: la seal de un oscilador armnico, elemento fijo, era moldeada por filtros que se seleccionaban con conmutadores, elementos variables, para producir el sonido adecuado.

no, su componente principal es ruido (por ejemplo, los sonidos fricativos u oclusivos). El smil elctrico de Fletcher se complicaba, era necesario aadir un generador de ruido para los sonidos sordos. Dudley dividi el espectro completo, Figura 2, en dos modelos conceptuales: 1) El espectro discreto como una subbanda acotada alrededor el tono larngeo y sus armnicos. 2) El espectro continuo como un conjunto de subbandas que divide la banda vocal. Consider a priori diez subbandas. El siguiente paso fue el anlisis dinmico, la variacin de la energa sonora en las subbandas a lo largo del tiempo. Como resultado enumer una serie de caractersticas constantes y variables. Entre las primeras: a) Una distribucin de energa sensiblemente constante en determinadas subbandas. b) La presencia de una frecuencia espectral que alterna desde el espectro continuo al discreto con ligeras variaciones de la posicin de la fundamental. c) Las variaciones de la frecuencia fundamental y la energa ocurren en los intervalos silbicos. Entre las segundas: d) Cambios bruscos del promedio de energa en cada subbanda. e) La naturaleza de la onda de tono larngeo que es una magnitud de la frecuencia fundamental tanto en generacin del espectro continuo como en el discreto.

ANLISIS DEL FENMENO VOCAL


Dudley procedi a analizar la voz, no desde su modo de articulacin sino desde sus resultados; es decir, de la distribucin de la energa espectral de los sonidos, gracias a su conversin de stos en seales elctricas, como sugera el modelo de Fletcher. Encontr dos tipos de sonidos: los sonoros y los sordos. En el fenmeno de la sonoridad participan las cuerdas vocales; por el contrario, en la sordez

Posicin de labios y lengua para sonidos voclicos. Fletcher, Harvey. Speech and hearing. Ed. D. Van Nostrand Co. Nueva York, 1929.

Figura 2. Modelos espectrales definidos por Dudley.

Antena de Telecomunicacin / SEPTIEMBRE 2008

25

Dudley haba encontrado los elementos prescindibles: eran las caractersticas constantes de la dinmica del habla que aparecan en sus modelos espectrales. Sera suficiente transmitir solo las variaciones de determinados parmetros extrados de la voz. En el circuito compresor, un analizador realizara esta funcin. En el descompresor, un regenerador aportara las caractersticas constantes para completar el mensaje sonoro al oyente.

ESBOZANDO EL CIRCUITO
Dudley defini unos patrones funcionales que le ayudasen a concebir el circuito analizador: el patrn de frecuencia y el patrn de amplitud. El patrn de frecuencia distribuir la energa sonora segn el modelo espectral y el patrn de amplitud lo har segn el modelo continuo. En el receptor, la actuacin conjunta de ambos patrones reconstruir el espectro original. Concibe estos patrones como mdulos que simplificarn el diseo de los circuitos (bloques verdes y naranjas de las figuras).

Retrato de Harvey Fletcher, hacia 1975. Cortesa de Thomas H. Fletcher.

El siguiente paso fue averiguar cunto tiempo invierte cada elemento activo en completar un ciclo de cambio de posicin. Fletcher, aos antes, ya film pelculas del movimiento de los labios, los dientes, la lengua, etc. durante el habla. Efectuaban hasta 10 ciclos por segundo. El producto de las variables independientes (10) por el tiempo (10 cps) proporciona las combinaciones posibles en que pueden interactuar. El ancho de banda mnimo para transmitir toda la informacin sera 100 cps. Las pruebas posteriores en el laboratorio demostraron valores adecuados desde 350 cps hasta 600 cps. Por lo tanto, el espectro vocal poda reducirse a 350 Hz.

PROYECTO VOCODER
1) La presin del aire durante la espiracin. 2) Las cuerdas vocales. 3) La parte posterior de la cmara bucal. 4) La parte anterior de la cmara bucal. 5) La apertura y cierre de atrs hacia delante de la cmara bucal. 6) La apertura de la boca. 7) La cmara de resonancia nasal. 8) La posicin del velo del paladar y la vula. 9) La posicin y oclusin de los labios y dientes. 10) Apertura de la boca en las consonantes fricativas. Estos parmetros los tom como variables independientes que intervienen en la produccin de los sonidos. Regulan la cantidad de energa en relacin con la frecuencia y su actuacin queda reflejada en las subbandas. Las diez subbandas que consider a priori surgen como una equivalencia de estas variables. El proyecto se denomin Vocoder, Voice Operated reCOrDER y lleg a patentarse con el n US 2.151.091, Figuras 3-A y 3-B. La descripcin es la siguiente.

EL CIRCUITO ANALIZADOR Y COMPRESOR


La voz del micrfono, Figura 4-A, se divide en dos ramas. La PF0 se rige como patrn de frecuencia (verde). La frecuencia fundamental se obtiene del filtro F0.

LA COMPRESIN DE LA VOZ
Pero... Cul es el ancho de banda mnimo en que puede comprimirse la voz manteniendo la inteligibilidad del mensaje reconstruido? La calidad del mensaje se entenda como la identificacin del sujeto hablante por parte del oyente. Dudley vuelve a recurrir a los fonetistas. Primero, partiendo de los rasgos fonticos como son los tipos de sonidos: vocales, semivocales y las consonantes; los modos de articulacin: oclusivas y fricativas; o la sonoridad: sonoras y sordas, enumer los parmetros que los crean:

Esquema de un circuito para producir sencillos sonidos voclicos. Fletcher, Harvey. Speech and hearing. Ed. D. Van Nostrand Co. Nueva York, 1929.

Figura 3-A. Circuito compresor. Patente n 2.151.091

26

Antena de Telecomunicacin / SEPTIEMBRE 2008

filtrando la salida de un multivibrador controlado por un oscilador patrn de 60 Hz. Los filtros C0-C10 evitan los solapamientos. Las portadoras moduladas se suman en el amplificador AL para transmitir este nuevo espectro reducido por el enlace telefnico. Para la demodulacin se enva una seal patrn de 60 Hz.

EL CIRCUITO DESCOMPRESOR Y REGENERADOR


El receptor, Figura 4-B, divide la seal telefnica en los mismos canales. Un filtro selectivo, Fos, extrae la seal patrn para estimular un multivibrador que regenere las portadoras f0-f10. Los filtros C0-C10 separan cada canal y los demoduladores DM0-DM10 entregan las variaciones de las subbandas originales. Las dos fuentes patrones de frecuencia son el multivibrador MV0 (buzzer) y el generador de ruido trmico (hisser), Arg. Pueden intervenir separadas o juntas. Cuando el sonido recibido es sonoro la salida en F0 activa MV0 a la vez que anula a Arg. Si el sonido es sordo, sin frecuencia fundamental, no hay salida en F0 e interviene el ruido de Arg. La frecuencia patrn seleccionada se distribuye por todas las subbandas a travs de los filtros F0 -F10 y se suma a la seal demodulada en los amplificadores AV1AV10. La seal en cada subbanda dejar
El Vocoder en Alemania en los aos cincuenta.

Figura 3-B. Circuito descompresor. Patente n 2.151.091

pasar una parte proporcional de frecuencia que proviene de la fuente patrn. La recuperacin total del ancho de banda se realiza en el amplificador AL y se entrega a un altavoz.

El ecualizador E0 y el detector D0 realizan una conversin de frecuencia en tensin. Un filtro FS0 acota el ancho de banda. En las ramas de amplitud, PA1-PA10 (naranja), el ecualizador E1 mantiene el nivel original del micrfono. Los filtros F1 -F10 crean las subbandas y los detectores D1-D10 de cada una traducen las variaciones de energa en tensin. En el compresor (bloques azules), las tensiones de los canales modulan las portadoras, f0-f10. Las portadoras se extraen

LA VOZ DE LA LLUVIA
Hacia 1939 Dudley simplific el Vocoder, Figuras 5 y 6. Suprimi los moduladores y demoduladores e investig la regeneracin vocal. Para la correcta reconstruccin del espectro los filtros del regenerador deben ser iguales a los del analizador, pero qu ocurre si se altera esta concordancia? Hubo muchos experimentos. Cuando un canal se intercambiaba por el adyacente provocaba la confusin entre algunas slabas. Si algunas subbandas se

Artculo sobre el Vocoder en la revista Science News Letter en enero de 1939. Cortesa del archivo fotogrfico del Science Service de Smithsonian Institution.

Figura 4-A. Circuito compresor simplificado.

Antena de Telecomunicacin / SEPTIEMBRE 2008

27

Figura 4-B. Circuito descompresor simplificado.

supriman, la voz se escuchaba sin timbre, artificial. Variando la frecuencia del oscilador patrn o alterando la banda de paso de los filtros, la energa apareca en tonos ms agudos o ms graves, resultaba que una voz varonil poda convertirse en femenina o infantil y viceversa. Los filtros podan modificar la voz hasta convertirla en susurros o gruidos. El Vocoder permiti mezclar sonidos. Las fuentes de frecuencia se podan sustituir por un tocadiscos u otro micrfono. Los sonidos de la lluvia, del oleaje, las cataratas, el motor de un avin, el trino de aves o instrumentos musicales, previamen-

te grabados en un disco, eran modelados por la voz humana creando efectos que poticamente describi Dudley como la voz de la lluvia las conversaciones de las hojas de otoo. Propuso su aparato para la creacin de efectos sonoros en el cine.

Figura 5. El Vocoder de 1939. Patente n 2.243.089.

COMUNICACIONES SECRETAS Y MSICA ELECTRNICA


La funcin compresora fue abandonada en los aos 40 por la novedosa modulacin por pulsos codificados (Pulse Code

Modulation, PCM). Durante la Segunda Guerra Mundial, el Vocoder, junto con circuitos PCM, particip como encriptador de comunicaciones secretas del ejrcito aliado. Despus de la guerra, el Vocoder en Europa, se uni a la plyade de instrumentos electrnicos musicales contribuyendo a la nueva exploracin sonora y esttica. A partir del diseo del Vocoder, Dudley cre el primer sintetizador verdadero de voz: el Voder. Pero esto son otras historias. q

REFERENCIAS
AT&T. http://www.att.com/history/index. html BELL SYSTEM. http://www.bellsystemmemorial.com/about.html BELL TELEPHONE LABORATORIES. http://www.bell-labs.com/about/history/index.html DUDLEY, Homer W. Estados Unidos patente nm. 2.151.091. Signal transmission. Asignada a Bell Telephone Laboratories, Nueva York, Nueva York. Solicitud: 30 octubre 1935. Pblica: 21 marzo 1939. DUDLEY, Homer W. Estados Unidos patente nm. 2.243.089. System for the artificial production of vocal or other sounds. Asignada a Bell Telephone Laboratories, Nueva York, Nueva York. Solicitud: 13 mayo 1939. Pblica: 27 mayo 1941. FLETCHER, Harvey. Speech and hearing. Ed. D. Van Nostrand Co. Nueva York, 1929. 331 pginas. MARTINEZ Celdrn, E. Fontica. Editorial Teide, Barcelona 1994.

Figura 6. Diagrama simplificado del Vocoder de 1939.

28

Antena de Telecomunicacin / SEPTIEMBRE 2008

Anda mungkin juga menyukai