Un relato completo de la evolucin del lenguaje humano debe tener en cuenta sus
caractersticas multisensoriales, rtmicas y cooperativas. Monos, simios y seres
humanos reconocen la correspondencia entre sus asociadas posturas faciales y
vocalizaciones y obtienen beneficios del comportamiento de ellas. Algunas
vocalizaciones del mono incluso tienen un discurso-como acstico rhythmicity pero
falta el movimiento facial rtmico afn que exhibe el discurso. Repasamos datos que
muestran que expresiones faciales rtmicas como delicioso pueden se han relacionado
con salida vocal para producir una ancestral forma de expresin audiovisual rtmica.
Finalmente, sostenemos que colaboracin la vocal humana puede haber surgido a
travs de una combinacin de volubilidad y sociabilidad y proporcionaremos pruebas
comparativas de una especie para apoyar esta hiptesis.
La singularidad del discurso a los seres humanos es indiscutible, pero la cuestin de
cmo lleg a ser en el ser humano y en ningn otro animal sigue siendo una fuente de
controversia.
Se habla de evolucionar gradualmente a travs de los precursores de la
comunicacin en el linaje de los primates o tambin se habla de si surgen
"espontneamente" a travs de una confluencia fortuita de cambios genticos y / o
neuroanatmicas que slo se encuentran en los seres humanos?
Algunos sostienen que, a diferencia de rasgos tales como los pulgares o la visin del
color, donde hay una clara evidencia de una evolucin gradual , habla esencialmente
que surgi de repente, casi de novo . Incluso Thomas Huxley, promotor irascible de
Darwin de la teora de la evolucin por seleccin natural, postula la idea de que el
discurso podra evolucionar poco a poco - con muchos factores en juego - a travs de
precursores demasiado difciles de tragar animales. La actitud de Huxley es compartida
por los cientficos modernos que siguen para argumentar "causas primarias" mediante
el cual los cambios clave en uno de los factores fueron fundamentales para nuestro '
divergencia infinita ' de otros primates en el mbito de la comunicacin.
Hay defensores de la humanidad expresin especfica de los genes, cambios en la anatoma,
los aumentos en el tamao de las reas neocorticales, neocorteza o el uso especial de los
circuitos neuronales de expresin peculiar o nica de los precursores del comportamiento.
Cada uno de estos factores puede tener un papel importante en la evolucin de la
comunicacin humana, pero sin duda ninguno puede ser considerado un -pin linchar . Esto es
principalmente porque el problema de la evolucin del habla es acerca de cmo integrar todo
en conjunto de funciones para producir patrones de salida de voz singularmente humano y su
percepcin.
Es decir, al igual que el lenguaje, el habla es una adaptacin compleja evolucionado en un
fragmentario que la moda . Como tal , muchos plantean que determinar los sustratos
necesarios para la evolucin del lenguaje humano es tener una tarea difcil , sobre todo porque
la mayora pensaba rasgos para dar lugar a la misma - el aparato de produccin de la voz y el
cerebro - no se fosilizan . Nos quedamos con un mtodo robusto de investigacin :
comparacin de nuestros comportamientos y cerebro organizacin vocal con los de otros
mamferos existentes , y en particular de primates en los seres humanos han tenido siempre
una fascinacin con las declaraciones de otros animales y cmo sus seales de voz de mayo o
mayo no se refieren a nuestro discurso .
Incluso el atrevido aventurero y maestro lingista, Sir Richard Burton (1821-1890) , no pudo
resistir la tentacin de investigar si los monos se comunican mediante vocalizaciones parecidas
al lenguaje . Nuestro inters en el mono y otras vocalizaciones de animales, y su relacin
putativa a la voz humana, no han disminuido, ya que es nuestro nico camino hacia la
comprensin de cmo evolucion la comunicacin vocal humano.
Vamos a explorar tres fenotipos complejos que son parte integrante de la voz humana y
universal en todos los idiomas, pero que se ignoran por lo general al considerar los orgenes
del habla: su naturaleza audiovisual, su ritmicidad, y su coordinacin durante las
conversaciones. En resumen, aqu estn las motivaciones:
1. el discurso se produce al hacer diferentes expresiones faciales que cambian la forma del
tracto vocal. No es sorprendente que los seres humanos reconocen la correspondencia entre
vocalizaciones y las posturas faciales asociadas con ellos. Debido a que el habla es por lo tanto
inherentemente ' multisensorial, es importante para investigar el papel de las expresiones
faciales en las vocalizaciones de otros primates.
2. Una caracterstica clave del discurso audiovisual es que la salida y movimientos asociados
acsticas de la boca son tanto rtmica y bien coordinado . Algunas vocalizaciones del mono
tienen la ritmicidad acstica similar, pero carecen del movimiento facial rtmica concomitante.
Esto plantea la cuestin de cmo nos desarrollamos a partir de un solo - acstico ritmo
ancestral presunto vocal a uno que es audiovisual .
3. Por ltimo, el habla es un comportamiento que se produce entre los individuos y por lo
tanto es un esfuerzo cooperativo . Los seres humanos se turnan durante una conversacin
para ser escuchado con claridad y para facilitar las interacciones sociales . Debido a su
importancia y evidente ventaja comunicativa , cmo evolucion la cooperacin vocal es de
gran inters . Exploramos una posible trayectoria evolutiva - una combinacin de prosocialidad
y volubilidad - para el origen de la toma de turnos vocal , y el uso de datos de los monos tit
para explorar esta idea .
Antes de empezar nos gustara abordar dos advertencias . En primer lugar , el habla y el
lenguaje son dos fenmenos separables que no tiene por qu han evolucionado en paralelo. El
habla es un sistema de sealizacin audiovisual mientras que el lenguaje es un sistema para
comunicar conceptos complejos , independientemente de la modalidad . En esta revisin nos
centramos en la evolucin del lenguaje. Sin embargo , porque el discurso es el sistema de seal
de forma predeterminada para el idioma en todas las culturas humanas , su evolucin puede
tambin tener implicaciones para la evolucin lingstica , pero no explorar estas
implicaciones. La segunda advertencia es que, como en cualquier revisin de los orgenes
evolutivos de la conducta , nuestros argumentos a continuacin slo son tan buenos como la
cantidad de evidencia comparativa disponible . Por lo tanto , esperamos que, incluso si lo que
le sugerimos parece demasiado especulativo que estimular ms experimentos en otras
especies .
En los orgenes del discurso multisensorial
Al igual que con los seres humanos , muchas de las seales de que los primates no humanos
(en lo sucesivo , los primates ) el intercambio de mediar interacciones sociales toman las
formas de expresiones faciales y vocalizaciones . De hecho, en los primates antropoides , como
el tamao del grupo social crece, la complejidad de las expresiones faciales y expresiones
vocales crece en paralelo. A pesar de las expresiones faciales y vocales son tratados
normalmente por separado en la mayora de los estudios , que son , de hecho, a menudo
inextricablemente vinculado: una expresin vocal normalmente no se puede producir sin
movimientos concomitantes de la cara . Cuando hablamos nuestra cara se mueve y deforma
alrededor de la boca y otras regiones . Estas dinmicas y deformaciones conducen a una
variedad de seales de movimiento visuales relacionados con los componentes auditivas del
habla. En entornos del mundo real ruidosos , estas seales visuales aumentan la inteligibilidad
del habla , incrementar las velocidades de deteccin , y son difciles de ignorar las seales
visuales se integran fcilmente y de forma automtica con el habla auditiva . A la luz de esto,
audiovisual ( o ' multisensorial ' ) habla es realmente el principal modo de percepcin del habla
, y no es una capacidad que fue simplemente llevaba a cuestas, en la percepcin del habla
auditiva ms tarde en el curso de nuestra evolucin .
Si el discurso audiovisual es nuestro modo por defecto de comunicacin , a continuacin, un
esto debera reflejarse en su evolucin . Muchas especies audiovisuales durante la
comunicacin se integran seales , golosinas , incluyendo ranas y araas . , Adems , cualquier
organismo vertebrado produce vocalizaciones que tendr cualquier movimiento disponible
sencilla , visual concomitante en el rea de la boca . Sin embargo, en el linaje de los primates
Tanto el nmero y la diversidad de los msculos que inervan la cara y la cantidad relacionada
con el control neuronal de movimiento facial con el tiempo aumentado en relacin con otros
mamferos. Esto permiti que la produccin de ltima instancia de mayor diversidad de las
expresiones faciales y la voz en los primates , con diferentes patrones de movimiento facial
Siendo nicamente vinculados a diferentes expresiones vocales . Las vocalizaciones son el
resultado de movimientos coordinados de los pulmones, la laringe ( dobla la voz ) , y el tracto
vocal . El tracto vocal consisten en la columna de aire se extiende desde los pliegues Ese
discurso de la boca y las fosas nasales . Cambiar la forma del tracto vocal permite no slo
diferentes sonidos para producir ( mediante la modificacin de las frecuencias de resonancia
del tracto voz) , pero los resultados tambin predecibles en la deformacin de la cara
alrededor de la boca y otras partes de la cara . Dicho de otra manera , diferentes expresiones
faciales pueden resultar en diferente- vocalizaciones suenan .
Dado que las vocalizaciones estn vinculadas fsicamente a diferentes expresiones faciales , tal
vez no sea sorprendente que muchos primates no humanos reconocen la correspondencia
entre los componentes visuales y auditivos de seales vocales. Ambos monos macacos
(Macaca mulatta ) y los chimpancs (Pan troglodytes) reconocen correspondencias visuales
hioides es mayor durante la masticacin que para relamerse los labios [ 91 ] , de nuevo similar
a lo que se observa en el habla humana frente a la masticacin [ 87 ] .
Adaptacin Perceptual
En el discurso, lo que altera el componente auditivo o visual del ritmo 3-8 Hz reduce
significativamente la inteligibilidad [ 48-52 ] . Para probar si los monos macacos fueron
diferencialmente sensibles a relamerse los labios producido con una frecuencia rtmica en el
rango de especies tpicas (media 4-6 Hz [ 69,82,91 ] ) , se utiliz un procedimiento preferencial
mirando [ 92 ] . Avatares mono generadas por computadora se utilizan para producir estmulos
que varan en frecuencia de relamerse los labios dentro de ( 6 Hz ) y el exterior ( 3 y 10 Hz ) el
rango tpico de la especie , pero con las caractersticas de otra manera idnticos [ 45,93 ] .
Aunque hubo al menos cuatro resultados alternativos en este experimento , los monos
mostraron una preferencia por el 6 Hz chasquido de labios sobre el 3 y 10 Hz . Esto se presta
apoyo conductual para la hiptesis de que los procesos de percepcin se afinan de manera
similar a las frecuencias naturales de las seales de comunicacin como lo son para el ritmo
del habla en los seres humanos
Salvando las distancias
Qu tan fcil sera para vincular vocalizaciones a una expresin facial rtmica durante el curso
de la evolucin? Un trabajo reciente sobre los babuinos gelada (Theropithecus gelada) resulta
ser esclarecedor. Geladas son un tipo altamente especializado de babuino. Su estructura social
y el hbitat son nicos entre los babuinos y otros primates del Viejo Mundo, al igual que
algunos de sus vocalizaciones [18]. Una de estas vocalizaciones nicas, conocidas como la
"oscilacin, se produce slo por los machos de esta especie y en estrecha interaccin de
afiliacin con las hembras. Bamboleos son esencialmente relamerse los labios expresiones
producidas simultneamente con vocalizacin [94]. Adems, su ritmicidad cae dentro del
rango del ritmo del habla y choque de labios por monos macacos. Dado que los babuinos
gelada estn muy estrechamente relacionados con los babuinos amarillos (sus taxones estn
separados por 4 millones de aos), que no producen nada parecido a las vocalizaciones de
oscilacin, que sugiere que la vinculacin de las expresiones faciales rtmicos tales como
relamerse los labios a la salida vocal no puede ser un proceso evolutivo complejo. Cmo
geladas lograron esta hazaa en el nivel de los circuitos neuronales se desconoce, pero
encontrar a cabo podra revelar informacin clave sobre la transicin humana al rtmico
audiovisual salida vocal - y, ms en general, a la produccin de consonantes (otro
rompecabezas evolutivo [95]) - durante el curso de nuestra evolucin.
En los humanos, esta percepcin de la seal rtmica y la produccin es a menudo anidan en
otro ritmo - los intercambios prolongados de voz a travs de dos personas durante una
conversacin. La evolucin de este tipo de cooperacin entre los sujetos vocal es, por
supuesto, tan importante como el acoplamiento entre las modalidades visuales y auditivas
dentro de un sujeto. Comunicacin vocal eficaz y eficiente se logra minimizando la
interferencia de la seal. Tomando turnos es un mecanismo que reduce la interferencia. Para
ser una conversacin similar, tales turnos implicaran mltiples intercambios, no simplemente
una llamada - y - respuesta (Recuadro 1). Hasta hace poco se pensaba que los seres humanos
que son los nicos primates que exhiben cooperacin vocal en la forma de la toma de turno.
Imgenes
Figura 1: Deteccin vocalizacin auditiva , visual y audiovisual . Monos ( A) fueron entrenados
para detectar auditivo ( caja verde ) , visual ( caja azul ) , o audiovisual ( caja roja )
vocalizaciones incrustados en el ruido lo ms rpido y con la mayor precisin posible . Un ruido
avatar y fondo se presentaron de forma continua . En la condicin auditiva , una coo se
present llamada. En la condicin visual , la boca del avatar se traslad sin ninguna
vocalizacin correspondiente. En el audiovisual , una llamada coo con un correspondiente se
present movimiento de la boca . Cada estmulo se present con cuatro relaciones diferentes
de seal a ruido ( SNR) . (B ) La media de los tiempos de reaccin como una funcin de SNR
para el condiciones unisensory y multisensoriales para un mono . El cdigo de color es el
mismo que en (A); x ejes denotan SNR en dB; ejes y representan los tiempos de reaccin (RT)
en ms . (C) Un experimento anlogo con avatar humana y el habla se llev a cabo en seres
humanos. El grfico representa los tiempos medios de reaccin como una funcin de SNR para
el unisensory y condiciones multisensoriales para un individuo . Convenios como en ( B )
Figura 2: Habla y llamadas de monos macacos tienen estructura rtmica similar en sus sobres
acsticas . Espectros de modulacin de la voz humana y de larga duracin ( > 400 ms ) las
llamadas de monos macacos ; x ejes representan la frecuencia en Hz de registro ; ejes y
representan las desviaciones de poder de una tendencia 1 / f . (B ) de movimiento de la boca y
el sobre auditiva para una sola frase producida por ( panel superior humana; el eje x
representa el tiempo en s ; el eje y de la izquierda representa el rea de la abertura de la boca
en pixel al cuadrado ; el eje y a la derecha . representa el sobre acstica en unidades de Hilbert
el panel inferior muestra el movimiento boca y la envolvente auditivo para una sola
vocalizacin coo producido por un mono macaco , el eje x representa el tiempo en ms; el eje y
de la izquierda representa la distancia entre los labios en pxeles ; el eje y en la derecha
representa el poder envolvente acstica en unidades de Hilbert
Figura 3: Transicin hipottica de un unisensory ancestral, acstica de slo ritmo vocal a uno
que es audiovisual, con ambos movimientos de la boca y la acstica compartiendo el mismo
ritmicidad . ( A) Esquema de una vocalizacin ancestral presuntivo con un componente rtmico
auditivo ( lnea azul ) y el componente visual no rtmica ( lnea roja ) . (B ) Representacin
grfica de una expresin facial de presuncin ancestral rtmica sin ningn componente vocal ;
convencin como en ( A) . ( C ) Ejemplo de una expresin del habla -como con componentes
audiovisuales rtmicas y acoplados.