Anda di halaman 1dari 21

TEMA 3. Codificación de voz.

Curso 2014-15

Tema 3-1. Codificación de voz

1. Producción y percepción del habla


2. Estrategias de codificación de voz
− Codificación de forma de onda
− Vocodificación
− Codificación híbrida
3. Estándares

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 1

1. Producción y percepción del habla

DTSC. Grado en Ingeniería Informática. Curso 2014/15

MULTIMEDIA 1
TEMA 3. Codificación de voz. Curso 2014-15

Dominios temporal y frecuencial

Espectro
instantáneo

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 3

Producción del habla

Se estudia para conocer:


• qué sonidos básicos puede generar un hablante
• cómo se concatenan para formar el habla
Fonación: producción de una onda sonora a partir
de una fuente de sonido
• Aparato fonador
• Fonemas: sonidos particulares con rasgos acústicos
pertinentes
• Fenómenos espontáneos superpuestos: coarticulación
y entonación

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 4

MULTIMEDIA 2
TEMA 3. Codificación de voz. Curso 2014-15

Aparato fonador

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 5

Fonación: tipos de sonido

Sonoros:
• Vibración cuasi-periódica de las cuerdas vocales
• La frecuencia de vibración depende de:
− presión de aire
− tensión y masa de las cuerdas vocales
varía (aprox.) entre 50 y 250 Hz en los hombres
(frecuencias algo más elevadas en mujeres)
Sordos:
• No hay vibración de las cuerdas vocales, sólo un
estrechamiento o cierre en el tracto vocal
• La fuente es un ruido turbulento y/o transitorio

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 6

MULTIMEDIA 3
TEMA 3. Codificación de voz. Curso 2014-15

Sonidos sonoros: ejemplos

/i/

/a/

/o/

/a/ cerrada

/u/

/e/

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 7

Carta de formantes

3000

2500
frec. 2o formante (Hz)

2000 /i/ /e/

1500
/a/
1000 /u/ /o/
500
200 300 400 500 600 700 800 900 1000
frec. 1er formante (Hz)
22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 8

MULTIMEDIA 4
TEMA 3. Codificación de voz. Curso 2014-15

Sonidos sordos: ejemplos

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 9

Audición

Oído externo:
• pabellón
• conducto auditivo externo
Oído medio:
• tímpano
• cadena osicular:
martillo,
yunque
y estribo
Oído interno:
• ventanas oval y redonda
• canales semicirculares
• caracol

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 10

MULTIMEDIA 5
TEMA 3. Codificación de voz. Curso 2014-15

Percepción del sonido

Frecuencias medias favorecidas


Percepción selectiva

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 11

2. Estrategias de codificación

MULTIMEDIA 6
TEMA 3. Codificación de voz. Curso 2014-15

Tipos de codificadores

Codificadores de forma de onda:


Objetivo: preservar la forma de onda de la señal
Vocoders (“voice coder”):
Objetivo: preservar las características perceptual-
mente relevantes de la señal de voz; asumen un
modelo simplificado de producción de la voz
Codificadores híbridos:
Incorporan conceptos de los dos tipos anteriores

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 13

Calidad vs. régimen binario

Calidad

Excelente

Híbridos
Buena

Forma de Onda
Regular

Pobre

Vocoders
Mala

1 2 4 8 16 32 64 kb/s

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 14

MULTIMEDIA 7
TEMA 3. Codificación de voz. Curso 2014-15

2.1. Codificación de forma de onda

DTSC. Grado en Ingeniería Informática. Curso 2014/15

Codificación de forma de onda en el


dominio del tiempo
No utilizan un modelo específico de la señal de
voz son muy generales
Sencillos de implementar
Bajo retardo
Regímenes binarios en torno a 32 kbps

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 16

MULTIMEDIA 8
TEMA 3. Codificación de voz. Curso 2014-15

Pulse Code Modulation (PCM)

La forma más sencilla de codificación:


Muestreo + cuantificación
Cuantificación uniforme:
• 12 bits/muestra (96 kbps)
Cuantificación logarítmica:
• ley A (Europa) o ley µ (América)
• 8 bits/muestra (64 kbps)
• Estándar G.711 del CCITT a 64 kbps

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 17

Cuantificación adaptativa

Problema:
Margen dinámico Ruido de cuantificación

Escalón grande Escalón pequeño

Solución cuantificación adaptativa:


• Se adaptan las propiedades del cuantificador al nivel de
la señal de entrada

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 18

MULTIMEDIA 9
TEMA 3. Codificación de voz. Curso 2014-15

Codificación diferencial

La codificación diferencial será tanto más eficaz


cuanto más redundante sea la señal
La predicción permite obtener una estimación de la
muestra a cuantificar a partir de las anteriores:

Predictibilidad ⇔ Redundancia

“Se cuantifica la parte novedosa (no predecible) de


cada muestra”

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 19

Differential Pulse Code Modulation (DPCM)

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 20

MULTIMEDIA 10
TEMA 3. Codificación de voz. Curso 2014-15

Adaptive Differential Pulse Code Modulation (ADPCM)

Diversidad de locutores
• Cuantificación adaptativa
y variabilidad
en un mismo locutor • Predicción adaptativa

Estándar G.721 del CCITT a 32 kbps:


• Adaptación del cuantificador y del predictor
• Calidad telefónica
• Versiones posteriores (G.723) a 24 y 40 kbps. Por
debajo de 24 kbps la calidad se degrada rápidamente
22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 21

2.2. Vocodificación

DTSC. Grado en Ingeniería Informática. Curso 2014/15

MULTIMEDIA 11
TEMA 3. Codificación de voz. Curso 2014-15

Vocodificadores

Se basan en modelos específicos de la señal de


voz en los que se identifican aspectos
perceptualmente relevantes de la señal
Funcionamiento:
• Estimación de los parámetros del modelo
• Codificación y transmisión de los parámetros
• Reconstrucción de la voz en el extremo receptor
Requieren evaluación subjetiva
Calidad de comunicaciones a 2,4 kbps

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 23

Modelo de producción de la voz

El modelo fuente-filtro es el modelo adoptado más


frecuentemente en los vocodificadores por su sencillez
Otros vocodificadores codifican la posición de los formantes
como parámetros

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 24

MULTIMEDIA 12
TEMA 3. Codificación de voz. Curso 2014-15

Vocodificadores

Típicamente, los parámetros que el codificador envía al


decodificador son:
• Coeficientes del modelo de filtro todo-polos (alrededor de 10)
• Ganancia
• Indicador sonoro/sordo
• Si sonoro: valor del periodo fundamental
Mejoras:
• Sustitución del tren de impulsos por un modelo de impulsos
glotales
• Postfiltrado perceptual

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 25

2.3. Codificación híbrida

DTSC. Grado en Ingeniería Informática. Curso 2014/15

MULTIMEDIA 13
TEMA 3. Codificación de voz. Curso 2014-15

Codificación híbrida

Modelo de producción de voz


+
Fidelidad a la forma de onda (análisis mediante síntesis)
+
Enmascaramiento del ruido

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 27

Análisis mediante síntesis

Estrategia óptima: análisis mediante síntesis


• Se elige el residuo cuantificado que genera la señal sintética
más próxima a la voz original
La voz se divide en tramas de 20-30 ms. Para cada
una se estima un predictor corto
El predictor largo se estima cada 5-10 ms. (subtrama):
retardo y coeficientes
La excitación óptima para cada subtrama se determina
para minimizar la diferencia (ponderada) entre la voz
codificada y la original

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 28

MULTIMEDIA 14
TEMA 3. Codificación de voz. Curso 2014-15

Análisis mediante síntesis

El procedimiento de análisis implica la síntesis de la


correspondiente voz codificada

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 29

Representación eficiente de la excitación

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 30

MULTIMEDIA 15
TEMA 3. Codificación de voz. Curso 2014-15

Predictor corto

Se determina trama a trama cada 10-30 ms.


Se utiliza predicción lineal (LP)
Modela el tracto vocal
Cuantificación:
• Escalar: 30-36 bits
• Vectorial: 24-28 bits

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 31

Predictor largo

Se obtiene después del predictor corto


Representa la periodicidad de los fonemas
sonoros
Rango típico del retardo: 2-20 ms.
Tasa de actualización: ~ 5 ms.

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 32

MULTIMEDIA 16
TEMA 3. Codificación de voz. Curso 2014-15

Ponderación perceptual

El filtro de ponderación se obtiene habitualmente a partir


del predictor corto:

A( z )
W(z) =
A( z / γ )

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 33

3. Estándares

MULTIMEDIA 17
TEMA 3. Codificación de voz. Curso 2014-15

Necesidad de estandarización

Fundamental para el desarrollo de los codificadores y las


telecomunicaciones
El proceso de estandarización comprende:
• Especificación de requisitos y convocatoria pública
• Propuesta de soluciones
• Test de validación
• Decisión y negociación
• Publicación del estándar
Organismos de estandarización en codificación de voz:
• ITU (International Telecomunications Union)
• ETSI (European Telecommunications Standards Institute)
• DARPA (Defense Advanced Research Projects Agency)

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 35

Especificaciones

Calidad
Tasa binaria
Complejidad computacional
Retardo
Robustez

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 36

MULTIMEDIA 18
TEMA 3. Codificación de voz. Curso 2014-15

Codificación de forma de onda

PCM (ITU-T G.711 a 64 kbps)


• Ley A (Europa)
• Ley µ (Estados Unidos)
ADPCM (ITU-T G.726 a 40, 32, 24, 16 kbps)

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 37

Vocodificación

LPC-10E (FS-1015 2,4 kbps)

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 38

MULTIMEDIA 19
TEMA 3. Codificación de voz. Curso 2014-15

Codificación híbrida

FS-1016 a 4.8 kbps


Estándares americanos de telefonía móvil IS-54 (7.95
kbps) e IS-96 (8.5, 4, 2, 0.8 kbps)
Estándares japoneses de telefonía móvil JDC (6.7
kbps) y JDC “half-rate” (3.45 kbps)
Estándares europeos de telefonía móvil GSM “half-
rate” (5.6 kbps) y “enhanced full-rate” (12.2 kbps)
Estándares AMR (Adaptive Multi-Rate) para GSM y
UMTS
Estándares de la ITU-T a 16 (G.728), 8 (G.729) y 5.3 ó
6.3 (G.723.1) kbps

22/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 39

Comparación

19/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 40

MULTIMEDIA 20
TEMA 3. Codificación de voz. Curso 2014-15

Ejemplos

“A lathe is a big tool. Grab every dish of sugar”

Original ADPMC LD-CELP CELP LPC10


64 kbps 32 kbps 16 kbps 4.8 kbps 2.4 kbps

Fuente: http://www.data-compression.com/speech.html

19/09/2014 DTSC. Grado en Ingeniería Informática. Curso 2014/15 41

MULTIMEDIA 21

Anda mungkin juga menyukai