Anda di halaman 1dari 52

Compresin de Audio

Telecomunicaciones III
Ing. Luis Degregori C.
OBJETIVOS
Almacenamiento Eficiente
Usar el Streaming (Se refiere a ver u or
un archivo directamente en una pgina
web sin necesidad de descargarlo antes al
ordenador)
Aplicaciones Multimedia Interactivas
Objetivos de la Compresin
Ancho de banda reducido
Lograr que las seales decodificadas
suenen tan parecidas al original como sea
posible
Complejidad de la Implementacin lo mas
pequea posible.
Robusta
Escalable
Como se hace?
La compresin de audio se hace
por medios de algoritmos
Para lograr una mejor reduccin de archivo se
utiliza una tcnica conocida como PNS (Norma
de Percepcin de Ruido) que aprovechan
caractersticas del odo humano para ser la
compresin .
La compresin de
audio se hace por
medios de algoritmos
Clases de compresin de audio
Se tienen basicamente 02 clases:
a) Lossless
Son formatos que no pierden claridad ni calidad al
comprimirse, pero que ocupan una mayor cantidad de
espacio en el disco duro.

Usos:
Tcnicos de sonidos y entusiastas de la calidad
FLAC, APE y TTA
b) Lossy
Engloba a aquellos formatos que (al comprimir el audio)
sacrifican algo de calidad
Ocupan poco espacio en el disco.

Usos:
Publico en general. El formato MPC, OGG y MP3
Formato de compresin de audio
Tcnicas de Compresin
Voc File Compression (Elimina los
silencios, codificndolos de forma parecida al
RLE)
Linear Predictive Coding (Usado en
discursos, compara el discurso contra un
modelo analtico del tracto vocal: cavidades
farngea oral y nasal)
Compresin Ley y Ley A (Sist. de Codific.
Logaritmica usados en Telefona)
Modulacion PCM diferencial.
Psicoacstica
Estudia la percepcion subjetiva de las
cualidades (caractersticas) del SONIDO:
Intensidad, Tono y Timbre.
Esto se puede aprovechar, debido a a la
Sensibilidad del Oido Humano.


Codificacin Perceptual
La percepcin acstica humana esta determinada x dos
dimensiones: frecuencia e intensidad.

En el dominio de la frecuencia, el odo humano es capaz de
percibir frecuencias en el rango de los 20 Hz hasta los 20
KHz

En cuanto a la intensidad, los humanos perciben un rango
dinmico en torno a los 120 dB.

Sonidos de intensidad superior a los 90 dB. pueden
provocar daos irreversibles.
Caractersticas del sonido
La intensidad de un sonido depende de la amplitud de
onda. Las intensidades de los sonidos que podemos
percibir tienen un rango de ms de 15 rdenes de
magnitud por lo que para su medicin se usa una
escala logartmica (decibelios)





donde a es la amplitud de onda del sonido que se est
midiendo, y a
ref
es la amplitud de referencia (la del
sonido con el cual se compara).
La intensidad
Caractersticas del sonido
El timbre es la personalidad de un sonido y permite
distinguir, por ejemplo, el sonido de un piano y de una
trompeta con igual duracin, intensidad y tono.
Grficamente, el timbre se caracteriza por la forma de la
onda. Las ondas sinusoidales puras slo se obtienen
electrnicamente, pero en la naturaleza, los sonidos son
ms complejos.
La frecuencia de vibracin ms grave (frecuencia base) es
la que determina el periodo y la amplitud.
Las restantes frecuencias, que suelen ser mltiplos de la
frecuencia base, son los armnicos.
El timbre
Psicoacstica
El objetivo es eliminar partes irrelevantes de la
seal de audio.
El sistema auditivo humano es incapaz de
escuchar el ruido de cuantificacin bajo
condiciones de enmascaramiento auditivo.
El enmascaramiento ocurre siempre que una
seal fuerte envuelve a una vecindad de
seales de audio mas dbiles imperceptibles.

Tolerancia al ruido de
Enmascaramiento
La capacidad de
resolucin del odo
humano es funcion de
la frecuencia.
La tolerancia al ruido
de enmascaramiento ,
a cualquier frecuencia,
depende solamente de
la energa de la seal
en una vecindad a esa
frecuencia.
El modelo Psicoacstico
Analiza la seal de audio y calcula la cantidad
de ruido de enmascaramiento como una funcin
de la frecuencia.

El codificador decide la mejor manera de
representar la seal de entrada con un mnimo
nmero de bits.

El Umbral de Audicion
Los receptores de sonido, tienen un
comportamiento que vara con la frecuencia. En
el caso del odo humano, sucede lo mismo, ya
que se trata el receptor ms complicado y
eficiente que existe.

El umbral de audicin define la mnima presin
requerida para excitar el odo.

El Umbral de Audicion
El Umbral de Audicin, para la media de los
humanos, se fija en 20 Pa (20 micro pascales =
0.000002 pascales), para...

frecuencias entre 2KHz y 4KHz.

Por encima y por debajo de estas frecuencias, la
presin requerida para excitar el odo es mayor.

El Umbral de Audicion
El siguiente grafico muestra el Umbral de audicion.
El banco de filtros hbrido
Componente clave comn a todas las capas.
Divide la seal de audio (tipicamente) en 32
sub-bandas de frecuencia de igual ancho.
Los filtros brindan una resolucin razonable de
frecuencia.
Bandas crticas asociadas con los modelos
psicoacsticos.

Pasos bsicos
Alinear la informacin sonora con el tiempo.
Convertir el audio a una representacion en el
dominio de la frecuencia.
Procesar los valores espectrales en sus
componentes tonales y no tonales.
Aplicar una funcin de dispersin.
Definir una cota inferior para las tolerancias.
Hallar estas tolerancias para cada sub-banda.
Calcular la relacin seal a mscara.
Formatos de audio mas comunes
MPEG Moving Pictures Experts Group

ADVANCED AUDIO CODING (Codificacion
de Audio Avanzada)


WAV
Desarrollado por Microsoft . Grabacin por Cds.

AU(audio for unix)

WMA(Windows media audio)

MIDI
para la industria de la msica electrnica


Lo utiliza apple para los archivos de audio q reproduce Ipod
MPEG
Moving Picture Experts Group
Parte de un estndard mltiple para:
Compresin de video
Compresin de audio
Sincronizacin de Audio, Video y Data para un
bit rate total de 1.5 Mbit/sec

Compresin de Audio MPEG1
A nivel fsico, presenta prdidas.
A nivel perceptual sin prdidas, algoritmo
transparente.
Explota propiedades perceptuales del odo
humano.
Modelamiento Psicoacstico.
MPEG Audio Standard asegura interoperabilidad
define una sintaxis codificada de bit stream,
define el proceso de decodificacin y asegura la
precisin del decodificador.
Caractersticas del Audio MPEG1
Eliminacin de partes perceptualmente
irrelevantes de la seal de audio.
Tasas de muestreo de: 32, 44.1 and 48 kHz.
Ofrece la eleccion de 3 capas independientes.
Opcionalmente, deteccion de error mediante
Cyclic Redundancy Check (CRC).
Las 3 capas permiten la implementacion del
decoder(tiempo real) en un solo chip.


Caractersticas del Audio MPEG1
Informacin adicional puede ser incluida en el bit
stream.
Caractersticas como: acceso aleatorio, avance
rpido y avance en reversa son posibles.
Cuantificacin, la clave para la codificacion de
audio en MPEG.
Compresiones de audio fieles al original con
ratios como de 6 a 1.


MPEG1 Audio - Capa I
Es la codificacin mas sencilla.
Bit rates predefinidos en 32 a 448 kbps por
canal.
Cada frame contiene una cabecera,
opcionalmente bits de chequeo de error(CRC) y
posiblemente informacin adicional.
Ejemplo: Philips Digital Compact Cassette

MPEG1 Audio Capa II
Complejidad Intermedia
Bit rates predefinidos en 32 a 384 kbps por
canal.
Digital Audio Broadcasting (DAB)
Video y audio sincronizado en CD-ROM.
Crea frames de 1152 muestras por canal de
audio.
MPEG1 Audio - Capa III: MP3
Basado en los bancos de filtros hbridos de las
capas I y II .
Codificacin (Entropica) mas compleja.
La mejor calidad de sonido.
Bit rates predefinidos en 32 a 320 kbps por
canal.
Adecuado para transmisin de audio a travs de
RDSI.
Norma ISO/IEC 11172
MPEG1 Audio Capa III (MP3)
Mejoras de la capa III: MP3
Reduccin del Alias. (Codific. Huffman)
Elimina mas redundancia.
Cuantificacin no uniforme.
Optimizacion de factores de escala por c/u de
las sub-bandas.
Uso de un reservorio de bits.


Caractersticas por nivel para el
MPEG-1.
CAPA FRECUENCIAS DE
MUESTREO
TASA DE
BITS
(Kbps)
Capa I


32, 44.1 y 48 KHz
De 32 a 448
Capa II De 32 a 384
Capa III De 32 a 320
Mejoras de la capa III: MP3
Reduccin del Alias. (Codific. Huffman)
El archivo de audio de un CD, usa:
Frecuencia muestreo: 44.1 KHz,
Codificacin: 16 bits,
Modo: estreo

Calculando se tendr: 1,411,200 bits/s

MPEG en el futuro
MPEG-1: Video CD and MP3.
MPEG-2: Televisin Digital y DVD
MPEG-4: Web(fija y mvil)
MPEG-7: descripcin y bsqueda de contenido
de audio y visual.
MPEG-21: Multimedia Framework

OTROS FORMATOS DE AUDIO
MS COMUNES
Esta es una descripcion de algunos
formatos de compresin de audio los ms
usados hoy en da, sus ventajas,
extensiones y principales usos
WAV
Extensin: wav
Desarrollado por Microsoft e IBM 1995.
Es el archivo digital del sonido sin
comprimir.
Es 10 a 12 veces mas pesado que el mp3.
Es un estndar para msica en CDs.
Funciona en cualquier aplicacin Windows
y en equipos domsticos comunes con
reproductor de CDs.
ADVANCED AUDIO CODING
(Codificacion de Audio Avanzada)
Extensin: .aac
Codificacin estndar para audio
reconocida por ISO solo en el patrn
MPEG-2.
Es mas eficiente que el MP3 en el mismo
espacio (Con igual bitrate).
Ocupa menos espacio que el mp3.
(Aproxim. el 70 %)
No es compatible con el MPEG-1.
ADVANCED AUDIO CODING
(Codificacion de Audio Avanzada)
Este formato de Audio lo utiliza Apple para los
archivos de audio y que pueden comprarse a
travs de Internet.
Frecuencia de muestreo: 16 KHz, 22.05 KHz , 24
KHz.
Mxima calidad entre 320 y 384 Kbps (5
canales) a diferencia del MP3 (solo Stereo).

Diagrama de bloques del AAC en MPEG-2
ADVANCED AUDIO CODING
(Codificacion de Audio Avanzada)
Extensin: .ac3
Recibe un streaming de los 06 canales
codificados en PCM (Que emplea 9 bits
por muestra y los muestrea a 48 KHz)
para comprimirlos a 384 Kbps.
Es muy popular y muy eficiente, usa 05
canales + un sexto canal exclusivo para
las bajas frecuencias (120 Hz o menos).
Es empleado en los sistemas ATSC.
AC-3 (DOLBY DIGITAL)
AU (Audio for Unix)
Extensin: au

Para archivos de sonido con S.O. Unix de
Sun Microsystems and NeXT.

Estndar acstico para el lenguaje JAVA.
WMA (Windows Media Audio)
Extensin: wma

Versin de Windows para comprimir
Audio, muy parecido a MP3.

Se adapta a diferentes velocidades de
conexin (Cuando se necesite reproducir en Internet
en Tiempo Real).
MIDI
Extensin: midi
Es un protocolo de communicacion de datos
Por sus siglas en ingles, quiere decir interfaz
digital para instrumentos musicales.
Estndar en la INDUSTRIA de la msica
ELECTRONICA.
Muy til cuando se usan sintetizadores
musicales tarjetas de Sonido.
MIDI
Extensin: midi
Por el tamao resultante que
ofrece su compresin, este
formato es muy usado para
dispositivos y/o reproductores
que necesitan combinar
archivos de audio y video,
como los karaoke. (Otros
como el: teclado, bateria,
guitarra, flauta, ...).
Permite intercambiar datos
entre diversos equipos
musicales.

Teora del audio AC3:
El Dolby Digital 5.1, llamado
tcnicamente AC3.
Naci en los aos 90, incorpora 5 o seis
canales independientes de sonido.
Cada canal es independiente para cada
altavoz y reproduce todo tipo de
frecuencias, menos el 6to, que solo se
encarga de las ms bajas
OGG VORBIS
Extensin: ogg

Tambin se utiliza para guardar y
reproducir msica digital.
Se diferencia del resto de grupo por que
es gratuito, abierto y no esta patentado.
Su principal atractivo es la importante
reduccin que hace de un archivo de
audio manteniendo una alta calidad.
OGG VORBIS
Extensin: ogg

Gran versatilidad para reproducirse en
cualquier dispositivo y por ocupar muy
poco espacio (Menor respecto al mp3).
Adecuado para enviar musica via internet
por streaming, a diferencia del mp3.
Tipo lossless, comparable con el AAC.
ATRAC
(Adaptive TRansform Acoustic Coding)
Este formato se utiliza en tecnologa de
compresin y reproduccin para minidisc.
Desarrollado por SONY.
Codifican el sonido, a unas tasas de datos
del orden del 10% de lo requerido en un
CD.
ATRAC
(Adaptive TRansform Acoustic Coding)
Usa 08 canales y divide la seal en tres partes o
bandas:
a) Menor a 5,5 kHz
b) Entre 5,5 y 11 kHz
c) Mayor a 11 kHz
Tiene una calidad similar al AC-3.
Se emplea en el sector de audio y algunos
dispositivos porttiles como PDA, y en
telfonos inteligentes.

ATRAC
(Adaptive TRansform Acoustic Coding)
El puntaje de opinin significativo (MOS)
es un mtodo directo de la evaluacin de
la calidad de voz muy ampliamente
usado.
La prueba MOS concierne solamente al
resultado de la experiencia del usuario,
por lo tanto se llama a los usuarios para
la evaluacin.
Mean Opinion Score
Mean Opinion Score
Escala de
Calificacin
Puntuacin Escala de Esfuerzo para
escuchar
Excelente
(Excellent)
5
No se requiere esfuerzo
Bueno (Good)
4
No se requiere esfuerzo
apreciable
Regular (fair)
3
Se requiere poco esfuerzo
Pobre (Poor)
2
Se requiere considerable
esfuerzo
Malo (Bad)
1
No se entiende aun con un
considerable esfuerzo
52
Resumen de algunos formatos de audio digital
Telefona 32 1 8 ADPCM (G.721)
Hi-Fi Internet
Hi-Fi Internet
Audio Hi-Fi
Telefona GSM
Telefona Internet
Telefona/Videoc.
Telefona
Telefona
Telefona Internet
Vdeoconferenc.
Telefona
Uso
705,6/768 2 44,1/48 CD-DA / DAT
192-256 variable 2 32/44,1/48 MPEG-1 Layer I
96-128 variable 2 32/44,1/48 MPEG-1 Layer II
64 variable 2 32/44,1/48 MPEG-1 Layer III (MP3)
32-44 variable 5.1 32/44,1/48 MPEG-2 AAC
2,4 1 8 LPC-10E (FS 1015)
4,8 1 8 CELP (FS 1016)
13,2 1 8 RPE-LTP (GSM 06.10)
8 1 8 CS-ACELP (G.729)
16 1 8 LD-CELP (G.728)
16/24/32/40 1 8 E-ADPCM (G.727)
16/24/32/40 1 8 ADPCM (G.726)
6,3/5,3 variable 1 8 MP-MLQ (G.723.1)
48/56/64 1 16 SB-ADPCM (G.722)
64 1 8 PCM (G.711)
Caudal por canal
(Kb/s)
Canales Frec. Muestreo
(KHz)
Formato
Elevado
Retardo
(ISO)
Bajo
Retardo
(ITU-T)

Anda mungkin juga menyukai