1
Introduccin
Las centrales telefnicas digitales realizan la conmutacin de audio en forma digital. Las
centrales IP (IP PBX, Softswitches, etc.) utilizan las redes de datos para realizar el envo de
audio entre dispositivos, a travs del envo de paquetes de datos. Esto requiere que en algn
punto del sistema la seal de voz analgica sea digitalizada, es decir, convertida en una secuencia
de nmero discretos. Este proceso puede realizarse en los propios telfonos (cmo es el caso en
los telfonos digitales o en los telfonos IP), en Gateways (o conversores de medios y
sealizacin) o las placas de abonados entre otros.
Los diferentes formatos audiovisuales que se van a presentar se pueden dividir segn diferentes
criterios. As, se va a hablar de formatos de compresin con prdidas o sin prdidas si conllevan
cierto nivel de degradacin de la informacin original y se ver cmo detectar esa degradacin.
Otra clasificacin ser en funcin de su objetivo, ya sea ser transmitido en tiempo real o no, o
sencillamente almacenado.
El proceso de integracin ha contado, pues, con dos elementos paralelos: los estndares de
formato digital de vdeo y la implementacin de sistemas digitales de transmisin. El streaming, o
transferencia de vdeo y audio digital en tiempo real, ya exista en comunicaciones mviles desde
la dcada de 1970, si entendemos como tales los sistemas dedicados experimentales sin objetivo
comercial. En la actualidad, son bsicamente servicios de valor aadido cuya calidad est adaptada
a la capacidad y tipo de receptor-cliente (telfono mvil, tabletas, puntos de informacin) gracias
a estndares ms o menos abiertos que posibilitan dar ese servicio al vuelo. Sobre stos
trataremos en este mdulo.
2
ndice
Caratula. 1
Introduccin. 2
ndice.. 3
Codificacin y transmisin de video
. 4, 5 ,6 ,7 ,8. 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19
Conclusiones..20
Recomendaciones....21
Anexos....22
Bibliografa....23
3
Codificacin y transmisin de video
Por otra parte, las transformadas discretas de Wavelets (DWT) comenzaron tambin a ser
utilizadas en codificacin de imgenes en la dcada de 1980, y fueron adoptadas ms
recientemente dentro de las tecnologas MPEG-4 y JPEG
2000, para la codificacin de imgenes fijas.
Las tcnicas utilizadas para la digitalizacin del video incluyen los siguientes conceptos:
Prediccin
Mediante este proceso, se trata de predecir el valor de ciertas muestras en funcin de otras,
de manera de poder enviar nicamente como informacin la diferencia, la que tpicamente
requiere menor ancho de banda para ser transmitida. En el receptor, la misma prediccin es
realizada, y se le aplica la diferencia (o el valor residual) que es enviado por el codificador.
Dada la alta redundancia de informacin que tienen tpicamente las escenas de video, esta
prediccin se puede realizar tanto dentro de un mismo cuadro, como entre cuadros.
Transformacin
Los valores relacionados a las muestras pueden ser transformados en otro conjunto de valores
equivalentes, que representan la misma informacin de manera diferente (por ejemplo, una misma
seal puede ser representada por su amplitud en el tiempo o en el dominio de la frecuencia). En
video se utiliza tpicamente la Transformada Discreta del Coseno o DCT por sus siglas en
ingls.
4
Cuantizacin
Es el proceso mediante el cual se asigna un valor entero a un nmero real. En funcin de la
cantidad de enteros utilizados (o la cantidad de bits necesarios para su presentacin), el proceso
de cuantificacin puede introducir ms o menos distorsin respecto al valor orignal.
Transmisin
5
Digitalizacin y codificacin de video
JPEG
JPEG (Joint Photographic Experts Group) es un estndar diseado para comprimir imgenes
fijas, tanto en color como en blanco y negro. El objetivo principal de este estndar fue el de
lograr compresiones adecuadas, optimizando el tamao final de los archivos comprimidos,
admitiendo prdida de calidad en la imagen. El algoritmo utilizado divide a la imagen en bloques
de 8 x 8 pxeles, los que son procesados en forma independiente. Dentro de cada uno de estos
bloques, se aplica la transformada discreta de coseno (DCT) bidimensional, generando para
cada bloque, una matriz de 8 x 8 coeficientes. La gran ventaja de estos coeficientes, es que
decrecen rpidamente en valor absoluto, lo que permite despreciar gran parte de ellos (ya que
representan informacin de alta frecuencia espacial).
Conceptualmente, puede considerarse que cada bloque de 8 x 8 est compuesto por una suma
ponderada de 64 tipos de bloques base, como se muestran en la siguiente figura. En esta figura,
cada bloque corresponde con un patrn determinado. El primer bloque (arriba a la izquierda) no
tiene textura. El coeficiente asociado a este bloque se corresponde con la componente de
luminancia promedio del bloque. Es conocido tambin como componente de DC, haciendo analoga
con la componente de continua de una seal elctrica. El resto de los bloques presentan
patrones bien definidos, con frecuencias espaciales crecientes hacia la parte inferior-derecha
de la figura.
El estndar JPEG 2000 est tambin basado en la idea de utilizar para la codificacin los
coeficientes de una transformacin, pero en este caso se utilizan transformadas discretas de
Wavelets (DWT). Esta transformada permite comprimir an ms las imgenes que la DCT. Una
de las principales diferencias entre JPEG y JPEG2000 es que en esta ltima no es necesario
dividir la imagen original en bloques. La transformada DWT se aplica a toda la imagen, lo que
elimina el conocido efecto de bloques.
MPEG-x
MPEG-1 fue originalmente diseado por el Moving Picture Experts Group (MPEG) de la ISO
(International Standards Organization) para el almacenamiento y reproduccin digital de
aplicaciones multimedia desde dispositivos CD-ROM, hasta velocidades de 1.5 Mb/s. MPEG-2
26 fue el sucesor de MPEG-1, pensado para proveer calidad de video desde la obtenida con
NTSC/PAL y hasta HDTV, con velocidades de hasta 19 Mb/s.
La codificacin en MPEG-1 est basada en la transformada DCT para explotar las redundancias
espaciales dentro de cada cuadro, y en tcnicas de estimacin y compensacin de movimiento
para explotar las redundancias temporales (entre cuadros). Las secuencias de video son
primeramente divididas en grupos de figuras (GOP Group of Pictures). Cada GOP puede
incluir tres grupos diferentes de cuadros: I (Intra), P (Predictivos) y B (predictivos
Bidireccionales). Los cuadros del tipo I son codificados nicamente con tcnicas de
compresin espacial (transformada DCT dentro del propio cuadro, por ejemplo). Son utilizados
como cuadros de referencia para las predicciones (hacia adelante o hacia atrs) de cuadros P o
B. Los cuadros del tipo P son codificados utilizando informacin previa de cuadros I u otros
cuadros P, en base a estimaciones y compensaciones de movimiento. Los cuadros B se predicen
en base a informacin de cuadros anteriores (pasados) y tambin posteriores (futuros). El
tamao de un GOP est dado por la cantidad de cuadros existentes entre dos cuadros I.
Tpicamente se utilizan de 12 a 15 cuadros para un GOP, y hasta 3 cuadros entre un I y un P o
entre dos P consecutivos (tpicamente una seal PAL se codifica con un GOP de tamao 12 y una
NTSC con 15, ambas con no ms de 2 cuadros B consecutivos). Un ejemplo tomado de 27 se
muestra en la figura (IBBPBBPBBI), donde las flechas indican los cuadros utilizados para las
predicciones. Cuando ms grande el GOP, mayor compresin se puede obtener, pero a su vez
existe menor inmunidad a la propagacin de errores.
Al igual que en JPEG, en MPEG-1 se divide la imagen de cada cuadro en bloques de 8 x 8 pxeles,
los que son procesados en forma independiente. Dentro de cada uno de estos bloques, se aplica
la transformada discreta de coseno (DCT) bidimensional, generando para cada bloque, una
matriz de 8 x 8 coeficientes. A su vez, cuatro bloques se agrupan en un macro-bloque de 16 x
16 pxeles, el que es utilizado como base para la estimacin del movimiento. La estimacin de
movimiento de un macro-bloque se realiza en el codificador, comparando el macro-bloque
de una imagen con todos las posibles secciones de tamao igual al macro-bloque (dentro de un
rango espacial de 512 pxeles en cada direccin) de la(s) imagen(es) siguiente(s). La
comparacin se realiza generalmente buscando la mnima diferencia (el mnimo valor del error
cuadrtico medio MSE) entre el macro-bloque y la seccin evaluada. Este procedimiento se
basa en la hiptesis que todos los pxeles del macro-bloque tendrn por lo general un mismo
desplazamiento, y por lo tanto, ser ms eficiente codificar un vector de movimiento del
macro-bloque y las diferencias del macro-bloque predicho respecto del macro-bloque
original. Las diferencias entre el macro-bloque predicho y el real tambin son transformadas
mediante la DCT para su codificacin.
H.264
En 2001, el grupo MPEG de ISO/IEC y el VCEG (Video Coding Expert Group) del ITU-T
decidieron unir esfuerzos en un emprendimiento conjunto para estandarizar un nuevo
codificador de video, mejor que los anteriores, especialmente para anchos de banda o
capacidad de almacenamiento reducidos 29. El grupo se llam JVT (Joint Video Team), y
culmin con la estandarizacin de la recomendacin H.264/MPEG-4 Part 10, tambin conocida
como JVT/H.26L/AVC (Advanced Video Coding) o H.264/AVC en 2003. Este nuevo estndar
utiliza compensaciones de movimiento ms flexibles, permitiendo dividir los macro- bloques en
diversas reas rectangulares, y utilizar desplazamientos de hasta un cuarto de pxel. Agrega
adems los cuadros del tipo SP (Switching P) y SI (Switching I), similares a los P e I, pero con
la posibilidad de reconstruir algunos valores especficos de forma exacta.
Las tcnicas de codificacin entrpica que utiliza utiliza H.264 son las conocidas como
Context-Adaptive Variable-Length Coding (CAVLC) y Context-Adaptive Binary Arithmetic
Coding (CABAC). Esta ltima (CABAC) es ms compleja que la primera (CAVLC), pero a su vez,
ms eficiente.
Con H.264/AVC, para una misma calidad de video, se logran mejoras en el ancho de banda
requerido de aproximadamente un 50% respecto estndares anteriores.
En 2007 fue aprobada una extensin de H.264/AVC incluyendo el Anexo G, llamada Scalable
Video Coding o SVC por sus iniciales. Esta modificacin permite la construccin de sub-
flujos de datos dentro de un flujo principal. El flujo principal o capa base (base layer) puede
ser decodificado por cualquier equipo que soporte H.264/AVC, aunque no soporte SVC. Los
flujos adicionales pueden contener informacin adicional del flujo, brindando mayor definicin.
En 2010 fue agregado el Anexo H, llamado Multiview Video Coding o MVC por sus iniciales.
Este agregado est pensado para permitir tener diferentes flujos representando diferentes
visiones de la misma escena, y fue desarrollado para aplicaciones de video en 3D, donde son
necesarios dos flujos de informacin para generar el efecto estereoscpico de una misma
escena.
Por otra parte, los niveles establecen un conjunto de restricciones que se aplican a cada perfil.
Por ejemplo, para cada perfil, un nivel puede determinar la resolucin mxima de pantalla, el
mximo frame rate y el mximo bit rate. Un decodificador que soporta cierto nivel, debe ser
capaz de decodificar cualquier seal que tenga un nivel igual o inferior.
Las tcnicas para la transmisin de vdeo en las redes IP se conocen de forma habitual como
mecanismos de streaming. El streaming se podra definir como la transmisin en tiempo real
(en vivo) de audio y vdeo sobre una red.
Antes de la aparicin de las tcnicas de streaming, las aplicaciones multimedia usaban Internet
nicamente para realizar transferencias de archivos. As, una vez se descargaban los
contenidos por completo podan ser reproducidos. Actualmente, utilizando el streaming, es
posible ir visualizando un contenido multimedia a medida que ste es transferido.
Como hemos visto en los estndares digitales anteriores, los flujos de datos de audio y vdeo
se empaquetan y forman cada uno un flujo elemental (ES), que adems guarda informacin de
sincrona entre ellos. A continuacin, se combinan (al menos uno de vdeo y otro de audio) en un
flujo elemental empaquetado (PES), lo que permite que se combinen ms.
Un segundo punto de vista sera el nivel de enlace, que estudia la identificacin de las tarjetas
de red y el protocolo de intercambio de bits entre ellas. Tambin es ms propia de
desarrolladores y programadores que nuestra, al estar situados en un nivel de uso ms
abstracto.
Las redes IP son un territorio inestable y siempre cambiante de ruta de un punto a otro. Para
que un paquete de datos llegue a su destino, ha de tener indicado dicho destino en cada uno de
los paquetes que conforman los datos que enviar. El protocolo IP es un protocolo robusto, que
no espera que haya un camino asegurado y estable entre origen y destino, sino que los datos se
dividen en paquetes que se envan de manera consecutiva y cada uno navega en una red llena de
paquetes hasta alcanzar el destino que tienen marcado.
Estos paquetes se envan con informacin extra para poder realizar acciones relativas a
garantizar su propia integridad, pero no proporciona ningn tipo de seguridad de que los datos
realmente lleguen al destino (de eso se encargar el protocolo superior, el protocolo de
transporte). Protocolos de transporte (UDP, TCP y SCTP)
Por encima de este cartero que es el protocolo IP, siempre hay un protocolo de transporte
cuya responsabilidad es asegurar la transferencia sin errores de datos entre el emisor y el
receptor. Sin embargo, ha de ser gil o su propia accin puede ralentizar la celeridad con la que
se reciben tales datos. Los bits de este protocolo van dentro del paquete de red.
UDP (User Datagram Protocol)
Protocolo ligero que no da garanta sobre la prdida de paquetes ni la recepcin por duplicado
de paquetes. Slo cuenta con mecanismos de chequeo de datos, si hay que gestionar los errores
en la transmisin se debern hacer en el lado del destinatario (en la aplicacin que los reciba).
Es el protocolo de transporte natural para streaming de vdeo y audio.
En UDP, una prdida, error o duplicacin de paquete no genera ninguna peticin de reenvo por
parte del destinatario.
Este protocolo nos asegura que los paquetes lleguen y lo hagan en orden. Esto se consigue
mediante un mecanismo en el que, cuando no se recibe por parte del destinatario la
confirmacin del paquete durante cierto tiempo, este paquete se reenva. Debido a este
comportamiento, es posible detectar paquetes perdidos y pedir retrasmisin de los mismos. En
el caso de transmisin de stream, cuando se pierden paquetes la retransmisin aumenta el
retardo y el consumo del ancho de banda, lo que puede provocar que se vace el buffer de
reproductor (y por consiguiente la interrupcin de la reproduccin del stream).
En cambio, en TCP se asegura la recepcin correcta de todos y cada uno de los paquetes.
Mecanismo NAT
Este protocolo se basa en datagramas pero, a diferencia del UDP, tiene registro de nmeros
de secuencia con los que realiza controles de paquetes fuera de orden y prdidas que sern
retransmitidas. A diferencia del TCP, este protocolo permite, dentro de una misma conexin
(origen SCTP y destino SCTP), diferentes direcciones IP. Es decir, cada uno de los extremos
de conexin puede tener diferentes IP (manteniendo el puerto de conexin) y los paquetes
sern enviados indistintamente por cualquier IP y a cualquier IP correspondiente cada extremo
SCTP.
Tcnicas de multidifusin
En las redes IP, existen distintas tcnicas para la difusin de la informacin que pasamos a
enumerar.
Broadcast: el envo a todos los nodos en una red se denomina difusin amplia. Lgicamente
aplicable slo en contextos reducidos, por ejemplo para el descubrimiento de recursos en una
red local (LAN)
Protocolos de streaming
Existe una tercera categora de protocolos diseados especficamente para streaming,
conocidos como protocolos de tiempo real, que intentan asegurar el envo de flujos de datos
con una cadencia asegurada, tal como necesita el material audiovisual.
RTCP (Real Time Transport Control Protocol). Es usado en conjuncin con el RTP para la
recepcin de informes estadsticos. Permite, por ejemplo, la deteccin de fallos en el rbol de
distribucin de clientes multicast, del nmero de paquetes perdidos y estadsticas de
fluctuaciones (jitter).
Existen informes enviados por el emisor e informes enviados por el receptor. Por ejemplo, los
del emisor son habitualmente el volumen de cuadros enviados o cantidad de bytes y los
informes del receptor presentan los cuadros perdidos o la tasa de cuadros entregados.
RTSP (Real-Time Streaming Protocol). Realiza control sobre datos multimedia de tiempo real,
lo que brinda la posibilidad de interactividad con el reproductor, de forma similar a un vdeo
reproductor domstico. El RTSP permite reproducir, pausar, adelantar y ms. Tambin puede
reaccionar a congestiones en la red y reducir el ancho de banda.
El RTSP se inspir en el protocolo web (HTTP 1.1), pero con la mejora por la que se puede
mantener el estado de la conexin (el HTTP no mantiene estado) y que ambos (cliente y
servidor) pueden realizar pedidos. El RTSP soporta el RTP como protocolo de transporte. Una
de sus utilidades es brindar una forma inicial de escoger el canal de distribucin ptimo hacia
el cliente.
Dentro de estas tablas, se encuentra toda la informacin necesaria para extraer de forma
correcta cada stream de vdeo, audio y datos y seleccionar as los diferentes programas en el
receptor. Las tablas PAT y PMT siempre estn presentes dentro del stream, mientras que las
otras dos pueden depender del stream, quese est transmitiendo.
En la tabla PAT (identificadas con PID = 0 x 0000), se asocia el nmero de programa con el
PID en el que vendrn la PMT para dicho programa. Por ejemplo, en la figura siguiente se
muestra que en los paquetes con PID nmero 15 van a ser transmitidos los paquetes
correspondientes a la PMT del programa 1. A su vez, dentro de la tabla PMT, y entre otras
cosas, se encuentra qu PID y, por lo tanto, qu ES estn asociados a qu programas; en este
ejemplo, se define que el PID nmero 64 es un ES de audio correspondiente al programa
nmero 1.
Conclusiones
Las imgenes son captadas por cmaras de vdeo que proporcionan una seal analgica RGB.
La digitalizacin est basada en el estndar ITU-R En funcin de la calidad de vdeo deseada,
existen diversos formatos de imagen, barrido, etc.
La captacin de audio y vdeo presenta un nivel de dificultad mayor que la captura de imagen: la
naturaleza entrelazada del muestreo y los tipos de muestreo de luminancia y crominancia en
funcin de la densidad de informacin deseada por pxel.
Dos grandes familias de compresin de audio y vdeo son definidas, las que generan y las que no
generan prdidas de informacin en la compresin. El estudio de la respuesta humana ante la
redundancia espacial y temporal hace posible encontrar tcnicas de compresin con prdidas
que minimizan la informacin visual perdida.
la transmisin en vivo de datos audiovisuales por redes de datos, donde destacan los protocolos
de transporte y de tiempo real seleccionables para asegurar la cadencia de la recepcin en
situaciones de prdida, error o duplicacin de datos y se analizan los mecanismos de
transmisin de datos entre los routers de la red para reducir la carga inherente sobre la
infraestructura de comunicaciones y, por ende, su coste.
Recomendaciones
Una secuencia de vdeo es una sucesin de imgenes que producen sensacin de movimiento.
El proceso completo de transmisin de vdeo con compresin consiste en: Adquisicin del vdeo
a transmitir. Captura analgica de la secuencia de imgenes. Digitalizacin del vdeo.
Respecto a la transmisin de los datos generados, hay una solucin para cada tipo de medio
posible que asegure su distribucin e igualmente hay otra solucin para cada medio en el que se
desee su almacenamiento.
Dado que no siempre se utilizan los estndares MPEG-2 y MPEG-4 para almacenar y transmitir
la informacin, estos mecanismos se presentan en apartados separados de los de los
estndares.
Un CODEC es un algoritmo con el cual se procesan los datos para su compresin y con el que es
necesario trabajar para su restauracin. Por tanto son bidireccionales (comprimen y
descomprimen). Sea cual sea el CODEC que utilicemos se basa en un mtodo de compresin de
los que podemos hacer dos divisiones.
La diferencia que hay entre un cuadro y el siguiente en una secuencia de vdeo es escasa, por lo
tanto no es necesario grabar todos los fotogramas, basta con grabar uno completo (key-frame
o I-frame) y luego guardar las evoluciones de ese cuadro. Si tenemos un busto parlante delante
de una pared con la cmara fija, el fondo y gran parte del comentarista no cambia de un cuadro
a otro, por lo tanto se utiliza la informacin del cuadro anterior y slo se graban las partes que
ha cambiado (rasgos de la cara).
https://www.exabyteinformatica.com/uoc/Audiovisual/Plataformas_de_distribucion_de_conte
nidos/Plataformas_de_distribucion_de_contenidos_(Modulo_2).pdf
https://eva.fing.edu.uy/pluginfile.php/67091/mod_resource/content/2/codificacion/Codificac
ion%20de%20voz%20y%20video.pdf
http://www.grc.upv.es/docencia/tdm/slides/T6_video.pdf
http://www.i3a.uclm.es/cursoverano2014/data/_uploaded/ppt/El%20c%C3%B3dec%20en
%20TV,%20de%20la%20ingesta%20a%20la%20antena%20v3.pdf