Anda di halaman 1dari 39

2

TV Digital Interativa: Conceitos e Tecnologias

Carlos Montez e Valdecir Becker

Resumo

Neste capítulo é estudada a TV Digital Interativa. São apresentados desde os aspectos


sociais que envolvem o tema, até os principais sistemas, arquiteturas e componentes
técnicos. São cobertos os principais conceitos e tecnologias, necessários para a
compreensão do assunto. Além disso, é dada uma grande ênfase na realidade
brasileira, com os desdobramentos que o tema adquiriu no país.

2.1. Introdução
Este texto enfoca um tema que usualmente não faz parte dos currículos de graduação: a
TV digital interativa. Apesar de algumas disciplinas o tratarem indiretamente, a maioria
dos currículos de graduação carece de um enfoque maior no assunto, se restringindo a
sistemas multimídia e hipermídia e codificação e compressão de vídeo. Além disso, esse
tema é multidisciplinar, englobando áreas como telecomunicações, engenharia elétrica,
computação, jornalismo e sociologia, para citar só algumas. Essa ampla abrangência
torna praticamente impossível que o tema seja abordado de forma holística em qualquer
curso de graduação, exigindo que o aluno complemente sua formação com cursos
extracurriculares e leituras autodidatas.
Além disso, para um entendimento completo dessa matéria, é imprescindível
que o aluno tenha noções de outras áreas, muitas vezes não técnicas. Já não é mais
possível separar o desenvolvimento de hardware e software sem considerar a finalidade
da tecnologia. Questões relativas à usabilidade podem afetar alguns requisitos de
hardware ou gerar novas demandas de software. Por isso, a influência de áreas como
jornalismo e sociologia torna-se necessária quando falamos de TV digital e interativa.
O principal objetivo deste texto é oferecer uma visão geral sobre os conceitos de
TV digital e interativa, além de abordar as tecnologias envolvidas. Após o estudo deste
texto, o leitor deverá saber o que é TV digital e interativa, a evolução da tecnologia, que
propicia mais essa evolução tecnológica e o conseqüente surgimento de uma nova
mídia. Além disso, o leitor terá contacto com os principais componentes de um sistema
de TV digital, a saber: modulação, codificação, transporte, middleware e aplicações.
Dentro desse contexto, serão apresentados os objetivos do governo com o
Sistema Brasileiro de TV Digital (SBTVD), que vai nortear as discussões em torno da
transição analógico/digital. Dessa forma, o leitor poderá, primeiro, entender a discussão
sobre o assunto, para depois, ter uma participação mais ativa, interferindo inclusive no
debate sobre a escolha de um padrão estrangeiro ou o desenvolvimento de um nacional.
Para que esse debate atinja toda sociedade, é fundamental que as pessoas saibam do que
trata esse complexo assunto, que pelos conceitos envolvidos afasta as pessoas não
acostumadas com o dia-a-dia das telecomunicações ou dos conceitos de multimídia e
radiodifusão.
Este texto está dividido em nove seções, de acordo com os conceitos envolvidos
e tecnologias utilizadas. Os estudos começam com conceitos teóricos, que vão migrando
gradativamente para a composição técnica da TV digital e interativa, visando facilitar a
compreensão do leitor.

2.2. A tecnologia a serviço da sociedade


Quando falamos em tecnologia normalmente estamos nos referindo a melhorias no
quotidiano das pessoas. Se uma tecnologia supera a outra, ela é melhor. Esse raciocínio
pode até ser correto do ponto de vista tecnológico, pois efetivamente as tecnologias
tendem a se auto-superarem, substituindo as já ultrapassadas. Porém, do ponto de vista
social, as novas tecnologias muitas vezes trazem problemas que as anteriores não
tinham, ou que já haviam resolvido. O acesso às novas tecnologias é apenas um
exemplo de como essa evolução pode não ser benéfica para todo mundo. Com o passar
do tempo e o encarecimento dos novos produtos, passa a ser criado um fosso entre as
pessoas com e sem acesso, um apartheid digital hodierno, cuja resolução está longe da
própria tecnologia.
Esse aspecto é agravado com a importância que a informação adquiriu na nova
era do conhecimento. Como os produtos digitais são usados predominantemente para
gerar, gerenciar e transmitir informações, quem não possui acesso à tecnologia fica
automaticamente fora do mundo do conhecimento, entrando num ciclo vicioso criado
pela evolução tecnológica e pela sociedade da informação.
A evolução da tecnologia na televisão tem uma implicação direta e indireta com
a sociedade da informação. Direta porque fornece acesso à informação, que, se de
qualidade, e aliada à educação do novo telespectador interativo (chamado por [Becker e
Moraes 2003] de “iespectador”), pode ser transformada em conhecimento. A televisão
digital não é apenas uma evolução tecnológica da televisão analógica, mas uma nova
plataforma de comunicação, cujos impactos na sociedade ainda estão se delineando. O
ministério das Comunicações em uma carta de intenções endereçada à Presidência da
República diz [Ministério das Comunicações 2003]:
Cerca de 90% dos domicílios brasileiros possuem receptores de televisão. No
entanto, mais de 81% recebem exclusivamente sinais de televisão aberta. A
programação transmitida aos telespectadores é uma das mais importantes fontes de
informação e entretenimento da população brasileira, ao que corresponde uma
inegável responsabilidade no que tange à cultura nacional e à própria cidadania.
Para [Wiener 1968], “informação é o termo que designa o conteúdo daquilo que
permutamos com o mundo exterior ao ajustar-nos a ele, que faz com que nosso
ajustamento seja nele percebido”. Sabendo que essa definição não resume todos os
sentidos do substantivo informação, apenas tomando-a como base e considerando que
há mais de 65 milhões de receptores televisivos no país, o que equivale a quase uma TV
para cada três habitantes, e que, pelo menos as classes sociais desfavorecidas, têm na
TV a principal fonte de contato com o mundo, o brasileiro se informa pela TV.
Outra relação da sociedade da informação com a televisão se refere à própria
evolução tecnológica como um todo. Como qualquer tecnologia, a informática também
tem inúmeras pessoas com acesso a ela e outras, em número bem maior, que estão
alijadas do processo tecnológico evolutivo. No início, as pessoas não têm acesso à
tecnologia porque não a conhecem ou porque não têm condições financeiras. Esse fosso
tecnológico se acentua com o passar do tempo porque para as pessoas isoladas da
tecnologia fica cada vez mais difícil recuperar o tempo perdido e entrar nesse mundo
novo, cheio de informações. Para as pessoas que têm acesso desde o início, a evolução
parece natural.
Por que é tão difícil para uma pessoa que nunca teve um computador aprender a
usá-lo adequadamente? Essa pergunta pode ser respondida com um exemplo simples:
uma criança com acesso a essas tecnologias se alfabetiza digitalmente à medida que se
vai se alfabetizando na leitura e escrita. Para essa pessoa, quando adolescente ou adulta,
o computador será uma ferramenta muito poderosa para resolver problemas no dia-a-dia
da escola e mais tarde, do trabalho.
Agora, tomemos como exemplo, uma pessoa que, quando criança, vê um
computador apenas pela televisão e toma contato real com ele depois de adulto, já
preocupada em como se integrar no disputadíssimo mercado de trabalho. O então
“analfabeto digital”, além de ter um currículo profissional sem expressão, precisa fazer
um curso para aprender a operar um computador. Concluído o curso, esse certificado
incrementa o currículo, mas não resolve o problema do analfabetismo digital: o
computador dificilmente vai chegar a ser uma ferramenta para solução de problemas.
Resumindo, pode-se afirmar que a privação tecnológica gera um círculo vicioso
em que a dificuldade de dominar os recursos tecnológicos modernos gera uma pior
qualidade de vida. Esta, por sua vez, diminui as oportunidades profissionais,
desvalorizando a mão-de-obra e reduzindo os ganhos. Dessa forma, o círculo se fecha,
gerando a pior qualidade de vida, conseqüência da menor remuneração profissional.

2.2.1. O que é exclusão digital


Essa falta de acesso à tecnologia recebe o nome de exclusão digital. É formada
basicamente pela indisponibilidade de três recursos básicos: um computador, uma linha
telefônica e um provedor de acesso. A parte do provedor pode ser equacionada pela
proliferação de provedores gratuitos, disponíveis em boa parte do território brasileiro. O
maior problema ainda reside no acesso a um computador (que apesar de ter tido seu
preço reduzido muito nos últimos anos, ainda está inacessível para 90% da população),
e a uma linha telefônica.
No final de 2003, apenas 29 em cada 100 habitantes possuíam linha telefônica,
isso sem considerar o número de famílias que possui mais de uma linha, e as linhas que
estão instaladas nas empresas. Se considerarmos também a telefonia móvel, os números
melhoram, mas ainda estão longe do ideal: entre linhas pré e pós-pagas, menos de 27
pessoas tinham celular para cada 100 habitantes [Atlas Brasileiro de Telecomunicacoes
2004], [Anatel 2004].
E qual a relação dessa discussão com a televisão? É simples. Como a transição
para um modelo digital está a caminho também no Brasil, o governo aposta nesse novo
mercado para reverter o processo de exclusão digital da sociedade brasileira. Segundo
dados da Anatel, apenas 7,5% da população brasileira tem acesso à internet, e apenas
10% tem computador em casa [Becker e Montez 2004]. Num primeiro momento é
tecnologicamente inviável, devido à ausência de um canal de interatividade universal,
fornecer acesso à internet pela televisão. Mas serviços como governo eletrônico, saúde,
educação, entre outros, podem ser oferecidos de forma adicional a simples transmissão
unidirecional do vídeo. Essa iniciativa já pode levar alguma cidadania e melhorar a vida
de milhões de pessoas, até então desassistidas pelo poder público.
Dessa forma, é possível reverter o círculo vicioso descrito, tornando-o virtuoso.
Com o acesso à informação propiciado pela nova tecnologia (TV digital com novos
serviços), a qualidade de vida das pessoas melhora, aumentando também as
oportunidades pessoais e profissionais. O aumento de oportunidades eleva a
remuneração pelos serviços prestados, o que melhora a qualidade de vida.

2.2.2. Novas linguagens


Essa nova televisão, chamada de interativa por muitos ([Gawlinski 2003], [Grotticelli
1999], [Maclin 2001]) ou meramente reativa por outros ([Becker e Montez 2004],
[Reisman 2002]), vai demandar uma nova linguagem televisiva, seja do próprio vídeo,
ou das aplicações e serviços adicionais que serão oferecidos. A televisão sempre foi
unidirecional, com o telespectador totalmente inerte, podendo no máximo mudar de
canal; a internet, por natureza, é interativa, com papel ativo dos internautas. Com a
exceção de alguns poucos sites mais dinâmicos, nada acontece na tela do computador
sem uma ação prévia do usuário. Na TV, essa ação sempre foi impossibilitada.
Para [Nielsen 2000], o comportamento do telespectador difere drasticamente do
internauta. Enquanto o primeiro apenas recebe informações de forma passiva, sem
interferir, o segundo determina os rumos da navegação. Assim, a internet caracteriza-se
como um meio rico em informações baseado em um alto grau de iniciativa e
participação. O autor aponta uma característica fundamental para o sucesso de qualquer
site: a usabilidade. Acreditamos ser esse conceito essencial também na TV interativa. O
princípio norteador de qualquer gestor de programa e serviço televisivo deve ser
facilitar a vida dos “iespectadores”, para que estes consigam assistir de forma
simplificada seus programas favoritos.
Agora, com a previsão do incremento das atrações da televisão, é necessário
rediscutir a relação da unidirecionalidade da TV com a interatividade natural dos
computadores e da própria internet. A unidirecionalidade deixa de existir, pois o
telespectador pode enviar informações para a emissora ou para um provedor do serviço
acessado, passando a ter um papel ativo, quebrando o segundo paradigma televisivo,
que é a inércia.
Não se pode esquecer que essa transição é um processo longo e cheio de erros e
acertos, como foi a história da própria televisão brasileira. Quando Assis Chateubriand
trouxe a televisão para o país, iniciando um processo que iria resultar nos Diários
Associados, o primeiro império da comunicação brasileiro, não havia produção de vídeo
no país. Com exceção a poucos cineastas, que nada entendiam de televisão, e pouco de
cinema, a produção audiovisual era inexistente. Os primeiros programas televisivos
transmitiam a programação das rádios, principalmente os programas de auditório,
sucesso de audiência na época. Assim foi durante toda década de 1950 e inicio da
década de 1960. Aos poucos foram surgindo programas novos, oriundos das mentes dos
produtores de radioteatros e radionovelas, recém promovidos a produtores audiovisuais.
Somente com a elaboração do “Padrão Globo de Qualidade”, no final de década
de 1960, a televisão começou a criar uma linguagem própria, independente do rádio.
Outras pessoas, não oriundas do rádio, passaram a assumir a programação das
emissoras, incrementando a programação e melhorando os níveis de audiência.
Quando Walter Clark diz que no início da Rede Globo, na década de 1960, a
programação era estabelecida com base nas pesquisas do Ibope, o telespectador já
estava interferindo indiretamente na programação [Clark 1991]. Clark explica que
(...) nesta fase, primeira metade dos anos 70, a Globo sofisticou ao extremo o
planejamento de sua programação, usando intensamente a pesquisa. Eu e o Boni
(José Bonifácio Oliveira Sobrinho, ex-presidente da TV Globo. Na época, co-
responsável pela programação da emissora. Grifo nosso.), que tínhamos formação
de publicidade, éramos ligadíssimos em pesquisa e sabíamos analisar os dados que
elas apresentavam, sabíamos converter o desejo do telespectador em programas.
Esse processo durou até a década de 1990, quando o jargão “interativo”
começou a tomar conta de todo programa no qual o telespectador pudesse mandar um e-
mail ou uma carta. O programa de maior sucesso foi o “Você Decide”, da Rede Globo,
onde os telespectadores podiam votar e escolher pelo telefone um dos três finais
propostos.
Depois desse sucesso de audiência, que ficou mais de quatro anos no ar,
somando as várias temporadas, a moda, que dura até hoje, passou a ser os reality shows.
São programas que simulam situações da vida real, baseadas em relações pessoais, onde
as pessoas são eliminadas pelo voto do público e o vencedor ganha um prêmio.
Segundo Humberto Eco, a linguagem da televisão é resultado da combinação de
três códigos: o icônico, o lingüístico e o sonoro [Eco 1973]. O código icônico se refere à
percepção visual. É através da visão que percebemos parte do conteúdo televisivo. O
segundo código, o lingüístico, se refere a toda gama de palavras, isoladas ou em forma
de frases. O código sonoro se refere à música e aos efeitos sonoros. Pode se manifestar
de forma isolada ou combinada.
Apesar de Eco não atribuir importâncias superiores ou inferiores a qualquer dos
três códigos, na televisão predomina o icônico. Segundo [Rezende 2000], é possível
compreender a linguagem televisiva somente pelos códigos icônicos, que é o suporte
básico da linguagem televisiva, sem desconsiderar que, no caso brasileiro, há uma forte
presença verbal.
Michel Chion, citado por Rezende, vai mais longe ao relacionar os três códigos
de Eco. Para ele, em qualquer espetáculo audiovisual, a audição e a visão suscitam
percepções específicas – chamadas de “audiovisão” – o que impediria a hierarquização
dos sentidos. Dessa forma, substitui-se a idéia de hierarquia, pela de
intercomplementação dos sentidos. “Se o som faz ver a imagem de modo diferente do
que esta imagem mostra sem ele, a imagem, por sua parte, faz ouvir o som de modo
distinto ao que ressoaria na obscuridade” [Chion 2000].
Essa relação não estava clara no inicio da televisão brasileira, quando se fazia
programas como se fossem rádio com imagens. Da mesma forma que atualmente a
relação da TV com a interatividade ainda não está bem definida, por isso se faz TV com
internet, e não TV interativa.

2.3. Vantagens da TV digital e o conceito de interatividade


A televisão – assim como qualquer outra mídia ou veículo de comunicação – também
está envolvida num constante processo evolutivo e de adaptação às novas tecnologias e
necessidades sociais. Desde o primeiro canal de TV, a BBC de Londres, fundada em
1936, a televisão já passou por várias mudanças. Além da cor, que a deixou muito mais
atraente ainda na década de 1950, também aumentou o número de canais, originando as
primeiras escolhas do telespectador. Com o aumento dos canais o controle remoto
tornou-se necessário, dispensando a locomoção e aumentando o conforto de quem
assiste; era o primeiro componente digital integrado aos aparelhos receptores do sinal
televisivo.
A próxima etapa da evolução tecnológica da TV reside na digitalização de parte
da produção, com a introdução de câmeras e ilhas de edição digitais. O passo seguinte
foi o da transmissão digital dos fluxos de áudio e vídeo e o uso de set top boxes para
receber e decodificar esses fluxos. A fase final de mais essa evolução da TV é a da
substituição do conjunto TV analógica + set top box por receptores totalmente digitais.
Resumindo, pode-se afirmar que a transmissão televisiva é fruto de um conjunto
de procedimentos – produção, edição, transmissão e recepção – pelos quais o sinal da
TV chega até a casa dos telespectadores. Num primeiro momento, logo após as
primeiras emissoras entrarem em operação, esses procedimentos eram muito mais
simples se comparados com os atuais: havia uma câmera que gerava o sinal, enviando-o
diretamente para a antena que fazia e transmissão até a casa dos telespectadores. Tudo
era ao vivo. Apenas quando surgiu o videoteipe, em 1956, foi introduzido o segundo
procedimento: a edição. A partir de então os vídeos gerados pela câmera poderiam ser
armazenados, editados e posteriormente transmitidos. Foi o primeiro passo para a
sofisticação da produção e pós-produção dos programas.
Na década de 1980, as ilhas de edição digitais passaram a oferecer mais
flexibilidade e maiores recursos aos editores. Podemos considerar esse avanço
tecnológico como o nascer da TV digital. No lado da recepção, o aparelho de TV passa
a contar com o controle remoto. Eram avanços fundamentais que mostravam ser
possível também a transmissão digital, amplamente testada na década de 1990, porém
na internet, com cabos. Quase simultaneamente começaram os testes para a modulação
do sinal audiovisual para a transmissão terrestre e por satélite.

2.3.1. Transição para a TV em cores


A televisão surgiu com imagens em preto e branco. As cores vieram na década de 1950,
com a criação do modelo NTSC (National Television Standards Committee), definido
por uma associação entre o comitê de especialistas homônimo com as emissoras e os
fabricantes de TV nos EUA. Inicialmente o comitê especificou como as imagens em
preto e branco deveriam ser transmitidas analogicamente. Foi estabelecido que a
freqüência de troca de quadros na imagem seria de 30 quadros/seg, proporcional aos
60Hz utilizados na corrente elétrica nos EUA; a quantidade de linhas na tela seria de
525 e a resolução horizontal de 330 pontos. No início da década de 1960 o padrão
NTSC foi implementado, tendo sido acrescentadas as especificações para imagens
coloridas.
O NTSC foi criticado na época do lançamento pela inconstância das cores, cujas
tonalidades dificilmente eram mantidas nos quadros subseqüentes. Por isso, no final da
década de 1960, foi proposto o padrão PAL (Phase Alternate Lines), criado na
Alemanha. A corrente elétrica alternada era gerada em 50 Hz, por isso a freqüência de
mudança de quadros foi especificada a 25 quadros/seg. Para compensar a perda na
qualidade visual devido à redução dos quadros/seg, a quantidade de linhas na tela foi
ampliada para 625. Essa mudança tornou a imagem mais nítida e melhor definida. A
reprodução de cores ficou mais precisa do que no sistema norte-americano. Com isso, o
padrão alemão foi adotado em vários países do mundo.
Vários países adotaram o sistema PAL, mas com algumas modificações na
maioria dos casos. Daí a origem das declinações do padrão alemão: PAL-M, PAL-N,
PAL-D, PAL-I, PAL-B, PAL-G e PAL-H.
Paralelo ao desenvolvimento do sistema alemão, a França também criou o seu
próprio sistema para televisão em cores: o SECAM (Systeme Electronique Couleur
Avec Memoire), desenvolvido no final dos anos 1960. Os países que o adotam possuem
corrente elétrica com freqüência de 50 Hz, o que resulta em imagens de 25 quadros/seg.
As diferenças entre o padrão PAL e SECAM são tão pequenas que a conversão entre
eles pode ser feita por um simples decodificador. Além disso, a maioria dos receptores
PAL é capaz de exibir imagens (em preto e branco) transmitidas em SECAM. Teve um
importante papel político durante a Guerra Fria, ao ser adotado pelos países do Leste
Europeu para inviabilizar a recepção do sinal de países capitalistas.
No Brasil, a transição para o modelo de TV em cores ocorreu em 1972, após
muitas discussões e pressões pela adoção de um padrão estrangeiro. Os testes para a
migração para um sistema colorido começaram em 1961. Após dois anos de
experimentação, a TV Tupy colocou no ar o documentário norte-americano “A volta ao
Mundo”, transmitido no sistema NTSC. Naquele ano havia 300 aparelhos capazes de
receber o sinal colorido, todos importados e espalhados pela cidade de São Paulo.
Para escolher qual dos três padrões internacionais seria adotado, o governo
brasileiro convocou o Conselho Nacional de Telecomunicações (Contel), que nomeou
uma comissão de engenheiros da USP especialistas em Telecomunicações. Em março
de 1967, ficou definido que o país adotaria o PAL europeu. Contudo, como o PAL era
25 quadros/seg e o Brasil possuía freqüência de rede elétrica de 60Hz, o padrão
brasileiro foi uma variação do PAL, denominado PAL-M (‘M’ de ‘Modificado’ [Xavier
e Sacchi 2000]), com 30 quadros/seg e 525 linhas.
Analisando hoje, mais de 30 anos após a adoção do PAL-M, é fácil perceber
quais os erros e acertos da comissão nomeada pelo Contel. Porém, na época, a discussão
sobre como deveria acontecer a transição para o novo modelo muito se assemelhou aos
debates referentes ao SBTVD. Primeiro foram feitos testes isolados pelas próprias
emissoras, depois o governo tomou a decisão para si, criando uma comissão para
estudar o caso e posteriormente anunciando que seria feita uma adaptação de um padrão
já existente, para depois lançá-lo comercialmente. No caso do SBTVD, após os testes da
Set/Abert/Anatel, finalizados em 2000, o governo se reservou o direito de decidir como
será a transição para o modelo digital e criou grupos de trabalho que vão decidir o
futuro da TV no país. Tudo indica que o caminho a ser percorrido seja semelhante ao
escolhido na década de 1960, com a escolha de um padrão estrangeiro como base e
fazendo as alterações necessárias para a plena adaptação à realidade e às necessidades
brasileiras.
Até aqui as semelhanças não trazem problemas. Não é objetivo deste texto
discutir os motivos que levaram a adoção PAL-M, nem apontar alternativas políticas
para o SBTVD. O fato é que o maior problema da adoção do sistema europeu
modificado foi mercadológico. Apesar da decisão de adaptar o sistema europeu ter sido
tomada em 1967, o lançamento oficial apenas pôde ser feito em 1972. Para comemorar
o oitavo aniversário do golpe militar, o governo determinou o dia 31 de marco para
lançar o padrão PAL-M. Segundo [Xavier e Sacchi 2000], “a justificativa para o atraso
foi o longo prazo dado aos fabricantes de televisores, que precisavam projetar
receptores compatíveis com o sistema PAL-M”. Esse prazo foi necessário para que a
indústria pudesse se adaptar e desenvolver os aparelhos, inéditos no mundo e que só
seriam vendidos no Brasil.
As vendas das TVs PAL-M começaram as vésperas do carnaval de 1972, com
um fracasso de aceitação por parte do público. O preço era muito alto. “(...) e a ausência
de uma razoável programação colorida na época tornaram o artigo um fracasso
comercial” [Xavier e Sacchi 2000]. São lições que não podem ser esquecidas na
condução do processo transitório entre a TV analógica para a digital.

2.3.2. Vantagens da TV Digital


Além da melhoria da qualidade do áudio e do vídeo, perceptíveis a primeira vista para
qualquer pessoa, a TV digital também possibilita a interativa e otimiza o espectro de
radiofreqüências, características fundamentais que impulsionam a transição para o novo
modelo.
A vantagem mais perceptível da transmissão em sistema digital é a conservação
da qualidade do sinal. O número de linhas horizontais no canal de recepção, mesmo em
modo SDTV, é superior a 400, sendo idêntico àquele proveniente do canal de
transmissão. Nos atuais sistemas analógicos, em função das perdas, a definição nos
aparelhos receptores (TVs e videocassetes) atinge, na prática, somente 330 linhas
horizontais. Isso impacta diretamente na qualidade da imagem que vemos na TV.
Digitalmente, a imagem é muito mais imune a interferências e ruídos, ficando livre dos
“chuviscos” e “fantasmas” tão comuns na TV analógica. Na transmissão digital, os
sinais de som e imagem são representados por uma seqüência de bits, e não mais por
uma onda eletromagnética análoga ao sinal televisivo.
As modalidades mais conhecidas de televisão digital são a SDTV (Standard
Definition Television), a HDTV (High Definition Television) e a EDTV (Enhanced
Definition Television). A primeira é um serviço de áudio e vídeo digitais, parecida com
a TV analógica, na relação de aspecto 4:3 (largura:altura da imagem), cujos aparelhos
receptores possuem 408 linhas, com 704 pontos em cada uma. A HDTV, cuja imagem
possui formato 16:9, é recebida em aparelhos com 1080 linhas de definição e 1920
pontos. Entre esses dois sistemas existe a EDTV, TV de média definição, que possibilita
a utilização de aparelhos com 720 linhas de 1280 pontos. Dependendo da largura de
banda disponível para a transmissão, é possível mesclar essas modalidades de TV
digital, uma vez que a qualidade da imagem no receptor é proporcional à banda
utilizada pela transmissão.
A TV analógica esgotou suas possibilidades de melhoramento tecnológico; não
há como expandi-la ou melhorá-la para atender as demandas que surgiram. Para haver
qualquer comunicação entre o transmissor e o telespectador é necessário um outro meio
de comunicação, seja telefone ou internet. Com o passar do tempo, tornou-se imperativo
unir essas ferramentas de comunicação à TV; tudo em nome da comodidade de quem
transmite e de quem recebe a mensagem do outro lado da telinha.
A interatividade não se resume no simples aumento da comodidade das partes
envolvidas na transmissão televisiva. Envolve também aspectos financeiros, ao
aumentar a quantidade e a qualidade dos serviços oferecidos. Dentro desses serviços
podemos destacar o comércio televisivo (t-comércio), onde o telespectador passa a ter a
oportunidade de adquirir os produtos anunciados diretamente pela TV, sem a
necessidade de acessar o site da empresa anunciante ou se deslocar a uma de suas lojas.
Esses serviços adicionais são possíveis graças ao datacasting, ou transmissão de
dados multiplexados com o sinal audiovisual. O datacasting permite a comunicação do
transmissor com o telespectador através do envio de dados, geralmente em forma de
texto, dando início à interatividade. O próximo passo é a reação de quem assiste, que
pode, ou não, querer interagir naquele momento.
Outro serviço muito importante que pode ser oferecido pela TV digital é o
acesso à internet. Como vimos na seção anterior, a inclusão digital deve representar um
papel fundamental na adoção do modelo brasileiro de TV digital. É uma tecnologia que
não pode ser desperdiçada diante do quadro da exclusão social e conseqüentemente,
digital, na qual está mergulhada a sociedade brasileira. Prover o acesso à internet pela
TV não traz só novos telespectadores, mas também, ou melhor, novos internautas,
atualmente excluídos do mundo virtual pela falta de acesso à tecnologia.
Um serviço que está adquirindo fundamental importância no país é o governo
eletrônico, ou no caso da TV digital, governo televisivo (t-governo). O t-governo
consiste em oferecer serviços governamentais pela TV, facilitando o acesso aos
mesmos, evitando deslocamentos a cartórios, prefeituras ou postos de informação,
reduzindo a burocracia. É considerado por muitos especialistas como a forma mais
eficiente de inclusão. Ao disponibilizar pela TV as informações (antes acessíveis
somente pela internet, no caso do e-governo, ou em estabelecimentos oficiais), permite
a fiscalização por parte da sociedade dos atos do poderes públicos, e torna o
conhecimento mais democrático.
O sucesso da TV digital no Brasil pode estar diretamente atrelado ao sucesso da
inclusão digital. Como vimos acima, essa nova mídia vai oferecer inúmeros serviços
novos, mas quem vai pagar por eles? Não podemos nos esquecer de que no Brasil a TV
é aberta, ninguém precisa pagar para assistir – a TV a cabo tem pouquíssima
penetração, praticamente se restringindo à classe “A”. E para justificar essa oferta, bem
como recompensar o alto investimento necessário para a implantação do sistema, o
mercado consumidor para esses novos produtos é essencial, sob pena do modelo estar
fadado ao insucesso. E onde pode estar esse mercado consumidor? Nas classes “C”, ”D”
e “E”, atualmente fora desse mercado por não terem acesso à internet. Individualmente,
pode não representar um mercado de alto poder aquisitivo, mas considerando-se os
alcances financeiros dessas pessoas macroeconomicamente, certamente podem fazer a
diferença no balanço financeiro das empresas no final do ano.
Outra grande vantagem da TV digital é a otimização do espectro de freqüências,
que pode ocorrer de duas formas:
1. compactação do sinal: na transmissão analógica, os sinais não podem ser
comprimidos ou compactados, tal como ocorre na transmissão digital. Cada
pixel (um ponto da imagem) do sinal analógico precisa estar incluído no sinal.
Numa transmissão analógica padrão, são emitidos sinais com 525 linhas por 720
pixels, totalizando 378 mil pixels por quadro, o que ocupa todo canal de 6 MHz
disponível no sistema brasileiro. Como será visto mais adiante neste texto, a
transmissão digital pode ser compactada, reduzindo a banda usada na
transmissão. A compactação leva a uma menor taxa de transmissão,
possibilitando que mais conteúdo seja veiculado nos mesmos canais. Por
exemplo, na faixa de freqüência de 6 MHz que um canal de TV analógica
brasileiro necessita, podem ser transmitidos simultaneamente diversos sinais de
TV digital. Com as atuais tecnologias de compactação é possível transmitir um
canal de HDTV ou até quatro de SDTV.
2. eliminação de interferências: na transmissão analógica, seja UHF ou VHF, um
canal interfere no outro se ambos forem alocados em freqüências muito
próximas. Para evitar isso, é preciso deixar uma certa faixa do espectro livre
entre dois canais. Vários canais sintonizam bem num certo número de canal,
mas seu áudio ainda pode ser percebido um número acima ou abaixo, num canal
livre, onde nada deveria ser sintonizado. Na transmissão digital isso não
acontece mais, pois um canal não interfere no outro. Se tomarmos como
exemplo Florianópolis, SC, temos em uso os canais 2, 4, 6, 9, 12, 15, 18 e 20.
Ou seja, 120 MHz para transmitir oito canais, que em tese precisam de apenas
48 MHz. No sistema digital os canais vagos podem ser realocados para outras
emissoras de TV ou prestadoras de serviços de telecomunicações.
Todas essas vantagens só são possíveis graças à convergência de tecnologias,
alardeada há pelo menos duas décadas. Do lado da produção, o computador já é
amplamente usado na edição e codificação dos vídeos. Porém do lado do telespectador,
o uso do PC para assistir TV ainda é praticamente desconhecido, com poucas exceções
feitas por placas especiais capazes de decodificar os sinais das antenas analógicas. No
caso da TV digital, tanto o set top box, como o próprio aparelho de TV, são
computadores bastante potentes. A interatividade e o provimento dos serviços
apresentados acima seriam impossíveis sem o uso de computadores na recepção do sinal
da TV.

2.3.3. O conceito de interatividade


Se formos analisar a quantidade de produtos que se autoproclamam interativos, veremos
que esse número aumentou muito nos últimos anos. São celulares, vídeo-games,
cadeiras de cinema, programas de rádio e TV, peças de teatro. O adjetivo interativo
torna o produto a ser comercializado mais moderno aos olhos do consumidor [Lemos
1997]. Mas o que é interatividade? Pode-se chamar de cinema interativo uma sala em
que as cadeiras se mexem de acordo com a direção de câmera do filme? Ou de TV
interativa a televisão tradicional com participação por email ou telefone dos
telespectadores? O computador e os jogos eletrônicos são interativos?
Para responder a essas e outras perguntas sobre interatividade, é preciso voltar
no tempo e resgatar a origem do termo e seu significado em outras áreas do
conhecimento. O termo interatividade é recente; só foi incorporado aos dicionários da
língua portuguesa na década de 1970. Entretanto, o conceito de interação é bem mais
antigo e pode ajudar a entender a origem e o significado de interatividade.
Na física interação refere-se ao comportamento de partículas, que interagem
umas com as outras, alterado o movimento. Para a sociologia e a psicologia social,
nenhuma ação humana ou social existe separada da interação. A meteorologia, área da
geografia, se ocupa, por exemplo, das interações entre componentes dos oceanos e a
atmosfera terrestre para avaliar a variação climática no planeta. A biologia também
explora o conceito nas explicações genéticas. Na ciência da comunicação, interação é
definido como a relação entre eventos comunicativos.
E o que interação tem a ver com interatividade? Aliás, TV interativa? Para
entender essa relação e a evolução do próprio conceito, é interessante fazer uma
incursão pela arte pop. A concepção corrente entre artistas da época era que a arte não
deveria ser apenas vista, mas penetrada fisicamente pelo público. Assim valorizavam a
participação. Muitas das melhores propostas artísticas nos países do Ocidente na época
possuíam aspectos visuais relacionados ao chamado “participacionismo”, como era o
caso dos trabalhos de Lygia Clark e Hélio Oiticica [Popper 1993].
O termo interatividade foi cunhado como uma derivação do neologismo inglês
interactivity na década de 1960 [Fragoso 2001]. Nessa época, a palavra batizava o que
os pesquisadores da área de informática entendiam como uma nova qualidade da
computação interativa, presumindo a incorporação de dispositivos como o teclado e o
monitor de vídeo como unidades de entrada e saída dos sistemas computacionais.
Na década de 1980, os trabalhos de pesquisas da Xerox Corporation, em Palo
Alto, Califórnia, com novos dispositivos apontadores (mouse), ícones e interfaces
gráficas com janelas, deram origem aos microcomputadores Macintosh e,
posteriormente aos IBM-PC com sistema operacional Windows. Esses estudos
popularizaram um novo tipo de interface que permite ao usuário a escolha da ordem em
que seus dados (ou comandos) são fornecidos ao sistema.
Logo depois surgiram os primeiros jogos eletrônicos, uma das primeiras formas
de interatividade digital de massa mostrando a capacidade das novas máquinas
eletrônicas de representar “ações” onde os homens podem, e devem participar (se não
fizermos nada em um jogo eletrônico, nada acontece).
Segundo [Steuer 1992], interatividade “mede” o quanto um usuário pode
influenciar na modificação imediata, na forma e no conteúdo de um ambiente
computacional. O termo é conceituado como uma variável baseada no tempo de
resposta do estímulo. Portanto, livros, jornais e TV aberta são caracterizados como
meios pouco interativos; ao contrário de teleconferência, e-mail e videogame.
É justamente esse enfoque com a tecnologia lembrado por [Koogan/Houaiss
1999]: “A interatividade é a troca entre o usuário de um sistema informático e a
máquina por meio de um terminal dotado de tela de visualização”. Assim os usuários
podem participar modificando a forma e o conteúdo do ambiente mediado em tempo
real, sendo esta uma variável direcionada pelo estímulo e determinada pela estrutura
tecnológica do meio.
É aqui que surgem os questionamentos a efetividade da interatividade na
televisão. Se, para um sistema ser interativo é necessário que o usuário possa modificar
a forma e o conteúdo do ambiente, como afirmar que existe TV interativa, em situações
onde o telespectador apenas dá palpites sobre a programação, que se atendidos, não o
são em tempo real? O mesmo raciocínio é válido para os serviços oferecidos pela TV
digital européia, em que é possível comprar uma pizza pela TV, dar notas para os
shows, escolher a próxima programação. Porém, em nenhum caso, o telespectador
interfere em tempo real no programa transmitido, modificando-o.
A TV dita interativa que conhecemos hoje é meramente reativa, pois os
telespectadores apenas reagem a estímulos oferecidos pela emissora. Ainda não há um
papel ativo em relação à programação televisiva, diga-se, audiovisual.
Depois do estudo da interatividade acima, fica um pouco mais fácil definir o que
vem a ser TV interativa. Apesar do conceito ainda não estar claro em nenhum lugar do
mundo, suscitando inúmeras controvérsias, uma característica é praticamente unânime:
a TV deixa de ser unidirecional. Com a TV interativa, o telespectador passa a ter um
canal de interatividade para se comunicar com a emissora, tirando-o da inércia na qual
está submetido desde o surgimento dessa mídia. O grau dessa interatividade vai
depender dos serviços oferecidos e, principalmente, da velocidade do canal.

2.4. Tecnologias analógicas e digitais


Televisão digital, da mesma forma que a TV convencional, lida com áudio e vídeo (além
de outros dados digitais). Um sistema digital que manipula fluxos de áudio e vídeo
costuma ser denotado de sistema multimídia. Do ponto de vista lingüístico, sistema
multimídia seria aquele capaz de lidar com mais de um tipo de mídia. Contudo, segundo
essa definição, um computador que manipule texto alfanumérico e gráfico, seria
enquadrado nessa categoria. Por conseguinte, costuma-se adotar uma definição mais
estrita: “Multimídia é todo sistema capaz de lidar com pelo menos um tipo de mídia
contínua na forma digital, além de outras mídias estáticas” [Lu, 1996].
natureza
temporal

estática texto gráfico image

contínua animação áudio vídeo

sintetizada capturad origem


a
Figura 2.1. Mídias segundo sua natureza temporal e origem [Fluckiger 1995].

Essa classificação leva em consideração a existência de mídias estáticas e


contínuas, conforme o seu comportamento temporal. Aquelas que não mudam com o
tempo são denominadas estáticas ou discretas (ex. imagens e gráficos); enquanto as
mídias contínuas ou dinâmicas são as que possuem dimensão temporal (ex. animação,
áudio e vídeo). Mídias contínuas possuem taxa de apresentação. Por exemplo, um vídeo
no formato PAL-M, tem seus quadros apresentados na taxa de 30 quadros por segundo.
Por esse motivo, também costumam ser chamadas de mídias isócronas. Outra forma de
classificação leva em consideração se a mídia é sintetizada pelo ser humano ou
capturada por algum dispositivo (Figura 2.1).

2.4.1. Convertendo do analógico para o digital


Independentemente da natureza temporal ou origem, as mídias analógicas podem ser
convertidas para o formato digital. As mídias representadas na forma digital apresentam
características próprias, com uma série de vantagens e outras desvantagens.
Na natureza, as variáveis físicas correspondentes a áudio e vídeo se propagam
desde sua origem até os ouvidos e olhos humanos através de formas de onda. Um alto-
falante, por exemplo, ao vibrar produz ondas sonoras que se propagam no ar.
Dispositivos sensores, tais como microfones, capturam essas ondas sonoras e produzem
sinais elétricos que variam continuamente no tempo e que descrevem a forma de onda
do áudio. O tipo de sinal que a amplitude varia continuamente no tempo é denominado
sinal analógico (Figura 2.2).

Amplitude

Tempo
Sensor
Sinal elétrico analógico
(ex. microfone)
Ondas sonoras correspondente à forma
de onda de áudio
Figura 2.2. Captura de um sinal analógico.

Para ser manipulado digitalmente, existe a necessidade da conversão desse sinal


analógico para o formato digital. Essa conversão envolve as etapas de amostragem e
quantização. Amostrar significa capturar, de forma periódica, os valores do sinal
analógico; e a quantização implica na representação de cada um desses valores usando
um número fixo de bits para armazenar esses valores (Figura 2.3). Ou seja, enquanto um
sinal analógico representa um valor físico que varia continuamente com o tempo; um
sinal digital é uma seqüência de valores, com um número fixo de bits, dependentes do
tempo, resultante da transformação de um sinal analógico.

Ainda existe uma outra etapa que será discutida mais adiante neste texto que é a
codificação, ou seja, a escolha da forma de representação (código) dos bits a ser usada.
Sinal analógico Sinal amostrado Sinal digital

amostragem quantizaçã

período de amostragem

Figura 2.3. Amostragem e quantização de um sinal analógico.

Deve-se notar que os processos de amostragem e quantização introduzem


distorções no sinal original. Essa é, provavelmente, a principal desvantagem de um
processo de digitalização, pois se esse sinal for reconstruído, usando o processo inverso
(denominado conversão digital-analógica), o resultado final apresenta pequenas
distorções com relação ao sinal original.
Quanto menor o período de amostragem, mais o sinal amostrado se aproxima do
sinal analógico original. Da mesma forma, aumentar o número de bits usados na
quantização, geralmente melhora o resultado final do sinal digital. Portanto, é possível
reduzir as distorções no sinal, introduzidas pelo processo de digitalização, através do
uso de uma alta taxa de amostragem e um grande número de bits para a quantização.
Contudo, essa abordagem aumenta o “tamanho” do sinal digital, precisando de muito
espaço em disco para armazená-lo, e de uma rede com grande largura de banda para
transmiti-lo. Devido a isso, existe a necessidade de se estabelecer um compromisso
entre a qualidade desejada e o tamanho final do sinal digitalizado.
Costuma-se adotar o critério de Nyquist para a escolha da taxa de digitalização.
Segundo esse critério, para um sinal digital ser reconstruído corretamente, a taxa de
amostragem do sinal precisa ser pelo menos o dobro da freqüência mais alta do sinal
analógico digitalizado. Por exemplo, a faixa de freqüência da voz humana se situa em
4kHz (quatro mil vezes por segundo). Portanto, para digitalizar esse tipo de sinal é
suficiente a taxa de amostragem de 8kHz (amostragem a cada 125 µs). O ouvido
humano normal tem uma faixa de freqüência audível de aproximadamente 20kHz, e,
atualmente, taxas de freqüência de amostragem muito usadas para áudio são 32kHz,
44,1kHz e 48kHz.
Como na etapa de quantização é definido o número de bits usados em cada
amostragem, quanto maior o número de bits, melhor a qualidade final do sinal digital.
Usando uma regra geral, com n bits é possível representar 2n valores. Como exemplo, se
em uma faixa de 100 valores inteiros para representar – de 0 a 99 –, for usado apenas
um bit para quantização, valores abaixo de 50 poderiam ter a representação 0, e acima
ou igual a 50, representação 1. Usando mais bits a representação dos valores passa a ser
bem mais precisa. Valores usuais empregados para quantização são: 8 ou 10 bits para
quadros de vídeo na televisão, e 16, 20 ou 24 bits para áudio.
2.4.2. Vantagens da representação digital
A tendência da “digitalização” parece ser inexorável nos dias atuais. Tecnologias
analógicas como telefones celulares e televisão vêm migrando para tecnologias digitais.
Do ponto de vista dos usuários, essa é apenas uma parte visível do processo, pois há
algum tempo as infraestruturas, tais como centrais telefônicas e estações transmissoras
de TV, têm seus equipamentos trocados para tecnologia digital, proporcionando melhor
desempenho, flexibilidade, imunidade a erros, e oferecimento de novos serviços.
Sinais digitais podem ser processados em computadores. Técnicas de
processamento de sinais podem ser empregadas para: filtrar sinais digitais, inserir e
retirar marcas d’águas (para garantir direitos autorais), comprimir dados, detectar e
reduzir erros, etc. Hoje já é bem conhecido do público o emprego de técnicas de
processamento digital em filmes para cinema, onde objetos inteiros são inseridos (ou
apagados) em determinadas cenas.
Essa capacidade de ser processada em computadores é com certeza a grande
vantagem da representação digital dos dados multimídia. Ou seja, após serem
transformados em um sinal digital, os dados de vídeo e áudio passam a ter representação
universal: qualquer mídia digital é codificada em uma seqüência de bits. Todos os tipos
de informações digitais (inclusive as que não são multimídia) podem ser manipulados,
armazenados e transmitidos da mesma forma, usando o mesmo tipo de equipamento.
Essas mídias, em formato digital, podem ser integradas com outros dados digitais,
compartilhando os mesmos recursos (discos, redes, etc.)
Existe ainda uma outra importante vantagem da representação digital. Uma
mídia de áudio ou vídeo pode ser armazenada e acessada remota e simultaneamente por
um número (teoricamente) ilimitado de pessoas. Esse conceito já é usado, há algum
tempo, na implantação de bibliotecas digitais multimídia, que vêm substituindo as
convencionais, através da digitalização de seu acervo. Essa vantagem técnica é
importantíssima no Brasil, se for considerado que a inclusão digital é meta estratégica,
direcionando grande parte do investimento público em TV digital.
Por fim, mas sem a pretensão de esgotar o assunto, mídias digitais são mais
imunes a ruídos durante a sua manipulação. Por exemplo, na transmissão de
informações digitais, pequenos ruídos (desde que não ultrapassem determinado limite)
podem ser detectados e corrigidos, não se acumulando no sinal.

2.5. Codificação e compressão de áudio e vídeo e modulação do sinal digital


A codificação dos dados digitais é uma etapa necessária logo após a amostragem e
quantização. No contexto da TV digital, a etapa de codificação efetua a compressão dos
dados, atividade essencial para a difusão das mídias. A necessidade de compressão fica
evidente se forem considerados os requisitos de armazenamento das mídias contínuas
digitais. Como exemplo, se for considerado o espaço ocupado por uma hora de áudio
em qualidade de CD, seria necessário 635MB (Tabela 2.1).
Para calcular o espaço ocupado por um vídeo sem compressão é necessário
conhecer suas características, tais como, taxa de quadros por segundo, número de linhas
por quadro, pixels por linha e bits por pixel. No exemplo do áudio representado na
Tabela 2.1, o valor pode ser obtido através dos seguintes dados: a taxa de amostragem é
44,1kHz, sendo cada valor amostrado com 16 bits. Como a qualidade de CD é estéreo,
com 2 canais, o número de bytes (8 bits) necessários para armazenar 1 hora (3600
segundos) dessa mídia é: (44100 * 16 * 2 * 3600)/8 = 635 MB.
Tabela 2.1. Espaço ocupado por mídias sem compressão [Lu 1996].

1 hora de áudio em 1 hora de TV em 1 hora de TV de


qualidade de CD qualidade padrão alta definição
635MB 97GB 389GB

Os exemplos apresentados ilustram a necessidade de compressão das mídias


contínuas digitais, antes de suas transmissões. A compressão desse tipo de mídia é
possível graças a duas abordagens complementares: (i) eliminação de redundância nos
dados, e (ii) exploração das propriedades da percepção humana.

2.5.1. Compressão devido à redundância nos dados


Arquivos texto, base de dados e planilhas eletrônicas são exemplos de dados digitais
que costumam possuir muita redundância. Essa característica já é explorada há algum
tempo em programas compactadores de dados (ex. gzip, pkzip, winzip etc.). Esses
programas compactam esses dados para facilitar o armazenamento e transporte desses
dados.
Dados de mídia contínua também costumam possuir muita redundância em suas
informações. No caso de um vídeo, se fosse possível congelá-lo momentaneamente,
teríamos uma imagem parada (um quadro de vídeo). Se esse quadro fosse dividido em
pequenos retângulos de tamanhos iguais, seria possível verificar que muitos dos
retângulos são exatamente iguais a outros existentes na mesma imagem. Essa
redundância pode ser eliminada através de técnicas que representam apenas a
informação de um retângulo, e o número de vezes que estes precisam ser repetidos. Esse
tipo de redundância, em um mesmo quadro de vídeo, é denominado redundância
espacial.
No caso do áudio, principalmente voz, a redundância surge dos momentos de
silêncio. A supressão de silêncio permite uma redução substancial do espaço ocupado
pelas mídias de áudio.
A redundância temporal é um outro tipo de redundância que é muito
explorado em dados de mídia contínua. Diferentemente da redundância espacial, que
tem origem em informação duplicada em um mesmo quadro, a redundância temporal
existe em informações em quadros contíguos. Como exemplo, no caso do PAL-M, 30
quadros de vídeos são apresentados por segundo, dando a sensação de um vídeo
contínuo. Dividindo os quadros em pequenos retângulos, também seria significante o
número de retângulos iguais em quadros consecutivos (em um telejornal, por exemplo,
o cenário atrás do apresentador usualmente permanece inalterado).
Abordagens de compressão que exploram a redundância espacial e temporal dão
origem às técnicas de compressão espacial e compressão temporal, respectivamente.
No caso da compressão temporal, técnicas de compensação de movimento
podem ser usadas. Essas técnicas se baseiam na idéia de que ao dividir um quadro em
pequenos retângulos de 16x16 pixels (denominados macroblocos), muitas vezes, um
desses retângulos é na verdade uma pequena variação de um retângulo anterior (ex. um
pequeno tremor na câmera pode provocar o deslocamento de 1 pixel entre dois
retângulos de imagens consecutivas em um vídeo). Nessa técnica, para reconstituir o
segundo retângulo basta armazenar essa informação de quantidade de deslocamento
(vetor de deslocamento), em vez do retângulo completo. A técnica de compensação de
movimentos demanda muito esforço computacional, usualmente necessitando hardware
para a etapa de codificação.
Técnicas que eliminam redundância considerando informações anteriores (no
caso, os macroblocos) são denominadas de compressão preditiva.

2.5.2. Compressão devido às propriedades da percepção humana


O sistema nervoso possui propriedades peculiares na forma de reagir a estímulos
físicos, o que pode ser explorado em técnicas para compressão de dados multimídia. Por
exemplo, determinadas freqüências de áudio (tons) se tornam inaudíveis na presença
simultânea de outras. Essa propriedade é denominada mascaramento [Bufford 1994].
O mascaramento de áudio pode acontecer mesmo quando os sons não ocorrem
simultaneamente. Um tom pode mascarar outro que ocorra imediatamente após. Por
exemplo, um som de ribombar de um trovão, seguido imediatamente por um sussurro
humano, pode tornar esse segundo som inaudível. Com relação às propriedades visuais
do ser humano, também é possível uma analogia com um forte facho de um farol em um
local pouco iluminado, que pode tornar invisíveis os objetos na penumbra.
As propriedades de mascaramento são usadas nas técnicas de compressão
multimídia da seguinte maneira: essas técnicas separam as freqüências dos dados a
serem comprimidos, fazem análise de quais serão mascarados, eliminando-os da
informação final.
Uma propriedade da percepção visual que pode ser explorada para compressão
de dados de vídeo é a capacidade distinguir tons de cinza em comparação com as
tonalidades de cor. A percepção visual humana é muito mais sensível às variações de
tons de cinza, do que às variações de tons de cor. Técnicas empregadas em TV separam
tons de cinza (luminância) dos componentes das cores (crominância). Uma forma de
compressão é fazer amostragem da crominância com uma freqüência menor que a
luminância. Essa técnica é denominada subamostragem.

2.5.3. Outras técnicas de compressão


Técnicas usadas em documentos digitais (textos, dados, etc) também são usadas em
compressão multimídia, complementando as técnicas descritas.
A codificação estatística, por exemplo, se baseia na idéia de que algumas
seqüências de bits, que aparecem com maior freqüência que outras, podem ser
representadas com menor taxa na sua codificação. Uma analogia pode ser feita usando
este texto. Caso ele fosse armazenado na forma digital usando uma codificação que
empregasse menos bits na representação da letra “a” (mesmo que isso implicasse um
aumento no número de bits para representar a letra “x”), provavelmente, o espaço
ocupado seria bem menor do que se todas as letras ocupassem o mesmo tamanho. A
codificação de Huffman é uma conhecida técnica que usa essa abordagem.
Técnicas de compressão podem ser classificadas considerando se estas são
“com” ou “sem” perdas; ou “baseadas na fonte” ou “baseadas em entropia” (Figura 2.4).
Baseada baseada em baseada em
na fonte mascarament transformada

supressão de
Baseada seqüências
em tid
entropia
codificação eliminação de
estatística redundância

Com Sem perdas


perdas
Figura 2.4. Técnicas de compressão [Fluckiger 1995].

Técnicas de compressão sem perdas (lossless) são aquelas empregadas


usualmente em textos e documentos usados por usuários de computador. O resultado da
descompressão, após uma compressão sem perdas, é exatamente igual, bit a bit, ao dado
original.
As técnicas de compressão que exploram as propriedades da percepção humana
são técnicas com perdas (lossy). Apesar do resultado final apresentar diferenças muitas
vezes imperceptíveis aos olhos/ouvidos humanos, a representação do dado na forma de
bits é muito diferente da original. Essas técnicas de compressão são irreversíveis, pois
uma vez efetuada, é impossível voltar o dado ao estado original.
Essas técnicas que exploram as propriedades da percepção humana são técnicas
baseadas na fonte, pois levam em consideração a semântica do dado a ser comprimido.
Por outro lado, as técnicas baseadas em entropia desconsideram as características e
semânticas do dado a ser comprimido. Por esse motivo, são sempre técnicas sem perdas.
A transformada é um processo que converte, com um determinado propósito,
um grupo de dados para uma representação mais conveniente [Buford 1994]. Em
multimídia, essa técnica é empregada, geralmente, para compressão de dados. O
objetivo é encontrar uma representação alternativa que se possa armazenar e transmitir
menor número de bits. Em multimídia, a Transformada Discreta do Cosseno (DCT)
costuma ser empregada visando compressão [Collins 2001], [Drury 2002].
Outra forma de classificar as técnicas de compressão é considerar se essas são
simétricas ou assimétricas. As etapas envolvidas na compressão geralmente são
computacionalmente mais intensas que as de descompressão, por isso são denominadas
de assimétricas. Por outro lado, é possível implementar compressão “mais leve” e
simétrica, na qual os tempos das atividades de compressão e descompressão são
equivalentes (e usualmente não precisam de hardware para a compressão, como ocorre
nas abordagens assimétricas).

2.5.4. Codec
As etapas de amostragem e quantização não são as últimas do processo de digitalização
das mídias de áudio e vídeo. Existe a necessidade de representar a informação digital
usando algum código. O processo de representação de mídias de áudio e vídeo no
formato digital é denominado codificação; e o processo inverso, de transformação da
mídia digital em sinal analógico é denominado decodificação. Por esse motivo, o
padrão usado para codificação dessa mídia é usualmente denominado codec
(codificação e decodificação).
Atualmente, muitos codecs são adotados para mídias digitais:
• Imagem: JPEG (adequado para imagens capturadas), GIF (adequado para
imagens sintetizadas pelo ser-humano), PNG, TIFF e PCX.
• Vídeo: MPEG, DivX, Soreson, Real Vídeo e MS-MPEG-4.
• Áudio: MPEG-Áudio (MP3), WAVE e MIDI.
Muitos desses codecs citados são proprietários, adotados apenas por algumas
empresas e aplicados em contextos específicos. Em contraste, os codecs abertos,
padronizados e reconhecidos por comitês, consórcios ou organizações de companhias,
tais como os MPEG-1, MPEG-2 e MPEG-4, serão vistos mais adiante neste texto.

2.5.5. Modulação
Na TV digital, áudio, vídeo e dados precisam ser transportados desde sua origem até a
casa do usuário (podendo passar ou não por estações intermediárias). Nesse sentido, um
sistema de comunicação é usado para esse transporte. Contudo, as informações não
podem ser enviadas diretamente pelo sistema de comunicação sem antes sofrer uma
modulação no envio, e uma demodulação na recepção.
A modulação é necessária por causa das características dos enlaces de
comunicação – seja por cabo, ondas de rádio, satélite, etc. – que enfrentam problemas
de atenuação por perdas de energia do sinal transmitido, ruídos provocados por outros
sinais, e distorções de atraso. Essas últimas são causadas pelas velocidades desiguais
das freqüências de um sinal no enlace.
Esses problemas são fortemente relacionados com a freqüência usada no sistema
de comunicação. Uma forma de resolver esse problema é modular um sinal. A
modulação é o processo, através do qual, alguma característica de uma onda portadora é
alterada de acordo com o sinal da informação a ser transmitida. Essa onda portadora é o
sinal que possui uma faixa de freqüências controlada de forma a sofrer as menores
interferências, distorções e atenuações possíveis durante uma comunicação de dados. A
modulação oferece três benefícios [Haykin 1999]:

1) desloca o conteúdo espectral de um sinal de mensagens (dados e mídias digitais,


no caso da TV digital) para dentro da faixa de freqüência operacional de um
enlace de comunicação;
2) permite colocar o conteúdo do sinal de mensagens numa forma menos vulnerável
a ruído ou interferência;
3) possibilita multiplexar o enlace de comunicação; ou seja compartilhá-lo,
transmitindo, simultaneamente, dados oriundos de fontes independentes.
Existem diferentes técnicas de modulação de sinais digitais. Basicamente, são
baseadas em modulação por amplitude (a mesma usada em sinais analógicos de rádio
AM), por freqüência (a mesma usada em sinais analógicos de rádio FM) ou por fase.
Na modulação de sinais digitais, essas técnicas costumam ser combinadas com
objetivo de se obter transmissão mais robusta (imune a erros) e, também, para se
aumentar a capacidade de transmissão de bits por segundo (ou bits por transição do
sinal – denominada baud). Um exemplo é o QAM (Quadrature Amplitude Modulation),
que combina diferentes amplitudes e fases. Por exemplo, o QAM-16 combina 4
diferentes níveis de amplitude e 4 deslocamentos de fases, permitindo uma combinação
de 16 valores (4x4) em cada transição do sinal. Com esses 16 valores, consegue-se
transmitir 4 bits por baud (pois 24 = 16).
No caso dos sistemas de TVs digitais, os padrões de modulação COFDM
(Coded Orthogonal Frequency Division Multiplexing) e 8-VSB (8 Level – Vestigial
SideBand Modulation) são os usados atualmente. Apesar dos diferentes padrões de
modulação e multiplexação de sinais, algumas técnicas adotadas são comuns a todos
[Drury 2002], [Collins 2001]:
• Embaralhamento espectral: técnica que visa uma distribuição da energia,
evitando a concentração em determinados pontos (ex. uma transmissão de jogo
de futebol tenderia a concentração de freqüências em torno da freqüência da cor
verde). O embaralhamento espectral evita que um ruído situado em determinado
ponto no espectro de freqüência da transmissão possa prejudicar
demasiadamente a transmissão.
• Correção de erros em avanço (FEC): a codificação Reed-Solomon é uma técnica
de FEC utilizada, que acrescenta bits redundantes na informação transmitida
facilitando a detecção e recuperação de erros.
2.5.5.1 Comentários sobre os padrões COFDM e 8-VSB
Os padrões de TV digital europeu (DVB) e norte-americano (ATSC) possuem requisitos
técnicos e culturais diferentes, influenciando e dando origem à escolha de padrões
diferentes para modulação e multiplexação do sinal.
Atualmente, boa parte da televisão analógica norte-americana é baseada em
transmissões por cabo, chegando a mais de 80% da população. Esse tipo de transmissão
é muito mais imune a erros e ruídos do que difusões de sinais de TV por satélite ou
terrestre. Talvez influenciado por essa característica, apesar do padrão norte-americano
para TV digital – ATSC – também propiciar difusão por satélite ou terrestre, seu padrão
de modulação adotado, o 8-VSB não seja tão robusto, recebendo algumas críticas pela
baixa imunidade a ruídos, principalmente em receptores de TV com antena interna. Nos
últimos anos grandes esforços têm sido feitos visando resolver esse problema.
Por outro lado, o padrão europeu COFDM, recentemente também adotado pelo
Japão com pequenas alterações, é orientado para difusões terrestres, apesar de também
ser usado na transmissão por cabos. Sua principal vantagem é a imunidade a problemas
de multi-percursos do sinal. Esse problema ocorre quando um mesmo sinal de TV,
transmitido pelo ar, chega à antena receptora por diferentes caminhos, com uma leve
diferença de tempo de chegada. Caso não seja tratado, esse problema dá origem aos
famosos “fantasmas” da televisão.
As diferenças técnicas entre esses dois padrões proporcionam grandes batalhas
entre os defensores e opositores de um ou de outro, tanto no campo científico, como no
político e econômico. Fabricantes de equipamentos e fornecedores de tecnologia, norte-
americanos e europeus, atualmente exercem poderosos lobbyes para que outros países
passem a adotar seus padrões.
Em todos esses padrões, em comum, existe o fato que a informação a ser
codificada é um fluxo de transporte MPEG, com vídeo, áudio e dados, encapsulados. O
padrão MPEG será visto a seguir.

2.6. Padronizações MPEG


Todas as técnicas de compressão vistas seriam de pouco valor caso não fosse adotada
uma padronização em suas utilizações, o que permite o desenvolvimento e a
comercialização independente dos equipamentos de codificação, transmissão e recepção
dos sinais digitais de TV. Esforços de padronização da ISO/IEC deram origem ao grupo
MPEG (Moving Picture Experts Group) que, a partir de 1983, com a publicação de seu
primeiro padrão – o MPEG-1 –, passou a especificar os padrões MPEG.
O MPEG forma uma família de padrões para codificação, compressão e
transporte de dados multimídia que vem sendo abraçados por todos os sistemas de
difusão de TV digital, em detrimento de padrões proprietários (uma pequena exceção
existe com relação ao padrão proprietário Dolby AC-3, adotado pelo sistema norte-
americano ATSC, e que será brevemente descrito no final desta seção).
De uma forma geral, os algoritmos de compressão adotados nos padrões MPEG
empregam uma combinação de três técnicas [Drury 2002]:
• Codificação preditiva, explorando redundância temporal nas mídias contínuas;
• Codificação por transformada, usando a Transformada Discreta do Cosseno
(DCT) para explorar redundância espacial em cada quadro de áudio/vídeo; e
• Código de Huffman ou supressão de seqüências repetidas que são técnicas
baseadas em entropia usadas para remover redundância que ainda persista após a
aplicação das duas técnicas anteriores.
Além dessas técnicas os algoritmos MPEG usualmente regulam o buffer de
transmissão de forma a aumentar/reduzir a qualidade da mídia transmitida, controlando
a taxa de bits transmitida, conforme haja mais/menos espaço disponível no buffer.
Os principais padrões utilizados atualmente na codificação de áudio e vídeo são:
MPEG-1, MPEG-2 e MPEG-4. O MPEG-1 foi criado para mídias com qualidade VHS
(vídeo cassete), com vídeos codificados até 1,5 Mbps e áudio com 192 kbps por canal
(qualidade CD estéreo). O MPEG-2, resultado de um segundo esforço de padronização,
levou ao desenvolvimento de algoritmos baseados no MPEG-1, porém bem mais
otimizados e sofisticados. Esse padrão é capaz de codificar vídeos com qualidade até
100 Mbps (HDTV – TV de Alta Definição). Contudo, uma utilização comum deste
padrão emprega apenas 15 Mbps. O padrão MPEG-4 permite representar conteúdos de
mídia na forma de objetos. Essa característica é bastante adequada no uso de TV digital,
pois permite a manipulação dinâmica dos vídeos, possibilitando, por exemplo, a
combinação, em um mesmo vídeo, de imagens capturadas com objetos sintetizados.
Outra importante característica do MPEG-4 é a escalabilidade de grão fino (FGS
– Fine Grain Scalability). Essa técnica é muito importante na difusão de vídeos, pois
permite gerar um único fluxo representando o maior nível de qualidade do vídeo, mas
que permite que níveis menores de qualidade sejam extraídos deste quando necessário
(por exemplo, quando a CPU do cliente não tiver capacidade de processamento
suficiente).
Outro padrão MPEG que ainda não vem sendo utilizado em sistemas de TV
Digital, mas que poderá ser amplamente adotado no futuro é o MPEG-7. Esse padrão
enfatiza a descrição dos componentes e propriedades do seu conteúdo veiculado. Ou
seja, esse padrão visa prover dados com a descrição dos objetos que estão sendo
apresentados. Esses dados de descrição – ou metadados – permitirão o
desenvolvimento de ferramentas para busca e manipulação automática dos conteúdos
multimídia veiculados pela TV Digital. Como exemplo, esse padrão tornará possível a
um usuário localizar em um noticiário multimídia, armazenado localmente em seu
receptor digital, notícias relacionadas com determinado assunto (desde que o provedor
tenha inserido essas informações nos metadados).
Os padrões MPEG-1 (assim como o MPEG-2) podem ser divididos em padrões
para Áudio, Vídeo e Sistema, que serão brevemente descritos a seguir.

2.6.1. MPEG-1 Áudio


Os padrões MPEG Áudio são formados por três esquemas de compressão
independentes, e de complexidade crescentes, denominados, Camada-1, Camada-2 e
Camada-3. O formato de compressão MP3 é o nome popular adotado para a Camada-3.
O MP3 consegue manter a qualidade de áudio próxima de um CD apresentando taxa de
compressão de 12:1.
Basicamente, nesses esquemas de compressão são exploradas as características
do sistema auditivo humano nos algoritmos de compressão. O ser humano não consegue
ouvir sons com determinadas freqüências na presença de outros sons (mascaramento).
Para a compressão (compressão com perdas – lossy), é feita uma conversão do áudio
para uma representação no domínio de freqüência, separando e removendo os
componentes tonais inaudíveis.

2.6.2. MPEG-1 Vídeo


No MPEG a compressão de vídeo é obtida através da exploração tanto das redundâncias
espaciais quanto temporais. A compressão de Huffman e a transformada DCT, por
exemplo, se constituem em técnicas que usualmente conseguem boa compressão
aproveitando a redundância espacial existente dentro de cada quadro de vídeo (por isso,
são chamadas de técnicas de compressão intra-quadros). Essas técnicas foram
desenvolvidas e aplicadas no JPEG, padrão para codificação e compressão de imagens.
Uma abordagem possível é a da compressão de vídeo usando apenas técnicas de
compressão intra-quadros. Essa compressão – denominada MJPEG ou Motion JPEG –
recebe esse nome por ser semelhante a uma seqüência de quadros JPEG. Essa
abordagem tem a vantagem de possuir uma rápida compressão, sem consumir muita
capacidade de processamento, apesar de apresentar taxas reduzidas de compressão.
No MPEG-1 Vídeo a compressão temporal é obtida através do uso de diferentes
tipos de quadros. Os três principais são:
Quadros I – Intracoded
São denominados intracoded (codificados internamente) porque são quadros
autocontidos, ou seja, não dependem de nenhum outro. Cada quadro é semelhante a
uma imagem JPEG, e possui apenas compressão espacial.
Quadros P – Predicted
São codificados usando técnica de compensação de movimento com relação a um
quadro anterior (P ou I). Consegue uma taxa bem maior do que a obtida com um quadro
I, sendo típica a obtenção de quadros com metade do tamanho de quadros I.
Quadros B – Bidirectionally predicted
São codificados usando a técnica de compensação de movimentos considerando
quadros I ou P, anteriores e posteriores (daí a origem do nome bidirecional).
Diferentemente dos quadros I e P, um quadro B nunca é utilizado como referencia para
outro quadro, portanto não há possibilidade de propagação de erros, como nos outros
tipos de quadro. Isso permite o uso de compressão mais “agressiva”, sendo o tipo de
quadro consegue a maior taxa compressão. A Figura 2.5 apresenta uma seqüência típica
de apresentação de quadros MPEG-1 Vídeo.
Um GOP (Group of Pictures) é uma seqüência de quadros MPEG que começa
com um quadro I, e costuma ser formada por quadros P e B. Quadros I são usados como
pontos de sincronização. Ou seja, caso algum quadro apresente problemas (ex. erros
devidos a ruídos), o erro se propaga até o próximo quadro I. Quanto menor o tamanho
de um GOP, ou seja, quanto menor a distância entre dois quadros I em uma seqüência
de quadros, mais “rapidamente” ocorre a sincronização.
GOP

I B
B B
P B
B B
I

tempo

Figura 2.5. Seqüência de apresentação de quadros de vídeo MPEG.

Importante notar que a seqüência de apresentação, mostrada na Figura 2.5 não


representa a seqüência de geração dos quadros. Isso ocorre porque um quadro B precisa
aguardar a geração do quadro P ou I, posterior, antes dele ser gerado (a provável
seqüência de geração desses quadros é IPBBBIBBB). Portanto, um GOP que usa
quadros B implica em uma posterior reordenação de quadros após sua geração, antes de
sua apresentação.

2.6.3. MPEG-1 Sistema


MPEG-1 Systems é a parte do padrão MPEG-1 que lida com a multiplexação de fluxos
elementares (elementary streams) de áudio e vídeo em um único fluxo (system stream).
A Figura 2.6 esquematiza um MPEG-1 Systems, formado por dois fluxos elementares
(um de áudio e outro de vídeo). Os fluxos elementares são resultantes da aplicação do
padrão MPEG-1 Áudio e MPEG-1 Vídeo, e possuem suas saídas sincronizadas por uma
base comum de tempo, e multiplexadas (agregadas) em um único fluxo de sistema.
Sinal de
Codificador
áudio
de áudio

Relógio Multiplexador MPEG-1


(base de tempo) de Sistema System
Stream

Sinal de Codificador
vídeo de vídeo

Figura 2.6. Multiplexação de áudio e vídeo em um stream MPEG-1 System.

2.6.4. MPEG-2
As especificações MPEG-1 foram congeladas no momento em que foi lançado o padrão
MPEG-2 em 1994. O MPEG-2 (especificado pela ITU sob o nome de H.262) é
constituído de 10 partes, sendo as mais importantes [Tektronix 2002]:
• ISO/IEC 13818-1 Systems.
• ISO/IEC 13818-2 video coding.
• ISO/IEC 13818-3 audio coding.
• ISO/IEC 13818-6 data broadcast and DSM-CC.
O padrão MPEG-2 é direcionado, principalmente, para áudio e vídeo de alta
qualidade e alta resolução, sendo utilizado por todos os sistemas atuais de TV Digital.
Contudo, além da TV Digital, existem muitas aplicações que adotam a codificação
MPEG-2. Essas aplicações podem ter requisitos muito diferentes com relação à taxa de
compressão e resolução. Esses diferentes requisitos de qualidade implicam que
dificilmente iria se conseguir desenvolver um único decodificador que atendesse a toda
essa variedade de situações (ou esse decodificador se tornaria demasiadamente caro).
Dessa forma, foram especificados diferentes níveis e perfis para as aplicações alvo
MPEG-2 (Tabela 2.2.).
Enquanto os níveis se referem principalmente às diferentes possibilidades de
resolução do vídeo, os perfis definem diferentes esquemas de codificação. Entre as doze
combinações válidas, a Simple Perfil Main Level (SP@ML) é a que supostamente mais
se aproxima das necessidades de difusão de um vídeo com qualidade padrão (SDTV); e
a Main Perfil High Level (MP@HL) foi criada para ser usada com TV de alta definição
(HDTV).
O MPEG-2 Áudio e MPEG-2 Vídeo usam os mesmos princípios dos algoritmos
de compressão do MPEG-1, porém com diversas extensões e melhorias.
Tabela 2.2. Níveis e perfis de vídeos MPEG-2.
Perfil Perfil Perfil Perfil Perfil Perfil
SIMPLE MAIN 4:2:2 SNR Spatial Scalable HIGH
Scalable
Nível 1920 x 1152 1920 x 1152
HIGH --- 80 Mbps --- --- --- 100 Mbps
I, P, B I, P, B
Nível 1440 x 1152 1440 x 1152 1440 x 1152
HIGH-1440 --- 60 Mbps --- --- 60 Mbps 80 Mbps
I, P, B I, P, B I, P, B
Nível 720 x 576 720 x 576 720 x 576 720 x 576 720 x 576
MAIN 15Mpbs 15 Mbps 15 Mbps 15 Mbps --- 20 Mbps
sem quadros B I, P, B I, P, B I, P, B I, P, B
Nível 352 x 288 352 x 288
LOW --- 4 Mbps --- 4 Mbps --- ---
I, P, B I, P, B

2.6.5. MPEG-2 TS
De forma semelhante ao que ocorre com o MPEG-1, o MPEG-2 Systems também lida
com a multiplexação de fluxos elementares de áudio e vídeo. Porém, o MPEG-2
Systems define dois esquemas de multiplexação: programa e transporte. Um MPEG-2
Programa (MPEG-2 PS) é similar ao do MPEG-1 Sistema. Já o MPEG-2 Transporte
(MPEG-2 TS) é formado por pacotes fixos de 188 bytes e, diferentemente do padrão
anterior, não obriga a existência de uma base comum de tempo.
MPEG-2 PS e MPEG-2 TS possuem diferentes objetivos. O primeiro foi
especificado visando armazenamento local de dados (ex. armazenamento de vídeos em
um DVD); o MPEG-2 TS é voltado para o transporte (difusão) de dados. Esse último
padrão tem uma série de características visando torná-lo imune a erros de transmissão
(por isso, um tamanho pequeno de pacotes, 188 bytes, pois facilita a ressincronização
caso haja perdas de pacotes).

2.6.6. MPEG-2 DSM-CC


O DSM-CC (Digital Storage Media Command and Control) apresenta especificações
de protocolos que permitem gerenciar fluxos MPEG-1 e MPEG2. Foi criado
inicialmente para lidar com entrega de vídeo sob demanda usando MPEG, mas,
atualmente, o DSM-CC tem grande importância em TV Digital pois especifica formas
de difundir dados digitais dentro de fluxos MPEG (datacasting). O transporte de dados
do DSM-CC é baseado em um fluxo MPEG-2 TS que pode conter vários programas,
cada qual, por sua vez, composto por áudio, vídeo e dados (Figura 2.7).

vídeo
Programa áudio
MPEG-2 dados
Transporte
vídeo
Programa áudio
dados

Figura 2.7. MPEG-2 TS encapsulando dados [Schwalb 2003].

Importante não confundir os programas transportados por um MPEG-2 TS com


um MPEG-2 PS. Esse último, definido no MPEG-2 Systems, apesar de também conter
fluxos elementares (elementary streams) de vídeo e áudio, é uma especificação de como
multiplexar esses fluxos elementares com objetivo de armazená-los no disco. Já um
programa, conforme representado na Figura 2.7, é definido simplesmente como um
grupo de fluxos elementares, com uma base de tempo comum. Usando essa definição, é
possível fazer uma simples analogia com um programa de televisão que assistimos em
nossa TV analógica, composto de vídeo, áudio e legenda.
Os dados são transportados sob o mesmo meio físico que as mídias contínuas
(áudios e vídeos) encapsulados em um programa, e portanto, compartilham a largura de
banda deste meio. O DSM-CC é fundamental para a implementação do conceito de
datacasting através do carrossel. O carrossel é uma abstração de um mecanismo onde
áudio, vídeo e dados são enviados ciclicamente, de forma entrelaçada no tempo. De
uma forma geral, carrossel permite que usuários de TV interativa possam selecionar
seus serviços quando necessário. Mais informações sobre o carrossel será vista adiante,
junto com informações sobre sistemas de TV Digital.
Cada programa pode ser concebido como um serviço da TV Digital. Esse
serviço pode ser um canal de TV convencional com vídeo, áudio e legenda, mas pode
ser qualquer combinação de fluxos elementares – inclusive apenas dados (um
datacasting). Com o objetivo de identificar esses serviços, algumas tabelas são
definidas no MPEG-2 TS. Cada fluxo elementar recebe um identificador único (PID –
Packet Identifier) de 13 bits. Todo pacote de 188 bytes pertencente ao mesmo fluxo
elementar é identificado pelo mesmo PID.
Um PID é apenas um número, e por isso não contém informações sobre qual o
tipo do fluxo e qual serviço (programa) referencia. Para isso o MPEG-2 TS define um
conjunto de tabelas, com o nome de PSI (Program Specific Information). Um PSI é, na
verdade, uma coleção de outras tabelas, a se destacar: PAT (Program Association
Table), CAT (Conditional Access Table), e PMTs (Program Map Table) (Figura 2.8).
Os serviços (programas) existentes em um MPEG-2 TS são listados em uma
tabela PAT, que sempre possui PID 0 (por isso, é facilmente identificável). Um PAT
possui uma lista de PIDs de PMTs. Cada PMT corresponde a um programa, e contém
uma lista de PIDs dos fluxos elementares que o compõem.

PAT (PID 0) CAT (PID 1)


Serviço PID Dados de
1 200 acesso
2 300 condicional
3 400

PMT (PID 200) PMT (PID 300) PMT (PID 400)


Serviço 1 Serviço 2 Serviço 3
PID Fluxo Elementar PID Fluxo Elementar PID Fluxo Elementar
100 vídeo 100 vídeo 107 dados
102 áudio 102 áudio
103 dados 106 dados

Figura 2.8. PSI – Um conjunto de tabelas descrevendo serviços.

Na Figura 2.8 é possível observar que o PAT enumera três serviços, cujos PIDs
são 200, 300 e 400. Os serviços com os PIDs 200 e 300 possuem fluxos elementares de
vídeo e de áudio (com PIDs 100 e 102, respectivamente) que são compartilhados entre
eles. Esses serviços poderiam representar o mesmo vídeo sendo difundido com duas
legendas diferentes (as legendas possuiriam os PIDs 103 e 106). O PAT ainda ”aponta”
para um serviço (um PMT) com PID 400, que possui apenas um fluxo elementar de
dados com PID 107 (um datacasting).
Alguns programas (serviços) podem ser abertos, acessíveis a todos, contudo
outros podem necessitar assinatura especial para acessá-los. Nesse sentido, todo PSI
possui um CAT com dados usados para acesso condicional (criptografia), cujo PID
sempre é 1 (portanto, fácil de identificar).

2.6.7. MPEG-2 AAC e Dolby AC-3


Após 1991, a partir do desenvolvimento da Camada-3 do MPEG-1 Áudio (também
denominada MP3), as pesquisas sobre compressão de áudio evoluíram até produzir o
desenvolvimento de um novo padrão: o MPEG-2 AAC (Advanced Áudio Coding). Esse
padrão – especificado como parte 7 do padrão MPEG-2 – consegue taxas de
compressão bem superior que seu antecessor, permitindo o uso de até 48 canais
principais de áudio, além de outros canais de baixa freqüência.
O Dolby AC-3, diferentemente dos padrões MPEG, é especificado por uma
única companhia: Dolby Laboratories. Esse padrão proprietário, largamente utilizado na
codificação de áudio em filmes para cinema e DVD, foi o esquema de compressão
escolhido pelo sistema ATSC – padrão de TV digital norte-americano. O Dolby AC-3 é
a terceira geração de algoritmos de áudio. Permite até 5 canais principais e um canal
subwoofer que podem ser comprimidos em um único fluxo de dados com 640kbps.

2.7. Componentes da TV digital interativa


Um sistema de TV digital interativa pode ser decomposto em três partes: (i) um difusor,
responsável por prover o conteúdo a ser transmitido, e suportar as interações com os
telespectadores; (ii) um receptor que recebe e apresenta o conteúdo e possibilita ao
telespectador interagir com o difusor; e (iii) um meio de difusão, composto por canal de
difusão e canal de retorno (ou canal de interatividade), que habilita a comunicação entre
difusor e receptor (Figura 2.9).
Difusor Receptor
Canal de difusão
Provedor de Serviço Receptor digital
de Difusão Meios de Difusão: ou set top box

Radiodifusão Satélite Telespectador


Cabo

Provedor de Serviço
de Interação Canal de retorno

Figura 2.9. Modelo de um sistema de televisão digital Interativa.


2.7.1. Meios de difusão
A difusão é o envio do conteúdo (áudio, vídeo ou dados) de um ponto provedor do
serviço de difusão – que é responsável pelo gerenciamento de diversos canais
televisivos, – para outros pontos, os receptores, onde se encontram a recepção digital e
os telespectadores. Os meios de difusão mais comuns são via satélite, cabo e
radiodifusão, sendo esse último também conhecido como difusão terrestre.
O provedor de serviço de difusão pode deter e controlar o seu meio de difusão.
Esse é o caso típico quando o meio de difusão usado é via cabo. Por outro lado, um
provedor que difunde seu conteúdo via satélite usualmente não é responsável pela
operação desse meio.
Plataformas de cabo possuem como vantagem uma boa largura de banda para o
canal de difusão e para o canal de retorno (usado para a interação do telespectador com
o provedor do serviço) [Gawlinsk 2003]. Contudo, a grande desvantagem do uso desse
meio é que a transmissão só alcança as residências que estão interligadas fisicamente.
Plataformas de satélite possuem como vantagem o alcance de seu sinal, que
pode alcançar os mais recônditos lugares do planeta. Não existem grandes custos
intermediários no crescimento do alcance da rede de difusão (no caso do cabo existe a
necessidade de passar cabos por novas ruas). No entanto, esse meio de difusão
apresenta como desvantagem a dificuldade de estabelecer um canal de retorno entre o
telespectador e o provedor usando o próprio satélite. Essa dificuldade usualmente é
superada através do uso de linhas telefônicas.
A grande vantagem do uso de difusão terrestre é o fato desse meio ser usado
atualmente nas televisões convencionais. Por conseguinte, em teoria, é possível
estabelecer de uma forma mais simples a migração lenta entre telespectadores de TV
convencional para a TV digital interativa. Uma desvantagem desse meio é o fato que
usualmente tem menos largura de banda disponível, tendendo a possuir menos canais de
TV e serviços interativos do que as plataformas via cabo e satélite. Além disso, possui o
problema do canal de retorno, da mesma forma que ocorre no caso do uso de satélite.

2.7.2. Lado do difusor


A difusão de um sinal de TV digital implica em várias etapas para construção do sinal a
ser difundido (Figura 2.10). Além dos fluxos vídeo e áudio, existe um terceiro tipo de
informação que também pode ser difundido: dados. Os exemplos são inúmeros, desde
legendas de filme, guias de programação de canais (EPG – Electronic Program Guide)
ou qualquer tipo de dado que pode ser usado para prover um serviço (ex. dados para t-
governo). Mas existe um tipo de dado importante em TV digital: aplicativos –
programas usualmente em linguagem Java –, que serão executados na televisão digital,
que passa a possuir capacidade de processamento.
Existem duas formas de gerar conteúdo televisivo: transmiti-lo ao vivo ou
gravar seqüências de vídeo e áudio para posterior edição antes da difusão. Em ambas as
formas, para poderem ser difundidos, os sinais de áudio e vídeo precisam ser
codificados por um elemento codificador (encoder) e encapsulados em pacotes de
transporte MPEG2-TS por um multiplexador. Os dados também precisam ser inseridos
no multiplexador, através de um injetor de dados.
Geralmente os fluxos elementares na televisão digital são codificados usando
taxa de bits variável (VBR). Após a multiplexação desses fluxos, um problema que
poderia ocorrer é o somatório da taxa de bits gerada ultrapassar a largura de banda
disponível para difusão. Esse problema é amenizado pelo fato que cada fluxo elementar
usualmente possuir a taxa máxima em instantes diferentes.
Após a multiplexação, o próximo passo é transformar esse sinal digital em um
sinal analógico para que o mesmo possa ser difundido pelos meios convencionais. Cabe
ao modulador essa tarefa.
Aquisição de áudio e vídeo Edição e inserção de
conteúdo pré-codificado

Codificador Codificador
MPEG-2 MPEG-2

Injetor de Multiplexador
dados

Modulador

UpConverter

Meios de Difusão:
Cabo Radiodifusão Satélite

Figura 2.10. Etapas de difusão.

O modulador gera um sinal analógico em baixa freqüência. Esse sinal precisa ser
convertido em um sinal de freqüência maior para poder ser difundido pelos diversos
meios. O equipamento responsável por essa conversão é o UpConverter.

2.7.3. Lado do receptor e set top box


Antes de ser processado por um receptor, o sinal difundido precisa ser captado por uma
antena específica para a tecnologia usada, no caso de satélite ou radiodifusão, ou chegar
via cabo. O receptor pode estar embutido em uma televisão digital ou ser um
equipamento à parte. Nesse último caso, o receptor passa a ser conhecido como
terminal de acesso ou set top box. A idéia básica desse dispositivo é o de uma pequena
caixa agregada a uma televisão analógica, que converte os sinais digitais para que sejam
assistidos por essas televisões convencionais.
Um receptor ou set top box pode possuir também um canal de retorno tornando
possível uma interatividade entre o telespectador e os serviços disponíveis. Esse canal
de retorno pode utilizar as mais diversas tecnologias disponíveis, como linha telefônica
discada, xDSL e cabo, para fazer a comunicação no sentido inverso da difusão, do
telespectador para o operador da rede.
Para permitir ao telespectador a interação com os serviços, os set top boxes
possuem capacidade de processamento. Por isso seu hardware pode conter tecnologias
que são comuns aos computadores, tais como CPU, memória, modems para canal de
retorno, discos rígidos para armazenamento de dados, e leitores de smart cards para
controle de acesso. Como ocorre em computadores convencionais, esses dispositivos
são controlados por device drivers de sistemas operacionais. Contudo, esses sistemas
operacionais são bem mais simples que os convencionais, e possuem código
armazenado em memória não volátil (ROM).
Set top boxes também precisam lidar com controle remoto, tal como na TV
convencional. Contudo as semelhanças param aqui, pois os tipos de serviços são bem
diferentes dos da TV convencional. Portanto, uma área de pesquisa em TV digital, é o
projeto de novos tipos de controles remotos, funcionalidades e interfaces com o
telespectador.
As etapas envolvidas com processamento do sinal em um set-top box são
ilustradas na Figura 2.11.
Meios de Difusão:

Cabo Radiodifusão Satélite

Sintonizador

sinal
Demodulador

fluxo de transporte
Demultiplexador

fluxos elementares de
Decodificador áudio, vídeo e dados
MPEG-2

Sinais de áudio e vídeo no


Fluxo de dados formato específico da televisão

Figura 2.11. Etapas da recepção.

O primeiro elemento que processa (capta) o sinal difundido é o sintonizador


digital. A seguir, o sinal passa pelo demodulador, que extrai o fluxo de transporte
MPEG-2, passando-o para o demultiplexador, responsável por extrair todos os fluxos
elementares. Esses, por sua vez, são então encaminhadas para o decodificador, que os
converterá para o formato apropriado de exibição utilizado pelo equipamento televisivo.
2.7.4. Datacasting, Carrossel de dados e carrossel de objetos
O surgimento da TV digital tornou possível a transmissão de qualquer tipo de dados
digitais. Esse serviço, conhecido como datacasting (data broadcasting) poderá vir a ser
estratégico no futuro da TV Digital [Pagani 2003] [Griffiths 2003].
Os serviços de datacasting podem ser classificados segundo seu grau de
acoplamento com o fluxo de vídeo/áudio difundido.
Um datacasting fortemente acoplado é aquele onde os dados difundidos têm
relacionamento temporal com o fluxo de vídeo/áudio. Um teletexto sobre a matéria que
está sendo apresentada no vídeo, ou uma partitura musical do áudio que está sendo
executado são exemplos desse tipo de datacasting.
No datacasting fracamente acoplado, os dados são relacionados ao áudio e
vídeo, mas o telespectador pode escolher o melhor momento para acessar esses dados
(podendo ser até mesmo no final do vídeo). Um material educacional adicional a um
vídeo educativo, pode ser um exemplo.
No datacasting desacoplado o dado pode ser enviado em um fluxo separado,
totalmente independente de outros fluxos.
2.7.4.1 Carrossel de dados
O DSM-CC especifica dois tipos de protocolos: carrossel de dados (data carrossel) e
carrossel de objetos (object carrossel). O uso desses protocolos é a forma mais eficiente
para implementar o datacasting. Em um carrossel, os dados são enviados
periodicamente sobre um fluxo de transporte MPEG-2 (Figura 2.12).

Dados B

Dados A
Dados C

Dados E os dados são


Dados D transmitidos usuários podem
intercalados selecionar um dos
carrossel de dados dados transmitidos

Figura 2.12. Carrossel de dados [Gawlinsk 2003].

O carrossel de dados é mais simples e limitado que o carrossel de objetos. Não


possui itens individuais de dados, ou estruturas de diretórios, apenas um pedaço
monolítico de dados. Por outro lado, o carrossel de objetos estende o de dados,
padronizando uma forma de fazer difusão de dados identificáveis (ou objetos), de um
servidor para um receptor, que podem ser imagens, programas, arquivos texto, etc.
O DSM-CC é incompleto na forma de determinar como as aplicações nos set top
boxes irão lidar um carrossel de dados ou objetos. Por esse motivo, os sistemas de TV
digital (europeu, norte-americano e japonês) especificam APIs com esse objetivo. O
MHP, por exemplo, middleware do sistema DVB (será visto mais sobre esse assunto
adiante neste texto), especifica um MHP File System com esse objetivo (Figura 2.13).
DVB MHP File System

DSM-CC Object Carrossel

DSM-CC Data Carrossel


MPEG MPEG
Audio Video MPEG-2 Sessão Privada

MPEG-2 TS

Figura 2.13. Sistema de arquivos MHP sobre carrossel de objetos [TAM 2003].

2.8. Características dos principais sistemas de TV digital


Como ocorre em projetos de edificações, a melhor forma de lidar com um sistema
complexo – como no caso de um sistema de TV digital interativa –, é através da
representação de sua arquitetura. Uma arquitetura visa mostrar os principais elementos
de um sistema, e suas interações, escondendo detalhes que não são considerados
importantes sob um determinado ponto de vista.
Uma arquitetura que representa as camadas de tecnologias existentes em TV
digital interativa é apresentada na Figura 2.14.

Aplicações
EPG t-gov internet t-comércio

Middleware
DASE MHP ARIB

Áudio MPEG-2 BC MPEG-2 AAC Dolby AC3


Compressão
Vídeo MPEG-2 SDTV MPEG-2 HDTV

Transporte
MPEG-2

Transmissão
Modulação 8-VSB COFDM

Figura 2.14. Arquitetura da TV digital.

A idéia por detrás da arquitetura é a de que cada camada oferece serviços para a
camada superior, e usa os serviços oferecidos pela camada inferior. Dessa forma, uma
aplicação que executa em TV digital interativa faz uso de uma camada de middleware,
que intermedeia toda a comunicação entre a aplicação e o resto dos serviços oferecidos.
A finalidade da camada de middleware – ou camada do meio – é oferecer um
serviço padronizado para as aplicações (camada de cima), escondendo as peculiaridades
e heterogeneidade das camadas inferiores (tecnologias de compressão, de transporte e
de modulação). O uso de middleware facilita a portabilidade de aplicações, que podem
ser transportadas para qualquer receptor digital (ou set-top box) que suporte o
middleware adotado. Essa portabilidade é primordial em sistemas de TV digital, pois é
muito complicado considerar como premissa que todos os receptores digitais sejam
exatamente iguais.
As principais especificações existentes de TV digital – norte-americano, europeu
e japonês – adotam diferentes padrões para middleware em seus receptores digitais.
Dessa forma, na seqüência deste texto, esses padrões de TV digital e seus middlewares
são introduzidos e comparados.

2.8.1. DVB – Digital Video Broadcasting


O DVB (Digital Video Broadcasting) é conhecido como o padrão europeu de televisão
digital. Na realidade esse padrão é formado por um conjunto de documentos, definindo
padrões de transmissão, sendo os mais conhecidos: DVB-T (radiodifusão), DVB-C
(difusão por cabo), DVB-S (difusão por satélite) e DVB-MHP (Multimedia Home
Plataform – padrão de middleware para TV digital).
Esse conjunto de padrões é definido por um consórcio homônimo, que começou
oficialmente em setembro de 1993. O consórcio DVB é atualmente composto por mais
de 300 membros, de 35 países. O padrão DVB-T é adotado em países da Europa, além
da Austrália, Malásia, Hong Kong, Índia, África do Sul e diversos outros países fora da
Europa. O país que mais consolidou o uso do DVB é a Inglaterra, já possuindo mais de
um milhão de usuários. Neste e nos demais países, a televisão digital terrestre é um
serviço pago, e os set top boxes são subsidiados pelas operadoras de TV.
O DVB-T é um esquema de transmissão para difusão de televisão digital
terrestre (radiodifusão). Utiliza a modulação COFDM cuja taxa de transmissão varia
entre 5 a 31,7 Mbps, dependendo dos parâmetros utilizados na codificação e modulação
do sinal. Pode operar em canais de TV de 6, 7 ou 8 MHz. A multiplexação e codificação
de áudio e vídeo são feitas sobre o padrão MPEG-2. O middleware utilizado é o MHP
(Multimedia Home Plataform), descrito a seguir.
2.8.1.1 MHP – Multimedia Home Platform
Há algum tempo a comunidade que desenvolve tecnologia para TV digital percebeu que
provedores de serviços não iam ter sucesso comercial se tivessem que desenvolver
serviços interativos que não fossem portáveis em set top boxes de diferentes fabricantes.
Em 1997 o grupo DVB começou a especificar uma camada de middleware, que deu
origem à plataforma MHP em junho de 2000. Um ano após a primeira versão, em abril
de 2001, foi lançada a especificação MHP 1.1.
O MHP busca oferecer um ambiente de TV interativa, independente de
hardware e software específicos, aberto e interoperável, para receptores e set top boxes
de TV digital. Seu ambiente de execução é baseado no uso de uma máquina virtual Java
(a mesma linguagem de programação adotada em computadores) e um conjunto de
interfaces de programação de aplicações (APIs). Essas APIs possibilitam que programas
escritos em Java possam ter acesso a recursos e facilidades do receptor digital de forma
padronizada. Uma aplicação DVB que usa API Java é denominada uma aplicação
DVB-J.
Em adição ao uso da API Java, o MHP 1.1 introduziu a possibilidade do uso de
uma linguagem de programação semelhante ao HTML (empregada na internet para
programação de páginas web), denominada DVB-HTML.
Aplicações DVB-J e DVB-HTML possuem a capacidade de:
• carregar (download), através de um canal de inetartividade, aplicações
interativas;
• armazenar aplicações em memória persistente (ex. disco rígido);
• acessar leitores de smart cards;
• controlar aplicações de internet, tais como navegador web e leitor de email.
Em adição ao MHP, o MHEG-5 (padrão ISO/IEC 13522-5) também é adotado
na camada de middleware no DVB-T. O MHEG é um padrão usado para representar
apresentações multimídia, permitindo interatividade do usuário com o conteúdo da
apresentação. No caso da TV digital, MHEG-5 pode ser usado para representar um guia
de programação eletrônico (EPG). A especificação do MHP herdou uma série de
características que já existiam no MHEG, tal como o uso de carrossel de dados.
Atualmente, existe um esforço conjunto para que as especificações de ambos os padrões
possam coexistir em uma mesma TV digital.

2.8.2. ATSC – Advanced Television Systems Committee


Em funcionamento nos Estados Unidos desde novembro de 1998, o ATSC também já
foi adotado pelo Canadá, Coréia do Sul, Taiwan, e recentemente, pelo México. Esse
padrão utiliza a modulação 8-VSB, possuindo uma taxa de transmissão de 19,8 Mbps,
ocupando uma largura de banda de 6, 7 ou 8 MHz.
A multiplexação e codificação de vídeo são feitas sobre o padrão MPEG-2. Já a
codificação de áudio é realizada através do padrão Dolby AC-3. O middleware utilizado
é o DASE (DTV Application Software Enviroment), visto a seguir.
2.8.2.1 DASE – DTV Application Software Environment
O DASE foi desenvolvido pelo ATSC como um padrão norte-americano para a camada
de middleware em set top boxes de TVs digitais. De forma similar ao MHP, o DASE
adota uma máquina virtual Java como mecanismo que facilita a execução de aplicações
que permitem interatividade. Também de forma similar ao MHP, o DASE também
permite o uso de linguagens declarativas, usadas na web, como HTML e JavaScript.
Infelizmente, as semelhanças entre esses dois padrões param neste ponto. Os
middlewares MHP e DASE não foram projetados para serem compatíveis entre si. Isso
significa que um serviço desenvolvido para um desses padrões não irá funcionar em
outro.

2.8.3. ISDB – Integrated Services Digital Broadcasting


Criado em 1999 por várias empresas e operadoras de televisão, o ISDB-T é o padrão de
transmissão terrestre japonês, sendo adotado somente por esse país. Utiliza na
modulação o COFDM, com algumas variações; possui uma taxa de transferência que
varia entre 3,65 à 23,23 Mbits/s, e uma largura de banda de 6, 7 ou 8 MHz. As suas
maiores vantagens são a grande flexibilidade de operação e potencial para transmissões
móveis e portáteis.
A multiplexação e codificação de vídeo, como nos dois padrões anteriores,
também são realizadas em MPEG-2. A codificação de áudio utiliza o MPEG2 ACC
audio. O middleware é o ARIB (Association of Radio Industries and Businesses),
descrito a seguir.
2.8.3.1 ARIB – Association of Radio Industries and Businesses
O middleware do ISDB é padronizado pela Organização ARIB. Esse middleware é
formado por alguns padrões como o ARIB STD-B24 (Data Coding and Transmission
Specification for Digital Broadcasting) que define linguagem declarativa denominada
BML (Broadcast Markup Language). Essa linguagem, baseada em XML (Extensible
Markup Language) é usada para especificação de serviços multimídia para TV digital.
Outra especificação do middleware é o ARIB STD-B23 (Application Execution
Engine Platform for Digital Broadcasting). Essa especificação é baseada no DVB-
MHP, e indica uma tendência do ARIB de tentar estabelecer uma conformidade com
outros padrões de middleware.

2.8.4. Experiências brasileiras


As discussões em torno do assunto TV digital começaram no Brasil em 1994. Desde
então têm se debatido vários aspectos tecnológicos, porém nunca se aprofundou a
questão do conteúdo ou finalidades da tecnologia. Os padrões internacionais sempre
estiveram no centro das discussões, desvirtuando os reais efeitos dos avanços
tecnológicos, seja na radiodifusão ou nas telecomunicações, dois temas intrínsecos ao
assunto.
Esses estudos nunca chegaram a resultados concretos. Ficaram muito mais na
suposição e na falta de vontade política de avançar. Apesar das sugestões da Anatel, que
até chegou a propor o padrão japonês como o mais adequado para o país [Anatel 2001],
poucos dados empíricos estão disponíveis para balizar qualquer argumento sobre a
pertinência da adoção de um padrão estrangeiro ou sobre o desenvolvimento de um
padrão nacional. O resultado é mais um atraso tecnológico, industrial e econômico,
tônica da realidade brasileira nas últimas décadas.
Os estudos sobre o assunto têm raízes na criação da Comissão Assessora para
Assuntos de Televisão (Com-TV), estabelecida pelo Ministério das Comunicações em
1991. A Comissão tinha como objetivo principal o estudo e a análise da TV de alta
definição, em desenvolvimento em alguns países, principalmente no Japão e nos EUA, e
em discussão no âmbito da União Internacional de Telecomunicações (UIT, sigla em
inglês). Após o surgimento dos sistemas digitais, a TV de alta definição passou a ser
chamada de televisão digital, uma vez que praticamente pararam os estudos sobre a TV
analógica.
As primeiras pesquisas brasileiras sobre a TV digital foram feitas em 1994 pela
Sociedade Brasileira de Engenharia de Televisão (SET) e a Associação Brasileira de
Emissoras de Rádio e Televisão (Abert). Desde então, um grupo de pesquisa formado a
partir dessas duas associações estuda a passagem do atual sistema de radiodifusão
analógico para o padrão digital. O grupo tem acompanhado, estudado e avaliado os
sistemas de TV digital desenvolvidos no mundo, além de observar sua implantação nos
diversos países.
Centrando os estudos nos três padrões existentes, o grupo avançou em 1998,
quando a Anatel iniciou os seus estudos sobre TV digital e mercado de
telecomunicações. Além de tomar a frente nas pesquisas, a Agência avalizou a iniciativa
SET/Abert, dando continuidade ao trabalho que vinha sendo desenvolvido, porém com
uma visão mais pragmática. O objetivo inicial estava claro: escolher um dos três
padrões para ser adotado pelo Brasil. O desenvolvimento de um padrão nacional estava
praticamente fora de questão.
Ainda em 1998, a Anatel iniciou o processo de escolha do padrão digital da TV
brasileira, através da abertura da Consulta Pública nº 65, de 27 de julho. O objetivo
desse procedimento era viabilizar os testes de campo com os sistemas digitais
disponíveis. Em novembro do mesmo ano, 17 emissoras manifestaram interesse em
participar dos testes, entre elas a Fundação Padre Anchieta, o SBT e a TV Globo. Em
seguida a Anatel iniciou o processo de contratação de consultorias especializadas para
assessorar os pesquisadores no assunto.
No inicio de 1999 foram importados os equipamentos necessários para testar os
três sistemas de transmissão. Os testes de laboratório e de campo foram feitos em
setembro daquele ano e em janeiro de 2000, respectivamente. O passo seguinte foi
demonstrar a nova tecnologia em diversos shopping centers. Depois a Anatel visitou as
entidades representantes dos três padrões testados e outros órgãos governamentais
reguladores do serviço de radiodifusão.
Logo no inicio dos testes, em fevereiro de 2000, percebeu-se que a modulação 8-
VSB, usada pelo padrão norte-americano, não atendia às necessidades brasileiras, uma
vez que seu desempenho foi insatisfatório na recepção doméstica, principalmente
usando antenas internas. Esse fato levou a Anatel a descartar o padrão de modulação
norte-americano, colocando em consulta pública a utilização do COFDM, usado pelo
DVB e ISDB. Atualmente, quase metade (47%) dos aparelhos de TV tem recepção
apenas por antenas internas. Esse número aumenta consideravelmente se adicionarmos
os aparelhos com antenas externas, mas que mesmo assim recebem predominantemente
o sinal pelas antenas internas.
O relatório final dos testes de TV digital confirmou o melhor desempenho dos
padrões europeu e japonês, além do desempenho insuficiente do padrão norte-
americano nos quesitos transmissão de sinais em áreas de sombra e para receptores
móveis. Entre os dois primeiros, o padrão japonês foi considerado superior ao sistema
europeu, devido ao melhor desempenho na recepção de sinais televisivos em ambientes
fechados, e a sua flexibilidade para recepção de programas ou acesso a serviços, através
de terminais fixos ou móveis. Em 31 de agosto de 2000, a Anatel encerrou a discussão
técnica sobre o padrão de TV digital a ser adotado no Brasil. Esperava-se um
pronunciamento oficial sobre qual padrão seria adotado, mas este anúncio foi adiado
para depois da posse do novo governo, que ocorreria dois anos depois.
Após a posse no novo governo, o então Ministro das Comunicações, Miro
Teixeira, encaminhou uma carta de intenções ao Presidente da Republica, onde levantou
a necessidade da inclusão digital através da TV interativa [Ministério das
Comunicações 2003]. Era o primeiro sinal de que o assunto teria outro tratamento. O
passo seguinte foi o anúncio de que o país desenvolveria um padrão próprio de
transmissão, idéia que foi amplamente defendida pelo ministro até sua saída do
Ministério, um ano após tomar posse. Em maio do mesmo ano, foi criado um grupo de
estudo para analisar novamente o assunto e dar um parecer sobre os estudos já
realizados.
Os trabalhos desse grupo de estudo duraram até novembro, quando saiu o
decreto Nº 4.901, de 26 de novembro de 2003, que instituiu o Sistema Brasileiro de TV
Digital (SBTVD). O decreto, além de nortear a transição do sistema analógico para o
digital, deixou claro que esse avanço tecnológico não se restringiria a uma simples troca
de equipamentos. A preocupação com a inclusão social por intermédio da TV e com o
desenvolvimento da indústria nacional estava entre os principais objetivos. O decreto
deixou claro que a TV digital seria uma ferramenta com finalidades sociais, não uma
simples evolução tecnológica que atende apenas a interesses mercadológicos ou
econômicos [Brasil 2003].
Para a gestão e execução do SBTVD, foram criados três comitês: Comitê de
Desenvolvimento, Comitê Consultivo e Grupo Gestor. Ao primeiro, vinculado
diretamente à Presidência da República, compete definir as políticas para o
desenvolvimento do sistema, incluindo o desenvolvimento tecnológico, a transição, a
regulação e o modelo de negócios a ser adotado. É um órgão político, composto por
Ministros de Estado. O Comitê Consultivo é uma extensão do Comitê de
Desenvolvimento, sendo responsável pela proposta de ações e diretrizes fundamentais
ao sistema. É composto por representantes da sociedade civil, indicados pelas entidades
que desenvolvem atividades relacionadas ao tema. O Grupo Gestor é responsável pelas
ações determinadas pelos dois Comitês, sendo apoiado pela Financiadora de Estudos e
Projetos (Finep) e pela Fundação CPqD.
O decreto de criação do SBTVD estabeleceu o prazo de um ano, contando a
partir da data da criação do Comitê de Desenvolvimento, para a realização dos estudos e
apresentação do relatório sobre a adoção ou o desenvolvimento de um padrão de TV
digital, além da transição e exploração do novo modelo. O Comitê foi criado em março
de 2004, iniciando o prazo de um ano para as definições.

2.9. Comentários finais


Este texto descreveu os componentes básicos da TV digital e interativa e alguns
desdobramentos que o tema adquiriu no Brasil. De forma introdutória, procurou-se
fomentar o debate em torno do assunto, através da apresentação dos principais conceitos
relacionados ao tema e necessários para embasar opiniões mais convincentes. Em
nenhum momento teve-se a pretensão de esgotar o tema, apenas levantar as questões
pertinentes e contribuir no debate sobre a transição para a TV digital no país.
Como vimos no decorrer do minicurso, o tema é abrangente e multidisciplinar,
dificultando até um recorte dos aspectos a serem discutidos. Para completar, ou melhor,
aumentar a abrangência do tema, poderiam ser desenvolvidos vários outros textos,
enfatizando, por exemplo, middleware, incluindo middlewares comerciais, o GEM
(Globally Executable MHP), a API Java TV, da Sun Microsystems, muito utilizada
pelos programadores de serviços para TV digital interativa.
Outros assuntos que poderiam ser aprofundados são: padrões e técnicas de
modulação de sinais digitais, novos serviços para TV digital, tecnologias para canal de
interatividade, tecnologia de set top box, impacto social da TV digital, modelos
mercadológicos e regulatórios, inclusão digital e social, entre outros.
Agradecimentos: Os autores agradecem a Carlos Piccioni pelo apoio técnico, e ao CNPq pelo auxílio
financeiro através da chamada CNPq 10/2001-ProTeM/RNP 01/2001.

Referências
ANATEL, Agência Nacional de Telecomunicações. “TV Digital”, Brasília, 2001.
ANATEL, Agência Nacional de Telecomunicações. Brasília, janeiro de 2004.
Disponível em <http://www.anatel.gov.br>. Acesso em 22/03/2004.
Atlas Brasileiro de Telecomunicações, São Paulo, Glasberg, 2004.
Becker, V. e Montez, C., TV Digital Interativa: Conceitos, Desafios e Perspectivas para
o Brasil, Ed. I2TV, 2004.
Becker, V. e Moraes, A. “Do analógico ao Digital: uma proposta de comercial para TV
interativa. In: III Simpósio Catarinense de Processamento Digital de Imagens”, 2003,
Florianópolis. Florianópolis: Simpósio Catarinense de Processamento Digital de
Imagens, 2003. p. 122-134.
BRASIL. Decreto-lei n. 4.901, de 26 de novembro de 2003. “Institui o Sistema
Brasileiro de Televisão Digital - SBTVD, e dá outras providências”, Diário Oficial
da República Federativa do Brasil, Brasília, 27 de nov. 2003. Seção 1, Pág. 7.
Buford, J., Multimedia Systems, ACM Press, 1994.
Chion, M. “La audiovisión: Introducción a un análisis conjunto de la imagen y el
sonido”, Barcelona, Paidós, 1993. Citado por Rezende (2000).
Clark, W. O campeão de audiência: uma autobiografia. São Paulo, Ed. Nova Cultural,
1991.
Collins, W. G., Fundamentals of Digital Television Transmission, John Wiley & Sons,
Inc., 2001.
Drury, G., Markarian, G., Pickavance, K., Coding and Modulation For Digital
Television, Kluwer Academic Publishers, 2002.
Eco, H., Apocalípticos e integrados, São Paulo, Perspectiva, 1973.
Fluckiger, F., Understanding Networked Multimedia: Applications and Technology,
Prentice Hall, 1995.
Fragoso, S. (2001) “De interações e interatividade”, In: Associação Nacional dos
Programas de Pós-Graduação em Comunicação, Brasília, Associação Nacional dos
Programas de Pós-Graduação em Comunicação, 2001. CD-ROM.
Gawlinski, M., Interactive Television Production, Oxford, Focal Press, 2003.
Griffiths, A., Digital Television Strategies: Business Challenges and Opportunities,
Palgrave Macmillan, 2003.
Grotticelli, M. The DTV Consumer. In: SILBERGLEID, Michael; PESCATORE, Mark
J. The Guide to Digital Television, Third Edition, United Entertainment Media, Nova
York, 1999. p. 25-30
KOOGAN/HOUAISS. Enciclopédia e dicionário ilustrado. 4.ed. Rio de Janeiro. Seifer,
1999.
Lemos, A. L.M. “Anjos interativos e retribalização do mundo: sobre interatividade e
interfaces digitais”, [S.l. s.n], 1997.
Lu, G., Communication and Computing for Distributed Multimedia Systems, Artech
House, 1996.
Maclin, B. What Every Marketer Needs to Know about iTV. Nova Iorque, eMarketer
Analyst Brief, 2001.
MINISTÉRIO das Comunicações. Política para adoção de tecnologia digital no serviço
de televisão. Brasília, 2003.
Nielsen, J. (2000) “Projetando websites”, São Paulo, Campos.
Pagani, M., Multimedia and Interactive Digital TV: Managing the Opportunities
Created by Digital Convergence, IRM Press, 2003.
Popper, F., As imagens artísticas e a tecnociência, In: PARENTE, André (org.)
Imagem-máquina. Rio de Janeiro: Ed.34, 1993.
Reisman, R. R (2004) “Rethinking Interactive TV – I want my Coactive TV. [S.l.]”,
Teleshuttle Corporation, 2002. Disponível em
<http://www.teleshuttle.com/cotv/CoTVIntroWtPaper.htm>. Acesso em 19/03/2004.
Rezende, G. J. (2000) “Telejornalismo no Brasil: um perfil editorial”. São Paulo,
Summus Editorial, 2000.
Schwalb, E. M., iTV Handbook; Technologies and Standards, Prentice Hall PTR, 2003.
Steuer, J. “Defining Virtual Reality: Dimensions Determining Telepresence”. Journal of
Communication, v. 42, n. 4, 1992.
Tan, J. et. all (2003) Recording Interactive TV, IEEE International Conference on
Consumer Electronics.
Tektronix (2002) “A Guide to MPEG Fundamental and Protocol Analysis: Including
DVB e ATSC”, http://www.tektronix.com/video_audio.
Wiener, N. Cibernética e sociedade: o uso humano de seres humano. São Paulo, Cultrix,
1968.
Xavier, R. Sacchi, R. “Almanaque da TV: 50 anos de memória e informação”, Objetiva,
Rio de Janeiro, 2000.