Anda di halaman 1dari 21

“SISTEMA E MÉTODO PARA MELHORAR A VISIBILIDADE DE UM OBJETO EM

UMA IMAGEM DIGITAL”


REFERÊNCIA CRUZADA A PEDIDOS RELACIONADOS
O presente pedido reivindica o benefício do Pedido de Patente U.S. Provisório de
5No de Série 61/123844 (Processo PU080054), intitulado "PROCESSING IMAGES HAVING
OBJECTS" e depositado em 11 de abril de 2008, aqui incorporado na íntegra para fins de
referência.
CAMPO DA INVENÇÃO
A presente invenção refere-se, em geral, à transmissão de imagens digitais, e, em
10particular, ao aprimoramento da visibilidade de objetos de interesse em imagens digitais, em
especial imagens digitais que são exibidas em unidades que possuem codificação de vídeo
de baixa resolução e baixa taxa de bits.
ANTECEDENTES DA INVENÇÃO
Há uma demanda crescente pela distribuição de conteúdo de vídeo a dispositivos
15portáteis, como telefones celulares e PDAs. Devido ao tamanho pequeno da tela, à limitação
da largura de banda e à limitação do poder de processamento do lado do decodificador, os
vídeos são codificados com taxas de bits baixas e em resoluções baixas. Um dos principais
problemas da codificação de vídeo de baixa resolução e baixa taxa de bits é a degradação
ou perda de objetos essenciais à percepção da qualidade do vídeo. Por exemplo, é
20incômoda assistir a um clipe de vídeo de uma partida de futebol ou tênis quando a bola não
está claramente visível.
SUMÁRIO DA INVENÇÃO
Portanto, é desejável realçar objetos de interesse no intuito de melhorar a qualidade
visual subjetiva de vídeos de baixa resolução e baixa taxa de bits. Nas várias
25implementações da presente invenção, a visibilidade de um objeto de interesse em uma
imagem digital é aprimorada, dada a localização e tamanho aproximados do objeto na
imagem, ou a visibilidade do objeto é aprimorada após o refinamento da localização e
tamanho aproximados do objeto. O aprimoramento do objeto oferece pelo menos dois
benefícios. Primeiro, o aprimoramento do objeto faz com que este se torne mais fácil de ver
30e acompanhar visualmente, melhorando, com isso, a experiência do usuário. Em segundo
lugar, o aprimoramento do objeto ajuda o objeto a manter menor degradação durante o
estágio de codificação (isto é, compactação). Uma das principais aplicações da presente
invenção é a distribuição de vídeo a dispositivos portáteis, como telefones celulares e PDAs;
entretanto, os aspectos, conceitos e implementações da presente invenção também podem
35ser úteis em diversas outras aplicações, contextos e ambientes, inclusive, por exemplo, no
protocolo de vídeo pela internet (conteúdo de definição padrão e taxa de bits baixa).
A presente invenção possibilita realçar objetos de interesse no vídeo no intuito de
melhorar a qualidade visual subjetiva de vídeos de baixa resolução e baixa taxa de bits. O
2

sistema e método inventivos são capazes de manipular objetos de características diferentes


e operar nos modos totalmente automático, semi-automático (isto é, com auxílio manual) e
totalmente manual. O aprimoramento dos objetos pode ser realizado em um estágio de pré-
processamento (isto é, antes do estágio de codificação de vídeo ou neste) ou em um estágio
5de pós-processamento (isto é, após o estágio de decodificação de vídeo).
De acordo com a presente invenção, a visibilidade de um objeto em uma imagem
digital é melhorada utilizando-se um vídeo de entrada contendo um objeto, armazenando
informações que representam a natureza e as características do objeto, e desenvolvendo,
em resposta à entrada de vídeo e às informações que representam a natureza e as
10características do objeto, informações de localização do objeto que identificam e localizam o
objeto. Um vídeo aprimorado da parte do vídeo de entrada que contém o objeto e a região
na qual o objeto está localizado é desenvolvido a partir do vídeo de entrada em resposta às
informações de localização do objeto, e o vídeo aprimorado é codificado.
BREVE DESCRIÇÃO DOS DESENHOS
15 A Figura 1 é um diagrama de blocos de uma concretização preferida de um sistema
para aprimorar a visibilidade de um objeto em um vídeo digital construído de acordo com a
presente invenção.
A Figura 2 ilustra a localização de objeto aproximada apresentada pelo sistema da
Figura 1.
20 As Figuras 3A a 3D ilustram o fluxo de trabalho em um aprimoramento de objeto de
acordo com a presente invenção.
A Figura 4 é um fluxograma para um algoritmo de estimação de limites de objeto
que pode ser usado para refinar as informações de identificação de objeto e as informações
de localização de objeto de acordo com a presente invenção.
25 As Figuras 5A a 5D ilustram a implementação do conceito de estimação de conjunto
de níveis dos limites de objetos de formato arbitrário de acordo com a presente invenção.
A Figura 6 é um fluxograma para um algoritmo de ampliação de objeto de acordo
com a presente invenção.
As Figuras 7A a 7C ilustram três subdivisões possíveis de um macrobloco 16x16 útil
30para explicar o refinamento das informações de identificação de objeto e das informações de
localização de objeto durante o estágio de codificação.
DESCRIÇÃO DETALHADA DA INVENÇÃO
Referindo-se à Figura 1, um sistema de aprimoramento de objetos, construído de
acordo com a presente invenção, pode abarcar todos os componentes em um transmissor
3510, ou o componente de aprimoramento de objeto pode estar em um receptor 20. Há três
estágios na cadeia do processo em que o realçamento de objeto pode ser realizado: (1) pré-
processamento, em que o objeto é aprimorado em um transmissor 10 antes do estágio de
codificação (isto é, compactação); (2) codificação, em que a região de interesse que contém
3

o objeto recebe tratamento especial no transmissor 10 pelo refinamento das informações


sobre o objeto e sua localização; e (3) pós-processamento, em que o objeto é aprimorado
no receptor 20 após a decodificação utilizando informações secundárias sobre o objeto e
sua localização transmitidas pelo transmissor 10 através do fluxo de bits na forma de
5metadados. Um sistema de aprimoramento de objeto, construído de acordo com a presente
invenção, pode ser configurado para oferecer realçamento de objeto em apenas um dos
estágios identificados acima, ou em dois dos estágios identificados acima, ou em todos os
três estágios identificados acima.
O sistema da Figura 1 para aprimorar a visibilidade de um objeto em uma imagem
10digital inclui meios para fornecer um vídeo de entrada contendo um objeto de interesse. A
origem da imagem digital que contém o objeto, cuja visibilidade será aprimorada, pode ser
uma câmera de televisão de operação e construção convencional, e é representada por uma
seta 12.
O sistema da Figura 1 também inclui meios para armazenar informações que
15representam a natureza e as características do objeto de interesse (por exemplo, um
modelo de objeto) e desenvolver, em resposta à entrada de vídeo e às informações que
representam a natureza e as características do objeto, informações de localização de objeto
que identificam e localizam o objeto. Tais meios, identificados na Figura 1 como um módulo
de localização de objeto 14, incluem meios para varredura do vídeo de entrada, em uma
20base de quadro por quadro, para identificar o objeto (isto é, o que é o objeto) e localizar este
objeto (isto é, onde está o objeto) na imagem com natureza e características similares às
informações armazenadas que representam a natureza e as características do objeto de
interesse. O módulo de localização de objeto 14 pode ser uma unidade de construção e
operação convencional que varre a imagem digital do vídeo de entrada, em uma base de
25quadro por quadro, e compara os setores varridos da imagem digital do vídeo de entrada
com as informações armazenadas que representam a natureza e as características do
objeto de interesse para identificar e localizar, pelas coordenadas retangulares da imagem
digital, o objeto de interesse quando as informações desenvolvidas pela varredura de um
setor específico forem similares às informações armazenadas que representam a natureza e
30as características do objeto.
Em geral, o módulo de localização de objeto 14 implementa um ou mais dos
seguintes métodos ao identificar e localizar um objeto de interesse:
• Rastreamento de objeto – O objetivo de um rastreador de objeto é localizar, no
vídeo, um objeto em movimento. Normalmente, o rastreador estima os parâmetros do objeto
35(por exemplo, localização, tamanho) no quadro atual, dado o histórico do objeto em
movimento nos quadros anteriores. Os métodos de rastreamento podem se basear, por
exemplo, na correspondência entre modelo, no fluxo óptico, em filtros de Kalman, na análise
de deslocamento pela média, em modelos ocultos de Márkov e filtros de partículas.
4

• Detecção de objeto – O objetivo da detecção de objeto é detectar a presença e a


localização de um objeto em imagens ou quadros de vídeo baseando-se no conhecimento
prévio acerca do objeto. Os métodos de detecção de objeto geralmente empregam uma
combinação de abordagens ascendentes e descendentes. Na abordagem descendente, os
5métodos de detecção de objeto se baseiam em regras que se derivam do conhecimento
humano dos objetos sendo detectados. Na abordagem ascendente, os métodos de
detecção de objeto associam objetos a aspectos ou padrões estruturais de baixo nível e
então localizam os objetos em busca desses aspectos ou padrões.
• Segmentação de Objetos – Nesta abordagem, uma imagem ou vídeo é
10decomposta em seus “objetos” constituintes, que podem incluir entidades semânticas ou
estruturas visuais, como porções de cores. Essa decomposição normalmente se baseia nos
atributos de movimento, cor e textura dos objetos. A segmentação de objeto possui várias
aplicações, inclusive na codificação de vídeo compacto, na descrição baseada em conteúdo
automático e semi-automático, na pós-produção de filmes e na interpretação de cenas. Em
15particular, a segmentação simplifica o problema de localização do objeto, pois proporciona
uma descrição de uma cena baseada no objeto.
A Figura 2 ilustra a localização de objeto aproximada proporcionada pelo módulo de
localização de objeto 14. O usuário desenha, por exemplo, uma elipse ao redor da região na
qual o objeto está localizado para localizar aproximadamente o objeto. Em algum tempo, as
20informações de localização aproximada do objeto (isto é, os parâmetros ponto central, eixo
maior e eixo menor da elipse) são refinadas.
De preferência, o módulo de localização de objeto 14 opera no modo totalmente
automático. No entanto, na prática, pode ser necessária certo auxílio manual para corrigir
erros cometidos pelo sistema, ou, no mínimo, definir objetos importantes para que o sistema
25localize. O aprimoramento de outras áreas que não a do objeto pode levar o espectador a se
distrair e perder a ação real. Para evitar ou minimizar esse problema, o usuário pode
desenhar, como descrito acima, uma elipse em torno do objeto e o sistema pode então
rastrear o objeto a partir da localização especificada. Se um objeto for localizado
corretamente em um quadro, o módulo de localização de objeto 14 gera os parâmetros de
30elipse correspondentes (isto é, ponto central, eixo maior e eixo menor). De preferência, o
contorno desta elipse delimitadora coincidirá com o do objeto.
No entanto, quando ocorrer de os parâmetros serem apenas aproximados e a
elipse resultante não delimitar exatamente o objeto e o aprimoramento de objeto ser
aplicado, é possível que ocorram dois problemas. Primeiro, o objeto pode não ser totalmente
35aprimorado, pois a elipse não inclui o objeto inteiro. Segundo, outras áreas que não a do
objeto podem ser aprimoradas. Uma vez que ambos os resultados podem ser indesejáveis,
é útil, sob tais circunstâncias, refinar a região do objeto antes do aprimoramento. O
5

refinamento das informações de localização de objeto é considerado em maiores detalhes


adiante.
O sistema da Figura 1 adicionalmente inclui meios, responsivos à entrada de vídeo
e às informações de localização de objeto que são recebidas do módulo de localização de
5objeto 14 para desenvolver um vídeo aprimorado da parte da imagem digital que contém o
objeto de interesse e da região na qual está localizado o objeto. Tais meios, identificados na
Figura 1 como um módulo de aprimoramento de objeto 16, podem ser uma unidade de
construção e operação convencional que aprimoram a visibilidade da região da imagem
digital que contém o objeto de interesse mediante a aplicação de operações de
10processamento de imagem convencionais a esta região. As informações de localização de
objeto que são recebidas, em uma base de quadro por quadro, do módulo de localização de
objeto 14 incluem as coordenadas retangulares de uma região de tamanho predeterminado
na qual o objeto de interesse está localizado. Além disso, como indicado acima, o
aprimoramento de objeto auxiliar na redução da degradação do objeto durante o estágio de
15codificação que segue o estágio de aprimoramento e é descrito abaixo. A operação do
sistema da Figura 1 até esse momento corresponde ao modo de operação de pré-
processamento mencionado acima.
Ao aprimorar o objeto, a visibilidade do objeto é melhorada mediante a aplicação de
operações de processamento de imagem na região em que está localizado o objeto de
20interesse. Essas operações podem ser aplicadas ao longo dos limites do objeto (por
exemplo, aguçamento de borda), dentro do objeto (por exemplo, aprimoramento de textura)
e possivelmente até mesmo fora do objeto (por exemplo, aumento de contraste, turvamento
fora da área do objeto). Por exemplo, uma forma de chamar mais atenção para um objeto
consiste em aguçar a bordas dentro do objeto e ao longo do contorno do objeto. Isso torna
25os detalhes no objeto mais visíveis, além de fazer o objeto se sobressair do fundo. Além
disso, bordas mais aguçadas tendem a ser conservadas durante a codificação. Outra
possibilidade é a de aumentar o objeto, por exemplo, mediante a aplicação iterativa de
operações de suavização, aguçamento e refinamento de objeto, não necessariamente
nessa ordem.
30 As Figuras 3A a 3D ilustram o fluxo de trabalho no processo de aprimoramento de
objeto. A Figura 3A é um único quadro em um vídeo de futebol, com o objeto sob foco sendo
a bola de futebol. A Figura 3B mostra a saída do módulo de localização de objeto 14, a
saber, as informações de localização de objeto da bola de futebol no quadro. A Figura 3C
ilustra uma etapa de refinamento de região, considerada em maiores detalhes abaixo, em
35que as informações de localização aproximada do objeto da Figura 3B são refinadas para
desenvolver uma estimativa mais precisa dos limites do objeto, a saber, a linha de cor clara
envolvendo a bola. A Figura 3D mostra o resultado após a aplicação do aprimoramento de
objeto, neste exemplo, o aguçamento de borda. Observe que a bola de futebol está mais
6

nítida na Figura 3D, e, portanto, mais visível do que no quadro original da Figura 3A. O
objeto também possui maior contraste, o que geralmente significa tornar as cores escutas
mais escuras e as cores claras ainda mais claras.
A inclusão do aprimoramento de objeto no sistema da Figura 1 oferece vantagens
5consideráveis. Problemas associados ao rastreamento imperfeito e aprimoramentos
distorcidos são superados. O rastreamento imperfeito pode tornar difícil a localização de um
objeto. De quadro em quadro, a localização do objeto pode estar ligeiramente desviada e
cada quadro pode ser ligeiramente desviado de forma diferente. Isso pode resultar em
cintilação devido, por exemplo, as partes do fundo serem aprimoradas em vários quadros
10e/ou diferentes partes do objeto serem aprimoradas em diversos quadros. Além disso, as
técnicas comuns de aprimoramento, sob certas circunstâncias, podem introduzir distorções.
Como indicado acima, o refinamento das informações de localização de objeto,
antes do aprimoramento, pode se fazer necessário quando as informações de localização
de objeto somente se aproximam da natureza do objeto e da localização do objeto em cada
15quadro para evitar que sejam aprimorados aspectos fora dos limites da região na qual está
localizado o objeto.
O desenvolvimento das informações de localização de objeto pelo módulo de
localização de objeto 14 e a distribuição das informações de localização de objeto ao
módulo de aprimoramento de objeto 16 podem ser totalmente automáticos, conforme
20descrito acima. À medida que os quadros do vídeo de entrada são recebidos pelo módulo de
localização de objeto 14, as informações de localização de objeto são atualizadas pelo
módulo de localização de objeto e as informações de localização de objeto atualizadas são
distribuídas ao módulo de aprimoramento de objeto 16.
O desenvolvimento das informações de localização de objeto pelo módulo de
25localização de objeto 14 e a distribuição das informações de localização de objeto ao
módulo de aprimoramento de objeto 16 também podem ser semi-automáticos. Em vez de
distribuir as informações de localização de objeto diretamente a partir do módulo de
localização de objeto 14 ao módulo de aprimoramento de objeto 16, um usuário após ter
disponível as informações de localização de objeto, pode adicionar manualmente, à imagem
30digital do vídeo de entrada, marcações, como linhas delimitadoras, que definem a região de
tamanho predefinido na qual está localizado o objeto.
O desenvolvimento das informações de localização de objeto e a distribuição das
informações de localização de objeto ao módulo de aprimoramento de objeto 16 também
podem ser totalmente manuais. Em tal operação, o usuário visualiza a imagem digital do
35vídeo de entrada e adiciona manualmente marcações à imagem digital do vídeo de entrada,
tais como linhas delimitadoras, que definem a região de tamanho predefinido na qual se
localiza o objeto. Por uma questão prática, a operação totalmente manual não é
recomendada para a cobertura de eventos ao vivo.
7

O refinamento das informações de localização de objeto, quando necessário ou


desejado, envolve a estimação dos limites do objeto, em que o limite exato do objeto é
estimado. A estimação dos limites exatos ajuda a aprimorar a visibilidade do objeto sem o
efeito colateral de aspecto pouco natural do objeto e do movimento, e se baseia em vários
5critérios. São reveladas três abordagens para estimativa dos limites do objeto.
A primeira é uma abordagem baseada em elipse, que determina ou identifica a
elipse que envolve mais estreitamente o objeto mediante a busca em uma faixa de
parâmetros de elipse. A segunda abordagem para estimação dos limites do objeto é uma
busca baseada em conjunto de níveis, em que uma representação de conjunto de níveis das
10adjacências do objeto é obtida e então é realizada uma busca pelo contorno de conjunto de
níveis que apresenta maior probabilidade de representar o limite do objeto. A terceira
abordagem para estimação dos limites do objeto envolve métodos de evolução de curva,
como contornos ou contornos ativos, que podem ser usados para contrair ou expandir uma
curva com certas restrições, de modo que convirja para o limite do objeto. Somente a
15primeira e a segunda abordagens para estimação dos limites do objeto são consideradas
em mais detalhes adiante.
Na abordagem baseada em elipse, a estimação dos limites do objeto equivale a
determinar os parâmetros da elipse que envolvem mais estreitamente o objeto. Essa
abordagem faz uma busca em uma faixa de parâmetros de elipse por valores próximos aos
20inicias (isto é, a saída do módulo de localização de objeto 14) e determina a exatidão com
que cada elipse envolve o objeto. A saída do algoritmo, ilustrada na Figura 4, é a elipse que
melhor delimita o objeto.
A medida de exatidão de uma elipse é definida como o gradiente médio da
intensidade da imagem ao longo da borda da elipse. O raciocínio por trás desta medida é
25que a elipse mais exata deve seguir o contorno do objeto acuradamente e o gradiente da
intensidade da imagem é tipicamente alto ao longo do contorno do objeto (isto é, a borda
entre o objeto e o fundo). O fluxograma para o algoritmo de estimação de limite de objeto é
apresentado na Figura 4. As faixas de busca (x, y, a, b) para refinamento dos parâmetros
são especificadas pelo usuário.
30 O fluxograma da Figura 4 inicia com o cálculo do gradiente de intensidade médio.
Em seguida, as variáveis são inicializadas e iniciam-se quatro loops aninhados para
localização do ponto central horizontal, localização do ponto central vertical e dos dois eixos.
Se a elipse descrita por este ponto central e pelos dois eixos produzir um gradiente de
intensidade médio melhor (isto é, maior), então esse valor de gradiente e esta elipse são
35marcados como os melhores até o presente momento. Em seguida, passa-se por todos os
quatro loops, saindo com a melhor elipse.
8

A abordagem baseada em elipse pode ser aplicada a ambientes em que o limite


entre o objeto e o fundo apresenta um gradiente uniformemente alto. No entanto, essa
abordagem também pode ser aplicada a ambientes em que o limite não possui um gradiente
uniformemente alto. Por exemplo, essa abordagem também é útil mesmo se o objeto e/ou o
5fundo apresentar variações de intensidade ao longo do limite objeto/fundo.
A abordagem baseada em elipse produz, numa implementação típica, a descrição
de uma elipse que melhor se ajusta. A descrição geralmente inclui um ponto central e eixos
maior e menor.
Uma representação baseada em elipse pode ser inadequada para descrever
10objetos com formatos arbitrários. Mesmo objetos elípticos podem parecer ter formato
irregular quando sofrem desfoque de movimento ou parcialmente bloqueados. A
representação de nível de conjuntos facilita a estimação dos limites dos objetos de formato
arbitrário.
As Figuras 5A a 5D ilustram o conceito da abordagem de conjunto de níveis para
15estimação dos limites do objeto. Suponha que a imagem de intensidade I(x, y) seja uma
superfície de intensidade contínua, tal como mostra a Figura 5B, e não uma grade de
intensidades distintas, como mostra a Figura 5A. O conjunto de níveis em um valor de
intensidade i, é o conjunto de contornos fechados definido por Ii(i) = { (x, y) | I(x, y) = i}. Os
contornos fechados podem ser descritos como curvas contínuas ou por uma cadeia de
20pixels distintos que seguem a curva. Uma representação de conjunto de níveis I é um
conjunto de conjuntos de níveis em diferentes valores de nível de intensidade (isto é, LI(M) =
{ II(i) | I  M}). Por exemplo, M = {0, …, 255} ou M = {50,5, 100,5, 200,5}. Os conjuntos de
níveis podem ser extraídos das imagens por diversos métodos. Um desses métodos
consiste em aplicar interpolação bilinear entre conjuntos de quatro pixels por vez de modo a
25converter uma grade de intensidade distinta em uma superfície de intensidade, contínua
tanto no valor de espaço quanto de intensidade. Em seguida, conjuntos de níveis, tal como
mostra a Figura 5D, são extraídos calculando-se a interseção da superfície com um ou mais
planos de nível, como mostra a Figura 5C (isto é, planos horizontais em níveis
especificados).
30 Uma representação de conjunto de níveis é análoga, de diversas formas, a um
mapa topográfico. O mapa topográfico normalmente inclui contornos fechados para vários
valores de elevação.
Na prática, a imagem I pode ser uma subimagem contendo o objeto cujo limite será
estimado. Uma representação de conjunto de níveis, LI(M), onde M = {i1, i2, ..., in} é extraída.
35O conjunto M pode ser construído com base nas intensidades prováveis dos pixels do
objeto, ou poderia simplesmente abarcar toda a faixa de intensidade com um incremento
fixo (por exemplo, M = {0,5, 1,5, ..., 254,5, 255,5}). Em seguida, todas as curvas de conjunto
9

de níveis (isto é, contornos fechados) Cj contidos no conjunto LI(M) são consideradas. A


estimação do limite do objeto é formada como um problema para determinar a curva de
conjunto de níveis, C’, que melhor satisfaz a um número de critérios relevantes ao objeto.
Esses critérios podem incluir, entre outros, as seguintes variáveis:
5 • gradiente de intensidade média ao longo de Cj;
• a área dentro de Cj;
• o comprimento de Cj;
• a localização do centro de Cj;
• a média e/ou variação das intensidades dos pixels contidos por Cj;
10 Os critérios podem impor restrições nessas variáveis baseado no conhecimento
prévio acerca do objeto. A seguir, é descrita uma implementação específica da estimação de
limite do objeto usando conjuntos de níveis.
Sejam mref, sref e xref = (xref, yref) os valores de referência para a intensidade média,
desvio padrão das intensidades, área e o centro, respectivamente, do objeto. Estes podem ser
15inicializados baseado no conhecimento prévio acerca do objeto (por exemplo, parâmetros de
objeto do módulo de localização de objeto 14, por exemplo, obtidos de uma elipse). O
conjunto de níveis, M, é então construído como,

em que imin = mref - sref - 0,5, imax = mref + sref + 0,5 e I = (imax – imin) / N, em que N
20é um valor predefinido (por exemplo, 10). Note que . indica uma operação de
arredondamento para baixo de número inteiro .
Para uma curva de conjunto de níveis específica Cj, sejam mj, sj, aj e xj = (xj, yj) os
valores medidos da intensidade média, desvio padrão das intensidades, área e o centro,
respectivamente, da região de imagem contida por Cj. Também são calculados os gradientes
25de intensidade média, Gavg(Cj), ao longo de Cj. Em outras palavras, Gavg(Cj) é a média das
grandezas de gradiente em cada pixel em Cj. Para cada Cj, uma pontuação é então
calculada como se segue:

em que Sa e Sx são funções de similaridade cujos valores de saída situam-se na


30faixa [0, 1], com um valor maior indicando uma correlação melhor entre os valores medido e
de referência. Por exemplo, Sa = exp( –| aref – aj | ) e Sx = exp( –|| xref – xj ||2 ). O limite do
objeto C é então estimado como a curva que maximiza essa pontuação (isto é, C =
10

Após estimar o limite do objeto, os valores de referência mref, sref, aref, e xref podem
ser atualizados com um fator de aprendizado   [0, 1] (por exemplo, mrefnew = mj + (1 -
)mref). No caso de uma sequência de vídeo, o fator  poderia ser em função do tempo (por
exemplo, índice de quadro) t, iniciando em um valor alto e então diminuindo com cada
5quadro, finalmente saturando em um valor baixo fixo, min.
No aprimoramento do objeto, a visibilidade do objeto é aprimorada mediante a
aplicação de operações de processamento de imagem nas adjacências do objeto. Essas
operações podem ser aplicadas ao longo dos limites do objeto (por exemplo, aguçamento
de borda), dentro do objeto (por exemplo, aprimoramento de textura) e possivelmente até
10mesmo fora do objeto (por exemplo, aumento de contraste). Nas implementações descritas
aqui, são propostos diversos métodos para aprimoramento do objeto. O primeiro consiste
em aguçar as bordas dentro do objeto e ao longo de seu contorno. O segundo consiste em
aumentar o objeto mediante a aplicação iterativa de operações de suavização, aguçamento
e estimação de limite, não necessariamente nessa ordem. Outros métodos possíveis
15incluem o uso de filtros morfológicos e substituição de objeto.
Uma forma de chamar mais atenção para um objeto consiste em aguçar a bordas
dentro do objeto e ao longo do contorno do objeto. Isso torna os detalhes no objeto mais
visíveis, além de fazer o objeto se sobressair do fundo. Além disso, bordas mais aguçadas
tendem a ser conservadas durante a compactação. O algoritmo para aprimoramento de
20objeto por aguçamento opera em um objeto um quadro por vez e toma como sua entrada a
imagem de intensidade I(x, y), e os parâmetros de objeto (isto é, localização, tamanho etc.)
fornecidos pelo módulo de localização de objeto 14. O algoritmo compreende três etapas
como se segue:
• Estimar o limite do objeto, O.
25 • Aplicar o filtro de aguçamento F a todos os pixels na imagem I, dentro e no limite
do objeto. Isso nos dá novos valores aguçados, Isharp(x, y) para todos os pixels contidos por
O,
em que Isharp(x, y) = (I  F)(x, y) e (I  F) indica a convolução da imagem I com o
filtro de aguçamento F.
30 • Substituir os pixels I(x, y) por Isharp(x, y) para todo (x, y) dentro de ou em O.
O filtro de aguçamento F é definido como a diferença da função delta de Kronecker
e do operador Laplaciano discreto 2

O parâmetro   [0, 1] controla o formato do operador Laplaciano. Na prática, um


35núcleo de filtro 3 x 3 é construído com o centro do núcleo sendo a origem (0, 0). Um
exemplo de tal núcleo é apresentado abaixo:
11

O aprimoramento de objeto por ampliação tenta estender o contorno de um objeto


mediante a aplicação iterativa de operações de suavização, aguçamento e estimação de
limite, não necessariamente nesta ordem. O fluxograma para uma concretização específica
5do algoritmo de ampliação de objeto é ilustrado na Figura 6. O algoritmo toma como sua
entrada a imagem de intensidade I(x, y), e os parâmetros de objeto fornecidos pelo módulo
de localização de objeto 14. Primeiro, uma região (subimagem J) contendo o objeto com
uma margem suficiente em torno do objeto é isolada e suavizada usando um filtro
Gaussiano. Essa operação espalha o limite do objeto para fora por alguns pixels. Após isso,
10uma operação de aguçamento, descrita anteriormente, é aplicada para tornar as bordas
mais claras. Usando o limite do objeto atualmente estimado e a subimagem suavizada e
aguçada (Jsmoothsharp), o algoritmo de estimação de limite é aplicado para obter uma nova
estimativa do limite do objeto, O. Finalmente, todos os pixels na imagem / contidos por O
são substituídos pelos pixels correspondentes na subimagem Jsmoothsharp.
15 O filtro de suavização G é uma função Gaussiana bidimensional

O parâmetro  > 0 controla o formato da função Gaussiana, com valores maiores


resultando em mais suavização. Na prática, um núcleo de filtro 3 x 3 é construído com o
centro do núcleo sendo a origem (0, 0). Um exemplo de tal núcleo é apresentado abaixo:
20

O sistema da Figura 1 também inclui meios para codificar a saída de vídeo


aprimorada do módulo de aprimoramento de objeto 16. Tais meios, identificados na Figura 1
como um módulo codificador com suporte a objeto 18, podem ser um módulo de construção
25e operação convencional que compacta o vídeo aprimorado com mínima degradação de
objetos importantes, oferecendo tratamento especial à região de interesse ou realizar
decisões de modo que preservarão melhor o objeto. Dessa forma, o codificador com suporte
12

a objeto 17 explora a melhor visibilidade do objeto para codificar o objeto com alta
fidelidade.
Para otimizar o aprimoramento do vídeo de entrada, o codificador com suporte a
objeto 18 recebe as informações de localização de objeto do módulo de localização de
5objeto 14, com isso preservando melhor o aprimoramento da região na qual está localizado
o objeto e, consequentemente, o objeto. Quer o aprimoramento seja preservado ou não, a
região na qual o objeto está localizado é melhor preservada do que sem a codificação pelo
codificador com suporte a objeto 18. No entanto, o aprimoramento também minimiza a
degradação do objeto durante a compactação. Esse aprimoramento otimizado é realizado
10mediante o gerenciamento apropriado das decisões de codificação e da alocação de
recursos, tais como bits.
O codificador com suporte a objeto 18 pode ser configurado para tomar decisões no
modo de macrobloco (MB) “amigáveis ao objeto”, a saber, as que apresentam menos
probabilidade de degradar o objeto. Tal configuração, por exemplo, pode incluir um
15particionamento amigável ao objeto do MB para fins de predição, tal como ilustrado pelas
Figuras 7A a 7C. Outra abordagem consiste em forçar uma quantização mais fina, a saber,
mais bits, aos MBs contendo objetos. O resultado disso é que o objeto recebe mais bits.
Ainda outra abordagem visa o próprio objeto para bits adicionais. Ainda outra abordagem
usa uma métrica de distorção ponderada durante o processo de otimização de distorção de
20taxa, em que os pixels pertencentes às regiões de interesse teriam maior peso do que os
pixels fora das regiões de interesse.
Referindo-se às Figuras 7A a 7C, são apresentadas três subdivisões possíveis de
um macrobloco 16x16. Tais subdivisões são parte da decisão de modo realizada por um
codificador para determinar como codificar o MB. Uma métrica essencial é que, se o objeto
25ocupar uma porcentagem maior da área da subdivisão, então o objeto tem menos tendência
a ser degradado durante a codificação. Isso se dá porque a degradação do objeto
degradaria a qualidade de uma parte maior da subdivisão. Portanto, na Figura 7C, o objeto
constitui apenas uma pequena parte de cada subdivisão 16x8, e, por consequência, isto não
é considerado uma subdivisão satisfatória. Um codificador com suporte a objeto em várias
30implementações sabe onde o objeto está localizado e fatora essa informação de localização
em sua decisão de modo. Tal codificador com suporte a objeto favorece as subdivisões que
resultam no objeto ocupando uma parte maior da subdivisão. Em geral, o objetivo do
codificador com suporte a objeto 18 é o de ajudar o objeto a sofrer o mínimo de degradação
possível durante o processo de codificação.
35 Como indicado na Figura 1, o módulo de localização de objeto 14, o módulo de
aprimoramento de objeto 16 e o módulo codificador com suporte a objeto 18 são
componentes do transmissor 20 que recebem vídeo de entrada de uma imagem digital
contendo um objeto de interesse e transmitem um fluxo de vídeo compactado com a
13

visibilidade do objeto aprimorada. A transmissão do fluxo de vídeo compactado é recebida


pelo receptor 20, tal como um telefone celular ou PDA.
Sendo assim, o sistema da Figura 1 adicionalmente inclui meios para decodificar o
vídeo aprimorado no fluxo de vídeo compactado recebido pelo receptor 20. Tais meios,
5identificados na Figura 1 como um módulo decodificador 22, podem ser um módulo de
construção e operação convencional que descompacta o vídeo aprimorado com mínima
degradação de objetos importantes, oferecendo tratamento especial à região de interesse
que contém o objeto de interesse, por exemplo, pela alocação de mais bits à região de
interesse ou que realiza decisões de modo que preservarão melhor a visibilidade
10aprimorada do objeto.
Ignorando temporariamente o módulo de pós-processamento com suporte a objeto
24, ilustrado em linhas pontilhadas na Figura 1, a saída de vídeo decodificada do módulo
decodificador 22 é transmitida a um componente de exibição 26, tal como a tela de um
telefone celular ou PDA, para visualização da imagem digital com melhor visibilidade do
15objeto.
Os modos de operação do sistema da Figura 1 que foram descritos acima são
caracterizados como pré-processamento, já que o objeto é aprimorado antes da operação
de codificação pelo módulo de aprimoramento de objeto 16. A sequência é modificada antes
de ser compactada.
20 Em vez de melhorar a visibilidade do objeto antes da codificação, como descrito
acima, o vídeo de entrada pode ser transmitido diretamente ao módulo codificador com
suporte a objeto 18, como representado pela linha pontilhada 19, e codificado sem a
visibilidade do objeto aprimorado e ter o aprimoramento efetuado por um módulo de pós-
processamento com suporte a objeto 24 no receptor 20. Esse modo de operação do sistema
25da Figura 1 é caracterizado como pós-processamento, uma vez que a visibilidade do objeto
é aprimorada após os estágios de codificação e decodificação e pode ser efetuada
utilizando informações secundárias sobre o objeto, por exemplo, a localização e o tamanho
do objeto, enviadas através do fluxo de bits na forma de metadados. O modo de operação
de pós-processamento tem a desvantagem de maior complexidade do receptor. No modo de
30operação de pós-processamento, o codificador com suporte a objeto 18 no transmissor 10
somente explora a informação de localização de objeto quando a visibilidade do objeto é
aprimorada no receptor.
Como indicado acima, uma vantagem de um sistema de realçamento de objeto no
terminal transmissor (isto é, o modo de operação de pré-processamento) evita a
35necessidade de aumentar a complexidade do terminal receptor, que, geralmente, é um
dispositivo de baixa potência. Além disso, o modo de operação de pré-processamento
possibilita o uso de decodificadores de vídeo convencionais, que facilitam a implementação
do sistema.
14

As implementações que são descritas podem ser implementadas, por exemplo, em


um método ou processo, em um aparelho ou programa de software. Mesmo se discutida
apenas no contexto de uma única forma de implementação (por exemplo, discutida somente
como um método), a implementação ou aspectos discutidos também podem ser
5implementados em outras formas (por exemplo, um aparelho ou um programa). Um
aparelho pode ser implementado, por exemplo, em hardware, software e firmware
apropriado. Os métodos podem ser implementados, por exemplo, em um aparelho, tal
como, por exemplo, um computador ou outro dispositivo de processamento. Além disso, os
métodos podem ser implementados por instruções sendo realizadas por um dispositivo de
10processamento ou outro aparelho, e tais instruções podem ser armazenadas em um meio
legível por computador, tal como, por exemplo, um CD, ou outro dispositivo de
armazenamento legível por computador, ou um circuito integrado.
Como ficará evidente aos versados na técnica, as implementações também podem
produzir um sinal formatado para carregar informações que podem, por exemplo, ser
15armazenada ou transmitidas. As informações podem incluir, por exemplo, instruções para
realizar um método, ou dados produzidos por uma das implementações descritas. Por
exemplo, um sinal pode ser formatado para carregar, na forma de dados, diversos tipos de
informações de objeto (isto é, localização, formato) e/ou carregar, na forma de dados, dados
de imagem codificados.
20 Embora a invenção seja ilustrada e descrita aqui com referência a concretizações
específicas, a invenção não pretende se limitar aos detalhes apresentados. Em vez disso,
podem ser feitas várias modificações nos detalhes dentro do âmbito e faixa de equivalentes
das reivindicações sem divergir da invenção.
15

REIVINDICAÇÕES
1. Sistema para melhorar a visibilidade de um objeto em uma imagem digital,
CARACTERIZADO por compreender:
meios para fornecer um vídeo de entrada contendo um objeto; meios para:
5 (a) armazenar informações que representam a natureza e as características do
objeto, e
(b) desenvolver, em resposta ao vídeo de entrada e às informações que
representam a natureza e as características do objeto, informações de localização de objeto
que identificam e localizam o objeto;
10 meios, responsivos à entrada de vídeo e às informações de localização de objeto,
para desenvolver um vídeo aprimorado da parte do vídeo de entrada que contém o objeto e
a região da imagem digital na qual está localizado o objeto; e
meios para codificar o vídeo aprimorado.
2. Sistema para melhorar a visibilidade de um objeto em uma imagem digital, de
15acordo com a reivindicação 1, CARACTERIZADO por adicionalmente incluir:
(a) meios para transmitir o vídeo aprimorado codificado.
(b) meios para decodificar o vídeo aprimorado codificado, e
(c) meios para exibir o vídeo aprimorado.
3. Sistema para melhorar a visibilidade de um objeto em uma imagem digital, de
20acordo com a reivindicação 1, CARACTERIZADO pelo fato de que os referidos meios para
desenvolver as informações de localização de objeto incluem:
(a) meios para varrer setores do vídeo de entrada, e
(b) meios para comparar os setores varridos do vídeo de entrada com as
informações armazenadas que representam a natureza e as características do objeto para
25identificar e localizar o objeto na imagem que possui natureza e características similares às
informações armazenadas que representam a natureza e as características do objeto.
4. Sistema para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 2, CARACTERIZADO pelo fato de que:
(a) as informações de localização de objeto somente aproximam-se da identidade e
30localização do objeto, e
(b) os referidos meios para codificação do vídeo de entrada aprimorado:
(1) recebem as informações de localização de objeto, e
(2) incluem meios para refinar as informações de localização de objeto.
5. Sistema para melhorar a visibilidade de um objeto em uma imagem digital, de
35acordo com a reivindicação 4, CARACTERIZADO pelo fato de que os referidos meios para
refinar as informações de localização de objeto incluem meios para:
(a) estimar o limite do objeto, e
(b) aprimorar o objeto.
16

6. Sistema para melhorar a visibilidade de um objeto em uma imagem digital, de


acordo com a reivindicação 3, CARACTERIZADO pelo fato de que:
(a) as informações de localização de objeto somente aproximam-se da identidade e
localização do objeto, e
5 (b) os referidos meios para desenvolver um vídeo aprimorado da parte do vídeo de
entrada que contém o objeto e a região da imagem digital na qual está localizado o objeto
incluem meios para refinar as informações de localização de objeto.
7. Sistema para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 6, CARACTERIZADO pelo fato de que os meios para refinar as
10informações de localização de objeto incluem meios para:
(a) estimar o limite do objeto, e
(b) aprimorar o objeto.
8. Método para melhorar a visibilidade de um objeto em uma imagem digital,
CARACTERIZADO por compreender as etapas de:
15 fornecer um vídeo de entrada de uma imagem digital contendo um objeto;
armazenar informações que representam a natureza e as características do objeto;
desenvolver, em resposta ao vídeo de entrada e às informações armazenadas que
representam a natureza e as características do objeto, informações de localização de objeto
que identificam e localizam o objeto;
20 desenvolver, em resposta ao vídeo de entrada e às informações de localização de
objeto, um vídeo aprimorado da parte do vídeo de entrada que contém o objeto e a região
da imagem digital na qual está localizado o objeto;
codificar o vídeo aprimorado; e
transmitir o vídeo aprimorado codificado.
25 9. Método para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 8, CARACTERIZADO por adicionalmente incluir as etapas de:
(a) receber o vídeo aprimorado codificado,
(b) decodificar o vídeo aprimorado codificado, e
(c) exibir o vídeo aprimorado.
30 10. Método para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 8, CARACTERIZADO pelo fato de que a referida etapa de
desenvolver as informações de localização de objeto inclui as etapas de:
(a) varredura de setores do vídeo de entrada, e
(b) comparação dos setores varridos do vídeo de entrada com as informações
35armazenadas que representam a natureza e as características do objeto para identificar e
localizar o objeto na imagem que possui natureza e características similares às informações
armazenadas que representam a natureza e as características do objeto.
17

11. Método para melhorar a visibilidade de um objeto em uma imagem digital, de


acordo com a reivindicação 2, CARACTERIZADO pelo fato de que:
(a) as informações de localização de objeto somente aproximam-se da identidade e
localização do objeto, e
5 (b) a referida etapa de codificar o vídeo de entrada aprimorado inclui as etapas de:
(1) receber as informações de localização de objeto, e
(2) refinar as informações de localização de objeto.
12. Método para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 11, CARACTERIZADO pelo fato de que a referida etapa de
10refinar as informações de localização de objeto inclui as etapas de:
(a) estimar o limite do objeto, e
(b) aprimorar o objeto.
13. Método para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 10, CARACTERIZADO pelo fato de que:
15 (a) as informações de localização de objeto somente aproximam-se da identidade e
localização do objeto, e
(b) a referida etapa de desenvolver um vídeo aprimorado da parte do vídeo de
entrada que contém o objeto e a região da imagem digital na qual está localizado o objeto
inclui a etapa de refinar as informações de localização de objeto.
20 14. Método para melhorar a visibilidade de um objeto em uma imagem digital, de
acordo com a reivindicação 13, CARACTERIZADO pelo fato de que a referida etapa de
refinar as informações de localização de objeto inclui as etapas de:
(a) estimar o limite do objeto, e
(b) aprimorar o objeto.
25 15. Sistema para melhorar a visibilidade de um objeto em uma imagem digital,
CARACTERIZADO por compreender:
meios para fornecer um vídeo de entrada de uma imagem digital contendo um meio
de objeto para:
(a) armazenar informações que representam a natureza e as características
30do objeto, e
(b) desenvolver, em resposta à entrada de vídeo e às informações que
representam a natureza e as características do objeto, informações de localização de objeto
que identificam e localizam um objeto; e
meios, responsivos à entrada de vídeo e às informações de localização de objeto,
35para codificar o vídeo de entrada.
18

RESUMO
“SISTEMA E MÉTODO PARA MELHORAR A VISIBILIDADE DE UM OBJETO EM
UMA IMAGEM DIGITAL”
A visibilidade de um objeto em uma imagem digital é aprimorada comparando-se
5um vídeo de entrada da imagem digital com informações armazenadas que representam a
natureza e as características do objeto para desenvolver informações de localização de
objeto que identificam e localizam o objeto. A visibilidade do objeto e da região na qual o
objeto está localizado é aprimorada pelo processamento de imagem e o vídeo de entrada
aprimorado é codificado.
10
19

TRADUÇÃO DAS LEGENDAS


FIG. 1
TRANSMITTER = TRANSMISSOR
OBJECT LOCALIZATION INFORMATION = INFORMAÇÕES DE LOCALIZAÇÃO
5DO OBJETO
INPUT VIDEO – VÍDEO DE ENTRADA
14 - LOCALIZAÇÃO DO OBJETO
OBJECT TEMPLATE = MODELO DE OBJETO
16 – APRIMORAMENTO DO OBJETO
10 ENHANCED VIDEO = VÍDEO APRIMORADO
18 – CODIFICADOR COM SUPORTE A OBJETO
COMPRESSED VIDEO STREAM = FLUXO DE VÍDEO COMPACTADO

22 – DECODIFICADOR
15 DECODED VIDEO = VÍDEO DECODIFICADO
24 – PÓS-PROCESSAMENTO COM SUPORTE A OBJETO
PROCESSED VIDEO = VÍDEO PROCESSADO
26 – MEIO DE EXIBIÇÃO

20 FIG. 2
OBJECT = OBJETO
ELLIPSE = ELIPSE

FIG. 3B
25 Localização do objeto

FIG. 3C
Refinamento da área alvo

30 FIG. 3D
Aprimoramento do objeto

FIG. 4
BOUNDING ELLIPSE = ELIPSE DELIMITADORA
35 IMAGE INTENSITY, FRAME = INTENSIDADE DA IMAGEM, QUADRO
20

COMPUTE AVERAGE INTENSITY... = CALCULA GRADIENTE DE INTENSIDADE


MÉDIA Gavg(E) I / AO LONGO DA BORDA DE E, ISTO É, AO LONGO DOS PONTOS (x, y)
ONDE (x-xc)2/a2 + (y-yc)2/b2  1

5 INITIALIZE... = INICIALIZA Gmax PARA Gavg(E) E Erefined PARA E

LOOP THROUGH = PERCORRE EM LOOP ATRAVÉS DE

COMPUTE AVERAGE INTENSITY... = CALCULA GRADIENTE DE INTENSIDADE


10MÉDIA Gavg (E’) EM / AO LONGO DA BORDA DE E’ (xc', yc', a', b')

IS... = Gavg (E’) É > Gmax ?

SET… = DEFINE Gmax COMO Gavg(E) E Erefined como E


15
END LOOP = TERMINA LOOP

TIGHTEST BOUNDING... = ELIPSE MAIS EXATA, Erefined

20 FIG. 6
PARÂMETROS DO OBJETO (LOCALIZAÇÃO APROX., TAMANHO, ETC.)

INTENSIDADE DA IMAGEM
QUADRO, I
25
CONSIDER... = CONSIDERE UMA SUBIMAGEM J(x, y) DA IMAGEM I, QUE
CONTÉM INTEIRAMENTE O OBJETO

APPLY THE SMOOTHING... = APLICA O FILTRO DE SUAVIZAÇÃO G A J PARA


30OBTER Jsmooth(x, y), isto é, Jsmooth(x, y) = (J  G)(x, y)

APPLY THE SHARPENING... = APLICA O FILTRO DE AGUÇAMENTO F A Jsmooth


PARA OBTER Jsmoothsharp(x, y), isto é, Jsmoothsharp(x, y) = (Jsmooth  F)(x, y)

35 OBJECT BOUNDARY ESTIMATION = ESTIMAÇÃO DO LIMITE DO OBJETO


21

OBJECT BOUNDARY O = LIMITE DO OBJETO O

REPLACE PIXELS = SUBSTITUI PIXELS I(x, y) POR J smoothsharp(x, y) PARA TODO


(x, y) DENTO OU EM O
5
OUTPUT IMAGE I = IMAGEM DE SAÍDA I

10

15

Anda mungkin juga menyukai