Anda di halaman 1dari 16

Captulo II Marco terico

23
Captulo II. Marco Terico.

Hoy en da existen diversos mtodos para la estimacin de movimiento en escenas
dinmicas. Cada uno de los mtodos para dicha estimacin se puede clasificar segn su
funcionamiento y las tcnicas que utilizan para la construccin del campo de movimiento.
Existen diversas clasificaciones entre las que destacan principalmente dos de ellas, las
cuales son las basadas en correspondencia y las basadas en gradiente, sin embargo, tambin
podemos encontrar las basadas en filtracin espacio-temporal, basadas en fases y en redes
neuronales.
En este captulo se profundizar en el funcionamiento de las tres clasificaciones de
mayor auge en la actualidad, estas son las basadas en correspondencia, basadas en gradiente
y basadas en filtracin espacio-temporal. Dentro de cada una de stas clasificaciones se
pueden encontrar varios mtodos para resolver el problema de la estimacin de
caractersticas de movimiento.
A continuacin se detalla tanto las bases del funcionamiento de cada clasificacin
como algunos de los mtodos ms populares dentro de ellas.

2.1 MTODO BASADO EN CORRESPONDENCIA.
En [Molina, 2002] se menciona que este tipo de mtodos son muy parecidos a los mtodos
llamados stereo-point en visin por computadora. En este mtodo como en todos los dems
de anlisis de movimiento trabaja sobre una disparidad entre escenas de diferente tiempo,
es decir, cuando se toma una serie de imgenes en un transcurso de tiempo t con la misma
Captulo II Marco terico


24
cmara. Al igual que los mtodos basados en gradiente, los mtodos de correspondencia
utilizan un nmero pequeo de imgenes en una secuencia de tiempo.
En correspondencia, los puntos crticos, lneas y otros atributos de algn objeto de la
primera imagen son puestos en comparacin, esto es, en concordancia con atributos
semejantes encontrados en imgenes posteriores. Tanto la equivalencia obtenida y
representada por la correspondencia como el intervalo de tiempo en las imgenes
determinan el campo de movimiento del objeto que posee las caractersticas estudiadas.
Existen dos tcnicas comunes de tiempo real para disminuir el costo computacional
necesario para hacer las correspondencias de caractersticas entre imgenes [Laplante,
1996]:
1. Reducir el nmero de caractersticas crticas.
2. Uso de mtodos de multirestricciones para obtener una estimacin del campo de
movimiento.
La primera de las tcnicas mencionadas con anterioridad es la ms comnmente
utilizada, sin embargo, existen problemas cuando se necesita una gran exactitud de las
caractersticas del objeto en movimiento. La segunda estrategia est siendo probada y
estudiada por investigadores quienes buscan mejorar la robustez de las tcnicas de
correspondencia.
Hace algunos aos varios investigadores trabajando sobre la tesis doctoral de Ullman,
relacionada con el tema de correspondencia, determinaron que con tan solo comparar ocho
puntos en imgenes dinmicas era suficiente para determinar el movimiento de un objeto y
su estructura [].
Captulo II Marco terico


25
El mtodo ms popular y de mejor desempeo dentro de correspondencia es el llamado
Mtodo de Correspondencia de Bloques, del cual se explica su funcionamiento a
continuacin.

2.1.1 ALGORITMO DE CORRESPONDENCIA DE BLOQUES.
Como se mencion en el captulo anterior, la estimacin del campo de movimiento por
medio de este mtodo consiste en encontrar un punto de coordenadas ( ) y x , que
corresponda al centro del segmento de una imagen en el tiempo t que minimice la
correspondencia con el centro del mismo segmento de otra imagen con coordenadas ( ) y x,
en el tiempo t t . Esta estimacin de la correspondencia se obtiene mediante la siguiente
formula:
( ) ( ) ( )

= =
+ + + + =
2 /
2 /
2 /
2 /
, , , , , , ,
m
m m
L
L l
t l y m x E t t l y m x E y x y x C
En donde ( ) t y x E , , representa el valor del brillo de un punto de la imagen en el
tiempo t con coordenadas x, y. Los valores de M y L representan las dimensiones del
segmento de la imagen a lo largo del eje X y del eje Y respectivamente. Generalmente
L M = por lo que obtenemos segmentos de comparacin cuadrados [Molina, 2002].
La minimizacin de la correspondencia consiste en buscar el valor mnimo para la
funcin ( ) y x y x C , , , cercano al punto de coordenadas ( ) y x, para las funciones:
2 / ,..., 2 / F x F x x + = 2 / ,..., 2 / F y F y y + =
Donde F es la dimensin del segmento de la imagen en donde se busca el valor
mnimo. Una vez encontrado el valor de coordenadas x, y en el cul se minimiz el valor
de ( ) y x y x C , , , , ste punto ser el centro del nuevo segmento para la imagen en el tiempo
Captulo II Marco terico


26
t. Cuando se obtuvieron los valores de ( ) y x, en t t y ( ) y x , en t, se pueden obtener las
componentes del desplazamiento para el eje X y para el eje Y para cada pxel de
coordenadas ( ) y x, en el tiempo t t por medio de las siguientes diferencias:
x x Sx = y y Sy =
Los valores resultantes para Sx y Sy que corresponden al desplazamiento de un
punto en los ejes X y Y respectivamente estn dados por nmeros enteros lo cual podra
llevarnos a cometer errores [Laplante, 1996].
La siguiente grfica ilustra el funcionamiento del mtodo de correspondencia de
bloques.


Figura 2.1 Funcionamiento de correspondencia de bloques.

El mtodo de correspondencia de bloques es capaz de estimar movimientos
rotacionales debido a que se va actualizando constantemente, esto es, que una vez
M
M
F
F
x x
y y
x
y
t t
t
Captulo II Marco terico


27
encontrados los puntos con coordenadas ( ) y x , , estos se convertirn en los puntos ( ) y x, a
ser rastreados en la siguiente imagen.
Este mtodo tiene algunas desventajas como es el hecho que es sensible al ruido,
este problema se puede solucionar aumentando las dimensiones del segmento a ser
comparado, esto es, aumentar los valores para M y L. Otra desventaja es que si el
desplazamiento de un objeto es mayor a F/2, este no puede ser medido, por lo que se debe
restringir la velocidad mxima de los objetos en movimiento, la forma ms sencilla de
solucionar este problema es aumentando el tamao de L, sin embargo, el costo
computacional aumentar. La complejidad para este algoritmo para segmentos de
2
M es
( )
2 2
M F O [Laplante, 1996].

2.2 MTODOS BASADOS EN GRADIENTE.
Los mtodos basados en gradiente proveen la solucin al problema de estimacin de
movimiento observando los cambios en el brillo de la imagen. Estos cambios en el brillo
son modelados por medio de ecuaciones parciales llamadas ecuaciones limitadoras
(constraint equations) las que su solucin nos provee el llamado campo de movimiento.
El gradiente es un vector, en donde sus componentes miden la rapidez en que los
valores de los pxel cambian en la distancia y en las direcciones x e y. dx y dy son las
distancias en las direcciones x e y respectivamente, en trminos de nmero de pixels entre
dos puntos [Penedo, 2000].
( ) ( ) ( )
dx
y x f y d x f
x
y x f
x
x
, , , +
= =


Captulo II Marco terico


28
( )
( ) ( )
dy
y x f y d x f
y
y x f
y
y
, ,
,
+ +
= =


En orden de detectar la presencia de una discontinuidad en el gradiente, debemos
calcular el cambio en el gradiente en el punto (x,y). Esto se puede hacer referenciando la
medida aportada por la magnitud del gradiente y su direccin [Penedo, 2000].
y x M
2 2
+ =
|
.
|

\
|

=

x
y
1
tan
La ecuacin diferencial parcial ms importante para el modelado del campo de
movimiento es obtenida al considerar los cambios en el brillo de la imagen con respecto al
tiempo ( ) ( ) ( ) t t y t x E , , , dicha frmula es la siguiente [Laplante, 1996]:
0 = + + =
dt
E
dt
dy
dy
E
dt
dx
x
E
dt
dE


Dada la ecuacin anterior, si consideramos una u que corresponda a
dt
dx
y una v que
corresponda a
dt
dy
, las cuales son componentes del vector de velocidad V sobre los ejes X y
Y respectivamente se obtiene la funcin conocida como Optical Flow Constraint (OFC).
0 = + + Et Eyv Exu
Esta ecuacin puede ser considerada como la ecuacin de una lnea recta dentro del
plano ( ) v u, , es decir:
c mu v + =
Captulo II Marco terico


29
Donde ( ) Ey Ex m / = es la pendiente y ( ) Ey Et c / = es la interseccin. Cualquier
punto que pertenezca a esta lnea es una posible solucin al problema de la estimacin del
campo de movimiento, por lo que solamente la funcin OFC no proporciona un valor nico
y para poder obtener este valor nico se necesitan de otras ecuaciones limitadoras. Estas
funciones limitadoras extras pueden ser ya sea el uso de deteccin de bordes o el suavizado.
Teniendo la ecuacin OFC podemos observar que la componente perpendicular de
la velocidad que es paralela a E se puede calcular por medio de la frmula siguiente:
E
E
E
Et
V

Donde se asume que 0 =


dT
dE
y 0 E .
Dentro de los mtodos basados en gradiente para la estimacin del campo de
movimiento podemos encontrar dos algoritmos principales que son: algoritmos basados en
regularizacin (regularization-based approaches) y algoritmos basados en
multirestricciones (multiconstraint-based approaches) [Laplante, 1996].

2.2.1 ALGORITMOS BASADOS EN REGULARISACIN.
En [Laplante, 1996] se explica que en este tipo de mtodos, se define una funcin en la que
una restriccin de suavizado es usada para regularizar la solucin de la ecuacin diferencial
parcial. La influencia de la restriccin de suavizado depende directamente de una constante
positiva la cual representa el peso de dicha restriccin. La funcin es minimizada utilizando
clculo de variaciones o por relajacin estocstica.
Dentro de las diversas soluciones basadas en regularizacin para la estimacin del
campo de movimiento, la ms famosa fue propuesta por Horn y Schunk, la cual se basa en
la minimizacin de la funcin:
Captulo II Marco terico


30
( ) ( ) [ ]
} }
+ + + + + + dxdy v v u u Et v E u E
y x y x y x
2 2 2 2 2 2

Donde el trmino ( ) Et v E u E
y x
+ + corresponde a la funcin OFC, el trmino
( )
2 2 2 2
y x y x
v v u u + + + es una medida de la suavizacin del campo de movimiento, y es el
factor de peso que controla la influencia de la restriccin de suavizado [Laplante, 1996].
sta funcin es minimizada utilizando el clculo de variaciones, el cual produce una pareja
de ecuaciones diferenciales parciales:
( )
t y x
x
E v E u E
E
u + + =
2
2

( )
t y x
x
E v E u E
E
v + + =
2
2


El siguiente par de ecuaciones es utilizado para estimar las componentes del campo
de movimiento para cada instante de tiempo:
( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
[ ]
( ) ( )
( )
t j i y t j i x
t j i t
n
t j i t j i y
n
t j i t j i x t j i x
n
t j i
n
t j i
E E
E v E u E E
u u
, ,
2
, ,
2
, , , , , , , , , , , ,
, ,
1
, ,
+ +
+ +
=

+


( ) ( )
( ) ( ) ( ) ( ) ( ) ( )
[ ]
( ) ( )
( )
2
, ,
2
, ,
2
, , , , , , , , , , , ,
, ,
1
, ,
t j i y t j i x
t j i t
n
t j i t j i y
n
t j i t j i x t j i y
n
t j i
n
t j i
E E
E v E u E E
v v
+ +
+ +
=
+



Donde n es el nmero de iteraciones. Se nota que la estimacin de
( ) t j i x
E
, ,
y
( ) t j i y
E
, ,

requiere de la comunicacin de los datos de los pxeles vecinos, as como la estimacin de:
( ) ( ) ( ) ( ) ( )
( )
( ) ( ) ( ) ( )
( ) 6 / 12 /
, 1 , , 1 , , , 1 , , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , , t j i t j i t j i t j i t j i t j i t j i t j i t j i
u u u u u u u u u
+ + + + + +
+ + + + + + + =


( ) ( ) ( ) ( ) ( )
( )
( ) ( ) ( ) ( )
( ) 6 / 12 /
, 1 , , 1 , , , 1 , , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , 1 , , y j i t j i t j i t j i t j i t j i t j i t j i t j i
v v v v v v v v v
+ + + + + +
+ + + + + + + =


Debido a que el desempeo del algoritmo de Horn y Schunk es en funcin del
nmero de iteraciones
t
I que se necesitan para obtener la estimacin final y las
dimensiones de la imagen, la complejidad del algoritmo es ( )
2 2
I I O
t
[Laplante, 1996].
Captulo II Marco terico


31
La mayora de algoritmos basados en regularizacin, tienden a producir campos de
movimiento suavizados para los valores de la velocidad de propagacin de los puntos
estimados.
Aun cuando estos mtodos convergen en un mnimo, esto no implica que converjan
en la solucin ptima, esto es debido a que el error mnimo de la estimacin del campo de
movimiento no corresponde a la iteracin en la que el proceso obtuvo ese valor mnimo de
la funcin.

2.2.2 ALGORITMOS BASADOS EN MULTIRESTRICCION
En [Barron, et al., 1995] se explica como este tipo de algoritmos definen ecuaciones las
cuales determinan un sistema de ecuaciones el cual es resuelto generalmente usando
mnimos cuadrados o razonamiento probabilstico. Los mtodos basados en
multirestriccines son clasificados basndose en los mtodos adoptados para la
construccin del sistema de ecuaciones y en las tcnicas matemticas escogidas para su
solucin, estas tcnicas matemticas pueden ser tanto algebraicas como de clustering.
Dentro de este tipo de algoritmos podemos encontrar tres diferentes mtodos los
cuales toman una hiptesis inicial diferente. Estos mtodos son los siguientes:
El primer mtodo trata la hiptesis de lo estacionario, principalmente adoptado para
el brillo de la imagen, esto es, toma la ecuacin 0 / = dt dE . Este mtodo debe ser vlido
para cualquier funcin de movimiento invariante como son el contraste, entropa, curvatura,
varianza del brillo, entre otras. Este mtodo permite definir varias ecuaciones diferenciales
Captulo II Marco terico


32
parciales de estructura semejante a la ecuacin del campo de movimiento para el estudio de
un mismo punto dentro de la imagen.
En el segundo mtodo se obtienen nuevas ecuaciones de restriccin tomando la
derivada de la ecuacin delimitadora fundamental (funcin del campo de movimiento o la
funcin extendida del campo de movimiento) con respecto a x, y, t y se asume que estas
derivadas son iguales a cero.
El tercer mtodo supone que el cambio del campo de movimiento sigue un patrn
aproximadamente lineal. Debido a esto se puede obtener una solucin de la estimacin del
campo de movimiento suavizada, sta se obtiene por medio de una aproximacin lineal de
la restriccin aplicada a los puntos vecinos del punto en estudio. Este mtodo slo es vlido
cuando el campo de movimiento a ser estudiado es suavizado. Posteriormente se definen
ecuaciones de vecinos para un punto de tamao N * N, y por consecuencia, cuando el valor
de N es muy grande, se llega a perder resolucin en la imagen [Laplante, 1996].

SOLUCIONES ALGEBRAICAS.
El proceso para la obtencin de soluciones algebraicas puede ser considerado como un
proceso a seguir que consta de cuatro pasos, los cuales son:
1. Repliegue de las imgenes por medio de un filtro Gausseano.
2. Estimacin de las derivadas del brillo de las imgenes.
3. Determinar un sistema de ecuaciones equivalente por medio del mtodo pseudo-
inverso.
4. Estimacin de las componentes de la velocidad al resolver el sistema de ecuaciones
determinado.
Captulo II Marco terico


33
La complejidad para este tipo de soluciones se obtiene por la siguiente expresin la cual
consta de cuatro trminos, donde cada uno de ellos corresponde a cada una de las fases
mencionadas anteriormente:
( ) ( )
2 3 2 2 2 2 2
1
2
I Qn I n n
n
QN QnI I G C +
(

+ + + =
Donde I es la dimensin de la imagen, G es la dimensin del filtro Gausseano, Q es el
nmero de ecuaciones de restriccin definidas para cada pxel, n es el nmero de variables
desconocidas del sistema de ecuaciones y N es el tamao del rea de estudio de los puntos
vecinos. [Laplante, 1996 ]

SOLUCIONES DE CLUSTERING.
Dado un sistema de ecuaciones determinado puede ser resuelto por medio de tcnicas
diferentes a las algebraicas. En este tipo de soluciones, cada ecuacin de restriccin
representa una lnea de restriccin que puede ser dibujada en el plano ( ) v u, . Estas lneas de
restriccin que representan al mismo campo de movimiento deben interceptarse en un
punto en comn.
La funcin principal de las tcnicas de clustering es solucionar los problemas de las
soluciones de mnimos cuadrados, para los cuales la solucin es un punto que se encuentra
ubicado en la distancia mnima entre los puntos de interseccin de todas las lneas de
restriccin. Dado que las tcnicas de clustering mejoran la solucin proporcionada por los
mnimos cuadrados, las tcnicas de clustering deben ser capaces de determinar la solucin
ms probable.
Captulo II Marco terico


34
Una de las primeras soluciones de clustering fue propuesta por Fennema y
Thompson quienes basan su solucin en la transformada de Hough y en la ecuacin del
campo de movimiento. La solucin representa el hecho que por medio de la transformacin
de Hough a una lnea en el plano ( ) v u, corresponde a un punto en el dominio
transformado.
Las lneas que tienen una interseccin comn dentro del plano ( ) v u, producen en el
espacio transformado puntos que son distribuidos a travs de curvas bien definidas. La
verificacin de la presencia de dichas curvas es computacionlmente pesado y se deben de
analizar una gran cantidad de lneas de restriccin con el fin de obtener estimaciones
robustas.
Otro mtodo de solucin por clustering fue propuesto por Schunk. En ste mtodo
la solucin se obtiene agrupando las intersecciones de varias lneas de restriccin con la
lnea de restriccin del pxel central del segmento de pxeles a estudiar. Obtenido esto, se
puede determinar el campo de movimiento por medio del grupo de intersecciones ms
dominante. Sin embargo, el resultado de la estimacin del campo de movimiento es errneo
si la lnea de restriccin del pxel central es afectada por errores, los cuales pueden ser
provocados por el ruido de las mismas imgenes.

Captulo II Marco terico


35
2.3 METODO SUSAN DE DETECCION DE ESQUINAS
PRINCIPALES.
Por sus siglas en ingls Smallest Univalue Segment Assimilating Nucleus se usan las
esquinas principales de los objetos as como la filtracin de ruido en las imgenes durante
las bsquedas de los bordes.
Para su funcionamiento ste mtodo utiliza una mascara circular la cual est
formada por un centro al que se le denomina ncleo y un radio el cual puede ser variable.
Esta mscara es barrida sobre las zonas de inters de la imagen, si el brillo de los pxeles
que se encuentran bajo la mscara tienen el mismo valor que el ncleo de la mscara,
entonces estos pxeles forman el rea llamada USAN, por sus siglas en ingls Univalue
Segment Assimilating Nucleus. [Starostenko, 2001] [Quevedo, 2000]
Los valores de los pxeles que se encuentran por debajo de la mscara, es decir en el
rea USAN se utiliza para determinar la presencia de bordes o esquinas y pueden dar tres
posibles resultados:
1. Un mximo cuando el ncleo est en una regin de la imagen donde todos los
pxeles dentro de la imagen tienen el mismo brillo. Ver Figura 2.2.
2. En medio cuando el ncleo est muy cerca de un borde. Ver Figura 2.3.
3. Un mnimo cuando el ncleo esta sobre una esquina. Ver figura 2.4
Dado que el mtodo SUSAN no usa las derivadas de la imagen para la bsqueda de
bordes y esquinas, se dice que es un buen algoritmo para la presencia de ruido en las
imgenes. Adems, SUSAN analiza diferentes regiones por separado y detecta la presencia
de las fronteras por medio del valor mnimo de USAN.
Captulo II Marco terico


36

Figura 2.2 Valor mximo de un punto


Figura 2.3 Valor medio de un punto


Figura 2.4 Valor mnimo de un punto
En [Starostenko, 2001] y [Smith, 1995] se presenta el procedimiento que
sigue SUSAN para la deteccin de esquinas principales el cual es el siguiente:
1. Barrer la mscara circular sobre el ncleo o pxel de inters. Existen varias formas
de calcular el valor de la mscara, sin embargo, el mtodo ms exacto es cuando se
toma la funcin de distribucin Gausseana que es:
Captulo II Marco terico


37
[ ]
( )
2
2 2
2
* ,

j i
e K j i g
+

=
Donde K corresponde a una constante de normalizacin, es el parmetro de
dispersin, i y j son dos dimensiones de la funcin.
2. Posteriormente se calcula el valor de similitud con el ncleo de cada pxel bajo la
mscara por medio de la siguiente funcin:
( )
( ) ( )
6
0
0
exp ,
(


=
t
r I r I
r r C
Donde r
0
es la posicin del ncleo, r es la posicin de cualquier otro punto bajo la
mscara, I(r) es el brillo del pxel y t es el contraste mnimo entre detalles que van a
detectarse y el ruido a eliminar. Por lo que el nmero de esquinas detectadas depende
directamente del valor de t.
3. Una vez obtenidos los valores bajo la mscara, se suman y el resultado se asigna a
la posicin del pxel central el cual fue estimado de la siguiente forma:
( ) ( )

=
r
r r C r n
0 0
,
4. Utilizando la ecuacin:
( )
( ) ( )
( )


<
=
g r n
g r n r n g
r R
0
0 0
0
0

Donde g es el umbral establecido el cual es igual a
2
max
n
, donde
max
n es el nmero
mximo de todos los valores obtenidos por la mscara. El umbral g, sin embargo, puede
tener otros valores que influyen sobre la calidad de la salida as como del nmero de
esquinas encontradas.
Captulo II Marco terico


38
5. Finalmente, se buscan todos los puntos falsos dentro del conjunto de esquinas
encontradas. Estas esquinas falsas pueden ser producto de bordes entre esquinas
borrosas. Este problema de esquinas falsas puede ser resuelto calculando el centro
de gravedad del rea USAN, la mediana de las coordenadas de x y y. Con ste valor
se calcula la distancia entre el centro de gravedad y el ncleo de la mscara, si esta
distancia es grande, se dice que estamos en presencia de esquinas falsas por lo que
se eliminan del conjunto de esquinas encontrado.

2.4 Conclusiones.
Es muy importante tener conocimiento del funcionamiento de los mtodos ms modernos y
a su vez ms utilizados en el rea de deteccin de movimiento para as poder atacar al
problema de una forma ms efectiva.
Todos los mtodos mencionados anteriormente son solo algunos de los ms
utilizados en la actualidad para la deteccin de movimiento dentro de una secuencia de
imgenes, sin embargo, como ya se mencion en este captulo, todos tienen ventajas y
desventajas.
Comparando la capacidad, eficiencia y rapidez de los mtodos basados en gradiente
con los mtodos basados en correspondencia y los de deteccin de esquinas principales
pude darme cuenta que para la generacin del campo de movimiento, son ms eficientes los
mtodos de deteccin de esquinas principales sobre los otros dos.

Anda mungkin juga menyukai