Anda di halaman 1dari 43

Quiero resolver el problema mn f(x), f : ( abierto de R

n
) R.
Los metodos que estudiaremos son metodos iterativos que dado x
0
cons-
truyen una sucesion x
k
que converge a la solucion.
En una iteracion k, dado x
k
y una direccion d
k
se busca el mnimo
de f(x
k
+ d
k
) = g
k
(). A continuacion estudiamos metodos iterativos de
b usqueda lineal que resuelven este problema.
1. Metodos de optimizacion unidimensional
Considerar el problema minimizar f(x), x [a, b] R.
1.1. Metodo de Newton
Iteracion k-esima Conocido f(x
k
), f

(x
k
) y f

(x
k
), denimos x
k+1
como
el punto donde se anula la derivada de la funcion cuadratica que coincide con
g en x
k
y cuyas derivadas primera y segunda coinciden con las de g en x
k
.
Dicha funcion es q(x) = f(x
k
) + f

(x
k
)(x x
k
) + 1/2f

(x
k
)(x x
k
)
2
, con lo
que
x
k+1
= x
k
f

(x
k
)/f

(x
k
), (1)
ya que q

(x) = f

(x
k
) + f

(x
k
)(x x
k
).
Notar que se trata del metodo de Newton para obtener los ceros de la
funcion f

(x). En este metodo, dado x


k
se traza la tangente a la funcion en x
k
y se dene x
k+1
como el punto de corte de dicha recta con el eje de abcisas,
o como el cero de dicha recta.
Se tiene que si x
0
esta sucientemente proximo.
a
x

tal que f

(x

) = 0
y f

(x

) 0, entonces el metodo converge y el orden de convergencia es de


al menos 2. Es decir,
lm
k
[x
k+1
x

[
[x
k
x

[
2
= < 1;
o sea que en al cola de la sucesion
[x
k+1
x

[ = [x
k
x

[
2
.
Recordamos la denicion del orden de convergencia de una sucesion.
Denicion 1 Sea x
k
x

. Se dene el orden de convergencia de la sucesion


x
k

k0
, como el mayor n umero positivo p que satisface 0 < lmsup
|x
k+1
x

|
|x
k
x

|
p
<
.
1
Veamos los siguientes resultados sobre la tasa u orden de convergencia
del metodo de Newton.
Proposicion 1 Si f (
(2
(, R) y la sucesion obtenida seg un (1) converge
a x, tal que f

(x) = 0 y f

(x) = 0, entonces se tiene que


lmsup
[x
k+1
x[
[x
k
x[
= 0.
Demo.- Por Taylor 0 = f

(x) = f

(x
k
) + f

(y
k
)(x x
k
), con y
k
(x, x
k
).
Despejo x y obtengo x = x
k
f

(y
k
)
1
f

(x
k
). Resto esta expresion de (1) y
me queda x
k+1
x = f

(x
k
) [f

(y
k
)
1
f

(x
k
)
1
].
Por otra parte, tengo que x
k
x = f

(y
k
)
1
f

(x
k
).
Divido x
k+1
x por x
k
x y tomo modulos y obtengo que
|x
k+1
x|
|x
k
x|
=
|f

(y
k
)
1
f

(x
k
)
1
|
|f

(y
k
)
1
|
cuyo lmite es 0.
Proposicion 2 En las mismas condiciones que la proposicion previa si f
(
(3
(, R), entonces se tiene que
lm
[x
k+1
x[
[x
k
x[
2
= [f

(x)
1
f

(x)/2[.
Demo.- Procediendo como en la proposicion previa 0 = f

(x) = f

(x
k
) +
f

(x
k
)(x x
k
) +
1
2
f

(y
k
)(x x
k
)
2
, con y
k
(x, x
k
). Despejo x y obtengo
x = x
k
f

(x
k
)
1
f

(x
k
)
1
2
f

(x
k
)
1
f

(y
k
)(x x
k
)
2
. Resto esta expresion
de (1) y me queda x
k+1
x =
1
2
f

(x
k
)
1
f

(y
k
)(xx
k
)
2
, de donde se obtiene
el resultado deseado.
A continuaci on se exponen otros radios de convergencia que pueden usarse
para razonar la convergencia y/o establecer criterios de parada.
Proposicion 3 En las mismas condiciones que la proposicion previa se tie-
nen los siguientes resultados
lms
k
=
f(x
k1
) f(x
k
)
f

(x
k1
)
2
f

(x
k1
)
1
/2
= 1
lmr
k
=
f(x
k
) f( x)
f

(x
k
)
2
f

(x
k
)
1
/2
= 1.
2
Figura 1: Metodo de Newton
Demo.- Por Taylor f(x
k
) = f(x
k1
) + f

(x
k1
)(x
k
x
k1
) +
1
2
f

(x
k1
)(x
k

x
k1
)
2
+
1
3!
f

(y
k
)(x
k
x
k1
)
3
; donde y
k
(x
k
, x
k1
). Sustituyendo la x
k

x
k1
por f

(x
k1
)
1
f

(x
k1
) y despejando se obtiene f(x
k1
) f(x
k
) =
f

(x
k1
)
1
f

(x
k1
)
2

1
2
f

(x
k1
)
1
f

(x
k1
)
2
+
1
3!
f

(y
k
)(f

(x
k1
)
1
f

(x
k1
))
3
.
Es decir,f(x
k1
)f(x
k
) =
1
2
f

(x
k1
)
1
f

(x
k1
)
2
+
1
3!
f

(y
k
)(f

(x
k1
)
1
f

(x
k1
))
3
.
Divido por
1
2
f

(x
k1
)
1
f

(x
k1
)
2
y tomo lmites y obtengo el primer resulta-
do.
Procediendo de la misma forma ahora con x y x
k
, se tiene que f( x) =
f(x
k
) + f

(x
k
)( x x
k
) +
1
2
f

(x
k
)( x x
k
)
2
Nota 1 Entre los inconvenientes del metodo de Newton estan la convergen-
cia.

Esta no esta asegurada. Ademas, aunque converja no podemos asegurar
que lo hace a un mnimo de la funcion. Veamos un ejemplo en este sentido.
Ejemplo 1 Resolver minimizar f(x) = 3x
4
4x
3
12x
2
, x R. La repre-
sentacion graca es aquella de la gura 1.
Aplico el metodo de Newton en [2, 3] comenzando en x
0
= 1,2. Los puntos
obtenidos son
k 0 1 2 3
x
k
1,2 1,03729 1,001715 1,00000391
M
k
0,932 1,234 1,329
r
k
1,137 1,033 1,002
s
k
1,103 1,031 1,001
donde M
k
= [x
k+1
x[/[x
k
x[ y r
k
, s
k
como en la proposicion 3. Es claro
que el metodo converge al mnimo local -1. Sin embargo, si comenzamos en
3
x
0
= 0 es facil ver que x
k
= 0, k. Con lo que el metodo converge al maximo
local 0.
Luego debemos hacer alguna modicacion si f

(x
k
) 0 para asegurar la
convergencia a un mnimo y no a un maximo. Otro inconveniente es que el
metodo supone que f

(x
k
) = 0 para que este bien denido. Tampoco asegura
que los terminos de la sucesion permanezcan en el intervalo donde se busca
el mnimo.
A continuaci on vemos una modicacion para asegurar que x
k
esta en [a, d]
y se cumple que f(x
k+1
) < f(x
k
) y de paso que el metodo converge a un
mnimo.
Modicacion del metodo de Newton Sea x
0
(a, d), tal que f(x
0
) <
mnf(a), f(d) y 0 < < 1. Dado x
k
, calculo f

(x
k
). Si f

(x
k
) > 0
voy al caso I, en otro caso voy al caso III.
Caso I Deno y
k
= x
k
f

(x
k
)
1
f

(x
k
). Si y
k
/ (a, d) o f(y
k
) f(x
k
) >
f

(x
k
)
2
f

(x
k
)
1
/2 voy al caso II. En otro caso, tomo x
k+1
= y
k
,
hago k = k + 1 y en caso de que no cumpla el criterio de parada
contin uo.
Caso II Deno y
k
(i) = x
k
2
i
f

(x
k
). Busco i(k) el menor entero i =
0, 1, . . ., tal que y
k
(i) (a, d) y f (y
k
(i)) f(x
k
) 2
i
f

(x
k
)
2
.
Tomo x
k+1
= y
k
(i
k
(i)), hago k = k + 1 y si no cumple el criterio
de parada contin uo desde ella.
Caso III Si f

(x
k
) > 0, tomo
k
= 1. Si f

(x
k
) 0, tomo
k
= 1. De-
no y
k
(i) = x
k
2
i
f

(x
k
) +
k
2
i/2
. Busco i(k) el menor en-
tero i = 0, 1, . . ., tal que y
k
(i) (a, d) y f (y
k
(i)) f(x
k
)
[2
i
f

(x
k
)
2
+ 2
i1
f

(x
k
)]. Tomo x
k+1
= y
k
(i
k
(i)), hago k =
k + 1 y si no cumple el criterio de parada contin uo desde ella.
Ejemplo 2 En el ejemplo anterior si = 0,5 se tiene comenzando desde
x
0
= 0,25
k 0 1 2
x
k
0,25 2,390625 2,0851166
Teorema 1 Sea f (
(2
, x
0
(a, d) tal que f(x
0
) < mnf(a), f(d). Su-
pongamos que la modicacion de Newton se aplica para encontrar el mnimo
de f(x) en [a, d]. Sea x
k
la sucesion obtenida. Si x es un punto de acumula-
cion x
k
en (a, d), entonces f

( x) = 0 y f

( x) 0.
4
1.2. Metodos usando primeras derivadas
Una posible clasicacion de los metodos de optimizacion unidimensionales
se basa en la informacion empleada en su desarrollo. As hay metodos que
usan valores de la segunda derivada, de la primera y de la funcion. Otros usan
solo valores de la primera derivada y de la funcion. Y, nalmente, algunos
metodos usan solo valores de la funcion. En este epgrafe estudiamos metodos
que usan solo valores de la primera derivada y de la funcion.
Metodo de la secante Si queremos aplicar el metodo de Newton pero
no conocemos la f

(x
k
) podemos usar en su lugar una aproximacion por
diferencias nitas. Sean x
k
, x
k1
y f

(x
k
), f

(x
k1
), sustituyo f

(x
k
) por su
aproximaci on

f

(x
k
) =
f

(x
k
)f

(x
k1
)
x
k
x
k1
. Y deno
x
k+1
= x
k
f

(x
k
)/

f

(x
k
).
Si para obtener el siguiente punto x
k+2
prescindimos de x
k1
, el metodo
resultante se conoce como el metodo de la secante. La tasa de convergencia es
ligeramente inferior a la del metodo de Newton. A continuaci on se demuestran
algunos resultados sobre las tasas de convergencia.
Proposicion 4 Si f (
(2
y la sucesion obtenida por el metodo de la secante
converge a x, para el que f

( x) = 0 y f

( x) = 0, entonces lmsup
|x
k+1
x|
|x
k
x|
= 0.
Demo.- Procedemos de forma analoga a la proposicion 1 para el metodo de
Newton sin mas que sustituir f

(x
k
) por su aproximaci on

f

(x
k
) y usar que,
como f (
(2
, esta ultima tiende a f

( x). El siguiente es un resultado que


permite compararlo con Newton.
Proposicion 5 En las mismas condiciones que la proposicion previa, si
ademas f (
(3
, entonces lm
|x
k+1
x|
|x
k
x||x
k1
x|
= [f

( x)
1
f

( x)/2[
Demo.- Como x
k+1
=
f

(x
k
)x
k1
f

(x
k1
)x
k
f

(x
k
)f

(x
k1
)
, entonces
x
k+1
x =
f

(x
k
)(x
k1
x) f

(x
k1
)(x
k
x)
f

(x
k
) f

(x
k1
)
. (2)
Tambien,
f

(x
l
) = f

( x) + f

( x)(x
l
x) +
1
2
f

( x)(x
l
x)
2
+ o

[x
l
x[
2

; (3)
5
para l = k 1, k; y
f

(x
k
) f

(x
k1
) = f

(x
k1
)(x
k
x
k1
) + o ([x
k
x
k1
[) . (4)
Sustituyendo (3) dos veces y (4) una en (2), se obtiene que x
k1
x =
1
2
f

( x)(x
k
x)(x
k1
x)(x
k
x
k1
)+(x
k1
x)o
(
|x
k
x|
2
)
(x
k
x)o
(
|x
k1
x|
2
)
[f

(x
k1
)(x
k
x
k1
)+o(|x
k
x
k1
|)]
1
.
Esto puede reescribirse como
x
k+1
x
(x
k
x)(x
k1
x)
=
f

( x)(x
k
x
k1
)+o(|x
k
x|)o(|x
k1
x|)
2[f

(x
k1
)+o(|x
k
x
k1
|)]
=
f

( x)+o(|x
k
x|)/(x
k
x
k1
)o(|x
k1
x|)/(x
k
x
k1
2[f

(x
k1
)+o(|x
k
x
k1
|)/(x
k
x
k1
]
.
Como del desarrollo de la proposicion 1 x
k
x
k1
= O([x
k
x[); i.e.,
lm
|x
k
x|
|x
k
x
k1
|
= 1. Entonces, tomando modulos y lmite se llega al resultado
deseado.
Nota 2 Al igual que el metodo de Newton debe modicarse para asegurar la
convergencia a un punto que mnimo. Tambien para asegurar que los puntos
de la sucesion caen en (a, d).
Como puede entenderse como una aproximacion mediante diferencias -
nitas al metodo de Newton algunas de las cantidades obtenidas para aquel
pueden usarse como criterio de parada o para razonar la convergencia de
este. En concreto el descenso en un paso de la funcion objetivo se espe-
ra sea igual a f

(x
k1
)
2

f

(x
k1
)
1
/2. Al cociente de f(x
k
) f(x
k1
) entre
ello lo denoto por r
k
. En la ultima columna llamada t
k
se muestra el valor
[x
k
x[/

1
2
(x
k1
x)(x
k2
x)f

( x)
1
f

( x)

.
k x
k
f(x
k
) f

(x
k
) r
k

f

(x
k
) t
k
0 1,2 4,1472 9,216
1 1,1 4,8037 4,092 51,24
2 1,02014 4,992567 0,7446 1,23 41,92 0,756
3 1,002375 4,999898 0,0858 1,11 37,09 0,885
4 1,0000622 5 0,0024 0,97 0,976
1 5 0 1 36 1
A continuacion exponemos una modicacion para asegurar la convergencia
a un punto que satisface la condicion necesaria de primer orden. Mas mo-
dicaciones deberan hacerse para asegurar la convergencia a un punto que
satisfaga las condiciones necesarias de segundo orden.
6
Modicacion del metodo de la secante Sea f (
(1
. Sea x
0
(a, d), tal
que f(x
0
) < mnf(a), f(d) y 0 < < 1. Dados x
k1
, x
k
y f

(x
k1
),
f

(x
k
); calculo

f

(x
k
) =
f

(x
k
)f

(x
k1
)
x
k
x
k1
.
Caso I Si

f

(x
k
) > 0 e y
k
= x
k


f

(x
k
)
1
f

(x
k
) (a, d) y f(x
k

2
i
f

(x
k
))f(x
k
) 2
i
f

(x
k
)
2
. Tomo x
k+1
= x
k
2
i(k)
f

(x
k
),
hago k = k + 1 y en caso de que no cumpla el criterio de parada
contin uo desde ella.
Caso II En otro caso, encontrar i(k) el menor entero i = 0, 1, . . ., tal que
y
k
(i) (a, d) y f (y
k
(i)) f(x
k
) 2
i
f

(x
k
)
2
. Tomo x
k+1
=
y
k
(i
k
(i)), hago k = k + 1 y si no cumple el criterio de parada
contin uo desde ella.
Teorema 2 Si f (
(1
y x
k
la sucesion obtenida por el metodo de la secan-
te modicado, entonces si x es punto de acumulacion de x
k
se cumple que
f

( x) = 0.
Metodo de biseccion Dados [a, d] si f

(a) 0 y f

(d) 0, tomo [a
1
, d
1
] =
[a, d] y k = 1. Dados [a
k
, b
k
], tal que f

(a
k
) 0 y f

(d
k
) 0, deno c
k
=
(a
k
+d
k
)/2 y calculo f

(c
k
). Si f

(c
k
) 0, entonces tomo [a
k+1
, b
k+1
] = [c
k
, d
k
].
En otro caso, tomo [a
k+1
, b
k+1
] = [a
k
, c
k
].
Hay situaciones patologicas en las que este algoritmo puede no converger
al mnimo de f(x) en [a, d]. Es facil probar que si f (
(1
, entonces [a
k
, b
k
]
converge a un punto x tal que f

( x) = 0 y f

( x) > 0 si a < d.
La tasa de convergencia es lineal ya que en cada iteracion se reduce el
intervalo a la mitad. Es muy simple de implementar y a menudo muy util.
1.3. Metodos que usan solo valores de la funcion
Metodo de ajuste cuadratico a tres puntos Sean x
x2
, x
k1
, x
k
,
f(x
k2
), f(x
k1
), f(x
k
). Sea q
k
(x) = ax
2
+ bx + c funcion cuadratica que
pasa por los puntos (x
k2
, f(x
k2
)), (x
k1
, f(x
k1
)) y (x
k
, f(x
k
)). Aproxi-
mo el mnimo de f por el mnimo de esta funcion cuadratica x = b/2a.
En lugar de resolver el sistema resultante para obtener a, b y c, calculamos

(
x
k1
+x
k
2
) =
f(x
k
)f(x
k1
)
x
k
x
k1
= f

1
(x
k
),

f

(
x
k2
+x
k1
2
) =
f(x
k1
)f(x
k2
)
x
k1
x
k2
= f

2
(x
k
)
y

f

(x
k
) =
2
[
f

1
(x
k
)f

2
(x
k
)
]
x
k
x
k2
. Deno x
k+1
=
x
k1
+x
k
2


f

(x
k
)
1
f

1
(x
k
). Esta ex-
7
presion puede interpretarse como el metodo de Newton en el punto
x
k1
+x
k
2
usando aproximaciones para las derivadas mediante diferencias nitas.
El metodo debe modicarse si la informacion en los tres puntos indica
que la funcion no parece ser localmente estrictamente convexa. El modo mas
sencillo de comprobar esto es examinar la cantidad

f

(x
k
) y modicar el
metodo como hicimos en el metodo de la secante previamente, para prevenir
la no convergencia.
Los resultados de este metodo para la funcion polinomial del ejemplo son
k x
k
f(x
k
)
0 1,2 4,172
1 1,1 4,8037
2 0,9 4,8357
3 0,996 4,99
4 0,99 4,99
5 1,00 4,99
1 5
Metodo de la seccion a urea Supongamos que ! x

(a, d) tal que


f(x

) =nf [f(x)], x [a, d] y que, ademas, f(x) es estrictamente decreciente


en [a, x

] y estrictamente creciente en [x

, d].
Sean a a
k
< b
k
< c
k
< d
k
d. En estas condiciones se cumplen las
siguientes propiedades
1. Si f(b
k
) f(c
k
), entonces x

[a
k
, c
k
] (ya que, en otro caso debera
ser f(b
k
) > f(c
k
))
2. Si f(b
k
) > f(c
k
), entonces x

[b
k
, d
k
] (ya que, en otro caso debera
ser f(b
k
) < f(c
k
))
Distinguimos dos casos
Caso I. Si se cumple 1, tomamos [a
k+1
, d
k+1
] = [a
k
, c
k
] y c
k+1
= b
k
.
Caso II. Si, en cambio, se cumple 2, tomamos [a
k+1
, d
k+1
] = [b
k
, d
k
] y b
k+1
=
c
k
.
En este metodo se cumplen las siguientes relaciones
b
k
a
k
d
k
a
k
= r
1
= 0,382 y
c
k
a
k
d
k
a
k
= r
2
= 1 r
1
= 0,618.
8
Veamos que si se cumplen estas relaciones para k, entonces tambien se
cumplen para k + 1. En el primer caso
c
k+1
a
k+1
d
k+1
a
k+1
=
b
k
a
k
c
k
a
k
=
r
1
r
2
= 0,618 =
r
2
. En el segundo caso
b
k+1
a
k+1
d
k+1
a
k+1
=
c
k
b
k
d
k
b
k
=
c
k
a
k
+a
k
b
k
d
k
a
k
+a
k
b
k
=
(r
2
r
1
)(d
k
a
k
)
(1r
1
)(d
k
a
k
)
=
0,382 = r
1
.
No es complicado probar que si f (
(2
entonces la sucesion [a
k
, d
k
]
converge a un punto x en el que f

( x) = 0 y f

( x) > 0. Ademas, la tasa de


convergencia es lineal, ya que
d
k+1
a
k+1
d
k
a
k
= r
2
; es decir, que en cada iteracion
se reduce la amplitud del intervalo por la cantidad r
2
.
A continuaci on se expone la sucesion de puntos y valores de la funcion
para la funcion polinomial del ejemplo.
k a
k
b
k
f(b
k
) c
k
f(c
k
) d
k
0 1 1,76 30,24 2,236 29,72 3
1 1 1,47 24,67 1,76 30,24 2,23
2 1,47 1,76 30,24 1,94 31,89 2,23
3 1,76 1,94 31,89 2,05 31,88 2,23
4 1,76 1,94 31,89 2,05
Metodo de Fibonacci Sean n el n umero de puntos en los que vamos a
evaluar f, > 0 y [a
1
, d
1
] = [a, d] y hago k = 1.
Sea F
k

k0
la sucesion de Fibonacci denida por F
0
= F
1
= 1 y F
k
=
F
k1
+ F
k
2
, k 2.
Iteracion k-esima En [a
k
, d
k
], tomo
b
k
= a
k
+ (d
k
a
k
)
F
nk1
F
nk+1
y
c
k
= a
k
+ (d
k
a
k
)
F
nk
F
nk+1
.
Es facil ver que se cumplen las dos condiciones requeridas en el metodo
de la seccion a urea.
As, en cada iteracion se logra una reduccion de la amplitud del intervalo
del orden de
F
nk
F
nk+1
.
Puede comprobarse que si k = n 1, b
n1
=
a
n1
+d
n1
2
= c
n1
. Tomo
c
n1
= b
n1
+, y eval uo f en ella con lo que el intervalo solucion sera o bien
[a
n
, d
n
] = [a
n1
, b
n1
], si estoy en el primer caso o bien [a
n
, b
n
] = [b
n1
, d
n1
],
si estoy en el segundo caso.
9
Luego tras evaluar f en n puntos (2 en la primera iteracion y 1 en las
restantes (de la 2 a la n 1)) se obtiene un intervalo de amplitud (b a)
1
F
n
.
Comparacion de los metodos Sea l la longitud maxima del intervalo de
incertidumbre.
Para el metodo de b usqueda uniforme el n umero de evaluaciones de la
funcion, n
2(da)
l
1, en el metodo de b usqueda dicotomica 2
n/2

da
l
, en
el metodo de seccion a urea

n1

da
l
y en Fibonacci
1
F
n

da
l
. Luego,
en todos ellos el n umero de evaluaciones de la funcion esta en funcion del
cociente
da
l
. As, el que menos evaluaciones de funcion requerira es Fibo-
nacci, seguido de seccion a urea, despues b usqueda dicotomica y nalmente,
b usqueda secuencial.
Notar que cuando n es grande
1
F
n
(
1

)
n1
. As que Fibonacci y seccion
a urea son similares.
Ejemplo de aplicacion Buscamos el mnimo de f(x) = x
2
2x en [3, 5]
con los metodos anteriores.
Si l = 0,2 se obtienen los siguientes resultados.
Dicotoma
Iteracion k a
k
d
k
b
k
c
k
f(b
k
) f(c
k
)
1 -3 5 0.99 1.01 -0.999 -0.999
2 -3 1.01 -1.005 1.025 -3.02 2.94
3 -1.005 1.01 -0.0075 0.0125 0.015 -0.024
4 -0.0075 1.01 0.4913 0.5113 -0.741 -0.761
5 0.4913 1.01 0.7406 0.7606 -0.932 -0.942
6 0.7406 1.01 0.8653 0.8853 -0.981 -0.986
7 0.8653 1.01
Se hacen 12 evaluaciones de la funcion.
10
Seccion A urea
Iteracion k a
k
d
k
b
k
c
k
f(b
k
) f(c
k
)
1 -3 5 0.056 1.944 0.115 7.667
2 -3 1.944 -1.112 0.056 -0.987 0.115
3 -3 0.056 -1.832 -1.112 -0.308 -0.987
4 -1.832 0.056 -1.112 -0.664 -0.987 -0.887
5 -1.832 -0.664 -1.384 -1.112 -0.853 -0.987
6 -1.384 -0.664 -1.112 -0.936 -0.987 -0.996
7 -1.384 -0.936 -1.208 -1.112 -0.957 -0.987
8 -1.208 -0.936 -1.112 -1.032 -0.987 -0.999
9 -1.112 -0.936
Fibonacci
Iteracion k a
k
d
k
b
k
c
k
f(b
k
) f(c
k
)
1 -3 5 0.054 1.945 0.112 7.675
2 -3 1.945 -1.109 0.054 -0.988 0.112
3 -3 0.054 -1.836 -1.109 -0.3 -0.988
4 -1.836 0.054 -1.109 -0.672 -0.988 -0.892
5 -1.836 -0.672 -1.399 -1.109 -0.84 -0.988
6 -1.399 -0.672 -1.109 -0.963 -0.988 -0.998
7 -1.109 -0.672 -0.963 -0.818 -0.998 -0.966
8 -1.109 -0.818 -0.963 -0.963 -0.998 -0.998
9 -1.109 -0.963 -0.963 -0.953 -0.998 -0.997
Los valores con son las evaluaciones de la funcion en cada iteracion.
2. Teora de convergencia general para algo-
ritmos de minimizacion sin restricciones
Veamos algunos resultados que se centran en las propiedades de los puntos
de acumulacion de la sucesion obtenida por ellos. La convergencia de primer
orden prueba que los puntos de acumulacion son puntos que cumplen la
condicion necesaria de primer orden de mnimo no restringido. El resultado de
convergencia de orden 2 demuestra que los puntos de acumulacion satisfacen
las condiciones necesarias de segundo orden de mnimo no restringido.
Dados x
k
, s
k
vector no nulo (direccion de b usqueda). Los algoritmos de
minimizacion sin restricciones denen x
k+1
= x
k
+ t
k
s
k
, t
k
> 0, tal que
f(x
k+1
) f(x
k
).
11
Veamos algunos procedimientos para obtener el tama no del paso t
k
. Con-
siderar el problema
minimizar f(x
k
+ ts
k
), sujeta a , t t 0/x
k
+ ts
k
. (5)
Metodo I. Tomo t
k
el primer mnimo local de (5).
Metodo II. Tomo t
k
mnimo global de (5).
Metodo III. Tomo t
k
un mnimo local de (5) tal que f(x
k
+t
k
s
k
) f(x
k
).
A estos tres metodos se les conoce como procedimientos de tama no de paso
optimo.
Estos metodos presentan varios inconvenientes. Uno de ellos es que puede
que el problema no tenga solucion y a un en el caso de que la tenga no suele
poder encontrarse la solucion exacta.
Los metodo de optimizacion sin restricciones unidimensional anterior-
mente expuestos son metodos tipo III. Los resultados de convergencia sin
embargo se obtienen para los metodos I y II.
La tasa de convergencia de algunos de los metodos de optimizacion sin
restricciones que veremos a continuacion depende del procedimiento de ta-
ma no de paso usado. Por ejemplo para demostrar la tasa de convergencia
del metodo del gradiente conjugado es necesario que se use un procedimien-
to de tama no de paso optimo. Sin embargo para los metodos de Newton
y cuasi-Newton pueden obtenerse sus tasas de convergencia sin importar el
procedimiento de tama no de paso usado. Por ello, a continuacion exponemos
dos metodos para encontrar el tama no del paso propuestos por Armijo en
1966.
Denicion 2 (Armijo de primer orden) Sea i(k) el menor entero i =
0, 1, . . . tal que x
k
+ 2
i
s
k
y f(x
k
+ 2
i
s
k
) f(x
k
) 2
i
f(x
k
)
t
s
k
;
con 0 < < 1 jado de antemano (Para que exista i(k) nito basta que
s
k
sea una direccion no ascendente; es decir, que f(x
k
)
t
s
k
0) Tomo
x
k+1
= x
k
+ 2
i(k)
s
k
.
Para ciertas hipotesis sobre s
k
es posible probar que los puntos de acumu-
lacion de x
k
cumplen la condicion necesaria de primer orden de mnimo no
restringido.
El metodo de Newton que usa una direccion de curvatura no positiva
(d
k
= 0 tal que d
kt
Hf(x
k
)d
k
0) cumple el resultado de convergencia de
orden 2 cuando usa el siguiente procedimiento de tama no de paso.
12
Denicion 3 (Armijo de segundo orden) Sea i(k) el menor entero i =
0, 1, . . . tal que y
k
(i) = x
k
+ 2
i
s
k
+ 2
i/2
d
k
y f(x
k
+ 2
i
s
k
+ 2
i/2
d
k
)
f(x
k
)

f(x
k
)
t
s
k
+
1
2
d
kt
Hf(x
k
)d
k

2
i
; con 0 < < 1 dado de ante-
mano (Para que exista i(k) nito basta que s
k
y d
k
sean direcciones no as-
cendentes y que f(x
k
)
t
s
k
< 0 (s
k
de descenso o descendente) si f(x
k
) = 0
y d
kt
Hf(x
k
)d
k
< 0 (d
k
de curvatura negativa), si f(x
k
) = 0) Tomo x
k+1
=
y
k
(i(k)).
Teorema 3 Considerar cualquier algoritmo para resolver el problema de mi-
nimizar una funcion f (
(1
(( abt
o
de R
n
)) R con las siguientes propie-
dades
x
k
es no ascendente; es decir, f(x
k+1
) f(x
k
), k.
x
k+1
= x
k
+ t
k
s
k
, con f(x
k
)
t
s
k
0 (s
k
no ascendente) y
t
k
obtenido por los metodos I o II de tama no de paso optimo.
Sea x punto de acumulacion de x
k
y /
1
subconjunto de ndices tal que
lm
kK
1
x
k
= x. Supongamos que |s
k
| < M, k /
1
. Sea s punto de acu-
mulacion de s
k
para k /
1
. Entonces, f( x)
t
s = 0. Dem.-
Demo.-
Nota 3 No puede demostrarse este resultado si usamos el metodo de paso
optimo III.
Bajo las mismas condiciones que el teorema previo puede demostrarse la
convergencia a un punto estacionario si se usa Armijo de primer orden.
Teorema 4 Considerar cualquier algoritmo para resolver el problema de mi-
nimizar una funcion f (
(1
(( abt
o
de R
n
)) R que ha usado el pro-
cedimiento de tama no de paso de Armijo de primer orden. Sea x punto
de acumulacion de x
k
y /
1
subconjunto de ndices tal que lm
kK
1
x
k
=
x. Supongamos que |s
k
| < M, k /
1
, que > 0, tal que |s
k
|
|f(x
k
)|, k /
1
y que delta > 0 tal que k /
1
con f(x
k
) = 0,
f(x
k
)
t
s
k
/|f(x
k
)||s
k
| < 0. Entonces, f( x) = 0.
Los algoritmos que aseguran la convergencia a puntos que satisfacen las con-
diciones necesarias de segundo orden de mnimo deben calcular Hf(x
k
). Si
es indenida deben calcular una direccion no ascendente y de curvatura no
13
positiva as como una direccion no ascendente. Un procedimiento adecuado
de tama no de paso es Armijo de segundo orden.
Si el vector s
k
forma un angulo sucientemente peque no con f(x
k
)
y si la direccion de curvatura no positiva act ua casi como un vector propio
asociado al menor valor propio de la matriz hessiana, entonces puede probarse
un interesante resultado de convergencia.
Teorema 5 Supongamos f (
(2
(( abt
o
de R
n
), R) y que para minimizar
f(x), x un algoritmo con la propiedad de descenso (f(x
k+1
) < f(x
k
),
k) usa Armijo de segundo orden como procedimiento de tama no de paso un
n umero innito de veces. Sea /
1
subconjunto innito de ndices para los que
se ha usado Armijo de segundo orden y x un punto de acumulacion en de
x
k

kK
1
. Sea /
2
/
1
tal que lm
kK
2
x
k
= x.
Se requieren algunas propiedades de regularidad para las sucesiones s
k

y d
k
.
1. > 0, tal que |s
k
| |f(x
k
)|, k /
2
.
2. > 0 tal que, k /
2
con f(x
k
) = 0, f(x
k
)
t
s
k
/|f(x
k
)||s
k
|
< 0.
3. > 0, tal que d
k
t
Hf(x
k
)d
k
e
k
min
t
Hf(x
k
)e
k
min
, k /
2
; donde
e
k
min
es vector propio asociado con el menor valor propio de Hf(x
k
).
4. Estan acotadas uniformemente k /
2
.
Entonces, f( x) = 0 y Hf( x) es semidenida positiva con al menos un valor
propio igual a cero.
Teorema 6 En las mismas condiciones que el primer teorema de esta sec-
cion si ademas f (
(2
(, R); entonces a la conclusion obtenida en aquel
teorema se suma que sHf( x) s 0
3. Metodos de optimizacion multidimensio-
nal
3.1. Metodo de descenso de maxima pendiente
Dado x
0
, de dene x
k+1
= x
k
t
k
f(x
k
), con t
k
> 0. Se debe a
Cauchy (1847). Tambien se le conoce como metodo de Cauchy.
14
A continuaci on se exponen resultados de convergencia y se prueba que la
tasa de convergencia es al menos lineal.
Teorema 7 Si f (
(1
(( abt
o
de R
n
)) R y se aplica el metodo de des-
censo de maxima pendiente para resolver min f(x) con el metodo I para la
eleccion del tama no del paso, x , entonces todo punto de acumulacion de
x
k
, x, es un punto estacionario; es decir, f( x) = 0.
Demo.- Veamos que nos encontramos en las condiciones del teorema 1 de la
seccion previa. Por la denicion de t
k
, el metodo es no ascendente. Podemos
considerar s
k
= f(x
k
). Claramente s
k
, es direccion no ascendente ya
que f(x
k
)
t
s
k
= |f(x
k
)|
2
0. Ademas esta acotada uniformemente
k /
1
ya que lm
kK
1
x
k
= x y x
k
= x
0
+

k
i=1
t
i
s
i
. Por otro lado, s
k
converge a f( x) k /
1
, por ser f (
(1
. Luego del teorema 1 se tiene
que f( x)f( x) = 0. Luego, f( x) = 0.
Nota 4 Un resultado analogo se obtiene si se usa el metodo de paso optimo
II en vez del I.
Teorema 8 Si f (
(1
(( abt
o
de R
n
)) R y se aplica el metodo de des-
censo de maxima pendiente para resolver min f(x) con el metodo de Armijo
de primer orden para la eleccion del tama no del paso, entonces todo punto
de acumulacion de x
k
, x, cumple que f( x) = 0.
Demo.- Veamos que nos encontramos en las condiciones del teorema 2 de
la seccion previa. Para ello basta ver que |s
k
| = |f(x
k
)|, luego cum-
ple la condicion del teorema 2 con = 1 y si k /
1
y f(x
k
) = 0,
f(x
k
)
t
s
k
/|f(x
k
)[|s
k
| = 1, con lo que cumple la ultima condicion del
teorema con = 1. Luego se tiene el resultado deseado.
Nota 5 No es aconsejable para resolver un problema en general. Vease por
ejemplo minimizar x
2
+100y
2
. La tasa de convergencia depende del cociente
entre el mayor y menor valor propio de la matriz hessiana. Si el cociente es
uno, entonces el metodo resuelve en un paso.
Teorema 9 Suponer que x

es solucion de minimizar
1
2
x
t
Qx+b
t
x; donde Q
es una matriz n n simetrica y denida positiva, con mnimo valor propio
15

n
y maximo
1
. Entonces la tasa de convergencia del metodo de Cauchy es
al menos lineal y se obtienen las siguientes cotas
f(x
k+1
) f(x

)
f(x
k
) f(x

)

(c 1)
2
(c + 1)
2
|x
k+1
x

|
|x
k
x

|
c
1/2
(c 1)
2
(c + 1)
2
;
con c =
1
/
n
.
3.2. Metodo de Newton
La forma clasica es x
k+1
= x
k
Hf(x
k
)
1
f(x
k
). Es facil ver que si
f es cuadratica con matriz hessiana simetrica y denida positiva, entonces
Newton clasico resuelve en una iteracion.
A continuaci on se analiza el metodo de Newton aplicado en un entorno
de un punto alrededor del cual la funcion act ua como una forma cuadratica
denida positiva.
Veamos que si x
0
esta sucientemente proximo.
a
x tal que f( x) =
0 y Hf( x) es denida positiva, entonces la sucesion obtenida por Newton
clasico converge a x con tasa de convergencia al menos cuadratica.
Para ello recordemos algunas deniciones y demostramos un lema previo.
Denicion 4 Una norma matricial es una funcion |.| : / R que satis-
face las siguientes propiedades.
|A| = 0 A = 0 y |A| 0 A.
|A| = [[|A|, R y A /
n
.
|A + B| |A| +|B|, A, B /
n
.
|AB| |A||B|, A, B /
n
.
La norma que usaremos de aqu en adelante se dene como
|A| = sup
|Av|
|v|
.
Si A es una matriz simetrica, entonces |A| es la raz cuadrada positiva del
mayor valor propio de AA. Si, ademas A es denida positiva, entonces el
16
mayor valor propio de A
1
es |A
1
| y es igual a la inversa del menor valor
propio de A.
Sea a(.) una funcion denida en S R
n
abierto y convexo. Se dice que a
cumple la condicion de Lipschitz con constante T si |a(x)a(y)| T|xy|,
x, y S.
Lema 1 Supongamos que Hf existe en y que cumple la condicion de
Lipschitz con constante T en S convexo, entonces |f(x) f(y)
Hf(y)(x y)|
1
2
T|x y|
2
, x, y S.
Dem.- Sean x, y S, N(x, y) = f(x) f(y) Hf(y)(x y) =

1
0
[Hf [y + s(x y)] Hf(y)] (x y)ds.
Luego,
|N(x, y)| |x y|

1
0
|Hf [y + s(x y)] Hf(y|ds

1
2
T|x y|
2
, usando la condicion de Lipschitz.
Teorema 10 Supongamos que Hf Lip(T) sobre S R
n
abierto y conve-
xo, y que x S tal que f( x) = 0 y Hf( x) es denida positiva. Denotamos
|f( x)
1
| por
1
. Denimos V = x/|x x| <
2
3
T
1
.
Supongamos que V S; entonces x
0
V , la sucesion x
k
gene-
rada por Newton clasico existe, esta en V , y converge a x. Ademas, k
|x
k+1
x|
3
2
(T
1
)|x
k
x|
2
, de lo que puede deducirse que |x
k+1
x|

2
k
1
0
|x
0
x|; donde
0
=
3
2
T
1
< 1.
Dem.- Sea x V y |z| = 1; [z
t
[Hf(x) Hf( x)] z[ |Hf(x) Hf( x)|
T|x x| <
2
3
. Luego, en particular, z
t
Hf(x)z z
t
Hf( x)zT|x x|
T|x x| >
1
3
. Esto implica que Hf(x) es denida positiva y que
|Hf(x)
1
| 3
1
. (6)
Por otra lado, N( x, x) = f( x) f(x) Hf(x)( x x)
= f(x) Hf(x)( x x); de donde se tiene que
x x = Hf(x)
1
[f(x) + N( x, x)] . (7)
A continuacion, veamos que x
k
V . Procedemos por induccion sobre k.
Para k = 0 es cierto por hipotesis. Supongamoslo cierto hasta k, probemoslo
para k + 1.
Sumamos a (7) con x = x
k
, la expresion de Newton clasico y nos queda
x
k+1
x = Hf(x)
1
N( x, x
k
).
17
Luego,
|x
k+1
x|
3
2

1
T|x
k
x|
2
, (8)
por el lema previo y la desigualdad (6). Luego,
|x
k+1
x|
2
3
T
1
=
0
.
Por consiguiente, x
k+1
V .
Veamos ahora la segunda desigualdad por induccion sobre k. Para k = 0,
se tiene |x
1
x| |x
0
x| de (8) y de x
0
V . Supongamoslo cierto hasta
k + 1. Veamoslo para k + 2. De (8)
|x
k+2
x|
0
|x
k+1
x|
2
;
y la hipotesis de induccion conduce a
|x
k+2
x|
0
(
2
k
1
0
)
2
|x
0
x|
2
;
De donde,
|x
k+2
x|
2
k+1
1
0
|x
0
x|
2
.
3.3. Objeciones al metodo de Newton clasico
A continuacion se enumeran algunas objeciones al metodo de Newton
clasico.
Convergencia local.
Si la matriz Hf(x
k
) no es semidenida positiva k, por ejemplo si es
indenida, entonces s
k
= Hf(x
k
)
1
f(x
k
) puede no ser no ascen-
dente con lo que no se podran usar los resultados de convergencia de
la seccion previa. En caso de que fuese singular no existira la sucesion.
A un en el caso de que Hf(x
k
) fuese semidenida positiva k puede que
como nos movemos un paso jo 1 en cada iteracion que la reduccion
sea mnima con lo que la convergencia sera muy lenta.
Por todo esto se ha planteado una modicacion de Newton para obtener la
convergencia global.
18
3.4. Metodo de Newton modicado
Se basa en la expresion de Hf(x) como una funcion factorizable.
Iteracion k-esima.-
Supongamos que
Hf(x
k
) =
n

j=1
e
j
k

k
j
e
j
k
t
= E
k

k
E
t
k
; donde E
k
= (e
j
k
)
j=1,...,n
con e
j
k
R
n
y
k
es una matriz diagonal cuyos
elementos de la diagonal son
k
j
, j = 1, . . . , n. Esta ultima es una descompo-
sicion vector-valor propio de Hf(x
k
). Deno P
k
la parte positiva de Hf(x
k
):
P
k
=

k
j
>0
e
j
k

k
j
e
j
k
t
.
Es facil ver que esta matriz es semidenida positiva. Supongamos que
rangoP
k
= r
k
.
Calcular d
j
k
; j = 1, . . . , n r
k
, direcciones no ascendentes de curvatura
no positiva. Es decir, que cumplen f(x
k
)d
j
k
0 y d
j
k
t
Hf(x
k
)d
j
k
0, j.
Calcular P
+
k
la unica inversa generalizada de Penrose-Moore. Es la que
satisface las siguientes propiedades:
PP
+
P = P.
P
+
PP
+
= P
+
.
(PP
+
)
t
= PP
+
.
(P
+
P)
t
= P
+
P.
Deno x
0
k
(t) = x
k
P
+
k
f(x
k
)t y t
0
k
el primer mnimo local de mn
t0
f(x
k

P
+
k
f(x
k
)t) sujeta a x
k
P
+
k
f(x
k
)t . Sea y
1
k
= x
0
k
(t
0
k
). Para j =
1, . . . , nr
k
, calculo t
j
k
el primer mnimo local del problema mn
t0
f(y
j
k
(t)),
y
j
k
(t) = y
j
k
+d
j
k
t, sujeta a y
j
k
(t) y y
j+1
k
= y
j
k
(t
j
k
); sin perdida de generalidad
podemos suponer que d
j
k
es no ascendente en y
j
k
.
Finalmente, hago x
k+1
= y
nr
k
+1
k
y repito el proceso con k = k + 1.
A continuacion vemos una aplicacion del algoritmo aplicado a una funcion
no convexa.
Ejemplo 3 Considerar el problema mn f(x, y) = sin(x + y) + (x y)
2

3
2
x
5
2
y, con x > 1,5 e y > 2,5. Este es un problema de programacion no
convexa y tiene innitos mnimos locales.
19
Supongamos x
0
= (0, 0,5)
t
. La diferencial
f(x, y) = (cos(x + y) + 2(x y) 3/2, cos(x + y) 2(x y) + 5/2) .
La diferencial de orden 2 es
Hf(x, y) =

sin(x + y) + 2 sin(x + y) 2
sin(x + y) 2 sin(x + y) + 2

.
Es facil comprobar que f no es convexa. Los menores principales de la dife-
rencial de orden 2 son
1
= sin(x + y) + 2 > 0 y
2
= 8 sin(x + y) que
puede ser positivo o negativo. Luego f no es convexa en .
La matriz Hf(x
0
) =

1,52 2,48
2,48 1,52

. Tiene un valor propio


1
=
0,96 en las direcciones (1, 1)
t
y otro
2
= 4 en las direcciones (1, 1)
t
.
La parte positiva de esta matriz es P
0
=

1
1

2(1, 1) = 2

1 1
1 1

,
que tiene rango 1.
La direccion de curvatura negativa es d
1
0
= (1, 1).
La inversa generalizada es
P
+
0
=

1
1

1
8
(1, 1).
As, la direccion de b usqueda desde x
0
es s
0
= P
+
0
f(x
0
) que es s
0
=
(0,75, 0,75)
t
. Calculamos t
0
0
, como el primer mnimo local de mn
t0
f(x
0
+
ts
0
) = f(0,75t, 0,5 0,75t) sujeta a x
0
+ ts
0
. Es decir, resolvemos
mn 1,98 4,5t +2,25t
2
, cuya primera derivada es 4,5t 4,5 que se anula en
t = 1 y cuya segunda derivada es constante mayor que cero. Luego, t
0
0
= 1.
Por consiguiente, y
1
0
= x
0
+ s
0
= (0,75, 0,25)
t
. Ahora, buscamos el pri-
mer mnimo local de f desde este punto en la direccion de curvatura negativa;
es decir, mn
t0
f(y
1
0
+t(1, 1)
t
) = f(0,75t, 0,25t), sujeta a t < 2,25.
Sustituyendo la expresion de f, queda mn sin(0,5 2t) t 0,75, cuya pri-
mera derivada es 2 cos(0,52t) 1 que se anula en t = 1,3 y cuya segunda
derivada es positiva en el. Luego, t
1
0
= 1,3 y x
1
= y
2
0
= (0,55, 1,55)
t
que
es mnimo local de f, f(x
1
) = 0.
3.5. Convergencia del metodo de Newton modicado
Normalmente los problemas reales solo tienen mnimos aislados. El motivo
de los metodos de segundo orden es entrar en un entorno de un punto que
20
satisfaga las condiciones sucientes de mnimo. Una vez hecho esto, se aplican
los resultados usuales sobre tasas de convergencia del metodo de Newton.
Si la convergencia fuera el unico objetivo sera facil construir un algoritmo
que garantizara la convergencia a un punto que satisface las condiciones ne-
cesarias de segundo orden. En cada paso (caso indenido) consistira de dos
pasos: primero un movimiento optimo a lo largo del gradiente negativo, luego
un movimiento en la direccion de un vector propio con menor valor propio.
Usando los teoremas de convergencia 1 y 4 es facil probar la convergencia.
Otro metodo es modicar Armijo de segundo orden y usar el gradiente ne-
gativo y el vector propio con el menor valor propio, es posible demostrar la
convergencia usando el teorema 3.
En el resultado sobre convergencia que sigue se hace una hipotesis razo-
nable sobre la sucesion de puntos. Este resultado se sigue de los teoremas 1
y 2.
Teorema 11 Supongamos f (
(2
(, R) y que se aplica el metodo de Newton
modicado para mn f(x), x . Supongamos que la factorizacion de Hf(x
k
)
es tal que los e
j
k

s y los
k
j

s estan acotados en norma. Ademas, suponer


que hay un unico punto de acumulacion de la sucesion, x, y que al menos
una matriz triangular superior de U
k
es regular. Entonces x satisface las
condiciones necesarias de segundo orden de mnimo no restringido.
3.6. Inspeccion de algoritmos de Newton modicados
En los ultimos a nos ha sido mucho el interes en modicar Newton cuando
Hf es indenida en un punto. Estos esfuerzos se dividen en cinco categoras.
1. A. Cuando en el curso del calculo de la inversa de la matriz hessiana
(normalmente de forma implcita) hay indicios de que la matriz hessiana
no es denida positiva, se obliga al proceso numerico a generar una
matriz denida positiva. La razon detras de esta estrategia es que en la
mayora de los casos en que ocurre esto, se debe a errores de redondeo
(a veces causado por el mal condicionamiento de la matriz hessiana) y
esto tendera a corregir el problema del redondeo. En cualquier caso,
se cumple que la direccion resultante sera descendente-
No desarrollaremos mas esta estrategia aqu, excepto para decir que
comparada con las demas que exponemos, derrocha informacion. El
mismo proceso numerico empleado para obtener la inversa de la ma-
triz hessiana en el caso denido positivo debera poder usarse para
21
calcular informacion que acercara al mnimo. No hay ninguna razon
para asegurar que la direccion de descenso propuesta sera mejor que,
por ejemplo, la direccion del gradiente negativo cuando la matriz hes-
siana es indenida. Dicho de otro modo, si lo unico que interesa es
obtener una direccion de descenso, hay modos menos costosos de ha-
cerlo. Mas informacion sobre estas tecnicas se encuentra en Nonlinear
Programming.
A
utor: McCormick.
2. B. Cuando se descubre que la matriz hessiana no es denida positiva
se modica el metodo y se calcula d
k
, una direccion no ascendente de
curvatura no positiva. Hacemos s
k
= d
k
y encontramos t
k
, el tama no
del paso por el metodo I, II o III. El motivo que hay detras de esta
estrategia es acelerar la b usqueda de una region en la que la matriz
hessiana sea denida positiva, donde aplicaramos Newton clasico y la
tasa de convergencia sera cuadratica. La razon por la que esta estra-
tegia funciona es que d
k
es no ascendente y de curvatura no positiva.
Si las direcciones d
k
se eligen adecuadamente, la sucesion de puntos
entrara en una region donde la matriz hessiana es semidenida positi-
va y aplicaramos Newton clasico. No es complicado el calculo de una
direccion de descenso de curvatura negativa; lo que es difcil es calcular
una similar a un vector propio de Hf asociado a su menor valor propio.
Cuando lo encuentras el mnimo valor propio de la matriz hessiana es
de esperar que aumente cada vez que usas esta estrategia. Finalmente,
el mnimo valor propio se hace mayor que cero, como se deseaba.
Intuitivamente esta esta estrategia tiene sentido. Los teoremas sobre
convergencia de minimizacion no restringida se pueden usar para de-
mostrar la convergencia de segundo orden si las direcciones d
k
tienen
ciertas propiedades. Si se esta dispuesto a afrontar el calculo de e
min
k
,
la convergencia (salvo casos rarsimos) puede establecerse. El problema
de este metodo es el modo de obtener una buena direccion de curvatura
no positiva que no use mas operaciones aritmeticas que las que usara
el metodo de Newton clasico .....
3. C. La estrategia mas atractiva se basa en la solucion de la trayectoria
de un canto rodado sujeto por cuerdas deslizandose por la ladera de una
colina, x(t) para una funcion cuadratica, f. Esta trayectoria satisface
que
d
dt
x(t) = f [x(t)] .
22
No se conoce la solucion para f una funcion cualquiera. Pero si f es
una forma cuadratica nos quedan ecuaciones lineales y se conoce la
solucion.
Sea x
0
= x(0) la posicion inicial y EE
t
la descomposicion vectores-
valores propios de la matriz hessiana de f, que no depende de x. La
matriz es una matriz diagonal cuyos elementos son los valores propios
de la hessiana y E
t
es la matriz cuyas columnas son los vectores propios
asociados a los valores propios que forman una base ortonormal; i.e.,
EE
t
= I. En estas condiciones
x(t) = x
0
E(t)E
t
f(x
0
); (9)
donde (t) es una matriz diagonal cuyos elemento j-esimo es

j
(t) =

1e

j
t

j
si
j
= 0
t si
j
= 0.
Si se hace esto, estamos aproxim andonos a la trayectoria del gradiente
negativo (basada en una aproximaci on cuadratica en x
k
). Esto tiene
muchas caractersticas deseables; una es que el metodo no es tan sensi-
ble a errores de redondeo que pueden dar indicios falsos de indenicion.
Es facil probar que
lm

j
0
1 e

j
t

j
= t, t > 0.
Hay algunos experimentos basados en esta estrategia. El mayor incon-
veniente es que requiere la descomposicion completa de vectores-valores
propios.
Una modicacion obvia sera hacer otra descomposicion que simule la
descomposicion de vectores-valores propios usando alg un procedimiento
numerico estable. Hay un resultado que usa una actualizacion cuasi-
newton para aproximar la inversa de la matriz hessiana.
La orden formal de esta estrategia es sea x
k
(t) la solucion dada en (9),
a la aproximaci on cuadratica en x
k
. Sea x
k+1
= x
k
(t
k
); donde t
k
es
solucion optima local de mn f [x
k
(t)].
4. D. La cuarta estrategia es crear una trayectoria combinacion de una
direccion descendente y otra trayectoria dada por una direccion des-
cendente de curvatura negativa. Los metodos usados para minimizar
23
la funcion simultaneamente en las direcciones en las que la matriz hes-
siana tiene valores propios positivos y movernos en una direccion de
curvatura negativa pueden tomar varias formas. A continuaci on, se ex-
pone una para la que puede probarse la convergencia a un punto de
segundo orden.
Sea x
0
dado. Iteracion k.- Sea x
k
. Distinguimos los dos casos
siguientes.
a) La Hf(x
k
) es denida positiva. Tomamos s
k
= Hf(x
k
)
1
f(x
k
)
y obtenemos x
k+1
mediante Armijo de primer orden.
b) Hf(x
k
) no es denida positiva. Calculamos una direccion no as-
cendente s
k
y una direccion no ascendente de curvatura no positiva
d
k
. Usamos Armijo de segundo orden para obtener x
k+1
.
Una eleccion concreta de s
k
y d
k
en 2. sera f(x
k
) y e
min
k
(con el
signo elegido para que sea no ascendente)
Teorema 12 Supongamos que f (
(2
y, s
k
y d
k
como en 2. Sea

x
i
un punto de acumulacion de puntos en donde el caso 1. se ha usado
un n umero innito de veces. Entonces, o

x
i
es un punto de segundo
orden o f(

x
i
) es una vector propio de la matriz semidenida positiva
Hf(

x
i
) con valor propio cero.
Sea

x
ii
un punto de acumulacion de puntos donde el caso 2. se uso un
n umero innito de veces. Entonces

x
ii
es un punto de segundo orden.
Demo.- La demostracion de la segunda parte se sigue del teorema 5
despues de comprobar que se satisfacen las hipotesis all expuestas.
Los inconvenientes de usar esta estrategia es encontrar un procedimien-
to numerico eciente para calcular d
k
y una eleccion natural de s
k
que
permita la minimizacion de alguna parte de f(x). La mejor eleccion
para s
k
en el caso 2. viene descrita en la estrategia que se expone a
continuacion.
5. E. Otra estrategia, relativa a la D, es crear una iteracion que consista
de varios pasos. Dado x
k
, nos movemos sucesivamente con paso optimo
a lo largo de direcciones de curvatura no positivas. En el ultimo paso
dentro de la iteracion nos movemos para minimizar la parte positiva de
24
la aproximacion cuadratica denida positiva en x
k
. Esta estrategia es
muy similar al metodo de Newton modicado detallado en la subseccion
previa. La diferencia es que all primero se minimiza la parte positiva de
la funcion y luego se mueve en las direcciones de curvatura no positivas
; al contrario que aqu.
Se han presentado varias estrategias que modican Newton clasico cuando la
hessiana no es denida positiva en alguna iteracion. Hemos puesto el enfasis
en la razon geometrica de los metodos, mas que en los teoremas de convergen-
cia que pueden probarse para implementaciones algebraicas especcas de los
metodos. En los trabajos referidos, hay un consenso general de que aunque el
modo natural de mirar los metodos sea desde el punto de vista de la descom-
posicion vectores-valores propios de la matriz hessiana, computacionalmente
esto es muy costoso. La mayora de los autores se limitan a trabajar con al-
goritmos aproximados que no requieren esto (y en algunos casos no requieren
el calculo explcito de las segundas derivadas). Las modicaciones de Newton
clasico son todava un tema de investigacion abierto. Una de las dicultades
de comparar resultados es la falta de problemas adecuados con los que pro-
barlos. La necesidad de direcciones de curvatura no positivas normalmente
solo ocurre una o dos veces en cada problema, con lo que la eciencia de los
algoritmos modicados no puede medirse.
4. Metodos que usan direcciones conjugadas
Supongamos que f(x) es una funcion separable; i.e.,
f(x) =
n

j=1
f
j
(x
j
);
donde f
j
(.) son funciones de una variable. El problema mn f(x), x
podra resolverse en n pasos minimizando cada vez en una de las componen-
tes.
Supongamos que
f(x) =
1
2
x
t
Gx + c
t
x; (10)
con G matriz n n simetrica. Si consideramos la trasformacion x = Sy con
25
S matriz n n, tal que S
t
GS = D =

d
1
.
.
.
d
n

, d
i
R. Entonces el
problema se traduce en
mn F(y) = f(Sy) =
1
2
n

j=1
d
j
y
2
j
+ c
t
Sy =

F
j
(y
j
). (11)
Resolvemos en n pasos minimizando en cada componente.
Sea y
0
R
n
, para k = 0, . . . , n 1 calculo

t
k
solucion optima de
mn F(y
k
+ te
k
); donde e
k
son n 1 vectores unitarios, y y
k+1
= y
k
+

t
k
e
k
.
La solucion del problema sera y
n
por ser la funcion separable.
Es facil ver que si y es solucion optima de (11), entonces Sy es solucion
optima de (10).
Otra forma de resolver mn f(x); x con f(x) =
1
2
x
t
Gx + c
t
x. Si
s
i
, i = 0, . . . , n 1 son direcciones conjugadas respecto de G; es decir, si
s
it
Gs
j
= 0, i = j. Resolvemos en n pasos minimizando en las n direcciones.
Sea x
0
, para k = 0, . . . , n1, calculo t
k
solucion optima de mn f(x
k
+
ts
k
) y hago x
k+1
= x
k
+t
k
s
k
. Se cumple que la solucion optima es x
n
. Ve amos-
lo en el siguiente teorema.
Teorema 13 Si x
0
= Sy
0
, entonces

t
k
= t
k
y x
k
= Sy
k
; k = 0, . . . , n 1 y
x

= x
n
.
Demo.- Por induccion sobre k. Para k = 0,

t
0
es solucion optima de
mn f(S(y
0
+ te
1
)) que es mn f(x
0
+ ts
0
) cuyo mnimo es t
0
y x
0
= Sy
0
por
hipotesis. Luego, es cierto para k = 0.
Supongamoslo cierto hasta k. Veamos para k + 1, x
k+1
= x
k
+ t
k
s
k
que
es Sy
k
+

t
k
Se
k+1
); es decir, Sy
k+1
. Por otro lado,

t
k+1
es solucion optima de
mn F(y
k+1
+te
k+2
) que es igual a mn f(S(y
k+1
+te
k+2
)) que es mn f(x
k+1
+
ts
k+1
) cuyo mnimo es t
k+1
. Luego, es cierto para k + 1, con lo que queda
probado el resultado para todo k.
Nota 6 Este resultado es importante desde el punto de vista teorico, ya que
prueba que al menos para una forma cuadratica denida positiva hay un
problema de optimizacion separable equivalente cuya resolucion equivale al
metodo de las direcciones conjugadas para el problema de minimizar la forma
cuadratica. Existen varios algoritmos de direcciones conjugadas que generan
la matriz S de forma distinta.
26
A continuaci on, se describen dos metodos populares de direcciones conju-
gadas: el metodo del gradiente conjugado y el metodo de proyecci on del
gradiente.
4.1. Metodo del gradiente conjugado
Inicialmente propuesto por Hestenes & Steifel (1952). La version mas
conocida fue propuesta por Fletcher&Reeves (1964). Una variante de esta
ultima debida a Polak-Ribiere (1969) y Polyak (1969a,b) se expone a conti-
nuaci on.
Sea x
0
R
n
. Sea s
0
= f(x
0
) y t
0
solucion al problema mn
t0
f(x
0
+
ts
0
), sujeta a, x
0
+ ts
0
obtenida por los metodos I,II o III. Hago x
1
=
x
0
+ t
0
s
0
.
Iteracion k.- Si k = in; i = 0, 1, . . ., tomo s
k
= f(x
k
) y calculo t
k
solucion
de mn
t0
f(x
k
+ ts
k
), sujeta a x
k
+ ts
k
y x
k+1
= x
k
+ t
k
s
k
.
En otro caso,
s
k
= f(x
k
) + s
k1
f(x
k
)
t

f(x
k
) f(x
k1
)

|f(x
k1
)|
2
,
y calculo t
k
el paso optimo por los metodos I,II o III. Hago x
k+1
= x
k
+t
k
s
k
.
Si no se cumple la condicion de optimalidad se repite el proceso con x
k+1
. El
algoritmo termina en a lo sumo n pasos.
Teorema 14 Si el metodo del gradiente conjugado se aplica a mn f(x), x
; donde f es una forma cuadratica denida positiva, entonces el algoritmo
del gradiente conjugado encuentra la solucion en a lo sumo n pasos.
Se han estudiado varias cuestiones referidas a la convergencia y a la ta-
sa de convergencia del metodo del gradiente conjugado cuando se aplica a
mn f(x), f : R cualquiera. Lo mas que puede decirse es que su tasa de
convergencia es cuadratica en n pasos.
Teorema 15 Supongamos que Hf Lip(T) y continua y que la sucesion
del gradiente conjugado converge a un punto x, donde f( x) = 0 y Hf( x)
es denida positiva. Entonces M /
|x
(i+1)n
x| M|x
in
x|
2
;
para i = 0, 1, ...
27
Un resultado mas debil se obtiene si la funcion tiene segundas derivadas
continuas pero no satisface necesariamente la condicion de Lipschitz.
Teorema 16 Si f (
(2
y si la sucesion generada por el algoritmo del gra-
diente conjugado converge a un punto x, tal que, f( x) = 0 y Hf( x) es
denida positiva, entonces
lm
i
|x
(i+1)n
x|
|x
in
x|
= 0.
Ejemplo 4 Resolver mn f(x, y) = x ln x + y
2
, sujeta a x > 0
Para f : R cualquiera se dene s
k
= f(x
k
) + s
k1

k
.
Se han propuesto cuatro elecciones para el calculo de
k
.
Fletcher&Reeves(1964)

k
=
|f(x
k
)|
2
|f(x
k1
)|
2
. (12)
Daniel(1967)

k
=
f(x
k
)
t
Hf(x
k
)s
k1
s
k1t
Hf(x
k
)s
k1
. (13)
Crowder&Wolfe(1971)

k
=
f(x
k
)
t

f(x
k
) f(x
k1
)

s
k1t
[f(x
k
) f(x
k1
)]
. (14)
Polak&Ribiere(1969) y Polyak(1969a,b)

k
=
f(x
k
)
t

f(x
k
) f(x
k1
)

|f(x
k1
)|
2
. (15)
Todas estas formulas conducen a la misma sucesion de puntos si f es una
forma cuadratica denida positiva y si la minimizacion a lo largo de una
direccion es exacta.
A continuaci on se exponen algunos resultados interesantes sobre la con-
vergencia de algunas versiones del metodo del gradiente conjugado.
28
Teorema 17 Supongamos f (
(2
con segundas derivadas acotadas sobre el
conjunto acotado x/f(x) f(x
0
). Supongamos
k
dado por (12) y que en
cada paso, excepto el primero, s
k
= f(x
k
) +s
k1

k
(i.e., se usa la version
continua del algoritmo). Entonces, al menos un punto de acumulacion de
x
k
cumple las condiciones necesarias de primer orden.
Teorema 18 Supongamos que x/f(x) f(x
0
) es acotado, f Lip(T)
y continua,
k
dado por (14) y se usa la version reseteada del metodo del
gradiente conjugado (cada n iteraciones se busca en la direccion de menos el
gradiente). Entonces, existe al menos un punto de acumulacion de x
k
que
es un punto estacionario.
4.2. El metodo de proyecci on
Requiere mas capacidad de almacenamiento de informacion que el metodo
del gradiente conjugado. Fue propuesto por Zoutendijk(1960). El motivo de
este metodo es que si un vector s es ortogonal a la diferencia de los gradientes
en dos puntos, entonces (si f es una forma cuadratica) esta direccion es
conjugada a la direccion dada por la lnea que conecta los dos puntos.
Es decir, sean x
k
, x
k1
dos puntos dados y supongamos que f es una
forma cuadratica. Entonces
0 = s
t

f(x
k
) f(x
k1
)

= s
t
Hf(x
k
x
k1
).
El algoritmo general es como sigue. Sea x
0
y s
0
direccion de descenso no
nula. Encontrar t
0
resolviendo el problema de tama no de paso optimo. Sea
x
1
= x
0
+ t
0
s
0
. Si no se ha alcanzado la convergencia, hacer k = 1.
Iteracion k.- 1 k n1. Deno y
j
= f(x
j+1
)f(x
j
). De ah la matriz
Y
k
= [y
k1
, ..., y
0
]. Elijo s
k
como
s
k
=

I Y
k
(Y
t
k
Y
k
)
1
Y
t
k

f(x
k
).
Encontrar t
k
usando un procedimiento de tama no de paso optimo. Hacer
x
k+1
= x
k
+ s
k
t
k
y si no se alcanza la convergencia tomar k = k + 1.
Si k > n 1, de la matriz Y
k
= [y
k1
, ..., y
kn+1
] procedo como se in-
dico antes.
Existe la posibilidad teorica de que los vectores que denen Y
k
no sean
linealmente independientes. Esto casi nunca ocurre. Si ocurre, el algoritmo
puede modicarse de modo que la direccion de b usqueda sea simplemente
29
ortogonal al conjunto de las diferencias, y que sea de descenso. El modo
formal de denir el algoritmo bajo estas ultimas circunstancias se encuentra
en McCormick & Ritter(1972).
Otra posibilidad teorica es que el vector s
k
sea nulo. Si esto ocurre cuan-
do f es cuadratica denida positiva, es facil probar que el punto actual es
solucion del problema; en el caso de que f no lineal y no cuadratica, signica
que el punto actual esta mas proximo a la solucion que los previos.
Estas posibles anomalas pueden ser tenidas en cuenta de modo que se
modique el algoritmo de cara a asegurar la convergencia y que no afecte a
las tasas de convergencia. Las modicaciones apropiadas y la demostracion
del teorema que exponemos a continuaci on se encuentran en la referencia
antes mencionada.
Teorema 19 Si f (
(2
, Hf es denida positiva con valores propios uni-
formemente acotados inferiormente lejos de cero, y si x
k
x / f( x) = 0,
entonces
lm
k
|x
k+n
x|
|x
k+1
x|
= 0.
Si, ademas Hf Lip(T), entonces existe un valor M tal que
|x
k+n
x| M|x
k+1
x||x
k
x|.
Es interesante comparar la tasa de convergencia del metodo de proyeccion
con la del metodo del gradiente conjugado. El primero es ligeramente mejor
en terminos de orden de convergencia. Esto es debido al hecho de que la infor-
macion cosechada u obtenida en las iteraciones previas se usa en el metodo
de proyecci on. En el metodo del gradiente conjugado ninguna informacion
de iteraciones previas se usa despues de que la convergencia no se obtenga
tras n pasos. El metodo de proyecci on puede pensarse como generador de un
punto x
n
, el n-esimo de una sucesion de direcciones conjugadas empezando
en x
1
. Aunque x
1
no es usualmente mas proximo a x que x
0
, al menos en x
1
hay una direccion en la que la funcion se ha minimizado (la direccion de x
0
a x
1
).
5. Metodos cuasi-newton
El metodo de Newton es demasiado difcil de implementar. Los metodos
que aproximan la matriz hessiana o su inversa son mas utiles como meto-
dos de optimizacion sin restricciones.Al igual que el metodo de la secante
30
es preferible frente a Newton para la minimizacion de una funcion de una
variable.
Los algoritmos cuasi-newton han ganado popularidad desde 1959 y se ha
empleado mas esfuerzo en analizar estos metodos que en cualquier otro area
de la programacion no lineal desde entonces.
Consisten en
x
k+1
= x
k
H
k
f(x
k
)t
k
;
k = 0, 1, ...; donde
H
k

Hf(x
k
)

1
y t
k
R.
Distintos algoritmos calculan H
k
de distintas formas. El tama no de paso a
veces se toma 1 y la mayora de las veces se usa un procedimiento de tama no
de paso optimo: I,II,III o IV.
Esta denicion es muy general. Permite a Newton clasico ser un metodo
cuasi-newton.
5.1. El metodo de la secante para minimizar funciones
de varias variables
La generalizacion del metodo de la secante para minimizar una funcion
de una variable toma la forma siguiente. Sean x
0
, . . . , x
n
puntos dados y
f(x
0
), . . . , f(x
n
) sus gradientes, entonces
x
n+1
= x
n


S

Y
1
f(x
n
); (16)
donde

S = [x
0
x
1
, . . . , x
n1
x
n
]
e

Y = [f(x
0
) f(x
1
), . . . , f(x
n1
) f(x
n
)],

S

Y
1
Hf(x
n
)
1
. Si f(x) es una forma cuadratica denida positiva, enton-
ces la aproximacion es exacta.
Una forma mas idonea para el analisis de la tasa de convergencia es
x
n+1
= x
n
SY
1
f(x
n
); (17)
donde
S = [x
0
x
n
, . . . , x
n1
x
n
]
31
e
Y = [f(x
0
) f(x
n
), . . . , f(x
n1
) f(x
n
)].
A nadiendo k n a cada subndice en (17), el algoritmo se generaliza com-
pletamente.
Denimos
S
k
= [x
kn
x
k
, . . . , x
k1
x
k
]
e
Y
k
= [f(x
kn
) f(x
k
), . . . , f(x
k1
) f(x
k
)].
El metodo de la secante generalizado toma la forma
x
k+1
= x
k
S
k
Y
k
1
f(x
k
), (18)
si el lado derecho de (18) esta en . Si no debe usarse una version modicada.
Para el analisis de la tasa de convergencia que sigue se supondra que cada
iteracion genera puntos en .
Es util la tasa de convergencia del metodo de la secante generalizado para
determinar la proximidad de x
n+1
a un minimizador local x aislado despues
de una iteracion. Supongamos f (
(3
, que disponemos de n + 1 puntos
x
0
, . . . , x
n
y conocemos sus gradientes y que Hf(x
n
)
1
.
Teorema 20 Supongamos f (
(3
, que cada punto obtenido por (18) esta en
, y que la sucesion converge a x , donde f( x) = 0 y Hf( x) es denida
positiva. Tambien, suponer que la matriz Y
k
D
k
1
; donde D
k
es la matriz dia-
gonal cuyo elemento j es |x
kn+j1
x
k
|, constituye un conjunto de vectores
linealmente independientes; es decir, lminf
k
[ det(Y
k
D
k
1
)[ > 0. Entonces la
tasa de convergencia es O superlineal; es decir
lmsup
k
|x
k+1
x|
|x
k
x|
= 0.
Sea T una cota superior del valor absoluto de cualquier tercera derivada de
f. Entonces, M > 0 tal que
lmsup
k
|x
k+1
x|
|x
kn
x||x
k
x|
MT.
32
Metodo de la secante modicado La version pura del metodo de la
secante que acabamos de describir solo es valida cerca o en las proximidades
de un mnimo local aislado. Deben hacerse modicaciones para que se pueda
aplicar en general o para lograr la convergencia global.
Iteraciones 1, . . . , n 1. Generar mediante alguna forma puntos x
1
, . . . , x
n
(x
0
se supone dado). Un metodo de direcciones conjugadas o cualquier
otro metodo adecuado puede usarse. Es deseable que f(x
k
) < f(x
k1
)
pero no necesario.
Iteracion k, k n. De la matriz

S
k

Y
k
1
, donde estas matrices se obtienen
sumando k n a las de (16); es decir

S
k
= [x
kn
x
kn+1
, . . . , x
k1
x
k
]
e

Y
k
= [f(x
kn
) f(x
kn+1
), . . . , f(x
k1
) f(x
k
)].
Notar que

Y
k
puede obtenerse de

Y
k1
sustituyendo una unica columna
y la nueva inversa puede obtenerse con n
2
operaciones.
Caso I. Si se cumple
1.

Y
k
1
.
2. y

S
k

Y
k
1
f(x
k
) es de descenso,
entonces tomo s
k
=

S
k

Y
k
1
f(x
k
) y uso metodos I, II, III o IV
para obtener t
k
. Hago x
k+1
= x
k
+ t
k
s
k
.
Caso II. En otro caso. En este caso el metodo de la secante no act ua
del modo en que Newton actuara. Hay muchas alternativas de
accion que podran tomarse aqu.
Si 2. no se cumple pero 1. si, entonces una cosa sencilla sera
tomar s
k
=

S
k

Y
k
1
f(x
k
) y usar un procedimiento de tama no
de paso para obtener el proximo punto. Otra alternativa es tomar
s
k
= f(x
k
).
Si 1. no se cumple, entonces la columna nueva puede suprimirse y
usar de nuevo

Y
k1
y

S
k1
. Ritter (1970) da muchas alternativas
para las que puede probarse la convergencia a un punto estacio-
nario.
Si el criterio de convergencia no se cumple, hacer k = k + 1 y
repetir la iteracion k.
33
5.2. Otros metodos cuasi-newton
La mayora de los metodos cuasi-newton desarrollados en a nos recientes
no iteran como el metodo de la secante en un aspecto importante: en vez de
usar informacion de los n puntos generados previamente, los metodos cuasi-
newton tpicos actualizan la aproximaci on en cada iteracion pero no rescatan
la informacion de pasos anteriores.
Una iteracion tpica tendra la siguiente forma. Sean

k
= x
k+1
x
k
e
y
k
= f(x
k+1
) f(x
k
).
Por denicion,
G
k

k
= y
k
;
donde
G
k
=

1
0
Hf(x
k
+ t
k
)dt.
Se quiere tomar H
k+1
de forma que se comporte como G
k
1
; es decir, que
satisfaga la ecuacion

k
= H
k+1
y
k
. (19)
Si f(x) es una forma cuadratica denida positiva, G
k
= Hf y que satisfaga
(19) puede pensarse como un intento de estimar Hf
1
usando informacion
obtenida de los puntos x
k
y x
k+1
.
El modo mas sencillo de hacer esto es a nadir a H
k
otra matriz para que
se satisfaga (19). Debido a que muchas matrices cumpliran esto, se obtienen
distintos metodos de distintos esquemas de actualizacion.
Aqu restringiremos nuestra atencion a tres metodos, ya que desde el
punto de vista computacional, estos trabajan tan bien o mejor que los otros.
A continuacion, detallamos un resumen de la clase general de algoritmos que
se discutiran en esta seccion.
Iteracion 0. Sea x
0
y H
0
matriz nn dados. Calculo s
0
= H
0
f(x
0
)
y encuentro x
1
resolviendo por uno de los procedimientos de tama no
de paso I,II,III o IV (si s
0
no es de descenso, trabajar con H
0
f(x
0
))
Normalmente estos metodos comienzan con H
0
una matriz denida
positiva.
34
Iteracion k + 1, k 0. Usar la informacion sobre la inversa de la matriz
hessiana (suponiendo que existe o suponiendo una aproximaci on a la
inversa de la hessiana en un punto mnimo aislado que se busca) ob-
tenido de la diferencia de los gradientes, y
k
, y usar una formula de
actualizacion (20), (22) o (24) para H
k+1
de forma que satisfaga (19)
Hacer s
k+1
= H
k+1
f(x
k+1
) si es una direccion de descenso y s
k+1
=
H
k+1
f(x
k+1
), en otro caso. Obtenemos x
k+2
mediante uno de los
metodos (I-IV) de obtencion del tama no del paso.
Nota 7 Hay mucha evidencia computacional de que sin ninguna precaucion,
estos algoritmos pueden recoger mala informacion en las iteraciones iniciales
y hacer que la convergencia del metodo sea muy lenta. Una implementacion
del metodo probablemente incluira una comprobacion del angulo de la direc-
cion con el gradiente. Si este angulo tiende a 90 grados; es decir, si el vector
direccion normalizado y el gradiente tienden a ser ortogonales, entonces de-
be hacerse algunos ajustes al algoritmo. Normalmente, el ajuste consiste en
resetear H
k
a alguna matriz denida positiva (normalmente la matriz iden-
tidad) Con este procedimiento es facil probar que los puntos de acumulacion
de la sucesion son puntos estacionarios.
5.3. El metodo de rango 1 (Broyden, 1967)
Este metodo obtiene H
k+1
seg un la formula siguiente
H
k+1
= H
k
+ (
k
H
k
y
k
)

y
k
t
(
k
H
k
y
k
)

1
(
k
H
k
y
k
)
t
. (20)
Es facil ver, posmultiplicando por y
k
, que satisface (19)
Hay una probabilidad casi nula de que la actualizacion no este denida
en el sentido en que y
k
t
(
k
H
k
y
k
) = 0. Otra dicultad teorica es que
H
k+1
f(x
k+1
) puede ser cero aunque f(x
k+1
) = 0.
Esta estudiada, Dixon [28], la justicacion de no usar la actualizacion si
ocurre la primera dicultad, y en ambos casos usar la direccion
s
k+1
= v
k
=

k

k
t
y
k

H
k
y
k
y
k
t
H
k
y
k
.
Veamos el siguiente resultado que dice que, excepto para las situaciones raras
de degeneracion descritas antes, este metodo estima la inversa de la matriz
hessiana de una forma cuadratica denida positiva en n pasos y por lo tanto
encuentra el mnimo exacto en n + 1 pasos.
35
Teorema 21 Supongamos que f(x) es una forma cuadratica denida positi-
va. Supongamos que el metodo de rango 1 se aplica a mn f(x) con la formula
de actualizacion dada en (20). Si las siguientes hipotesis de no degeneracion
se cumplen:
1. los vectores
i

n1
i=0
son linealmente independientes.
2. y y
i
t
(
i
H
i
y
i
) = 0; i = 0, . . . , n 1,
entonces H
n
es la inversa de la matriz hessiana de f(x) y x
n
H
n
f(x
n
)
es el mnimo global de f.
Demo.- Probemos que H
k
y
j
=
j
, para j = 0, ..., k 1 y k = 1, ..., n. Se
prueba por induccion.
Notar que
H
k+1
y
k
=
k
, (21)
se cumple para k = 0, ..., n 1.
Para k = 1 se tiene directamente de (21). Supongamos que se cumple
hasta k. Ve amoslo para k + 1. En primer lugar
H
k+1
y
k
=
k
(de (21)).
Sea 0 i k 1,
H
k+1
y
i
= H
k
y
i
+ (
k
H
k
y
k
)

y
k
t
(
k
H
k
y
k
)

1
(
k
H
k
y
k
)
t
y
i
=
i
+ (
k
H
k
y
k
)

y
k
t
(
k
H
k
y
k
)

1
(
k
t
y
i
y
k
t
H
k
y
i
) (de la hipotesis de induccion)
=
i
+ (
k
H
k
y
k
)

y
k
t
(
k
H
k
y
k
)

1
(
k
t
y
i
y
k
t

i
) (de la hipotesis de induccion)
=
i
(ya que y
it

j
=
i
t
G
j
=
i
t
y
j
).
Luego, en particular, se cumple que H
n
y
i
=
i
, i = 0, . . . , n 1; y como

n1
i=0
son linealmente independientes, se sigue que H
n
= Hf
1
= G
1
,
y por lo tanto que el paso de Newton x
n
H
n
f(x
n
) resuelve el problema
mn f(x), sujeta a x .
36
5.4. El metodo de Davidon-Fletcher-Powell
El mejor metodo cuasi-newton conocido para minimizar una funcion sin
restricciones fue propuesto por Davidon (1959) y desarrollado y extendido
por Fletcher y Powell (1963). La formula de actualizacion es
H
k+1
= H
k
H
k
y
k
(y
k
t
H
k
y
k
)
1
y
k
t
H
k
+
k
(
k
t
y
k
)
1

k
t
. (22)
Claramente esta actualizacion satisface (19).
Normalmente la actualizacion DFP se implementa en un algoritmo en el
que el tama no del paso se obtiene por medio de los metodos de tama no de
paso optimo; es decir, por los metodos I, II o III. Cuando esto ocurre, es
un metodo de direcciones conjugadas a la vez que un metodo cuasi-newton.
Luego, tiene tambien la propiedad de terminacion cuadratica.
Otra propiedad interesante de DFP es que hereda la denitud positiva.
Veamosla previamente al resultado de convergencia cuadratica.
Teorema 22 Si H
0
es denida positiva y si el paso usado por el metodo de
DFP tiene siempre la propiedad
k
t
y
k
> 0, entonces H
k
es denida positiva
k.
Dem.- Lo demuestro por induccion sobre k. Para k = 0 es cierto. Su-
pongamoslo cierto hasta k. Ve amoslo para k + 1.
x
t
H
k+1
x = x
t
H
k
x
(x
t
H
k
y
k
)
2
y
k
t
H
k
y
k
+
(x
t

k
)
2

k
t
y
k
.
Sea E
k

k
E
k
t
la descomposicion vector-valor propio de H
k
, con E
k
t
= E
k
1
y
k
la matriz diagonal cuyos elementos son los valores propios de H k.
Denoto por H
k
1/2
= E
k

k
1/2
E
k
t
donde
k
1/2
es una matriz diagonal cuyos
elementos son la raz cuadrada positiva de los valores propios de H
k
.
Llamo a = H
k
1/2
x, b = H
k
1/2
y
k
y obtengo que
x
t
H
k+1
x =
(a
t
a)(b
t
b) (a
t
b)
2
b
t
b
+
(x
t

k
)
2

k
t
y
k
.
Los dos terminos del lado derecho son mayores o iguales a cero, el prime-
ro por la desigualdad de Cauchy-Schwartz. Veamos que no pueden ser si-
mult aneamente iguales a cero. El primero es cero si a y b son proporciona-
les; es decir, si x e y
k
son proporcionales. Supongamos x = y
k
, entonces
x
t

k
= y
k
t

k
= 0.c.q.d.
37
Nota 8 La propiedad de heredar la denitud positiva se considera una pro-
piedad importante por muchos para un metodo cuasi-newton. En la compa-
racion de la efectividad de los algoritmos, muchos han terminado la salida
de ordenador cuando el algoritmo usado genera una direccion de b usqueda
H
k
f(x
k
) que no es de descenso. Cualquier algoritmo con la propiedad de
denitud positiva no puede generar direcciones no descendentes (a menos que
f(x
k
) = 0)
Puede probarse que el metodo de rango 1 no tiene esta propiedad aunque
se use un procedimiento de tama no de paso optimo.
Teorema 23 Supongamos que f(x) es una forma cuadratica denida posi-
tiva con matriz hessiana G. Supongamos que H
0
es una matriz simetrica y
denida positiva. Si el metodo DFP se usa, con un procedimiento de tama no
de paso optimo, entonces el algoritmo termina en el mnimo de f(x) en un
n umero de pasos menor o igual que n.
Demo.- Probamos las tres propiedades siguientes por induccion sobre k (su-
ponemos que f(x
k
) = 0, para k = 0, ..., n 1)
I
k
f(x
k
)
t
s
i
= 0; 0 i < k y k = 1, ..., n.
II
k
H
k
Gs
i
= s
i
; 0 i < k y k = 1, ..., n 1.
III
k
s
k
t
Gs
i
= 0; 0 i < k y k = 1, ..., n 1.
Tener en cuenta que ya que t
k
es solucion optima de mn f(x
k
+ts
k
), se tiene
que
d
dt
f(x
k
+ t
k
s
k
) = 0; es decir,
f(x
k+1
)
t
s
k
= 0, k. (23)
Para k = 1, I
1
se cumple de (23). Por otro lado, de la relacion s
0
=
0
t
0
1
,
H
1
Gs
0
= t
0
1
H
1
G
0
= t
0
1
H
1
y
0
= t
0
1

0
= s
0
.
Luego se cumple II
1
. Por ultimo s
1
)
t
Gs
0
= f(x
1
)
t
H
1
Gs
0
, que de II
1
, es
igual a f(x
1
)
t
s
0
que es cero de I
1
.
Hipotesis de induccion: supongamos ciertas I, II y III hasta k. Veamos
que tambien se cumplen para k + 1.
I
k+1
.
f(x
k+1
)
t
s
k
= 0,
38
se sigue directamente de (23).
Si 0 i k1, por el teorema de Taylor y ser f(x) una forma cuadratica,
f(x
k+1
)
t
s
i
=

f(x
k
) + G
k

t
s
i
(por Taylor)
= f(x
k
)
t
s
i
+ t
k
s
k
t
Gs
i
= 0 + t
k
s
k
t
Gs
i
(usando (23))
= 0 (de III
k
).
Luego se cumple I
k
para todo k
II
k+1
.
H
k+1
Gs
k
= s
k
,
se demuestra igual que II
1
.
Sea 0 i k 1,
H
k+1
Gs
i
= H
k
Gs
i
H
k
y
k
(y
k
t
H
k
y
k
)
1
y
k
t
H
k
Gs
i
+
k
(
k
t
y
k
)
1

k
t
Gs
i
.
Por induccion H
k
Gs
i
= s
i
. Ahora y
k
t
H
k
Gs
i
=y
k
t
s
i
=
k
t
Gs
i
=t
k
s
k
t
Gs
i
que es
0 por induccion. Luego, tambien
k
t
Gs
i
= 0, esta parte estara probada.
III
k+1
.
s
k+1
t
Gs
k
= 0,
se prueba igual que III
1
. Sea 0 i k 1,
s
k+1
t
Gs
i
= f(x
k+1
)
t
H
k+1
Gs
i
= f(x
k+1
)
t
s
i
(de II
k+1
)
= 0 (de I
k+1
).
Ahora, si para alg un 0 k n 1, f(x
k
) = 0, hemos encontrado el
mnimo global. En otro caso, son validas las propiedades previas, y s
k
= 0;
para k = 0, ..., n 1 ya que H
k
es denida positiva pues

k
t
y
k
= t
k
s
k
t
y
k
= t
k
s
k
t
g
k
(pues g
t
k+1
s
k
= 0, por ser t
k
un tama no de paso optimo)
= t
k
g
k
t
H
k
g
k
> 0.
De III y de este hecho se sigue que s
k

n1
k=0
son linealmente independientes.
Estos dos hechos junto con I implican que f(x
n
) = 0. c.q.d
39
Demostracion de la convergencia y tasa de convergencia del metodo de
DFP se han obtenido solo recientemente. En un brillante papel de Powell
(1971) se prueba el siguiente resultado.
Teorema 24 Si f (
(2
y Hf es denida positiva uniformemente; es decir,
x S
0
= x/f(x) f(x
0
) hay un > 0 tal que z
t
Hf(x)z |z|
2
,
z, entonces el metodo de DFP con tama no de paso optimo converge; i.e.,
lm
k
x
k
= x y f( x) = 0.
Teorema 25 En las mismas condiciones que el teorema previo, si ademas
Hf Lip(M) en S
0
, entonces el metodo DFP con tama no de paso optimo
converge O superlinealmente; es decir,
lmsup
k
|x
k+1
x|
|x
k
x|
= 0.
Nota 9 Sin usar el tama no de paso optimo se han probado algunos resultados
de convergencia local publicados recientemente (Denis y More, 1974b). En
ellos se prueba que si x
0
y H
0
estan sucientemente proximos.
a
x y Hf( x)
1
;
respectivamente, entonces el algoritmo converge con tama no de paso 1 y la
tasa de convergencia es O superlineal.
Ejemplo 5 Resolver por el metodo de DFP: mn x
2
+ 4y
2
.
No hay lmite para el n umero de formulas de actualizacion de metodos cuasi-
newton. Se han identicado familias enteras de formulas de actualizacion
con propiedades particulares: estan la familia Huang (1970), la familia Flet-
cher (Fletcher, 1970b), la familia Broyden (Broyden, 1967),...etc. Como regla
general, cuando se implementan con tama no de paso optimo, todas ellas tra-
bajan igual de bien. Incluso con reglas de tama no de paso complicadas que
nalmente llegan a ser 1 cuando la inversa de la hessiana en un mnimo lo-
cal aislado se identica, no hay evidencia computacional que pruebe que un
metodo es mejor que otro, con una excepcion: hay indicios que muestran
que la formula de actualizacion llamada metodo BFGS (Broyden, 1970; Flet-
cher, 1970b; Golfarb, 1970; Shanno, 1970) parece que trabaja mejor que otras
(Fletcher, 1980). La formula de actualizacion de BFGS es como sigue
H
k+1
=

I
k
(
k
t
y
k
)
1
y
k
t

H
k

I y
k
(
k
t
y
k
)
1

k
t

+
k
(
k
t
y
k
)
1

k
t
. (24)
Si el tama no de paso se elige adecuadamente, este metodo tiene la propiedad
de heredar la denitud positiva.
40
Teorema 26 Supongamos que el tama no de paso usado en BFGS es tal que
k,
k
t
y
k
> 0. Entonces, H
k
simetrica y denida positiva, implica que H
k+1
tambien lo es.
En virtud del resultado de Dixon, el algoritmo BFGS (con tama no de paso
optimo) tiene la propiedad de terminacion cuadratica.
5.5. Comportamiento identico de una clase de metodos
cuasi-newton
Han sido necesarias muchas horas de ordenador para evaluar los distintos
esquemas de actualizacion. Se llego a la conclusion de que las diferencias
observadas en muchos casos nos se deban a diferencias en los esquemas de
actualizacion sino que se deban a los procedimientos de tama no de paso
usados. Dixon demostro en dos artculos brillantes (1972,1973) que para una
clase grande de actualizaciones la sucesion de puntos generada era identica
usando los procedimientos de tama no de paso optimo I o II.
La familia de formulas de actualizacion a la que se aplico el resultado de
Dixon fue dada por Broyden (1967). Esta puede escribirse como
H
k+1
= H
k+1
D
+ v
k

1
k
v
k
t
;
donde
v
k
=
k
(
k
t
y
k
)
1
H
k
y
k
(y
k
t
H
k
y
k
)
1
,
H
k+1
D
es la del metodo DFP y
1
k
es un escalar.
Cuando
1
k
= 0, esta se reduce a la formula del metodo DFP. Cuando

1
k
= (y
k
t
H
k
y
k
)(
k
t
y
k
)(
k
t
y
k
y
k
t
H
k
y
k
)
1
se obtiene la formula del metodo de rango 1.
Si
1
k
= y
k
t
H
k
y
k
se obtiene la formula del metodo BFGS.
Luego las sucesiones obtenidas con estos tres metodos (rango 1, DFP y
BFGS) coinciden si usamos como tama no del paso el optimo I o II.
5.6. Tasa de convergencia en un solo paso
(Luenberger, 1973, pp.207-209)
La mayora de los resultados sobre tasa de convergencia obtenidos son
resultados asintoticos que suponen, o bien que la direccion del metodo de
41
Newton se ha aproximado por un metodo cuasi-newton o que el paso n (o n-
1) de un algoritmo de direcciones conjugadas se esta ejecutando. Es de interes
dar un resultado general sobre cotas superiores de la tasa de convergencia de
un metodo cuasi-newton cuando una H
k
metrica general se usa junto con un
procedimiento de tama no de paso optimo.
Se necesita el siguiente lema.
Lema 2 Sea G una matriz n n simetrica y denida positiva con valores
propios
1

2
...
n
. Entonces
mn
z
2
=1
(z
t
z)
2
(z
t
Gz)(z
t
G
1
z)
=
4

1
+
1

(
1
+
n
)
Dem.- Sea EE
t
= G una descomposicion vector-valor propio de G. Sea
z R
n
e y = E
t
z. El problema del teorema es equivalente a
mn
y=0
(y
t
y)
2
(y
t
y)(y
t

1
y)
.
Obviamente la solucion puede considerarse como no restringida en y, ya que
si y

es solucion, y

tambien = 0.
Las condiciones necesarias de primer orden para este problema son
4y(y
t
y)(y
t
y)(y
t

1
y)

2y(y
t

1
y) + 2
1
y(y
t
y)

(y
t
y)
2
= 0.
Como y
t
y = 1, entonces y
j
= 0 se tiene
2(y
t
y)(y
t

1
y)
j
1
(y
t
y)
j
(y
t

1
y) = 0.
Podemos concluir directamente que hay una solucion donde y
j
= 0, j,
excepto para dos valores de j (si los valores propios son distintos todas las
soluciones tienen esta propiedad) Sean k y l estos ndices. Supongamos y
l
=
y
k
. Entonces el problema de optimizacion es
mn
k,l,=0
(
2
+ 1)
2
(
k
+
2

l
)

k
+

2

= mn
k,l,=0
(
2
+ 1)
2

4
+ 1 +
2

l
+

l

k
.
42
Un razonamiento simple conduce a
2
= 1 y

l
+

l

k
=

1

n
+

n

1
.
Supongamos que la funcion minimizada es f(x) =
1
2
x
t
Cx+b
t
x; con C nn,
simetrica y denida positiva. Sea x

su solucion optima. Denotamos por g


a f(x
0
). Supongamos que la aproximaci on a C
1
en x
0
es denotada por
H y que H es una matriz denida positiva cuya raz cuadrada denotamos
por B (es decir, B
t
B = H) Sean
n
,
1
los valores propios menor y mayor
de la matriz denida positiva BCB
t
. Sea x
1
= x
0
Hgt
0
, donde t
0
resuelve
mn
t0
f(x
0
Hgt).
Teorema 27 Una cota de decrecimiento de la funcion es como sigue
f(x
1
) f(x

)
f(x
0
) f(x

1
1)

1
+ 1)

2
. (25)
Demo.- Se tiene que x

= x
0
C
1
g y
f(x
0
) f(x

) =
1
2
g
t
C
1
g. (26)
Como se ha usado un tama no de paso optimo
d
dt
f(x
0
Hgt
0
) = 0. Y, por
tanto
t
0
=
g
t
Hg
g
t
HCHg
. (27)
Ademas,
f(x
1
) = f(x
0
)
1
2
g
t
HCHgt
0
2
. (28)
De (26) y (28),
f(x
1
) f(x

) =
1
2
g
t
C
1
g
1
2
g
t
HCHgt
0
2
.
Usando (26) y (27), y dividiendo
f(x
1
) f(x

)
f(x
0
) f(x

)
= 1
(g
t
Hg)
2
g
t
C
1
g(g
t
HCHg)
= 1
|z|
2
(z
t
B
t
C
1
B
1
z)(z
t
BCB
t
z)
;
donde z = Bg.
Tomando G = BCB
t
, la conclusion se sigue del lema previo.
43

Anda mungkin juga menyukai