Anda di halaman 1dari 13

LA OPTIMIZACIÓN NUMÉRICA de funciones objetivo multivariables generales no lineales

requiere técnicas eficientes y robustas. La eficiencia es importante porque estos

los problemas requieren un procedimiento de solución iterativo, y se convierte en prueba y


error

poco práctico para más de tres o cuatro variables. Robustez (la capacidad de lograr

una solución) es deseable porque una función no lineal general es impredecible en su

comportamiento; Puede haber máximos o mínimos relativos, puntos de silla de montar,


regiones de convexidad,

concavidad, y así sucesivamente. En algunas regiones, el algoritmo de optimización puede

progresar muy lentamente hacia el óptimo, lo que requiere un tiempo de computadora


excesivo. Por suerte,

podemos recurrir a una amplia experiencia en la prueba de programación no lineal

algoritmos para funciones no restringidas para evaluar diversos enfoques propuestos

la optimización de tales funciones.

En este capítulo discutimos la solución de la optimización sin restricciones

problema:

Encontrar: eso minimiza

Los procedimientos iterativos más efectivos alternan entre dos fases en la optimización.

En la iteración k, donde la corriente es xk, hacen lo siguiente:

1. Elija una dirección de búsqueda sk

2. Minimice en esa dirección (generalmente inexactamente) para encontrar un nuevo punto

donde aki es un escalar positivo llamado tamaño de paso. El tamaño del paso está
determinado por un

proceso de optimización llamado búsqueda de línea como se describe en el Capítulo 5.

Además de 1 y 2, un algoritmo debe especificar

3. El vector de inicio inicial x0 = [x xs. . . norte; lt y

4. Los criterios de convergencia para la terminación.

Desde un punto de partida dado, se determina la dirección de búsqueda y se minimiza la


fijación)

en esa dirección La búsqueda se detiene en función de algunos criterios, y luego una nueva

la dirección de búsqueda está determinada, seguida de otra búsqueda de línea. La búsqueda


de línea puede

llevarse a cabo con varios grados de precisión. Por ejemplo, podríamos usar un simple
duplicación sucesiva del tamaño del paso como método de detección hasta que detectamos el
óptimo

Usted ha sido puesto entre corchetes. En este punto, la búsqueda de detección puede finalizar
y

un método más sofisticado empleado para producir un mayor grado de precisión. En cualquier

evento, refiérase a las técnicas discutidas en el Capítulo 5 para formas de llevar a cabo la línea

buscar.

Los métodos NLP (programación no lineal) que se discutirán en este capítulo difieren

principalmente en cómo generan las direcciones de búsqueda. Alguna programación no lineal

los métodos requieren información sobre los valores derivados, que otros no

use derivados y confíe únicamente en evaluaciones de funciones. Además, diferencia finita

los sustitutos se pueden usar en lugar de derivados como se explica en la Sección 8.10. por

funciones diferenciables, métodos que usan análisis

menos tiempo de cálculo y son más precisos, incluso si la diferencia finita es


aproximadaCAPITULO

6: Optimización multivariable sin restricciones 183

se utilizan Los códigos simbólicos se pueden usar para obtener derivados analíticos pero

esto puede requerir más tiempo de computación que la diferenciación finita para obtener
derivadas. por

funciones no relacionadas, un método de solo valores de función puede. ser más exitoso que

usando un método basado en derivados. Primero describimos algunos simples no derivativos

métodos y luego presentar una serie de métodos que utilizan información derivada. Nosotros

también muestran cómo la naturaleza de la función objetivo influye en la efectividad de

el algoritmo de optimización particular.

6.1 MÉTODOS UTILIZANDO VALORES DE FUNCIÓN SOLAMENTE

Algunos métodos no requieren el uso de derivados para determinar la dirección de búsqueda.

En algunas circunstancias, los métodos descritos en esta sección se pueden usar

efectivamente, pero pueden ser ineficientes en comparación con los métodos discutidos en

secciones Tienen la ventaja de ser simples de entender y ejecutar.

6.1.1 Búsqueda aleatoria

Un método de búsqueda aleatorio simplemente selecciona un vector inicial xO, evalúaflx) en


xO, y

luego selecciona aleatoriamente otro vector x1 y evalúa flx) en xl. En efecto, tanto un
la dirección de búsqueda y la longitud del paso se eligen simultáneamente. Después de uno o
más

etapas, el valor de flxk) se compara con el mejor valor anterior de flx) de

entre las etapas anteriores, y se toma la decisión de continuar o terminar el

procedimiento Las variaciones de esta forma de búsqueda aleatoria implican seleccionar


aleatoriamente un

dirección de búsqueda y luego minimizar (posiblemente por pasos aleatorios) en esa búsqueda

dirección como una serie de ciclos. Claramente, la solución óptima se puede obtener con un

probabilidad de 1 solo como k + oo pero como una cuestión práctica, si la función objetivo

es eliminar plano, una solución subóptima puede ser bastante aceptable. A pesar de

método es ineficiente en lo que respecta a las evaluaciones de funciones, puede proporcionar

un buen punto de partida para otro método. Puede ver la búsqueda aleatoria como

extensión del método de estudio de casos. Consulte a Dixon y James (1980) para algunos

algoritmos prácticos

6.1.2 Búsqueda de cuadrícula

Los métodos de diseño experimental discutidos en la mayoría de los libros de estadísticas


básicas pueden ser

aplicado igual de bien para minimizar flf) (ver Capítulo 2). Tienes una serie de

puntos sobre un poi de referencia

6.1.3 Búsqueda univariante

Otra técnica de optimización simple es seleccionar n direcciones de búsqueda fijas


(generalmente

los ejes de coordenadas) para una función objetiva de n variables. Thenflx) se minimiza

en cada dirección de búsqueda usando secuencialmente una búsqueda unidimensional. Esta

método es efectivo para una función cuadrática de la forma

porque las direcciones de búsqueda se alinean con los ejes principales como se indica en la
Figura

6.2a. Sin embargo, no funciona satisfactoriamente para un objetivo cuadrático más general

funciones de la forma

como se ilustra en la Figura 6.2b. Para el último caso, los cambios en x disminuyen a medida

se acerca el óptimo, por lo que se necesitarán muchas iteraciones para lograr una alta
precisión.
6.1.4 Método de búsqueda Simplex

El método de "Simplex secuencial" formulado por Spendley, Hext y

Himsworth (1962) selecciona puntos en los vértices del símplex en el que evaluar

f (x). En dos dimensiones, la figura es un triángulo equilátero. Examine la figura 6.3. En

tres dimensiones, esta figura se convierte en un tetraedro regular, y así sucesivamente. Cada
búsqueda

puntos de dirección lejos del vértice que tiene el mayor valor offlx) a la otra

vértices en el símplex. Por lo tanto, la dirección de búsqueda cambia, pero el tamaño del paso
es

arreglado para un tamaño dado simplex. Usemos una función de dos variables para ilustrar el

procedimiento.

En cada iteración, para minimizar f (x), f (x) se evalúa en cada uno de los tres vértices de

el triangulo. La dirección de búsqueda está orientada fuera del punto con la más alta

valor para la función a través del centroide del símplex. Al hacer la búsqueda

dirección biseque la línea entre los otros dos puntos del triángulo, la dirección

pasa por el centroide Se selecciona un nuevo punto en esta dirección reflejada (como

se muestra en la Figura 6.3), preservando la forma geométrica. La función objetivo es entonces

evaluado en el nuevo punto, y se determina una nueva dirección de búsqueda. El método

continúa, rechazando un vértice a la vez hasta que el símplex se extiende a lo óptimo. Varios

las reglas se usan para evitar la repetición excesiva del mismo ciclo o símiles.

A medida que se aborda el óptimo, el último triángulo equilátero se extiende a lo óptimo

apunte o esté a una distancia del orden de su tamaño del óptimo (examine

Figura 6.4). El procedimiento no puede acercarse al óptimo y se repite

de modo que el tamaño de símplex debe reducirse, como reducir a la mitad la longitud de
todos los

lados del símplex que contiene el vértice donde comenzó la oscilación. Un nuevo símplex

compuesto por los puntos medios del final simplex está construido. Cuando el simplex

el tamaño es menor que una tolerancia prescrita, la rutina se detiene. Por lo tanto, el óptimo

la posición se determina dentro de una tolerancia influenciada por el tamaño del símplex.

Nelder y Mead (1965) describieron una versión más eficiente (pero más compleja)

del método simplex que permitió a las figuras geométricas expandirse y contraerse

continuamente durante la búsqueda. Su método minimizó una función de n variables


usando (n + 1) vértices de un poliedro flexible. Detalles del método junto con

un código de computadora para ejecutar el algoritmo se puede encontrar en Avriel (1976).

6.1.5 Direcciones de búsqueda de conjugado

La experiencia ha demostrado que las instrucciones conjugadas son mucho más efectivas en la
búsqueda

direcciones que las direcciones de búsqueda elegidas arbitrariamente, como en la búsqueda


univariada, o

incluso direcciones de búsqueda ortogonales. Se dice que dos direcciones si y sj son


conjugadas

con respecto a una matriz positiva definida Q si

En general, un conjunto de n direcciones de búsqueda linealmente independientes, entonces,


s1. . . , Sn-1 son

se dice que es conjugado con respecto a una matriz cuadrada positiva definida Q si

En optimización, la matriz Q es la matriz de Hesse de la función objetivo, H.

Para una definición cuadrática f (x) de n variables, en las que H es una matriz constante, usted
es

garantizado para alcanzar el mínimo de f (x) en n etapas si minimiza exactamente en cada

etapa (Dennis y Schnabel, 1996). En n dimensiones, muchos conjuntos diferentes de conjugado

existen direcciones para una matriz Q dada. Sin embargo, en dos dimensiones, si elige

una dirección inicial s1 y Q, s2 está completamente especificada como se ilustra en el ejemplo


6.1.

188 PARTE 11: Teoría y métodos de optimización

La ortogonalidad es un caso especial de conjugación porque cuando Q = I, (~ j) ~ = s 0j

en la ecuación (6.2). Si las coordenadas de x se traducen y rotan por medio de

transformaciones para alinear los nuevos ejes principales de H (x) con los vectores propios

de H (x) y para colocar el centro del sistema de coordenadas en el punto estacionario de

f (x) (consulte las Figuras 4.12 a 4.13, luego la conjugación puede interpretarse como

ortogonalidad en el espacio de las coordenadas transformadas.

Aunque los autores y los profesionales se refieren a una clase de optimización sin restricciones

métodos como "métodos que utilizan direcciones conjugadas", para un general no lineal

función, las direcciones conjugadas existen solo para una aproximación cuadrática de

función en una sola etapa k. Una vez que la función objetivo es modelada por un nuevo

aproximación en la etapa (k + I), es poco probable que las instrucciones en la etapa k sean
conjugadas
a cualquiera de las direcciones seleccionadas en la etapa (k + 1).

EJEMPLO 6.1 CÁLCULO DE LAS INSTRUCCIONES DEL CONJUGADO

Supongamos que queremos minimizar flx) = + 4 - 3 comenzando en (xO) ~ = [l 11 con el

la dirección inicial es tan = [-4 -2IT. Encuentre una dirección conjugada a la dirección inicial

asi que.

Solución

Necesitamos resolver la ecuación (6.2) para st = [s ', s: lT con Q = H y así = [-4 -2IT.

Porque si no es único, podemos elegir si = 1 y determinar si

Por lo tanto s1 = [l -4IT es una dirección conjugada a tan = [-4 -2IT.

Podemos alcanzar el mínimo de solución) en dos etapas usando primero so y luego sl. Poder

usamos las direcciones de búsqueda en orden inverso? Desde x0 = [l 1IT podemos llevar a cabo
un

búsqueda numérica en la dirección so = [-4 -2IT para llegar al punto xl. Cuadrático

la interpolación puede obtener la longitud de paso óptima exacta porque f es cuadrática,


produciendo

a = 0.27778. Entonces

c H APT E R 6: Optimización multivariable sin restricciones 189

Para la siguiente etapa, la dirección de búsqueda es s1 = [_1 -4IT, y la longitud de paso óptima

calculado por interpolación cuadrática es a '= 0.1 11 1. Por lo tanto

como se esperaba

6.1.6 Resumen

Como se mencionó anteriormente, las funciones objetivas no lineales a veces son


intrascendentes debido a

la presencia de funciones como las declaraciones abs, min, max o if-then-else, que pueden

causa derivadas, o la función en sí misma, ser discontinua en algunos puntos. Sin restricciones

Los métodos de optimización que no usan derivados a menudo son capaces de resolver
problemas

Problemas de PNL, mientras que los métodos que usan derivados pueden fallar. Métodos

emplear derivados puede "atascarse" en un punto de discontinuidad, pero -el valor de función-

solo los métodos son menos afectados. Para funciones suaves, sin embargo, métodos que

los derivados de uso son más precisos y rápidos, y su ventaja crece a medida

número de variables de decisión aumenta. Por lo tanto, ahora volvemos nuestra atención a sin
restricciones
métodos de optimización que usan solo primeras derivadas parciales del objetivo

función.

6.2 MÉTODOS QUE UTILIZAN PRIMEROS DERIVADOS

Una buena dirección de búsqueda debería reducir (para minimizar) la función objetivo de
modo

que si x0 es el punto original y x1 es el nuevo punto

Dicha dirección s se denomina dirección de descenso y cumple el siguiente requisito

en cualquier punto

Para ver por qué, examine los dos vectores Vf (xk) y sk en la figura 6.5. El ángulo

betweer) ellos son 8, por lo tanto

Si 8 = 90 'como en la Figura 6.5, entonces los pasos a lo largo de sk no reducen (mejoran) el


valor de

f (x). Si 0 5 8 <90 °, no es posible ninguna mejora y f (x) aumenta. Solo si 8> 90 "

¿la dirección de búsqueda produce valores más pequeños de f (x), por lo tanto VTf (xk) sk <0.

Primero examinamos el método clásico de descenso más inclinado para usar el gradiente y

luego examine un método de gradiente conjugado.

1 90 PARTE 11: teoría y métodos de optimización

6.2.1 Descenso más empinado

El gradiente es el vector en un punto x que da la dirección (local) de la mayor

tasa de aumento en f (x). Es ortogonal al contorno apagado (x) en x. Para la rnaximización,

la dirección de búsqueda es simplemente el gradiente (cuando se usa el algoritmo se llama

"ascenso más pronunciado"); para la minimización, la dirección de búsqueda es el negativo del


gradiente

("descenso más pronunciado")

En el descenso más pronunciado en la etapa k, la transición del punto actual xk al

El nuevo punto x "'viene dado por la siguiente expresión:

donde Ax '= vector de xk a xk +

sk = dirección de búsqueda, la dirección de descenso más inclinado

a '= escalar que determina la longitud del paso en la dirección sk

El negativo del gradiente da la dirección para la minimización, pero no la magnitud


del paso a tomar, de modo que sean posibles varios procedimientos de descenso más
pronunciados, dependiendo de la elección de ak. Suponemos que el valor offlx) es continuo

reducido. Porque un paso en la dirección del descenso más empinado no será, en general,

llegar al mínimo offlx), la ecuación (6.4) debe aplicarse repetidamente hasta que.

el mínimo es alcanzado. Como mínimo, el valor de los elementos del degradado

el vector será cada uno igual a cero.

El tamaño del paso ak se determina mediante una búsqueda en línea, usando métodos como
los

descrito en el Capítulo 5. Aunque las búsquedas de línea son inexactas (no continúan hasta la

mínimo) siempre se usan en la práctica, se obtiene una idea al examinar el comportamiento

de descenso más pronunciado cuando se utiliza una búsqueda de línea exacta.

Primero, consideremos la función objetivo cuadrática perfectamente escalada

f (x) = x: + x :, cuyos contornos son círculos concéntricos como se muestra en la Figura 6.6.

Supongamos que calculamos el gradiente en el punto xT = [2 21

La dirección del descenso más empinado es

FIGURA 6.6

Observe que s es un vector que apunta hacia el óptimo en (0, 0). De hecho, el gradiente

en cualquier punto pasa por el origen (el óptimo).

Por otro lado, para funciones que no están tan bien escaladas y que tienen un valor no nulo
fuera de diagonal

términos en la matriz de Hesse (que corresponden a términos de interacción como

xlx2), entonces es poco probable que la dirección del gradiente negativo pase directamente a
través del

óptimo. La Figura 6.7 ilustra los contornos de una función cuadrática de dos variables

eso incluye un término de interacción. Observe que los contornos están inclinados con
respecto a

ejes. Los términos de interacción más escalas deficientes corresponden a valles estrechos, o
crestas,

causa que el método de gradiente muestre convergencia lenta.

Si se elige ak para minimizar f (xk + preguntar) exactamente entonces como mínimo,

Ilustramos esto en la Figura 6.8 usando la notación

gk (a) = f (t + preguntar)

donde gk es el valor de la función a lo largo de la dirección de búsqueda para un valor dado de


a.
Como xk y sk están fijados en valores conocidos, gk depende únicamente del tamaño del paso
a.

Si sk es una dirección de descenso, siempre podemos encontrar un positivo a que causa f a

disminución.

FIGURA 6.8

Búsqueda de línea exacta a lo largo de la dirección de búsqueda sk.

Usando la regla de la cadena

En una búsqueda de línea exacta, elegimos ak como la a que minimiza gk (a), ASÍ

como se muestra en la Figura 6.8. Pero cuando el producto interno de dos vectores es cero, los
vectores

son ortogonales, por lo que si se utiliza una búsqueda de línea exacta, el gradiente en el nuevo
punto

xk + 'es ortogonal a la dirección de búsqueda sk. En el descenso más pronunciado sk = -V f (xk),


entonces

los gradientes en los puntos xk y xk + 'son ortogonales. Esto se ilustra en la Figura 6.7,

que muestra que la ortogonalidad de las direcciones de búsqueda sucesivas conduce a una
muy

comportamiento ineficaz en zigzag. Aunque se toman grandes pasos en las primeras


iteraciones,

los tamaños de paso se reducen rápidamente y convergen a una solución precisa de la


optimización

problema toma muchas iteraciones.

El algoritmo de descenso más pronunciado se puede resumir en los siguientes pasos:

1. Elija un punto inicial o de inicio xO. A partir de entonces en el punto xk:

2. Calcule (analítica o numéricamente) las derivadas parciales

194 PARTE 11: Teoría y métodos de optimización

3. Calcule el vector de búsqueda

4. Usa la relación

Xk + l = x k + aksk

para obtener el valor de xk + l. Para obtener una minimización de gk (a) numéricamente, como
se describe en

Capítulo 5.

5. Compare f (xk + l) con f (xk): si el cambio en f (x) es menor que cierta tolerancia,
detener. De lo contrario, regrese al paso 2 y configure k = k + 1. También se puede especificar
la terminación.

al estipular cierta tolerancia en la norma de Vf (xk).

El descenso más pronunciado puede terminar en cualquier tipo de punto estacionario, es


decir, en cualquier

punto donde los elementos del gradiente de f (x) son cero. Por lo tanto, debe determinar

si el mínimo presunto es de hecho un mínimo local (es decir, una solución) o una silla de
montar

punto. Si es un punto de silla de montar, es necesario emplear un método sin gradiente para
moverse

lejos del punto, después del cual la minimización puede continuar como antes. El estacionario

punto se puede probar mediante el examen de la matriz de Hesse de la función objetivo

como se describe en el Capítulo 4. Si la matriz de Hesse no es positiva-definida, la estacionaria

punto es un punto de silla. Perturbación desde el punto estacionario seguido por

la optimización debe conducir a un mínimo local x *.

La dificultad básica con el método de descenso más empinado es que es demasiado sensible

al escalado (x), por lo que la convergencia es muy lenta y lo que equivale a oscilación

en el espacio x puede ocurrir fácilmente. Por estas razones, el descenso o el ascenso más
empinado

no es una técnica de optimización muy efectiva. Afortunadamente, gradiente conjugado

los métodos son mucho más rápidos y más precisos.

6.2.2 Métodos de degradado de conjugado

El primer método de gradiente conjugado fue ideado por Fletcher y Reeves (1964).

Si f (x) es cuadrático y se minimiza exactamente en cada dirección de búsqueda, tiene el

características deseables de convergencia en la mayoría de iteraciones porque sus direcciones


de búsqueda

son conjugados El método representa una mejora importante sobre el descenso más
empinado

con solo un incremento marginal en el esfuerzo computacional. Combina información actual

sobre el vector de gradiente con el de vectores de gradiente de iteraciones previas

(una función de memoria) para obtener la nueva dirección de búsqueda. Usted calcula el

dirección de búsqueda por una combinación lineal del gradiente actual y el anterior

dirección de búsqueda. La principal ventaja de este método es que requiere solo un pequeño

cantidad de información que se almacenará en cada etapa de cálculo y, por lo tanto, puede
aplicado a problemas muy grandes. Los pasos se enumeran aquí.

Paso 1. En x0 calcule f (xO). Dejar

Paso 2. Guardar Vf (xO) y calcular

minimizando f (x) con respecto aa en esa dirección (es decir, llevar a cabo unidimensional

buscar aO).

Paso 3. Calcule f (xl), Vf (xl). La nueva dirección de búsqueda es una combinación lineal

de so y Vf (xl): -,

Para la k-ésima iteración, la relación es

Para una función cuadrática se puede demostrar que estas direcciones de búsqueda sucesivas
son

conjugado. Después de n iteraciones (k = n), la función cuadrática se minimiza. Para

función no cuadrática, el procedimiento vuelve a ciclar con xn + 'convirtiéndose en xO.

Paso 4. Prueba de convergencia al mínimo de f (x). Si la convergencia no es

alcanzado, regrese al paso 3. '

Paso n. Termine el algoritmo cuando 11 Vf (xk) 11 es menor que algunos prekínder

tolerancia escrita.

Tenga en cuenta que si la relación de los productos internos de los gradientes de la etapa k + 1
relativa

para la etapa k es muy pequeña, el método de gradiente conjugado se comporta de forma muy
similar a

el método de descenso más empinado. Una dificultad es la dependencia lineal de las


direcciones de búsqueda,

que se puede resolver reiniciando periódicamente el gradiente conjugado

método con una búsqueda de descenso impregnado (paso 1). La prueba de que la ecuación
(6.6) rinde

las direcciones conjugadas y la convergencia cuadrática fueron dadas por Fletcher y Reeves

(1964)

Al hacer la búsqueda de línea, podemos minimizar una aproximación cuadrática en un


determinado

dirección de búsqueda. Esto significa que para calcular el valor de (I! Para la relación xk- '=

xk + preguntar debemos minimizar

f (x) = f (x k + preguntar) = f (xk) + VTf (xk) a sk + f (~ s ~ () xk ~) (Hosk) (6.7)

donde Axk = preguntar. PARA obtener el mínimo de f (xk + preguntar), diferenciamos la


ecuación
(6.3) con respecto a ay equiparar la derivada a cero

con el resultado

Para detalles adicionales sobre la aplicación de métodos de gradiente conjugado,

especialmente a problemas a gran escala y escasos, refiérase a Fletcher (1980), Gill et al.

Alabama. (1981), Dembo et al. (1982) y Nash y Sofer (1996).

6.3 MÉTODO DE NEWTON

Desde un punto de vista, la dirección de búsqueda del descenso más inclinado puede
interpretarse como

siendo ortogonal a una aproximación lineal (tangente a) de la función objetivo en

punto xk; examine la Figura 6.9a. Ahora supongamos que hacemos una aproximación
cuadrática

offlx) en xk

f (x) - f (xk) + VTf (xk) A xk + f (A J?) ~ H (xk) (6.10)

donde H (xk) es la matriz Hessiana de 'f (x) definida en el Capítulo 4 (la matriz de segundo

derivadas parciales con respecto a x evaluadas en xk). Entonces es posible tomar

en cuenta la curvatura de JTx) en xk para determinar una dirección de búsqueda como se


describe

mas tarde.

El método de Newton hace uso de la aproximación de segundo orden (cuadrática) de

Axe) en xk y, por lo tanto, emplea información de segundo orden sobre flx), es decir,
información

obtenido de las segundas derivadas parciales de flx) con respecto a la independiente

variables. Por lo tanto, es posible tener en cuenta la curvatura offlx) en

x e identificar mejores direcciones de búsqueda que las que se pueden obtener a través del
gradiente

método. Examine la Figura 6.9b.

El mínimo de la aproximación cuadrática de flx) en la ecuación (6.10) es

obtenido al diferenciar (6.10) con respecto a cada uno de los componentes de Axe y

equiparar las expresiones resultantes a cero para dar

v ~ (x) = v f (#) + H (xk) A xk = 0 (6.11)

donde [H (xk) 1-l es el inverso de la matriz Hessiana H (xk). Ecuación (6.12)

reduce a la ecuación (5.5) para una búsqueda unidimensional.


Tenga en cuenta que tanto la dirección como la longitud del paso se especifican como
resultado de la Ecuación

(6. l l). Si JTx) es realmente cuadrático, solo se requiere un paso para alcanzar el mínimo

offlx). Para una función objetivo no lineal general, sin embargo, el mínimo de

JTx) no se puede alcanzar en un solo paso, por lo que la ecuación (6.12) se puede modificar
para cumplir

a la Ecuación (6.7) introduciendo el parámetro para la longitud del paso en (6.12).

Observe que ahora se da la dirección de búsqueda s (para minimización) por

y que la longitud del paso es ak. La longitud del paso ak se puede evaluar numéricamente
como

descrito en el Capítulo 5. La ecuación (6.13) se aplica iterativamente hasta cierta terminación

los criterios están satisfechos Para la versión "pura" del método de Newton, a = 1 en cada

paso. Sin embargo, esta versión a menudo no converge si el punto inicial no está cerca

suficiente para un mínimo local.

CAPÍTULO 6: Optimización multivariable no restringida 199

También tenga en cuenta que para evaluar Ax en la ecuación (6.12), una inversión de matriz no
es necesariamente

necesario. Puedes tomar su precursor, Ecuación (6.1 I), y resolver los siguientes

conjunto de ecuaciones lineales para Axk

un procedimiento que a menudo conduce a un error de redondeo menor que el cálculo de s a


través de la inversión

de una matriz