Anda di halaman 1dari 10

Introduccion a la Investigacion en Matematicas

UNA BREVE INTRODUCCI

ON A LA TEOR

IA
DE CONTROL

OPTIMO
EDUARDO MART

INEZ
Resumen. El objetivo de estas notas es proporcionar un introduccion a la
teora de control optimo para sistemas descritos por ecuaciones diferenciales
ordinarias. En particular, se mostrar a el uso del Principio del Maximo de
Pontryagin.
1. Sistemas de control
Consideremos los ejemplos de un Segway (pendulo invertido) y el problema de
reorientacion de un satelite mediante propulsores.
2.5. CHOOSING LQR WEIGHTS 13
(a) Harrier jump jet
y

F1
F2
r
x
(b) Simplied model
Figure 2.3: Vectored thrust aircraft. The Harrier AV-8B military aircraft (a)
redirects its engine thrust downward so that it can hover above the ground.
Some air from the engine is diverted to the wing tips to be used for maneuvering.
As shown in (b), the net thrust on the aircraft can be decomposed into a horizontal
force F1 and a vertical force F2 acting at a distance r from the center of mass.
It is also possible to choose the weights such that only a given subset of
variable are considered in the cost function. Let z = Hx be the output you
want to keep small and verify that (A, H) is observable. Then we can use a
cost function of the form
Q
x
= H
T
H Q
u
= I.
The constant allows us to trade o z
2
versus u
2
.
We illustrate the various choices through an example application.
Example 2.5 Thrust vectored aircraft
Consider the thrust vectored aircraft example introduced in

AM08, Exam-
ple 2.9. The system is shown in Figure 2.3, reproduced from

AM08. The
linear quadratic regulator problem was illustrated in Example 6.8, where
the weights were chosen as Q
x
= I and Q
u
= I. Figure 2.4 reproduces the
step response for this case.x
A more physically motivated weighted can be computing by specifying
the comparable errors in each of the states and adjusting the weights ac-
cordingly. Suppose, for example that we consider a 1 cm error in x, a 10 cm
error in y and a 5

to penalize the forces in the sidewards direction since these results in a loss
in eciency. This can be accounted for in the LQR weights be choosing
Qx =
2
6
6
6
6
6
6
4
100
1
2/9
0
0
0
3
7
7
7
7
7
7
5
, Qu = 0.1

1 0
0 10

.
Hay muchsimos mas en biologa, ecologa, etcetera.
En los dos ejemplos anteriores tenemos un sistema fsico descrito por una se-
rie de variables x que satisfacen una ecuacion diferencial, la cual depende ademas
de ciertas variables u que estan a nuestra disposicion y podemos cambiarlas a lo
largo de la evolucion del sistema. Las variables x describen el estado del sistema
y consecuentemente se denominan variables de estado, mientras que las varia-
bles u representan la accion que se ejerce sobre el sistema para poder controlar
su comportamiento, y se denominan variables de control, inputs. En general
supondremos que las variables de estado toman valores en un cierto abierto de
R
n
, aunque no es difcil imaginar situaciones en las que dichas variables describen
una variedad diferenciable. Igualmente las variables de control toman valores en un
cierto subconjunto U R
m
que puede o no ser un abierto.
Definici on 1: Un sistema de control es un sistema descrito por unas ecuaciones
diferenciales de la forma x = f(x, u) con f : O U R
n
R
m
R
m
.
En problemas concretos es necesario ademas especicar la clase de controles que
Date: Febrero 2008.
2000 Mathematics Subject Classication. 49S05, 49K15, 70H25, 49J15.
Key words and phrases. Sistemas de Control, Calculo variacional, Control

Optimo.
http://andres.unizar.es/
~
emf.
1
2 EDUARDO MART

INEZ
son algunas de las clases que se usan con frecuencia. En nuestro caso, optaremos
por los siguientes.
Definici on 2: Un control es una funcion : [0, T] U acotada y medible. Una
trayectoria de un sistema de control, correspondiente a un control u = (t)
denido en el intervalo [0, T], es una curva : [0, T] O absolutamente continua y
que satisface (t) = f((t), (t)) para casi todo t [0, T].
L: O U R, un punto inicial x
0
O, un tiempo nal T > 0 y un punto -
nal x
1
O. El problema de control optimo planteado con estos datos consiste en
encontrar, de entre todas las trayectorias del sistema (i.e. que satisfacen la ecuacion
diferencial) y que empiezan en t = 0 en x
0
y terminan en t = T en x
1
, aquellas que
minimicen el valor de

T
0
L(x(t), u(t))dt. En smbolos, escribimos un problema de
control optimo en la forma
minimizar

T
0
L(x(t), u(t))dt
sujeto a x = f(x, u)
x(0) = x
0
x(T) = x
1
.
La forma del problema anterior se llama forma de Lagrange del problema de control
optimo. Existen multitud de formas y problemas interesantes similares al anterior.
Por ejemplo:
Tiempo nal no jado: en el problema anterior se supuso que el tiempo nal
esta jado de antemano. Podemos tambien considerar que dicho tiempo es
libre y minimizamos entre todas las trayectorias que llegan al punto x
1
en
alg un instante nal T. La integral se hace entre 0 y dicho tiempo nal T,
que depende de la curva sobre la que se integra.
Punto nal no determinado: en muchas ocasiones, el punto nal x
1
no es
conocido, sino que se da un subconjunto F de puntos al cual debe pertenecer
el punto nal x(T) F.
Punto inicial no determinado: igualmente, puede especicarse un conjunto
I al cual debe pertenecer el punto inicial, x(0) I.
Coste nal: en ocasiones se penaliza la posicion nal por medio de un coste
nal, a nadiendo a la integral un termino de la forma (x(T)), siendo una
cierta funcion real denida en O.
En lo que sigue en estas notas, supondremos la siguiente condicion de regularidad:
[H] El conjunto O R
n
es un abierto y el conjunto U R
m
es un conjunto
medible. Las funciones f y L tienen derivadas parciales continuas,
aunque hay que destacar que muchos de los resultados que mencionaremos pueden
ser probados bajo condiciones mas generales.
2. El principio del m aximo de Pontryagin
El principio del maximo de Pontryagin establece un conjunto de condiciones
necesarias para que una curva sea la solucion de nuestro problema de control optimo.
El citado principio se expresa de forma sencilla en terminos de la siguiente fun-
ci on, que se conoce como Hamiltoniano de Pontryagin
H(x, p, , u) =
n

i=1
p
i
f
i
(x, u) L(x, u),
donde es una constante.
CONTROL

OPTIMO 3
Teorema 1 (Principio del maximo de Pontryagin): Consideremos un sistema
de control optimo satisfaciendo la hipotesis [H], y sean u = (t) un control y
x = (t) la correspondiente trayectoria del sistema de control. Si ((t), (t)) es
optimal, entonces existen una constante 0, una funcion absolutamente continua
: [0, T] R
n
tales que (, (t)) ,= (0, 0) para todo t [0, T], tales que
1. La curva p = (t) satisface

i
=
H
x
i
((t), (t), , (t)),
para casi todo t [0, T].
2. El control u = (t) maximiza el Hamiltoniano, es decir,
max
uU
H((t), (t), , u) = H((t), (t), , (t)),
para casi todo t [0, T].
3. El Hamiltoniano es constante a lo largo de dicha solucion
H((t), (t), , (t)) = constante.
Nota 1: Las ecuaciones diferenciales que satisfacen las curvas x = (t) y p = (t)
pueden ambas expresarse en terminos del Hamiltoniano
x
i
=
H
p
i
y p
i
=
H
x
i
o mas explcitamente
x
i
(t) =
H
p
i
(x(t), (t), , u(t))
p
i
(t) =
H
p
i
(x(t), (t), , u(t))

Nota 2: La pareja (p, ) esta denida salvo un factor multiplicativo constante. En

efecto, si ((t), (t), , (t)) es una solucion optima junto con sus correspondientes
multiplicadores, entonces tambien lo es ((t), (t), , (t)), cualquiera que sea
la constante ,= 0. Por tanto, podemos limitarnos a considerar los casos = 0 y
= 1. Los extremales ((t), (t)) a los que corresponden soluciones con = 1 se
llaman extremales normales, mientras que los que corresponden a soluciones con
= 0 se denominan extremales anormales. Notese que pueden existir extremales
que sean a la vez normales y anormales.
Nota 3: Si el conjunto U es un abierto, entonces la condicion de maximizacion
implica que
H
u
= 0, es decir,
0 =
H
u
A
((t), (t), , (t)) = 0,
para casi todo t [0, T].
Las ecuaciones
q =
H
p
p =
H
q
and 0 =
H
u
,
se denominan ecuaciones crticas, y a sus soluciones curvas crticas. Evidente-
mente (si U es abierto) las trayectorias optimales corresponden a curvas crticas.

Casos especiales y generalizaciones.

4 EDUARDO MART

INEZ
Tiempo nal libre. Si el tiempo nal T es libre (i.e. no lo jamos de antemano),
entonces el valor constante del Hamiltoniano a lo largo de cada solucion optimal
debe ser nulo
H((t), (t), , (t)) = 0 para todo t [0, T].
Ligadura nal. Si en vez de jar el punto nal, se da una ligadura que debe satisfacer
dicho punto, x(T) F, con F una subvariedad de R
n
, entonces el valor nal de p
debe satisfacer la condicion de transversalidad
p(T) , v ) = 0,
para todo vector v tangente a F en x(T).
Ligadura inicial. Si en vez de jar el punto inicial, se da una ligadura que debe
satisfacer dicho punto, x(0) I, con I una subvariedad de R
n
, entonces el valor
inicial de p debe satisfacer la condicion
p(0) , v ) = 0,
para todo vector v tangente a I en x(T).
En los casos anteriores de ligaduras en el punto inicial y/o nal, las variedades I
o F suelen venir dadas como el conjunto de ceros de una cierta funcion. Por ejemplo,
F =
1
(0) = x R
n
[ (x) = 0 .
En este caso, notese que el espacio tangente a F en un punto x es simplemente
T
x
F = Ker D(x).
Lo mismo sirve cuando I es el conjunto de nivel cero de una funcion.
Coste terminal. En el llamado problema o forma de Bolza, se a nade al funcional de
coste una penalizacion terminal (x(T)), es decir, el objetivo a minimizar es
J =

T
0
L(x(t), u(t) dt +(x(T)),
dejando libre ademas el punto nal. En este caso ademas de las condiciones expre-
sada en el principio del maximo, se tiene que el valor nal de p queda jado por la
condicion
p(T) = ((T)).
Coste terminal y ligadura nal. Con mas generalidad, si se considera un problema
de Bolza como el anterior pero se restringe el valor nal por una condicion de la
forma x(T) F, con F una subvariedad de R
n
, entonces el valor nal de p debe
p(T) , v ) = ((T)) , v ),
para todo vector v tangente a F en x(T).
3. Ejemplos
Veamos a continuacion algunos ejemplos sencillos de aplicacion del principio del
maximo de Pontryagin.
CONTROL

OPTIMO 5
Sistema de Heisemberg. Consideremos el problema consistente en minimizar el
funcional
1
2

T
0
( x
2
+ y
2
) dt,
entre todas las curvas (x(t), y(t), z(t)) que unen los puntos (0, 0, 0) con (0, 0, a) (con
a > 0 dado), y satisfacen la ligadura z = y x x y.
El problema puede ser resuelto utilizando tecnicas de calculo variacional con
ligaduras, pero nosotros lo transformaremos en un problema de control optimo, para
ilustrar la tecnica general. Para ello, consideramos como controles las funciones x
e y, es decir, escribimos el problema en la forma
minimizar
1
2

T
0
(u
2
1
+u
2
2
) dt
sujeto a x = u
1
y = u
2
z = yu
1
xu
2
(x(0), y(0), z(0)) = (0, 0, 0)
(x(T), y(T), z(T)) = (0, 0, a)
donde a R
+
.
El Hamiltoniano es
H = p
1
u
1
+p
2
u
2
+p
3
(yu
1
xu
2
)
1
2
(u
2
1
+u
2
2
)
Como no hay restricciones para los controles, el conjunto U es abierto, por lo que
debemos anular las derivadas parciales con respecto a los controles
H
u
1
= p
1
+p
3
y u
1
= 0
H
u
2
= p
2
p
3
x u
2
= 0,
x = u
1
p
1
= p
3
u
2
y = u
2
p
2
= p
3
u
1
z = yu
1
xu
2
p
3
= 0
Consideremos primero = 1. En vez de despejar y sustituir los valores de u,
podemos proceder como sigue. Derivando la ecuacion para u
1
, obtenemos
u
1
= p
1
+p
3
y = 2p
3
u
2
,
e igualmente para u
2
,
u
2
= p
2
p
3
x = 2p
3
u
1
.
Consideremos primero el caso p
3
= 0. En este caso, las ecuaciones anteriores
implican que u
1
= p
1
y u
2
= p
2
son constantes, de donde x e y son lineales. Pero
si deben valer 0 en t = y en t = T, obtenemos que deben ser constantes e iguales
a cero. En este caso, z = 0, por lo que no hay ninguna solucion con z(0) = 0 y
z(T) = a > 0.
En el caso p
3
,= 0, la forma de las ecuaciones anteriores, sugiere usar las funciones
auxiliares complejas
u = u
1
+iu
2
y x = x +iy,
de forma que x = u y u = 2ip
3
u, e inmediatamente obtenemos
u(t) = u
0
e
2ip
3
t
y x(t) = i
u
0
2p
3
(e
2ip
3
t
1),
donde se ha tenido en cuenta que x(0) = 0, y se ha supuesto p
3
,= 0 (el caso p
3
= 0
se estudiara posteriormente). Ademas debe cumplirse tambien que x(T) = 0, por
6 EDUARDO MART

INEZ
lo que 2p
3
T = 2n con n Z 0, es decir
p
3
=
n
T
,
por lo que nalmente obtenemos
x(t) = i
Tu
0
2n
(e
2int/T
1).
Para obtener z notemos que z = Im( ux), de donde
z(t) = T
[u
0
[
2
2n
'(1 e
2int/T
),
y teniendo en cuenta que z(0) = 0 llegamos a
z(t) = T
[u
0
[
2
2n
'

t +
iT
2n
(e
2int/T
1)

.
En t = T, se tiene
a = z(T) = T
2
[u
0
[
2
2n
,
de donde obtenemos que n 0 y que [u
0
[ =

2na/T, por lo que podemos poner

u
0
=

2na
T
e
i
para alg un R.
Para determinar el mnimo, integramos
1
2

T
0
(u
2
1
+u
2
2
) dt =
1
2

T
0
[u[
2
dt =
1
2

T
0
[u
0
[
2
dt = T[u
0
[
2
=
2n
T
a
que es mnimo para n = 1 (recordar n Z 0 y n 0).
Finalmente, veamos que no existen soluciones anormales. Si tomamos = 0,
entonces el Hamiltoniano no esta acotado salvo que p
1
= p
3
y y p
2
= p
3
x. En
este caso, sustituyendo en la ecuacion diferencial de p
1
y p
2
obtenemos p
3
u
1
= 0
y p
3
u
2
=0., de donde p
1
y p
2
3
, son constantes. En t = 0 como y = 0
se tiene que p
1
= p
3
y = 0, e igualmente, como en t = 0 es x = 0, tenemos
p
2
= p
3
x = 0. Por tanto p
3
,= 0 (ya que no pueden ser todos nulos), de donde
u
1
= 0 y u
2
= 0. En denitiva x e y son constantes, y por tanto nulas, de donde z
es tambien constante y no puede tomar los valores 0 en t = 0 y a > 0 en t = T.
Por tanto la solucion de nuestro problema es
x(t) =

a
2
sin(2t/T)
y(t) =

a
2
(cos(2t/T) 1)
z(t) =
a
T

t +
T
2
(cos(2t/T) 1)

que se obtiene con el control

u
1
(t) =

2a
T
cos(2t/T)
u
2
(t) =

2a
T
sin(2t/T)
as como cualquiera que se obtenga de estas por un giro de angulo y eje z.
CONTROL

OPTIMO 7
Sistema con controles acotados. Consideremos un sistema de control descrito
por las ecuaciones
x = u [u[ 1
que describe un carro sobre unos railes sobre el que se act ua con una fuerza u.
Pretendemos llevar el carro desde x = 0 partiendo del reposo hasta el punto x = 1,
llegando tambien en reposo, y queremos hacerlo en el menor tiempo posible.
El sistema de control escrito en la forma habitual como sistema de primer orden
es
x = y y = u
y el funcional a minimizar es
J = T =

T
0
1 dt,
siendo T libre, y con condiciones de contorno x(0) = 0, y(0) = 0, x(T) = 1,
y(T) = 0.
[ = 1] El Hamiltoniano es H = p
1
y +p
2
u1 que alcanza el maximo en u = 1,
siendo el signo de u el mismo que el de p
2
. Las ecuaciones diferenciales para p son
p
1
= 0 p
2
= p
1
.
As, se tiene que p
1
es constante y p
2
lineal. As x es un polinomio de segundo grado
a trozos, mientras que y es lineal a trozos. Es facil convencerse de que para obtener
el punto deseado, el valor de u debe ser positivo al principio y negativo al nal, por
lo que la solucion sera de la forma u(t) = 1 para t < y u(t) = 1 para t > ,
siendo el punto donde se anula p
2
(que por tanto es p
2
= (t ) con > 0).
De la anulacion del Hamiltoniano obtenemos [t [ = 1+y. En t = 0, se tiene
= 1, y en t = T se tiene (T ) = 1, de donde = T/2 (como era de esperar).
Por tanto y(t) = [t T/2[ T/2, u(t) = sgn(T/2 t) y x(t) = t
2
/2 para t < T/2
y x(t) = T
2
/8 +tT/2 t
2
/2 para t > T/2. Finalmente, para que x(T) = 1 se debe
cumplir que T
2
/8 = 1, de donde T = 1/

8 es el tiempo mnimo.
En consecuencia, la estrategia optima consiste en acelerar al maximo hasta la
mitad del recorrido y luego frenar al maximo a partir de este punto, y tardamos un
tiempo T = 1/(2

2).
Soluciones anormales. La presencia del multiplicador complica los calculos y
en muchas ocasiones no produce soluciones. Sin embargo existen ejemplos en los
que su presencia es necesaria, como el que vamos a ver a continuacion.
Consideremos el sistema de control optimo en R consistente en minimizar el fun-
cional

1
0
u(t) dt entre el conjunto de trayectorias del sistema x = u
2
que empiezan
y terminan en el origen, es decir, x(0) = x(1) = 0.
La solucion es facil de obtener. Integrando x = u
2
en [0, 1] obtenemos x(1)
x(0) =

1
0
u
2
(t) dt, y como x(0) = x(1) = 0 obtenemos

1
0
u
2
(t) dt = 0, es decir,
u(t) = 0 para casi todo t [0, 1]. Por tanto

1
0
u(t) dt = 0 es el valor mnimo que se
obtiene para x(t) = 0 (constante) y u(t) = 0.
Intentemos ahora obtenerla por medio del principio del maximo de Pontryagin.
Si solo consideramos las soluciones normales = 1, tenemos que H = pu
2
u, por
lo que las ecuaciones de Hamilton-Pontryagin son
0 = 2pu 1 = 0 p = 0 y x = u
2
,
cuya solucion general es
p = constante u =
1
2p
y x(t) = c +
1
4p
2
t +c
8 EDUARDO MART

INEZ
con c R. Imponiendo que x(0) = 0 obtenemos que c = 0. Ahora, imponiendo
x(1) = 0 obtenemos 1/(4p
2
) = 0, que no es posible. En consecuencia no existe
ninguna solucion normal.
Teniendo en cuenta ahora las soluciones anormales, el Hamiltoniano es H = pu
2
,
por lo que las ecuaciones de Hamilton-Pontryagin son
0 = 2pu = 0 p = 0 y x = u
2
.
Por tanto p es constante, y como = 0, p ,= 0, por lo que u = 0 y x(t) = c.
Imponiendo x(0) = 0 se tiene x(t) = 0, que cumple tambien x(1) = 0.
En consecuencia, el principio del maximo solo selecciona la trayectoria x(t) = 0,
siendo esta una solucion anormal.
Problemas LQ. Un tipo de problemas de control optimo que aparece muy fre-
cuentemente es el de los problemas LQ, que consisten en un sistema de control
lineal y una funcion de coste cuadratica.
Concretamente, consideremos el sistema de control en R
n
x = Ax +Bu
con u R
m
, y para T > 0 jo, nos planteamos el problema de minimizar el funcional
1
2

T
0
(x
T
Qx +u
T
Ru) dt,
entre las trayectorias del sistema que comienzan en x(0) = x
0
, sin restriccion alguna
en el punto nal, es decir F = R
n
. Supondremos que Q R
(n,n)
y R R
(m,m)
son matrices simetricas con R denida positiva. Ademas supondremos que no hay
controles redundantes, es decir, que B R
(n,m)
tiene rango maximo m < n.
Probaremos que la trayectoria optimal se obtiene como la solucion del sistema
de ecuaciones diferenciales
x = Ax +BR
1
B
T
p
p = Qx A
T
p
con condiciones de frontera
x(0) = x
0
, p(T) = 0,
estando el control optimo dado por
u = R
1
B
T
p.
En efecto, consideremos primero las soluciones normales, con = 1. El Hamil-
toniano de Pontryagin es
H(x, p, , u) = p
T
(Ax +Bu)
1
2
(x
T
Qx +u
T
Ru).
Siendo R denida positiva, el Hamiltoniano solo tiene un maximo, que se obtiene
en el punto donde la derivada parcial con respecto a u se anula, esto es, donde
B
T
p = Ru, de donde obtenemos
u = R
1
B
T
p.
As, sustituyendo la expresion anterior en la ecuacion de control obtenemos
x = Ax +Bu = Ax +BR
1
B
T
p
Por otro lado, calculando la derivada parcial con respecto a x, obtenemos
p =
H
x
= Qx A
T
p.
Como el punto nal es libre, se tiene ademas que p(T) = 0, ya que F

= (R
n
)

=
0. Recordemos tambien que el punto inicial esta dado x(0) = x
0
.
CONTROL

OPTIMO 9
Finalmente, notemos que no hay soluciones anormales. Como el punto nal es
libre, tenemos que p(T) = 0, por lo que para que (, p(T)) ,= (0, 0) debe ser ,= 0.
Mas informacion. En estas notas se ha dado una introduccion a la teora de sistemas
de control optimo, por medio del uso del Principio del maximo de Pontryagin.
Existen multitud de aspectos que no ha sido posible ni siquiera mencionar. El lector
interesado puede consultar el ultimo captulo del libro [1] donde puede encontrar un
tratamiento pedagogico del tema y multitud de ejemplos resueltos. Para resultados
rigurosos y la demostracion del principio del maximo (mas alla de la idea intuitiva
vista en clase), el libro original de Pontryagin [2] sigue siendo una referencia basica.
Para una revision de resultados sobre problemas de control optimo con ligaduras
Referencias
[1] Luenberger D
Introduction to dynamic systems: theory, models and applications
John Wiley and Sons, New York, 1979.
[2] Pontryagin LS, Boltyanskii VG, Gamkrelidze RV y Mishchenko EF
The mathematical theory of optimal processes
Interscience Publishers John Wiley & Sons, Inc. New York-London, 1962.
[3] Hartl RF, Suresh PS and Vickson RG
A survey of the maximum principles for optimal control problems with state constraints
SIAM Review, 37 (2) (1995) pp. 181218.
Ciencias, Universidad de Zaragoza, 50009 Zaragoza, Spain
10 EDUARDO MART

INEZ

Indice
1. Sistemas de control 1
2. El principio del maximo de Pontryagin 2
Casos especiales y generalizaciones 3
3. Ejemplos 4
Sistema de Heisemberg 5