“INGENIERÍA ELECTRÓNICA”
Contenidos
1. INTRODUCCIÓN .......................................................................................................................................................... 3
1.1. Modelo en el espacio de estado ......................................................................................................................... 3
1.2. Diseño de controladores de estado lineales ....................................................................................................... 6
1.3. Esquema básico del controlador lineal de estado .............................................................................................. 7
1.4. Metodologías de diseño más utilizadas ............................................................................................................. 8
1.5. Diseño del controlador mediante asignación de polos ...................................................................................... 8
1.6. Controlador de tiempo finito ............................................................................................................................. 9
2. CONTROL ÓPTIMO EN SISTEMAS LINEALES ................................................................................................................. 9
2.1. Motivación ........................................................................................................................................................ 9
3. REGULADOR ÓPTIMO LINEAL EN TIEMPO CONTINUO ................................................................................................ 10
3.1. Formulación del problema............................................................................................................................... 10
3.2. Estabilidad en el sentido de Lyapunov ............................................................................................................ 10
3.3. Problema de control óptimo cuadrático........................................................................................................... 12
4. REGULADOR ÓPTIMO LINEAL EN TIEMPO DISCRETO ................................................................................................. 14
4.1. Formulación del problema............................................................................................................................... 14
4.2. Formulación del problema de estado estacionario........................................................................................... 14
4.3. Problema de control óptimo lineal de continuo a discreto............................................................................... 19
5. REGULADOR ÓPTIMO LINEAL EN EL TRANSITORIO ................................................................................................... 28
5.1. Formulación del problema en el transitorio..................................................................................................... 28
6. CONTROL ÓPTIMO BASADO EN PROGRAMACIÓN DINÁMICA ..................................................................................... 33
6.1. Principio de optimalidad de Bellman .............................................................................................................. 33
7. PROGRAMACIÓN DINÁMICA ..................................................................................................................................... 40
7.1. Versión numérica: Ecuación de Bellman ........................................................................................................ 40
7.2. Problema básico .............................................................................................................................................. 41
7.3. La política óptima de decisiones ..................................................................................................................... 41
7.4. Programación dinámica regresiva ................................................................................................................... 42
7.5. Algunos funcionales típicos ............................................................................................................................ 45
7.6. Programación Dinámica iterativa .................................................................................................................... 47
7.7. Programación dinámica aproximada ............................................................................................................... 49
7.8. Discusión y comentario final........................................................................................................................... 60
7.9. Versión simbólica: Ecuación de Hamilton-Jacobi-Bellman............................................................................ 57
8. CONTROL DIGITAL ESTOCÁSTICO................................................................................................................. 62
8.1. Modelo matemático estocástico de señales reales. .......................................................................................... 62
8.2. Ecuaciones diferenciales estocásticas.............................................................................................................. 63
8.3. Modelos de Estado para Sistemas Estocásticos de Tiempo continuo.............................................................. 65
8.4. Modelos de Estado para Sistemas Estocásticos de Tiempo Discreto. ............................................................. 71
8.5. Diseño de Controladores de Estado para Sistemas Estocásticos Lineales....................................................... 78
9. BIBLIOGRAFÍA ......................................................................................................................................................... 87
J. A. Pucheta (labimac.blogspot.com) 2
Control Óptimo para procesos estocásticos multivariable
1. Introducción
Se puede dar informalmente para un sistema la siguiente definición de estado dinámico del sistema.
Las variables de estado constituyen el conjunto más pequeño de variables, tales que el conocimiento
de las mismas en t=t0, conjuntamente con las entradas para t≥t0, determinan el comportamiento del
sistema para cualquier tiempo t≥t0.
De igual modo se puede definir el vector de estado como: Un vector de estado de dimensión n es
aquél cuyas componentes están constituidas por las n variables de estado.
Con el objeto de asociar estas definiciones a la modelación de un sistema físico, se toma como
ejemplo un circuito elemental RLC; representado en la Fig. 1-1.
Fig. 1-1. (a) Circuito RLC; (b) Entrada-Salida del circuito RLC
Se toma u=ve(t) como señal de entrada al sistema y la tensión vr(t) sobre el resistor R como salida.
Por relaciones físicas es conocido que la evolución de las distintas variables físicas en este circuito,
tales como tensiones y corrientes, quedará definida en un futuro si se conoce para un instante de
tiempo t=t0, la corriente que fluye en el inductor L, la tensión que exista sobre el capacitor C y la
tensión de entrada desde t0 en adelante.
J. A. Pucheta (labimac.blogspot.com) 3
Control Óptimo para procesos estocásticos multivariable
circuito y a la tensión sobre el capacitor como variables de estado, ya que éstas definen el estado
dinámico del circuito. La evolución futura del estado dinámico para t≥t0 se podrá determinar si se
conoce para t=t0 las variables de estado i(t), vc(t) y además la tensión de entrada ve(t) para t≥t0.
Para analizar la evolución del circuito se pueden plantear las ecuaciones diferenciales del mismo.
di R 1 1
= − i − v c + ve
dt L L L
dvc 1 (1-1)
= i
dt C
Las Ec. (1-1) se pueden expresar en una ecuación matricial-vectorial.
R 1
di − −
dt L L i 1
+ L [ ].
dv = v ve (1-2)
c 1 0 c 0
dt
C
Definiendo a i, vc como variables de estado y a x como vector de estado, la Ec. (1-2) se tiene
xɺ = A x(t) + b u(t)
con
- R/L - 1/L 1/L
A= , b = .
1/C 0 0 (1-3)
La variable de salida y=vR puede obtenerse también a partir del vector de estado mediante
y = cT x(t) (1-4)
De esta forma el circuito RLC de la Fig. 1-1 queda modelado en el espacio de estado por
Cuando se consideran varias entradas y varias salidas del sistema simultáneamente, se recurre a la
J. A. Pucheta (labimac.blogspot.com) 4
Control Óptimo para procesos estocásticos multivariable
representación mostrado en la Fig. 1-2, en el cual existen interacciones múltiples de las e entradas
con las s salidas. Si se desea modelar con ecuaciones diferenciales, conduce a un sistema de s×e
ecuaciones diferenciales, de distinto orden que contemplan las relaciones dinámicas de todas las
entradas con las distintas salidas. La de mayor orden define el orden n del sistema multivariable.
Además, el orden del sistema está dado por el número mínimo de variables de estado necesarias
para describir la evolución del sistema.
donde y(s) es el vector de salida de dimensión s, u(s) es el vector de entrada de dimensión e, y G(s)
es la matriz de transferencia de dimensión s×e. Cada elemento de la matriz G(s) representa la
Función de Transferencia Gij(s) de la entrada uj(s) respecto de la salida yi(s).
De la misma forma que para el caso monovariable, aunque con un mayor grado de complejidad
resulta posible a través de una adecuada elección de las variables de estado, transformar todas las
ecuaciones diferenciales en conjuntos de ecuaciones diferenciales de primer orden, y compactar la
notación para obtener una ecuación diferencial matricial-vectorial de primer orden de la misma
forma que las Ec. (1-5),
xɺ (t) = A(t) x(t) + B(t) u(t)
(1-7)
y(t) = C(t) x(t) + D(t) u(t).
Para determinar la correcta dimensión de las distintas matrices componentes de la Ec. (1-7), resulta
útil representar los vectores y matrices de la Ec. (1-7) por rectángulos cuyas longitudes de lados
representan la dimensión considerada.
Las Ec. (1-7) pueden representarse esquemáticamente para un sistema multivariable con e entradas
y s salidas como en la Fig. 1-3.
J. A. Pucheta (labimac.blogspot.com) 5
Control Óptimo para procesos estocásticos multivariable
Se observa que para un sistema multivariable la matriz de entrada B toma la dimensión n×e, la
matriz de salida C la dimensión s×n, la matriz de transferencia directa D la dimensión s×e y la
matriz de entrada A, la dimensión n×n, igual que para el caso monovariable.
1.1.2. Entrada-salida
Los esquemas más difundidos son los del tipo Proporcional Integral Derivativo PID, con sus
diversas variantes, por ejemplo, Modificado, con predictor, con anti-wind up, auto sintonía, etc.
yd
ek
uk yk
Controlador Proceso
-
J. A. Pucheta (labimac.blogspot.com) 6
Control Óptimo para procesos estocásticos multivariable
yk
uk
rk
Proceso -
-
ek
Controlador
D(k)
x(0) y(k)
u(k) x(k+1) x(k)
B(k) Iq-1 C(k)
A(k)
-K(k)
J. A. Pucheta (labimac.blogspot.com) 7
Control Óptimo para procesos estocásticos multivariable
Para el caso monovariable, se hacen transformaciones lineales en el sistema para obtener la forma
canónica controlable
0 1 0 … 0 0
0 0 1 … 0 0
A = 0 0 0 …
~ ~ ~T
0 b = 0 c = [b m … b o 0 … 0]
. . . … . .
- a n . . … - a1 1
0 1 0 … 0
0
0 0 1 … 0 .
w (k + 1) = 0 0 0 …
0 w (k ) + u (k )
.
. . . … .
1
- a n − a n −1 . … - a1
Con u(k)=-K.w(k)
0 1 ... 0
. . 1 0
w (k + 1) = w (k )
. . . .
n −kn
− a − a n −1 − k n −1 ... − a 1 − k 1
La ecuación característica es
J. A. Pucheta (labimac.blogspot.com) 8
Control Óptimo para procesos estocásticos multivariable
(a n + k n ) + (a n −1 + k n −1 )z + ... + (a 1 + k 1 )z n =0.
(z − p 1 )(z − p 2 )...(z − p n ) = 0 .
El diseño del controlador comienza ubicando a los polos pi, que son los polos de lazo cerrado.
La desventaja es que no se tiene en cuenta el efecto conjunto de los polos en el comportamiento del
sistema, ni tampoco la magnitud de las acciones de control.
Es un caso particular del anterior, donde se sitúa a todos los polos de lazo cerrado en el origen del
plano complejo.
u (k ) = [a n a n −1 ... a 1 ]x(k ) .
La ventaja de éste método es que es rápido, simple, y considera el efecto del conjunto de los polos
de lazo cerrado. La desventaja es que las acciones de control son muy elevadas.
Para el caso del diseño de controladores en tiempo discreto, siempre que el sistema sea controlable,
los polos de lazo cerrado pueden ubicarse en cualquier punto del plano complejo, pero el límite de
las respuestas está dado por las acciones de control. La velocidad de respuesta del proceso y la
magnitud de las acciones de control están directamente relacionadas.
Una solución se encuentra proponiendo un funcional de costo que incluya estos elementos y luego
realizar su minimización.
∑ [e ( ) ]
M
J = J (e, u ) = + r∆u (k )
2 2
k
k =0
La solución analítica es posible solamente para controladores de bajo orden. Se puede minimizar a
prueba y error numéricamente.
∑ [e ( ) ]
M
J = J(e, u ) = + ru (k )
2 2
k
k =0
J. A. Pucheta (labimac.blogspot.com) 9
Control Óptimo para procesos estocásticos multivariable
El funcional propuesto es convexo y continuo de sus argumentos ek y uk. El controlador será óptimo
en el sentido de éste funcional.
xɺ t = A ⋅ x t + B ⋅ u t
(3-1)
y t = C ⋅ x t
∫ (x )
∞ (3-3)
J (x, u ) = T
Qx + u T Ru dt
0
con Q simétrica y semidefinida positiva y R simétrica y definida positiva.
Para diseñar el controlador en espacio de estados en el domino del tiempo continuo, se usará el
segundo método de Lyapunov, porque no requiere resolver las ecuaciones diferenciales del sistema
a controlar. En general, el sistema se define como
xɺ = f (x , t ), x (0 ) = x 0
con la solución
φ(t 0 ; x 0 , t 0 ) = x 0 .
Definición de equilibrio:
Se definen las esferas S(δ) y S(ε) alrededor del punto de equilibrio, ∀t≥t0. mediante
x 0 − x e ≤ δ,
φ(t; x 0 , t 0 ) − x e ≤ ε,
respectivamente.
El sistema será estable en el sentido de Lyapunov si para cada esfera S(ε) existe una esfera S(δ) tal
que las trayectorias que empiezan en S(δ) no salen de S(ε) con t→∞.
Si δ no depende de t0, el equilibrio es uniformemente estable.
El sistema será inestable si para algún ε>0 y cualquier δ>0 siempre existirá un x0 en S(δ) tal que las
trayectorias que allí comienzan se salen de S(ε).
J. A. Pucheta (labimac.blogspot.com) 10
Control Óptimo para procesos estocásticos multivariable
Sea la función escalar definida positiva V(x) una función de energía (ficticia) que depende de x y de
t. Si la derivada temporal de V(x) es definida negativa entonces el punto de equilibrio xe en el origen
es uniformemente asintóticamente estable y la función V(x) se denominará función Lyapunov.
∂f1 ∂f1
∂x ⋯
∂x n
∂f1 ...∂f n 1
F(x ) = = ⋮ ⋱ ⋮ .
∂x 1 ...x n ∂f n ∂f n
⋯
∂x1 ∂x n
V (x ) = x T ⋅ P ⋅ x, (3-5)
donde se requiere que la matriz entre paréntesis sea definida negativa para que la candidata V(x)
propuesta sea función de Lyapunov. Por lo tanto debe cumplirse que
− Q = A T P + PA (3-7)
J. A. Pucheta (labimac.blogspot.com) 11
Control Óptimo para procesos estocásticos multivariable
Nótese la relación existente entre la función Lyapunov V(x) y su derivada temporal, las expresiones
(3-5) y (3-6) muestran que
∂ T
∂t
( ) (
x ⋅ P ⋅ x = x T ⋅ A T P + PA ⋅ x = − x T ⋅ Q ⋅ x. ) (3-8)
Se usará el segundo método de Lyapunov para resolver el problema del control óptimo formulado.
Primero se fijan las condiciones de estabilidad y luego se diseña el controlador dentro de ésas
condiciones. El método supone que el sistema es controlable.
∫ (x ) ( )
∞ ∞
J (x, u ) = T
Qx + (Kx )T RKx dt = ∫ x T Q + K T RK xdt. (3-10)
0 0
( )
x T (A − BK )T P + P(A − BK ) x = − x T ⋅ Q + K T RK ⋅ x , ( ) (3-17)
que debe resolverse en P simétrica y definida positiva. Como la condición (3-17) debe cumplirse
para todo x∈Rn, se resuelve la igualdad a partir de igualar las matrices de ponderación de la forma
cuadrática. Por lo tanto,
J. A. Pucheta (labimac.blogspot.com) 12
Control Óptimo para procesos estocásticos multivariable
(
− (A − BK )T P + P(A − BK ) = Q + K T RK , ) (3-18)
(
∂ xT ⋅ X ⋅ y )
= X⋅y ;
∂ xT ⋅ X ⋅ y (
= XT⋅x ;
)
∂ xT ⋅ X ⋅ x
= 2X ⋅ x ,
( ) (3-20)
∂x ∂y ∂x
∫ ( )
J (x, u ) = x T Q + K T RK xdt. = −x T Px
∞
= − x ∞ Px ∞ − x 0 Px 0
T T
0
(3-24)
0
donde se ha usado la igualdad (3-8) para resolver la integral. Para determinar el valor en la Ec.
(3-24), se considera que los autovalores de (A-BK) tienen parte real negativa, entonces x(t)→0 con
t→∞. Por lo tanto la Ec. (3-24) resulta
J (x, u ) = x 0 Px 0 .
T
(3-25)
J. A. Pucheta (labimac.blogspot.com) 13
Control Óptimo para procesos estocásticos multivariable
Dado el caso en que se diseñe al funcional de costos en términos de la salida y, del sistema de Ec.
(3-1),
∫ (y )
∞
J (x, u ) = T
Qy + u T Ru dt (3-26)
0
se reemplaza y por la segunda fila de la Ec. (3-1), quedando
∫ (x )
∞
J(x, u ) = C QCx + u T Ru dt ,
T T
0
(3-27)
T
y se emplea C QC en lugar de Q.
Para el diseño del controlador óptimo cuadrático, una vez formulado el problema, se debe resolver
la Ecuación de Riccati (3-23) con respecto a P verificando que (A-BK) sea estable.
La formulación del problema de control para el Regulador Óptimo lineal en tiempo discreto es la
siguiente. Dado el sistema lineal determinístico
x k +1 = A k x k + B k u k
(4-1)
y k = C k x k + D k u k
se desea encontrar una ley de control uk que haga evolucionar al proceso desde x(0)≠0 a x(N)=0
minimizando el siguiente funcional de costo
∑ [x Tk Qx k + u Tk Ru k ]+ x TN Sx N
N -1
J (x , u ) = (4-2)
k =0
Para encontrar la ley de control uk, existen diversos métodos, entre los más difundidos están los
basados en el principio de optimalidad de Bellman y los que emplean los multiplicadores de
Lagrange. Para el caso en que N tienda a infinito en la definición del funcional (4-2), se tiene una
formulación del problema conocida como de estado estacionario donde pierde sentido el término
xTNSxN ya que al ser estable el sistema controlado siempre será nulo, la cual admite un
procedimiento de cómputo basado en la Teoría de Lyapunov.
Se propone formular el problema de control óptimo para emplear la Teoría de Lyapunov, que
considera un sistema dinámico en estado estacionario.
Dado el modelo dinámico de la Ec. (4-1), se desea encontrar una ley de control uk
u k = −K ⋅ x k (4-3)
J. A. Pucheta (labimac.blogspot.com) 14
Control Óptimo para procesos estocásticos multivariable
que haga evolucionar el sistema para k=0 hasta k=∞, minimizando el funcional de costos
∞
J (x, u ) = ∑ x Tk Qx k + u Tk Ru k . (4-4)
k =0
donde Q es simétrica y semidefinida positiva, y R es simétrica y definida positiva. Para resolver éste
problema, se empleará el Teorema de estabilidad de Lyapunov.
Teorema
Sea el sistema en tiempo discreto
x (k +1)T = f (x kT ), (4-5)
Se emplea una función que contempla la energía del sistema, y de ésta función se calcula la
diferencia temporal, es decir, que dada
( )
∆V(x kT ) = V x (k +1)T − V(x kT ). (4-7)
Nótese que 2 puede ser reemplazado por ∆V(x)≤0 ∀x, y ∆V(x) no se hace cero para toda secuencia
{xkT} solución de (4-5).
Suponiendo que en el sistema de la Ec. (4-1) se hace uk=0, se propone la siguiente función
candidata de Lyapunov
V(x k ) = x Tk Px k (4-8)
donde P es simétrica y definida positiva. Entonces, se calcula
∆V (x k ) = V (Ax k ) − V (x K ).
J. A. Pucheta (labimac.blogspot.com) 15
Control Óptimo para procesos estocásticos multivariable
(
∆V(x k ) = x Tk A T PA − P x k . ) (4-9)
Para asegurar estabilidad asintótica, se impone que la (4-9) sea definida negativa, y se puede
escribir que
∆V(x k ) = − x Tk Qx k , (4-10)
donde Q es definida positiva, da la condición suficiente para estabilidad asintótica
− Q = A T PA − P. (4-11)
Es conveniente especificar Q simétrica y definida positiva, y luego verificar que P - determinada por
la (4-11)- es definida positiva o no. Si P es definida positiva, entonces la V(x) propuesta por (4-8)
es función de Lyapunov y se demuestra estabilidad.
Por otro lado, nótese que de la Ec. (4-8), se calcula su diferencia temporal como
∆V (x k ) = V (x k +1 ) − V (x k )
de donde resulta que
∆V(x k ) = x Tk +1Px k +1 − x Tk Px k (4-12)
y a su vez se iguala al lado derecho de la Ec. (4-10), y da
− x Tk Qx k = x Tk +1Px k +1 − x Tk Px k . (4-13)
Reemplazando la ley de control (4-3) en la expresión del funcional de costos (4-4), se puede
escribir que
∑ x Tk (Q + K T RK )x k .
∞
J (x, u ) = (4-14)
k =0
Ahora se busca la solución al problema de control en tiempo discreto en estado estacionario, que se
basa en la Ec. (4-13), pero si la acción de control no es nula, aparece la modificación de incorporar
al controlador. Así, para el caso en que uk≠0 en la entrada al sistema (4-1), se reemplaza en las
ecuaciones del sistema la expresión de la ley de control (4-3), y se tiene que la Ec. (4-13) se
transforma en
( )
− x Tk Q + K T RK x k = x Tk +1Px k +1 − x Tk Px k . (4-15)
si se hace coincidir a la matriz Q Ec. (4-13) con el argumento de ponderación de la forma cuadrática
de la Ec. (4-14).
De aquí que minimizando la (4-14) con respecto a K, se encuentra la ley de control óptima (4-3).
Para ello, se opera en la igualdad (4-15) que puede escribirse como
( ) (
− x Tk Q + K T RK x k = x Tk (A − BK )T P(A − BK ) − P x k .) (4-16)
Ésta última igualdad debe cumplirse para todo valor de xk, por lo tanto, se tiene que minimizando
con respecto a K es lo mismo que hacerlo en la (4-14). Para ello, se define una función ζ a partir de
J. A. Pucheta (labimac.blogspot.com) 16
Control Óptimo para procesos estocásticos multivariable
(
K = R + B T PB )
−1
B T PA. (4-20)
donde el lado derecho y los primeros dos términos del lado izquierdo no dependen de K, pero sí los
términos desde el tercero hasta el sexto.
( ) ( ) ( )
T
−1 −1
= B T PA R + B T PB R R + B T PB BT PA.
T
Haciendo lo mismo con el cuarto término,
A T PBK = B T PA( ) (R + B PB)
T T −1
B T PA .
Con el quinto,
(BK )T PA = B(R + BT PB) ( ) ( )
−1 T −1 T
B T PA PA = B T PA B R + B T PB PA
T
J. A. Pucheta (labimac.blogspot.com) 17
Control Óptimo para procesos estocásticos multivariable
( ) ( )
−1 T
= B T PA B R + B T PB PA
T
( ) ( )
T
−1
= B T PA R + B T PB BT PA
T
y con el sexto término, se tiene
(BK )T PBK = B(R + B T PB) ( )
−1 T −1
B T PA PB R + B T PB B T PA
( ) ( )
T
−1 −1
= (PA )T B R + B T PB B T PB R + B T PB B T PA
( ) ( ) ( )
−1 −1 T
= B T PA B R + B T PB PB R + B T PB B T PA
T
( ) ( ) ( )
T
−1 −1
= B T PA R + BT PB BT PB R + B T PB BT PA.
T
Nótese que todos los términos se expresaron como una forma cuadrática de BTPA, por lo tanto, se
puede hacer la suma de los términos y agruparlos reemplazándolos en la Ec. (4-21), entonces
operando se tiene,
(
T
) (
−1 T −1 −1
) −1 T
P = Q + A T PA + B T PA R + BT PB R R + BT PB − R + B T PB − B R + BT PB +
( ) ( ) ( )
(
+ R + BT PB ) −1 T
B PB R + B PB
T T
( )
−1
B T PA
,
que operando con el primer y cuarto término dentro del paréntesis, para agrupar como forma
cuadrática, se tiene
( ) ( )( ) ( ) ( )
T T
R + B T PB −1 B T PB + R R + B T PB −1 − R + B T PB −1 − R + BT PB −1
,
y ahora se puede simplificar ya que las inversas existen
( ) ( ) ( ) ( )
T T
R + BT PB −1 − R + B T PB −1 − R + BT PB −1 = − R + BT PB −1
,
que será el término medio de la forma cuadrática en BTPA, finalmente, la Ec. (4-21) queda
P = Q + A T PA − B T PA ( ) (R + B PB)
T T −1
B T PA (4-22)
que es la Ecuación de Riccati de estado estacionario en tiempo discreto. A su vez, operando se llega
a
(
P = Q + A T P I + B T R −1B T P ) −1
A (4-23)
y también a,
(
P = Q + A T P −1 + B T R −1B T ) −1
A. (4-24)
El funcional de costo se puede evaluar, usando las igualdades de la Ec. (4-14) y la Ec. (4-15), se
llega a
∞ ∞
J (x, u ) = ∑ xTk Qx k + u Tk Ru k = ∑ x Tk +1Px k +1 − x Tk Px k = x T0 Px 0 .
k=0 k =0
J. A. Pucheta (labimac.blogspot.com) 18
Control Óptimo para procesos estocásticos multivariable
(4-25)
Se estudiará el problema de control óptimo que se plantea en el tiempo continuo pero se implementa
en tiempo discreto.
Dado el sistema modelado mediante las Ec. (3-1), se desea encontrar la ley de control ut de la forma
J (x, u ) =
1 T
2
1 tf
(
x t f Sx t f + ∫ x Tt Qx t + u Tt Ru t dt
20
) (4-27)
Se supone que el sistema representado por las Ec. (3-1) puede ser reemplazado por
x (k +1)T = A T ⋅ x kT + B T ⋅ u kT
(4-28)
y kT = C ⋅ x kT
t (4-29)
x t = e A (t − t 0 ) x t 0 + ∫ e A (t −s ) Bu s ds.
t0
t
x t = e A (t −kT ) x kT + ∫ e A( t −s ) Bds u kT . (4-30)
kT
x t = F1 ⋅ x kT + F2 ⋅ u kT , (4-31)
donde
F1= e A ( t −kT ) (4-32)
t
A ( t −s )
F2= ∫ e Bds.
kT
Reemplazando la Ec. (4-31) y la Ec. (4-26) en la expresión del funcional de costo J de la Ec. (4-27),
con xNT=xtf,
1 N −1(k +1)T
J (x, u ) =
2
{ }
x NT Sx NT + ∑ ∫ (F1 ⋅ x kT + F2 ⋅ u kT )T Q(F1 ⋅ x kT + F2 ⋅ u kT ) + u TkT Ru kT dt (4-33)
1 T
2 k =0 kT
J. A. Pucheta (labimac.blogspot.com) 19
Control Óptimo para procesos estocásticos multivariable
Operando el término entre llaves, considerando que todas las cantidades son escalares, y que u y x
son constantes en el intervalo de integración, se llega a la expresión de J de la forma
1 N −1
J (x, u ) =
1 T
x NT Sx NT + ∑ x Tk Q1x k + 2 x Tk M1u k + u Tk R 1u k (4-34)
2 2 k =0
donde
Nótese que el funcional en tiempo continuo de la Ec. (4-27) no queda expresado como
1 N −1
J (x, u ) =
1 T
x N Sx N + ∑ x Tk Qx k + u Tk Ru k , (4-35)
2 2 k =0
sino que se agrega un término cruzado que involucra a xkT y ukT y se modifican Q y R.
J. A. Pucheta (labimac.blogspot.com) 20
Control Óptimo para procesos estocásticos multivariable
Ejemplo de aplicación
Para la planta de la Fig. 6, suponiendo que el flujo entre los tanques es proporcional a la diferencia
de nivel de líquido en los mismos, y aplicando el principio de conservación de la masa (o del
volumen si el fluido es incompresible), las ecuaciones que gobiernan al sistema son
dh1 1
A1 = (h 2 - h1) + u t
dt R1
dh 2 1 1
A2 =- (h 2 - h1) - h2
dt R1 R2
donde ut es el caudal de líquido que entra al tanque 1.
1 1
Se considera que A1 = A 2 = 1 ; R 1 = ; R 2 = y el sistema de medidas es el MKS. Se pretende
2 3
controlar la altura del líquido en el tanque 2 controlando el caudal de líquido entrante al tanque 1.
Solución
1.
A1
dh1 1
= (h 2 − h1 ) + u ( t )
dt R1
J. A. Pucheta (labimac.blogspot.com) 21
Control Óptimo para procesos estocásticos multivariable
= − (h 2 − h1 ) −
dh 2 1 1
A2 h2
dt R1 R2
hɺ 1 = −2h1 + 2h 2 + u ( t )
ɺ
h 2 = 2h1 − 5h 2
2.
Para hallar la matriz P a partir de la Ec. de Riccati reducida, que es el caso del dominio del tiempo
continuo, se opta por la iteración siguiente
(
Pg = - Q - A T P + PBR -1BT P A -1
)
( )
(4-37)
P = P − γ P − Pg
T T
Desde el programa Prog_TC_01.m pueden ensayarse diferentes casos para hallar la matriz P.
Nótese que el método no sirve así planteado si A es singular.
Para hallar la matriz P a partir de la Ecuación de Riccati en estado estacionario, se propone hacer la
siguiente operación recursiva
(
Pk +1 = Q + A T Pk A - (BT Pk A) T R + BT Pk B BT Pk A )
-1
(4-38)
Desde el programa Prog_TD_02.m pueden ensayarse diferentes casos para hallar la matriz P.
3.
J. A. Pucheta (labimac.blogspot.com) 22
Control Óptimo para procesos estocásticos multivariable
En el caso del tiempo discreto, la evaluación del funcional de costos (4-4) se implementa
directamente, y debe coincidir con el valor según la Ec. (4-25) para referencia nula. Ensayar el
programa Prog_TD_02.m.
4.
Cuando la referencia es distinta de cero, puede usarse el mismo controlador que se diseñó, pero hay
que modificar a la acción de control. Una propuesta, se fundamenta en una ley de control de la
forma
u t = − Kx t + Grt (4-39)
donde rt es la referencia y tiene la misma dimensión que yt, G es una ganancia de prealimentación
de la referencia.
x0
rt ut xɺ xt
yt
G B ∫ ⋅ dt C
-K
Fig. 7. Esquema de control óptimo en tiempo continuo con referencia distinta de cero.
Como la referencia se alcanza en el estado estacionario del sistema, se hace el análisis para diseñar a
G usando Laplace. De la Ec. (3-1) se tiene
sx s = A ⋅ x s + B ⋅ u s
(4-40)
y s = C ⋅ x s
H s = C(sI − (A − BK ))−1 BG
(4-41)
J. A. Pucheta (labimac.blogspot.com) 23
Control Óptimo para procesos estocásticos multivariable
y así
y s = H s ⋅ rs .
(4-42)
La referencia rs será un escalón unitario, ya que se trata de un problema de regulación, y se emplea
el teorema del valor final, que establece que
lim s ⋅ {y s } = lim y t .
s →0 t →∞
Aplicando la igualdad a la Ec. (4-42) con rs escalón unitario, se tiene que la salida será
I = C(− (A − BK ))−1 BG
[
G = − C (A − BK )−1 B ]
−1
. (4-43)
Para el caso de tiempo discreto, se procede de manera análoga, sólo que cambia el dominio. La
acción de control propuesta será
Para hallar G, se supone que yz alcanza la referencia rz en el estado estacionario, y por lo tanto se
usa el teorema del valor final (TVF), que establece que
z −1
lim ⋅ {y z } = lim y k .
z →1 z k →∞
Nótese que en los dos casos vistos las ganancias de prealimentación dejan al sistema a lazo abierto
J. A. Pucheta (labimac.blogspot.com) 24
Control Óptimo para procesos estocásticos multivariable
con respecto a la referencia. Para ello se proponen sendas estrategias que incorporan un integrador
del error de control.
Incorporación de un integrador
u t = − Kx t + K1ξ t (4-49)
donde
ξɺ t = rt − y t = rt − Cx t (4-50)
definiéndose el nuevo estado ξ, como la salida de un integrador cuando a la entrada está presente el
error de control rt-yt. El esquema de control se muestra en la Fig. 8.
x0
rt ξɺ t ξt ut xɺ xt yt
∫ ⋅ dt K1 B ∫ ⋅ dt C
-K
Fig. 8. Esquema de control óptimo en tiempo continuo con un integrador en el lazo para referencia distinta de
cero.
Suponiendo una referencia constante, escalón, se pueden restar las ecuaciones (4-51) y (4-52)
obteniendo
A 0 B
eɺ = ⋅ e + u e
J. A. Pucheta (labimac.blogspot.com) − C 0 0 25
Control Óptimo para procesos estocásticos multivariable
(4-53)
x − x ∞
e= t , u e = − Kx e + K 1ξ (4-54)
ξ t − ξ ∞
A 0 B
Aa = , B a = 0 (4-55)
− C 0
Para el caso del tiempo discreto, si se incorpora un integrador en el lazo del controlador, se tendría
un esquema como el de la Fig. 9.
x0
rk v xk+1
uk xk yk
K1 B Iq-1 C
-
vk- q-1
-K
Fig. 9. Esquema de control óptimo en tiempo discreto con un integrador en el lazo para referencia distinta de
cero.
La ley de control uk es
u k = −Kx k + K1v k (4-56)
donde la variable vk se define como la salida de un integrador del error de control rk-yk,
v k = v k −1 + rk − y k (4-57)
J. A. Pucheta (labimac.blogspot.com) 26
Control Óptimo para procesos estocásticos multivariable
x k +1 A 0 x k B 0
v = − CA 1 ⋅ v + − CB u k + 1 rk +1. (4-58)
k +1 k
Asignando a rk un escalón, y haciendo k→∞, se tiene
x ∞ A 0 x ∞ B 0
v = − CA 1 ⋅ v + − CB u ∞ + 1 r∞ . (4-59)
∞ ∞
restando a la Ec. (4-58) la Ec. (4-59), se llega a
A 0 B
e k +1 = ⋅ ek + u ek . (4-60)
− CA 1 − CB
donde
x − x ∞
ek = k , u ek = −[K K 1 ]e k . (4-61)
v k − v ∞
La expresión (4-60) determina la dinámica del error de control. Por lo tanto, diseñando el
controlador considerando las matrices de orden incrementado
A 0 B
Aa = , y Ba = (4-62)
− CA 1 − CB
se obtendrá el controlador óptimo con un integrador del error de control.
J. A. Pucheta (labimac.blogspot.com) 27
Control Óptimo para procesos estocásticos multivariable
Las restricciones se agregan al funcional de costo mediante los multiplicadores de Lagrange (ML)
λ, que son vectores con la misma dimensión que el vector de estado.
Se minimiza J de la Ec (4-2), cuando está sujeta a las restricciones especificadas por la Ec (4-1),
para una condición inicial x(0)≠0.
Al emplear un conjunto de ML {λ(1), λ(2),.... λ(N)} que forman un vector adjunto o covector, se re
define al funcional J(x,u) de la Ec (4-2) como el funcional de costo aumentado Ja(x,u), dado por
+ x TNSx N
donde los ML se escriben así para mantener la dimensión escalar de L. Minimizar (5-1) es
equivalente que minimizar (4-2) sujeto a (4-1).
Para minimizar Ja(x,u), se busca diferenciar a Ja(x,u) respecto de cada componente dadas como x, u
y λ e igualar a 0 las expresiones. Suele ser conveniente trabajar con los conjugados de cada
componente, pero aquí se trabajará con las componentes originales ya que sólo se hará tratamiento
simbólico.
∂J a (x , u ) ∂J (x , u ) ∂J (x , u ) ∂J (x , u )
= 0, a = 0, a = 0, a = 0, (5-2)
∂x k ∂x N ∂u k ∂λ k
J. A. Pucheta (labimac.blogspot.com) 28
Control Óptimo para procesos estocásticos multivariable
Ahora, se visualiza claramente dónde están las funciones de las variables correspondientes para
ejecutar el procedimiento de (5-3). Recordar las igualdades de derivación matricial expresadas en la
Ec. (3-20).
Se obtiene,
∂J a (x , u )
∂x k
{
= 2Qx k + A T λ k +1 + A T λ k +1 − λ k − λ k = 2 Qx k + A T λ k − λ k }
de donde se deduce
∂J a (x , u )
= 0 ⇒ Qx k + A T λ k +1 − λ k = 0, k = 1,2,...., N - 1. (5-4)
∂x k
∂J a (x , u )
= 2Sx N − λ N − λ N = 2{Sx N − λ N }
∂x N
de donde se obtiene
∂J a (x , u )
= 0 ⇒ Sx N − λ N = 0. (5-5)
∂x N
∂J a (x , u )
= 2Ru k + Bλ k +1 + Bλ k +1 = 2{Ru k + Bλ k +1}
∂u k
por lo tanto
∂J a (x , u )
= 0 ⇒ Ru k + BT λ k +1 = 0, k = 1,2,...., N - 1. (5-6)
∂u k
∂J a (x , u )
= Ax k + Bu k −1 − x k + Ax k + Bu k −1 − x k = 2{Ax k + Bu k −1 − x k }
∂λ k
por último
∂J a (x , u )
= 0 ⇒ Ax k −1 + Bu k −1 − x k = 0, k = 1,2,..., N. (5-7)
∂λ k
Nótese que la Ec. (5-7) es la ecuación de estados del sistema (4-1). Para verificar que el extremo
encontrado sea un mínimo, puede hacerse la derivada segunda de (5-3) respecto a sus variables y se
verá que es positiva en los casos de xk, xN, y uk, pero en λk el método no decide.
Para hallar la expresión del controlador, hay que operar entre las ecuaciones (5-4), (5-5), (5-6) y
(5-7) para independizarse de λ.
u k = −R −1B T λ k +1 , k = 1,2,...., N - 1.
(5-10)
Sustituyendo la expresión de uk de (5-10) en la ecuación de estado del sistema (4-1), se tiene para
J. A. Pucheta (labimac.blogspot.com) 29
Control Óptimo para procesos estocásticos multivariable
A y B invariantes
x k +1 = Ax k − BR −1B T λ k +1 , x (0 ) = x 0 .
(5-11)
Para resolver el problema de optimización, deben resolverse simultáneamente las expresiones de la
Ec. (5-8) y la Ec. (5-11). Las condiciones de borde serán λN y x(0).
Se demuestra que el paréntesis tiene inversa si P es al menos semidefinida positiva. Por lo tanto
(
x k +1 = I + BR −1B T Pk +1 )−1
Ax k , x (0 ) = x 0 . (5-16)
(
Pk x k = Q + A T Pk +1 I + BR −1B T Pk +1 )
−1
A x k , k = 1,2,...., N - 1.
(5-17)
(
x Tk Pk x k = x Tk Q + A T Pk +1 I + BR −1B T Pk +1 )−1
A x k , k = 1,2,...., N - 1.
(5-18)
Como la igualdad debe cumplirse para todo x, entonces
(
Pk = Q + A T Pk +1 I + BR −1B T Pk +1 ) −1
A, k = 1,2,...., N - 1. (5-19)
que es la Ecuación de Riccati (comparar con Ec. (4-23)). Sabiendo que PN=S, se resuelve PN-1 y así
sucesivamente hasta P0.
( )
λ k +1 = A T
−1
(λ k − Qx k ), k = 1,2,...., N - 1. (5-20)
u k = − R −1B T A T ( ) −1
(λ k − Qx k ), k = 1,2,...., N - 1.
J. A. Pucheta (labimac.blogspot.com) 30
Control Óptimo para procesos estocásticos multivariable
(5-21)
( )
u k = − R −1B T A T
−1
(Pk − Q )x k = − K k x k , k = 1,2,...., N - 1. (5-22)
K k = R −1B T A T ( ) −1
(Pk − Q ) k = 1,2,...., N - 1. (5-23)
Evaluando el funcional de costo de la Ec. (4-2) con la uk de la (5-22) se encontrará el Jmin. Para
simplificar el procedimiento, multiplicando ambos miembros de (5-13) por xkT, se tiene
x Tk Pk x k = x Tk Qx k + x Tk A T Pk +1 x k +1 , k = 1,2,...., N - 1. (5-24)
( )
T
x Tk Pk x k = x Tk Qx k + x Tk +1 I + BR −1B T Pk +1 Pk +1 x k +1 , k = 1,2,...., N - 1. (5-25)
y despejando el término en xkTQxk se tiene
( )
T
x Tk Qx k = x Tk Pk x k − x Tk +1 I + BR −1B T Pk +1 Pk +1 x k +1 , k = 1,2,...., N - 1. (5-26)
En la Ec. (5-10) se reemplaza λk+1 partiendo de la Ec. (5-12) que está valuada en k,
( ) (
T
)
u Tk Ru k = R −1B T Pk +1 x k +1 R R −1B T Pk +1 x k +1 , k = 1,2,...., N - 1. (5-28)
Sumando las expresiones de la Ec. (5-26) con la Ec. (5-28) se tiene que
( )T
x Tk Qx k + u Tk Ru k = x Tk Pk x k − x Tk +1 I + BR −1B T Pk +1 Pk +1 x k +1 + (5-29)
(R −1 T
) (
T
B Pk +1 x k +1 R R −1B T Pk +1 x k +1 , ) k = 1,2,...., N - 1.
y operando se llega a
x Tk Qx k + u Tk Ru k = x Tk Pk x k − x Tk +1Pk +1x k +1 , k = 1,2,...., N - 1. (5-30)
[( ) ( ) ]
J min = x T0 P0 x 0 − x1T P1 x1 + x1T P1 x1 − x T2 P2 x 2 + ⋯ + x TN −1PN −1 x N −1 − x TN PN x N + x TN Sx N (5-31)
J. A. Pucheta (labimac.blogspot.com) 31
Control Óptimo para procesos estocásticos multivariable
J min = x T0 P0 x 0 . (5-32)
En el Ejemplo de aplicación visto, se pretende implementar un control con 3, 4 y 5 etapas con el
tiempo de muestreo de 0,104 seg. Agregar como ítem N° 5, con la salvedad de que se implementará
en tiempo discreto únicamente. Como ítem N°6, obtener simulaciones con la referencia distinta de
cero. Tiene sentido incorporar un término integrador?.
clear;
Ts=.1*2*pi/6;kmax=5;
Jmin=x'*P*x;
Jxu(1)=0;Jxx(1)=0;
for k=1:kmax
x1(k)=x(1);
x2(k)=x(2);
y(k)=C*x;
Gj=inv(C*inv(eye(2)-A+B*K(k,:))*B);
uq=Gj*r;
u=-K(k,:)*x+uq;
Jxu(k+1)=Jxu(k)+x'*Q*x+u'*R*u;
Jxx(k+1)=Jxx(k)+x'*(Q+K'*R*K)*x;
x=A*x+B*u;
end
Jxu(k+1)=Jxu(k+1)+x'*S*x;
Jinf=Jxu(k+1);
Jmin/Jinf
t=0:Ts:Ts*(kmax-1);
figure;
subplot(2,2,1),plot(t,x1);title(['h_1(t)']);
J. A. Pucheta (labimac.blogspot.com) 32
Control Óptimo para procesos estocásticos multivariable
c
•
b•
•
d
a•
Fig. 10. Trayectoria óptima desde a hasta d en línea continua. En línea de trazos, otra posible trayectoria
óptima.
Sea la trayectoria óptima mostrada en la Fig. 10. Suponiendo que la primer decisión, hecha en a,
resulta en el tramo a-b con costo ga-b y las decisiones siguientes tienen un costo Jb, correspondiente
al segmento b-d es decir, desde el punto b hasta el final. El costo mínimo desde a hasta d es
J *a = g ab + J b
Afirmación:
Si el tramo a-b-d es una trayectoria óptima de a hasta d, entonces b-d es la trayectoria óptima desde
b hasta d.
Prueba:
Suponiendo que el tramo b-c-d sea la trayectoria óptima, como muestra en línea de trazos la Fig. 10,
el costo desde b hasta d será entonces
J 1b = g bc + J c
g ab + J 1b < g ab + J b = J *a
pero puede cumplirse únicamente violando la condición que a-b-d es la trayectoria óptima desde a
hasta d. Así se prueba la afirmación.
Una secuencia óptima de control (política óptima) tiene la propiedad de que cualquiera sea el par
(estado, acción) inicial las decisiones restantes deben constituir una secuencia óptima de control
(política óptima) con respecto al estado resultante de la primera acción de control.
J. A. Pucheta (labimac.blogspot.com) 33
Control Óptimo para procesos estocásticos multivariable
dado el sistema lineal determinístico descrito por las Ec. (4-1) se desea encontrar una ley de control
uk que haga evolucionar al proceso desde x0≠0 a xN=0 minimizando el funcional de costo definido
en la Ec. (4-2).
Nótese que el funcional de costo define que la evolución del proceso está determinada en 3 etapas.
Solución:
Se tiene que
J * ( x ,3) = x 3 2 .
Se comienza calculando J*(x,2)
{ } {
J * ( x ,2) = min x 2 2 + u 2 2 + J * (x ,3) = min x 2 2 + u 2 2 + x 3 2 .
u u
}
Reemplazando mediante la expresión del modelo dinámico para poner todos los términos en
función de las variables del instante k=2,
{
J * (x ,2 ) = min x 2 2 + u 2 2 + (x 2 + u 2 )2 .
u
}
Diferenciando la cantidad entre llaves con respecto a u e igualando el resultado a cero, se obtiene
d
du
{ }
x 2 2 + u 2 2 + (x 2 + u 2 )2 = 2u 2 + 2(x 2 + u 2 ) = 2 x 2 + 4u 2 = 0 .
J. A. Pucheta (labimac.blogspot.com) 34
Control Óptimo para procesos estocásticos multivariable
J * ( x ,0) = min x 02 + u 02 + (x 0 + u 0 )2 ,
8
u 5
8
minimizando se obtiene u 0 = − x 0 y la función de costo resultante es
o
13
21
J * ( x ,0) = x 02 .
13
k J*(x,k) uo(x,k)
0 1,615x (0 ) − 8 x (0 )
2
13
1 1,600x (1)
2 3
− x (1)
5
2 1,500 x (2 )
2 1
− x (2 )
2
3 x (3 )
2
Tabla 6-1. Solución explícita para la función de costo mínimo y la secuencia óptima de control del ejemplo
Nótese que el funcional de costo define que la evolución del proceso está determinada en 3 etapas.
Solución:
Se tiene que
J* ( x ,3) = (x 3 − r3 )2 .
Se comienza calculando J*(x,2)
u
{ } u
{ }
J* ( x ,2) = min J (x , u ) = (x 2 − r2 )2 + u 22 + J* (x ,3) = min (x 2 − r2 )2 + u 22 + (x 3 − r3 )2 .
Reemplazando mediante la expresión del modelo dinámico para poner todos los términos en
función de las variables del instante k=2,
{
J * (x ,2 ) = min (x 2 − r2 )2 + u 2 2 + (x 2 + u 2 − r3 )2 .
u
}
Diferenciando la cantidad entre llaves con respecto a u e igualando el resultado a cero, se obtiene
d
du
{ }
(x 2 − r2 )2 + u 2 2 + (x 2 + u 2 − r3 )2 = 2u 2 + 2(x 2 + u 2 − r3 ) = 2x 2 + 4u 2 − 2r3 = 0 .
Usando este resultado y la convexidad de la función (x 2 − r2 )2 + u 2 2 + (x 2 + u 2 − r3 )2 se deduce
J. A. Pucheta (labimac.blogspot.com) 35
Control Óptimo para procesos estocásticos multivariable
Sustituyendo se obtiene
J * ( x , 2) =
+ (x 2 − r2 )2 = x 2 2 − 2 x 2 r2 + r22
[
+ [0,5(− x 2 + r3 )]2 = 0,25 (x 2 )2 − 2 ⋅ x 2 ⋅ r3 + r32 ]
= 0,25x 2 2 − 0,5x 2 r3 + 0,25r32 .
[
+ (x 2 − 0,5x 2 + 0,5r3 − r3 )2 = [0,5(x 2 − r3 )]2 = 0,25 (x 2 )2 − 2 ⋅ x 2 ⋅ r3 + r32 ]
= 0,25x 2 2
− 0,5x 2 ⋅ r3 + 0,25r32
= 1,5x 2 2 − x 2 (2r2 + r3 ) + r22 + 0,5r32
Sustituyendo en
J * ( x ,1) = (x 1 − r1 )2 + u 12 + 1,5x 2 2 − x 2 (2r2 + r3 ) + r22 + 0,5r32
se obtiene
J. A. Pucheta (labimac.blogspot.com) 36
Control Óptimo para procesos estocásticos multivariable
.
*
Finalmente la ecuación recursiva para J (x,0) es
u
(
J* ( x ,0) = min x 0 − r0 ) +u
2 2
0 + J* (x ,1) ,
minimizando respecto de u0,
1,6(x 0 + u 0 )2 − (x 0 + u 0 )[2r1 + 0,4(2r2 + r3 )] + r12 − 0,1(2r2 + r3 )2 + r22 + 0,5r32
2u 0 + 2(1,6)(x 0 + u 0 ) + [− 2r1 − 0,4(2r2 + r3 )] = 0
se obtiene
u 0 = −0,6153x 0 + 0,1923[2r1 + 0,4(2r2 + r3 )]
y la función de costo resultante se obtiene reemplazando a u0 en la expresión de J1*.
En la sección siguiente, se va a generalizar la metodología para un sistema multivariable y con N
etapas de evolución.
u N −1 u N −1
{
min J N -1 = min x TN-1Qx N-1 + u TN-1Ru N-1 + x TN Sx N . } (6-2)
Luego se reemplaza el valor obtenido de u en la expresión del funcional para obtener el costo
mínimo, expresado como J*N-1, que estará en función del modelo dinámico del proceso y de las
matrices de ponderación. Haciendo nuevamente el mismo procedimiento, se obtiene la acción u
para el instante uN-2 lo que permitirá obtener el J*N-2. Repitiendo éste procedimiento hasta el instante
k, se obtiene la expresión de la ley de control óptima que generará el costo mínimo J*.
Entonces, definiendo al funcional de costos en el instante k como función del funcional en el
instante k+1 se tiene,
J k = J(x k , u k ) = x(k) Q x(k) + uT (k) R u(k) + J k +1 (6-3)
T
J. A. Pucheta (labimac.blogspot.com) 37
Control Óptimo para procesos estocásticos multivariable
Se tiene
∂J N −1
= 2 BT (N - 1) S [A x(N - 1)] +
∂u(N - 1)
(6-6)
+ 2 BT S B u(N - 1) + 2 R u(N - 1) = 0.
reemplazando el estado y la acción de control para k=N-1, que son las Ecs. (6-5) y (6-7) en la Ec.
(6-4) y reordenando
con
H(N - 1) = S - S B [ R + BT S B ]-1 BT S (6-9)
P(N - 1) = Q + A T H(N - 1) A
(6-10)
se obtiene
min J N -1 = x T (N - 1) P(N - 1) x(N - 1).
u ( N -1 )
(6-11)
Se procede a continuación a minimizar a la Ec (6-3) en k=N-2,
J. A. Pucheta (labimac.blogspot.com) 38
Control Óptimo para procesos estocásticos multivariable
donde la diferencia está en cambiar a S por P(N-1). Siguiendo con la inducción, para un k
cualquiera,
[
u °(k) = - R + BT (k) P(k + 1) B ]-1 ⋅ BP(k + 1)x(k), (6-18)
la Ec. (6-20) s la ecuación matricial de Riccati y se debe resolver para obtener el vector de control.
La condición inicial para P es
P(N) = S . (6-22)
[
K(k) = R + BT P(k + 1) B ]-1 BT P(k + 1) A. (6-23)
que es la ecuación matricial de Riccati en estado estacionario. Nótese que igual a la Ec. (4-22).
Entonces la ecuación del controlador será
( )
-1
u °(k) = - R + B T PB B T PAx k . (6-26)
Para el caso del proceso invariante, se puede obtener la ecuación matricial de Riccati de estado
J. A. Pucheta (labimac.blogspot.com) 39
Control Óptimo para procesos estocásticos multivariable
Donde el controlador es sub óptimo en las transiciones, pero óptimo al alcanzar la referencia.
La metodología de diseño del controlador desarrollada para los sistemas mono variable, puede ser
extendida a los sistemas multivariable definidos en la Sección 1.1.1. Para ello, se formula el
problema de control considerando que el sistema (1-7) y expresando a la acción de control mediante
u t = −K x t (6-27)
donde K∈Rm×n, u y x son funciones temporales con magnitudes u∈Rm y x∈Rn, respectivamente.
xɺ t = A x t + b u t (6-29)
y se busca el vector kT de realimentación para obtener a ut
ut = kT xt (6-30)
T
de manera que los autovalores de A-BK sean los mismos que los de A-bk .
Igualando
[A − B K ] = [A − B h k T ] (6-31)
se concluye por comparación que
K = h kT (6-32)
Se ha convertido el problema multivariable en un problema de una simple entrada, y por lo tanto se
puede resolver con las ecuaciones del caso para la obtención de kT. El vector h no es único, por lo
que habrá más de una matriz de realimentación que cumpla con la asignación de polos requerida, la
única restricción para h es que el par (A, Bh) sea completamente controlable.
7. Programación dinámica
7.1. Versión numérica: Ecuación de Bellman
Hasta aquí no se han considerado las restricciones, ni tampoco las no linealidades en el modelo del
proceso a controlar ni funcionales de costo no cuadráticos.
J. A. Pucheta (labimac.blogspot.com) 40
Control Óptimo para procesos estocásticos multivariable
Cuando se trata con procesos cuyos modelos no son del tipo lineal o se deben considerar
saturaciones en los actuadores o en las variables de estado, sucede que la expresión analítica cerrada
de la solución al problema de control óptimo no siempre puede hallarse, por lo que se hace uso de la
aproximación numérica de la ley de control mediante la cuantificación de los estados de la planta.
Para formular el problema, se presentan las expresiones del modelo del proceso, las restricciones
en las variables y el funcional de costo a minimizar. Se considera el problema de minimizar la
función de costos separable
J = ∑ L[x (k ), u ( k ), k ]
N
k =0 (7-1)
donde x(0) tiene un valor fijo C y deben ser satisfechas la ecuación del sistema
x ( k + 1) = f [x ( k ), u ( k ), k ], k = 0,1,... N − 1 (7-2)
y las restricciones
x∈X ⊂ Rn , (7-3)
u∈U ⊂ R .
m (7-4)
Por simplicidad se supone que f y L son funciones acotadas y continuas de sus argumentos, y que x
y u pertenecen a subconjuntos cerrados y acotados de Rn y Rm, respectivamente. Entonces, el
teorema de Weierstrass asegura que existe una política de minimización.
Sistema x(k)
u(k)=µ(x(k),k)
x(k+1)=f(x(k),u(k),k)
µ(x(k),k)
Se desea hallar una función µ(x (k ), k ) : ℜn → ℜm , que haga evolucionar al proceso modelado
mediante la Ec (7-2) desde cualquier condición inicial hasta el estado final x(N) cumpliendo con las
restricciones (7-3) - (7-4), y que minimice al funcional de costo (7-1).
u( k) u (k)
{
min J(x, k) = min L(x, u(k), k ) + J* (f (x, u(k), k ), k + 1) , } (7-5)
{
uo (x, k) = arg min L(x, u(k), k) + J*(f (x, u(k), k), k + 1) .
u (k )
} (7-6)
J. A. Pucheta (labimac.blogspot.com) 41
Control Óptimo para procesos estocásticos multivariable
{ }
u o (x , k ) = arg min L(x , u (k ), k ) + J * (f (x , u (k ), k ), k + 1) .
u (k )
Para obtener la ley de control se proponen tres métodos, conocidos como Programación dinámica
regresiva (Clásica), Programación dinámica Iterativa, y Programación dinámica aproximada.
Mediante éste método, se obtiene una tabla de valores con dos entradas: x y k, conociendo que
J * = min{L(x , u ( N ), N )}
u(N)
En la metodología del ejemplo 6.1.2, cuyos resultados están en la Tabla 6-1, puede verse que hay
dos pasos: uno es para calcular la secuencia óptima de decisiones y otra para calcular la trayectoria
óptima del estado del proceso para cada valor numérico de x(0).
Se desea:
-Hallar la solución completa por programación dinámica.
-Generar la solución para el estado inicial x(0)=2.
-Aplicar interpolación lineal para cualquier interpolación requerida.
Con el objeto de facilitar el análisis es útil calcular la función de transición de estados y la función
de costo para cada etapa en cada estado cuantificado en función de la variable de decisión u.
Dado que, en este ejemplo, ambas funciones son invariantes en el tiempo, ahorra tiempo de
computarlas al principio y almacenarlas para referencia. Los resultados se muestran en las tablas
Tabla 7-1 y Tabla 7-2.
x(k) x(k+1)
0 2 ⋅ u (k )
1 1 + u (k )
2 2 + u (k )
J. A. Pucheta (labimac.blogspot.com) 42
Control Óptimo para procesos estocásticos multivariable
3 3 + 0,5 ⋅ u ( k )
Tabla 7-1. Función de transición de estados.
x(k) L[x(k),u(k),k]
0 2+u(k)
1 0,36788 ⋅ [2 + u ( k )]
2 0,13534 ⋅ [2 + u (k )]
3 0,04979 ⋅ [2 + u ( k )]
Tabla 7-2. Índice de desempeño para cada etapa en cada estado cuantificado.
Debe notar que en el estado x = 3 la decisión u = -1 lleva a un próximo estado igual a 2,5. Dado que
este estado no es uno de los estados cuantificados de X será necesaria una interpolación para
obtener el costo mínimo de dicho próximo estado.
Los cálculos comienzan especificando L[x,5] en los estados cuantificados como se muestra en la
Fig. 7-12 donde para cada estado cuantificado de esa etapa se tiene,
L[3,5] = |3-1| = 2
L[2,5] = |2-1| = 1
L[1,5] = |1-1| = 0
L[0,5] = |0-1| = 1.
x=3 2
x=2 1
x=1 0
x=0
1
k=0 1 2 3 4 5
Fig. 7-12. Condiciones de borde.
Para ilustrar el procedimiento de interpolación, se consideran los tres controles aplicados al estado
x=3 en la etapa k=4, como se muestra en la Tabla 7-3.
Para u = +1 el próximo estado es x = 3,5, el cual viola las restricciones de estados. Para u = 0 el
próximo estado es x = 3. El costo mínimo en el próximo estado es I(3,5) = 2 y el costo de la etapa es
L(3,0,4)=0,09958 lo que da un costo total de 2,09958.
Para u = -1 el próximo estado es x = 2,5, un valor intermedio en la mitad entre los estados
cuantificados x = 2 y x = 3. Una interpolación lineal entre el costo I(2,5)=1 e I(3,5)=2 da un costo
de I(2,5,5) = 1,5. El costo de la etapa es L(3,-1,4) = 0,04979 lo que da un costo total de 1,54979.
J. A. Pucheta (labimac.blogspot.com) 43
Control Óptimo para procesos estocásticos multivariable
Este último costo es, claramente, el valor mínimo. La solución completa se muestra en la Fig. 7-13.
0 -1 -1 -1 -1
x=3 2
0.83720 0.73762 0.69898 0.89236 1.54979
1 0 0 0 -1
x=2 1
1.14363 0.94735 0.67669 0.40601 0.13534
1 1 1 1 0
x=1 0
2.05099 1.78033 1.50965 1.23898 0.73576
x=0 1 1 1 1 0
1
3.67669 3.40601 3.13534 3.000
k=0 k=1 k=2 k=3 k=4 k=5
k X u L(x,u,k)
0 2 1 0,40602
1 3 -1 0,04979
2 2,50 -0,50 0,12313
3 2,05 -0,05 0,24792
4 2 -1 0,13534
5 1 - 0,0
0,96220
Tabla 7-4. Solución óptima para x(0) = 2.
Para el estado inicial x(0) = 2 la solución se muestra en la Tabla 7-4. Cabe destacar que esta
solución requiere interpolación para obtener la decisión óptima para k ≥ 2.
La decisión óptima para x(0) = 2 es u = 1 la cual lleva al próximo estado x(1) = 3 con un estado de
etapa L(2,1,0) = 0,40602. La decisión óptima para x(1) = 3 es u=-1 la cual lleva al próximo estado
x(2) = 2,5 y un costo de etapa de L(3,-1,1) = 0,04979. A partir de este estado se requiere realizar
interpolaciones dado que no es uno de los estados cuantificados para los cuales ya se han calculado
las decisiones óptimas.
Las decisiones óptimas para los dos estados más cercanos son û (2,2 ) = 0 y û (3,2) = −1 . La ecuación
general de interpolación lineal es
û[(a + 1)∆x , k ] − û (a∆x , k )
û (x , k ) = û (a ⋅ ∆x, k ) + ⋅ (x − ∆x )
∆x
para a ⋅ ∆x ≤ x ≤ (a + 1) ⋅ ∆x .
x 3 = 2.5 + 2 − 2.5 ∗ 2 + ∗ 2.5 2 − ∗ 2.5 3 (− 0.5) ≅ 2,05
5 1
4 4
J. A. Pucheta (labimac.blogspot.com) 44
Control Óptimo para procesos estocásticos multivariable
A continuación se obtiene directamente que la decisión óptima û (2,4 ) = −1 ,el costo en k=4 es
0,13534 y el estado final x(5)=1, con una penalidad (o costo) terminal de 0.
Es dable destacar que el costo total a lo largo de esta trayectoria es de 0,96220 y no 1,14363 que es
el valor calculado en el armado de la grilla. Esta discrepancia muestra que para ecuaciones del
sistema y funciones de costo no lineales, como las aplicadas en este ejemplo, es a veces necesario
utilizar intervalos de cuantificación más finos y/o interpolaciones de mayor orden para obtener
resultados precisos.
Estados
3
2
s
o
d
at
s 1
E
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Costo
2
1.5
s
ot 1
s
o
C 0.5
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Acción de control
1
l
or
t 0.5 Nmax =4 . Mmax=3
n
o
c
e 0 Nmax =45 . Mmax =45
d
s
e -0.5
n
oi
c -1
c
A 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
Etapas
La descripción de la planta o proceso en consideración por medio de una ecuación dinámica discreta
como la expresada mediante la Ec (7-2). La presencia de k en los argumentos de g indica que la
función puede, en general, variar con el tiempo (o etapa). Las dinámicas del sistema están fijadas
por la física del problema.
J. A. Pucheta (labimac.blogspot.com) 45
Control Óptimo para procesos estocásticos multivariable
Las restricciones en los estados y en las acciones de control, expresadas mediante las Ec (7-3) -
(7-4), están fijadas por la física del proceso y por el ingeniero.
El valor del índice L(x(k),u(k),k) para k=N normalmente es una expresión que no depende
explícitamente de u(N), por lo que se puede expresar mediante una función que es una función del
tiempo final N y del estado en el tiempo final N, es decir
Representa el costo o penalidad que el usuario le designa a cada estado final admisible. Si se desea
que el sistema llegue, en N etapas a un determinado estado final, se asigna costo cero a dicho estado
y un costo o penalización elevada a los otros estados. De esta manera se puede lograr que el costo
total de la trayectoria sea el mínimo, cuando el estado final es el estado al cual el ingeniero desea
que llegue dicha trayectoria óptima en las N etapas.
La función L[x(k),u(k),k] es una función que puede variar con la etapa k (a menudo el tiempo),
diseñada por el ingeniero para alcanzar una determinada respuesta o comportamiento por parte del
sistema.
Suponiendo que se desea encontrar la secuencia de control uk que lleve el sistema desde el estado
inicial dado x(0) a un estado final deseado x(N) en el tiempo mínimo. Entonces se podría
seleccionar el funcional
N −1
J = φ[x ( N )] + N = φ[x ( N )] + ∑ 1
k =0
y especificar la condición de borde x(N)=xd. En este caso es L=1, y N puede o no ser una variable a
minimizar.
Cuando se desea encontrar la secuencia de control {uk} para llevar el sistema desde x(0) a un estado
final deseado x(N), en un tiempo fijo N utilizando el mínimo combustible, el funcional a utilizar es
N −1
J = ∑ u (k ) + φ[x ( N )]
k =0
debido a que el combustible que se quema es proporcional a la magnitud del vector de control. En
este caso L=u(k). Por ejemplo si el control es proporcional a la diferencia de temperaturas TD-TA
entre la temperatura deseada y la temperatura ambiente, al variar TA la diferencia puede ser positiva
o negativa, indicando la necesidad de aplicar calefacción o refrigeración. En ambos casos existe
consumo de combustible.
J. A. Pucheta (labimac.blogspot.com) 46
Control Óptimo para procesos estocásticos multivariable
Este funcional se utiliza si se desea encontrar u(k) para minimizar la energía del estado final y de
todos los estados intermedios y también del control. Nuevamente suponiendo fijado el tiempo final
N, se puede utilizar el funcional
∑ [x (k ) Q x (k ) + u T (k ) R u (k )] + x T ( N) S x ( N)
1 N−1 T 1
J=
2 k = 0 2
Minimizar la energía corresponde, en cierto sentido, a mantener el estado y el control cerca de cero.
Si se considera más importante que los estados intermedios sean pequeños entonces se podrá elegir
qi grande para pesar los estados fuertemente en J que es el funcional que se trata de minimizar. Si es
más importante que sea pequeña la energía de control, entonces se elegiría un valor grande de ri. Si
interesa más que el estado final sea pequeño, entonces S debería ser grande.
El problema de control óptimo se caracteriza por compromisos y ajustes con diferentes factores de
peso en J que resultan en diferentes equilibrios entre objetivos de desempeño y magnitud de las
acciones óptimas requeridas. En la práctica, es usualmente necesario hacer un diseño de control con
un funcional J estimado, computar la secuencia de control óptimo uk y correr una simulación en
computadora para ver como responde el sistema a esta secuencia de acciones de control. Si la
respuesta no es aceptable, se repite la operación usando otro J con diferentes pesos en los estados y
controles. Después de varias repeticiones para encontrar una secuencia uk aceptable, esta versión
final de uk se aplica al sistema real.
Las ventajas de la PDR pueden destacarse en los problemas de baja dimensionalidad, ya que es una
metodología que encuentra un mínimo global, y la ley de control resultante reside en una tabla de
valores. Sin embargo, para ampliar el ámbito de aplicación de la PDR a sistemas de alta
complejidad y de grandes dimensiones existen dos alternativas: la Programación dinámica iterativa
y la Programación dinámica aproximada.
Fue propuesta por Luus en 1990, para procesos químicos. Intenta ampliar el campo de aplicación
hacia los problemas de ingeniería de grandes dimensiones. Propone implementar el algoritmo de
la PDR sobre una región determinada del espacio de estados.
Para aplicar la PDR, se aproxima el problema de control óptimo buscando una política de control
constante por partes, generando una secuencia de decisiones como política de control que varía
en forma continua, sobre P etapas de tiempo, cada una de longitud L, tal que
tf
L= .
P
J. A. Pucheta (labimac.blogspot.com) 47
Control Óptimo para procesos estocásticos multivariable
El problema entonces es encontrar la secuencia u0, u1, ...., uP – 1 que minimiza el funcional de
costos.
Se define
L = t k +1 − t k
con tP = tf y t0 = 0.
Paso 4: Eligiendo Nu (impar) valores de control dentro de la región admisible, evaluar la Ec.
(7-2) del modelo dinámico de proceso Nu veces para generar la grilla x en cada etapa de tiempo.
Paso 5: Comenzando en la última etapa de tiempo P, correspondiente al tiempo (tf – L), para
cada punto de la grilla x evaluar la Ec. (7-2) desde (tf – L) hasta tf para todos los Mum valores
admisibles de control. Elegir el control u que minimiza el funcional de costo y almacenar el valor
del control para usarlo en el paso 6.
Paso 6: Retroceder a la etapa P – 1, correspondiente al tiempo (tf – 2L) y evaluar a la Ec. (7-2)
desde (tf – 2L) hasta (tf – L) para cada punto de la grilla x con los Mm valores admisibles de
control. Para continuar la integración desde (tf – L) hasta tf elegir el control del paso 5 que
corresponde al punto de la grilla más cercano al x resultante en (tf – L). Comparar los Mm valores
del funcional de costo y almacenar el valor de control que da el mínimo valor.
donde j es el índice de iteración. Usar la trayectoria x óptima del paso 7 como puntos medios
para la grilla x en cada etapa de tiempo, y usar la política de control óptima del paso 7 como
puntos medios para los valores admisibles del control u en cada etapa de tiempo.
7.6.2. Comentario
Como ventaja, se logró obtener una secuencia de acciones de control empleando menores
recursos computaciones que en el caso de la PDR. Sin embargo, ésta técnica permite encontrar
una solución para el problema de control óptimo dependiente del estado inicial del proceso, por
lo cual en la operación en línea requiere de un equipamiento capaz de implementar la PDI en
línea y en el tiempo de muestreo impuesto por el proceso real y la especificación de control.
J. A. Pucheta (labimac.blogspot.com) 48
Control Óptimo para procesos estocásticos multivariable
7.7.1. Aprendizaje Q
A ésta política mejorada, se le vuelve a computar los costos asociados y se calculan nuevamente
los factores Q mediante la Ec. (7-8). Repitiendo éste procedimiento, se llega a la política óptima
cuando no hay más cambio en los factores Q o en la mejora de la política.
Se actualizan los valores de los factores Q asociados a una política, evitando evaluar la política
en el proceso. Se definen los factores Q óptimos Q*(i,u) correspondientes al par (i,u) mediante
Los factores Q óptimos Q*(i,u) son la solución única del sistema de la Ec. (7-12).
J. A. Pucheta (labimac.blogspot.com) 49
Control Óptimo para procesos estocásticos multivariable
Q n +1 (i, u ) = (1 − γ )Q n (i, u ) + γ L (i, u , j) + min Q n ( j, v ). (7-14)
v∈U ( j)
La función γ cambia de una iteración a otra para el mismo par (i,u). Se demuestra que la
convergencia estará asegurada si se cumple que
∞ ∞
∑ γ n (i, u ) = ∞, ∑ γ 2n (i, u ) < ∞, ∀i, u ∈ U (i ), (7-15)
n =0 n =0
entonces Qn(i,u) converge a Q*(i,u). Se supone que existe una política óptima y que Q está
acotado para todo su dominio.
J. A. Pucheta (labimac.blogspot.com) 50
Control Óptimo para procesos estocásticos multivariable
% Programación dinámica.
% Apredizaje Q.
% Para el Ejemplo 7.3.1.
% x(k+1)=x(k)+(2-2*x(k)+5/4*x(k)^2-1/4*x(k)^3)*u(k);
% con el funcional de costo J=sum((2+u(k))*exp(-x(k)));
%Autor JAP
%06 12 07
clear,clc,close all;
%%%Carga de datos
J. A. Pucheta (labimac.blogspot.com) 51
Control Óptimo para procesos estocásticos multivariable
Estados Costo
3 4
2.5
3
2
s s
o 1.5 ot 2
d
at s
s o
E 1 C
1
0.5
0 0
0 1 2 3 4 5 0 1 2 3 4 5
l 0.5
or 5
10
t
n
o
c
e 0
d
s
e 0
n 10
oi -0.5
c
c
A
-1 -5
10
0 1 2 3 4 5 0 2 4 6 8 10
Etapas Iteraciones
{ }
J * ( x , k ) = min L (x , u k , k ) + J * (f (x , u k , k ), k + 1) ,
uk (7-16)
donde f es el modelo dinámico del proceso
x k +1 = f (x k , u k , k ), k = 0,1,2...N - 1. (7-17)
Como muestra la Ec. (7-16), si se dispone de la función J* en el estado siguiente al xk, se podría
encontrar la acción de control óptima uk. Sin embargo, como es bien sabido la minimización de
la Ec. (7-16) es laboriosa y demanda recursos computacionales cuando la dimensionalidad del
problema aumenta.
Una alternativa al problema de la dimensionalidad consiste en utilizar una función los valores de
la Ec. (7-16) en un dominio compacto. Así, se obtiene una representación compacta del costo
asociado a cada estado del proceso, el esquema de la Fig. 17 muestra esta característica.
J. A. Pucheta (labimac.blogspot.com) 52
Control Óptimo para procesos estocásticos multivariable
Aproximación del
J (i )
i ~
costo J µ (i, r )
~
Como se observa en la Fig. 17, encontrando el valor del vector r adecuado, se dispone del valor
aproximado del costo mínimo en el que se incurre para llegar al estado de costo nulo partiendo
del estado actual i, y si se dispone del modelo del sistema se podrá encontrar la política de
control mediante
uk
{ ~
}
J * ( x , k ) = min L(x , u k , k ) + J * (f (x , u k , k ), k + 1, r ) . (7-18)
Para encontrar r, se divide en dos tareas el proceso de búsqueda que encuentra la función de
política, como se muestra en la Fig. 18, una es la evaluación de una política estacionaria definida
a partir de la que se calculan los costos para todos los estados del proceso, y la otra tarea es la
mejora de la política. Ambas tareas se realizan de manera aproximada con respecto al sistema
original, porque se utiliza una función que ajusta su comportamiento. La función de
aproximación podrá ser una red de neuronas y por lo tanto la aproximación en la evaluación y
mejora de la política se debe a su utilización.
Actualización de política µ
Jµ µ
Evaluación aproximada de
política
Implementación
~ ~
Se dispone de un conjunto de datos representativos S y para cada estado i ∈ S se calculan los
valores de costo c(i), de la función Jµ(i), luego minimizando en r
r ~
(
min ∑ J (i, r ) − c(i )
~ 2
) (7-19)
i∈S
J. A. Pucheta (labimac.blogspot.com) 53
Control Óptimo para procesos estocásticos multivariable
Luego se calculan los costos asociados a cada par estado acción, mediante
Q(i, u ) = L(i, u ) + J ( j, r ).
~ ~
(7-21)
µ∈U (i )~
~
(
µ = arg min L(i, m ) + J ( j, r ) ∀i ) (7-22)
para cada estado correspondiente al conjunto S .
Una vez que se dispone de J µ (i, r ) , se obtiene µ a partir de la ecuación (7-22). Luego se evalúan
~
los costos asociados a cada estado, simbolizados por c(i), mediante la Ec. (7-20) se ajustan los
parámetros de r obteniendo una nueva versión de la función de aproximación J µ (i, r ) . Luego, se
~
procede a efectuar la de mejora de política, en la que se obtiene una nueva política de control
expresada como µ . Se comienza con el cálculo de los costos para cada estado, y entre cada
iteración se efectúa la actualización de la función γ.
Consideraciones
5
γn = .
5 + 1,5n
J. A. Pucheta (labimac.blogspot.com) 54
Control Óptimo para procesos estocásticos multivariable
Estados Costo
3 4
2.5
3
2
s s
o 1.5 ot 2
d
at s
s o
E 1 C
1
0.5
0 0
0 1 2 3 4 5 0 1 2 3 4 5
l 0.5 2
or
t
n
o
c
e 0 1.5
d
s
e
n
oi -0.5
c 1
c
A
-1
0.5
0 1 2 3 4 5 0 5 10 15 20
Etapas Iteraciones
Fig. 19. Desempeño del controlador para el Ejemplo 7.3.1 mediante iteración de política aproximada.
La función µ (i ) es la solución analítica del planteo de control óptimo, que mediante la técnica de
iteración de política aproximada se obtiene una aproximación µ~(i, v ) de la función µ (i ) , donde v
es el vector de parámetros de ajuste. Para encontrar la función aproximadora µ~(i, v ) , se lleva a
cabo la metodología que se detalla a continuación.
min ∑ (µ
~ (i, v ) − µ (i ))2
(7-24)
v i∈S
Una solución la Ec (7-24) se obtiene mediante el método del gradiente incremental. Cada
iteración es representada por
~ (i, v )(µ (i ) − µ
v := v + γ∇µ ~ (i, v )) (7-25)
para todo i que pertenece a Ŝ , donde γ cumple con las condiciones de (7-15).
Aproximación de
i u
política ~ (i, r )
µ
Una vez disponible la función µ~ (⋅, v ) , se obtienen las acciones de control como se indica en la
Fig. 20. El esquema de control es el que se muestra en la Fig. 21, es conocido como
neurocontrolador debido a que una función de aproximación implementada mediante una red de
neuronas genera las acciones de control.
f (x , u , k )
100
γn = .
100 + 1,5n
J. A. Pucheta (labimac.blogspot.com) 56
Control Óptimo para procesos estocásticos multivariable
Estados Costo
3 4
2.5
3
2
s s
o 1.5 ot 2
d
at s
s o
E 1 C
1
0.5
0 0
0 1 2 3 4 5 0 1 2 3 4 5
l 0.5
or
t
n
o
c
e 0
d
s
e
n
oi -0.5
c
c
A 0
10
-1
0 1 2 3 4 5 0 20 40 60 80 100
Etapas Iteraciones
Fig. 22. Evolución del sistema del Ejemplo 7.3.1 cuando se controla con un neurocontrolador.
El objetivo de control consiste en hallar la ley de control que haga evoluciona al proceso modelado
mediante la expresión (7-27) minimizando al funcional de costos (7-26). El modelo del sistema es
xɺ = a [x , u , t ], t ∈ [ t , t ]
t t t
(7-27)
0 f
J. A. Pucheta (labimac.blogspot.com) 57
Control Óptimo para procesos estocásticos multivariable
Subdividiendo el intervalo en ∆t
t + ∆t tf
J * (x t , t ) = min ∫ g (x τ , u τ , τ )dτ + ∫ g (x τ , u τ , τ )dτ + h x t f , t f ( ) (7-29)
u τ∈[ t , t + ∆t ]
t t + ∆t
donde se aplicará el Principio de optimalidad de Bellman.
∆t
• t •
•
t0 • tf
Se obtiene, entonces
t + ∆t
J * (x t , t ) = min ∫ g (x τ , u τ , τ )dτ + J * (x t + ∆t , t + ∆t ). (7-30)
u τ∈[ t , t + ∆t ]
t
Asumiendo que existe derivada segunda de J* en la Ec. (7-30), y que es acotado, se hace la
expansión mediante serie de Taylor en el punto (xt,t). Se tiene,
t + ∆t ∂J * (x t , t )
J * (x t , t ) = min ∫ g (x τ , u τ , τ )dτ + J * (x t , t ) + ∆t + (7-31)
u τ∈[ t , t + ∆t ]
t ∂t
∂J * (x t , t )
T
+ [x t + ∆t − x ] + tér min os de orden superior .
∂x
t
{
J * (x t , t ) = min g (x t , u t , t )∆t + J * (x t , t ) + J *t (x t , t )∆t +
ut
(7-32)
+ J *x (x t , t ) [a (x t , u t , t )]∆t + términos de orden superior}.
T
T
∂J * ∂J * ∂J * ∂J *
donde se definen J *x = = ⋯ , y J *t = .
∂x ∂x 1 ∂x 2 ∂t
Los términos J* y Jt* pueden sacarse de las llaves de minimización porque no dependen de ut. Se
tiene,
Se llega a
0 = J *t (x t , t ) + min{g (x t , u t , t ) + J *x (x t , t ) [a (x t , u t , t )]
T (7-35)
ut
J * (x t , t f ) = h x t f , t f ( ) (7-36)
Definiendo al Hamiltoniano H como
( )
H x t , u t , J *x , t = g(x t , u t , t ) + J *x (x t , t )T [a (x t , u t , t )] (7-37)
y también se define a
( ) {(
H x t , u*, J *x , t = min H x t , u t , J *x , t )} (7-38)
que debido a la acción minimizante dependerá de x, J*x y t. Así, se llega a la Ecuación de Hamilton
Jacobi Bellman, expresada en función del Hamiltoniano
(
0 = J *t (x t , t ) + H x t , u*, J *x , t ) (7-39)
Sea el sistema
xɺ t = x t + u t (7-40)
u t + J *x (x t , u t )
1 2
H= (7-44)
la derivada respecto de u es 4
∂H 1
= u t + J *x (x t , t ) (7-45)
∂u 2
y la derivada segunda de H es
∂2H 1 (7-46)
= >0
∂u 2 2
J. A. Pucheta (labimac.blogspot.com) 59
Control Óptimo para procesos estocásticos multivariable
0 = J *t +
1
4
[
− 2J *x ] + [J ]x
2 *
x t [ ]
− 2 J *x
2
(7-48)
resulta
0 = J *t − J *x [ ] + [J ]x
2 *
x t (7-49)
que para t=T se tiene
J * (x T , T ) =
1 2
xT. (7-50)
4
Se propone una solución, por ejemplo
J * (x t , t ) =
1
K t x 2t (7-51)
2
donde Kt es una función temporal, incógnita.
J *x (x t , t ) = K t x t (7-52)
que por la Ec. (7-47) se tiene que
u *t = −2K t x t (7-53)
Tomando KT=1/2,
J *t (x t , t ) =
1 ɺ 2 (7-54)
Ktxt
2
y mediante la HJB Ec (7-49), y debido a que debe resolverse para todo xt, se llega a
1 ɺ
0= K t − K 2t + K t . (7-55)
Una solución es 2
exp(T − t )
Kt = (7-56)
exp(T − t ) + exp(t − T )
Nótese que si T>>t, K es aproximadamente 1, y el sistema es estable ya que reemplazando en la Ec
(7-40) se tiene
xɺ t = − x t . (7-57)
Nótese que la solución para un problema con un sistema modelado con una variable de estado, y un
funcional de costo cuadrático es muy laboriosa y tediosa, incrementando la dificultad si el sistema
es modelado como no lineal y el funcional de costo propuesto no es cuadrático. La ventaja, es que
se propone el funcional de costo en estructura que se desee, como se hizo en la Ec. (7-51), y luego
se encuentra la función del controlador que genera ése funcional.
Se han visto diferentes métodos para implementar un controlador que resuelva el problema de
control óptimo formulado mediante las Ec. (7-1), (7-2), (7-3), y (7-4); también conocido como el
problema básico del control óptimo. Cuando la implementación del controlador pretende hacerse
mediante una forma compacta, al estilo de la Ec. (7-23), debe tenerse presente que para la
J. A. Pucheta (labimac.blogspot.com) 60
Control Óptimo para procesos estocásticos multivariable
J. A. Pucheta (labimac.blogspot.com) 61
Control Óptimo para procesos estocásticos multivariable
Cuando se aplican criterios de optimización, los resultados que se obtienen dependen de las señales
utilizadas. Eventualmente un sistema de control diseñado en forma óptima para señales
determinísticas, podrá ser subóptimo cuando el mismo está sometido a perturbaciones reales.
En la mayoría de los casos los resultados obtenidos del diseño determinístico son aplicables a
sistemas reales, afectados por señales reales. No obstante, cuando se aumentan las exigencias de
control, los controladores deben diseñarse no sólo basándose en la dinámica del sistema a controlar,
sino también teniendo en cuenta las características estocásticas de las señales actuantes.
Experimento
Ley
probabilística
P(B)
P(A)
Evento A
Evento B
Espacio muestral Ω
Conjunto de resultados
Los elementos del modelo probabilístico se pueden observar en la Fig. 8-1. Se simboliza mediante
la terna
(Ω, F, P)
donde Ω es el conjunto de todas las posibles salidas del experimento, F es una colección de
subconjuntos de Ω denominado eventos, que incluye a Ω, con las propiedades siguientes:
(1) si A es un evento, entonces Ac={ω∈Ω | ω∉A} es también un evento, y se incluye Ωc ya que
es el conjunto vacío ∅.
J. A. Pucheta (labimac.blogspot.com) 62
Control Óptimo para procesos estocásticos multivariable
(2) si A1, A2, ...Ak,... son eventos, entonces ∪∞k =1 A k y ∩ ∞k =1 A k son también eventos.
P es una función que asigna a cada evento A un número no negativo P(A) denominado
probabilidad del evento A que cumple con
(1) P(Ω)=1.
(2) P(∪∞k=1 A k ) = ∑k =1 P(A k ) para cada secuencia mutuamente disjunta A1, A2, ...Ak,...
∞
P es la medida de probabilidad.
Se define sobre el espacio probabilístico (Ω, F, P) la variable aleatoria x, si para cada escalar λ el
conjunto
{ω∈Ω | x(ω)≤λ}∈F
siendo así, un evento. Además, tendrá una función de distribución de probabilidad
F(z)=P{ω∈Ω | x(ω)≤z}.
a (t ) = rt + ruido
(8-2)
entonces X será un proceso estocástico, y la Ec. (8-1) será una Ecuación diferencial estocástica
(EDE).
Para hallar una solución de la Ec. (8-1), se debe modelar a la señal “ruido”, es decir, proponer
características que permitan limitar el alcance del planteo. Suponiendo que “ruido” sea un
Proceso estocástico W ruido blanco con las siguientes propiedades:
(i) ∀t1≠t2 entonces Wt1 y Wt2 son independientes.
(ii) {Wt} es estacionario, es decir que la distribución conjunta de {Wt1+t,···,Wtk+t} no
depende de t.
(iii) E[Wt]=0 ∀t.
J. A. Pucheta (labimac.blogspot.com) 63
Control Óptimo para procesos estocásticos multivariable
dX (8-3)
= rt ⋅ X + σ t ⋅ W t ⋅ X
dt
donde σt es un escalar función del tiempo. Con mayor generalidad, las funciones temporales rt y σt
pueden ser función de t y de X. Así, la Ec. (8-33) se convierte en
= r (t k , X k ) ⋅ X + σ (t k , X k ) ⋅ W t ⋅ X
dX (8-4)
dt
Resolviendo, se define el intervalo de integración [0, t] y en el mismo una partición 0=t0<t1<...<tm=t.
Se tiene que la Ec. (8-4) puede escribirse como
X k +1 − X k
= r (t k , X k ) ⋅ X k + σ (t k , X k ) ⋅ W k ⋅ X k (8-5)
∆t k
despejando ∆tk
X k +1 − X k = r (t k , X k ) ⋅ X k ⋅ ∆ t k + σ (t k , X k ) ⋅ X k ⋅ W k ⋅ ∆ t k (8-6)
Reemplazando el producto
Wk ⋅ ∆t k
por
∆Vk = V(t k +1 ) − V(t k )
donde {Vt,t≥0} sugiere que sea un movimiento Browniano. Se demuestra porque es el único PE con
trayectorias continuas y tales características en sus incrementos. Entonces, poniendo al PE Vt=Bt, se
tiene que
k −1 k −1
( ) ( )
X k = X 0 + ∑ r t j , X j ⋅ X j ⋅ ∆t j + ∑ σ t j , X j ⋅ X j ⋅ ∆B j . (8-7)
j= 0 j= 0
Haciendo en la Ec. (8-7) ∆tk→0, si es que existe límite en algún sentido, se puede escribir a la
solución X como
t t
X t = X 0 + ∫ r (s, X s ) ⋅ X s ⋅ ds + ∫ σ (s , X s ) ⋅ X s ⋅ dB s (8-8)
0 0
donde dBt es un mB que inicia en el origen. Ahora la Ec. (8-38) puede escribirse incluso en la forma
compacta diferencial
dX t = r (t , X t ) ⋅ X t ⋅ dt + σ (t , X t ) ⋅ X t ⋅ dB t , X (0 ) = X 0 cte. (8-9)
que es la versión estocástica general de la Ec. (8-1).
Para hallar la solución de la EDE (8-38), una de las herramientas más poderosas es la fórmula de
Itô. En ésta sección sólo se desarrollará la aplicación, como motivación del estudio de las EDEs y su
utilidad para representar procesos reales. Suponiendo que r,σ∈R, en la Ec. (8-38), se tiene que
dX t = r ⋅ dt ⋅ X t + σ ⋅ X t ⋅ dB t (8-10)
donde se pueden agrupar las variables de la forma
dX t
= r ⋅ dt + σ ⋅ dB t (8-11)
Xt
integrando ambos miembros, se tiene
J. A. Pucheta (labimac.blogspot.com) 64
Control Óptimo para procesos estocásticos multivariable
t t t
dX s
∫ X s ⋅ ds = ∫ r ⋅ ds + ∫ σ ⋅ dB s = r ⋅ t + σ ⋅ B t . (8-12)
0 0 0
Para hallar la solución del lado izquierdo, se evaluará mediante la fórmula de Itô la función ln(Xt).
Por lo tanto, se tiene que
1 1
d (ln X t ) = dX t + − 2 ⋅ (dX t ) = ⋅ (dX t )
1 dX t 1
−
2 2 (8-13)
2
Xt 2 Xt Xt 2X t
Reemplazando el dXt de la Ec. (8-10)
d (ln X t ) = ⋅ (r ⋅ dt ⋅ X t + σ ⋅ X t ⋅ dB t )
dX t 1
−
2 (8-14)
Xt 2 X 2t
de donde finalmente, usando las reglas de derivación de Itô, se obtiene
dX t σ 2
d (ln X t ) = − ⋅ dt . (8-15)
Xt 2
Integrando ambos miembros respecto del tiempo, se tiene
σ2
t t t
∫ d (ln X s ) ⋅ ds = ∫
dX s
⋅ ds − ∫ ⋅ ds . (8-16)
0 0
Xs 0
2
1
X t = X 0 ⋅ exp r − σ 2 ⋅ t + σ ⋅ B . (8-18)
2
La expectativa es
E [X t ] = E [X 0 ] ⋅ exp (r ⋅ t ). (8-19)
Nótese que la Ec. (8-32) tiene igual estructura que las soluciones a EDOs lineales determinísticas.
Sea el sistema RLC representado en la Fig. 1-1, con la carga del circuito modelada mediante la
EDO
d 2Q
+ Q = V e , Q (0 ) = Q 0 ,
dQ 1 dQ
L 2 +R = I0 (8-20)
dt dt C dt
Entonces, expresando a la tensión de entrada como una función determinística más una componente
de ruido, se tiene
ve = G + α ⋅ W (8-21)
J. A. Pucheta (labimac.blogspot.com) 65
Control Óptimo para procesos estocásticos multivariable
y haciendo la asignación
x Q (8-22)
X = 1 = dQ .
x 2 dt
dx1 0 1 0 0
donde Bt es un mB unidimensional, dX = , A = 1 R , H = 1 , K = α .
dx 2 − LC −
L L G L
x
g (t , x 1 , x 2 ) = exp (− A ⋅ t ) ⋅ 1 (8-27)
x 2
Aplicando Itô multidimensional, se tiene que
d (exp (− A ⋅ t ) ⋅ dX ) = (− A ) exp (− A ⋅ t ) ⋅ dX ⋅ dt + exp (− A ⋅ t ) ⋅ dX . (8-28)
Sustituyendo en la Ec. (8-26) se tiene que
t t
exp (− A ⋅ t ) ⋅ X − X 0 = ∫ exp (− A ⋅ s ) ⋅ H ⋅ ds + ∫ exp (− A ⋅ s ) ⋅ K ⋅ dB s (8-29)
0 o
J. A. Pucheta (labimac.blogspot.com) 66
Control Óptimo para procesos estocásticos multivariable
Siguiendo con la definición anterior, dado un experimento aleatorio cuyos elementos θ pertenecen a
un espacio muestral Ω, se puede definir una función ξ que asocia a cada elemento de dicho espacio
una función de tiempo discreto xi(k), donde k es la notación simplificada de KT, siendo T el período
de muestreo. Al conjunto imagen χ que contiene todas las funciones vinculadas al experimento
aleatorio se lo define como Proceso Aleatorio o Estocástico. Cada función es una realización del
proceso. Esto se puede representar como
ξ:Ω → χ (8-31)
con
χ = {x i (k, θ), i = 1, 2, ...}. (8-32)
De esta manera para un instante determinado n, queda definida una variable aleatoria xn. Si en lugar
del tiempo se fija un elemento cualquiera θj del experimento aleatorio queda definida una función.
Las propiedades estadísticas del proceso estocástico se pueden describir por su función de densidad
de probabilidad y por las funciones de probabilidad conjunta de todas las variables aleatorias que se
pueden definir en el proceso. Cuando estas caracterizaciones estadísticas son funciones del tiempo,
entonces se dice que el proceso es variante. Por el contrario si son independientes del instante de
observación se dice que es invariante. Esto implica que los parámetros estadísticos son iguales para
todas las variables aleatorias que se puedan definir en el proceso.
En este caso los parámetros estadísticos obtenidos para una variable aleatoria, en un instante
definido, sobre todas las funciones o realizaciones, son iguales a los que se obtienen a lo largo del
tiempo de evolución de una de las señales.
donde N es el número total de muestras de una realización, Mi es la cantidad de veces que tiene
lugar el suceso xi(k) y M el número total de funciones o realizaciones.
El primer miembro de la Ec. (8-33) se denomina valor medio temporal. El segundo representa el
valor medio de las muestras para un tiempo dado k. El poder establecer esta igualdad es de gran
importancia ya que permite aplicar todas las herramientas matemáticas de la estadística a las
señales temporales. El valor medio, expectativa o esperanza matemática se expresa como
1 N (8-34)
m x = E { x(k) } = lim
N→∞
∑ x(k).
N k =1
J. A. Pucheta (labimac.blogspot.com) 67
Control Óptimo para procesos estocásticos multivariable
Los parámetros estadísticos como valor medio, varianza, dispersión y momentos de distinto orden,
son valores que dan información sobre las señales estocásticas, pero que son independientes de la
variable tiempo. Esto es, no tiene información sobre cuan rápido cambia la señal o cual es su
contenido armónico. Una función que provee información sobre la coherencia interna de una señal o
sobre su velocidad de cambio es la Función de Autocorrelación, definida como la esperanza
matemática del producto de la señal consigo misma desplazada en el tiempo, m intervalos de
muestreo.
Φxx (m) = E{x(k) x(k + m)}. (8-35)
En el dominio discreto se tiene:
Φ xx (m) = E {x(k) x(k + m)} = lim
1 N
N →∞
∑ x(k) x(k + m). (8-36)
N k =1
Se observa de la definición que el valor medio de la señal influye en la correlación. Si se desea
obtener una función que solamente tenga en cuenta las fluctuaciones respecto del valor medio, se
pueden substraer éstos de la señal. En este caso se obtiene la Función de Autocovarianza o
simplemente Covarianza, definida como:
N →∞
(8-38)
N k =1
Si la señal tiene distribución gaussiana, las características estadísticas estáticas y dinámicas quedan
totalmente definidas por la esperanza y la función de autocovarianza. Si estos valores son
independientes del tiempo, la señal es estacionaria en sentido amplio.
La dependencia estadística entre dos señales estocásticas estacionarias x(k) e y(k) está definida por
la Función de Intercorrelación. En tiempo discreto está definida por
1 N
Φ xy (m) = E { x(k) y(k + m) } = lim
N →∞ N
∑ x(k) y(k + m). (8-39)
k =1
De igual modo, cuando se eliminan los valores medios de las señales se obtiene la denominada
Función de Intercovarianza.
donde p(x), p(y) son las funciones de densidad de probabilidad de x, y respectivamente, mientras
que p(x, y) es la función de densidad de probabilidad conjunta.
Un ruido blanco es una señal para la cual cualquier valor es independiente de todos los valores
pasados. Esto implica que la función de covarianza será idénticamente nula para cualquier m,
excepto para m=0 donde tomará un valor definido. Si el ruido blanco tiene una distribución
gaussiana, el mismo quedará totalmente definido por su valor medio mx y la función de covarianza
R xx (m) = σx (m)
2
(8-43)
J. A. Pucheta (labimac.blogspot.com) 68
Control Óptimo para procesos estocásticos multivariable
siendo
1 para m = 0
σx (m) =
2
0 para m ≠ 0.
Cuando una señal está definida por un conjunto de n valores en cada instante, se tiene una señal
estocástica vectorial o vector señal de orden n definida como
x T (k) = [ x1 (k) x 2 (k) ... x n (k)] .
(8-44)
Este vector siempre se podrá descomponer en sus n señales escalares. Si cada señal es estacionaria
su valor medio estará definido por
T T
m x = E {x (k)} = [ m x 1 m x 2 ... m xn ] . (8-45)
La coherencia interna del vector señal se define mediante el valor esperado del producto del vector
señal, sin su valor medio, con su traspuesto desplazado en el tiempo. Esto queda expresado por la
Función Matricial de Covarianza.
T
R xx (m) = E { [ x(k) - m x ] [ x(k + m) - m x ] }
o bien
. . … . (8-46)
R xx (m) =
. . … .
. . … .
R (m) R (m) … R x x (m)
xx n 1xx n 2 n n
Esta función matricial queda formada por todas las funciones de covarianza de las distintos
componentes del vector señal de orden n. Sobre la diagonal se encuentran las n funciones de
autocovarianza de las n componentes de la señal vectorial y todos los otros elementos son las
funciones de intercovarianza entre las componentes de la señal. Cuando las componentes del vector
señal son señales escalares incorreladas, su intercovarianza será cero y la función matricial será una
matriz diagonal.
R x x (m) 0 … 0
1 1
0 R x x (m) … 0
2 2
. 0 … . (8-47)
R xx (m) =
. . … .
. . … 0
0 0 … R x x (m)
n n
Una variable aleatoria x se dice que es gaussiana cuando está caracterizada por la función de
densidad de probabilidad
1 1 (x - m ) 2
p(x) = exp − x
(8-48)
(2 π ) σ x
1/2 2 σ
x
J. A. Pucheta (labimac.blogspot.com) 69
Control Óptimo para procesos estocásticos multivariable
propuesta por Gauss y de allí su nombre. Se puede hacer una extensión para n variables aleatorias,
organizadas en forma vectorial, obteniéndose
1
p[x (k )] = 2 π-n/2 [det R xx(k )] exp − [x (k ) - m x (k )] R xx (k ) [x (k ) - m x (k )]
−1 / 2 T -1 (8-49)
2
donde
m x (k ) = E{x (k )} (8-50)
De esta manera, un proceso aleatorio estacionario caracterizado por la Ec. (8-49), se dice que es
gaussiano.
J. A. Pucheta (labimac.blogspot.com) 70
Control Óptimo para procesos estocásticos multivariable
El proceso podrá expresarse como una ecuación matricial en diferencias de primer orden
x1 (k + 1) 0 1 0 … 0 x1 (k ) 0
x 2 (k + 1) 0 0 1 … 0 x 2 (k ) .
. . . . … . . .
+ . v(k ).
(8-57)
= . . . … .
. .
. 0 0 0 … 1 . .
x n (k + 1) a1 a 2 . … a n x n (k ) b
En forma sintética
x (k + 1) = A x (k ) + b v(k ). (8-58)
Si la matriz A y el vector b son constantes, cada elemento de x(k+1) depende sólo del valor presente
de x(k) y es por lo tanto un proceso de Markov. En la Fig. 8-2 se representa la Ec. (8-58).
Una extensión natural del concepto de estado para sistemas determinísticos a los sistemas
estocásticos, es exigir que la función de distribución de probabilidad del vector de estado, en el
futuro, sólo dependa del valor actual del estado. Una forma de transformar la ecuación de estado
determinística en una ecuación estocástica, es suponer que x(k+1) es una variable aleatoria que
depende de x(k) y de e(k). Es decir
x (k + 1) = f [x (k ), u (k ), k ] + e[x (k ), k ] (8-59)
J. A. Pucheta (labimac.blogspot.com)
2
{
R ee[x (k ), k ] =diag σe1 [x (k ), k ] , ⋯, σen [x(k), k ]
2
} 71
Control Óptimo para procesos estocásticos multivariable
(8-62)
donde σ ei es la varianza de la componente i-ésima del vector aleatorio e y proporciona una
2
El vector e se puede modelar de manera que provenga de otro vector de ruido que tenga valor medio
nulo y matriz de covarianza unitaria, esto es
e[x(k), k ] = F[x (k ), k] ⋅ v[x(k ), k ] (8-63)
se cumple con
m v [x (k ), k ] = E{v[x (k ), k ]} = 0 (8-64)
R vv [x (k ), k ] = E{v[x (k ), k ] ⋅ v [x (k ), k ]} = I
T
(8-65)
Comparando las Ecs. (8-66) y (8-67) con las Ecs. (8-64) y (8-65) se deduce que
R ee [x (k ), k ] = F[x (k ), k ] R vv [x (k ), k ] FT [x (k ), k ]. (8-69)
De esta forma se obtienen los parámetros estadísticos del vector e en función de los del vector v.
Reemplazando los valores definidos para éstos, las ecuaciones quedan
me [x (k ), k ] = 0 (8-70)
R ee[x(k), k ] = F [x (k ), k ] F [x (k ), k ]. (8-71)
T
Por lo tanto conocida la matriz de covarianza del vector aleatorio que afecta al sistema, éste se
puede modelar de manera que el vector aleatorio de entrada tenga componentes estadísticas con
distribución gaussiana normal (0, 1).
La matriz F se obtiene descomponiendo Ree, para el caso particular dado por Ec. (8-62) tomando la
forma
F [x (k ), k ] =diag {σe1 [x (k ), k ], σe2 [x(k), k ], ⋯ , σen [x (k ), k ]}. (8-72)
Para que la función de distribución de probabilidad condicional x(k+1) dado x(k), sea
estadísticamente independiente de los valores pasados de x, la función de distribución condicional
de e[x(k), k] dado x(k), tampoco debe depender del pasado de x. Sólo cumpliendo estas condiciones
la Ec. (8-59) recibe el nombre de ecuación matricial-vectorial estocástica en diferencias y es un
proceso aleatorio de Markov.
J. A. Pucheta (labimac.blogspot.com) 72
Control Óptimo para procesos estocásticos multivariable
De igual modo que para el vector de estado, la ecuación determinística para la salida, se puede
transformar en una ecuación estocástica. El vector de salida estocástico estará dado por
y(k ) = g[x (k ), u (k ), k ] + z[y(k ), k ] (8-74)
donde z es un vector aleatorio independiente de e, que afecta a la salida y cuyos parámetros
estadísticos son
m z [y(k ), k ] = E{z[y(k ), k ]} = 0 (8-75)
R zz [y (k ), k ] = E {z [y (k ), k ] z T [y (k ), k ]}. (8-76)
De igual manera, como se trató al vector aleatorio de estado e, el vector aleatorio de salida z se
puede modelar dando como resultado.
z[y(k ), k ] = G[y(k ), k ] w [y(k ), k ] (8-77)
donde w es un vector aleatorio con
y reemplazando los valores dados en las Ecs. (8-78) y (8-79) en las Ecs. (8-80) y (8-81)
mz [y(k ), k ] = 0 (8-82)
R zz[y(k ), k ] = G[y(k), k ]G [y(k ), k ].
T
(8-83)
Si las componentes de z son estadísticamente independientes, la matriz Rzz tiene la forma
2
[
R zz[y(k ), k ] = diag σz1 [y(k), k ], ⋯, σzn [y(k), k ]
2
] (8-84)
y por lo tanto G
G [y(k ), k ] = diag [σz1 [y (k ), k ], ⋯ , σzn [y(k ), k ]] (8-85)
si G es lineal en x y en u, y z es independiente de y, la Ec. (8-74) se puede escribir
y(k ) = C(k ) x (k ) + D(k ) u (k ) + G (k ) w (k ). (8-86)
Con parámetros estadísticos
m w (k ) = E{w (k )} = 0
R ww (k ) = E{w (k ) ⋅ w (k )} = I
T
para el vector z
mz (k ) = G (k ) m w (k ) = 0
R zz(k ) = G (k ) R ww (k ) G (k ) = G (k ) G (k ).
T T
En la Fig. 8-3 se muestra una representación en diagrama de bloques de las Ecs. (8-73) y (8-86).
J. A. Pucheta (labimac.blogspot.com) 73
Control Óptimo para procesos estocásticos multivariable
Fig. 8-3. Diagrama de bloques del sistema lineal estocástico de tiempo discreto.
Si el sistema es invariante y los vectores aleatorios son estacionarios, las Ecs. (8-73) y (8-86) se
transforman en
x (k + 1) = Ax (k ) + B u (k ) + F v(k ) (8-87)
y(k ) = C x (k ) + D u (k ) + G w (k ) (8-88)
con
m v = 0; R vv = I
m w = 0; R ww = I.
Admitiendo que el vector de estado inicial x(0) tiene una distribución gaussiana, entonces x es un
proceso gaussiano, puesto que se forma por combinación lineal de variables aleatorias que tienen
esa distribución; lo mismo sucede con el vector de salida y formado por la combinación lineal de
variables aleatorias con la misma distribución. Entonces los procesos estocásticos x, y quedan
completamente caracterizados por su función de valor medio y su función de covarianza.
J. A. Pucheta (labimac.blogspot.com) 74
Control Óptimo para procesos estocásticos multivariable
i=0
con valor inicial
m x (0 ) = E{x (0 )} = m0 (8-94)
y para el vector de salida
m y (k ) = E {y (k )} (8-95)
Reemplazando la Ec.(8-86) en la Ec. (8-95)
m y (k ) = C(k ) E{x (k )} + D(k ) E{u (k )} + G (k )E{w (k )} ,
Las Ecs. (8-91), (8-92), (8-93), (8-96), (8-97), y (8-98) son análogas a las ecuaciones
correspondientes a sistemas determinísticos 23, 24, 28 y 30.
Si el sistema es invariante
m x (k + 1) = A m x (k ) + B m u (k )
k -1 (8-100)
m x (k ) = A m x (0 ) + ∑ A B m u (i ).
k k -i -1
i=0
(8-101)
De igual modo
m y (k ) = C (k ) m x (k ) + D (k ) m u (k ). (8-102)
Si el sistema es invariante
m y (k ) = C m x (k ) + D m u (k ) (8-103)
k -1
m y (k ) = C A m x (0 ) + D m u (k ) + ∑ C A B m u (i ).
k k -i -1
(8-104)
i=0
En la Fig. 8-4 se muestra una representación del modelo, en diagrama de bloques de las Ecs. (8-91)
y (8-96), referidas a los valores medios, el cual es análogo al mostrado en la Fig. 8-3, referido al
modelo de estado estocástico.
J. A. Pucheta (labimac.blogspot.com) 75
Control Óptimo para procesos estocásticos multivariable
Fig. 8-4. Diagrama de bloques que representa a las Ecs. (8-91) y (8-96).
{
R xx (k + 1) = E [x (k + 1) - mx (k + 1)] [x (k + 1) - mx (k + 1)] .
T
} (8-105)
Reordenando
R xx (k + 1) = E{x (k + 1) x (k + 1)}- m x (k + 1) m x (k + 1).
T T
(8-106)
R xx (k + 1) = A R xx (k ) AT + A R xu(k ) BT + B R ux (k ) AT + (8-108)
+ B R uu(k ) BT + F R vv FT
R xx (k + 1) = A(k ) R xx (k ) A (k ) + R ee(k ).
T (8-109)
con el valor inicial
R xx (0 ) = E{x (0 ) x (0 )} =R 0. .
T
J. A. Pucheta (labimac.blogspot.com) 76
Control Óptimo para procesos estocásticos multivariable
T T
k = 0, R xx (1) = A R xx (0) A + R ee = A R 0 A + R ee
k = 1, R xx (2) = A R xx (1) AT + R ee = AA R xx (0) AT AT + A R ee AT + R ee
T T T T
k = 2, R xx (3) = A R xx (2) A + R ee = AAA R xx (0) A A A +
+ AA R ee AT AT + A R ee AT + R ee
. .
. .
para k genérico
k -1
k T k
R xx (k) = A R xx (0) (A ) + ∑ A
k -i-1 T k -i-1
R ee (A ) . (8-111)
i= 0
Si todos los autovalores de la matriz A tienen módulo estrictamente menor que 1 entonces la serie
Ec. (8-110) converge a un valor finito
R xx = lim R xx (k)
k →∞
por lo tanto la Ec. (8-110) toma la forma
T
R xx = A R xx A + R ee . (8-112)
De esta manera se observa que conociendo la matriz A del sistema y la matriz de covarianza del
vector aleatorio que afecta al sistema, se puede determinar el valor medio y la matriz de covarianza
del estado, en cualquier instante. Con ello queda completamente definida la caracterización
estadística del mismo.
{ }
Para el vector de salida se define
R yy(k) = E [y(k) - m y (k)] [y(k) - m y (k)]
T
(8-113)
{ T
}
= E y(k) y (k) - m y (k) mTy (k)
si los valores de A tienen módulo estrictamente menor que 1 entonces la Ec. (8-116) converge a un
valor finito
T T T
R yy = C A R xx A C + C R ee C + R zz . (8-118)
La Ec. 5.4-60 constituye la matriz de covarianza de la salida, en estado estacionario. Las Ecs.
(8-107), (8-108), (8-111), (8-114), (8-115) y (8-117) son análogas en estructura a las Ecs. 23, 24,
28, 30 obtenidas para los sistemas determinísticos.
E{v(k ) vT (n )} = E{w (k ) w T (n )} = 0 ∀ n ≠ k
E{v(k ) w T (k )} = E{x (k ) vT (k )} = E{v(k ) w T (k )} = 0
J. A. Pucheta (labimac.blogspot.com) 78
Control Óptimo para procesos estocásticos multivariable
N -1
J m = E{J (x , u )} = E x T (N )Sx (N ) + ∑ x T (k ) Q x (k ) + u (k ) R u (k )
T
(8-121)
k =0
De esta manera el problema del Regulador Óptimo Lineal Estocástico (LQGR) se puede
formular como sigue.
Dado un sistema estocástico lineal de tiempo discreto modelado en el espacio de estado con Ecs.
(8-119) y (8-120); se debe encontrar una ley de control u, que modifique el estado llevándolo desde
un valor inicial x(0) a uno final x(N)=0 y que simultáneamente haga mínimo el funcional de costos
de Ec. (8-121).
Suponiendo que se ha medido el vector de estado y se tiene x(0), x(1), …, x(k) se debe determinar
el vector de entrada u(k).
Puesto que la Ec. (8-119) es una ecuación estocástica matricial-vectorial en diferencias, la función
de distribución de probabilidad condicional de los valores futuros del estado, dado los valores
pasados del mismo, sólo dependen del valor actual x(k). Por lo tanto es suficiente obtener u(k),
como función de x(k) y no de los valores pasados x(k-1), …, x(0).
Siguiendo la misma metodología que para el caso determinístico, el funcional de Ec. (8-121) se
puede descomponer en dos partes de la siguiente manera
N -1
J m = E{J(x , u )} = E x T (N ) S x (N ) + ∑ x T (i )Qx (i ) + u (i ) R u (i ) +
T
i=k (8-122)
k -1
+ E ∑ x T (i ) Q x (i ) + u T (i ) R u (i )
i =0
donde el segundo término no es necesario minimizar puesto que no depende de u(k), u(k+1), …,
u(N-1). Entonces se obtiene
min J m = min E{J(x, u )} = min E{x T (N ) S x (N ) +
u u u
(8-123)
N -1
+ ∑ x (i ) Q x (i ) + u (i ) R u (i )
T T
i= k
o
Si se indica con u la función vectorial que hace mínimo el funcional de costo; y se considera que
esta tiene un mínimo único se puede escribir
J. A. Pucheta (labimac.blogspot.com) 79
Control Óptimo para procesos estocásticos multivariable
Minimizando esta expresión respecto de u y teniendo en cuenta que el segundo y tercer término son
constantes se tiene
{( )} {
min[E{J(x, u )}] ≥ E J x, u o = E min[J(x, u )] .
u u
} (8-127)
{ }
Comparando las Ecs. (8-124) y (8-127) se tiene
min [E{J (x, u )}] = E min[J (x, u )] . (8-128)
u u
Esta última expresión indica que cuando el índice de desempeño tiene un mínimo único, las
operaciones de minimización y de cálculo de esperanza matemática son conmutables. Entonces
la Ec. (6-2) toma la forma
{
min J m = E min[J (x, u )] =
u u
}
k -1 (8-129)
= E min x T (N ) S x (N ) + ∑ x T (i ) Q x (i ) + u T (i ) R u (i ) .
u i =0
Es decir que, minimizar el funcional de costo estocástico dado por Ec. (6-1) es equivalente a
minimizar el funcional determinístico y luego calcular la esperanza matemática. De esta manera se
ha trasladado el problema de minimización de un funcional estocástico al caso de minimización de
un funcional determinístico. Por lo tanto, aplicando el principio de optimización de Bellman y
tomando como punto de partida la ecuación
N -1
J (x , u ) = x T (N ) S x (N ) + ∑ x T (i ) Q x (i ) + u T (i ) R u (i ) (8-130)
i=k
J (x k , u k ) = x T (N ) S x (N ) + x T (N - 1) Q x (N - 1) + u T (N - 1) R u (N - 1) +
N-2
(8-131)
+ ∑ x T (i ) Q x (i ) + u T (i ) R u (i ).
i=k
Definiendo al funcional de costos en el instante k como función del funcional en el instante k+1,
J k = J(x k , u k ) = x (k )T Q x (k ) + u T (k ) R u (k ) + J k +1 (8-132)
(8-135)
Despejando u se tiene
u °(N - 1) = - [R + BT (N - 1) S B(N - 1)] BT (N - 1) S [A(N - 1) x (N - 1) +
-1
(8-137)
+ F(N - 1) v(N - 1)].
reemplazando el estado y la acción de control para k=N-1, que son las Ecs. (6-5) y (6-7) en la Ec.
(6-4) y reordenando
con
[
H(N - 1) = S - S B(N - 1) R + BT (N - 1) S B(N - 1) ]−1 BT (N - 1) S (8-139)
P(N - 1) = Q + AT (N - 1) S A (N - 1) - AT (N - 1) S B(N - 1)
(8-142)
[R + BT (N - 1) S B(N - 1)]-1 BT (N - 1) S A(N - 1).
Por otra parte, se puede demostrar que dada las formas bilineal y cuadrática zTXy y zTXz
respectivamente, con matriz X simétrica; la esperanza matemática es
E{zT X y}= mTz X m y + tr[X R zy] (8-143)
J. A. Pucheta (labimac.blogspot.com) 81
Control Óptimo para procesos estocásticos multivariable
Aplicando estas propiedades al segundo y tercer término de la Ec. (8-141) y teniendo en cuenta que
Rvv(k)=I y mv(k)=0 se obtiene
min E x T (N - 2 )Qx (N - 2 ) + u (N - 2 ) Ru (N - 2 ) + min J N -1 =
T
u ( N − 2 )
u ( N −1)
E min x T (N - 2 )Qx (N - 2 ) + u (N - 2 ) Ru (N - 2 ) + min J( x, u ) =
T
u ( N − 2 ) u ( N −1)
[ ] [
E min J d N − 2 + tr F T (N - 1) H(N - 1) F(N - 1)
u ( N − 2 )
]
donde
J d N -2 = x T (N - 1) P(N - 1) x (N - 1) + x T (N - 2 ) Q x (N - 2 ) +
(8-146)
u (N - 2 ) R u (N - 2 )
T
con
x (N - 1) = A(N - 2 ) x (N - 2 ) + B(N - 2 ) u (N - 2 ) + F(N - 2 ) v(N - 2 ) (8-147)
como las Ecs. (6-12) y (6-13) son análogas a las Ecs. (6-4) y (6-5), se opera repitiendo los pasos
desde Ec. (6-6) hasta Ec. (6-11) obteniéndose
[
u °(N - 2 ) = - R + BT (N - 2 ) P(N - 1) B(N - 2 ) ]-1 BT (N - 2) P(N - 1). (8-148)
.[A(N - 2 ) x (N - 2 ) + F(N - 2 ) v(N - 2 )]
[
. R + BT (N - 2 ) P(N - 1) B(N - 2 ) ]−1 BT (N - 2) P(N - 1) A(N - 2)
[
E min J d N -2 = E{x T (N - 2 ) P(N - 2 ) x (N - 2 )}+ tr F T (N - 2 ) H(N - 2 ) F(N - 2 ) + (8-152)
u ( N − 2 )
]
[
+ tr F T (N - 1) H (N - 1) F(N - 1) ]
Continuando con la inducción para u(N-3, u(N-4, ···, u(k+1), u(k)
[
u°(k) = - R + BT (k ) P(k + 1) B(k ) ]-1 (8-153)
B(k ) P(k + 1) [A (k ) x (k ) + F(k ) v(k )]
[
H(k ) = P(k + 1) - P(k + 1) B(k ) R + BT (k ) P(k + 1) B(k ) ]−1 BT (k ) P(k + 1) (8-154)
J. A. Pucheta (labimac.blogspot.com)
P (k + 1) = Q + A (k ) H(k + 1)A(k )
T
82
P(k ) = Q + A (k )P(k + 1) A(k ) - A (k ) P(k + 1)B(k )
T T
(8-155)
[
]
N -1
J m = E x T (k ) P(k ) x (k ) + ∑ tr F (i ) H(i ) F(i )
T
(8-156)
i=k
De la Ec. (6-18) se concluye que la ley para obtener el vector de entrada óptimo, está formado por
dos partes; la primera es una realimentación lineal del vector de estado tal como se obtiene para el
regulador óptimo lineal determinístico y además una ley de prealimentación del vector aleatorio de
perturbación. En la Fig. 8-5 se observa un diagrama de bloques del sistema con controlador.
Es importante destacar que se necesita conocer el vector de perturbación aleatorio; en caso que esto
no sea posible, se debe hacer una predicción del mismo. Cuando la predicción no es factible se
obtiene una ley incompleta con un incremento de Jm.
[ ]-1
K x (k ) = R + BT (k ) P(k + 1) B(k ) BT (k ) P(k + 1) A(k ). (8-160)
[
K v (k ) = R + B T (k ) P(k + 1) B(k ) ]-1
B T (k ) P(k + 1) F(k ) (8-161)
la Ec. (8-160) es la misma que para el problema determinístico (6-23).
que es la ecuación matricial de Riccati en estado estacionario. Entonces la ecuación del controlador
será
[ ]
u °(k ) = - R + B T P B B T P[A x (k ) + F v(k )].
-1
(8-164)
J. A. Pucheta (labimac.blogspot.com) 83
Control Óptimo para procesos estocásticos multivariable
Fig. 8-5. Sistema con ley óptima de realimentación y prealimentación del vector de perturbación.
donde
[ ]
K (k ) = R + B T (k ) P(k + 1) B(k ) B T (k ) P(k + 1).
-1
(8-166)
∂ J( x, u )
[ ]
2
= 2 R + B T (N - 1) S B(N - 1) (8-167)
∂ u 2 (N - 1)
de manera que para que el funcional de costo sea mínimo, se debe asegurar que S o R sean definidas
positivas. Si se asegura a R como definida positiva, S puede ser semidefinida positiva, pero tanto S
como Q nunca pueden ser definidas negativas porque entonces el índice Jm puede resultar negativo,
lo que contradice la definición de cualquier funcional de costo.
En la sección anterior se estudió el problema del regulador óptimo estocástico, como una extensión
del regulador óptimo lineal determinístico. Se presenta a continuación otro criterio de diseño basado
en el concepto de varianza mínima.
J. A. Pucheta (labimac.blogspot.com) 84
Control Óptimo para procesos estocásticos multivariable
Para que el vector de control no resulte con amplitudes demasiado grandes conviene incorporarlo en
el índice de manera que
2 2
J m (k + 1) = E { J( x, u ) } = E { x (k + 1) + r u (k)} (8-175)
Por último es importante disponer de la posibilidad de modificar cuanto influye cada componente
de x y de u sobre el índice, por ello se incluyen dos matrices de peso R, Q, donde Q es simétrica y
semidefinida positiva y R es simétrica y definida positiva.
Se puede hacer entonces la formulación del problema. Dado un sistema dinámico estocástico lineal
de tiempo discreto modelado en el espacio de estado con Ecs. (8-168) y (8-169) se debe encontrar
una ley de control u que minimice el funcional de costo dado por la Ec. (8-177) o lo que es lo
mismo se minimiza la varianza del vector de estado.
Para resolver el problema planteado se reemplaza la Ec. (8-168) en la Ec. (8-177); obteniéndose
T
J m (k + 1) = E { [A(k) x(k) + B(k) u(k) + F(k) v(k) ] Q [ A(k) x(k) + B(k) u(k) +
+ F(k) v(k) ] + u T (k) R u(k) }
T
J m ( x, u) = [ A(k) x(k) + B(k) u(k) + F(k) v(k) ] Q [ A(k) x(k) + B(k) u(k) +
(8-178)
+ F(k) v(k) ] + u T (k) R u(k)
{ }
min J m (k + 1) = E min J( x, u ) = E{Jm (x, u°)}.
u (8-179)
donde uo se obtiene de
J. A. Pucheta (labimac.blogspot.com) 85
Control Óptimo para procesos estocásticos multivariable
∂ Jm ( x, u )
=0
∂ u(k)
se obtiene
∂ Jm (u, x )
= 2 BT (k)Q[A(k) x(k) + F(k) v(k)] +
∂ u(k)
(8-180)
+ 2 BT (k) Q B(k) u(k) + 2 R u(k) = 0
despejando u se tiene
[
u °(k) = - R + 2 BT (k) Q B(k) ]-1 BT (k) Q[A(k) x(k) + F(k) v(k)] (8-181)
llamando
u °(k) = - K x (k) x(k) - K v (k) v(k) (8-182)
[
K x (k) = R + 2 BT (k) Q B(k) ]-1 BT (k) Q A(k) (8-183)
[
K v (k) = R + 2 BT (k) Q B(k) ]-1 BT (k) Q F(k). (8-184)
Las Ecs. (8-182), (8-183) y (8-184) son equivalentes en estructura que las Ecs. (8-159), (6-23) y
(8-161) obtenidas para el controlador óptimo lineal estocástico. En este caso la matriz P que
satisface la ecuación matricial de Riccati es sustituida por la matriz de peso Q.
Para el caso que el sistema sea lineal e invariante y el vector aleatorio v estacionario, la ecuación del
controlador será
[ ]
u °(k) = - R + 2 BT Q B BT Q[A x(k) + F v(k)].
-1
(8-185)
donde
[
K(k) = R + 2 BT (k) Q B(k) ]-1 BT (k) Q. (8-187)
De esta manera la ley de control óptima, en el sentido de la obtención de una varianza mínima,
posee dos partes, una ley de realimentación de estado similar al caso determinístico y una ley por
prealimentación del vector aleatorio de ruido que afecta al sistema.
J. A. Pucheta (labimac.blogspot.com) 86
Control Óptimo para procesos estocásticos multivariable
Es importante destacar que se necesita conocer el vector de perturbación aleatorio; en caso que esto
no sea posible, el mismo se debe predecir. Cuando la predicción no es factible se obtiene una ley
incompleta con un incremento del índice J.
La Ec. (8-185) se puede obtener de la Ec. (6-18) si se reemplaza P(k+1) por Q. Por este motivo la
estructura de los controladores son iguales como se puede observar comparando la Fig. 8-5 y la Fig.
8-6.
Fig. 8-6. Sistema de control con ley óptima de realimentación de estado y ley de prealimentación del vector de
perturbación para índice de mínima varianza.
9. Bibliografía
Anderson B., Moore J., 1971. Linear optimal control. Prentice-Hall International Inc., London.
Bellman R. and S. Dreyfus, 1962. Applied dynamic programming. Princenton University Press.
Bertsekas D. and J. Tsitsiklis, 1996. Neuro-dynamic programming. Athena scientific. MIT.
Bertsekas D. and J. Tsitsiklis. Notas del curso Introduction to Probability. MIT.
Kirk, Donald E.. Optimal Control Theory: An Introduction, Dover Publications, 2004.
Luus, R. Iterative Dynamic Programming.CRC Press
Ogata, Katsuhiko. Ingeniería de Control Moderna. Prentice Hall.
Ogata, Katsuhiko. Sistemas de Control en Tiempo Discreto 2da Ed. Prentice Hall.
Oksendal B., 2003. Stochastic differential equations 6ed., Springer.
J. A. Pucheta (labimac.blogspot.com) 87