Control ´ optimo optimo (Demostraci´ on on del principio princip io del m´ aximo) aximo)* David Abel Barraza Salguero ** 1 de marzo de 2013
Resumen
Este documento no intenta ser un copia del libro de referencia, sino m´ as bien una explicaci´ as on on detallada e ´ interpretaci´ on o n de la condici´ on del primer orden del Control Optimo. Optimo. Se han desarrollado las pasos omitidos por los autores del texto para un mayor entendimiento de la demostraci´ on o n del principio del m´ aximo. aximo. La notaci´ on on usada aqu´ aqu´ı es la misma que la del libro referido para evitar confusiones. confusiones.
Definimos primero el problema al que nos enfrentamos: T
ˆ
V =
M ax
f (t,y,u) dt
0
·
y = g (t,y,u)
s.a.
y (0) = y0 (dado) y (T ) = yT (libre) u (t) ∈ Ω ∀ t ∈ [0, T ]
El Hamiltoniano de dicho problema es: H (t,y,u,λ) = f (t,y,u) + λ (t) g (t,y,u)
(1)
Una vez definida la base, nos apoyaremos de ella para generar una condici´on llamada principio del m´ aximo para hallar las sendas de las variables de estado, coestado y control. ·
Para ello generamos un artificio utilizando la ecuaci´on y = g (t,y,u) que mantendr´a su igualdad en todo los per pe r´ıodo ıo doss [0 , T ].
·
Construimos λ (t) y − g (t,y,u) = 0 para obtener: T
ˆ
·
λ (t) g (t,y,u) − y dt = 0
0
(2)
Ya que (2) es cero en todo t, entonces puede ser sumada a V sin alterar su valor. Definiremos el ’nuevo valor’ como W : T
W
=
ˆ
T
f (t,y,u) dt +
0
·
λ (t) g (t,y,u) − y dt
0
ˆ
H (t,y,u,λ)
T
=
ˆ
·
f (t,y,u) + λ (t) g (t,y,u) − λ (t) y dt
0
(3)
En (3) puede ser reemplazo el Hamiltoniano (1). De ello se obtiene: T
W
=
ˆ H (t,y,u,λ) − λ (t) y dt ˆ ˆ ·
(4)
0
T
=
T
H (t,y,u,λ) dt −
0
·
λ (t) ydt
(5)
0
*
Basado en el libro Optimizaci´ on din´ amica y teor´ ıa ıa econ´ omica de Bonifaz y Lama, Primera edici´ on corregida, Universidad on del Pac´ıfico (2010). (2010) . La intenci´ on es explicar de manera m´as on as detallada la demostraci´ on on de como hallar las condiciones de primer orden para el control ´ optimo. **
Actualmente Actualme nte estudiante estud iante de Econom´ıa ıa en la PUCP. PUC P.
1
Vemos que el procedimiento que seguimos ha buscado internalizar el Hamiltoniano a partir de una condici´on inicial como (2). Se utiliz´o la igualdad de la ecuaci´on de movimiento de la variable de estado para todo t como artificio para lograrlo. El t´ermino
T
·
´ λ (t) ydt de (5) debe ser tratado como una integral por partes. Recordemos dicho apartado. 0
Integral por partes: Para derivar el producto de dos funciones w (t) y v (t) hacemos uso de la condici´on: d (wv ) dw dv =v +w dt dt dt
(6)
d (wv ) = vdw + wdv
(7)
De (6) multiplicado por dt obtenemos: Despejando wdv de (7) e integrando en ambos miembros:
ˆ
ˆ
=
wdv
d (wv ) −
= wv −
ˆ
ˆ
vdw
(8)
vdw
T
·
´
Utilizando el mismo principio para el t´ermino 0 λ (t) ydt podemos asignarles valores a w y dv , y diferenciando e intregrando ambos respectivamente tenemos: ·
→ dw = λdt
w = λ (t) ·
dv = ydt
→ v=y
Reemplazando en (8) obtenemos de manera an´aloga: T
ˆ
·
λ (t) ydt
=
0
T
ˆ
T
(λ (t) y )|0 −
·
y λdt
0
T
= λ (T ) yT − λ (0) y0 −
ˆ
·
(9)
yλdt
0
Ahora, reemplazando (9) en (5) obtenemos una forma m´as desarrollada que antes: T
W
=
ˆ H (t,y,u,λ) dt − λ (T ) y ˆ
T
T
+ λ (0) y0 +
0
T
=
ˆ
·
y λdt
0
·
H (t,y,u,λ) + y λ dt − λ (T ) yT + λ (0) y0
(10)
0
Para poder llegar a establecer una condici´on que sirva para hallar las sendas ´optimas que cumplan las condiciones del principio del m´aximo, debemos suponer que hay una infinidad de sendas posibles cercanas a aquellas que cumplen la condici´on de optimalidad. Sean u (t), λ (t) y y (t) las sendas o´ptimas. Supondremos una senda auxiliar z (t) para la variable de control que representa curvas cercanas a u (t). Por ello las sendas factibles est´an definidas como: (11) u (t) = u (t) + θz (t) ∗
∗
∗
∗
∗
donde θ es un n´ umero bastante peque˜ no. Hecemos lo mismo con la variable de estado y : y (t) = y (t) + θh (t) ∗
(12)
donde h (t) es la senda auxiliar de la variable de estado y . Por otra parte, si suponemos que T y yT son libres1 , podemos tambi´ en suponer valores factibles para ambos t´erminos: T = T + θ ∆T (13) ∗
1 Debemos tener en cuenta que podemos manipular a conveniencia la terminolog´ıa referida a libre y dado. Ello nos servir´ a para expresar determinada condici´ on de transversalidad para distintos contextos de T y yT .
2
yT = yT + θ ∆yT
(14)
∗
Definimos tambi´en una variable de error D (θ) como la diferencia entre un W sub´ optimo y el W ´optimo2 : ∗
T ∗ +θ∆T
W (t,y,u,λ)
ˆ
=
·
H (t, y (t) + θh (t) , u (t) + θz (t) , λ) + [ y (t) + θh (t)] λ d t . . .
0
∗
∗
∗
−λ (T + θ∆T ) [yT + θ ∆yT ] + λ (0) y0 ∗
(15)
∗
ˆ T
W (t , y , u , λ ) = ∗
∗
∗
∗
∗
·
H (t , y , u , λ ) + y λ dt − λ (T ) yT + λ (0) y0 ∗
∗
∗
∗
∗
0
(16)
entonces: = W (t,y,u,λ) − W (t , y , u , λ ) < 0
D (θ )
∗
T ∗ +θ∆T
=
ˆ
∗
∗
∗
(17)
∗
·
H (t, y (t) + θh (t) , u (t) + θz (t) , λ) + [ y (t) + θh (t)] λ d t . . .
0
∗
∗
∗
ˆ T
−λ (T + θ∆T ) [yT + θ ∆yT ] + λ (0) y0 − ∗
∗
·
H (t , y , u , λ ) + y λ d t . . . ∗
∗
∗
∗
0
+λ (T ) yT − λ (0) y0
∗
(18)
Para poder operar y compactar (18) debemos hacer uso una regla conocida. Esta es la Regla de Leibnitz que nos permite resolver integrales definidas en cuyos l´ımite superior o inferior se encuentra una funci´on de alguna de las variables del integrando .
Regla de Leibnitz3: Dada la integral definida: b
ˆ
F (t, c) =
f (c, t) dt
a
La derivada con respecto a c (tambi´ en definida como Regla de Leibnitz) es igual a: dF = dc
b
∂f (c, t) dt ∂c
ˆ a
(19)
La derivada con respecto a b es igual a: dF = f (t, c)|t=b = f (b, c) db
(20)
Si el l´ımite superior de la integral dependiera de la variable c: b(c)
F (t, c) =
ˆ
f (c, t) dt
a
La derivada con respecto a c se obtiene a partir de las propiedades (19) y (20): dF = dc
b(c)
ˆ a
∂f (c, t) db dt + f (b (c) , c) ∂c dc
Veamos que en (18) debemos minimizar la brecha entre el valor sub´optimo y ´optimo de W . Dado que la diferencia es negativa la primera derivada de D (θ ) ser´a un ejercicio de minimizar la funci´on. Entonces hacemos D (θ ) = 0.
Nota:
2
Es claro que ´esta diferencia es negativa ya que W (·) estar´ a por debajo de W (·) por ser sub´ optimo. Este apartado fue extra´ıdo ´ıntegramente del libro Optimizaci´ on din´ amica y teor´ ıa econ´ omica de Bonifaz y Lama, Primera edici´ on corregida, Universidad del Pac´ıfico (2010). ∗
3
3
Haciendo uso de la Regla de Leibnitz entonces podremos calcular (21) que es la parte en azul de la ecuaci´on (18): ∗
T +θ∆T
F (t, θ) =
ˆ
y (t,θ)
dF = dθ
T ∗ +θ ∆T
ˆ 0
y(t,θ)
·
t, y (t) + θh (t), u (t) + θz (t), λ ∗
H
0
u(t,θ )
∗
+ [y (t) + θh (t)]λ ∗
∂H ∂H h (t) + z (t) + h (t) λ dt + H + yλ ∂y ∂u ·
(21)
dt
·
∆T
(22)
t=T
Recurriendo nuevamente a (18), vemos que falta derivar un tramo de color rojo de dicha ecuaci´ on. Esta separaci´ on se hizo por motivos did´acticos nada m´as. Juntando ambas derivadas obtenemos D (θ ) que es justamente lo que deseamos calcular:
D (θ )
dF d {λ (T + θ ∆T ) [yT + θ ∆yT ]} − dθ dθ T +θ∆T ∂H ∂H h (t) + z (t) + h (t) λ dt + H + y λ T . . . ∆ ¨ ¨ ∂y ∂u 0 t=T ∗
= =
∗
ˆ
∗
·
$ $ $ λ $ (T $ ) yT ∆T −λ (T ) ∆yT − $
·
·
(23)
En la ecuaci´on (23) podemos ver unos t´erminos en azul. Si resolvemos la parte yλ
t=T
= yT λ (T ), nos damos
cuenta que aquellos t´erminos son iguales. Es por ello que podemos cancelarlos4 . Entonces obtenemos:
T ∗ +θ∆T
D (θ) =
ˆ 0
∂H ∂H h (t) + z (t) + h (t) λ dt + [H ]t=T ∆T − λ (T ) ∆yT ∂y ∂u ·
(24)
Evaluando (24) en 0 (o sea D (0) = 0):
D (0) =
ˆ ∂H T ∗
0
∂H z (t) dt + [H ]t=T ∆T − λ (T ) ∆yT = 0 + λ h (t) + ∂y ∂u ·
∗
∗
∗
∗
(25)
decimos que: u (t)
= u (t) y (t) = y (t) T = T ∗
∗
∗
yT
= yT ∗
Si consideramos que el tiempo al final de las sendas est´a predeterminado (por lo que no es libre, y se define el l´ımite superior del funcional como un n´ umero dado) entonces ∆T = 0; por lo que: [H ]t=T ∆T = 0 Si el problema de optimizaci´on din´ amica deja libre el valor terminal de la variable de estado , entonces ∆yt no ser´a cero por lo que debe cumplirse necesariamente que: λ (T ) = 0
para que λ (T ) ∆yT = 0. Para que D (0) sea efectivamente cero se debe cumplir algo m´as:
∂H +λ= 0 ∂y
(26)
∂H =0 ∂u
(27)
·
4
Para hacer uso del corte diagonal para cancelar t´erminos utilizamos el siguiente c´ odigo LATEX en el pre´ ambulo: \usepackage{cancel}
De esa forma podremos hacer uso del paquete cancel a lo largo del documento y en todas sus variantes.
4
Y siempre se cumplir´a la igualdad de la ecuaci´on de movimiento de la variable de estado para todo t: ·
y = g (t,y,u) =
∂H ∂λ
(28)
Finalmente, obtuvimos la condici´on de primer orden (29) que nos da las sendas ´optimas y resuelve el problema de ´optimizaci´ on din´ amica para un valor final de la variable de estado yT libre y un T 0 final dado.
∂H ∂u ∂H ∂λ ∂H ∂y
=0 =y ·
ecuaci´on de movimiento de la variable de estado ·
= −λ ecuaci´on de movimiento de la variable de coestado on de transversalidad para yT libre λ (T ) = 0 condici´
5
(29)