Capítulo 1 Introducción a la Optimización En este capítulo estudiaremos algunos hechos básicos sobre los problemas de optimización que serán necesarios a lo largo de este trabajo. Serán presentados los resultados de existencia de soluciones y las condiciones necesarias y suficientes de optimalidad para problemas irrestrictos.
1.1
Definiciones y algunos hechos básicos
Sean dados un conjunto D R n y una función f: D D R. El problema principal a ser considerado en este trabajo es el de hallar un minimizador de f en el conjunto D. Este problema será escrito como min f (x) sujeto a x D.
(1.1)
El conjunto D será llamado conjunto viable del problema, los puntos de D serán llamados puntos viables, y f será llamada función objetivo. Definición 1.1.1. Decimos que un punto
̅
D es
(a) minimizador global de (1.1), si
̅ ̅ ̅ *‖̅ ‖ +
f ( ) f (x) x x D; (b) minimizador local de (1.1), si existe una vecindad U de f ( ) f (x)
De forma equivalente, para todo x x
x x D U.
̅
(1.2) tal que (1.3)
̅
D es minimizador local si existe > 0 tal que f ( ) f (x) .
̅
Figura 1.1.1: x1 es el maximizador global ( es es el valor óptimo), x 2 es un minimizador global estricto,
, -
es un conjunto de minimizadores locales estrictos.
Por la definición, es claro que todo minimizador global también es local, más no
̅
recíprocamente. Si para todo x la desigualdad (1.2) o (1.3) es estricta, llamado minimizador estricto (global o local, respectivamente). Definición 1.1.2. Decimos que
̅
̅
̅
será
-, + +) definido por
= inf f(x) x D
es el valor optimo del problema (1.1). Una función puede admitir varios minimizadores globales, más el valor óptimo (global) del problema, naturalmente, siempre es el mismo. Las Definiciones 1.1.1 y 1.1.2 son ilustradas en la Figura 1.1.1. Es fácil ver que cualquier problema de maximización max f (x)
sujeto x D,
(1.4)
puede ser transformado en un problema de minimización equivalente: equivalente: min - f (x)
sujeto x D.
En particular, las soluciones locales y globales de ambos problemas son las mismas, con signos opuestos para los valores óptimos, vea la Figura 1.1.2. Por eso, del punto de vista matemático, no existe ninguna diferencia di ferencia relevante entre los problemas de minimización y de maximización: todos los resultados obtenidos para una clase de problemas pueden ser extendidas para la otra clase sin dificultad. Decimos que un conjunto es poliedral cuando él puede ser representado c omo el conjunto de las soluciones de un sistema finito de ecuaciones e inecuaciones lineales. Por ejemplo: D=
* + +
,
Donde A R (l, n), B R (m, n), a R l, b R m. En este contexto, decimos que la función h: R n R l, definida por h (x) = A x A x – a, es una función afín. Una función f: R n R definida por f (x) =
〈〉 〈 〉
,
(1.5)
donde Q R (n, n), q R n , es llamada función cuadrática. Una clase especial de problemas de optimización se refiere al caso en que D es un conjunto poliedral. Si además de esto f fuera cuadrática, (1.1) se llama problema de programación cuadrática, y si fuera lineal (Q = 0 en (1.5)), el problema es de programación lineal.
Cuando D es un conjunto convexo y f es una función convexa, decimos que (1.1) es un problema de programación convexo. Cuando la matriz Q es semidefinida positiva los problemas cuadráticos son convexos (por lo tanto, los problemas lineales siempre son convexos).
1.2
Existencia de soluciones globales
̅
Cuando en la Definición 1.1.2 tenemos -, el problema (1.1) no posee solución global (en este caso f es ilimitada inferiormente en el conjunto D). Más también cuando es finito, el minimizador global puede no existir. Ese es el caso en
̅
̅
que no no es alcanzado en ningún punto viable, es decir, cuando no existe x D, tal que
̅
f (x) = . Por ejemplo, sea f: R R, f (x) = ex, D = R. Evidentemente, No obstante, no existe x R tal que ex = 0.
̅
inf xR ex = 0.
Figura 1.2.1: La función f (x) = ex no tiene minimizador global en R, no obstante el valor óptimo del problema es finito: para todo x R, se tiene que e x > 0 =
̅
inf zR ez.
Teorema 1.2.1 (Teorema de Weierstrass)
Sean D R n un conjunto compacto no vacío y f: D R una función continua. Entonces, los problemas (1.1) y (1.4) tienen soluciones globales. Demostración: Por lo observado en parágrafo 1.1, es suficiente probar la existencia de un minimizador o de un maximizador. Mostraremos la existencia de un minimizador.
Como la imagen de un conjunto compacto por una función continua es compacta, es compacto. En particular, este conjunto es limitado inferiormente, o sea,
* +
- <
̅
= inf f(x). x D
Por la definición de ínfimo, para todo k N existe un x k D tal que
̅
f (xk )
̅
+ + 1/ k.
Pasando al límite cuando k , , concluimos que
Como
̅ *+
.
(1.6)
D y D es compacto, se sigue que
ella posee una subsucesión
{}
* +
es una sucesión limitada. Luego,
que converge a un punto de D:
D.
Por la continuidad de f, = f ( ̅ . = f Usando (1.6), tenemos que f que f (
̅
̅ ̅
= , es decir, f decir, f asume el valor mínimo en D en el punto
D. En otras palabras, es es un minimizador global del problema (1.1).
La hipótesis de que un conjunto viable sea compacto sólo puede ser eliminada en los resultados de de existencia de solución al costo de fortalecimiento de las hipótesis sobre la función objetivo. En este sentido, la noción de conjunto de nivel es fundamental. Definición 1.2.1. El conjunto de nivel de la función f: D R asociado a c R, es el conjunto dado por
Lf, D (c) =
* +
Figura 1.2.2. Conjunto de nivel L f, R (c) =
.
, - , - , -
.
n
Corolario 1.2.1. Sean D R y f: D R continua en el conjunto D. Supongamos que
existe c R tal que el conjunto de nivel Lf, D (c) sea no vacio y compacto. Entonces el problema (1.1) posee una solución global. Demostración: Por el Teorema de Weierstrass (Teorema 1.2.1), el problema
min f (x)
sujeto a x Lf, D (c)
tiene una solución global, digamos
̅
. Para todo x D/ Lf, D (c), tenemos la siguiente
̅
cadena de desigualdades f (x) > c f ( ), lo que muestra que global de f no solo en L f, D (c), más también en D. Definición 1.2.2. Decimos que una sucesión
D, si
*+
‖‖ *+
D y
o
* +
*+
̅
es un minimizador
R n es crítica en relación al conjunto
x cl D/ D (k ).
Decimos que una función f: D R es coerciva en el conjunto D, cuando para toda sucesión
crítica en relación a D, se tiene lim supk f (
) = +.
Figura 1.2.3: f (x) = 1/x no es coerciva en (0, + , más es coerciva en (0, t para t > 0 fijo cualquiera. La función f (x) = x 2 +1/x es coerciva en (0, + .
Observamos que cuando D es cerrado, la Definición 1.2.2 puede ser simplificada, afirmando que
D y
‖ ‖
implican lim supk f (
) = +. Cuando D es
limitado, la definición puede ser simplificada, afirmando que cuando cl D/ D, se tiene que lim sup k f (
D y
*+
x
) = +. Finalmente, cuando D es compacto, no
hay sucesiones críticas (y por lo tanto, cualquier función f: D R es coerciva en D trivialmente).
1.3
Condiciones de restricciones
optimalidad
para
problemas
sin
Consideremos el siguiente problema irrestricto min f (x), x R n ,
(1.9)
donde f : R n R. Estudiaremos las condiciones que deben ser satisfechas cuando un
̅
R n dado es minimizador (local) del problema (1.9). Condiciones de este tipo se llaman condiciones necesarias de optimalidad. También estudiaremos las condiciones que garantizan que un punto dado es minimizador local del problema. Las condiciones de este último tipo se llaman condiciones suficientes de optimalidad.
Cabe notar que todos los resultados presentados a seguir son también verdaderos para un problema con restricciones min f (x) sujeto a x D, desde que el punto de interés
̅
̅
D estuviera en el interior del conjunto viable, es decir,
̅
̅
exista un abola B ( , ) en torno de tal que B ( , ) D. En particular, éste siempre es el caso cuando D es un conjunto abierto. Teorema 1.3.1. (Condición necesaria de primer orden)
Supongamos que la función f : R n R sea diferenciable en el punto minimizador local del problema (1.9), entonces
̅
̅
f ( ) = f´ ( ) = 0.
̅
̅
R n . Si es un
(1.10)
Demostración: Sea d R n arbitrario pero fijo. Por la definición de minimizador local,
existe > 0 tal que
̅ ̅
, - ̅ ̅ 〈 ̅〉
f ( ) f ( + t d) t
Por la diferenciabilidad de f en ,
̅
f ( + t d) = f ( ) + t
+ o (t).
Luego, 0 t
〈 ̅〉
+ o (t).
Dividiendo por t > 0, tenemos que 0
〈 ̅〉
+ o (t)/ t,
y tomando límite cuando t 0+, obtenemos 0
〈 ̅〉
.
̅ ̅
Como d R n es arbitrario, podemos escoger d = - f´ ( ), lo que resulta en la condición 0
〈 ̅〉 ‖ ̅‖ = -
2
. Donde se sigue que f´ ( ) = 0.
Definición 1.3.1. Decimos que un punto problema (1.9), si vale la condición (1.10).
̅
R n es estacionario (o crítico) para el
Por lo tanto, si f es diferenciable, las soluciones locales del problema (1.9) deben ser puntos estacionarios. Claramente, lo mismo vale para los problemas de maximización. A seguir, presentamos las condiciones de segundo orden.
Teorema 1.3.2. (Condición necesaria de segundo orden)
Supongamos que f : R n R sea dos veces diferenciable en el punto
̅
̅
R n.
Si es un minimizador local del problema (1.9), entonces vale (1.10) y la matriz Hessiana de f en el punto es semidefinida positiva, es decir,
̅ 〈 ̅ 〉
.
(1.11)
Demostración: La condición (1.10) ya fue obtenida arriba.
̅
Sea d R n arbitrario, pero fijo. Si es minimizador del problema (1.9), entonces para todo t > 0 suficientemente pequeño
̅ ̅ 〈 ̅ 〉 〈 ̅〉 〈 ̅〉
0 f ( + t d) - f ( ) =
+
= t2
o (t2)
2 + o (t2),
Donde usamos el Teorema 1.3.1 (en particular, la relación (1.10)). Dividiendo los dos lados de la desigualdad arriba por t 2 > 0, tenemos que 0
〈 ̅〉
2 + o (t2) / t2.
Pasando al límite cuando t 0+, obtenemos (1.11).
Teorema 1.3.3. (Condición suficiente de segundo orden)
Supongamos que f : R n R sea dos veces diferenciable en el punto
̅
̅
R n.
̅
Si es un punto estacionario (es decir vale (1.10)) y si la matriz Hessiana de f en es definida positiva, es decir, si
〈 ̅ 〉 *+ ̅ ̅ * + *̅ + *+ ̅ * ̅ ‖ ̅‖+ ‖‖ ̅‖ ̅‖+ *+ /
,
(1.12)
Entonces es minimizador local estricto del problema (1.9). Demostración: Supongamos que
R n /
exista
tal que
sucesión
no sea minimizador local estricto, es decir, que
(k ) y f (
̅
) f ( ) para todo k. Como la
es limitada, ella posee puntos de acumulación.
Escogiendo (si fuese necesario) una subsucesión, podemos admitir que d
/
(de hecho,
).
Para todo k, tenemos
̅ 〈 ̅ ̅ 〉 〈 ̅ ̅ ̅ 〉 ‖ ̅‖ 〈 ̅ ̅ ̅ 〉 ‖ ̅‖
0 f ( = =
)-f( )
+
o (
o (
),
)
*
donde usamos (1.10). Diviendo los dos lados de esta desigualdad por tomando el límite cuando k , obtenemos
〈 ̅ 〉
‖ ̅‖
>0 y
0,
̅
en contradicción con (1.12). Por lo tanto, tiene que ser un minimizador local estricto.
Definición 1.4.1. Un conjunto K R n llamase cono cuando
D K
t d K
t R +.
Por la definición, si K es un cono no vacio, necesariamente 0 K. Algunos ejemplos de cono son: el espacio R n, cualquier subespacio de R n, el octante no negativo . Informalmente, un cono es un conjunto de direcciones, vea Figura 1.4.1.
Figura 1.4.1: Ejemplos de conos. Definición 1.4.2. Decimos que d R n es una dirección viable en relación al conjunto D
en el punto
̅
D, cuando existe > 0 tal que
̅
+ t d D
̅
t 0,.
Denotamos por V D ( ) el conjunto de todas las direcciones viables en relación al conjunto D en el punto
̅
D.
Figura 1.4.2: Las direcciones d 1 y d2 son viables en relación al conjunto D en el punto
̅
1
ejemplo, se tiene que + t d D para todo t 0,.
̅
̅
D. Por
La Figura 1.4.2: ilustra la definición de direcciones viables. Es fácil ver que V D
̅
( ) es un cono no vacio (por lo menos, 0 VD ( )). n
n
Definición 1.4.3. Decimos que d R es una dirección de descida de f : R R en el
punto
̅
R n , si existe > 0 tal que
̅
̅
f ( + t d) < f ( )
t (0,.
Definición 1.4.4. Decimos que d R n es una dirección tangente en relación al conjunto
D en el punto
̅
R n cuando
̅ ̅
dist ( + t d, D) = o (t), t R + . Denotamos por D ( ) el conjunto de todas las direcciones tangentes al conjunto D en el punto .
̅
La Figura 1.4.5 ilustra la Definición 1.4.4.
̅
Figura 1.4.5: Ilustración de la Definición 1.4.4: d es una dirección tangente en relación a D en . En el
̅ ̅
‖‖
dibujo, = 1 y, por lo tanto, la distancia entre los puntos y + t d es igual a t. Cuando t 0+, dist ( + t d, D) es de orden menor que t, la longitud de paso en la dirección d a partir de .
̅
̅
Claramente,
̅
̅
VD ( ) D ( ),
(1.14)
̅
Es decir, todas las direcciones viables son tangentes (para d VD ( )) se tiene que dis ( + t d, D) = 0 para todo t > 0 suficientemente pequeño), más no recíprocamente. También es claro que el conjunto de todas las direcciones tangentes en relación al
̅
conjunto D en el punto conjunto d en el punto es no vacio.
̅
̅
D es un cono, llamado el cono tangente (en relación al
̅
D). Como 0 D ( ), se sigue que el cono tangente siempre
Observamos que, de forma equivalente, el cono tangente puede ser definido como
̅
*+ *+ ̅
D ( ) = d R n
R +,
+
0+,
*+
R n,
*+
d, tal que
D para todo k N
Esta última definición es ilustrada en la Figura 1.4.6.
̅
Figura 1.4.6: +
D para todo k ,
*+
0+, y
* +
̅
d D ( ).
Otra noción útil (un poco más general del cono tangente) es la del cono (tangente) de Bouligand :
̅
= d R n
*+ *+ ̅ R +,
+
0+,
*+
D para todo k N
R n,
*+
d, tales que
̅
La Figura 1.4.7 contiene el diseño de un cono tangente típico cuando el punto está en la frontera del conjunto, que es la situación más interesante. Observamos que el caso en que está en el interior del conjunto es el caso fácil de analizar: es obvio que
̅
̅
̅ ̅
int D D ( ) =
̅
= VD ( ) = R n.
Figura 1.4.7: El cono tangente en relación al conjunto D en el punto
̅ ̅
tiene que D ( ) =
.
̅
D. En el caso del dibujo, se
Comparando las definiciones arriba, tenemos que, en general,
̅ ̅
D ( )
.
(1.15)
Teorema 1.4.1. (Condición necesaria en forma primal)
Sean D R n y f: R n Runa función diferenciable en el punto solución local del problema min f(x)
̅
̅
D. Si es una
sujeto a x D,
(1.13)
〈 ̅〉 ̅ ̅ + * + * + * ̅*+ *+ * + ̅ *̅ + ̅ ̅ ̅ ̅ 〈 ̅〉 ‖ ‖ 〈 ̅ 〉 entonces
.
Demostración: Para d = 0
, la condición (1.16) vale trivialmente. Fijemos d
arbitrario y las sucesiones asociadas
0+,
d (k ) y +
f ( +
y
R n tales que
(k ), para
) – f ( )
=
+ o (
=
+ o ( ).
)
Dividiendo los dos lados de la desigualdad arriba por k , obtenemos (1.16).
R + /
D para todo k .
Como es un minimizador local de (1.13) y todo k suficientemente grande tenemos que 0
(1.16)
> 0 y pasando al límite cuando
Definición 1.4.6. El cono dual de un cono K R n es definido por
K * =
* 〈〉 +
.
Usando la noción de cono dual, la condición de optimalidad (1.16) es equivalente a -f´(
̅ ̅
)*.
(
(1.17)
Una ilustración de cono dual (del cono tangente) y de las c ondiciones de optimalidad (1.16) y (1.17) es dada en la Figura 1.4.8.
Figura 1.4.8: El cono dual del cono que
〈 ̅〉 ̅
̅
y las condiciones de optimalidad (1.16) y (1.17). Se tiene
o, equivalentemente, -f´(
̅ ̅ (
*
).
Proposición 1.4.1. (Relaciones entre las direcciones viables, tangentes y de Bouligand)
̅ ̅ ̅
Sean D R n un conjunto cualquiera y cerrados y se tiene que
*+
̅
cl VD ( ) D ( )
̅ ̅
D. Entonces los conos D ( ) y
son
.
Demostración: Para la demostración de este Teorema vea Izmailov, A; Solodov, M. en Otimizaçao- Volume 1, pág. 30. Definición 3.2.2. Sea D R n un conjunto cualquiera. El fecho convexo de D, denotado conv D, es el menor conjunto convexo en R n que contiene a D (o equivalentemente, la intersección de todos los conjuntos convexos en R n que contienen a D). Definición 3.2.3. Decimos que d R n es una dirección de recesión del conjunto
convexo D R n cuando x + t d D
x D, t R +.
Capítulo 2 Elementos de Análisis Convexa En este capítulo estudiamos conjuntos convexos e funciones convexas. Convexidad es un concepto muy importante en la teoría de optimización. Con hipótesis de convexidad, las condiciones necesarias de optimalidad pasan a ser suficientes. En otras palabras, todo punto estacionario se convierte en una solución del problema. En particular, cualquier minimizador local es global. Además de esto, en el caso convexo podemos desarrollar la teoría de dualidad en su forma más completa, es decir, asociar al problema original (primal) otro problema, llamado dual, que sobre ciertas hipótesis es equivalente al original y muchas veces es más fácil de resolver. Finalmente, las herramientas de análisis convexa serán necesarios para la caracterización del cono dual y del cono tangente en el caso de restricciones mixtas (de igualdad y desigualdad), lo que resulta en las condiciones de optimalidad primales-duales de Karush-Kuhn-Tuc ker. Resaltamos que este capítulo no constituye un estudio completo de Análisis Convexa, además de los resultados básicos presentamos apenas el material que será necesario a lo largo de este trabajo, lo que juzgamos indispensable para un curso de optimización en general.
2.1
Definiciones de convexidad. minimización convexa.
El
problema
de
Un conjunto convexo se caracteriza por contener todos los segmentos cuyos extremos pertenecen al conjunto (Vea la figura 1.1.1). Definición 2.1.1. Un conjunto D R n es llamado conjunto convexo si para cualquier
xD, yD y [0,1, se tiene x + (1-) y D. El punto x + (1-) y, donde [0,1, se llama la combinación convexa de x e y (con parámetro ). El conjunto vacío, el espacio R n, y un conjunto que contiene un solo punto, son trivialmente convexos. Cualquier conjunto no convexo es trivialmente no convexo.
Figura 2.1.1: El conjunto D1 es convexo; el conjunto D 2 no es convexo.
Proposición 2.1.1. Para todo cono K R n, el cono dual K * siempre es convexo y cerrado. Demostración: Sean x K *, y K *, es decir, x , d 0 y y , d 0 para todo dK.
Sea [0,1. Para cualquier dK, tenemos que x+(1-) y , d = x , d + (1-) y , d 0, Es decir, x + (1-) y K *. Por lo tanto, K *es convexo. Sea yk K *, yk y (k ). Fijemos d K arbitrario, y pasando al límite cuando k en la relación yk , d 0, obtenemos que y, d 0. Por lo tanto, como d K era arbitrario, y K *. Esto muestra que K *es cerrado.
Definición 2.1.2. Dado un conjunto D R n cualquiera, el fecho cónico de D, denotado por cono D, es el menor cono convexo en R n que contiene a D (o equivalentemente, la intersección de todos los conos convexos en R n que contienen a D).
Figura 2.1.3: Ejemplos de fecho cónico de un conjunto. Para un conjunto convexo, el fecho cónico es compuesto por todos los múltiplos no negativos de elementos del conjunto. Proposición 2.1.2. (Fecho cónico de un conjunto convexo) Sea D R n un conjunto convexo. Se tiene que
Cono D = dR n / d = x, xD, R + Demostración: Denotamos
C = dR n / d = x, xD, R + Como el conjunto cono D es un cono, para todo x D cono D, tenemos que x cono D para todo R +. Luego, C cono D. Como C es un cono que contiene a D (basta tomar = 1 en la definición de C), si probamos que C es convexo, la inclusión cono D C es obvia (por la Definición 2.1.2). La Figura 2.1.4 ilustra la demostración a seguir.
Figura 2.1.4: Ilustración para la demostración de la Proposición 2 .1.2. Sean di C, es decir d i = i xi, i R + y xi D, i = 1,2. Sea d = td1 + (1-t) d2 = t1x1 + (1-t)2x2, t [0,1. Cuando t0,1 o i = 0 para i 1,2, la inclusión d C es obvia (en estos casos, tenemos que d es un múltiplo no negativo de x 1o x2). Supongamos entonces que t (0,1), i > 0, i = 1,2. Definimos =
-1
(0,1).
Por la convexidad de d, tenemos que x = x1 + (1-) x2 D. Además de esto, 1t x 1t ( x 1 (1 / 1) x 2 ) t 1 x 1 (1 t ) 2 x 2 d , Mostrando que d C. Esto prueba que C es convexo.
A seguir probaremos un resultado importante sobre el cono tangente de un conjunto convexo. Este resultado es ilustrado en la Figura 2.1.5.
Figura 2.1.5: Las direcciones tangentes y el cono tangente para un conjunto convexo. Relaciones con
*̅+
las direcciones viables y con el fecho conico de la traslación D -
.
Teorema 2.1.1. (Cono tangente de un conjunto convexo)
Sean D R n un conjunto convexo,
̅
̅
̅
̅
D. Entonces
̅
D ( ) = D ( )) = cl VD ( ) = cl cono (D - ).
En particular, D ( x ) es convexo y cerrado.
Demostración: Es fácil ver que el conjunto D - x es convexo. Por lo tanto, por la Proposición 2.1.2, tenemos que
n
Cono (D - x ) = dR / d = (x- x ), xD, R +.
(2.1)
Sea d Cono (D - x , d 0 (luego, > 0). Por la definición arriba, esto significa que
x + d/ = x D. Por la convexidad de D, se sigue x + td D para todo t [0,1/, es
decir, d V D ( x ) (d es una dirección viable, vea la Definición 1.4.2). Recíprocamente,
para d V D( x ) tenemos que x + td D para todo t [0,, donde > 0. Por lo tanto,
existe x D tal que x = x + td, t > 0. Luego, d = (x- x )/t, es decir, d Cono (D - x ).
Acabamos de mostrar entonces que V D ( x ) = Cono (D - x ). Por la Proposición 1.4.1, tenemos siempre que
cl VD ( x ) D ( x ) D ( x ). Probamos la afirmación mostrando que
D ( x ) cl VD ( x ).
k
Sea d D ( x ), es decir, existen tk 0+ y d d (k ) tales que x + tk dk D k
para todo k. Como ya mostramos arriba, esto significa que d VD ( x ). En particular, concluimos que d = cl V
D ( x
).
A seguir mostraremos que un cono y su fecho tienen el mismo cono dual. n
Proposición 2.1.3. Sea K R un cono cualquiera. Entonces cl K es un cono y se tiene que
K * = (cl K)*.
En particular, si D R n es un conjunto convexo y x D, se tiene que
(D ( x ))* = (VD ( x ))* = (cono (D - x ))*. Demostración: El hecho que cl K es un cono es fácil de verificar y es dejado como ejercicio para el lector.
Por la definición de cono dual, el hecho que K cl K implica (cl K)* K *. Sean y K * y d cl K cualesquiera. Existe dk K tal que dk d (k ). Tenemos que y, dk 0 para todo k. Pasando al límite cuando (k ), obtenemos que y, d 0. Por lo tanto, y (cl K)*, es decir, K * (cl K)*. Ahora, la última afirmación de la Proposición se sigue del Teorema 2.1.1.
Otra noción útil en Análisis Convexa es la del cono normal.
n
Definición 2.1.3. Sean D R un conjunto convexo y x D. El cono normal (cono de
direcciones normales) en el punto x en relación al conjunto D es dado por
D ( x ) = d R n / d, x- x 0, x D. A seguir, mostraremos que, en el caso convexo, el dual del cono tangente es exactamente el cono normal definido arriba (vea Figura 2.1.6)
Figura 2.1.6: Ejemplos del cono normal de un conjunto convexo. Se tiene que D ( x ) = (D ( x ))*. Teorema 2.1.2. (Cono normal es dual del cono tangente) n
Sean D R un conjunto convexo y x D. Entonces
(D ( x ))* = (VD ( x ))* = (cono (D - x ))* = D ( x ). Demostración: Las primeras dos igualdades ya fueron probadas (vea la Proposición 2.1.3.).
Supongamos que y (cono (D - x ))*, es decir, y, d 0 para todo d cono
(D - x ). En particular, y, x- x 0 para todo x D, es decir, y D ( x ).
Supongamos que y D ( x ) .Tenemos que y, x- x 0 para todo x D, es
decir, y, d 0 para todo d (D - x ).
Luego, y, d 0 para todo d cono (D - x ).
Concluimos que y (cono (D - x ))*.
Como consecuencia de la caracterización del cono tangente y de su cono dual, obtenemos las siguientes condiciones de optimalidad para un problema con conjunto viable convexo. Teorema 2.1.3. (Condición necesaria de primer orden)
Sean D R n un conjunto convexo y f : R n R una función diferenciable en el punto
x D.
Si x es un minimizador local de f en el conjunto D, entonces
f´ ( x ), x- x 0, x D,
(2.2)
O, equivalentemente,
̅
̅
-f´ ( ) D ( ).
(2.3)
Demostración: Por el Teorema 1.4.1, f´ ( x ), d 0 para todo d D ( x ). Por el Teorema 3.1.1, tenemos que n
d R / d = x- x , x D cono (D - x ) D ( x ), lo que implica (2.2). Por la Definición 2.1.3, (2.2) y (2.3) son equivalentes.
Como vamos a probar en & 3.4.2, si la función es convexa (vea la definición a seguir), la condición necesaria de optimalidad dada en el Teorema 2.1.3 también es suficiente.
Definición 2.1.4. Si D R n es un conjunto convexo, se dice que la función f: D R es
convexa en D cuando para cualesquier x D, y D y 0, 1, se tiene f ( x + (1 - ) y) f (x) + (1 - ) f (y). La función f se dice estrictamente convexa cuando la desigualdad arriba es estricta para todos x y, (0, 1). La función f se dice fuertemente convexa con módulo > 0, cuando para cualesquier x D, y D y 0, 1, se tiene f ( x + (1 - ) y) f (x) + (1 - ) f (y) - (1 - ) x y
2
.
Figura 2.1.7: Ilustración de la definición de función convexa: se tiene q ue f ( x + (1 - ) y) f (x) + (1 - ) f (y).
Es obvio que una función fuertemente convexa es estrictamente convexa, y una función estrictamente convexa es convexa. La función f: R R, f (x) = x 2, es un ejemplo de función fuertemente convexa con módulo = 1. La función f : R R, f (x) = e x , es estrictamente (mas no fuertemente) convexa. La función f : R R, f (x) = x, es convexa( mas no estrictamente). En & 3.4 presentaremos algunos criterios que pueden ser usados para reconocer a qué clase de función dada pertenece. Definición 2.1.5. El epígrafo de la función f: D R es el conjunto
Ef = (x, c) D X R / f (x) c. La relación entre convexidad de conjuntos y de funciones es dada por el siguiente teorema.
Teorema 2.1.4. Sea D R n un conjunto convexo. Una función f: D R es convexa en D si, y solamente si, el epígrafo de f es un conjunto convexo en R n X R. Demostración: Supongamos primero que E f sea convexo.
Sean x D, y D cualesquiera. Obviamente, (x, f (x)) Ef y (y, f (y)) Ef . Por la convexidad de E f , para todo 0, 1 tenemos que
Figura 2.1.8: Convexidad de la función f convexidad del epígrafo de f. ( x + (1-) y, f (x) + (1-) f (y)) = (x, f (x)) + (1- ) (y, f (y)) Ef Por la definición de epígrafo, esto es equivalente a decir que f ( x + (1-) y) f(x) + (1- ) f(y), es decir, f es convexa. Supongamos ahora que f sea convexa. Sean (x, c 1) Ef y (y, c2) Ef . Como f(x) c1 y f(x) c2, por la convexidad de f, para todo 0, 1 se tiene f ( x + (1-) y) f (x) + (1- ) f (y) c1 + (1- ) c2, lo que significa que (x, c1) + (1- ) (y, c2) = ( x + (1-) y, c1+ (1-) c2) Ef , es decir, Ef es convexo.
Por el Teorema 2.1.4, de forma equivalente podemos definir la clase de funciones convexas como las funciones cuyos epígrafos son convexos. Decimos que
min f(x) sujeto a x D
(2.4)
es un problema de minimización convexo cuando D R n es un conjunto convexo y f: D R es una función convexa en el conjunto D. La importancia de la convexidad ya puede ser vista en el resultado siguiente: Teorema 2.1.5. (Teorema de minimización convexa)
Sean D R n un conjunto convexo y f: D R una función convexa en D. Entonces todo minimizador local en el problema (2.4) es global. Además de esto, el conjunto de minimizadores es convexo. Si f es estrictamente convexa, no puede haber más de un minimizador. Demostración: Supongamos que x D sea un minimizador local que no es global.
Entonces existe y D tal que f (y) < f ( x ). Definimos x () = y + (1- ) x . Por la convexidad de D, x () D para todo 0, 1. Ahora, por la convexidad de f, para todo 0, 1, tenemos f (x ()) f (y) + (1 - ) f ( x ) = f ( x ) + (f (y) – f ( x )) < f ( x ). Tomando > 0 suficientemente pequeño, podemos garantizar que el punto x ( ) es arbitrariamente próximo al punto x , y todavía se tiene que f (x ()) < f ( x ) y x () D. Esto contradice el hecho de que x es minimizador local del problema (2.4). Por lo tanto, cualquier solución local debe ser global. Sean S D el conjunto de los minimizadores (globales) y v R el valor óptimo del problema (f (x) = v para cualquier x S). Para cualesquier x S, x S y 0, 1, por la convexidad de f obtenemos f ( x + (1-) x ) f (x) + (1- ) f ( x ), = v + (1- ) v = v , lo que implica que del hecho f ( x + (1-) x ) = v y , por lo tanto, x + (1-) x S. Acabamos de mostrar entonces que S es convexo. Supongamos ahora que f sea estrictamente convexa y que existan x S y x S, x x . Sea (0, 1). Como x y x son minimizadores globales y x + (1-) x D, por la convexidad de D, se sigue f ( x + (1-) x ) f (x) = f ( x ) = v .
No obstante, por la convexidad estricta f ( x + (1-) x ) < f (x) + (1- ) f ( x ) = v + (1- ) v = v , lo que resulta en contradicción. Concluimos que en este caso el minimizador es único. Definición 2.1.6. Si D R n es un conjunto convexo, decimos que f: D R es una función cóncava en D, cuando la función (- f ) es c onvexa en D.
Es fácil ver que las afirmaciones del Teorema 2.1.5 son verdaderas si sustituimos minimización de una función convexa en un conjunto convexo por maximización de una función cóncava en un conjunto convexo. Ejercicios Nº 01
1. Sea D R n un conjunto convexo. Supongamos que x int D, y fr D. Probar que int D, si 0, 1), ((1- ) x + y) D, si > 1. n
2. Sea K R un cono. Probar que K es convexo si, y solamente si, K = K + K. 3. Sean D un conjunto convexo en R n, c1 > 0, c2 > 0. Probar que (c1 + c2) D = c1 D + c2 D. Mostrar que la afirmación puede ser falsa cuando D es no convexo. 4. Probar que cuando D = Rn , la condición de optimalidad en el Teorema 3.1.3 es equivalente a la siguiente condición de complementaridad:
x i 0,
(f´( x ))i 0, x i ( f´( x ))i = 0, i = 1,…,n.
5. Sea f: R n R una función (fuertemente) convexa y sean x R n y d R n cualesquiera. Probar que la función : R R, () = f (x + d), es (fuertemente) convexa. 6. Sea f: R m R una función convexa. Sean A R (m,n) y a R m . Probar que la función f (x) = f (A x + a) es convexa en R n. 2
7. Probar que la función f (x) = x es fuertemente convexa con módulo = 1. 8. Sea f: R n R una función convexa y, al mismo tiempo, cóncava. Mostrar que esto implica que f es una función afín, es decir , f (x)= < a, x> + c, para todo x R n, donde a R n y c R.
2.4
Funciones convexas
2.4.1.
Propiedades básicas de las funciones convexas
Primero mostraremos que una suma de múltiplos no negativos de un número finito de funciones convexas es una función convexa. Proposición 2.4.1. (Convexidad de la suma de funciones convexas)
Sean D R n un conjunto convexo y f i : D R, i = 1,…p, funciones convexas en D. Entonces para cualesquier i R +, i = 1,…p, la función f : D R, f (x) =
∑
es convexa en D. Demostración: Para x D, y D y 0, 1 cualesquiera, tenemos que
f ( x + (1-)y) =
∑ ∑ ∑ ∑
=
= f (x) +
+
f (y),
Donde la desigualdad sigue de la convexidad de f i e del hecho de que i 0, i = 1,…p. A seguir mostraremos que el supremo de funciones convexas también es una función convexa. La demostración está basada en el hecho de que el epígrafo del supremo es la intersección de los epígrafos de funciones que definen el supremo (vea Figura 3.4.1).
Figura 2.4.1: El epígrafo de supremo de funciones convexas es un conjunto convexo (en el dibujo, f (x) = max
* +
. Por lo tanto, el supremo de funciones convexas es una función convexa.
Proposición 2.4.2. (Convexidad del supremo de funciones convexas)
Sean D R n un conjunto convexo y f i : D R, i I, funciones convexas en D, donde I es un conjunto cualquiera (posiblemente finito). Supongamos que exista un R tal que f i (x) para todo x D y i I. Entonces la función f : D R,
f (x) = supiI f i (x)
es convexa en D. Demostración: Sea c R arbitrario. Se tiene que
Ef = (x,c) DxR/ f (x) c = (x,c) DxR/ f i (x) c, i I = iI (x,c) DxR/ f i (x) c = iI Efi. Por la convexidad de f i, los epígrafos Efi, i I, son convexos (Teorema 2.1.4). Luego, la intersección de ellos es un conjunto convexo (Proposición 3.2.1). Usando de nuevo el Teorema 3.1.4, la convexidad de E f implica la convexidad de f.
Observemos que en el resultado arriba la condición de que las funciones que definen el supremo sean uniformemente limitadas (superiormente) es necesaria solamente para garantizar que f tenga valores finitos en el conjunto D. En particular, esta hipótesis no es necesaria cuando I es un conjunto finito. Otra forma de obtener una función convexa es la siguiente. Proposición 2.4.3. Sean g : R n R una función convexa, : R R una función convexa y no decreciente.
Entonces la función f : R n R,
f (x) = ( g (x) )
es convexa. Demostración: Para x R n, y R n y 0, 1 cualesquiera, por la convexidad de g, tenemos que
g ( x + (1-) y) g (x) + (1- ) g (y). Ahora, f ( x + (1-) y ) = ( g ( x + (1-) y))
( g (x) + (1-) g(y)) (g (x) ) + (1-) (g (y)) = f (x) + (1- ) f(y), Donde la primera desigualdad se sigue del hecho de que es no decreciente, y la segunda ocurre de la convexidad de .
Ejercicios Nº 02
1. Construir un ejemplo mostrando que, para una función convexa que no sea no decreciente, la afirmación de la Proposición 3.4.3 puede ser falsa. 2. Sean f i : R n R, i = 1,…,p, funciones convexas en R n . Probar que para q 1, la función f : R n R,
f(x) =
∑
es convexa en R n. n
3. Sean i 0, i = 1,…,n, f (x) =
∏
i
1 . Probar que la función
i 1
, x R n,
es cóncava en Rn . (Esta función es importante en Economía Matemática y se llama función de Cobb- Duglas.) 4. Probar que para a Rn y b > 0 cualesquiera, la función f (x) =
es convexa en Rn . A continuación mostraremos que conjuntos de nivel de una función convexa son convexos (vea Figura 2.4.2). Teorema 2.4.1. (Convexidad de conjuntos de nivel de funciones convexas)
Supongamos que el conjunto D R n sea convexo y la función f : D R sea convexa en D. Entonces el conjunto de nivel L f, D (c) =
* +
Es convexo para todo c R.
Figura 2.4.2: Conjuntos de nivel de una función convexa son convexos . Demostración: Tomamos c R arbitrario. L conjunto vacío es convexo trivialmente).
f, D (c)
= , la conclusión se sigue ( el
Sean x L f, D (c), y L f, D (c), es decir, x, y D, f (x) c, f (y) c. Por la convexidad de D, ( x + (1-) y) D. Por la convexidad de f en D, f ( x + (1-) y ) f (x) + (1- ) f (y) c + (1- ) c = c, lo que muestra que ( x + (1-) y ) L f, D (c).
Observamos que la convexidad de todos los conjuntos de nivel de una función no es suficiente para decir que ella es convexa. Por ejemplo, la función f : R R, f (x) = x3, tiene conjuntos de nivel convexos, mas es obvio que ella no es convexa. La Figura 3.4.3 muestra más una función con la misma propiedad. Funciones de este tipo se llaman cuasi-convexas. Definición 2.4.1. Sea D R n un conjunto convexo. Decimos que f : D R es cuasi-
convexa en D cuando los conjuntos de nivel L
f, D (c)
son convexos para todo c R.
La función f : R R, f (x) = x3, es cuasi-convexa en R, así como la función en la Figura 3.4.3. Más ninguna de estas dos funciones son convexas. Definición 2.4.2. Sea D R n un conjunto convexo. Decimos que g: D R m es
convexa en D, si todas las funciones g i : D R, i = 1,…,m, son convexas en D.
Figura 2.4.3: Un ejemplo de una función cuasi-convexa. Como consecuencia del Teorema 2.4.1, obtenemos una condición suficiente para garantizar la convexidad de un conjunto definido por restricciones funcionales. n
n
m
Corolario 2.4.1. Sea R un conjunto convexo. Sean g: R R una función
convexa y h: R n R l una función afín. Entonces el conjunto D=
* +
es convexo. Demostración: Como es fácil de observar, se tiene que
D = D1 D2 D3 Donde D1 = l i1 x / hi ( x) 0 l i1 Lhi, , (0) , D2= l i1 x / hi ( x) 0 l i1 Lhi , , (0) , D3= m j1 x / g j ( x) 0 m j1 Lgj , , (0) . Recordemos que cuando “h” es afín, h y (-h) son convexas. Por lo tanto, todos los conjuntos de nivel arriba son convexos (Teorema 2.4.1) y la intersección de ellos también es un conjunto convexo (Proposición 3.2.1).
A continuación dejaremos como tarea que una función convexa es continua en cualquier subconjunto abierto de su dominio. Además de esto, ella es localmente Lipschitz-continua en el interior de su dominio. Teorema 2.4.2. (Continuidad de funciones convexas) Sean D R n un conjunto
convexo y abierto y f : D R una función convexa en D. Entonces f es localmente Lipschitz-continua en D. En particular, f es continua en D.
Demostración: La demostración de éste Teorema lo dejamos como ejer cicio.
Un caso particular de este teorema es: si f : D R es convexa en el conjunto convexo D R n , entonces f es continua en el interior de D. Es fácil ver que una función convexa puede no ser continua en la frontera de un conjunto cerrado (en este caso, ella no está definida en todo el espacio).
Figura 2.4.5: Ilustración del ejemplo 2.4.1. La función f es convexa en D = no es continua en el punto x = -1 de la frontera de D.
Ejemplo 2.4.1. Sean D =
* +
f : D R,
2,
* +
, mas ella
,y
si x = -1
f (x) = x2,
si x> -1
Es fácil ver que f es convexa en D (su epígrafo es convexo), más f no es continua en el punto x = -1 (en la frontera de su dominio); vea Figura 2.4.5. El siguiente resultado es importante del punto de vista computacional, porque con frecuencia los métodos numéricos son basados en la resolución de una subsecuencia de subproblemas con funciones objetivos fuertemente convexas. Como consecuencia del Teorema 2.4.3 (vea corolario 2.4.2 a seguir), el problema de minimización de una función fuertemente convexa en un conjunto cerrado no vacío siempre tiene una solución que es única. Teorema 2.4.3. (Compacticidad de conjuntos de nivel de una función fuertemente convexa)
Supongamos que la función f: R n R sea fuertemente convexa en R n. Entonces el conjunto de nivel
L f, R n (c) =
* +
Es compacto para todo c R. n
Demostración: Por los Teoremas 2.4.1 y 2.4.2, el conjunto L f, R (c) es convexo y cerrado. Supongamos que L f, R n (c) sea ilimitado. En este caso, por la Proposición
3.2.7, existe una dirección de recesión d R pertenece a L f, R n (c).
* +
n Lf, R
*+
(c) /
, es decir, la semi-recta
Sea > 0 el módulo de la convexidad fuerte de f. fijemos t > 0. Para todo q > t, obtenemos que f (x + td) = f ((t / q) (x + qd) + (1- t/q) x) (t/q) f (x + qd) + (1- t/q) f (x) - (t/q) (1- t/q) (t/q) c + (1- t/q) c - (t/q) (1- t/q) q 2 = c - t (q-t)
‖‖
2
‖‖
‖‖
2
2
.
Como f (x + td) es un número fijo y c - t (q-t) Concluimos que L
‖‖
2
- cuando q +, tenemos una contradicción.
n f, R (c)
es ilimitado.
Observemos que el Teorema 2.4.3 también dice que una función fuertemente convexa es coerciva (vea definición 1.2.3). Corolario 2.4.2. Sea f: R n R una función fuertemente convexa y D R n un conjunto cerrado cualquiera. Entonces f tiene un minimizador en D y el es único. Demostración: Por el Corolario 1.2.1, tomando en cuenta también el Teorema 2.4.3, concluimos que para D no vacio cerrado cualquiera, f tiene un minimizador en D. Por el
Teorema 2.1.5, el debe ser único.
Teorema 2.4.4. Sea f : R n R una función convexa. Supongamos que exista c R tal que el conjunto de nivel L f, R n (c) = es no vacío y limitado.
* +
Entonces L f, R n (t) es limitado para todo t R.
Demostración: La demostración de este teorema es idéntica a la demostración del Teorema 2.4.3 y lo dejamos como ejercicio.
Concluimos esta sección con algunos comentarios sobre maximización de funciones convexas. El problema de maximizar una función convexa en un conjunto convexo tiene una naturaleza bien diferente del problema de minimizar esta función en este conjunto. Por ejemplo, sea D un triángulo en R 2, es decir, D = conv x 1 , x 2 , x 3 R 2 , donde xi, i = 1, 2, 3, son puntos diferentes, y sea f : R 2 R +,
f (x) =
‖‖
, es decir, f (x) es la distancia entre y R 2 fijo y x .
Minimizar f sobre D significa encontrar la proyección de y sobre D, que es única (Teorema 3.2.4). Más aún, esta proyección puede ser cualquier punto de D dependiendo de la localización de y en R 2; vea Figura 2.4.6.
Figura 2.4.6: Para los puntos yi R 2, i = 1,2,3 , los minimizadores de f i (x) =
̅
i
, i = 1,2,3, respectivamente.
en D son puntos
Por otro lado, maximizar f sobre D significa encontrar el punto de D más distante de y. Como puede ser visto con facilidad haciendo diseños geométricos, tal punto siempre es uno de los puntos extremos de D; vea Figura 2.4.7. Todavía, este problema puede poseer soluciones locales que no sean globales (lo que no puede suceder en el caso de minimización convexa).
Figura 2.4.7: Para los mismos puntos y i, i = 1, 2, 3, de la Figura 3.4.6, los maximizadores de f i (x) =
̂
en D son los puntos extremos de D:
i
, i = 1, 2, 3, respectivamente.
Teorema 2.4.5. (Maximización de una función convexa en un conjunto convexo compacto)
Sean D R n un conjunto convexo compacto e f una función convexa en un conjunto abierto que contiene a D. Entonces el problema max f (x) sujeto a x D tiene una solución que es un punto extremo de D. Demostración: Por el Teorema 2.4.2, f es continua en D. Sea x D una solución del problema, cuya existencia se sigue del Teorema de Weierstrass (Teorema 1.2.1). Por los Teoremas de Krein-Milman y de Carathéodory (Teoremas 3.2.8 y 3.2.2), podemos
escribir x como una combinación convexa de un número finito de puntos extremos de D: p
p
x i x ,
i
i
i 1
1,
p n 1 ,
i 1
x i E ( D ), i 0,
i 1, , p.
En esta representación podemos admitir, sin pérdida de generalidad, que i > 0, i = 1,…,p. Por la Desigualdad de Jensen (Corolario 3.2.2), tenemos que p
f ( x )
i f ( x
i
).
i 1
Como f ( x ) f (x) para todo x D, se sigue que
p
1
f ( x ) 1 f(x ) +
i f ( x ) i 2
= 1 f(x 1
1
) + (1- 1) f ( x ).
Luego, 0 1 ( f(x )- f ( x )). Tomando en cuenta que 1 > 0, esto implica que
f ( x ) f(x1).
Como x es un minimizador de f en D, f ( x ) = f (x1), es decir, x1 E ( D ) también es un minimizador de f en D. (observemos que el mismo vale para todos los otros puntos
extremos que participan en la representación de x arriba, ya que podríamos escoger cualquiera de uno de ellos en lugar de x 1.)
El resultado siguiente complementa el Teorema 2.4.5 sobre la maximización de una función convexa. En lugar de la Hipótesis de que D sea compacto, suponemos ahora que D es un conjunto poliedral que no contiene ninguna recta (por eso, el puede ser ilimitado). Teorema 2.4.6. (Maximización de una función convexa en un conjunto poliedral)
Sean D R n un conjunto poliedral que no contiene ninguna recta y f : D R una función convexa. Supongamos que el problema max f (x) sujeto a x D posee una solución. Entonces existe una solución de este problema que es un vértice de D. Demostración: Por el Teorema 3.2.9, D = conv E (D) + R D.
Sea x una solución del problema. Cuando x conv E (D), el mismo argumento presentado en la prueba del Teorema 2.4.5 muestra que existe x E (D), tal que f (x) =
f ( x ), es decir, algún x E (D) también es una solución.
Supongamos entonces que x conv E (D). En este caso, se tiene que x = x + td, donde x conv E (D), d R D, t > 0. A continuación mostraremos que f (x) f (x +
td) = f( x ), es decir, x conv E (D) también es una solución. Como d R D, se tiene que x + qd D para todo q R + (vea Definición 3.2.3).
Por lo tanto, f ( x ) f (x + qd) para todo q R +. Por la convexidad de f, para todo q > t, obtenemos que
f ( x ) = f (x + td) = f ((t/q) (x + qd) + (1- t/q) x) (t/q) f (x + qd) + (1- t/q) f (x)
(t/q) f ( x ) + (1- t/q) f (x).
Tomando límite cuando q en la desigualdad arriba, obtenemos que
f ( x ) f (x). De nuevo, estamos en la situación en que un punto x conv E(D) es un maximizador de f en D, por lo tanto, el argumento presentado en el Teorema 2.4.5 verifica el resultado anunciado.
Como consecuencia del Teorema 2.4.6, cuando un problema de programación lineal tiene una solución y su conjunto viable no contiene ninguna recta, podemos afirmar que una de las soluciones es un vértice del conjunto viable. n
Corolario 2.4.3. Supongamos que D R sea un conjunto poliedral que no contiene ninguna recta, y que el problema de programación lineal
min c, x sujeto a x D, donde c R n, tenga una solución. Entonces uno de los vértices de D es una solución del problema. En particular, cuando la solución es única, ella es un vértice de D. Demostración: El resultado se sigue aplicando el Teorema 2.4.6 al problema
-max c, x sujeto a x D, que tiene a su función objetiva cóncava, y es equivalente al original.
En particular, si un problema de programación lineal donde el conjunto viable viene dado por D = x Rn / A x a, B x b , Posee una solución, entonces una de las soluciones es vértice de D (las restricciones x 0 garantizan que D no contiene ninguna recta). El requerimiento de que las variables sean no negativas es muy común en la práctica. Observamos que las afirmaciones del Corolario 2.4.3 también son verdaderas para un problema de maximización de función lineal en un conjunto poliedral que no contiene rectas.
2.4.2
Funciones convexas diferenciables
Cuando una función es diferenciable, la convexidad admite varias caracterizaciones que son muy útiles para determinar si una función es convexa o no.
Teorema 2.4.7. (Caracterizaciones de funciones convexas diferenciables)
Sean D R n un conjunto convexo y abierto y f : D R una función diferenciable en D. Entonces las propiedades siguientes son equivalentes: (a) La función f es convexa en D (b) Para todo x D y todo y D, f (y) f (x) + f ´ ( x), y x . (c) Para todo x D y todo y D,
f ´ ( x) f ´ ( y ), y x 0 Cuando f es dos veces diferenciable en D, las propiedades arriba también son equivalentes a (d) La matriz Hessiana de f es semidefinida positiva en todo punto de D: n f ´´ ( x) d , d 0 x D, d R .
Demostración: Mostraremos primero que (a) (b) (c).
Sea f convexa. Para x D, y D y (0, 1 cualesquiera, definiendo d = y-x, tenemos que f (x + d) = f (y + (1- ) x) f (y) + (1- ) f (x), Donde (f (y)- f (x)) f (x + d) – f (x). Dividiendo los dos lados de la desigualdad arriba por > 0, y pasando al límite cuando 0+ , obtenemos f (y) - f (x) =
f ´ ( x), d f ´ ( x), y x .
Cambiando ahora el papel de x e y en ítem (b), tenemos f (x) f (y) + f ´ ( y ), x y . Sumando esta desigualdad con la de (b), inmediatamente obtenemos (c).
Mostraremos ahora que (c) (b) (a). Sean x D, y D. Por el teorema del Valor Medio, existe (0,1) tal que f (y) - f (x) = f ´ ( x ( y x)), ( y x) .
(2.36)
Usando (c) para los puntos ( x ( y x) ) y x, obtenemos -1 f ´ ( x ( y x)), ( y x) = f ´ ( x ( y x)), ( y x)
-1 f ´ ( x), ( y x) =
f ´ ( x), y x .
Combinando esta desigualdad con (2.36), obtenemos (b). Definiendo de nuevo d = y-x, tenemos f (x) f (x + d) - f ´ ( x d ), d , f (y) f (x + d) + (1- ) f ´ ( x d ), d , donde usamos (b) para los puntos x y (x + d); y e (x + d), respectivamente. Multiplicando la primera desigualdad por (1 - ) 0 y la segunda por sumando, obtenemos (1- ) f (x) + f (y) (1- ) (f (x + d) -
0, y
f ´ ( x d ), d )
+ (f (x + d) + (1- ) f ´ ( x d ), d = f (x + d) = f ((1- ) x + y), Lo que muestra que f es convexa. Supongamos ahora que f sea dos veces diferenciable en D. Es suficiente mostrar que (b) (d). Fijemos x D y d R n cualesquiera. Como D es abierto, x + d D para todo > 0 suficientemente pequeño. Por (b), f (x + d) – f (x) f ´ ( x), d . Usando todavía la diferenciabilidad de f,
0 f (x + d) – f (x) - f ´ ( x), d = 2 /2 f ´´ ( x) d , d o( 2 ) . Dividiendo por 2 > 0 y tomando el límite cuando 0+ , obtenemos (d). Sean x D , y D cualesquiera. Por el Teorema del Valor Medio, existe (0,1) tal que f (y) – f (x) - f ´ ( x), y x = 1/2 f ´´ ( x ( y x))( y x) , y x 0 , donde la desigualdad sigue de (d). Por lo tanto, (d) (b).
Figura 2.4.8: Ilustración del Teorema 2.4.7 (b). Para todo y, se tiene que f (y) f (x) +
f ´( x), y x donde x es fijo, pero arbitrario. El ítem (b) del Teorema 2.4.7 dice que, en todo punto, la aproximación de primer orden de una función convexa siempre está abajo del gráfico de la función (vea Figura 2.4.8). El ítem (c) dice que el gradiente de una función convexa es monótono. A seguir mostraremos que de hecho todo punto estacionario es minimizador global. En otras palabras, en el caso convexo las condiciones de optimalidad también son suficientes. Teorema 2.4.8. (Condiciones necesarias y suficientes para un problema de minimización convexo) n
Sean D R un conjunto convexo y f : C R una función convexa y diferenciable en el conjunto abierto C que contiene a D.
Entonces x es un minimizador de f en D si, y solo si,
f ´ ( x), x x 0 x D,
(2.37)
O equivalentemente,
f ´ ( x ) D ( x ).
(2.38)
Todavía, la condición (3.37) es equivalente a
f ´ ( x), x x 0 x D,
(2.39)
Si d es cerrado, (3.37) y (3.39) también son equivalentes a la s iguiente condición:
x = PD ( x - f ´ ( x) ) para algún > 0.
(2.40)
Demostración: Las condiciones (2.37) y (2.38) son equivalentes por la convexidad de D, independientemente de la convexidad de f (vea el Teorema 2.1.3).
Si x es un minimizador, (2.37) y (2.40) son satisfechos por los Teoremas 2.1.3 y 3.2.5, respectivamente. Supongamos que valga (2.37). Usando el Teorema 2.4.7 (b), obtenemos que para cualesquier x D,
´
f (x) f ( x ) + f ( x), x x f ( x) ,
es decir, x es minimizador global.
Supongamos ahora que valga (2.40), es decir, x es una solución del problema min (x)
sujeto a x D,
donde
(x) =
1 2
´
´2
x ( x f ( x))
, > 0.
Por el Teorema 2.1.3, para todo x D se tiene que 0
´
( x), x x
= x ( x f ´ ( x)), x x
´
= f ( x), x x .
Como > 0, vale (2.37). Como ya mostramos, esto implica que x es un minimizador global. Finalmente, probaremos la equivalencia entre (2.37) y (2.39). Supongamos (2.37). Por el Teorema 2.4.7 (c), ´
´
´
f ( x) f ( x), x x f ( x ), x x
Donde la segunda desigualdad sigue de (2.37). Supongamos (2.39). Sean x D y (0, 1 cualesquiera. Tenemos que 0
´
f ( x (1 ) x), ( x (1 ) x ) x
= f ´ ( x (1 ) x), x x
Dividiendo los dos lados de la desigualdad arriba por > 0 y pasando al límite cuando 0+, obtenemos (2.37) (pues los gradientes de una función convexa diferenciable son continuas, como se verá en la Proposición 3.4.4).
Como consecuencia del resultado arriba, obtenemos que la condición f ´ ( x ) es necesaria y suficiente para optimalidad en el caso de minimización irrestricta de una función convexa diferenciable. A seguir, probamos que en un problema de minimización convexo no solo el valor de la función objetivo es constante en el conjunto de soluciones (lo que es obvio), más también el gradiente de la función objetivo es constante en este conjunto (lo que no es obvio en el caso de minimización con restricciones). Teorema 2.4.9. (Invarianza de gradiente de la función objetivo en el conjunto de soluciones de un problema de minimización convexo)
Sean f : R n R una función convexa dos veces diferenciable y D R n un conjunto
convexo cerrado. Sea x cualquier minimizador de f en D.
Entonces x D es un minimizador de f en D, sí y solo sí,
´
´
´
f ( x), x x = 0.
f ( x ) = f ( x ) ,
(2.41)
Demostración: Sea v = f ( x ) el valor óptimo del problema.
Supongamos que valga (2.41). Por el Teorema 2.4.7 (b),
f ´( x ), x x = f ( x) .
v = f ( x ) f ( x) +
̂
Tenemos entonces que v = f ( x) , y como D por la hipótesis, se sigue que solución del problema.
̂
es una
Supongamos ahora que x es un minimizador de f en D. Luego,
´
f ( x), x x ,
v = f ( x ) = f ( x) f ( x ) +
0 .Por otro lado (vea el Teorema 2.4.8), como
̂
D, vale
´
f ´ ( x ), x x
Donde de nuevo hemos utilizado el Teorema 2.4.7 (b). Concluimos que
f ( x ), x x
0. Esto
prueba la segunda relación en (2.41).
Intercambiando el papel de x y x en la segunda relación en (2.41), tenemos que
f ´( x), x x = 0.
Ahora, combinando esta igualdad con la segunda relación en (3.41), obtenemos
0=
´
f ´( x ) f ( x), x x .
Por el Teorema del Valor medio,
(2.42)
f ´( x ) f ´ ( x) =
∫ (̅ ̅̂ )̅ ̂ ̅ ̂
=Q
,
(2.43)
Donde Q=
∫ (̅ ̅̂ )
.
Definimos
: R n R,
(x) =
〈〉
.
Con esta definición, tenemos que (vea 2.42)
̅̂
(
) = 0.
Como f´´(x) R (n, n) es una matriz simétrica semidefinida positiva para todo x R n (Teorema 2.4.7 (d)), se sigue que el mismo vale para Q R (n, n), por la propia definición de Q. Por lo tanto, (x) 0 x R n.
̅̂ ̅̂
Concluimos que 0 = ´(
n
es un minimizador de en R . Luego,
̅̂ ̅ ̂
)=2Q(
).
Ahora (2.43) implica que f´( ) – f´( ) = 0.
Corolario 2.4.4. El conjunto de soluciones de un problema de programación cuadrática convexa siempre es un conjunto poliedral. Demostración: Consideramos el problema
min
〈 〉 〈〉 sujeto a xD,
donde Q R (n,n) es una matriz simétrica semidefinida positiva, q R n, y D es un conjunto poliedral. Cuando el conjunto de soluciones es vacio, la afirmación vale trivialmente. Sea
x una solución cualquiera. Por el Teorema 2.4.9, cualquier otra solución x se caracteriza por
Q x + q = Q x + q, O sea,
〈 〉
x
x
x = 0.
Q x = Q x ,
0=
〈 〉 〈 〉 〈 〉
x
x
x
x
x
x
x .
Por lo tanto, el conjunto de soluciones del problema viene dado por D
〈 〉 〈 〉
x
x
,
Que es un conjunto poliedral.
Para las funciones diferenciables fuertemente convexas, tenemos criterios que son análogos a aquellos del Teorema 2.4.7 para las funciones convexas. Teorema 2.4.10 (Caracterizaciones de las funciones fuertemente convexas diferenciables)
Sean D R n un conjunto convexo y abierto y f : D R una función diferenciable en D, con derivada continua en D. Entonces las propiedades siguientes son equivalentes: (a) La función f es fuertemente convexa en D con módulo > 0. (b) Para todo x, y D,
〈 〉 ‖‖ 〈 〉 ‖‖ f (y) f (x) +
2
.
(c) Para todo x, y D,
2
.
Cuando f es dos veces diferenciable en D, las propiedades arriba también son equivalentes a (d) La matriz Hessiana de f es definida positiva uniformemente en D, es decir, x D,
〈 〉 ‖‖
2
d R n .
Demostración: La demostración de este Teorema es similar a la demostración del Teorema 2.4.7 y lo dejamos como ejercicio.