REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA BOLIVARIANA NÚCLEO ANZOÁTEGUI – SAN TOMÉ CÁTEDRA: Ing. De Sistemas
OPTIMIZACIÓN NO LINEAL
Facilitador: Ing- Edgardo Salazar Sección: 7S-N01 Ing. De Sistemas
Bachilleres: Liz Alland J Scioville
San Tomé, Enero de 2014.
C.I: C.I: 12.681.840
Caracterización de Máximo y Mínimo.
Máximo local y global Mínimo local y global. Matriz Hessiana.
Método de búsqueda.
Método de Fibonacci. Función Unimodal. Método de sección dorada. Método de interpolación cuadrática. Metodos multidimensionales. Método de variable cíclica.
Algoritmo de cuasi Newton. Método de penalización.
Caracterización de Máximo y Mínimo. Máximo local y global
En matemáticas, los máximos y mínimos de una función, conocidos colectivamente como extremos de una función, son los valores más grandes (máximos) o más pequeños (mínimos), que toma una función en un punto situado ya sea dentro de una región en particular de la curva (extremo local) o en el dominio de la función en su totalidad (extremo global o absoluto).1 2 3 De manera más general, los máximos y mínimos de un conjunto (como se define en teoría de conjuntos) son los elementos mayor y menor en el conjunto, cuando existen. El localizar valores extremos es el objetivo básico de la optimización matemática.
Extremos relativos o locales Sea perteneciente a la función.
Se dice que ,
,
sea
y sea
es un máximo local de
en símbolos .
un punto
si existe un entorno reducido de centro
donde para todo elemento
,
de
se cumple
Para que esta propiedad posea sentido estricto debe cumplirse
.
Análogamente se dice que el punto
es un mínimo local de
entorno
símbolos
elemento
reducido de
de
centro
,
en
se cumple
,
donde
si existe un para
todo
.
Extremos absolutos Sea , perteneciente a la función.
sea
y
sea
un
punto
Se dice que P es un máximo absoluto de f si, para todo x distinto de perteneciente al subconjunto A, su imagen es menor o igual que la de . Esto es:
Máximo absoluto de
.
Análogamente, P es un mínimo absoluto de f si, para todo x distinto de perteneciente al subconjunto A, su imagen es mayor o igual que la de . Esto es: Mínimo absoluto de
.
Máximos y mínimos y Puntos de inflexión Desde la década de los 60 la programación lineal (PL) ha sido aplicada en diversas áreas de la vida como por ejemplo: sistemas militares, agrícolas, económicos, de transporte y de salud. La PL ofrece bases importantes en el desarrollo de métodos de solución de otras técnicas de la Investigación de operaciones, como lo son la programación entera, la estocástica y la no lineal [Taha 1991]. La PL juega un papel muy importante en el estudio de los problemas continuos de optimización considerados como la frontera de los problemas de optimización combinatoria, ya que en los continuos se tienen las características necesarias para que sean considerados dentro del tipo combinatorio [Papadimitriou and Steiglitz, 1982]: Un problema de optimización combinatoria siempre se le involucra un conjunto de instancias, donde cada una de ellas cuenta con un conjunto finito de posibles soluciones (característica imprescindible de los problemas continuos). Más en general, el máximo y el mínimo de un conjunto son el elemento más grande y menos en el conjunto. Acotadas conjuntos infinitos como el conjunto de los números reales no tienen mínimo y máximo. Por otra parte la teoría de optimización clásica se usa para la obtención de los máximos y mínimos de funciones no lineales restringidas y no restringidas, en los que se hace uso del cálculo diferencial.
MAXIMOS Y MINIMOS Mínimo (fuerte): Un punto extremo X0 de una función f(X0) define un mínimo de la función si f(X0+h) > f(X0), donde X0 es cualquier punto de la función y h en valor absoluto es suficientemente pequeña. Máximo (fuerte): Un punto extremo X0 de una función f(X0) define un máximo de la función si f(X0+h) < f(X0), donde X0 es cualquier punto de la función y h en valor absoluto es suficientemente pequeña.
Una función puede contener varios máximos y mínimos, identificados por los puntos extremos de la función. En la figura 1 se puede observar esto, los puntos x1, x3 y x6 son máximos, de la figura notamos que f(x6) es el mayor que f(x1) y f(x3), a este punto se le conoce como máximo global de la función y a los restantes como máximos locales. Lo mismo se puede ver para los mínimos, en los que también existe un mínimo global f(x2) y un mínimo local f(x4). Como es de lógico, solo puede existir un solo global y posiblemente varios locales.
Fig. Representación de máximos y mínimos en una función con una sola variable
Una condición necesaria pero no suficiente para que X0 sea un punto extremo, es que para una función con más de una variable, el gradiente Ñ f(X0) = 0. Si es cierto esto entonces X0 será conocido como punto estacionario. Una condición suficiente para que un punto estacionario sea extremo es que la matriz Hessiana H obtenida en X0 del sistema de ecuaciones sea positiva cuando X0 es un punto extremo de mínimo. Y negativa cuando X0 es un punto extremo de máximo. Un máximo débil implica un numero finito de máximos alternativos (ver figura 1) y se define como X0 es un máximo débil, si f(X0 + h) <= f(X0). Un análisis similar es para los mínimos débiles.
Un punto de inflexión se encuentra cuando la evaluación del gradiente da cero y no es un extremo, esto es, se debe de cumplir la condición de la matriz Hessiana.
Máximo absoluto Una función tiene su máximo absoluto en el x = a si la ordenada es mayor o igual que en cualquier otro punto del dominio de la función.
a=0
Mínimo absoluto Una función tiene su mínimo absoluto en el x = b si la ordenada es menor o igual que en cualquier otro punto del dominio de la función.
b=0
Máximo y mínimo relativo Una función f tiene un máximo relativo en el punto a, si f(a) es mayor o igual que los puntos próximos al punto a. Una función f tiene un mínimo relativo en el punto b, si f (b) es menor o igual que los puntos próximos al punto b.
a = 3.08
b = -3.08
Cálculo de máximos y mínimos relativos Máximos y mínimos
Si f es derivable en a, a es un extremo relativo o local si:
1. Si f'(a) = 0. 2. Si f''(a) ≠ 0.
Máximos locales
Si f y f' son derivables en a, a es un máximo relativo o local si se cumple:
1. f'(a) = 0 2. f''(a) < 0 Mínimos locales
Si f y f' son derivables en a, a es un mínimo relativo o local si se cumple:
1. f'(a) = 0 2. f''(a) > 0 Cálculo de máximos y mínimos
Estudiar los máximos y mínimos de: f(x) = x3 − 3x + 2 Para hallar sus extremos locales, seguiremos los siguientes pasos: 1. Hallamos la derivada primera y calculamos sus raíces. f'(x) = 3x2 − 3 = 0 x = −1 x = 1. 2. Realizamos la 2ª derivada, y calculamos el signo que toman en ella los ceros de derivada primera y si: f''(x) > 0 Tenemos un mínimo. f''(x) < 0 Tenemos un máximo. f''(x) = 6x
f''(−1) = −6 Máximo f'' (1) = 6 Mínimo
3. Calculamos la imagen (en la función) de los extremos relativos. f(−1) = (−1)3 − 3(−1) + 2 = 4 f(1) = (1)3 − 3(1) + 2 = 0 Máximo (−1, 4) Mínimo (1, 0)
Matriz Hessiana. El hessiano, conocido también como discriminante o matriz Hessiana, fue introducido en el año de 1844 por Hesse, matemático alemán quien nació en 1811 y murió en 1874. EL HESSIANO Matriz que contiene a las segundas derivadas y que sirve para verificar si del punto crítico del que estamos hablando es máximo, mínimo, punto silla o no puede determinarse. Primero recordemos que los puntos críticos son aquellos que anulan el gradiente, es decir los que satisfacen:
Pasos A Seguir Para Encontrar Máximos Y Mínimos Utilizando Matrices Hessianas 1. Tener la función original que se va a trabajar. 2. Calcular las primeras derivadas parciales de la función con respecto a cada una de las variables que se tiene la función original. 3. Igualar a cero las primeras derivadas que se calcularon en el paso 2. 4. Simultanear las ecuaciones generadas en el paso 3 para encontrar el valor de cada una de las variables. Esos valores encontrados para cada una de las variables serán las coordenadas de los puntos críticos. 5. Teniendo los puntos críticos que se encontraron en el paso 4, se tiene que calcular las segundas derivadas parciales en el punto crítico de modo que asignemos los valores de cada elemento de la matriz Hessiana, ya sea matriz 2 x
2 (si la función es de 2 variables), 3 x 3 (si la función es de 3 variables), 4 x 4 (si la función es de 4 variables), n x n (si la función es de n variables). 6. Resolver la matriz Hessiana normalmente como se resuelve la determinante de una matriz cuadrada. El resultado que se obtenga de la matriz Hessiana es la respuesta.
MATRIZ HESSIANA DE TRES VARIABLES Antes de presentar ejemplos, se muestra la matriz resultante cuando se trabaja con ejercicios o problemas de tres variables. La matriz Hessiana será de 3 x 3 y queda de esta forma:
SIGNIFICADO DE CADA ELEMENTO DE LA MATRIZ HESSIANA DE TRES VARIABLES Con el objetivo de explicar cada detalle con la mayor claridad posible, se expresa el significado de cada uno de los elementos que aparecen dentro de la matriz: Significa que se deriva la función original por primera vez con respecto a x y luego ese resultado se deriva por segunda vez con respecto a x nuevamente.
Significa que se deriva la función original por primera vez con respecto a x y luego ese resultado se deriva por segunda vez pero ahora con respecto a y. Significa que se deriva la función original por primera vez con respecto a x y luego ese resultado se deriva por segunda vez pero ahora con respecto a z. Significa que se deriva la función original por primera vez con respecto a y y luego ese resultado se deriva por segunda vez pero ahora con respecto a x.
Significa que se deriva la función original por primera vez con respecto a y y luego ese resultado se deriva por segunda vez con respecto a y nuevamente. Significa que se deriva la función original por primera vez con respecto a y y luego ese resultado se deriva por segunda vez pero ahora con respecto a z. Significa que se deriva la función original por primera vez con respecto a z y luego ese resultado se deriva por segunda vez pero ahora con respecto a x. Significa que se deriva la función original por primera vez con respecto a z y luego ese resultado se deriva por segunda vez pero ahora con respecto a y. Significa que se deriva la función original por primera vez con respecto a z y luego ese resultado se deriva por segunda vez con respecto a z nuevamente. NOTA: Es bueno tomar en cuenta que:
,
,
,…
Método de búsqueda. Método de Fibonacci. En matemáticas, la sucesión de Fibonacci (a veces mal llamada serie de Fibonacci) es la siguiente sucesión infinita de números naturales:
La sucesión comienza con los números 0 y 1, y a partir de estos, «cada término es la suma de los dos anteriores», es la relación de recurrencia que la define. A los elementos de esta sucesión se les llama números de Fibonacci. Esta sucesión fue descrita en Europa por Leonardo de Pisa, matemático italiano del siglo XIII también conocido como Fibonacci. Tiene numerosas aplicaciones en ciencias de la computación, matemáticas y teoría de juegos. También aparece en configuraciones biológicas, como por ejemplo en las ramas de los árboles, en la disposición de las hojas en el tallo, en la flora de la alcachofa y en el arreglo de un cono.
Gráfica de la sucesión de Fibonacci hasta
Este método determina el mínimo valor de una función f sobre un intervalo cerrado [c1, c2]. Esta función puede estar definida en un dominio más amplio, pero el método requiere que dicho intervalo de búsqueda sea definido. Se asume que f es Unimodal. El mínimo es determinado (al menos aproximadamente) mediante la evaluación en un cierto número de puntos. Se pretende definir una estrategia de búsqueda que seleccione la observación siguiente basada en los valores funcionales de las observaciones anteriores.
Generalización El concepto fundamental de la sucesión de Fibonacci es que cada elemento es la suma de los dos anteriores. En este sentido la sucesión puede expandirse al conjunto de los números enteros como de manera que la suma de cualesquiera dos números consecutivos es el inmediato siguiente.
Función Unimodal. Una función f (x) es una función Unimodal si por algún valor m, es monótona creciente para x ≤ m y monótonamente decreciente para x ≥ m. En ese caso, el valor máximo de f (x) es f (m) y no hay otros máximos locales. Ejemplos de funciones cuadráticas Unimodal incluyen funciones polinómicas con un coeficiente negativo de segundo grado, funciones Carpa mapa, y mucho más. Lo anterior es a veces relacionado con el "unimodalidad fuerte", por el hecho de que la monotonía implícita monotonicidad fuerte. Una función f (x) es una función débil Unimodal si por algún valor m, es débilmente monótona creciente para x ≤ m y débilmente monótonamente decreciente para x ≥ m. En ese caso, el valor máximo de f (m) se puede llegar a un rango continuo de valores de x. Un ejemplo de una función Unimodal débilmente que no es fuertemente Unimodal es cada dos filas en el triángulo de Pascal. Dependiendo del contexto, la función Unimodal también puede referirse a una función que sólo tiene un mínimo local, en lugar de máxima. [10] Por ejemplo, el muestreo Unimodal Local, un método para hacer de optimización numérica, a menudo se ha demostrado con esta función. Se puede decir que una función Unimodal bajo esta extensión es una función con un extremo local única. Una propiedad importante de las funciones Unimodal es que el extremo por se puede encontrar el uso de algoritmos de búsqueda como la búsqueda de la sección de oro, de búsqueda ternaria o interpolación parabólica sucesiva. En estadística, una distribución de probabilidad Unimodal (o cuando se refiere a la distribución, una distribución Unimodal) es una distribución de probabilidad que tiene un modo único. Como el término "modo" tiene múltiples significados, por lo que significa el término "Unimodal". En sentido estricto, un modo de una distribución de probabilidad discreta es un valor en el que la función de masa de probabilidad (PMF) toma su valor máximo. En otras palabras, se trata de un valor más probable. A modo de una distribución de probabilidad continua es un valor en el que la función densidad de probabilidad (pdf) alcanza su valor máximo. Tenga en cuenta que en ambos casos puede haber más de un modo, ya que el valor máximo de cualquiera de los PMF o el pdf se puede alcanzar a más de un valor. Si hay un solo modo, la función de distribución se denomina "Unimodal". Si tiene más modos es "bimodal", "trimodal", etc., o en general, "multimodal". En las distribuciones continuas, unimodalidad se puede definir a través del comportamiento de la función de distribución acumulativa (FDA). Si la función de distribución es convexa para x m, entonces la distribución es Unimodal, siendo m el modo. Tenga en cuenta que bajo esta definición de la distribución uniforme es Unimodal, así como cualquier otra distribución en el que
se consigue la máxima distribución de una gama de valores, por ejemplo, distribución trapezoidal. Tenga en cuenta también que por lo general esta definición permite una discontinuidad en el modo, por lo general en una distribución continua la probabilidad de un único valor es cero, mientras que esta definición permite una probabilidad distinta de cero, o un "átomo de probabilidad". Criterios para unimodalidad también se puede definir a través de la función característica de la distribución [3] oa través de sus Laplace-Stieltjes de transformación. Otra manera de definir una distribución discreta Unimodal es por la ocurrencia de cambios de signo en la secuencia de las diferencias de las probabilidades [6] una distribución discreta con una función de probabilidad, \ {p_n; N = \ puntos, -1, 0, 1, \ dots \}, se llama Unimodal si la secuencia \ dots, p_ {-2} - p_ {1}, p_ {1} - p_0, p_0 - p_1, p_1 - p_2, \ dots tiene exactamente un signo cambio (cuando los ceros no cuentan) Usos y resultados Una de las razones de la importancia de unimodalidad distribución es que permite a varios resultados importantes. He aquí algunos ejemplos. Un primer resultado importante es la desigualdad de Gauss, la desigualdad de Gauss da un límite superior a la probabilidad de que un valor se encuentra más de una distancia dada desde su modo. Esta desigualdad depende de unimodalidad. La segunda es la desigualdad Vysochanskiï-Petunin, un refinamiento de la desigualdad de Chebyshev. La desigualdad de Chebyshev garantiza que en cualquier distribución de probabilidad, "casi todos" los valores son "cerca" del valor medio. La desigualdad Vysochanskiï-Petunin refina este parámetro con valores aún más cerca, siempre que la función de distribución es Unimodal. Además, los resultados fueron demostrados por Sellke y Sellke.
Método de sección dorada.
El método de la sección dorada localiza mínimos a partir de un rango inicial y es eficiente para optimizar funciones sin restricciones, Unimodal y unidimensionales. El método está basado en el principio de eliminación de regiones, el cual establece que: Dado dos puntos x1,x2 ∈(a,b), tal que, x1 < x2. Para funciones unimodales de minimización, se concluye que:
i . Si f(x1) > f(x2) entonces el mínimo no está en el intervalo (a,x1). ii . Si f(x1) < f(x2) entonces el mínimo no está en el intervalo (x2,b). iii . Si f(x1) = f(x2) entonces el mínimo no está en el intervalo (a,x1) y (x2,b).
La idea general de este principio es eliminar regiones en donde no se encuentre el mínimo de la función, basándose en la sección dorada. Se le conoce como sección dorada, al segmento de recta dividido en dos partes de acuerdo a la proporción ´aurea, la cual establece: “La longitud total del segmento a+b es a la del segmento a, como la magnitud del segmento a es a la de b” (
a
b
a+b (
Proporción aurea
)
En estas condiciones, la razón ´aurea o divina denotada por ϕ se deduce a partir de la relación anterior, como sigue:
(
)
a2−ab−b2 = 0 a=
√
(
√
)
√ El primer paso de este método, consiste en normalizar la variable de la función x y sus lımites (a,b). Al normalizar el espacio de búsqueda se mapea a un intervalo (0,1). De esta forma, en la primera iteración se evalúa 2 veces la función objetivo. Después de aplicar el principio de eliminación de región solo se evalúa una vez debido a que el intervalo de búsqueda se actualiza en un punto. El método de optimización de la sección dorada re- duce entonces el espacio de búsqueda en un Φn−1, después de n evaluaciones de la función.
Método de interpolación cuadrática. Cuando el polinomio que conviene es de 2º grado la interpolación recibe el nombre de cuadrática. El polinomio interpolador es único, luego como se encuentre da igual., sin embargo, a veces los cálculos son muy laboriosos y es preferible utilizar un método que otro. A la vista de los datos se decide. De acuerdo con [1], una estrategia para mejorar la estimación consiste en introducir alguna curvatura a la línea que une los puntos. Si se tienen tres puntos como datos, éstos pueden ajustarse en un polinomio de segundo grado (también conocido como polinomio cuadrático o parábola). Una forma particularmente conveniente para ello es
Observe que aunque la ecuación parece diferir del polinomio general (interpolación lineal), las dos ecuaciones son equivalentes. Lo anterior se demuestra al multiplicar los términos de la ecuación:
O, agrupando términos,
Donde
Así, las ecuaciones (interpolación lineal) e (interpolación cuadrática) son formas alternativas, equivalentes del único polinomio de segundo grado que une los tres puntos. Un procedimiento simple puede usarse para determinar los valores de los coeficientes. Para encontrar b₀, en la ecuación (interpolación cuadrática) se evalúa con x=x₀ para obtener
La ecuación (1) se sustituye en la (interpolación cuadrática), después se evalúa en x=x₁ para tener
Por último, las ecuaciones (1) y (2) se sustituyen en la (interpolación cuadrática), después se evalúa en x =x2 y (luego de algunas manipulaciones algebraicas) se resuelve para
Observe que, como en el caso de la interpolación lineal, b1 todavía representa la pendiente de la línea que une los puntos x0 y x1. Así, los primeros dos términos de la ecuación (interpolación cuadrática) son equivalentes a la interpolación lineal de x0 a x1, como se especificó antes en la ecuación (interpolación lineal). El último término,
Determina la curvatura de segundo grado en la fórmula. [1]
Metodos multidimensionales. El principio del método aplicado fue el de favorecer la aparición de datos concretos: las realidades humanas en distintas dimensiones y revelar las características del terreno. La indagación está ligada al desarrollo y las ramificaciones del cuerpo de la hipótesis y de los instrumentos de investigación. La prospección y la reflexión no pueden estar separadas. Se trata entonces de encontrar el rigor, no la rigidez dentro de una estrategia de permanente adaptación. La investigación debe favorecer la aparición de datos concretos, debe ser flexible como para recoger los documentos en bruto (anotaciones de sucesos, registro de discusiones, entrevistas sobre los detalles). La investigación debe captar las diversas dimensiones del fenómeno estudiado y utilizar diversas vías de aproximación y debe permitir la corrección y la verificación durante el desarrollo de un pensamiento interpretativo. Algunas de estas vías de aproximación pueden ser: la observaciónfenomenográfica, próxima a las prácticas de la observación siempre vivas en la etnografía, pero que la sociología estándar olvida; la entrevista; la participación en las actividades de los grupos (praxis social
Método de variable cíclica Variaciones Cíclicas: (Serie temporales) se refiere a las oscilaciones de larga duración alrededor de la recta o curva de tendencia; estos ciclos, como se llaman a veces, pueden ser o no periódicos, es decir, puede seguir o no exactamente caminos analógicos después de intervalos de tiempo iguales. Se caracterizan por tener lapsos de expansión y contracción. En general, los movimientos se consideran cíclicos solo si se produce en un intervalo de tiempo superior al año (3). En el Gráfico los movimientos cíclicos alrededor de la curva de tendencia están trazados en negrita.
Tratamos de hacer predicciones sobre esa magnitud, teniendo en cuenta sus características históricas o del pasado Ejemplo para las variaciones cíclicas. Supongamos que tenemos las ventas trimestrales de un supermercado en el período 1990-1994, expresadas en millones de pesetas constantes del año 1990. Métodos para determinar la tendencia de las variaciones cíclicas
1º) METODO GRAFICO a) Se efectúa la representación gráfica de la serie ordenada Yt b) Se unen mediante segmentos rectilíneos todos los puntos altos de la serie, obteniéndose una poligonal de cimas c) Se realiza lo mismo con los puntos bajos, obteniéndose la línea poligonal de fondos d) Se trazan perpendiculares al eje de abscisas por los puntos cimas y fondos. e) La tendencia viene dada por la línea amortiguada que une los puntos medios de los segmentos 2º) METODO DE LAS MEDIAS MOVILES *** Empleando 3 observaciones a) Partimos de la serie temporal observada Yt. b) Se obtienen sucesivas medias aritméticas para cada Yt, con un número de observaciones anteriores y posteriores fijado de antemano - Si el número de observaciones es impar la media Yt, está centrada y coincide con el período t c) La serie formada por las medias de Yt, nos indica la línea amortiguada de la tendencia 6 . *** Empleando 4 observaciones a) Partimos de la serie temporal observada Yt. b) Se obtienen las sucesivas medias aritméticas Si el número de observaciones empleados para obtener la media es par, yt no está centrada y no coincide con el período t, y habrá que volver a calcular una nueva media aritmética yt, utilizando
los yt, obteniendo de esta manera una nueva serie de medias móviles centradas. Como se puede observar la serie de las medias obtenidas no está centrada, y debemos obtener una nueva serie de medias centradas, a partir de la serie “descentrada” a) La serie formada por Yt, nos indica la línea amortiguada de la tendencia 3º) MÉTODO ANALÍTICO DE LOS MÍNIMOS CUADRADOS a) Obtendremos la tendencia a partir de la recta Yt= a+ bt, siendo Yt, la media anual de las observaciones trimestrales de los casos anteriores. b) Calculamos los coeficientes “a” y “b” de la recta de regresión. Deshaciendo el cambio de variable, tendremos la siguiente predicción de la tendencia