Metodo de Fletcher-Reeves

Optimizaci´ on en Ingenier´ıa

Dr. Carlos A. Coello Coello

Optimizaci´ on en In on Inge geni nier er´ ´ıa

Dr. Carlos A. Coello Coello Departamento de Computaci´ on on CINVESTAV-IPN Av. IPN No. 2508 Col. San Pedro Zacatenco M´ exico,, D.F. exico D.F. 07300 07300 email:

Clase No. 10

[email protected]

2007



M´ eto do del Grad etodo Gradiente iente Conj Conjugad ugado o (Fletcher-Reeves) Algoritmo Paso aso 1: Eleg Elegir ir un un pun punto to ini inici cial al X (0) y tolerancias 1 , 2 y 3 Paso aso 2: Enco Encon ntrar trar f (X (0) ) y hacer: s(0) = −f (X (0) ) Paso aso 3: Enco Encon ntrar trar λ(0) tal que: f (X (0) + λ(0) s(0) ) se minimice con una tolerancia 1 . Hacer X (1) = X (0) + λ(0) s(0) y k = 1 Calcular f (X (1) ) ||f (X (k) )||2 s(k−1) ||f (X (k−1) )||2

Paso aso 4:

Hacer acer:: s(k) = −f (X (k) ) +

Paso aso 5:

Enco Encon ntrar trar λ(k) tal que: f (X (k) + λ(k) s(k) ) sea m´ınima con una tolerancia toleran cia 1 Hacer X (k+1) = X (k) + λ(k) s(k)

Paso 6:

¿Es

||X (k+1) −X (k) || ||X (k) ||

≤ 2 o ||f (X (k+1) )|| ≤ 3 ?

Si es as´ as´ı, termina ter minar. r. ELSE k = k + 1. GOTO Paso 4.

Clase No. 10

2007



M´ eto do del Grad etodo Gradiente iente Conj Conjugad ugado o (Fletcher-Reeves) Algoritmo Paso aso 1: Eleg Elegir ir un un pun punto to ini inici cial al X (0) y tolerancias 1 , 2 y 3 Paso aso 2: Enco Encon ntrar trar f (X (0) ) y hacer: s(0) = −f (X (0) ) Paso aso 3: Enco Encon ntrar trar λ(0) tal que: f (X (0) + λ(0) s(0) ) se minimice con una tolerancia 1 . Hacer X (1) = X (0) + λ(0) s(0) y k = 1 Calcular f (X (1) ) ||f (X (k) )||2 s(k−1) ||f (X (k−1) )||2

Paso aso 4:

Hacer acer:: s(k) = −f (X (k) ) +

Paso aso 5:

Enco Encon ntrar trar λ(k) tal que: f (X (k) + λ(k) s(k) ) sea m´ınima con una tolerancia toleran cia 1 Hacer X (k+1) = X (k) + λ(k) s(k)

Paso 6:

¿Es

||X (k+1) −X (k) || ||X (k) ||

≤ 2 o ||f (X (k+1) )|| ≤ 3 ?

Si es as´ as´ı, termina ter minar. r. ELSE k = k + 1. GOTO Paso 4.

Clase No. 10

2007



M´ eto do del Grad etodo Gradiente iente Conj Conjugad ugado o (Fletcher-Reeves) Como indicamos anteriormente, debido a su uso de direcciones conjugadas de b´ usqueda, usqueda, el m´ etodo etodo de Fletcher-Reeves debiera converger en N iteraciones o menos para el caso de una función on cuadrática. atica. Sin embargo, para cuadráticas aticas mal condicionadas (aquellas cuyos contornos son altamente exc´ entricos entricos y distorsionados), el m´ etodo etodo puede requerir mucho mucho m´ as as de N iteraciones para converger.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) La razón de esto es el efecto acumulativo de los errores de redondeo. Para evitar estos problemas, se recomienda reinicializar el método periódicamente después de una cierta cantidad de pasos, tomando como nueva direcció n de b´ usqueda a la dirección de descenso empinado.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) A pesar de sus limitaciones, el método de Fletcher-Reeves es muy superior al método del descenso empinado y a los métodos de b´ usqueda mediante patrones. Sin embargo, es menos eficiente que el método de Newton que veremos más adelante.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Miele y Cantrell (1969) propusieron una extensión del método de Fletcher-Reeves en la que se usa la siguiente expresión: (k+1)

X

(k )

= X

(k )

+λ



(k )

−f (X

(k )

(k−1)

) + γ s(X

)



(1)

donde λ(k) y γ (k) se buscan directamente a cada iteración.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) A este método se le conoce como del gradiente con memoria y es bastante más eficiente que el de Fletcher-Reeves en términos del n´ umero que iteraciones, pero requiere más evaluaciones de la función objetivo y del gradiente. Por tanto, este método es recomendable s´ olo cuando las evaluaciones de la función objetivo y del gradiente no tienen un costo computacional muy elevado.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Una limitación importante del método de Fletcher-Reeves es que se asumen una función objetivo cuadrática y b´ usquedas lineales exactas. Se han propuesto, sin embargo, diversos métodos que permiten relajar una o las dos limitantes antes descritas. Por ejemplo, el método de Polak-Ribiere (1969) demanda búsquedas lineales exactas pero asume un modelo más general para la función objetivo.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Se han propuesto otros métodos similares en los que se presuponen b´ usquedas lineales exactas pero se emplea un modelo de función objetivo más general que el cuadrático. Por ejemplo, están los métodos de Davison y Wong (1975), y el de Boland et al. (1979).

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) En 1972, Crowder y Wolfe y posteriormente Powell, demostraron que los métodos de gradiente conjugado estaban condenados a una tasa lineal de convergencia en la ausencia de reinicializaciones periódicas.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Una reinicialización se define como un procedimiento especial que interrumpe la generación normal de direcciones de búsqueda como el requerido para generar s(X (0) ). Existen varias razones por las cuales uno podr´ıa esperar que un algoritmo requiera una reinicialización para ser robusto. La más obvia es evitar la generación de una dirección que sea dependiente.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Powell (1977) demostró que el método de Polak-Ribiere también tiene una tasa lineal de convergencia si no se usa reinicialización, pero dicho método es superior al de Fletcher-Reeves para funciones generales y presenta también menos sensibilidad a las búsquedas lineales inexactas.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) La formulación de procedimientos de reinicialización eficientes y el desarrollo de métodos con mayor tolerancia a las búsquedas lineales inexactas sigue siendo un área activa de investigación.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Beale (1972) proporciona un procedimiento de gradiente conjugado similar al m´ etodo de Fletcher-Reeves, pero en el cual se permite la reinicialización sin el uso de la dirección de gradiente. Beale muestra cómo puede usarse la dirección previa para la reinicialización a fin de reducir el esfuerzo computacional total para las funciones que requieren muchas reinicializaciones.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Powell (1977) examina cuidadosamente la estrategia de Beale y otras técnicas de reinicialización y sugiere que se efectúe una reinicialización a cada N iteraciones o cuando: |g (X (k) )g (X (k

Clase No. 10

1)

−

)| ≥ 0,2||g (X (k) )||2

(2)

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Powell demuestra que la estrategia de reinicialización de Beale (usando el criterio de la ecuación (11)) funciona igualmente bien con el método de Fletcher-Reeves y con el de Polak-Ribiere y proporciona resultados numéricos que sugieren la superioridad de este u ´ ltimo.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Shanno (1978) ha estudiado la relación de las búsquedas lineales inexactas y las estrategias de reinicialización con la eficiencia de los métodos de gradiente conjugado.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Shanno muestra que la estrategia de reinicialización de Beale usando el criterio de reinicialización de Powell permite un decremento significativo en la precisión requerida por las b´ usquedas lineales y, por tanto, incrementa de manera significativa la eficiencia computacional del método del gradiente conjugado.

Clase No. 10

2007



M´ etodo del Gradiente Conjugado (Fletcher-Reeves) Shanno también proporciona resultados numéricos que indican la superioridad del método de Polak-Ribiere con reinicialización y b´ usquedas lineales inexactas.

Clase No. 10

2007



M´ etodo de Newton Vimos que el m´ etodo de Cauchy es la mejor estrategia local basada en gradientes, pero es importante hacer ver que el gradiente negativo apunta directamente hacia el m´ınimo sólo cuando los contornos de f son circulares y, por tanto, el gradiente negativo no es una buena direcci´ on global de b´ usqueda (en general) para funciones no lineales.

Clase No. 10

2007



M´ etodo de Newton El método de Cauchy emplea aproximaciones lineales sucesivas a la función objetivo y requiere calcular tanto el valor de la función objetivo como el del gradiente a cada iteración. Esto nos lleva a considerar el uso de información de orden superior, o sea, las segundas derivadas, en un esfuerzo por construir una estrategia de b´ usqueda m´ as global.

Clase No. 10

2007



M´ etodo de Newton Consideremos la expansión de Taylor de la función objetivo:

(k )

f (X ) = f (X

Clase No. 10

(k)

) + f (X

1 ) ∆x + ∆xT 2 f (X (k) )∆x + O(∆x3 ) 2 (3) T

2007



M´ etodo de Newton Formamos una aproximación cuadr´ atica a f (x) eliminando los términos de orden mayor o igual a 3: 1 (k) (k ) (k) T ¯ f (X ; X ) = f (X ) + f (X ) ∆x + ∆xT 2 f (X (k) )∆x (4) 2 donde usamos f ¯(X ; X (k) ) para denotar una funci´ on de aproximaci´ on construida en X (k) , la cual es, as´ı mismo, una función de X .

Clase No. 10

2007



M´ etodo de Newton Ahora usaremos esta aproximación cuadr´ atica de f (x) para formar una secuencia iterativa, forzando a X (k+1) , que es el siguiente punto en la secuencia, a ser un punto donde el gradiente de la aproximaci´ on es cero.

Clase No. 10

2007



M´ etodo de Newton Por tanto: f (X ; X (k) ) = f (X (k) ) + 2 f (X (k) )∆x = 0

(5)

y



2

(k )

∆x = −  f (X

Clase No. 10

)



1

−

f (X (k) )

(6)

2007



M´ etodo de Newton Tenemos entonces que este esquema de aproximaciones cuadráticas sucesivas produce el M´ etodo de Newton : (k+1)

X

Clase No. 10

(k)

= X



2

(k )

−  f (X

1

−

)



f (X (k) )

(7)

2007



M´ etodo de Newton Algoritmo Paso 1: Elegir un punto inicial X (0) y dos par´ ametros de terminaci´ on 1 y 2 Hacer k = 0 Paso 2: Calcular f (X (k) ) Paso 3: IF ||f (X (k) )|| ≤ 1 THEN Terminar ELSE GOTO Paso 4. Paso 4: Efectuar una b´ usqueda unidireccional para encontrar λ(k) y calcular: X (k+1)

Paso 5:

f (X

(k+1)

λ(k)

−1

 f (X )

2 (k) = − f (X (k) ) tal que f (X (k+1) ) sea m´ınima. Para efectuar la b´ usqueda unidireccional puede usarse la tolerancia 2 directamente en el m´ etodo de minimizaci´ on adoptado.

 ¿Es 

X (k)

)−f (X f (X (k) )

(k )

)

  ≤  ? Si es as´ı, Terminar. 1

ELSE k = k + 1. GOTO Paso 2.

Clase No. 10

2007



M´ etodo de Newton 2

(k )

1

−

  Puede demostrarse que si la matriz  f (X )

es positivamente semidefinida, la dirección s(k) debe ser descendente. 1 Sin embargo, si la matriz 2 f (X (k) ) no es positivamente semidefinida, la dirección s(k) puede o no ser de descenso, 1 dependiendo de si la cantidad f (X (k) )T 2 f (X (k) ) f (X (k) ) es positiva o no. Por ende, la direcció n de b´ usqueda que adopta este método puede no siempre garantizar un decremento en el valor de la función en la vecindad del punto actual.



−





Clase No. 10

−



2007



M´ etodo de Newton Un aspecto importante a considerar es que las condiciones de optimalidad de segundo orden sugiere que 2 f (x ) sea positivamente definida para el punto m´ınimo. Por tanto, puede presuponerse que la matriz 2 f (x ) es positivamente definida en la vecindad del m´ınimo y la direcció n de b´ usqueda antes indicada se vuelve descendente cerca del óptimo. ∗

∗

Clase No. 10

2007



M´ etodo de Newton Esto nos lleva a concluir que este método es apropiado es apropiado y eficiente cuando el punto inicial se proporciona cercano al óptimo. Puesto que no puede garantizarse que se reducirá el valor de la función a cada iteración, suele requerirse en este método el hacer reinicializaciones ocasionales desde un punto diferente.

Clase No. 10

2007



M´ etodo de Newton La versión que estudiamos del método de Newton tiene una modificación que hace que funcione razonablemente bien en funciones no cuadráticas (algo que no ocurre con el algoritmo original). Esto hace al método más poderoso y se evita convergencia a un punto de paso o a un máximo.

Clase No. 10

2007



M´ etodo de Newton Sin embargo, a pesar de estas ventajas, el m´ etodo no es muy u ´ til en la práctica debido a las siguientes razones: 1. Se requiere el almacenamiento de una matriz de N × N . 2. Se vuelve más dif´ıcil y, algunas veces, imposible, calcular los elementos de la matriz Hessiana. 3. Se requiere la inversión de una matriz a cada iteración. 4. Se requiere la evaluación de una multiplicación matricial a cada iteración.

Clase No. 10

2007



M´ etodo de Newton Estas desventajas hacen al método de Newton impráctico para problemas que involucran una función objetivo complicada con un gran n´ umero de variables.

Clase No. 10

2007



El M´ etodo de Marquardt El método de Cauchy funciona bien cuando el punto inicial est´ a lejos del óptimo y el método de Newton funciona bien cuando el punto inicial está cerca del óptimo. Dado que en un problema cualquiera no sabemos si un punto inicial está o no lejos del óptimo, parece intuitivo pensar en un método que combine el de Cauchy y el de Newton, tratando de combinar sus ventajas. Esa es precisamente la idea del m´ etodo de Marquardt .

Clase No. 10

2007



El M´ etodo de Marquardt En este método, se sigue primero el método de Cauchy. Posteriormente se adopta el método de Newton. La transición del método de Cauchy al de Newton es adaptativa y depende de la historia de las soluciones intermedias obtenidas. Este método se propuso originalmente en 1963.

Clase No. 10

2007

Metodo de Fletcher-Reeves

Recommend Documents