You are on page 1of 3

8.2.4.

Regla de Armijo

Supongamos que f es diferenciable en xk . Fijemos los parametros , , s tal que , (0, 1)


y s > 0. Elegimos tk = mk s, donde mk es el primer entero no negativo para el cual se tiene:
f (xk + m sdk ) f (xk ) + m sf (xk ), dk .

(8.1)

Esto garantiza un descenso suciente del valor de f , y que t no sea muy grande.
Para jar ideas de la regla de Armijo, considere la desigualdad anterior para m = 0, es
decir, con tama
no de paso s,
f (xk + sdk ) f (xk ) + sf (xk ), dk .
Si la anterior desigualdad es satisfecha, tomamos xk+1 = xk + sdk , caso contrario, tomamos
el paso s y consideramos la desigualdad
f (xk + sdk ) f (xk ) + sf (xk ), dk .
Si esta desigualdad es cierta, entonces tomamos xk+1 = xk + sdk , etc. Este regla es muy
practica, sin embargo necesitamos probar que las iteraciones se detienen en alg
un momento.
on continuamente diferenciable y sea dk Rn \{0}
Lemma 8.4. Sea f : Rn R una funci
una direcci
on de descenso de f en el punto xk Rn . Entonces la regla de Armijo esta bien
definido y termina con un tk > 0.
Demostraci
on. Supongamos que las iteraciones en el calculo de tk no terminan. Si m es grande,
entonces t = m s es peque
no y ademas se tiene la desigualdad
f (xk + tdk ) > f (xk ) + tf (xk ), dk .
Como f es diferenciable, tenemos que
f (xk + tdk ) = f (xk ) + tf (xk ), dk + o(t),

para t > 0 chico.

De ambas expresiones se deduce que


( 1)f (xk ), dk +

o(t)
< 0.
t

Haciendo t 0, deducimos que ( 1)f (xk ), dk 0, lo cual es una contradiccion pues


1 < 0 y f (xk ), dk < 0.
Observaci
on 8.5. En la pr
actica, se toma [105 , 101 ], s = 1.
Observaci
on 8.6. Esta regla evita comportamientos como el mostrado en el segundo ejemplo
dado anteriormente, pero sin embargo es satisfecha por valores muy peque
nos de t. Si estos
fueran adoptados como valores de tk , el algoritmo no proporcionara un progreso razonable.
Para asegurar que el algoritmo haga un progreso razonable a lo largo de una direccion
de descenso dada, basta emplear una procedimiento llamado Backtracking: Dadas unas
constantes , (0, 1), el procedimiento parte de un punto inicial t = t > 0 en el cual se
comprueba si se verica
f (xk + tdk ) f (xk ) + tf (xk ), dk .
En caso contrario, se toma t = t y se repite el proceso hasta que se cumpla esa condicion.
30

Algoritmo:
Elegir t > 0, , (0, 1). Tomar t = t y k = 0.
While f (xk + tdk ) > f (xk ) + tf (xk ), dk
t = tt
return tk = t.
Observaci
on 8.7. Si tomamos dk = f (xk ), la condici
on de Armijo tiene la forma
f (xk + tdk ) f (xk ) tf (xk )2 .
on continuamente diferenciable, con gradiente
Ejercicio 8.1. Sea f : Rn R una funci
Lipschitz continua y m
odulo L > 0. Si dk es una direcci
on de descenso en xk , probar que la
desigualdad (8.1) es v
alida para todo t (0, tk ], donde
2(1 )f (xk ), dk
tk =
> 0.
Ldk 2
8.2.5.

Regla de Goldstein

Esta regla asegura que el tama


no de paso tk alcance un decrecimiento suciente, y evita
a su vez que tk sea demasiado peque
no.
1
Fijemos c (0, 2 ). Elegimos tk tal que
f (xk ) + (1 c)tk f (xk ), dk f (xk + tk dk ) f (xk ) + ctk f (xk ), dk .

(8.2)

La segunda desigualdad es simplemente la condicion de decrecimiento de Armijo, mientras que


la primera desigualdad de introduce para controlar que el tama
no de paso no sea demasiado
peque
no.
Desventaja: La primera desigualdad en (8.2) puede excluir todos los mnimos de f (xk + tdk ).
Estas condiciones suelen usarse en metodos tipo Newton, mientras que su comportamiento no
es demasiado bueno en los metodos Quasi-Newton.
8.2.6.

Regla de Wolfe

Fijemos dos constantes c1 , c2 tal que 0 < c1 < c2 < 1. Elegir tk tal que
f (xk + tk dk ) f (xk ) + c1 tk f (xk ), dk ,
f (xk + tdk ), dk c2 f (xk ), dk .

(8.3)
(8.4)

La primera condicion es de nuevo la de Armijo, mientras que la segunda es conocida como


condicion de curvatura y controla la precision de la minimizacion de f en la semirecta xk +tdk ,
t 0. Si t minimiza esta funcion exactamente, se tiene que f (xk + tdk ), dk = 0. Por tanto,
la desigualdad (8.4) es un test de calidad de un t > 0 dado como aproximacion de minimizadores de f en la semirecta a lo largo de la direccion dk .
Las condiciones de Wolfe son com
unmente usadas en los metodos Quasi-Newton. Valores tpicos de c2 son 0.9 cuando dk es obtenida por los metodos de Newton o Quasi-Newton, y de 0.1
cuando dk se calcula mediante el metodo del gradiente conjugado.
A continuacion probamos que existen longitudes de paso que satisfacen las condiciones de
Wolfe para toda funcion f que sea suave y acotada inferiormente.
31

Proposition 8.8. Supongamos que f : Rn R es continuamente diferenciable. Sea dk


Rn \{0} una direcci
on de descenso en xk , y asumamos que f es acotada inferiormente a lo
largo de la semirecta {xk + tdk : t > 0}. Entonces, si 0 < c1 < c2 < 1, existir
an intervalos de
longitudes de paso satisfaciendo las condiciones de Wolfe.
Demostraci
on. Sea (t) = f (xk + tdk ). Claramente esta acotada inferiormente para t > 0.
Como c1 (0, 1), la recta
l(t) = f (xk ) + tc1 f (xk ), dk = (0) + tc1 (0)
interseca la graca de por lo menos en un punto. Sea t > 0 el valor mas peque
no de t para
el que se produce esta interseccion, es decir,
(t ) = l(t ),
que es lo mismo que

f (xk + t dk ) = f (xk ) + t c1 f (xk ), dk .

(8.5)

Obviamente la condicion de descenso suciente (8.3) se cumple para cualquier longitud de


paso t menor o igual que t . Por otro lado, por el Teorema de valor medio aplicado a , existe
un t (0, t ) tal que
(t ) (0) = (t)t ,
esto es,

f (xk + t dk ) f (xk ) = t f (xk + tdk ), dk .

Usando (8.5) es en esta igualdad nos da


f (xk + tdk ), dk = c1 f (xk ), dk > c2 f (xk ), dk ,
donde la desigualdad de sigue pues c1 < c2 < 1 y f (xk ), dk < 0. Por tanto, t satisface
las condiciones de Wolfe (8.3)-(8.4), y ambas desigualdades se verican estrictamente. Por ser
f de clase C 1 , existira un intervalo alrededor de t para el cual las condiciones de Wolfe se
cumplen.

32

You might also like