Usuário:Lechatjaune/Método de Newton em otimização

Introdução

editar

Em matemática, o método de Newton é um método iterativo para encontrar raízes de equações. Na sua otimização, o método de Newton é especializado para encontrar pontos estacionários de funções diferenciáveis, que são os zeros da função derivada. Engenheiros, economistas, cientistas e matemáticos, precisam, frequentemente, encontrar valores máximos e mínimos de funções, por isso a Otimização do Método de Newton é amplamente utilizada em situações práticas do dia-a-dia destes profissionais, como por exemplo, investimento de capitais de empresas ou o movimento de um objeto na direção de uma fonte de calor (trajetórias de mísseis), dentre outras aplicações. Para entendermos a otimização do método de Newton precisamos iniciar com uma breve introdução sobre Gradiente,Hessiano e Jacobiana.

Gradiente

editar

No cálculo vetorial, podemos definir gradiente como um vetor que indica a direção e o sentido em que uma função cresce mais rapidamente, muito útil para encontrarmos valores máximos e mínimos de uma função. O gradiente de uma função escalar   é dado por:

 

Para todo campo escalar   diferenciável em função do espaço cartesiano   temos que:

 

Hessiana

editar

A matriz hessiana de uma função   de   variáveis é a matriz quadrada   das derivadas parciais de segunda ordem da função. Sua utilidade se dá na identificação das concavidades das funções.

Definição Matemática:

Em linguagem matemática Em Português Exemplo: função com n=2:  
  derivada parcial de primeira ordem da função "f" em relação a uma variável    
  A derivada da derivada (=derivada de segunda ordem): primeiro tomou-se a derivada da função "f" em relação à variável   e depois derivou-se esta derivada em relação à variável      

Se todas as derivadas parciais de "f" existirem, então a matriz hessiana de f é a matriz quadrada das derivadas de segunda ordem de f

 

Matriz Jacobiana

editar

A matriz jacobiana é formada pelas derivadas parciais de uma função vetorial.

Definição:

Em linguagem matemática Em Português
  Matriz de m linhas e n colunas. A primeira linha representa as derivadas parciais da função   em relação a todos os x (de x1 a xn). A segunda linha representa as derivadas parciais de   (também em relação a todos os x), e assim por diante, até a linha de número m, que representa as derivadas parciais de   em relação a todos os xs.


O método

editar

O método de Newton é uma tentativa de construir uma sequência xn a partir de uma estimativa inicial x0 que convirja para x*tal que f’(x*)=0. O ponto x* é chamado de ponto estacionário f(.). O termo de segunda ordem da expansão de Taylor fT(x) da função f(.) em torno de xn, onde deltax=x-xn, é:

 , e atinge o seu extremo quando a sua derivada em relação a (deltax) é igual a zero. Ou seja, quando (delta x) resolve a equação linear:

 .

Considerando-se que todos os termos da equação tenham coeficientes constantes.

Assim, desde que f(x) seja uma função duas vezes diferenciável aproximada pela expansão de segunda ordem de Taylor com um x0 escolhido suficientemente perto de x* a sequência xn é definida por:  

  irá convergir para uma raiz de f '(x), ou seja, x * para o qual f' (x *) = 0

Observação: Só lembrando que nem sempre o método irá convergir para o extremo da função. Ou seja, depende do ponto de partida.

Interpretação Geométrica

editar

Em cada iteração f(x) se aproxima de uma função quadrática em torno de xn e, em seguida, dá um passo em direção ao máximo ou mínimo dessa função. Em dimensões superiores pode ser também um ponto de sela.

Dimensões superiores

editar

Em dimensões superiores podemos substituir a derivada pelo gradiente   e a segunda derivada pelo inverso da matriz Hessiana  , obtendo:

 

Geralmente modifica-se o Método de Newton para incluir um passo   ao invés de  :

 

Isto é feito para assegurar que as Condições de Wolfe estão garantidas em cada passo   da iteração. Se esse for o caso, o Método de Newton converge muito rapidamente para um máximo ou mínimo local.

Uma outra abordagem

editar

Algumas vezes, encontrar o inverso da Hessiana em dimensões elevadas não é tarefa fácil. Nesses casos é melhor calcular o vetor   que soluciona o sistema de equações lineares:

 

Esse sistema pode ser resolvido utilizando métodos iterativos. No entanto, muitos desses métodos se aplicam somente para certos tipos de equações, como a fatoração de Cholesky, onde o gradiente conjugado só vai funcionar se   for uma matriz definida positiva. Embora isso possa parecer uma limitação, alguma vezes é útil, como no caso de estarmos estudando um problema de minimização e se   não for positiva, as iterações irão convergir para um ponto de sela e não um ponto de mínimo.

Métodos semi-Newton

editar

Existem vários métodos de "semi-Newton", onde uma aproximação para a Hessiana é construída a partir de mudanças no seu gradiente. Uma delas é o algoritmo de Levenberg-Marquartd (que utiliza uma Hessiana aproximada) que adiciona uma matriz identidade ponderada para a Hessianas  , as iterações vão ter um passo  . Isso resulta numa convergência mais lenta, mas mais confiável que a Hessiana. com ponderação modificada a cada iteração, conforme necessário. Para grandes e pequenos Hessianos

Máximos e Mínimos de uma função

editar

Partindo do Método de Newton generalizado para sistemas, temos:

 
 

Desejamos calcular os pontos de máximo da função : 

Primeiramente devemos plotar o gráfico com as curvas de nível da função;

Depois disso, devemos determinar o gradiente da função; : 

No próximo passo, obtemos a Jacobiana; : 

Agora é só aplicar o Método de Newton Generalizado para sistemas.  : 

Ver também

editar

Bibliografia

editar

Bonnans, J. Frédéric; Gilbert, J. Charles; Lemaréchal, Claude; Sagastizábal, Claudia A. (2006). Numerical optimization: Theoretical and practical aspects. Col: Universitext Second revised ed. of translation of 1997 French ed. Berlin: Springer-Verlag. pp. xiv+490. ISBN 3-540-35445-X. MR 2265882. doi:10.1007/978-3-540-35447-5 

Nocedal, Jorge & Wright, Stephen J. (1999). Numerical Optimization. Springer-Verlag. ISBN 0-387-98793-2.

BURDEN, L. Richard. FAIRES, Douglas. J. Análise Numérica. 8ª Ed. São Paulo: Cengage Learning, 2008. ISBN 978-85-221-0601-1