Rede neural de processo Gaussiano

A rede bayesiana é uma ferramenta de modelagem para atribuir probabilidades a eventos e, assim, caracterizar a incerteza nas previsões de um modelo. Aprendizagem profunda e redes neurais artificiais são abordagens usadas no aprendizado de máquina para construir modelos computacionais que aprendam com exemplos de treinamento. As redes neurais bayesianas mesclam esses campos. Elas são um tipo de Rede neural artificial cujos parâmetros e previsões são probabilísticos.[1][2] Enquanto as redes neurais artificiais padrão geralmente atribuem alta confiança até mesmo para previsões incorretas,[3] as redes neurais bayesianas podem avaliar com mais precisão a probabilidade de suas previsões estarem corretas.

Esquerda: uma rede neural Bayesiana Bayesian neural network com duas camadas ocultas, transformando uma entrada tridimensional (na parte inferior) em uma saída bidimensional (na parte superior). Direita: saída Função densidade induzida por pesos aleatórios da rede. Vídeo: conforme a largura da rede aumenta, a distribuição de saída se simplifica, convergindo para uma distribuição normal multivariada no limite de largura infinita.

As Redes Neurais de Processo Gaussiano (RNPGs) são equivalentes às redes neurais Bayesianas até um determinado limite,[4][5][6][7][8][9][10][11][12] e fornecem uma forma fechada de avaliar redes neurais bayesianas. Elas são uma distribuição de probabilidade do processo gaussiano que descreve a distribuição sobre as previsões feitas pela rede neural bayesiana correspondente. A computação em redes neurais artificiais é geralmente organizada em camadas sequenciais de neurônios artificiais. O número de neurônios em uma camada é chamado de largura da camada. A equivalência entre RNPGs e redes neurais bayesianas ocorre quando as camadas em uma rede neural bayesiana se tornam infinitamente largas (veja a figura). Este grande limite de largura é de interesse prático, uma vez que as redes neurais de largura finita normalmente funcionam estritamente melhor à medida que a largura da camada é aumentada.[13][14][15]

Referências

  1. MacKay, David J. C. (1992). «A Practical Bayesian Framework for Backpropagation Networks». Neural Computation. 4: 448–472. ISSN 0899-7667. doi:10.1162/neco.1992.4.3.448 
  2. Neal, Radford M. (2012). Bayesian Learning for Neural Networks. Springer Science and Business Media. [S.l.: s.n.] 
  3. Guo, Chuan; Pleiss, Geoff; Sun, Yu; Weinberger, Kilian Q. (2017). «On calibration of modern neural networks». Proceedings of the 34th International Conference on Machine Learning-Volume 70. arXiv:1706.04599  
  4. Neal, Radford M. (1996), «Priors for Infinite Networks», Bayesian Learning for Neural Networks, ISBN 978-0-387-94724-2, Lecture Notes in Statistics, 118, Springer New York, pp. 29–53, doi:10.1007/978-1-4612-0745-0_2 
  5. Williams, Christopher K. I. (1997). «Computing with infinite networks». Neural Information Processing Systems 
  6. Lee, Jaehoon; Bahri, Yasaman; Novak, Roman; Schoenholz, Samuel S.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2017). «Deep Neural Networks as Gaussian Processes». International Conference on Learning Representations. Bibcode:2017arXiv171100165L. arXiv:1711.00165  
  7. G. de G. Matthews, Alexander; Rowland, Mark; Hron, Jiri; Turner, Richard E.; Ghahramani, Zoubin (2017). «Gaussian Process Behaviour in Wide Deep Neural Networks». International Conference on Learning Representations. Bibcode:2018arXiv180411271M. arXiv:1804.11271  
  8. Novak, Roman; Xiao, Lechao; Lee, Jaehoon; Bahri, Yasaman; Yang, Greg; Abolafia, Dan; Pennington, Jeffrey; Sohl-Dickstein, Jascha (2018). «Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes». International Conference on Learning Representations. Bibcode:2018arXiv181005148N. arXiv:1810.05148  
  9. Garriga-Alonso, Adrià; Aitchison, Laurence; Rasmussen, Carl Edward (2018). «Deep Convolutional Networks as shallow Gaussian Processes». International Conference on Learning Representations. Bibcode:2018arXiv180805587G. arXiv:1808.05587  
  10. Borovykh, Anastasia. «A Gaussian Process perspective on Convolutional Neural Networks». arXiv:1810.10798  
  11. Tsuchida, Russell; Pearce, Tim. «Avoiding Kernel Fixed Points: Computing with ELU and GELU Infinite Networks». arXiv:2002.08517  
  12. Yang, Greg (2019). «Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes» (PDF). Advances in Neural Information Processing Systems. Bibcode:2019arXiv191012478Y. arXiv:1910.12478  
  13. Novak, Roman; Bahri, Yasaman; Abolafia, Daniel A.; Pennington, Jeffrey; Sohl-Dickstein, Jascha (15 de fevereiro de 2018). «Sensitivity and Generalization in Neural Networks: an Empirical Study». International Conference on Learning Representations. Bibcode:2018arXiv180208760N. arXiv:1802.08760  
  14. Canziani, Alfredo; Paszke, Adam; Culurciello, Eugenio (4 de novembro de 2016). «An Analysis of Deep Neural Network Models for Practical Applications». Bibcode:2016arXiv160507678C. arXiv:1605.07678  
  15. Neyshabur, Behnam; Li, Zhiyuan; Bhojanapalli, Srinadh; LeCun, Yann; Srebro, Nathan (2019). «Towards understanding the role of over-parametrization in generalization of neural networks». International Conference on Learning Representations. Bibcode:2018arXiv180512076N. arXiv:1805.12076  
  Este artigo sobre computação é um esboço. Você pode ajudar a Wikipédia expandindo-o.