Processo gaussiano

Em teoria da probabilidade e estatística, um processo gaussiano é um modelo estatístico em que as observações ocorrem em um domínio contínuo, por exemplo, tempo ou espaço. Em um processo gaussiano, cada ponto em algum espaço de entrada contínua está associada com uma variável aleatória com distribuição normal. Além disso, cada conjunto finito dessas variáveis aleatórias tem uma distribuição normal multivariada. A distribuição de um processo gaussiano é a distribuição conjunta de todas as infinitas variáveis aleatórias, e, como tal, é uma distribuição de funções com um domínio contínuo.

Visto como um algoritmo de aprendizado de máquina, um processo gaussiano utiliza "aprendizagem preguiçosa" e uma medida da similaridade entre os pontos (a função kernel) para prever o valor de um ponto invisível a partir de dados de treinamento. A previsão não é apenas uma estimativa para esse ponto, mas tem também a informação da incerteza. É uma distribuição gaussiana unidimensional (que é uma distribuição marginal nesse ponto).^[1]

Em algumas funções kernel, a álgebra de matrizes pode ser usada para calcular as previsões, como descrito no artigo krigagem. Quando um kernel parametrizado é utilizado, o software de otimização é tipicamente usado para ajustar um modelo de processo gaussiano.

O conceito de processos gaussianos tem o nome de Carl Friedrich Gauss, porque se baseia na noção da distribuição gaussiana (distribuição normal). Processos gaussianos podem ser visto como uma generalização infinito-dimensional de distribuições normais multivariadas.

Processos gaussianos são úteis na modelagem estatística, beneficiando-se de propriedades herdadas do normal. Por exemplo, se um processo aleatório é modelado como um processo gaussiano, as distribuições de várias derivadas de grandezas podem ser obtidas de forma explícita. Tais grandezas incluem o valor médio do processo em um dado intervalo de tempo e o erro na estimativa da média usando valores de amostra de um curto intervalo de tempo.

Definição editar

Um processo gaussiano é uma distribuição estatística X_t, t ∈ T, para qual qualquer combinação linear finita de amostras tem uma distribuição gaussiana conjunta. Mais precisamente, qualquer funcional linear aplicado à função de amostra X_t terá um resultado distribuído normalmente. Para notação, pode-se escrever X ~ GP(m,K), ou seja, a função aleatória X é distribuída como um processo gaussiano com a média m e função de covariância K.^[2] Quando o vetor de entrada t é bi- ou multi-dimensional, um processo gaussiano pode ser também conhecido como um campo aleatório gaussiano.^[3]

Alguns autores^[4] assumem que as variáveis aleatórias X_t tem média zero; isto simplifica os cálculos sem perda de generalidade e permite que as propriedades da média do processo serem inteiramente determinadas pela função de covariância K.^[5]

Definições alternativas editar

Alternativamente, um processo estocástico de tempo contínuo é gaussiano se e somente se para cada conjunto finito de índices $t_{1},\ldots ,t_{k}$ no conjunto indexado $T$

${\mathbf {X} }_{t_{1},\ldots ,t_{k}}=(\mathbf {X} _{t_{1}},\ldots ,\mathbf {X} _{t_{k}})$

é uma variável aleatória gaussiana multivariada.^[6] Usando funções características de variáveis aleatórias, a propriedade gaussiana pode ser formulada da seguinte forma: $\left\{X_{t};t\in T\right\}$ é gaussiano se e somente se, para cada conjunto finito de índices $t_{1},\ldots ,t_{k}$ , existem valores reais $\sigma _{\ell j}$ , $\mu _{\ell }$ com $\sigma _{jj}>0$ , tais que a seguinte igualdade é válida para todos os $s_{1},s_{2},...s_{k}\in \mathbb {R}$

$\operatorname {E} \left(\exp \left(i\ \sum _{\ell =1}^{k}s_{\ell }\ \mathbf {X} _{t_{\ell }}\right)\right)=\exp \left(-{\frac {1}{2}}\,\sum _{\ell ,j}\sigma _{\ell j}s_{\ell }s_{j}+i\sum _{\ell }\mu _{\ell }s_{\ell }\right).$

onde $i$ denota o número imaginário ${\sqrt {-1}}$ .

Os números $\sigma _{\ell j}$ e $\mu _{\ell }$ podem ser demonstrados serem as covariâncias e médias das variáveis no processo.^[7]

Funções de covariância editar

Um fato chave nos processos gaussianos é que eles podem ser completamente definidos por suas estatísticas de segunda ordem.^[3] Assim, se um processo gaussiano é assumido para ter média zero, definir a função de covariância resulta também na definição completa do comportamento do processo. Importante o definiteness não negativo desta função permite a sua decomposição espectral usando a expansão Karhunen-Loeve. aspectos básicos que podem ser definidos através da função de covariância são o processo 'estacionaridade, isotropia, suavidade e periodicidade.^[8]^[9]

Estacionariedade refere-se ao processo de comportamento em relação à separação de quaisquer dois pontos X e X. Se o processo está parado, que depende da sua separação, x - x ', enquanto que, se não estacionária que depende da posição real dos pontos X e X'. Pelo contrário, no caso especial de um processo de Ornstein-Uhlenbeck, um processo de movimento Browniano, é não-estacionária.

Se o processo depende apenas | x - x '|, a distância euclidiana (não a direção) entre X e X', isotrópico em seguida, o processo é considerado. Um processo que é simultaneamente estacionário e isotrópico é considerada homogêneo;^[10] na prática estas propriedades refletem as diferenças (ou a falta delas) no comportamento do processo, dada a localização do observador.

Em última análise, os processos gaussianos traduzem como tendo antecedentes sobre as funções e a suavidade destes antecedentes pode ser induzida pela função de covariância.^[8] Se espera-se que para "quase por" pontos de entrada X e X 'os seus correspondentes pontos de saída Y e Y? Ser "quase por" também, em seguida, o pressuposto de continuidade está presente. Se quisermos permitir a deslocação significativa então poderíamos escolher uma função covariância mais áspera. Exemplos extremos do comportamento são a função de covariância Ornstein-Uhlenbeck e o quadrado exponencial, onde os primeiros nunca são diferenciáveis e este último infinitamente diferenciável.

Periodicidade refere-se a padrões de indução periódica dentro do comportamento do processo. Formalmente, isto é conseguido por meio do mapeamento da entrada x de um vector bidimensional U (x) = (cos (x), sen (x)).

Funções de covariância usuais editar

O efeito da escolha de diferentes kernels antes da função de distribuição do processo gaussiano. À esquerda, um kernel exponencial quadrado, ao centro, browniano, e à direita, quadrático.

Há um número de funções de covariância comuns:^[9]

Constante: $K_{\text{C}}(x,x')=C$
Linear: $K_{\text{L}}(x,x')=x^{T}x'$
Ruído gaussiano: $K_{\text{GN}}(x,x')=\sigma ^{2}\delta _{x,x'}$
Quadrado exponencial: $K_{\text{SE}}(x,x')=\exp {\Big (}-{\frac {||d||^{2}}{2l^{2}}}{\Big )}$
Ornstein-Uhlenbeck: $K_{\text{OU}}(x,x')=\exp {\Big (}-{\frac {|d|}{l}}{\Big )}$
Matérn: $K_{\text{Matern}}(x,x')={\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Big (}{\frac {{\sqrt {2\nu }}|d|}{l}}{\Big )}^{\nu }K_{\nu }{\Big (}{\frac {{\sqrt {2\nu }}|d|}{l}}{\Big )}$
Periódica: $K_{\text{P}}(x,x')=\exp {\Big (}-{\frac {2\sin ^{2}({\frac {d}{2}})}{l^{2}}}{\Big )}$
Racional quadrática: $K_{\text{RQ}}(x,x')=(1+|d|^{2})^{-\alpha },\quad \alpha \geq 0$

Aqui $d=x-x'$ . O parâmetro $l$ é o comprimento escala característica do processo (praticamente, "quão perto" dois pontos $x$ e $x'$ tem que ser para influenciar uns aos outros de forma significativa) , δ é o delta de Kronecker e σ o desvio-padrão das flutuações de ruído. Além disso, $K_{\nu }$ é a função de Bessel modificada de ordem $\nu$ e $\Gamma (\nu )$ é o função gama avaliadas em $\nu$ . Importante, uma função covariância complicado pode ser definida como uma combinação linear de outras funções de covariância mais simples, a fim de incorporar diferentes percepções sobre a na mão conjunto de dados.

Claramente, os resultados de inferência são dependentes dos valores das θ hiperparâmetros (por exemplo, $l$ e σ) definir o comportamento do modelo. Uma escolha popular para θ é para proporcionar o máximo a posteriori (MAP) estimativas de que com alguma escolhido antes. Se o anterior é muito perto uniforme, isto é o mesmo que maximizar a probabilidade marginal do processo; a marginalização sendo feito ao longo dos valores de processo observadas $y$ .^[9] Esta abordagem também é conhecida como máxima verossimilhança II, a prova de maximização, ou Empirical Bayes. ^[5]

Movimento browniano como integral de processos gaussianos editar

Um processo de Wiener (também conhecido como movimento browniano) é o integrante de um processo gaussiano de ruído branco. Ele não é estacionária, mas tem incrementos estacionárias.

O processo de Ornstein-Uhlenbeck é um processo gaussiano estacionário.

A ponte Browniano é o integral de um processo gaussiano cuja incrementos não são independentes.

O movimento browniano fracionário é o integrante de um processo gaussiano cuja função covariância é uma generalização do processo de Wiener.

Aplicações editar

Um processo gaussiano pode ser usado como uma distribuição de probabilidade prévia sobre as funções em inferência Bayesiana.^[9]^[11] Dado qualquer conjunto de N pontos no domínio desejado de suas funções, ter um gaussiano multivariada cujo parâmetro matriz de covariância é a matriz de Gram de seus pontos N com alguns kernel desejado e amostra do que gaussiano.

Inferência de valores contínuos com um processo gaussiano antes é conhecido como regressão processo gaussiano, ou krigagem; estendendo-se regressão do processo gaussiano para as múltiplas variáveis alvo é conhecido como cokrigagem.^[11] Os processos gaussianos são assim úteis como um poderoso multivariada interpolação não linear e de extensão de amostra ferramenta.^[12] regressão do processo gaussiano pode ser prorrogado para resolver tarefas de aprendizagem, tanto supervisionado (por exemplo, classificação probabilística^[9]) e sem supervisão (por exemplo colector de aprendizagem^[3]) enquadramentos de aprendizagem.

Previsão do processo gaussiano ou krigagem editar

Regressão do processo gaussiano (previsão) com um kernel exponencial quadrado. O gráfico da esquerda é desenhado a partir da distribuição de funções anteriores. No meio, desenhos da posterior. À direita, a previsão média com um desvio padrão sombreado.

Quando em causa com um problema de regressão processo gaussiano geral, admite-se que, para um processo gaussiano f observado nas coordenadas x, o vector de valores $f(x)$ é apenas uma amostra de uma distribuição gaussiana multivariada de dimensão igual ao número de coordenadas observados | x |. Portanto, sob a suposição de uma distribuição de média zero, $f(x)\sim N(0,K(\theta ,x,x'))$ , onde $K(\theta ,x,x')$ é a matriz covariância entre todos os pares possíveis $(x,x')$ para um determinado conjunto de hiperparâmetros θ.^[9] Como tal, a probabilidade marginal log é:

$\log p(f(x)|\theta ,x)=-{\frac {1}{2}}f(x)^{T}K(\theta ,x,x')^{-1}f(x)-{\frac {1}{2}}\log \det(K(\theta ,x,x'))-{\frac {|x|}{2}}\log 2\pi$

e maximizar essa probabilidade marginal em direção θ fornece a especificação completa do processo gaussiano f. Pode-se notar brevemente neste ponto que o primeiro termo corresponde a um termo de penalidade por falta de um modelo para caber valores observados e o segundo termo a um termo de penalidade que aumenta proporcionalmente à complexidade do modelo. Tendo especificado θ fazer previsões sobre valores não observados $f(x^{*})$ nas coordenadas $x^{*}$ é então apenas uma questão de retirada de amostras da distribuição preditiva $p(y^{*}|x^{*},f(x),x)=N(y^{*}|A,B)$ , onde a parte posterior estimativa média a é definido como:

$A=K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}f(x)$

e a posterior estimativa de variância B é definido como:

$B=K(\theta ,x^{*},x^{*})-K(\theta ,x^{*},x)K(\theta ,x,x')^{-1}K(\theta ,x^{*},x)^{T}$

onde $K(\theta ,x^{*},x')$ é a covariância entre a nova coordenada de estimativa x * e todos outras coordenadas observadas x para um dado θ hiperparâmetro vector, $K(\theta ,x,x')$ e $f(x)$ são definidos como antes e $K(\theta ,x^{*},x^{*})$ é a variação no ponto $x^{*}$ como ditada por θ. É importante notar que praticamente o posterior estimativa média $f(x^{*})$ (o "ponto de estimativa") é apenas uma combinação linear das observações $f(x)$ ; de um modo semelhante a variância de $f(x^{*})$ é efectivamente independente das observações $f(x)$ . Um gargalo conhecido na predição processo gaussiano é que a complexidade computacional de predição é cúbica do número de pontos | x | e, como tal, pode se tornar inviável para conjuntos de dados maiores.^[8] Funciona em processos gaussianos esparsas, que normalmente são baseados na ideia de construir um conjunto representativo para o processo dada f, tentar contornar este problema.^[13]^[14]

Referências

↑ «Platypus Innovation: A Simple Intro to Gaussian Processes (a great data modelling tool)»
↑ Rasmussen, C. E. (2004). «Gaussian Processes in Machine Learning». Advanced Lectures on Machine Learning. Col: Lecture Notes in Computer Science. 3176. [S.l.: s.n.] pp. 63–71. ISBN 978-3-540-23122-6. doi:10.1007/978-3-540-28650-9_4
↑ ^a ^b ^c Bishop, C.M. (2006). Pattern Recognition and Machine Learning. [S.l.]: Springer. ISBN 0-387-31073-8
↑ Simon, Barry (1979). Functional Integration and Quantum Physics. [S.l.]: Academic Press
↑ ^a ^b Seeger, Matthias (2004). «Gaussian Processes for Machine Learning». International Journal of Neural Systems. 14 (2): 69–104. doi:10.1142/s0129065704001899
↑ MacKay, David, J.C. (2003). Information Theory, Inference, and Learning Algorithms (PDF). [S.l.]: Cambridge University Press. 540 páginas. ISBN 9780521642989
↑ Dudley, R.M. (1989). Real Analysis and Probability. [S.l.]: Wadsworth and Brooks/Cole
↑ ^a ^b ^c Barber, David (2012). Bayesian Reasoning and Machine Learning. [S.l.]: Cambridge University Press. ISBN 978-0-521-51814-7
↑ ^a ^b ^c ^d ^e ^f Rasmussen, C.E.; Williams, C.K.I (2006). Gaussian Processes for Machine Learning. [S.l.]: MIT Press. ISBN 0-262-18253-X
↑ Grimmett, Geoffrey; David Stirzaker (2001). Probability and Random Processes. [S.l.]: Oxford University Press. ISBN 0198572220
↑ ^a ^b Liu, W.; Principe, J.C.; Haykin, S. (2010). Kernel Adaptive Filtering: A Comprehensive Introduction. [S.l.]: John Wiley. ISBN 0-470-44753-2. Consultado em 20 de setembro de 2016. Arquivado do original em 4 de março de 2016
↑ Barkan, O., Weill, J., & Averbuch, A. (2016). "Gaussian Process Regression for Out-of-Sample Extension". arXiv preprint arXiv:1603.02194.
↑ Smola, A.J.; Schoellkopf, B. (2000). «Sparse greedy matrix approximation for machine learning». Proceedings of the Seventeenth International Conference on Machine Learning: 911–918
↑ Csato, L.; Opper, M. (2002). «Sparse on-line Gaussian processes». Neural Computation. 14 (3): 641–668. doi:10.1162/089976602317250933

[1] «Platypus Innovation: A Simple Intro to Gaussian Processes (a great data modelling tool)»

[2] Rasmussen, C. E. (2004). «Gaussian Processes in Machine Learning». Advanced Lectures on Machine Learning. Col: Lecture Notes in Computer Science. 3176. [S.l.: s.n.] pp. 63–71. ISBN 978-3-540-23122-6. doi:10.1007/978-3-540-28650-9_4

[prml2-3] Bishop, C.M. (2006). Pattern Recognition and Machine Learning. [S.l.]: Springer. ISBN 0-387-31073-8

[4] Simon, Barry (1979). Functional Integration and Quantum Physics. [S.l.]: Academic Press

[seegerGPML2-5] Seeger, Matthias (2004). «Gaussian Processes for Machine Learning». International Journal of Neural Systems. 14 (2): 69–104. doi:10.1142/s0129065704001899

[DrMacKayGPNN-6] MacKay, David, J.C. (2003). Information Theory, Inference, and Learning Algorithms (PDF). [S.l.]: Cambridge University Press. 540 páginas. ISBN 9780521642989

[7] Dudley, R.M. (1989). Real Analysis and Probability. [S.l.]: Wadsworth and Brooks/Cole

[brml2-8] Barber, David (2012). Bayesian Reasoning and Machine Learning. [S.l.]: Cambridge University Press. ISBN 978-0-521-51814-7

[gpml2-9] ↑ ^a ^b ^c ^d ^e ^f Rasmussen, C.E.; Williams, C.K.I (2006). Gaussian Processes for Machine Learning. [S.l.]: MIT Press. ISBN 0-262-18253-X

[PRP-10] Grimmett, Geoffrey; David Stirzaker (2001). Probability and Random Processes. [S.l.]: Oxford University Press. ISBN 0198572220

[Não_nomeado-yCAO-1-11] Liu, W.; Principe, J.C.; Haykin, S. (2010). Kernel Adaptive Filtering: A Comprehensive Introduction. [S.l.]: John Wiley. ISBN 0-470-44753-2. Consultado em 20 de setembro de 2016. Arquivado do original em 4 de março de 2016

[gpr-12] Barkan, O., Weill, J., & Averbuch, A. (2016). "Gaussian Process Regression for Out-of-Sample Extension". arXiv preprint arXiv:1603.02194.

[smolaSparse-13] Smola, A.J.; Schoellkopf, B. (2000). «Sparse greedy matrix approximation for machine learning». Proceedings of the Seventeenth International Conference on Machine Learning: 911–918

[CsatoSparse-14] Csato, L.; Opper, M. (2002). «Sparse on-line Gaussian processes». Neural Computation. 14 (3): 641–668. doi:10.1162/089976602317250933

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]