Usuário(a):Dihestía/Escore (estatística)

Em estatística, o escore (ou informação ^[1] ) é o gradiente da função de log-verossimilhança em relação ao vetor de parâmetros . Avaliada em um ponto particular do vetor de parâmetros, a pontuação indica à inclinação da função de log-verossimilhança e, portanto, a sensibilidade a mudanças infinitesimais nos valores dos parâmetros. Se a função de log-verossimilhança for contínua no espaço paramétrico, o escore tenderá em um máximo ou mínimo local; esse fato é usado na estimador de máxima verossimilhança para encontrar os valores dos parâmetros que maximizam a função de verossimilhança.

Como o escore é uma função das observações que estão sujeitas ao erro de amostragem, ela se presta a uma estatística de teste conhecida como teste escore em que o parâmetro é mantido em um determinado valor. Além disso, a razão de duas funções de verossimilhança avaliadas em dois valores de parâmetros distintos pode ser entendida como uma integral definida da função escore. ^[2]

Definição

O escore é o gradiente (o vetor das derivadas parciais ) de $\log {\mathcal {L}}(\theta )$ , o logaritmo natural da função de verossimilhança, em relação a um vetor de parâmetro m-dimensional $\theta$ .

s(\theta )\equiv {\frac {\partial \log {\mathcal {L}}(\theta )}{\partial \theta }}

Essa diferenciação produz um $(1\times m)$ vetor linha, e indica a sensibilidade da verossimilhança (sua derivada normalizada por seu valor).

Na literatura antiga, "escore linear" pode se referir como a pontuação em relação à tradução infinitesimal de uma determinada densidade. Essa convenção surge de uma época em que o principal parâmetro de interesse era a média ou mediana de uma distribuição. Neste caso, a verossimilhança de uma observação é dada por uma densidade na forma ${\mathcal {L}}(\theta ;X)=f(X+\theta )$ . O "escore linear" é então definido como

s_{\rm {linear}}={\frac {\partial }{\partial X}}\log f(X)

Propriedades

Média

Enquanto a pontuação é uma função de $\theta$ , ela também depende das observações $\mathbf {x} =(x_{1},x_{2},\ldots x_{T})$ em que a função de verossimilhança é avaliada, e tendo em vista o caráter aleatório da amostragem pode-se tomar seu valor esperado sobre o espaço amostral . Sob certas condições de regularidade nas funções de densidade das variáveis aleatórias, ^[3] ^[4] o valor esperado do escore, avaliado no verdadeiro valor do parâmetro $\theta$ , é zero. Para ver isso, reescreva a função de verossimilhança ${\mathcal {L}}$ como uma função de densidade de probabilidade ${\mathcal {L}}(\theta ;x)=f(x;\theta )$ , e denote o espaço amostral ${\mathcal {X}}$ . Então:

{\begin{aligned}\operatorname {E} (s\mid \theta )&=\int _{\mathcal {X}}f(x;\theta ){\frac {\partial }{\partial \theta }}\log {\mathcal {L}}(\theta ;x)\,dx\\[6pt]&=\int _{\mathcal {X}}f(x;\theta ){\frac {1}{f(x;\theta )}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial f(x;\theta )}{\partial \theta }}\,dx\end{aligned}}

As condições de regularidade assumidas permitem o intercâmbio de derivada e integral (consulte a Fórmula de Leibniz ), portanto, a expressão acima pode ser reescrita como

{\frac {\partial }{\partial \theta }}\int _{\mathcal {X}}f(x;\theta )\,dx={\frac {\partial }{\partial \theta }}1=0.

Vale a pena reafirmar o resultado acima em palavras: o valor escore esperado, no verdadeiro valor do parâmetro $\theta$ é zero. Assim, se alguém fosse amostrar repetidamente alguma distribuição e calcular repetidamente o escore, o valor médio dos escores tenderia a zero assintoticamente .

Variância

A variação do escore, $\operatorname {Var} (s(\theta ))=\operatorname {E} (s(\theta )s(\theta )^{\mathsf {T}})$ , pode ser derivado da expressão acima para o valor esperado.

{\begin{aligned}0&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\operatorname {E} (s\mid \theta )\\[6pt]&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\left\{{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}\left\{{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )+{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx\\[6pt]&=\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)+\operatorname {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\left[{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\right]^{\mathsf {T}}\right)\end{aligned}}

Portanto, a variância do escore é igual ao valor esperado negativo da matriz Hessiana do log-verossimilhança. ^[5]

\operatorname {E} (s(\theta )s(\theta )^{\mathsf {T}})=-\operatorname {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)

Esta última é conhecida como informação de Fisher e é escrita ${\mathcal {I}}(\theta )$ . Observe que a informação de Fisher não é uma função de nenhuma observação em particular, pois a variável aleatória $X$ foi calculada da média. Este conceito de informação é útil quando se comparam dois métodos de observação de algum processo aleatório .

Exemplos

Processo de Bernoulli

Considere observar as primeiras n tentativas de um Processo de Bernoulli e ver que A delas são sucessos e as B restantes são falhas, onde a probabilidade de sucesso é θ .

Então a verossimilhança ${\mathcal {L}}$ é

{\mathcal {L}}(\theta ;A,B)={\frac {(A+B)!}{A!B!}}\theta ^{A}(1-\theta )^{B},

então o escore s é

s={\frac {1}{\mathcal {L}}}{\frac {\partial {\mathcal {L}}}{\partial \theta }}={\frac {A}{\theta }}-{\frac {B}{1-\theta }}.

Podemos agora verificar que a expectativa do escore é zero. Observando que a expectativa de A é nθ e a expectativa de B é n (1 − θ ) [lembre-se que A e B são variáveis aleatórias], podemos ver que a expectativa de s é

E(s)={\frac {n\theta }{\theta }}-{\frac {n(1-\theta )}{1-\theta }}=n-n=0.

Também podemos verificar a variação de $s$ . Nós sabemos que A + B = n (então B = n − A ) e a variância de A é nθ (1 − θ ) então a variância de s é

{\begin{aligned}\operatorname {var} (s)&=\operatorname {var} \left({\frac {A}{\theta }}-{\frac {n-A}{1-\theta }}\right)=\operatorname {var} \left(A\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)\right)\\&=\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)^{2}\operatorname {var} (A)={\frac {n}{\theta (1-\theta )}}.\end{aligned}}

Modelo de resultado binário

Para modelos com resultados binários ( Y = 1 ou 0), o modelo pode ser escore com o logaritmo das previsões

S=Y\log(p)+(1-Y)(\log(1-p))

onde p é a probabilidade no modelo a ser estimado e S é o escore. ^[6]

Aplicações

Algoritmo escore

O algoritmo escore é um método iterativo para determinar numericamente o estimador de máxima verossimilhança .

Teste escore

Observe que $s$ é uma função de $\theta$ e a observação $\mathbf {x} =(x_{1},x_{2},\ldots x_{T})$ , de modo que, em geral, não é uma estatística . No entanto, em certas aplicações, como o teste escore, a pontuação é avaliada em um valor específico de $\theta$ (como um valor da hipótese nula), no caso em que o resultado é uma estatística. Intuitivamente, se o estimador restrito estiver próximo do máximo da função de verossimilhança, o escore não deve diferir de zero em mais do que o erro amostral. Em 1948, C. R. Rao provou pela primeira vez que o quadrado do escore dividido pela matriz de informação segue uma distribuição χ ² assintótica sob a hipótese nula. ^[7]

Observe ainda que o teste da razão de verossimilhança é dado por

-2\left[\log {\mathcal {L}}(\theta _{0})-\log {\mathcal {L}}({\hat {\theta }})\right]=2\int _{\theta _{0}}^{\hat {\theta }}{\frac {d\,\log {\mathcal {L}}(\theta )}{d\theta }}\,d\theta =2\int _{\theta _{0}}^{\hat {\theta }}s(\theta )\,d\theta

o que significa que o teste de razão de verossimilhança pode ser entendido como a área sob a função escore entre $\theta _{0}$ e ${\hat {\theta }}$ . ^[8]

Correspondência escore (aprendizado de máquina)

Pode parecer confuso que a palavra escore tenha sido usada para $\nabla _{x}\log p(x)$ , pois não é uma função de verossimilhança, nem possui derivada em relação aos parâmetros. Para obter mais informações sobre essa definição, consulte o documento referenciado. ^[9]

Notas

↑ Informant in Encyclopaedia of Maths
↑ Pickles, Andrew (1985), An Introduction to Likelihood Analysis, ISBN 0-86094-190-6, Norwich: W. H. Hutchins & Sons, pp. 24–29
↑ Serfling, Robert J. (1980). Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons. ISBN 0-471-02403-1 Verifique o valor de |url-access=limited (ajuda)
↑ Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics : A Bridge to the Literature. New York: John Wiley & Sons. ISBN 0-471-09077-8
↑ Sargan, Denis (1988). Lectures on Advanced Econometrics. Oxford: Basil Blackwell. pp. 16–18. ISBN 0-631-14956-2
↑ Steyerberg, E. W.; Vickers, A. J.; Cook, N. R.; Gerds, T.; Gonen, M.; Obuchowski, N.; Pencina, M. J.; Kattan, M. W. (2010). «Assessing the performance of prediction models. A framework for traditional and novel measures». Epidemiology. 21 (1): 128–138. PMC 3575184 . PMID 20010215. doi:10.1097/EDE.0b013e3181c30fb2
↑ Rao, C. Radhakrishna (1948). «Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation». Mathematical Proceedings of the Cambridge Philosophical Society. 44 (1): 50–57. Bibcode:1948PCPS...44...50R. doi:10.1017/S0305004100023987
↑ Buse, A. (1982). «The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note». The American Statistician. 36 (3a): 153–157. doi:10.1080/00031305.1982.10482817
↑ https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf

Referências

Chentsov, N.N. (2001), «Informant», in: Hazewinkel, Michiel, Enciclopédia de Matemática, ISBN 978-1-55608-010-4 (em inglês), Springer
Cox, D. R.; Hinkley, D. V. (1974). Theoretical Statistics. [S.l.]: Chapman & Hall. ISBN 0-412-12420-3
Schervish, Mark J. (1995). Theory of Statistics. New York: Springer. Section 2.3.1. ISBN 0-387-94546-6

[[Categoria:Maximum likehood estimation]] [[Categoria:Estimador de máxima verossimilhança]] [[Categoria:Função escore]]

[1] Informant in Encyclopaedia of Maths

[2] Pickles, Andrew (1985), An Introduction to Likelihood Analysis, ISBN 0-86094-190-6, Norwich: W. H. Hutchins & Sons, pp. 24–29

[3] Serfling, Robert J. (1980). Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons. ISBN 0-471-02403-1 Verifique o valor de |url-access=limited (ajuda)

[4] Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics : A Bridge to the Literature. New York: John Wiley & Sons. ISBN 0-471-09077-8

[5] Sargan, Denis (1988). Lectures on Advanced Econometrics. Oxford: Basil Blackwell. pp. 16–18. ISBN 0-631-14956-2

[Steyerberg2010-6] Steyerberg, E. W.; Vickers, A. J.; Cook, N. R.; Gerds, T.; Gonen, M.; Obuchowski, N.; Pencina, M. J.; Kattan, M. W. (2010). «Assessing the performance of prediction models. A framework for traditional and novel measures». Epidemiology. 21 (1): 128–138. PMC 3575184 . PMID 20010215. doi:10.1097/EDE.0b013e3181c30fb2

[7] Rao, C. Radhakrishna (1948). «Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation». Mathematical Proceedings of the Cambridge Philosophical Society. 44 (1): 50–57. Bibcode:1948PCPS...44...50R. doi:10.1017/S0305004100023987

[8] Buse, A. (1982). «The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note». The American Statistician. 36 (3a): 153–157. doi:10.1080/00031305.1982.10482817

[9] ttps://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]