Usuário(a):Dihestía/Escore (estatística)

Ver artigo principal: Score test

Em estatística, o escore (ou informação [1] ) é o gradiente da função de log-verossimilhança em relação ao vetor de parâmetros . Avaliada em um ponto particular do vetor de parâmetros, a pontuação indica à inclinação da função de log-verossimilhança e, portanto, a sensibilidade a mudanças infinitesimais nos valores dos parâmetros. Se a função de log-verossimilhança for contínua no espaço paramétrico, o escore tenderá em um máximo ou mínimo local; esse fato é usado na estimador de máxima verossimilhança para encontrar os valores dos parâmetros que maximizam a função de verossimilhança.

Como o escore é uma função das observações que estão sujeitas ao erro de amostragem, ela se presta a uma estatística de teste conhecida como teste escore em que o parâmetro é mantido em um determinado valor. Além disso, a razão de duas funções de verossimilhança avaliadas em dois valores de parâmetros distintos pode ser entendida como uma integral definida da função escore. [2]

Definição

editar

O escore é o gradiente (o vetor das derivadas parciais ) de  , o logaritmo natural da função de verossimilhança, em relação a um vetor de parâmetro m-dimensional   .

 

Essa diferenciação produz um   vetor linha, e indica a sensibilidade da verossimilhança (sua derivada normalizada por seu valor).

Na literatura antiga, "escore linear" pode se referir como a pontuação em relação à tradução infinitesimal de uma determinada densidade. Essa convenção surge de uma época em que o principal parâmetro de interesse era a média ou mediana de uma distribuição. Neste caso, a verossimilhança de uma observação é dada por uma densidade na forma   . O "escore linear" é então definido como

 

Propriedades

editar

Média

editar

Enquanto a pontuação é uma função de  , ela também depende das observações   em que a função de verossimilhança é avaliada, e tendo em vista o caráter aleatório da amostragem pode-se tomar seu valor esperado sobre o espaço amostral . Sob certas condições de regularidade nas funções de densidade das variáveis aleatórias, [3] [4] o valor esperado do escore, avaliado no verdadeiro valor do parâmetro  , é zero. Para ver isso, reescreva a função de verossimilhança   como uma função de densidade de probabilidade  , e denote o espaço amostral   . Então:

 

As condições de regularidade assumidas permitem o intercâmbio de derivada e integral (consulte a Fórmula de Leibniz ), portanto, a expressão acima pode ser reescrita como

 

Vale a pena reafirmar o resultado acima em palavras: o valor escore esperado, no verdadeiro valor do parâmetro   é zero. Assim, se alguém fosse amostrar repetidamente alguma distribuição e calcular repetidamente o escore, o valor médio dos escores tenderia a zero assintoticamente .

Variância

editar

A variação do escore,  , pode ser derivado da expressão acima para o valor esperado.

 

Portanto, a variância do escore é igual ao valor esperado negativo da matriz Hessiana do log-verossimilhança. [5]

 

Esta última é conhecida como informação de Fisher e é escrita   . Observe que a informação de Fisher não é uma função de nenhuma observação em particular, pois a variável aleatória   foi calculada da média. Este conceito de informação é útil quando se comparam dois métodos de observação de algum processo aleatório .

Exemplos

editar

Processo de Bernoulli

editar

Considere observar as primeiras n tentativas de um Processo de Bernoulli e ver que A delas são sucessos e as B restantes são falhas, onde a probabilidade de sucesso é θ .

Então a verossimilhança   é

 

então o escore s é

 

Podemos agora verificar que a expectativa do escore é zero. Observando que a expectativa de A é e a expectativa de B é n (1 − θ ) [lembre-se que A e B são variáveis aleatórias], podemos ver que a expectativa de s é

 

Também podemos verificar a variação de   . Nós sabemos que A + B = n (então B = nA ) e a variância de A é (1 − θ ) então a variância de s é

 

Modelo de resultado binário

editar

Para modelos com resultados binários ( Y = 1 ou 0), o modelo pode ser escore com o logaritmo das previsões

 

onde p é a probabilidade no modelo a ser estimado e S é o escore. [6]

Aplicações

editar

Algoritmo escore

editar

O algoritmo escore é um método iterativo para determinar numericamente o estimador de máxima verossimilhança .

Teste escore

editar

Observe que   é uma função de   e a observação  , de modo que, em geral, não é uma estatística . No entanto, em certas aplicações, como o teste escore, a pontuação é avaliada em um valor específico de   (como um valor da hipótese nula), no caso em que o resultado é uma estatística. Intuitivamente, se o estimador restrito estiver próximo do máximo da função de verossimilhança, o escore não deve diferir de zero em mais do que o erro amostral. Em 1948, C. R. Rao provou pela primeira vez que o quadrado do escore dividido pela matriz de informação segue uma distribuição χ 2 assintótica sob a hipótese nula. [7]

Observe ainda que o teste da razão de verossimilhança é dado por

 

o que significa que o teste de razão de verossimilhança pode ser entendido como a área sob a função escore entre   e   . [8]

Correspondência escore (aprendizado de máquina)

editar

Pode parecer confuso que a palavra escore tenha sido usada para  , pois não é uma função de verossimilhança, nem possui derivada em relação aos parâmetros. Para obter mais informações sobre essa definição, consulte o documento referenciado. [9]

  1. Informant in Encyclopaedia of Maths 
  2. Pickles, Andrew (1985), An Introduction to Likelihood Analysis, ISBN 0-86094-190-6, Norwich: W. H. Hutchins & Sons, pp. 24–29 
  3. Serfling, Robert J. (1980). Approximation Theorems of Mathematical Statistics. New York: John Wiley & Sons. ISBN 0-471-02403-1  Verifique o valor de |url-access=limited (ajuda)
  4. Greenberg, Edward; Webster, Charles E. Jr. (1983). Advanced Econometrics : A Bridge to the Literature. New York: John Wiley & Sons. ISBN 0-471-09077-8 
  5. Sargan, Denis (1988). Lectures on Advanced Econometrics. Oxford: Basil Blackwell. pp. 16–18. ISBN 0-631-14956-2 
  6. Steyerberg, E. W.; Vickers, A. J.; Cook, N. R.; Gerds, T.; Gonen, M.; Obuchowski, N.; Pencina, M. J.; Kattan, M. W. (2010). «Assessing the performance of prediction models. A framework for traditional and novel measures». Epidemiology. 21 (1): 128–138. PMC 3575184 . PMID 20010215. doi:10.1097/EDE.0b013e3181c30fb2 
  7. Rao, C. Radhakrishna (1948). «Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation». Mathematical Proceedings of the Cambridge Philosophical Society. 44 (1): 50–57. Bibcode:1948PCPS...44...50R. doi:10.1017/S0305004100023987 
  8. Buse, A. (1982). «The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note». The American Statistician. 36 (3a): 153–157. doi:10.1080/00031305.1982.10482817 
  9. https://www.jmlr.org/papers/volume6/hyvarinen05a/hyvarinen05a.pdf

Referências

editar

[[Categoria:Maximum likehood estimation]] [[Categoria:Estimador de máxima verossimilhança]] [[Categoria:Função escore]]