Estimador: diferenças entre revisões

Conteúdo apagado Conteúdo adicionado
Linha 16:
 
==Definição==
Suponhamos que exista um parâmetro <math> \theta \ </math> fixo que tem de ser estimado. Em seguida, um "estimador" é uma função que mapeia o [[espaço amostral]] de um conjunto de estimativas de amostra. Um estimador de <math> \theta \ </math> geralmente é representada pelo símbolo <math>\widehat{\theta}</math>. Muitas vezes, é conveniente expressar a teoria utilizando [[álgebra de variáveis ​​aleatórias]]: assim, se ''X'' é utilizado para denotar uma variável aleatória correspondente aos dados observados, o estimador (se tratado como uma variável aleatória) é simbolizada como uma função da [[Variável aleatória discreta|variável aleatória]] , <math>\widehat{\theta}(X)</math>. A estima para um conjunto de dados observados em particular (isto é, para ''X'' = ''x'') é então <math>\widehat{\theta}(x)</math>, que é um valor fixado. Muitas vezes, uma notação abreviada é usada no qual <math>\widehat{\theta}</math> é interpretado diretamente como uma variável aleatória, mas isso pode causar confusão.
 
==Propriedades quantificadas==
As seguintes definições e atributos aplicam-se:
;Erro
Para uma amostra de dado <math> x \ </math>, o "[[erros e resíduos na estatística|erro]]" do estimador <math>\widehat{\theta}</math> é definido como
:<math>e(x)=\widehat{\theta}(x) - \theta,</math>
onde <math>\theta \ </math> é o parâmetro que está sendo estimado. Note que o erro, ''e'', depende não somente do estimador (a fórmula da estimação ou procedimento), mas também sobre a amostra.
 
;Erro quadrático médio
O [[erro quadrático médio]] de <math>\widehat{\theta}</math> é definido como o valor esperado (média ponderada de probabilidade, sobre todas as amostras) dos erros ao quadrado, isto é,
:<math>\operatorname{EQM}(\widehat{\theta}) = \operatorname{E}[(\widehat{\theta}(X) - \theta)^2].</math>
Ele é usado para indicar o quão distante, em média, o conjunto de estimativas está do único parâmetro a ser estimado. Considere a seguinte analogia. Suponha que o parâmetro é o centro de um alvo, o estimador é o processo de atirar flechas no alvo, e as flechas individuais são estimativas (amostras). Então, a alta EQM, significa que a distância média das flechas do centro do alvo é alta e baixo EQM significa que a distância média do centro do alvo é baixa. As flechas podem ou não ser agrupadas. Por exemplo, mesmo se todas as flechas baterem no mesmo ponto, mesmo errando grosseiramente o alvo, o EQM ainda é relativamente grande. Observe, contudo, que se o EQM é relativamente baixo, então as flechas estão provavelmente mais altamente agrupadas (do que altamente dispersas).
 
;Desvio de amostragem
Para uma amostra de dado <math> x \ </math>, o [[desvio de amostragem]] do estimador <math>\widehat{\theta}</math> é definido como
: <math>d(x) = \widehat{\theta}(x) - \operatorname{E}(\widehat{\theta}(X)) = \widehat{\theta}(x) - \operatorname{E}(\widehat {\theta}),</math>
onde <math>\operatorname{E}(\widehat{\theta}(X))</math> é o [[valor esperado]] do estimador. Perceba que o desvio de amostragem, d, depende não somente no estimador, mas na amostra.
 
;Variância
A [[variância]] de <math>\widehat{\theta}</math> é simplesmente o valor esperado dos desvios quadrados de amostragem, ou seja, <math>\operatorname{var}(\widehat{\theta}) = \operatorname{E}[(\widehat{\theta} - \operatorname{E}(\widehat{\theta})) ^ 2]</math>. Ele é usado para indicar quão distante, em média, o conjunto de estimativas está do valor esperado das estimativas. Observe a diferença entre EQM e variância. Se o parâmetro for o centro de um alvo, e as flechas são estimativas, então, uma variação relativamente alta significa que as flechas estão dispersas, e uma variância relativamente baixa significa que as flechas estão agrupadas. Algumas coisas a observar: mesmo que a variância for baixa, o conjunto de flechas pode ainda estar longe do alvo, e mesmo se a variância for alta, o conjunto difuso de flechas ainda pode ser não-viesado. Finalmente, note que, mesmo se todas as flechas errarem grosseiramente o alvo, se, no entanto, todas bateram no mesmo ponto, a variância é zero.
 
;Viés
O [[Viés de um estimador|viés]] de <math>\widehat{\theta}</math> é definido como <math>B(\widehat{\theta}) = \operatorname{E}(\widehat{\theta}) - \theta</math>. Ele é a distância entre a média do conjunto de estimativas, e o único parâmetro a ser estimado. Ele também é o valor esperado do erro, uma vez que <math>\operatorname{E}(\widehat{\theta}) - \theta = \operatorname{E}(\widehat{\theta} - \theta)</math>. Se o parâmetro for o centro do alvo, e as flechas forem as estimativas, em seguida, um valor absoluto relativamente alto para o viés significa que a posição média das flechas está fora da alvo, e um viés absoluto relativamente baixo significa que a posição média das flechas está no alvo. Elas podem estar dispersas, ou podem estar agrupadas. A relação entre a variação de polarização é análoga à relação entre a [[exatidão e precisão]].
 
;Não-enviesado
O estimador <math>\widehat{\theta}</math> é um [[estimador não-enviesado]] de <math>\theta \ </math> [[se e somente se]] <math>B(\widehat{\theta}) = 0</math>. Note que o viés é uma propriedade do estimador, não da estimativa. Muitas vezes, as pessoas se referem a uma "estimativa enviesada" ou uma "estimativa não-enviesado", mas eles realmente estão falando sobre uma "estimativa de um estimador enviesado", ou uma "estimativa de um estimador não-enviesado". Além disso, muitas vezes as pessoas confundem o "erro" de uma única estimativa com o "viés" de um estimador. Apenas porque o erro para uma estimativa é grande, não significa que o estimador é enviesado. De fato, mesmo se todas as estimativas tiverem valores absolutos astronômicos para os seus erros, se o valor esperado do erro é zero, o estimador é não-enviesado. Além disso, só porque um estimador é enviesado, não impede que o erro de estimativa seja zero (nós podemos ter sido sortudos). A situação ideal, é claro, é ter um estimador não-enviesado com baixa variância, e também tentar limitar o número de amostras em que o erro é extremo (isto é, têm poucos valores atípicos). No entanto, não é essencial enviesamento. Muitas vezes, se apenas um pequeno viés é permitido, então um estimador pode ser encontrado com o EQM baixo e / ou poucas estimativas da amostra discrepantes.
 
Uma alternativa para a versão "não-enviesada" acima, é a "mediana - não-enviesada", onde a [[Mediana (estatística)|mediana]] da distribuição de estimativas concorda com o valor real, assim, no longo prazo, a metade das estimativas será muito baixa e metade muito alta. Enquanto isso se aplica de imediato apenas para estimadores de valor escalar, isso pode ser estendido para qualquer medida de [[tendência central]] de uma distribuição: veja [[estimadores de mediana não-enviesados]].
 
;Relacionamentos
*O EQM, variância, e viés, estão relacionados: <math>\operatorname{EQM}(\widehat{\theta}) = \operatorname{var}(\widehat\theta) + (B(\widehat{\theta})) ^ 2,</math> ou seja, o erro médio quadrado = variância + quadrado do viés. Em particular, para um estimador não-enviesado, a variância é igual ao EQM.
*O [[desvio padrão]] de um estimador de θ (a [[raiz quadrada]] da variância), ou uma estimativa do desvio padrão de um estimador de θ, é chamado o [[Erro padrão (estatística)|erro padrão]] de θ.
 
==Propriedades comportamentais==