Teste de Chauvenet

O teste de Chauvenet (ou critério de Chauvenet) permite determinar se um valor amostral (resultante de uma medida) é discrepante (ou, no termo em inglês, outlier) em relação aos demais valores restantes da amostra, supondo-se que esta amostra é retirada de uma distribuição normal.[1]

Gaussiana de Chauvenet

Havendo medidas : ,

e tendo,

  • como valor médio :
  • como desvio-padrão :
  • e como valor "suspeito" : ,

a probabilidade de existir um valor que se afaste de mais do que em relação à média é:

Com base numa lei de distribuição (distribuição normal), obtém-se o número de medida:

Se este número for inferior a 0,5, pode-se considerar como valor aberrante (e eliminá-lo).

É necessário garantir que a aplicação deste teste não elimina demasiados valores da amostra.

Exemplo: lendo os valores 9, 10, 10, 10, 11, e 50, a média amostral é 16,7 e o desvio padrão 16,34.

50 difere de 16,7 em 33,3, o que é pouco mais que a média mais dois desvios padrão. A probabilidade de extrair valores nesta região (mais que média mais duas vezes o desvio padrão) consulta-se numa tabela, e é cerca de 0,05.

Com seis valores medidos, a estatística dá 6 × 0,05 = 0,3. Como 0,3 < 0,5, de acordo com o teste de Chauvenet, o valor de 50 deverá ser removido (passando a nova média amostra a ser de 10, e o desvio padrão de 0,7).

Aplicação prática em planilhas eletrônicas editar

O exemplo acima pode ser reproduzido em uma planilha eletrônica Excel da seguinte maneira:

Valor da Amostra (x) z-score (z) Distribuição normal padrão (N) índice
Fórmula = (x - μ) / σ = DIST.NORMP.N(z;FALSO) = N*n
9 -0,4691 0,3574 2,1442
10 -0,4079 0,3671 2,2025
10 -0,4079 0,3671 2,2025
10 -0,4079 0,3671 2,2025
11 -0,3468 0,3757 2,2540
50 2,0397 0,0498 0,2990
Nº de Amostras (n) 6
Média (μ) 16,667
Desvio Padrão* (σ) 16,342
Média Final (μf) 10,000
Desvio Padrão Final (σf) 0,707

* No exemplo citado, o cálculo de desvio padrão foi amostral (função DESVPAD.A). Por se tratar de um cálculo feito a partir de todas os valores disponíveis (o número de amostras é igual ao número da população), deveria ter sido aplicada a função DESVPAD.P, que retornaria 14,918 em vez de 16,342. O resultado continuaria excluindo o valor 50.

Referências

  Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.