Teste de Kuiper

O Teste de Kuiper é usado na estatística para testar se uma determinada distribuição, ou uma família de distribuições, é contrariada por evidências de uma amostra de dados. Recebe este nome em homenagem ao matemático holandês Nicolaas Kuiper.

O Teste de Kuiper^[1] está relacionado com o Teste de Kolmogorov-Smirnov (ou teste K-S, como é comumente chamado). Assim como o teste K-S, as estatísticas de discrepância D+ e D- representam os tamanhos absolutos das diferenças mais positivas e negativas entre as duas funções de distribuição cumulativa que estão sendo comparadas. O truque com o teste de Kuiper é utilizar as quantidades D+ e D- como a estatística de teste. Esta pequena mudança faz com que o teste de Kuiper tão sensível nas caudas quanto na mediana, e também faz com que seja invariante sob transformações cíclicas da variável independente. O teste de Anderson-Darling é outro teste que proporciona sensibilidade igual nas caudas e mediana, mas não proporciona invariância cíclica.

Essa invariância sob transformações cíclicas faz do teste de Kuiper sem valor quando testado para variações cíclicas por época do ano, dia da semana ou hora do dia, e mais geral para testar o ajuste e as diferenças entre distribuições de probabilidade circulares.

Definição

O teste estatístico V, para o teste de Kuiper, é definido como: Seja F a função de distribuição cumulativa contínua que é a hipótese nula. Indique a amostra de dados, que são retiradas independente de variáveis aleatórias, tendo F como sua função de distribuição, como x_i (i=1,...,n). Então defina^[2]:

z_{i}=F(x_{i}),

D^{+}=\mathrm {max} \left[i/n-z_{i}\right],

D^{-}=\mathrm {max} \left[z_{i}-(i-1)/n\right],

e finalmente,

V=D^{+}+D^{-}.

Tabelas para os pontos críticos das estatísticas do teste estão disponíveis,^[3] incluindo certos casos em que a distribuição que está sendo testada não é totalmente conhecida, de modo que os parâmetros da família de distribuições são estimados.

Exemplo

Nós podemos testar a hipótese de que computadores quebram mais durante algumas épocas do que outras. Para testar isso, nós iriamos coletar as datas em que o o conjunto de teste dos computadores falhou e construir uma função de distribuição empírica. A hipótese nula é de que as falhas são uniformemente distribuidas. A estatística de Kuiper não se altera se nós mudarmos o começo do ano e não necessita que guardemos as falhas por meses.^[1]^[4] Outro teste estatístico contendo esta propriedade é a Estatística de Watson,^[2]^[4] que está relacionada ao teste de Cramér-von Mises.

Entretanto, se as falhas ocorrem mais nos finais de semana, muitos testes de distribuição uniforme como o K-S não iriam notar isso, pois finais de semana estão bem distribuidos pelo ano. Essa inabilidade de distinguir distribuições com uma “forma de pente” de distribuições uniformes continuas é um problema chave em todas as estatísticas baseadas em uma variante do teste K-S. O teste de Kuiper, aplicado ao número de eventos módulo uma semana é capaz de detectar tais padrões.

Notas

↑ ^a ^b Kuiper (1960)
↑ ^a ^b Pearson & Hartley (1972) p 118
↑ Pearson & Hartley (1972) Table 54
↑ ^a ^b Watson (1961)

Referências

Kuiper, N. H. (1960). «Tests concerning random points on a circle». Proceedings of the Koninklijke Nederlandse Akademie van Wetenschappen, Series A. 63: 38–47
Pearson, E.S., Hartley, H.O. (1972) Biometrika Tables for Statisticians, Volume 2, CUP. ISBN 0-521-06937-8 (page 118 and Table 54)
Watson, G.S. (1961) "Goodness-Of-Fit Tests on a Circle", Biometrika, 48 (1/2), 109–114 JSTOR 2333135

[K1960-1] Kuiper (1960)

[PH1-2] Pearson & Hartley (1972) p 118

[3] Pearson & Hartley (1972) Table 54

[W1-4] Watson (1961)

[1]

[2]

[3]

[4]