Teste de Kruskal-Wallis

O teste de Kruskal-Wallis por postos, teste H de Kruskal-Wallis (que recebe este nome em homenagem a William Kruskal e W. Allen Wallis) ou análise de variância de um fator em postos^[1] é um método não paramétrico para testar se amostras se originam da mesma distribuição.^[2]^[3]^[4] É usado para comparar duas ou mais amostras independentes de tamanhos iguais ou diferentes. Ele estende o teste U de Mann-Whitney quando há mais de dois grupos. O equivalente paramétrico do teste de Kruskal-Wallis é o teste F usado na análise de variância de um fator. Um teste de Kruskal-Wallis significante indica que ao menos uma amostra domina estocasticamente uma outra amostra. O teste não identifica onde esta dominância estocástica ocorre ou para quantos pares de grupos se obtém dominância estocástica. O teste de Dunn^[5] ou o mais poderoso, mas menos conhecido teste de Conover-Iman^[6] ajudariam a analisar os pares específicos de amostras para dominância estocástica em testes post hoc.

Por ser um método não paramétrico, o teste de Kruskal-Wallis não assume uma distribuição normal dos resíduos, diferentemente da análoga análise de variância de um fator. Se o pesquisador puder assumir os pressupostos menos rigorosos de uma distribuição com forma e escala idênticas para todos os grupos, exceto para qualquer diferença nas medianas, então, a hipótese nula é de que as medianas de todos os grupos são iguais e a hipótese alternativa é de que ao menos a mediana de população de um grupo é diferente da mediana de população de ao menos um outro grupo.

Método editar

Classifique todos os dados de todos os grupos juntos, isto é, classifique os dados de 1 a $N$ , ignorando a que grupo cada dado pertence. Atribua a quaisquer valores repetidos a média dos postos que eles teriam recebido se não fossem repetidos.
A estatística do teste é dada por:^[7]
$H=(N-1){\frac {\sum _{i=1}^{g}n_{i}({\bar {r}}_{i\cdot }-{\bar {r}})^{2}}{\sum _{i=1}^{g}\sum _{j=1}^{n_{i}}(r_{ij}-{\bar {r}})^{2}}},$ em que,
- $n_{i}$ é o número de observações do grupo $i$ ;
- $r_{ij}$ é a classificação (entre todas as observações) de observação $j$ do grupo $i$ ;
- $N$ é o número total de observações em todos os grupos;
- ${\bar {r}}_{i\cdot }={\frac {\sum _{j=1}^{n_{i}}{r_{ij}}}{n_{i}}}$ é a classificação média de todas as observações no grupo $i$ ;
- ${\bar {r}}={\tfrac {1}{2}}(N+1)$ é a média de todos os $r_{ij}$ .
Se os dados não contêm valores repetidos, o denominador da expressão para $H$ é exatamente $(N-1)N(N+1)/12$ e ${\bar {r}}={\frac {N+1}{2}}$ . Assim
${\begin{aligned}H&={\frac {12}{N(N+1)}}\sum _{i=1}^{g}n_{i}\left({\bar {r}}_{i\cdot }-{\frac {N+1}{2}}\right)^{2}\\&={\frac {12}{N(N+1)}}\sum _{i=1}^{g}n_{i}{\bar {r}}_{i\cdot }^{2}-\ 3(N+1).\end{aligned}}$
A última fórmula contém apenas os quadrados das classificações médias.
Uma correção para valores repetidos, usando-se a fórmula mais curta descrita no ponto anterior, pode ser feita ao dividir $H$ por $1-{\frac {\sum _{i=1}^{G}(t_{i}^{3}-t_{i})}{N^{3}-N}}$ , em que $G$ é o número de agrupamento de diferentes postos empatados e $t_{i}$ é o número de observações repetidas dentro do grupo $i$ que são iguais a um valor particular. Esta correção geralmente faz pouca diferença no valor de $H$ a não ser que haja um grande número de valores repetidos.
Finalmente, o valor-p é aproximado por $\Pr(\chi _{g-1}^{2}\geq H)$ . Se alguns valores $n_{i}$ forem pequenos (isto é, menores que 5), a distribuição de probabilidade de $H$ pode ser bem diferente da distribuição qui-quadrado. Se uma tabela de distribuição qui-quadrado estiver disponível, o valor crítico $\chi _{\alpha :g-1}^{2}$ pode ser encontrado na tabela a $g-1$ graus de liberdade, procurando abaixo da significância desejada ou nível alfa.
Se a estatística não for significante, então, não há evidência de dominância estocástica entre as amostras. Entretanto, se o teste for significante , então, ao menos uma amostra domina estocasticamente outra amostra. Por isso, um pesquisador pode usar contrastes de amostras entre pares de amostras individuais ou fazer testes post hoc usando um teste de Dunn, que (1) emprega apropriadamente as mesmas classificações do teste de Kruskal-Wallis e (2) emprega apropriadamente a variância combinada implicada pela hipótese nula do teste de Kruskal-Wallis a fim de determinar quais dos pares de amostras são significantemente diferentes.^[5] Quando se realizam múltiplos contrastes de amostras ou testes, a taxa de erro de tipo I tende a se tornar inflada, levantando preocupações quanto às múltiplas comparações.

Tabelas de probabilidades exatas editar

Uma grande quantidade de recursos computacionais é exigida para computar as probabilidades exatas para o teste de Kruskal-Wallis. Os softwares existentes apenas oferecem probabilidades exatas para amostras com menos de 30 integrantes. Estes programas dependem de aproximação assintótica para amostras de tamanhos maiores. Valores de probabilidades exatas para amostras de tamanhos maiores estão disponíveis. J. D. Spurrier publicou as tabelas de probabilidades exatas para amostras com até 45 integrantes.^[8] J. Patrick Meyer e Michael A. Seaman produziram as distribuições de probabilidades exatas para amostras com até 105 participantes.^[9]

Ver também editar

Referências editar

↑ «Kruskal-Wallis H Test in SPSS Statistics | Procedure, output and interpretation of the output using a relevant example.». statistics.laerd.com. Consultado em 9 de junho de 2017
↑ Kruskal, William H.; Wallis, W. Allen (1 de dezembro de 1952). «Use of Ranks in One-Criterion Variance Analysis». Journal of the American Statistical Association. 47 (260): 583–621. ISSN 0162-1459. doi:10.1080/01621459.1952.10483441
↑ Corder, Gregory W.; Foreman, Dale I. (20 de setembro de 2011). Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118211250
↑ Siegel, Sidney; Castellan, N. John (1988). Nonparametric Statistics for the Behavioral Sciences (em inglês). [S.l.]: McGraw-Hill. ISBN 9780071003261
↑ ^a ^b Dunn, Olive Jean (1 de agosto de 1964). «Multiple Comparisons Using Rank Sums». Technometrics. 6 (3): 241–252. ISSN 0040-1706. doi:10.1080/00401706.1964.10490181
↑ Conover, W. J.; Iman, Ronald (fevereiro de 1979). «On Multiple-Comparisons Procedures». Consultado em 5 de junho de 2017
↑ Daniel, Wayne W. (1990). Applied nonparametric statistics (em inglês). [S.l.]: PWS-Kent Publ. ISBN 9780534919764
↑ Spurrier, John D. (1 de dezembro de 2003). «On the null distribution of the Kruskal–Wallis statistic». Journal of Nonparametric Statistics. 15 (6): 685–691. ISSN 1048-5252. doi:10.1080/10485250310001634719
↑ Meyer, J. P.; Seaman, M.A. (2014). «A comparison of the exact Kruskal-Wallis distribution to asymptotic approximations for all sample sizes up to 105». Journal of Experimental Education. 81 (2). Consultado em 9 de junho de 2017

Ligações externas editar

Uma versão on-line do teste (em inglês)

[1] «Kruskal-Wallis H Test in SPSS Statistics | Procedure, output and interpretation of the output using a relevant example.». statistics.laerd.com. Consultado em 9 de junho de 2017

[2] Kruskal, William H.; Wallis, W. Allen (1 de dezembro de 1952). «Use of Ranks in One-Criterion Variance Analysis». Journal of the American Statistical Association. 47 (260): 583–621. ISSN 0162-1459. doi:10.1080/01621459.1952.10483441

[3] Corder, Gregory W.; Foreman, Dale I. (20 de setembro de 2011). Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118211250

[4] Siegel, Sidney; Castellan, N. John (1988). Nonparametric Statistics for the Behavioral Sciences (em inglês). [S.l.]: McGraw-Hill. ISBN 9780071003261

[:0-5] Dunn, Olive Jean (1 de agosto de 1964). «Multiple Comparisons Using Rank Sums». Technometrics. 6 (3): 241–252. ISSN 0040-1706. doi:10.1080/00401706.1964.10490181

[6] Conover, W. J.; Iman, Ronald (fevereiro de 1979). «On Multiple-Comparisons Procedures». Consultado em 5 de junho de 2017

[7] Daniel, Wayne W. (1990). Applied nonparametric statistics (em inglês). [S.l.]: PWS-Kent Publ. ISBN 9780534919764

[8] Spurrier, John D. (1 de dezembro de 2003). «On the null distribution of the Kruskal–Wallis statistic». Journal of Nonparametric Statistics. 15 (6): 685–691. ISSN 1048-5252. doi:10.1080/10485250310001634719

[9] Meyer, J. P.; Seaman, M.A. (2014). «A comparison of the exact Kruskal-Wallis distribution to asymptotic approximations for all sample sizes up to 105». Journal of Experimental Education. 81 (2). Consultado em 9 de junho de 2017

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]