Qui-quadrado

(Redirecionado de Chi-quadrado)

A distribuição χ2 ou qui-quadrado é uma das distribuições mais utilizadas em estatística inferencial, principalmente para realizar testes de χ2. Este teste serve para avaliar quantitativamente a relação entre o resultado de um experimento e a distribuição esperada para o fenômeno. Isto é, ele nos diz com quanta certeza os valores observados podem ser aceitos como regidos pela teoria em questão. Muitos outros testes de hipótese usam, também, a distribuição χ2.

Distribuição Qui-quadrado
A função densidade de probabilidade da distribuição χ²
A função distribuição acumulada da distribuição χ²
Parâmetros graus de liberdade
Suporte if , caso contrário
f.d.p.
f.d.a.
Média
Mediana
Moda
Variância
Obliquidade
Curtose
Entropia
Função Geradora de Momentos
Função Característica [1]

Teste de χ2 editar

Dado um experimento onde foram realizadas N medidas de uma variável aleatória X. Em cada medida, a variável X assume os valores x1, x2, ...,xN. Gostaríamos de testar se a distribuição experimental dos valores x1, x2, ..., xk, ..., xN é consistente com a distribuição esperada para o fenômeno, f(X). Em outras palavras, temos que avaliar como esperaríamos que as N medidas estivessem distribuídas e então comparar com a distribuição observada. Primeiramente, em geral x é uma variável contínua, de forma que não podemos nos referir ao valor esperado de medidas com um único valor de x[2] (se x for contínuo, a probabilidade de X assumir um exato valor é zero). Logo, precisamos definir intervalos a ≤ x ≤ b e calcular o número esperado de medidas que devem estar dentro de cada intervalo j, em que j = 1, 2, …, n e n é o número de intervalos definidos. O número de medidas esperadas para o intervalo j, Ej, será, então,

 ,

onde Prj é a probabilidade de X assumir um valor dentro do intervalo j. Essa probabilidade obviamente depende da distribuição f(X) e é normalizada:

 

É natural analisar a diferença entre o número de amostras observadas dentro de cada intervalo, Oj, e o número esperado:

 ,

de forma que quanto menor forem estes valores, melhores serão as chances de nossa hipótese para f(X) ser verdadeira. Porém, não podemos esperar que os dois valores Oj e Ej coincidam perfeitamente para qualquer número finito de medidas que realizarmos. Na verdade, se imaginarmos uma situação onde realizamos o procedimento de contar o número Oj muitas vezes, esperamos que a média de Oj seja Ej, com um desvio padrão σj=Ej1/2.[2] Logo, esperamos que

 

seja da ordem de unidade, se nossa hipótese for verdadeira. Definimos, portanto, a variável χk2, com k graus de liberdade estatísticos, como sendo

 

indicando o quanto as distribuições experimental e teórica são parecidas. Se χ2 ≤ n, há uma boa concordância entre as distribuições, e se χ2 >> n é bem provável que a hipótese para f(X) seja falsa. Os graus de liberdade k são definidos como a diferença entre o número de medidas realizadas e o número de restrições feitas aos valores das medidas.[2]

É possível estudar as discrepâncias em experimentos que envolvam duas variáveis, em diferentes níveis. Os valores observados podem ser anotados em um quadro da seguinte forma:

Tabela das frequências de eventos com duas variáveis X e Y.
Variável X Variável Y Total
Y1 Y2 ... Ym
X1 O11 O12 ... O1m L1
X2 O21 O22 ... O2m L2
... ... ... ... ... ...
Xn On1 On2 ... Onm Lm
Total C1 C2 ... Cn T

O objetivo é observar o nível de relação existente entre as variáveis estudadas. Nesse caso, a estatística de teste é dado por:

 

onde as frequências esperadas são dadas por:

 

Distribuição χ2 editar

A probabilidade da distribuição qui quadrado não é simétrica como a da distribuição normal. Dessa forma, para aumentar seu estado de simetria, é necessário aumentar o seu grau de liberdade, portanto a relação entre simetria e grau de liberdade é diretamente proporcional.

 
Demonstração de como a simetria cresce conforme o grau de liberdade aumenta nas distribuições qui quadrado.

A variável  , por si só, apresenta uma função densidade de probabilidade. Esta função apresenta qual a probabilidade de a variável   assumir um valor entre   e  , e é dada por:

 

Exemplos desta função para diversos k estão plotados na figura ao lado.

Em posse desta expressão, pode-se calcular a probabilidade de, num teste de χ2, obter-se um valor igual ou maior ao valor encontrado,  , calculando a integral

 

Desta forma, encontramos um modo quantitativo para determinar a concordância entre distribuição experimental e teórica. Em geral, para evitar o cálculo desta integral, se recorre a tabelas que apresentam os valores das probabilidades para cada intervalo de confiança e para cada grau de liberdade.

É interessante analisar que a média da distribuição χ2 é k. Isto é se repetirmos o teste de χ2 muitas vezes (para várias medidas coletadas diferentes), esperamos que a média dos valores de χ2 encontrados tenda para o número de graus de liberdade estatísticos.

A distribuição qui-quadrado pode ser simulada a partir da distribuição normal. Por definição, se   forem k distribuições normais padronizadas (ou seja, média 0 e desvio padrão 1) independentes, então a soma de seus quadrados é uma distribuição qui-quadrado com k graus de liberdade:

 

a definição é que a soma de duas qui-quadrado independentes também é uma qui-quadrado:

 

Exemplo[carece de fontes?] editar

Podemos aplicar o teste de χ2 para analisar quão boa é a concordância entre um conjunto de medidas   e a relação esperada  .[2] Por exemplo, suponhamos que desejamos testar a hipótese de que a trajetória do lançamento de um projétil é uma parábola. O projétil sairá de uma altura de  , com uma velocidade inicial horizontal de   e num local onde a gravidade vale  . Esperamos, portanto, que a altura do projétil em função da sua distância em relação ao ponto de partida seja:

 

Para testar a hipótese, fazemos 10 medidas de x e de y em tempos específicos. A tabela abaixo mostra os valores encontrados.

ii,yi)
1(50,98)
2(80,95)
3(110,92)
4(140,90)
5(170,85)
6(200,80)
7(230,72)
8(260,62)
9(290,53)
10(320,40)

Para os valores encontrados, a incerteza na medida de x é desprezível e a de y é  . Como não calculamos nenhum parâmetro a partir dos valores medidos, o número de graus de liberdade é o mesmo do número de medidas, 10. Com estes valores, podemos calcular o valor de χ2:

 

ou, ainda:

 

De posse do valor "normalizado" de  , podemos usar uma tabela para descobrir a probabilidade de se obter este valor ou mais, e assim saber com quanta certeza podemos dizer que os valores encontradas realmente estão distribuídos como esperado. Neste caso, para 10 graus de liberdade:

 

O que descobrimos foi que a probabilidade de que as medidas obtidas realmente estejam sendo governadas pela lei prevista é de apenas 2,9%, ou seja, deveríamos rejeitar esta hipótese. Isto é, temos apenas 2,9% de certeza que a trajetória do projétil foi realmente uma parábola e que os grandes desvios observados foram apenas flutuações estatísticas.

Poderíamos ter avaliado a concordância experimental com a teórica fazendo os gráficos e comparando-os "à olho". Teríamos visto que o projétil caiu bem antes do que o previsto, sugerindo que estejamos esquecendo fatores de resistência do ar (no modelo previsto, consideramos apenas a força da gravidade, e ignoramos qualquer atrito que pudesse haver entre ar e projétil, que de fato existe, principalmente para velocidades grandes como 100 m/s).

Distribuições relacionadas editar

  • Se U for uma distribuição uniforme no intervalo (0,1), então -2 log U é uma distribuição qui-quadrado com 2 graus de liberdade.

Nomenclatura editar

O símbolo χ2, a segunda potência de χ (ou  ), envolve a forma minúscula de letra do alfabeto grego chamada qui[3] (também chamada, menos frequentemente, chi em português[4]). Devido a semelhança da letra grega com a letra xis x do alfabeto latino é comum a ocorrência de confusões, motivo pelo qual alguns autores optam por utilizar o nome da letra por extenso, em expressões como qui-quadrado. Essa é a forma recomendada pelo Glossário Inglês-Português de Estatística da Sociedade Portuguesa de Estatística e da Associação Brasileira de Estatística.[5]

Referências

  1. M.A. Sanders. «Characteristic function of the central chi-squared distribution» (PDF). Consultado em 6 de março de 2009. Arquivado do original (PDF) em 15 de julho de 2011 
  2. a b c d TAYLOR, John R., “An Introduction to Error Analysis: The Study of Uncertainties in Physical Measurements”, 1997, 2.ed.
  3. «Qui». Dicionário Priberam da Língua Portuguesa. Priberam Informática 
  4. Pedro Mateus (25 de novembro de 2010). «Sobre o nome e grafia da letra qui (alfabeto grego)». Ciberdúvidas da Língua Portuguesa. Consultado em 15 de março de 2014 
  5. [1]