Usuário:Gildemar Felix/Testes/Amplitude interquartil

A amplitude interquartil (AIQ) foi desenvolvida para avaliar o grau de espalhamento, sendo ele a dispersão de dados em torno da medida de centralidade. Na estatística para entender o comportamento dos dados discretos e contínuos de uma forma mais fina, busca-se o estudo sobre a dispersão de dados através de ferramentas que complementam uma análise geral como desvio padrão e a variância.[1]

A amplitude interquartil particiona uma distribuição de probabilidade através de ferramentas as quais são chamadas de quantil, este define um dos coletivos que trata sobre medidas. Quantil está ligado ao coletivo de primeiro quartil (inferior), quartil intermediário, terceiro quartil (superior) e a amplitude interquartil. Embora o quantil pode ser utilizado para variáveis discretas e contínuas, ele é melhor visualizado nas variáveis contínuas. [1] Isto é, em uma amostra de dados, a diferença entre o quartil superior e o inferior determina a amplitude interquartil.[1]

A necessidade de desenvolver uma ferramenta para avaliar a dispersão de dados está ligada quando uma medida central não é suficiente para, na totalidade, caracterizar uma sequência numérica, dessa forma a amplitude interquartil e outras medidas que particionam dados amostrais foram estudadas e desenvolvidas [2]

História editar

 
Retrato de Karl Pearson

Os termos quartil inferior e quartil superior foram cunhados por Sir Donald MacAlister em 1879 com a publicação de The Law of the Geometric Mean.[3]

Os termos amplitude interdecil e amplitude interquartil foram cunhados por Francis Galton em 1882 com a publicação de Report of the Anthropometric Committee, embora a ideia de amplitude interquartil tenha aparecido anteriormente nos trabalhos de Carl Friedrich Gauss e Adolphe Quételet. Galton organizou as observações em ordem crescente de magnitude e tomou as frações necessárias de cada extremidade, utilizando a interpolação para obter os pontos de cortes exatos.[4]

Embora Galton tenha reconhecido a maior estabilidade dos quantis mais centrais, seus intervalos interquartis eram estatísticas descritivas. Baseando–se nas fórmulas para covariância e covariância para quantis de amostras, Karl Pearson apontou que enquanto a amplitude semi-iquartílica   tem a vantagem de estimar diretamente o erro provável outros pares de quantis de amostras simetricamente espaçados podem fornecer estimadores mais eficientes da variabilidade no caso normal.[5]

Definição formal editar

A partir dos números reais   os quais particionam em igual quantidade os dados amostrais e de forma ordenada, pode-se encontrar a amplitude interquartil quando se calcula previamente os quartis. Portanto, ao considerar um coletivo de dados e identificar a quantidade absoluta   pode-se determinar as partições dos dados ordenados para os quartis. Ou seja,

 [6]

 [6]

 [6]

Onde,

  é o número de elementos.

  e   são os quartis.[7] Para  , é possível usar o cálculo da mediana o qual devine a metade dos dados (50% dos dados).

Quando determinado os quartis será possível construir a amplitude interquartil (AIQ). Ou seja,

 [8]

Na coleta de dados pode ocorrer erros de arrendamentos ou de observação e esses dados são considerados discrepantes dentro de uma mesma amostra e podem levar a erros nas análises sobre a distribuição dos dados. Portanto, estabelece-se o critério de limite inferior e superior nos quartis. E, os dados os quais estiverem além dos limites são considerados discrepantes e identifica-los obtém-se uma orientação mais precisa. Então,

 

 

Onde,   e   são respectivamente os limites inferior e superior. [9]Enquanto   é uma constante a qual pertence aos números reais  e pode assumir qualquer valor. No entanto, usualmente na literatura utiliza-se o valor  , pois o valor de   consegue para mais e para menos além dos limites superior e inferior captar mais de 99% dos dados embaixo de uma curva normal, mas não capta os 100% dos dados. Portanto, seguramente a definição pode ser utilizada para o cálculo dos limites superior e inferior como: [10]

 

 

Definição informal editar

 
Boxplot (with an interquartile range) and a probability density function (pdf) of a Normal Predefinição:Maths Population

Na estatística descritiva, o intervalo interquartil e no inglês Interquartile Range (IQR), também denominado média espalhada ou média de 50%, ou tecnicamente propagação de H, é uma medida de dispersão estatística, sendo igual à diferença entre os percentis 75 e 25, ou entre quartis superior e inferior, ou seja IQR = Q3 - Q1.[11][12] Em outras palavras, o intervalo interquartil (IQR) é o 1º quartil subtraído do 3º quartil. Esses quartis podem ser claramente vistos em um gráfico de barras nos dados. É um estimador aparado de fingindo o seu intervalo de 25%, e é a medida robusta básica mais significativa da escala.

O intervalo interquartil (IQR) é uma medida de variabilidade, baseada na divisão de um conjunto de dados em quartis. Os quartis dividem um conjunto de dados classificados em quatro partes iguais. Os valores que separam partes são chamados de primeiro, segundo e terceiro quartis os quais são indicados por Q1, Q2 e Q3, respectivamente.[13]

Diferentemente do intervalo total, o intervalo interquartil tem um ponto de ruptura de 25%, portanto, frequentemente preferida ao intervalo total.[14] O intervalo interquartil (IQR) é usado para construir gráficos de barras, representações gráficas simples de uma distribuição de probabilidade. Para uma distribuição simétrica (onde a mediana é igual ao midhinge, a média do primeiro e terceiro quartis), metade do IQR é igual ao desvio absoluto mediano (MAD). A medida correspondente de tendência central é a mediana. Também o interval interquartil (IQR) pode ser usado para identificar outliers (veja abaixo). E, a partir da metade intervalo interquartil (IQR) é o desvio do quartil ou intervalo semi-interquartil.[15]


 
Visualização do histograma de uma amostra de uma distribuição simétrica, e seu boxplot em função do desvio padrão. O intervalo interquartil é a região limitada pelas retas verde (Q1) e amarela (Q3); a reta vermelha representa a mediana do conjunto de dados. Abaixo do histograma está o boxplot da amostra; os x's magentas representam os valores aberrantes (outliers)
 
Visualização do histograma de uma amostra de uma distribuição assimétrica, e seu boxplot em função do desvio padrão. O intervalo interquartil é a região limitada pelas retas verde (Q1) e amarela (Q3); a reta vermelha representa a mediana do conjunto de dados. Abaixo do histograma está o boxplot da amostra; os x's magentas representam os valores aberrantes (outliers)

Amplitude semi-interquartílica editar

As medidas de tendências centrais realizam uma síntese dos dados para oferecer uma leitura rápida e a partir dos conceitos de média pode-se observar na amplitude interquartil uma medida central a qual chama-se Amplitude Semi-interquartílica ou Desvio Quartílico. Define-se uma amplitude semi-interquatílica   como:

 [16]

A amplitude interquartil, além de avaliar uma dispersão de dados, oferece uma medida de 50% dos dados. Ou seja, obter uma medida que marca a centralidade de 50% dos dados favorece uma nova leitura e comparações com as demais medidas centrais: moda, mediana e média.[17]

Box plot editar

Os dados da amplitude interquartil são úteis para a construção de um diagrama chamado de box plot. Isto é, os valores de   e   favorecem o desenvolvimento da figura abaixo.[18]

 

Na estatística, usualmente não há uma regra para a largura da caixa em azul. No entanto, com bom senso, se constrói uma caixa de largura adequada ao diagrama o qual, geralmente, é realizado na horizontal para facilitar a visualização, mas pode ser construído em qualquer direção. Com o auxílio de uma escala se marca a posição de   e  , os dados que estão além dos limites superior e inferior são marcados como pontos ou asterisco, como na figura acima. [19]

Os pontos vermelhos os quais na figura acima são chamados na estatística de outlier, evidenciam algum erro de observação ou de arredondamento de dados. No entanto, não é sempre que os pontos além dos limites superiores e inferiores são outliers. Existem casos que os dados outliers quando não são erros de observações ou arredondamentos são tratados como pontos exteriores ou discrepantes. Um exemplo sobre isso são os 15 municípios brasileiros mais populosos os quais ordenados levam os municípios São Paulo e Rio de Janeiro como pontos exteriores os quais necessariamente não são erros de observações ou arredondamento. [20]

Exemplos editar

Exemplo com o uso de mediana editar

Na seguinte série numérica  a mediana é o número 10, pois ele é o número que está exatamente no meio da sequência de números apresentados. Em uma sequência com quantidade impar de números, a mediana sempre será o número que está no meio da sequência, independente de valor numérico.[21]

Em uma sequência com quantidade par de números, a mediana é a soma dos dois valores centrais dividido por 2, exemplo:  , mediana  

Amplitude interquartil é a diferença entre a mediana da segunda parte e a mediana da primeira parte.

Para a série:  

Primeira parte: mediana da primeira parte é calculada como  

Segunda parte:  mediana da segunda parte é calculada como  

Dessa forma, a amplitude interquartil é igual a  

A partir de um conjunto de dados de uma tabela, como esta abaixo,

 

Pode-se observar os dados e a variação interquartil é  [22]

Para o calculo da amplitude semi-interquartílica temos  [16]

Exemplo sobre o cuidado com a medida central editar

As medidas centrais oferecem um resumo de dados amostrais, mas não são suficientes para caracterizar uma avaliação sobre uma sequência numérica. No exemplo a seguir, expõe-se um contra-exemplo de como uma medida central não é suficiente. Ao considerar  ,   e  , como:[23]

 

 

 

Nos casos apresentados, todas as sequências possuem a média 11, mas visualmente são sequências entre si diferentes e a variabilidade de dados em   não existe, mas a variabilidade de   é maior do que  . No entanto, os dados de   se mostram mais distantes entre si do que os dados de   e isso pode induzir ao erro de admitir que os dados de   sejam mais dispersos. Por isso, o cálculo sobre os quartis e limites superior e inferior ajudam a evitar erros nas conlusões das análises.[23]

  

Para evidenciar a sequência númerica com maior variabilidade, uma comparação de distribuição de dados através da amplitude interquartil pode ser realizada. Após ordenar os dados tem-se para  ,   e  . Para  ,   e  . Logo,

Para  ,  [8]

Para  ,  [8]

Dessa forma a dispersão de   é maior do que  , logo  . A amplitude interquartil não é suficiente para justificar o fato de   possuir os dados entre si mais distantes do que  . Para identificar a modelagem dos dados de   e   os cálculos de limite superior e inferior são utilizados. Ou seja,

para  ,[9]

 

 

para  ,[9]

 

 

Dessa forma, apenas   possui dados discrepantes, reafirmando  .

 
Boxplot dos conjuntos de dados A e B. O retângulo azul representa o intervalo interquartil, a linha vermelha a mediana, as hastes pretas representam os limites inferior e superior de cada conjunto e os asteriscos em rosa são os dados discrepantes.

A sínstese sobre a amplitude interquatil é obtida pelo cálculo da amplitude semi-interquartílica e então,

para  ,

 [16]

para  ,

 [16]

As conclusões para uma análise de dados amostrais são, as sequências   não possui dispersão,   se dispersa menos que a   e vice-versa. 50% dos dados amostrais estão entre   e   e portanto a medida central de 50% dos dados, nesse exemplo, para  , é   e para  ,  . A amplitude interquartílica demonstra a dispersão dos dados em torno da média de 50% dos dados. Ou seja, 50% dos dados amostrais estão no intervalo de, para  :   e  :  .[24]

Distribuição do intervalo interquartil editar

O intervalo interquartil de uma distribuição contínua e pode ser calculado integrando a função de densidade de probabilidade (que produz a função de distribuição cumulativa (FDC) o qual por outro método de calcular, também funcionará). O quartil inferior, Q1, é um número tal que a integral da função de distribuição cumulativa de -∞ a Q1 é igual a 0,25, enquanto que o quartil superior, Q3, é tal que a integral de -∞ a Q3 é igual a 0,75; Em termos da função de distribuição cumulativa, os quartis podem ser definidos da seguinte forma:

 
 

Onde a função de distribuição cumulativa (FDC)−1 is the quantile function.

O intervalo interquartil e a mediana de algumas distribuições comuns são mostradas a seguir.

Distribution Median IQR
Normal μ 2 Φ−1(0.75)σ ≈ 1.349σ ≈ (27/20)σ
Laplace μ 2b ln(2) ≈ 1.386b
Cauchy μ

Teste do intervalo interquartil para normalizar a distribuição editar

O intervalo interquartil, média e o desvio padrão de uma população P pode ser usado em um teste simples onde se quer ou não que P é uma normally distributed|distribuição normal. Se P é normalmente distribuído, então o desvio padrão do primeiro quartil, z1 é -0.67 e a desvio padrão do terceiro quartil, z3, é +0.67. Dado 'mean = X e 'standard deviation = σ para P e se P é uma distribuição normal, o primeiro quartil

 

e o terceiro quartil

 

Se os valores reais do primeiro ou terceiro quartil diferirem substancialmente [necessário esclarecer] dos valores calculados, P não é uma distribuição normal. No entanto, uma distribuição normal pode ser trivialmente perturbada para manter o seu Q1 e Q2. Pontuação em 0,67 e -0,67 e não ser distribuído normalmente (de modo que o teste acima produzia um falso positivo). Um melhor teste de normalidade, como o gráfico Q-Q seria indicado aqui.

Outras medidas de dispersão editar

Desvio padrão

 Ver artigo principal: Desvio padrão

Em probabilidade, o desvio padrão ou desvio padrão populacional (comumente representado pela letra grega  ) é uma medida de dispersão em torno da média populacional de uma variável aleatória. Já em estatística, o desvio padrão ou desvio padrão amostral (comumente representado pela letra latina  ) é uma medida de dispersão dos dados em torno de média amostral. Um baixo desvio padrão indica que os pontos dos dados tendem a estar próximos da média ou do valor esperado.[25] Um alto desvio padrão indica que os pontos dos dados estão espalhados por uma ampla gama de valores. O desvio padrão populacional ou amostral é a raiz quadrada da variância populacional ou amostral correspondente, de modo a ser uma medida de dispersão que seja um número não negativo e que use a mesma unidade de medida dos dados fornecidos.[26][27][28]

Variância

 Ver artigo principal: Variância

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória ou processo estocástico é uma medida da sua dispersão estatística a qual indica "o quão longe" em geral os seus valores se encontram do valor esperado.[29]

Outras amplitudes editar

Amplitude do intervalo de classe editar

A amplitude do intervalo de classe é dada pela diferença entre o limite superior e inferior da mesma classe. Essa análise permite verificar se em uma distribuição de frequências as classes possuem a mesma amplitude para uma análise de valores equivalentes e evitar erros nos cálculos de quartis os quais se possuem erros, poderá gerar um grande desvio de interpretação.[30]

 

Amplitude do intervalo de confiança editar

A amplitude do intervalo de confiança é definida pela diferença entre os extremos superiores e inferiores do próprio intervalo. Ou seja,

 [31]

Esse intervalo depende da confiança  , do desvio padrão   e do tamanho da amostra  . Também é comum na estatística a semi-amplitude, como erro envolvido na estimação. Ou seja,

 [31]

Ligações externas editar

  Este artigo sobre matemática é um esboço. Você pode ajudar a Wikipédia expandindo-o.
  1. a b c Pinheiro, João Ismael D.; Carvajal, Santiago R. Ramírez; Cunha, Sonia Baptista da; Gomes, Gastão Coelho (2012). Probabilidade e Estatística. São Paulo: CAMPUS. p. 90 
  2. Silva, Ermes Medeiros da; Silva, Elio Medeiros da; Gonçalves, Valter; Murolo, Afrânio Carlos (1999). Estatística. São Paulo: Atlas. 46 páginas 
  3. «Statistics How To». Consultado em 16 de fevereiro de 2017 
  4. Striteska, H. (2006). «The History of Robust Estimation at the Turn of the 19th and 20th Century» (PDF). Proceedings of Contributed Papers: 27 – 30 
  5. David, H. A. (1998). «Early Sample Measures of Variability». Statistical Science. 13 (4): 368 – 377 
  6. a b c Pinheiro, João Ismael D.; Carvajal, Santiago S. Ramírez; Cunha, Sonia Baptista da; Gomes, Gastão Coelho (2012). Probabilidade e Estatística. São Paulo: CAMPUS. 247 páginas 
  7. Silva, Ermes Medeiros da; Silva, Elio Medeiros da; Gonçalves, Valter; Murolo, Afrânio Carlos (1999). Estatística. São Paulo: Atlas. 89 páginas 
  8. a b c Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 6. Consultado em 7 de fevereiro de 2017 
  9. a b c Lauretto, Marcelo de Souza. «Estatística descritiva básica: Medidas de dispersão» (PDF). Escola de Artes, Ciência e Humanidades - USP. p. 9. Consultado em 7 de fevereiro de 2017 
  10. Bussab, Wilton de O.; Morettin, Wilton de O. (2012). Estatística Básica. São Paulo: Saraiva. 50 páginas 
  11. Upton, Graham; Cook, Ian (1996). Statistics. United Kingdom: Oxford University Press. 55 páginas. ISBN 0-19-914391-9 
  12. ZWILLINGER, DANIEL; KOKOSKA, STEPHEN (2000). CRC Standard Probability and Statistics Tables and Formulae. Washington, D.C: CHAPMAN & HALL/CRC. 18 páginas. ISBN 1-58488-059-7 
  13. Bussab, Wilton de O.; Morettin, Pedro A. (2004). Estatística Básica. São Paulo: Saraiva. 42 páginas. ISBN 85-02-03497-9 
  14. Rousseeuw, Peter J. (1992). «Explicit Scale Estimators with High Breakdown Point» (PDF). North-Holland. pp. 77 – 92. Consultado em 17 de janeiro de 2017 
  15. Yule, G. Udny (1911). An Introduction to the Theory of Statistics. [S.l.]: Charles Griffin and Company. pp. 147 – 148 
  16. a b c d Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 115 páginas 
  17. Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 116 páginas 
  18. Bussab, Wilton de O.; Morettin, Pedro A. (2012). Estatística Básica. São Paulo: Saraiva. 48 páginas 
  19. Farias, Ana Maria Lima de. «O BOXPLOT» (PDF). UNIVERSIDADE FEDERAL FLUMINENSE. 1 páginas. Consultado em 8 de fevereiro de 2017 
  20. Bussab, Wilton de O.; Morettin, Pedro A. (2012). Estatística Básica. São Paulo: Saraiva. 49 páginas 
  21. Morettin, Pedro A.; Bussab, Wilton de O. Bussab (2004). Estatística Básica. São Paulo: Saraiva. 45 páginas. ISBN 85-02-03497-9 
  22. Magalhães, Marcos Nascimento; Lima, Antonio Carlos Pedroso (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 31 páginas 
  23. a b SIlva, Ermes Medeiros da (1999). Estatística. São Paulo: Atlas. 100 páginas 
  24. Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 116 páginas 
  25. Bland, J. Martin; Altman, Douglas G. «Measurement Error» (PDF). BMJ. Consultado em 23 de janeiro de 2017 
  26. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 25 páginas 
  27. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques,. Paris: Éditions Technip. p. 622. 119 páginas 
  28. Saporta, Gilbert (2006). Probabilités – Analyse des Données et Statistiques. Paris: Éditions Technip. p. 622. 121 páginas 
  29. RUNGER, George C.; MONTGOMERY, Douglas C. Applied Statistics and Probability for Engineers. 3rd ed. Mídia em CD: 2002.
  30. Spiegel, Murray R. (2006). Estatística. São Paulo: Pearson. 41 páginas 
  31. a b Magalhães, Marcos Nascimento (2007). Noções de Probabilidade e Estatística. São Paulo: EdUSP. 230 páginas