Em estatística descritiva, diagrama de caixa, ou boxplot, box plot, é um gráfico no qual o:[1]

  • eixo vertical representa a variável a ser analisada;
  • eixo horizontal um fator de interesse.
Diagrama de caixa

O diagrama de caixa é uma ferramenta para localizar e analisar a variação de uma variável dentre diferentes grupos de dados.

O diagrama de caixa procura obter as seguintes informações:

  • Calcular a mediana e os quartis ( o quartil inferior contém 25% ( 1/4) das menores medidas e o quartil superior contém 75 ( 3/4) de todas as medidas);
  • Plotar um símbolo onde se localiza a mediana e uma caixa, daí o nome de diagrama de caixas, onde a base representa o quartil inferior ( 25% ou 1/4) dos menores valores), e o topo da caixa o quartil superior (75% ou 3/4) dos valores observados. A caixa portanto representa 50% de todos os os valores observados ,concentrados na tendência central dos valores, eliminando os 25% menores valores e 25% maiores valores ( 75% - 25% = 50%);
  • Um segmento de reta vertical conecta o topo da caixa ao maior valor observado e outro segmento conecta a base da caixa ao menor valor observado, este segmento denomina-se Whisker, ou fio de bigode.

Em resumo, o diagrama de caixa identifica onde estão localizados 50% dos valores mais prováveis, a mediana e os valores extremos.

Mediana editar

Após a ordenação dos valores a Mediana é o valor que divide a metade inferior da metade superior da amostra.
Exemplo: Do conjunto {-2,1,2,3,4,5,6}, o quarto elemento {3} divide o subjconjunto dos maiores valores dos menores.
Caso o número de valores seja para, a mediana será a média aritmética simples entre os dois valores centrais,

Exemplo: Do conjunto {1,1,2,3,4,5,5,6} , os valores centrais são {3} e {4} , logo a mediana é (3+4)/2), ou {3,5}

O Diagrama de Caixa é método robusto de estatística pois é menos influenciado pelos valores atípicos ou outliers.[2]
Exemplo: Do conjunto {1,1,2,3,4,5,10}, o último elemento {10} é um valor atípico, ou outlier, porém a mediana não é alterada, {3}.

Quartis e Região Interquartis editar

Para calcular a altura da caixa é necessário antes estimar o quartil inferior, onde estão localizados 1/4, ou 25%, dos menores valores, e o quartil superior, onde estão localizados 3/4 ou 75% dos menores valores.
O quartil inferior é a mediana do conjunto que representa 50% dos menores valores,

Exemplo: Do conjunto {-2,1,2,3,4,5,6}

O quartil inferior é o segundo elemento, {1} e o quartil superior é o sexto elemento {5}.
A distância interquartil, ou a altura da caixa é : altura = 5-1 = 4.

Estimativa do Whisker ou fio de bigode editar

Tanto a altura da caixa como o tamanho do Whisker fornecem informações sobre a dispersão dos dados. Para estimativa do valor mínimo do whisker, toma-se o maior valor entre

 
Diagrama de Caixa, indicando a mediana, os quartis e os whiskers.

(a) o menor valor das medidas.
(b) o valor quartil inferior -1.5 x altura da caixa.

Exemplo: Do conjunto {-2,1,2,3,4,5,6}.

(a)menor valor = -2.
(b)quartil inferior igual a 1 e 1,5 x altura = 1,5*4 = 6, logo a estimativa será de 1-6 = -5
Entre os valores {-2} e {-5}, o maior valor é {-2}, logo este será o whisker inferior. Para a estimativa do valor máximo do whisker, toma-se o menor valor entre
(a) o maior valor das medidas
(b) o valor do quartil superior mais 1,5 x altura

Exemplo , do mesmo conjunto,

(a) maior valor = 6. (b) quartil superior igual a 5 e 1,5 x altura = 6, logo a estimativa é : 11.
Entre os valores {6} e {11}, o menor valor é igual a 6, logo o whisker superior é 6.

Outliers ou valores atípicos editar

 
Diagrama de caixa é uma ferramenta útil para detectar outliers. Fora da faixa de valores delimitadas por whiskers, o valor atípico, outlier, é identificado

Diagrama de caixa é uma ferramenta para detecção de outiliers, ou dados muito diferente do conjunto capaz de levar o pesquisador a cogitar em sua eliminação.

Exemplo: Do conjunto {-1,0,1,2,3,4,5,6,12}.

O último elemento {12}, parece ser um valor muito diferente dos demais valores. O gráfico ao lado mostra como identificar um outlier. A identificação de outliers é o primeiro passo utilizado em análise de dados multivariados.

Comparando diferentes conjuntos editar

Com Diagrama de Caixa é possível visualizar se em conjuntos de dados existe ou não equivalência. Os mesmos exemplos mostrados no gráfico 1, mostram que de fato não se trata de um único conjunto, porém de dois sistemas distintos. A evidência fica em realce caso os dados experimentais sejam plotados , em dot plot ou gráficos de pontos, em conjunto com os diagramas de caixa.

 
Diagramas de caixa podem identificar diferenças entre grupos. Dados de dois grupos distintos foram mesclados e os diagramas de caixas dos 3 conjuntos mostram como os dados pertencem a grupos distintos.


Referências

  1. / National Institute of Standards and Technology "1.3.3.7 Box Plot ", e-book web
  2. BRAGA, L. P. V. Compreendendo Probabilidade e Estatística, pg. 98. E-PAPERS, ISBN 9788576502821.


Categoria:Estatística