Parâmetro estatístico

Em estatística, um parâmetro é um número que resume a grande quantidade de dados que podem derivar do estudo de uma variável estatística.[1] O cálculo deste número está bem definido, usualmente mediante uma fórmula aritmética obtida a partir de dados da população.[2][3]

A média aritmética como resumo da velhice de um país.

Os parâmetros estatísticos são uma consequência inevitável do propósito essencial da estatística: criar um modelo da realidade.[4]

O estudo de uma grande quantidade de dados individuais de uma população pode ser farragoso e inoperativo, pelo que se faz necessário realizar um resumo que permita ter uma ideia global da população, a comparar com outras, comprovar seu ajuste a um modelo ideal, realizar estimativas sobre dados desconhecidos da mesma e, em definitiva, tomar decisões. A estas tarefas contribuem de modo essencial os parâmetros estatísticos.

Por exemplo, costuma oferecer-se como resumo da juventude de uma população a média aritmética das idades de seus membros, isto é, a soma de todas elas, dividida pelo total de indivíduos que compõem tal população.

Enfoque descritivoEditar

 
Gráficas de distribuições normais para diferentes valores de seus dois parâmetros.

Um parâmetro estatístico é uma medida populacional. Este enfoque é o tradicional da estatística descritiva.[5][6][7] Neste sentido, sua acepção aproxima-se à de medida ou valor que se compara com outros, tomando uma unidade de uma determinada magnitude como referência.

Por sua vez, a facção mais formal da estatística, a estatística matemática e também a inferência estatística utilizam o conceito de parâmetro em seu acepción matemática mais pura, isto é, como variável que define uma família de objetos matemáticos em determinados modelos. Assim se fala, por exemplo, de uma distribuição normal de parâmetros μ e σ como de uma determinada família de distribuições com uma distribuição de probabilidade de expressão conhecida, na que tais parâmetros definem aspectos concretos como a esperança, a varianza, a curtosis, etc. Outro exemplo comum neste sentido é o da distribuição de Poisson, determinada por um parâmetro, λ; ou a distribuição binomial, determinada por dois parâmetros, n e p. Desde o ponto de vista da estatística matemática, o facto de que estas distribuições descrevam situações reais e os citados parâmetros signifiquem um resumo de determinado conjunto de dados é indiferente.

Propriedades desejáveis num parâmetroEditar

Segundo Yule[8] um parâmetro estatístico é desejável que tenha as seguintes propriedades:

  • Define-se de maneira objectiva, isto é, é possível calculá-lo sem ambigüedades, geralmente mediante uma fórmula matemática. Por exemplo, a média aritmética define-se como a soma de todos os dados, dividida pelo número de dados. Não há ambigüedad: se realiza-se esse cálculo, obtém-se a média; se realiza-se outro cálculo, obtém-se outra coisa. No entanto, a definição de moda como o "valor mais frequente", pode dar lugar a confusão quando a maior frequência a apresentam vários valores diferentes.
  • Não desperdicia, a priori, nenhuma das observações. Com carácter geral, um parâmetro será mais representativo de uma determinada população, quantos mais valores da variável estejam implicados em seu cálculo. Por exemplo, para medir a dispersão pode calcular-se o percurso, que só usa dois valores do variável objeto de estudo, os extremos; ou o desvio típico, em cujo cálculo intervêm todos os dados do eventual estudo.
  • É interpretable, significa algo. A média, por exemplo, deixa por embaixo de seu valor à metade dos dados, está justo no meio de todos eles quando estão ordenados. Esta é uma interpretação clara de seu significado.
  • É singelo de calcular e presta-se com facilidade a manipulações algébricas. Ver-se-á mais abaixo que uma medida da dispersão é o desvio médio. No entanto, ao estar definida mediante um valor absoluto, função definida a trozos e não derivable, não é útil para grande parte dos cálculos nos que estivesse implicada, ainda que sua interpretação seja muito clara.
  • É pouco sensível às flutuações muestrales. Se pequenas variações numa mostra de dados estatísticos influem em grande parte num determinado parâmetro, é porque tal parâmetro não representa com confiabilidade à população. Por conseguinte é desejável que o valor de um parâmetro com esta propriedade se mantenha estável ante as pequenas oscilações que com frequência podem apresentar as diferentes mostras estatísticas. Esta propriedade é mais interessante no caso da estimativa de parâmetros. Por outra parte, os parâmetros que não variam com as mudanças de origem e escala ou cuja variação está controlada algebraicamente, são apropriados em determinadas circunstâncias como a tipificación.

Principais parâmetrosEditar

Habitualmente agrupam-se os parâmetros nas seguintes categorias:

Medidas de posição.[9]

Trata-se de valores da variável estatística que se caracterizam pela posição que ocupam dentro da faixa de valores possíveis desta. Entre eles se distinguem:

Medidas de dispersão.[10]

Resumem a heterogeneidade dos dados, o separados que estes estão entre si. Há dois tipos, basicamente:

  • Medidas de dispersão absolutas, que vêm dadas nas mesmas unidades nas que se mede a variável: percursos, desvios médios, varianza, e desvio típico.
  • Medidas de dispersão relativa, que informam da dispersão em termos relativos, como uma percentagem. Incluem-se entre estas o coeficiente de variação, o coeficiente de abertura, os percursos relativos e o índice de desvio respeito da média.
Medidas de forma.[11]

Seu valor informa sobre o aspecto que tem a gráfica da distribuição. Entre elas estão os coeficientes de assimetria e os de curtosis.

Outros parâmetros.

Ademais, e com propósitos mais específicos, existem outros parâmetros de uso em situações muito concretas, como são as proporções, os números índice, as taxas e o coeficiente de Gini.

Medidas de tendência central ou centralizaçãoEditar

São valores que costumam situar cerca do centro da distribuição de dados. Os mais destacados são as médias ou médias (incluindo a média aritmética, a média geométrica e a média harmônica), a média e a moda.

Média aritmética ou médiaEditar

 
A estatura média como resumo de uma população homogênea (abaixo) ou heterogénea (acima).

A média muestral ou média aritmética é, provavelmente, um dos parâmetros estatísticos mais estendidos.[12] Suas propriedades são:[13]

  • Seu cálculo é muito singelo e nele intervêm todos os dados.
  • Interpreta-se como "ponto de equilíbrio" ou "centro de massas" do conjunto de dados, já que tem a propriedade de equilibrar os desvios dos dados respeito de seu próprio valor:

Falhou a verificação gramatical (erro de sintaxe): {\displaystyle '"`UNIQ--math-00000027-QINU`"'}

  • Minmiza os desvios quadráticos dos dados respeito de qualquer valor prefixado, isto é, o valor de i =
                                 
               
                                                               (
             
                                                   i                
             
                            k                 )
               
                                                                         n     { {\frac {\sum _{i=1}^{n}(_{i}-)^{2}}{n}}}  é mínimo quando          k         =             x
                                             {\displaystyle k={\overline {x}}} . Este resultado conhece-se como Teorema de König. Esta propriedade permite interpretar um dos parâmetros de dispersão mais importantes: a varianza.
x i ′ = a
                                       +         b     {\dsplystyle _{}'=a_{i}}  então                               
           
             
                                       ¯         =
                          
           
                                       +
                       {\displaystyle {\overline {x'}}=a{\overline {x}}+b} , onde                x
             
           
                                             { {\overline {x'}}}  é a média aritmética dos            x             i
         
                                 {\displaystyle x_{i}'} , para i = 1, ..., n e a e b números reais.

Este parâmetro, ainda tendo múltiplas propriedades que aconselham seu uso em situações muito diversas, tem também alguns inconvenientes, como são:

  • Para dados agrupados em intervalos (variáveis contínuas), seu valor oscila em função da quantidade e amplitude dos intervalos que se considerem.
  • É uma medida a cujo significado afecta sobremaneira a dispersão, de modo que quanto menos homogêneos são os dados, menos informação proporciona. Dito de outro modo, populações muito diferentes em sua composição podem ter a mesma média.[14] Por exemplo, uma equipa de basquete com cinco jogadores de igual estatura, 1,95, ponhamos por caso, teria uma estatura média de 1,95, evidentemente, valor que representa fielmente a esta homogênea população. No entanto, uma equipa de estaturas mais heterogéneas, 2,20, 2,15, 1,95, 1,75 e 1,70, por exemplo, teria também, como pode se comprovar, uma estatura média de 1,95, valor que não representa a quase nenhum de seus componentes.
  • É muito sensível aos valores extremos da variável. Por exemplo, no cálculo do salário medeio de uma empresa, o salário de um alto director que ganhe 1.000.000 de € tem tanto peso como o de mil empregados "normais" que ganhem 1.000 €, sendo a média de aproximadamente 2.000 .

ModaEditar

A moda é o dado mais repetido, o valor da variável com maior frequência absoluta.[15] Em verdadeiro sentido corresponde-se sua definição matemática com a locução "estar de moda", isto é, ser o que mais se leva.

Seu cálculo é extremamente singelo, pois só precisa de uma contagem. Em variáveis contínuas, expressadas em intervalos, existe o denominado intervalo modal ou, em seu defeito, se é necessário obter um valor concreto da variável, recorre-se à interpolação.

Suas principais propriedades são:

  • Cálculo singelo.
  • Interpretação muito clara.
  • Ao depender só das frequências, pode se calcular para variáveis qualitativas. É por isso o parâmetro mais utilizado quando ao resumir uma população não é possível realizar outros cálculos, por exemplo, quando se listam em meios jornalísticos as características mais frequentes de determinado sector social. Isto se conhece informalmente como "retrato robô".[16]

Inconvenientes:

  • Seu valor é independente da maior parte dos dados, o que a faz muito sensível a variações muestrales. Por outra parte, em variáveis agrupadas em intervalos, seu valor depende excessivamente do número de intervalos e de sua amplitude.
  • Usa muito poucas observações, de tal modo que grandes variações nos dados fora da moda, não afectam em modo algum a seu valor.
  • Não sempre se situa para o centro da distribuição.
  • Pode ter mais de uma moda no caso em que dois ou mais valores da variável apresentem a mesma frequência (distribuições bimodales ou multimodales).

MédiaEditar

A média é um valor da variável que deixa por embaixo de si à metade dos dados, uma vez que estes estão ordenados de menor a maior.[17] Por exemplo, a média do número de filhos de um conjunto de treze famílias, cujos respectivos filhos são: 3, 4, 2, 3, 2, 1, 1, 2, 1, 1, 2, 1 e 1, é 2, já que, uma vez ordenados os dados: 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, o que ocupa a posição central é 2:

Em caso de um número par de dados, a média não corresponderia a nenhum valor da variável, pelo que se convém em tomar como média o valor intermediário entre os dois valores centrais. Por exemplo, no caso de doze dados como os anteriores:

Toma-se como média 1 , =

2

{\displaystyle 1,5={\frac {{\cor {Rede}1}+{\cor {Rede}2}}{2}}}

 
Neste exemplo baseado numa tabela real de percentiles usada em pediatría, pode comprovar-se que uma menina de 24 meses com um peso de 13 kg estaria no percentil 75º, isto é, seu peso é superior ao 75% das meninas de sua idade. A média corresponderia, aproximadamente, a 12 kg (interseção da linha curva mais escura com a linha horizontal correspondente ao valor 12 no eixo vertical, para essa mesma idade).

Existem métodos de cálculo mais rápidos para dados mais numerosos (veja-se o artigo principal dedicado a este parâmetro). Do mesmo modo, para valores agrupados em intervalos, acha-se o "intervalo médio" e, dentro deste, se obtém um valor concreto por interpolação.

Propriedades da média como parâmetro estatístico:[18]

  • É menos sensível que a média a oscilações dos valores da variável. Um erro de transcrição na série do exemplo anterior em, ponhamos por caso, o último número, deixa à média inalterada.
  • Como se comentou, pode se calcular para dados agrupados em intervalos, inclusive quando algum deles não está dimensionado.
  • Não se vê afectada pela dispersão. De facto, é mais representativa que a média aritmética quando a população é bastante heterogénea. Costuma dar-se esta circunstância quando se resume a informação sobre os salários de um país ou uma empresa. Há uns poucos salários muito altos que elevam a média aritmética fazendo que perca representatividade com respeito ao grosso da população. No entanto, alguém com o salário "médio" saberia que há tanta gente que ganha mais dinheiro que ele, como que ganha menos.

Seus principais inconvenientes são que no caso de dados agrupados em intervalos, seu valor varia em função da amplitude destes. Por outra parte, não se presta a cálculos algébricos tão bem como a média aritmética.

Medidas de posição não centralEditar

Directamente relacionados com a anterior, encontram-se as medidas de posição não central, também conhecidas como cuantiles. Trata-se de valores da variável estatística que deixam por embaixo de sim determinada quantidade dos dados. São, em definitiva, uma generalização do conceito da média. Enquanto esta deixa por embaixo de sim ao 50% da distribuição, os cuantiles podem o fazer com qualquer outra percentagem.[19] Denominam-se medidas de posição porque informam, precisamente, da posição que ocupa um valor dentro da distribuição de dados.

Tradicionalmente distingue-se entre cuartiles, se divide-se a quantidade de dados em quatro partes dantes de proceder ao cálculo dos valores que ocupam cada posição; deciles, se divide-se os dados em dez partes; ou percentiles, que dividem a população em cem partes.

Exemplos: se diz-se que uma pessoa, depois de um teste de inteligência, ocupa o percentil 75, isso supõe que o 75% da população tem um cociente intelectual com um valor inferior ao dessa pessoa. Este critério usa-se pelas associações de superdotados, que limitam seu conjunto de membros àquelas que atingem determinado percentil (igual ou superior a 98 na maioria dos casos).

O exemplo que se mostra na imagem da direita é o correspondente ao cálculo inverso, isto é, quando se deseja conhecer o percentil correspondente a um valor da variável, em lugar do valor que corresponde a um determinado percentil.

Outras medidas de posição central são a média geométrica e a média harmônica que, ainda que têm determinadas propriedades algébricas que poderiam as fazer úteis em determinadas circunstâncias, sua interpretação não é tão intuitiva como a dos parâmetros anteriores.[20]

Comentários sobre as medidas de posiçãoEditar

Este tipo de parâmetros não têm por que coincidir com um valor exacto da variável e, por tanto, também não podem se usar com carácter geral para fazer prognósticos. Por exemplo, se diz-se que a média aritmética dos filhos das famílias de um país é de 1,2, não é possível encontrar famílias com esse valor mais especificamente. Um segundo exemplo: a nenhuma fábrica de sapatos ocorrer-se-lhe-ia fabricar os seus com talhas unicamente correspondentes ao valor média, nem sequer têm por que ser estas talhas as mais fabricadas, pois em tal caso seria mais apropriado atender à moda da distribuição de talhas dos eventuais clientes.

A eleição de um ou outro parâmetro dependerá de #cada caso particular, dos valores da variável e dos propósitos do estudo. Seu uso indiscriminado pode ser deliberadamente tendencioso ou involuntariamente sesgado, convertendo-se, de facto, num abuso. Pode pensar-se, por exemplo, na seguinte situação: um empresário publica que o salário medeio em sua empresa é de 1.600 €. A este dado, que em determinadas circunstâncias poderia se considerar muito bom, poderia se chegar se a empresa tivesse quatro empregados com salários de 1.000 € mensais e o salário do chefe, incluído na média, fosse de 4.000 € ao mês:[21]

Com carácter geral e a modo de resumo poderia dizer-se que a média aritmética é um parâmetro representativo quando a população segue uma distribuição normal ou é bastante homogênea; em outras situações de forte dispersão, teria que decantarse pela média. A moda é o último recurso (e o único) quando de descrever variáveis qualitativas se trata.

Medidas de dispersãoEditar

 
Diagrama de caixa que mostra a dispersão graficamente, usando os cuartiles como referência. Entre Q1 e Q3 (faixa intercuartílico) encontram-se o 50% das observações.

As medidas de posição resumem a distribuição de dados, mas resultam insuficientes e simplificam excessivamente a informação. Estas medidas adquirem verdadeiro significado quando vão acompanhadas de outras que informem sobre a heterogeneidade dos dados. Os parâmetros de dispersão medem isso precisamente, geralmente, calculando em que medida os dados se agrupam em torno de um valor central. Indicam, de um modo bem definido, o homogêneos que estes dados são. Há medidas de dispersão absolutas, entre as quais se encontram a varianza, o desvio típico ou o desvio médio, ainda que também existem outras menos utilizadas como os percursos ou a meda; e medidas de dispersão relativas, como o coeficiente de variação, o coeficiente de abertura ou os percursos relativos. Em muitas ocasiões as medidas de dispersão oferecem-se acompanhando a um parâmetro de posição central para indicar em que medida os dados se agrupam em torno dele.[22]

Medidas de dispersão absolutasEditar

PercursosEditar

O percurso ou faixa de uma variável estatística é a diferença entre o maior e o menor valor que toma a mesma. É a medida de dispersão mais singela de calcular, ainda que é algo burda porque só toma em consideração um par de observações. Basta apenas que um destes dois dados varie pára que o parâmetro também o faça, ainda que o resto da distribuição segua sendo, essencialmente, a mesma.

Existem outros parâmetros dentro desta categoria, como os percursos ou faixas intercuantílicos, que têm em conta mais dados e, por tanto, permitem afinar na dispersão. Entre os mais usados está a faixa intercuartílico, que se define como a diferença entre o cuartil terceiro e o cuartil primeiro. Nessa faixa estão, pela própria definição dos cuartiles, o 50% das observações. Este tipo de medidas também se usa para determinar valores atípicos. No diagrama de caixa que aparece à direita se marcam como valores atípicos todos aqueles que caem fora do intervalo [Li, Ls] = [Q1 - 1,5·Rs, Q3 + 1,5·Rs], onde Q1 e Q3 são os cuartiles 1º e 3º, respectivamente, e Rs representa a metade do percurso ou faixa intercuartílico, também conhecido como percorrido semiintercuartílico.[23]

Desvios médiosEditar

Dada uma variável estatístico X e um parâmetro de tendência central, c, chama-se desvio de um valor da variável, xi, respeito de c, ao número |xi - c|. Este número mede o longe que está cada dado do valor central c, pelo que uma média dessas medidas poderia resumir o conjunto de desvios de todos os dados.

Por conseguinte, denomina-se desvio médio da variável X respeito de c à média aritmética dos desvios dos valores do variável respeito de c, isto é, se

X =

1 ,

, . . . ,

n , {\isplaystyle ={x_{},\,x_{2},\,...,\,x_{}},} etão D

c =

= 1 n | x i

n {\displaystyle DM_{c}={\frac {\sum _{i=1}^{n}\left|x_{i}-c\right|}{n}}}

Dste odo definem-se o desvio médio respeito da média (c = x ¯ {\displaystyle {\overline {}}} ) ou o desvio médio respeito da média (c = M e

{\displaystyle {\overline {Me}}} ), cuja interpretação é singela em virtude do significado da média aritmética.

No entanto, o uso de valores absolutos impede determinados cálculos algébricos que obrigam a eliminar estes parâmetros, apesar de sua clara interpretação, em favor dos seguintes.

Varianza e desvio típicoEditar
 
Conjunto de dados estatísticos em media aritmética 50 (linha azul) e desvio típico 20 (linhas vermelhas).

Como se viu mais acima, a soma de todos os desvios com respeito ao parâmetro mais utilizado, a média aritmética, é zero. Por tanto se deseja-se uma medida da dispersão sem os inconvenientes para o cálculo que têm os desvios médios, uma solução é elevar ao quadrado tais desvios dantes de calcular a média. Assim, se define a varianza como:[24]

2 =
                                                   i                   =
                                                                     n                   (                       x
                     
                                             
                   
                                       
                     
                       
                                                                                                       )                
               
                                               
           
                                             {\displaystyle {\sigma ^{2}}={\frac {\sum \limits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}{n}}} ,

ou seja, a média dos quadrados dos desvios respeito da média.

O desvio típico, σ, define-se como a raiz quadrada da varianza, isto é,

Para variáveis agrupadas em intervalos, usam-se as marcas de classe (um valor apropriado do interior de cada intervalo) nestes cálculos.

Propriedades:

  • Ambos parâmetros não se alteram com as mudanças de origem.
  • Se todos os valores da variável se multiplicam por uma constante, b, a varianza fica multiplicada por b2.
  • No intervalo ( x ¯ − k σ ,
           
                     
       
       
       
                )     { ({\overline {x}}-\sigma ,\,{\overline {x}}+k\sigma )}  encontram-se, ao menos, o       
     
                (
       
                                       1               k
             
                                                                     )         %     {\displaystyle 100(1-{\frac {1}{k^{2}}})\%}  das observações (veja-se Desigualdade de Tchebyschev).[25]

Esta última propriedade mostra a potência do uso conjunto da média e o desvio típico como parâmetros estatísticos, já que para valores de k iguais a 2 e 3, respectivamente, se obtém que:

  • No intervalo ( x ¯
                2         σ         ,                
         
           
                     
       
       
       
                )     {\displaystyle ({\overline {x}}-2\sigma ,\,{\overline {x}}+2\sigma )}  estão, ao menos, o 75% dos dados.
  • No intervalo ( x ¯
                3         σ         ,                
         
           
                     
       
       
       
                )     {\displaystyle ({\overline {x}}-3\sigma ,\,{\overline {x}}+3\sigma )}  estão, ao menos, o 89% dos dados.

Cumpre-se a seguinte relação entre os parâmetros de dispersão:

onde

e , D x

{\displaystyl D_{Me},\,D_{\overline {}}} , e

{ } são, respectivamente, o desvio médio respeito da média, o desvio médio respeito da média e o desvio típico (se veja Desvio médio).

A média. É uma medida de dispersão que tem, por sua própria definição, as mesmas propriedades que a média. Por exemplo, não se vê afectada por valores extremos ou atípicos.[26]

Medidas de dispersão relativaEditar

São parâmetros que medem a dispersão em termos relativos, uma percentagem ou uma proporção, por exemplo, de maneira que permitem uma singela comparação entre a dispersão de diferentes distribuições.[27]

Coeficiente de variação de PearsonEditar

Define-se omo C

= σ x ¯ { C_{V}={\frac {\sigma }{\bar {}}}} , onde é o desvio típico e x

{\displaystyle {\bar {}}} é a média aritmética.

Interpreta-se como o número de vezes que a média está contida no desvio típico. Costuma dar-se seu valor em tanto por cento, multiplicando o resultado anterior por 100. Deste modo obtém-se uma percentagem da variabilidad.

Seu principal inconveniente é que no caso de distribuições cuja média se acerca a zero, seu valor tende a infinito e inclusive resulta impossível de calcular quando a média é zero. Por isso não pode se usar para variáveis qualificadas.

Coeficiente de aberturaEditar

Define-se como o cocente entre os valores extreos da dstribuição de dados, isto é, dada uma distribuição de dados estatísticos x1, x2, ..., xn, seu coeficiente de abertura, CA é C A = m a ´ x ( x i ) m

n ( x i ) , i = 1 , . . . , n {\displaystyle C_{A}={\frac {m{\acute {a}}x(x_{i})}{m{\acute {\imath }}n(x_{i})}},\;i=1,...,n}

Usa-se para comparar salários de empresas.

Percursos relativosEditar

Dado Re, o percurso de uma distribuição de dados estatísticos, o percurso relativo, RR é R R = R e x ¯ { R_{R}={\frac {R_{e}}{\bar {}}}} , onde x

{\displaystyle {\bar {}}} é a média aritmética da distribuição.

Dada uma dstribuição de dados estatísticos com cuartiles Q1, Q2 e Q3, o percurso intercuartílico relativo, RIQR define-se como R I Q R = Q 3

Q 1 Q 2 {\displaystyle R_{IQR}={\frac {Q_{3}-Q_{1}}{Q_{2}}}}[28]

Por outra parte, defne-e o percurso semiintercuartílico relativo, RSIR, como R S I R = Q 3

1

{\displaystyle R_{SIR}={\frac {Q_{3}-Q_{1}}{Q_{3}+Q_{1}}}}

Índice de desvio com respeito à médiaEditar

efin-s como

= D

e M e {\displaystyle V_{Me}={\frac {D_{Me}}{Me}}} , onde DMe é o desvio médio respeito da média e Me é a média de uma distribuição de dados estatísticos dada.

Medidas de formaEditar

 
O sino de Gauss, curva que serve de modelo para o estudo da forma de uma distribuição.

As medidas de forma caracterizam a forma da gráfica de uma distribuição de dados estatísticos. A maioria destes parâmetros tem um valor que costuma comparar com o sino de Gauss, isto é, a gráfica da distribuição normal, uma das que com mais frequência se ajusta a fenómenos reais.

Medidas de assimetriaEditar

Diz-se que uma distribuição de dados estatísticos é simétrica quando a linha vertical que passa por sua média, divide a sua representação gráfica em duas partes simétricas. Isso equivale a dizer que os valores equidistantes da média, a um ou outro lado, apresentam a mesma frequência.

Nas distribuições simétricas os parâmetros média, média e moda coincidem, enquanto se uma distribuição apresenta certa assimetria, de um tipo ou de outro, os parâmetros se situam como mostra o seguinte gráfico:

 

Isso pode se demonstrar facilmente se se tem em conta a atração que a média aritmética sente pelos valores extremos, que já se comentou mais acima e as definições de média (justo no centro da distribuição, tomando o eixo de abscisas como referência) e moda (valor que apresenta uma ordenada mais alta).

Portanto, a posição relativa dos parâmetros de centralização podem servir como uma primeira medida da simetria de uma distribuição.

Outras medidas mais precisas são o coeficiente de assimetria de Fisher, o coeficiente de assimetria de Bowley e o coeficiente de assimetria de Pearson.

Medidas de apuntamiento ou curtosisEditar

 
Três distribuições com diferentes graus de apuntamiento.

Com estes parâmetros pretende-se medir como se repartem as frequências relativas dos dados entre o centro e os extremos, tomando como comparação o sino de Gauss.

O parâmetro usado com mais frequência para esta medida é o coeficiente de curtosis de Fisher, definido como:

                                       =                              
             
                                                   i                   =
                                                                     n               (                 x
               
                 
                                                                                                   )                   4                                          
           
             
             
               
               
                                                                     
       
       
                       {\displaystyle \gama _{2}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{4}}{n\sigma ^{4}}}-3} ,

ainda que há outros como o coeficiente de curtosis de Kelley ou o coeficiente de curtosis percentílico.

A comparação com a distribuição normal permite falar de distribuições platicúrticas ou mais aplastadas que a normal; distribuições mesocúrticas, com igual apuntamiento que a normal; e distribuições leptocúrticas, isto é, mais apontadas que a normal.[29]

Por último, existem outras medidas para decidir sobre a forma de uma distribuição com ajuste a modelos menos usuais como os que se mostram nas seguintes gráficas:

 

Outros parâmetrosEditar

Apresentam-se neste apartado outros parâmetros que têm aplicativo em situações muito concretas, pelo que não se incluem entre os grupos anteriores, ainda que têm cabida neste artigo por seu frequente uso em meios de comunicação e sua faculdade de resumir grandes quantidades de dados, como ocorre com as medidas tratadas até agora.

ProporçãoEditar

A proporção de um dado estatístico é o número de vezes que se apresenta esse dado com respeito ao total de dados. Conhece-se também como frequência relativa e é um dos parâmetros de cálculo mais singelo. Tem a vantagem de que pode se calcular para variáveis qualitativas.

Por exemplo, se estuda-se a cor de olhos de um grupo de 20 pessoas, onde 7 delas os têm azuis, a proporção de indivíduos com olhos azuis é de 35% (= 7/20).

O dado com maior proporção conhece-se como moda (se veja, mais acima).

Em inferência estatística existem intervalos de confiança para a estimativa deste parâmetro.

Número índiceEditar

Um número índice é uma medida estatística que permite estudar as flutuações ou variações de uma magnitude ou a mais de uma em relação ao tempo ou ao espaço. Os índices mais habituais são os que realizam as comparações no tempo. Alguns exemplos de uso quotidiano deste parâmetro são o índice de preços ou o IPC[30]

TaxaEditar

 
Coeficiente de Gini no mundo (2007-2008)

A taxa é um coeficiente que expressa a relação entre a quantidade e a frequência de um fenómeno ou um grupo de fenómenos. Utiliza-se para indicar a presença de uma situação que não pode ser medida em forma directa. Esta razão utiliza-se em âmbitos variados, como a demografía ou a economia, onde se faz referência à taxa de interesse.

Alguns dos mais usados são: taxa de natalidad, taxa de mortalidade, taxa de crescimento demográfico, taxa de fertilidad ou taxa de desemprego.

Coeficiente de GiniEditar

O índice de Gini ou coeficiente de Gini é um parâmetro de dispersão usado para medir desigualdades entre os dados de uma variável ou a maior ou menor concentração dos mesmos.

Este coeficiente mede de que forma está distribuída a soma total dos valores da variável. Costuma-se usar para descrever salários. Os casos extremos de concentração seriam aquele nos que uma sozinha pessoa acapara o total do dinheiro disponível para salários e aquele no que este total está igualmente repartido entre todos os assalariados.[31]

MomentosEditar

Os momentos são uma forma de generalizar toda a teoria relativa aos parâmetros estatísticos e guardam relação com uma boa parte deles. Dada uma distribuição de dados estatísticos x1, x2, ..., xn, define-se o momento central ou momento centrado de ordem k como

Falhou a verificação gramatical (erro de sintaxe): {\displaystyle '"`UNIQ--math-00000126-QINU`"'}

Para variáveis contínuas a definição muda somas discretas por integrais (soma contínua), ainda que a definição é, essencialmente, a mesma.[32] Desta definição e as propriedades dos parâmetros implicados que se viram mais acima, se deduze imediatamente que:

Falhou a verificação gramatical (erro de sintaxe): {\displaystyle '"`UNIQ--math-0000012B-QINU`"'}

e quef

 [33]</math>

Chama-se momento não centrado de ordem k à seguinte expressão:

Falhou a verificação gramatical (erro de sintaxe): {\displaystyle '"`UNIQ--math-00000131-QINU`"'}

Usando o binómio de Newton, pode obter-se a seguinte relação entre os momentos centrados e não centrados:

Os momentos de uma distribuição estatística caracterizam-na univocamente.[34]

Parâmetros bidimensionaisEditar

Em estatística estudam-se em ocasiões várias características de uma população para compará-las, estudar sua dependência ou correlação ou realizar qualquer outro estudo conjunto. O caso mais comum de dois variáveis conhece-se como estatística bidimensional.[35]

Um exemplo típico é o de um estudo que recolha a estatura (a denotemos por X) e o peso (seja E) dos n indivíduos de uma determinada população. Em tal caso, fruto da recolhida de dados, obter-se-ia uma série de casais de dados (xi, yi), com i = 1, ..., n, a cada uma das quais estaria composta pela estatura e o peso do indivíduo i, respectivamente.

Nos estudos bidimensionais, a cada uma das duas variáveis que entram em jogo, estudadas individualmente, podem resumir mediante os parâmetros que se viram até agora. Assim, faria sentido falar da média das estaturas ( X

{\displaystyle {\bar {}}} ) ou o desvio típico dos pesos (σE). Inclusive para um determinado valor da primeira variável, xk, cabe fazer estudos condicionados. Por exemplo, a média condicionada à estatura xk seria a média dos pesos de todos os indivíduos que têm essa estatura. Denota-se Me/x=xk.

No entanto existem outros parâmetros que resumem características de ambas distribuições em seu conjunto. Os mais destacados são o centro de gravidade, a covarianza e o coeficiente de correlação linear.

Centro de gravidadeEditar

Dadas dois variáveis statísticas X E, define-se o centro de gravidade como o casal (

¯ {\displaystyle {\bar {}}} , E

{\displaystyle {\bar {E}}} ), onde

X

{\displaystyle {\bar {X}}} e E

{\displaystyle {\bar {E}}} são, respectivamente, as médias aritméticas do variáveis X e E.

O nome dste parâmetro prove/provem de que numa representação dos casais do estudo numa nuvem de pontos, na que cada ponto tivesse um peso proporcional a sua frequência absoluta, as coordenadas ( X ¯ {\displaystyle {\bar {}}} , E

{\displaystyle {\bar {E}}} ) corresponderiam, precisamente, ao centro de gravidade como conceito físico.[36]

CovariançaaEditar

A covariançaa ou variança conjunta de uma distribuição bidimensional define-se como:

A interpretação deste parâmetro tem que ver com a eventual correlação linear das duas variáveis. Uma covariança positiva implica uma correlação directa e uma negativa, uma correlação inversa.[37] Por outra parte, é um parâmetro imprescindível para o cálculo do coeficiente de correlação linear ou os coeficientes de regreção, como ver-se-á mais abaixo.

Em seu contra tem que se vê excessivamente influenciada, ao igual que ocorria com a média aritmética, pelos valores extremos das distribuições e as mudanças de escala.

Coeficiente de correlação linearEditar

 
Variação do coeficiente de correlação linear em função da nuvem de pontos associada.

Trata-se de um coeficiente que permite determinar a bondade do ajuste da nuvem de pontos por uma recta.

Defin-se como:

= σ x e

{\displaystyle r={\frac {\sigma _{xy}}{\sigma _{x}\sigma _{e}}}} , onde σxy é a covarianza e σx e σe, os desvios típicos respectivas das distribuições implicadas.

O coeficiente de correlação linear toma valores entre -1 e 1. Nessa escala, mede a correlação do seguinte modo:

  • A correlação linear é mais forte quanto mais perto esteja de -1 ou 1.
  • A correlação linear é mais débil quanto mais próximo de zero seja r.[38]

O diagrama da direita ilustra como pode variar r em função da nuvem de pontos associada:

Outros parâmetros bidimensionais são, o coeficiente de correlação de Spearman, os coeficientes de correlação não paramétricos, o coeficiente de determinação ou os coeficientes de regreção linear.

Ao igual que com distribuições unidimensionales, existe uma forma equivalente de desenvolver a teoria relativa aos parâmetros estatísticos bidimensionais usando os momentos.

Os parâmetros na inferência estatísticaEditar

Em ocasiões os parâmetros de uma determinada população não podem se conhecer com certeza. Geralmente isto ocorre porque é impossível o estudo da população completa por questões como que o processo seja destructivo (p. e., vida média de uma bombilla) ou muito caro (p.e., audiências de televisão). Em tais situações recorre-se às técnicas da inferência estatística para realizar estimativas de tais parâmetros a partir dos valores obtidos de uma mostra da população.[39]

Distingue-se então entre parâmetros e estatísticos. Enquanto um parâmetro é uma função dos dados da população, o estatístico o é dos dados de uma mostra. Deste modo podem definir-se a média muestral, a varianza muestral ou qualquer outro párametro dos vistos mais acima.

Por exemplo, dada uma mostra estatística de tamanho , (

,  

,

        

. . . ,  

n ) {\displaystyle (x_{1},\ x_{2},\ ...,\ x_{n})}

, de uma variável aleatório X com distribuição de probabilidade F(x,θ), onde θ é um conjunto de parâmetros da distribuição, definir-se-ia a média muestral n-ésima como:

Falhou a verificação gramatical (erro de sintaxe): {\displaystyle '"`UNIQ--math-0000016E-QINU`"'}

No caso concreto da varianza muestral, costuma tomar-se, por suas melhores propriedades como estimador, a seguinte:

Falhou a verificação gramatical (erro de sintaxe): {\displaystyle '"`UNIQ--math-00000170-QINU`"'}

onde se tomou como denominador n-1, em lugar de n. A este parâmetro também se lhe chama cuasivarianza.[40]

Controvérsias e más interpretaçõesEditar

Como se disse, os parâmetros estatísticos, no enfoque descritivo que aqui se adopta, substituyen grandes quantidades de dados por uns poucos valores extraídos daqueles através de operações simples. Durante este processo perde-se parte da informação oferecida originalmente por todos os dados. É por esta perda de dados pelo que a estatística tem sido chamada em ocasiões de uma falacia. Por exemplo, se num grupo de três pessoas uma delas ingere três gelados, o parâmetro que com mais frequência se utiliza para resumir dados estatísticos, a média aritmética do número de gelados ingeridos pelo grupo seria igual a 1 ( = 0 + 3

{\displaystyle ={\frac {0+0+3}{3}}} ), valor que não parece resumir fielmente a informação. Nenhuma das pessoas sentir-se-ia identificada com a frase resumem: "Tenho ingerido um gelado em media".[41]

Um exemplo menos conhecido mas igual de ilustrativo a respeito da clareza de um parâmetro é a distribuição exponencial, que costuma reger os tempos médios entre determinados tipos de acontecimentos. Por exemplo, se a vida média de uma bombilla é de 8.000 horas, mais do 50 por cento das vezes não chegará a essa média. Igualmente, se um autocarro passa a cada 10 minutos em media, há uma probabilidade maior do 50 por cento de que passe menos de 10 minutos entre um autocarro e o seguinte.

Outro exemplo que costuma se oferecer com frequência para argumentar na contramão da estatística e seus parâmetros é que, estatisticamente falando, a temperatura média de uma pessoa com os pés num forno e a cabeça numa geladeira é ideal.

 
Benjamín Disraeli, um descreído das estatísticas.

Quiçá por situações como estas, que em general mostram um profundo desconhecimento do que os parâmetros representam em realidade e de seu uso conjunto com outras medidas de centralização ou dispersão, o premiê britânico Benjamín Disraeli sentenciou primeiro e Mark Twain popularizó mais tarde a seguinte afirmação:[42][43]

Hay mentiras, grandes mentiras, y estadísticas.

Há outras personagens que também têm advertido sobre a simplificação que supõe a estatística, como o professor Aaron Levenstein, quem afirmava:

Las estadísticas son como los bikinis: lo que muestran es sugerente, pero lo que esconden es vital.

Por sua vez, o escritor e comediante inglês Bernard Shaw sentenciou:[44]

La estadística es una ciencia que demuestra que, si mi vecino tiene dos coches y yo ninguno, los dos tenemos uno.

ou a personagem fictícia Homer Simpson, da popular série de televisão Os Simpson, numa entrevista a respeito das proporções num de seus capítulos:[45]

¡Oh!, la gente sale con estadísticas para probar cualquier cosa, el 14 por ciento del mundo lo sabe.
— Guionistas de la serie Los Simpson

Ver tambémEditar

Referências

  1. Introducción a la Estadística. [S.l.: s.n.] p. 69. ISBN 8429150390 
  2. «Parámetros estadísticos». Ditutor, Diccionario de Matemáticas 
  3. Serret Moreno-Gil, Jaime. Procedimientos estadísticos. [S.l.: s.n.] p. 71. ISBN 8473561716 
  4. Galbiati, José; González, Gladys; Maulén, Mª Angélica; Arancibia, Rodrigo. Exploración de datos: Introducción a la Estadística Descriptiva. [S.l.: s.n.] Consultado em 16 de abril de 2009. Arquivado do original em 10 de abril de 2009  Faltam os |sobrenomes1= em Authors list (ajuda)
  5. «Parámetro estadístico». Enciclopedia Microsoft® Encarta® Online 2009. Consultado em 27 de outubro de 2009. Arquivado do original em 27 de outubro de 2009. Parámetro estadístico, número que se obtiene a partir de los datos de una distribución estadística y que sirve para sintetizar alguna característica relevante de la misma. 
  6. Diccionario de Matemáticas. [S.l.: s.n.] p. 266. ISBN 84-89784-56-6. Parámetro (en estadística): Cierta cantidad que caracteriza de alguna forma a la población, como su media o su mediana 
  7. Serret Moreno-Gil, Jaime. Procedimientos estadísticos. [S.l.: s.n.] p. 71. ISBN 8473561716. En estadística descriptiva tenemos una serie de expresiones (...) que permiten disponer de unos valores numéricos que reflejan el comportamiento global del suceso estadístico, calculados a partir de los datos individuales. Estas expresiones son los parámetros estadísticos 
  8. citado por Calot (1985, pp. 55, 56) y MAD-Eduforma (2006, p. 160)
  9. Métodos estadísticos en Ingeniería. [S.l.: s.n.] pp. 39–41. ISBN 8497057279 
  10. «Medidas de Dispersión». Enciclopedia Microsoft® Encarta® Online [ligação inativa]
  11. Serret Moreno-Gil, Jaime. Procedimientos estadísticos. [S.l.: s.n.] 81 páginas. ISBN 8473561716 
  12. Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L. Estadística matemática con aplicaciones. [S.l.: s.n.] p. 8. ISBN 9706861947. La medida central que más se usa en estadística es la media aritmética 
  13. Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] ISBN 84-7496-653-1. Consultado em 23 de dezembro de 2009. Arquivado do original em 23 de dezembro de 2009 
  14. Wackerly, Dennis D; Mendenhall, William; Scheaffer, Richard L. Estadística matemática con aplicaciones. [S.l.: s.n.] p. 8. ISBN 9706861947. Dos conjuntos de mediciones podrían tener distribuciones de frecuencias muy distintas, pero con la misma media 
  15. Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] 
  16. «Retrato robot del alcalde metropolitano» 
  17. Serret Moreno-Gil, Jaime. Procedimientos estadísticos. [S.l.: s.n.] 75 páginas. ISBN 8473561716 
  18. Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] 
  19. Bioestadística para las ciencias de la Salud. [S.l.: s.n.] p. 28. ISBN 8484510182 
  20. Chaves, Bernardo. «La media geométrica y la media armónica». Bioestadística para postgrado [ligação inativa]
  21. Kuby, Patricia. Estadística elemental. [S.l.: s.n.] 94 páginas. ISBN 9706862870 
  22. Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] 
  23. Estadística Descriptiva. [S.l.: s.n.] p. 192. ISBN 8473563069 
  24. Rius Díaz, Francisca. Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] 
  25. Wackerly, Dennis D. Estadística matemática con aplicaciones. [S.l.: s.n.] p. 139 
  26. Estadística Descriptiva. [S.l.: s.n.] p. 200 
  27. Estadística Descriptiva. [S.l.: s.n.] p. 201 
  28. Estadística Descriptiva. [S.l.: s.n.] p. 202 
  29. Wisniewski, Piotr Marian. Probabilidad y estadística para ingeniería y ciencias. [S.l.: s.n.] p. 196. ISBN 970686136X 
  30. Herrera, Myriam; Ruiz, Ana María. Estadística en el nivel polimodal. [S.l.: s.n.] p. 67. ISBN 9872084920 
  31. Llorente Galera, Francisco; Staff, VV; Marín Feria, Susana; Torra Porras, Salvador. Principios de estadística descriptiva aplicada a la empresa. [S.l.: s.n.] pp. 53–54. ISBN 8480044276 [ligação inativa]
  32. Wackerly, Dennis D. Estadística matemática con aplicaciones. [S.l.: s.n.] p. 131 
  33. «Estadísticos de tendencia central». Consultado em 17 de abril de 2009. Arquivado do original em 23 de dezembro de 2009 
  34. Introducción a la estadística para economía. [S.l.: s.n.] p. 95. ISBN 848004523X. Si los momentos coinciden en dos distribuciones, diremos que son iguales [ligação inativa]
  35. Conceptos básicos de Estadística para Ciencias Sociales. [S.l.: s.n.] p. 62. ISBN 8496477436 
  36. Arias Rodríguez, Jose Carlos. «Distribuciones bidimensionales». Proyecto Descartes 
  37. Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] ISBN 84-7496-653-1. Consultado em 23 de dezembro de 2009. Arquivado do original em 23 de dezembro de 2009 
  38. Barón López, Francisco Javier. «Bioestadística» (Vídeo en Flash) 
  39. [ligação inativa]
  40. Álvarez Leiva, Juan Antonio. «Medidas de dispersión». Proyecto CICA Thales 
  41. Cómo mentir con estadísticas. [S.l.: s.n.] 
  42. «Citas de Benjamin Disraeli en Wikiquote» 
  43. «Mentiras, grandes mentiras y estadísticas en la Wikipedia inglesa» 
  44. Citas de Bernard Shaw
  45. Los Simpsons, temporada 5, episodio Homer, el vigilante

BibliografiaEditar

  • Calot, Gérard (1985). Curso de estadística descriptiva. [S.l.: s.n.] ISBN 8428305633  trad. Francisco José Cano Sevilla (4ª edição). Parainfo.   
  • Férnandez Fernández, Santiago; Córdoba, Alejandro; Cordeiro Sánchez, José María (2002). Córdoba, Alejandro; Cordero Sánchez, José María. Estadística Descriptiva. [S.l.: s.n.] ISBN 8473563069  (2ª edição). ESIC Editorial.   
  • Huff, Darrel; Geis, Irvin (1993). Geis, Irvin. How to lie with Statistics. [S.l.: s.n.] ISBN 0393310728  W W Norton & Co Inc.   
  • Rius Díaz, Francisca (1997). Bioestadística. Métodos y aplicaciones. [S.l.: s.n.] ISBN 84-7496-653-1  (2ª edição). Universidade de Málaga.   
  • Velasco Sotomayor, Gabriel; Wisniewski, Piotr Marian (2001). Wisniewski, Piotr Marian. Probabilidad y estadística para ingeniería y ciencias. [S.l.: s.n.] pp. 185–197. ISBN 970686136X  Cengage Learning Editores. pg.    
  • Técnicos de Administração Do Ministério de Economia E Fazenda (instituto Nacional de Estatística). Grupos III E IV. Temário Específico E Teste Ebook. MAD-Eduforma. 2006. Técnicos de Administración Del Ministerio de Economía Y Hacienda (instituto Nacional de Estadística). Grupos III Y IV. Temario Específico Y Test Ebook. [S.l.: s.n.] ISBN 9788466552509