Coeficiente de variação

Em teoria das probabilidades e estatística, o coeficiente de variação (CV), também conhecido como desvio padrão relativo (DPR), é uma medida padronizada de dispersão de uma distribuição de probabilidade ou de uma distribuição de frequências. É frequentemente expresso como uma porcentagem, sendo definido como a razão do desvio padrão pela média (ou seu valor absoluto, ). O CV ou DPR é amplamente usado em química analítica para expressar a precisão e a repetitividade de um ensaio. Também é comumente usado em campos como engenharia e física quando se fazem estudos de garantia de qualidade e avaliações de repetitividade e reprodutibilidade. O CV também é usado por economistas e investidores em modelos econômicos e na determinação da volatilidade de um valor mobiliário.

Definição editar

O coeficiente de variação (CV) é definido como a razão do desvio padrão   pela média  :[1]

 

Ele mostra a extensão da variabilidade em relação à média da população.

O coeficiente de variação deve ser computado apenas para dados medidos em uma escala de razão, já que estas são as medições que podem assumir apenas valores não negativos. O coeficiente de variação pode não ter qualquer significado para dados em uma escala intervalar.[2] Por exemplo, a maioria das escalas de temperatura (como Celsius e Fahrenheit) são escalas intervalares que podem assumir tanto valores positivos, como valores negativos, enquanto a temperatura em Kelvin nunca pode ser menor que zero, que é a ausência completa de energia térmica. Assim, a escala Kelvin é uma escala de razão. Mesmo que o desvio padrão (DP) possa ser derivado tanto na escala Kelvin, como na escala Celsius (com ambas levando aos mesmos DPs), o CV é apenas relevante como uma medida de variabilidade relativa da escala Kelvin.

Medições que têm distribuição log-normal exibem CV estacionário. Em contraste, o DP varia dependendo do valor esperado das medições.

Uma possibilidade mais robusta é o coeficiente de dispersão quartil, isto é, a metade da amplitude interquartil   dividida pela média dos quartis (o midhinge),  .

Exemplos editar

Um conjunto de dados   tem valores constantes. Seu desvio padrão é 0 e sua média é 100, dando o seguinte coeficiente de variação:

 

Um conjunto de dados   tem maior variabilidade. Seu desvio padrão é 8,165 e sua média 100, dando o seguinte coeficiente de variação:

 

Um conjunto de dados   tem variabilidade maior ainda. Seu desvio padrão é 30,78 e sua média é 27,785, dando o seguinte coeficiente de variação:

 

Considere duas classes de estudantes (classe azul e classe verde) que foram fazer um exame. Calculou-se, para cada uma, a média e o desvio padrão.

Classe Número de alunos Nota média Desvio padrão Coeficiente de variação
Azul   40 4  
Verde   5 4  

Repare que o desvio padrão na segunda distribuição tem um peso muito mais significativo do que na primeira e, no entanto, este é igual em ambas. Ao determinar o coeficiente de variação, é possível saber de que forma o desvio padrão está para a média.

Nos exemplos dados, o coeficiente de variação é respectivamente 0,1 e 0,8. Interpretando estes valores, pode-se afirmar que, na primeira distribuição, em média, os desvios atingem em relação à média 10% do valor desta. Na segunda distribuição, em média, porém, os desvios atingem em relação à média 80% do valor desta. As porcentagens mostram o peso do desvio padrão sobre a distribuição.

Tendo em vista sua capacidade de comparar diferentes distribuições, o CV pode ser aplicado para avaliar resultados de trabalhos que envolvem a mesma variável-resposta, permitindo quantificar a precisão das pesquisas. Algumas publicações estabelecem critérios para classificação do coeficiente de variação de acordo com dados de trabalhos com as variáveis estudadas, expressando muitas vezes esta classificação em tabelas nas quais se determinam os valores de CV considerados: baixo, médio, alto e muito alto. Quanto menor o CV, maior a precisão dos dados.[3]

Exemplos de mau uso editar

Comparar coeficientes de variação entre parâmetros que usam unidades relativas pode resultar em diferenças que podem não ser reais. Se compararmos o mesmo conjunto de temperaturas em Celsius e Fahrenheit (ambas unidades relativas, em que Kelvin e Rankine são seus valores absolutos associados):

Celsius:  

Fahrenheit:  

Os desvios padrão amostrais são 15,81 e 28,46 respectivamente. O CV do primeiro conjunto é  . Para o segundo conjunto (composto pelas mesmas temperaturas), o CV é  .

Se, por exemplo, os conjuntos de dados forem leituras de temperatura de dois diferentes sensores (um sensor Celsius e um sensor Fahrenheit) e quisermos saber qualquer sensor é melhor escolhendo o que tiver a menor variância, seremos enganados se usarmos CV. O problema aqui é que dividimos por um valor relativo, em vez de um valor absoluto.

Comparando o mesmo conjunto de dados, agora em unidades absolutas:

Kelvin:  

Rankine:  

Os desvios padrão amostrais ainda são 15,81 e 28,46 respectivamente, porque o desvio padrão não é afetado por um deslocamento constante. Os coeficientes de variação, entretanto, agora são iguais a 0,0539.

Estimação editar

Quando apenas uma amostra dos dados de uma população está disponível, o CV da população pode ser estimado usando a razão do desvio padrão amostral   pela média amostral  :

 

No entanto, este estimador tende a ser muito baixo quando aplicado a um amostra de tamanho pequeno ou mediano, ou seja, é um estimador viesado. Para dados normalmente distribuídos, um estimador não viesado para uma amostra de tamanho   é:[4]

 

Dados log-normais editar

Em muitas aplicações, pode-se assumir que os dados são log-normalmente distribuídos (o que é evidenciado pela presença de obliquidade nos dados amostrados).[5] Em tais casos, uma estimativa mais precisa, derivada a partir das propriedades da distribuição log-normal, é definida como:[6][7][8]

 

em que   é o desvio padrão amostral dos dados depois de uma transformação log natural. No caso em que as medições são registradas usando qualquer outra base logarítmica  , seu desvio padrão   é convertido à base   usando   e a fórmula para   permanece a mesma.[9] Esta estimativa é às vezes chamada de "CV geométrico" a fim de distinguir esta da estimativa acima.[10][11] Entretanto, o "coeficiente de variação geométrico" também foi definido por Thomas B. L. Kirkwood como:[12]

 

Este termo deveria ser análogo ao coeficiente de variação para descrever variação multiplicativa em dados log-normais, mas esta definição do CVG não tem base teórica como uma estimativa do  .

Para muitos fins práticos (tais como determinação de tamanhos de amostras e cálculo de intervalos de confiança), o   é mais útil no contexto de dados log-normalmente distribuídos. Se necessário, este pode ser derivado a partir de uma estimativa de   ou CVG pela inversão da fórmula correspondente.

Comparação com o desvio padrão editar

Vantagens editar

O coeficiente de variação é útil porque o desvio padrão dos dados deve ser sempre compreendido no contexto da média dos dados. Em contraste, o valor real do CV é independente da unidade em que a medição foi feita, então é um número adimensional. Para comparação entre conjuntos de dados com diferentes unidades ou médias muito diferentes, deve-se usar o coeficiente de variação em vez do desvio padrão.

Desvantagens editar

  • Quando o valor da média é próximo de zero, o coeficiente de variação se aproximará do infinito, sendo, por isso, sensível a pequenas mudanças na média. Isto é frequentemente o caso se os valores não se originam de uma escala de razão.
  • Diferentemente do desvio padrão, o coeficiente de variação não pode ser usado diretamente para construir intervalos de confiança para a média.
  • Os coeficientes de variação não são um índice ideal da certeza de uma medição quando o número de replicados varia ao longo de amostras, porque o CV é invariante ao número de replicados, enquanto a certeza da média melhora com o aumento de replicados. Neste caso, sugere-se que o desvio padrão em porcentagem é superior.[13]

Aplicações editar

O coeficiente de variação também é comum em campos de probabilidade aplicada como teoria da renovação, teoria das filas e teoria da confiabilidade. Nestes campos, a distribuição exponencial é frequentemente mais importante do que a distribuição normal. O desvio padrão de uma distribuição exponencial é igual a sua média, logo, seu coeficiente de variação é igual a 1. Distribuições com CV menor que 1 (tal como a distribuição de Erlang) são consideradas de variância baixa, enquanto aquelas com CV maior que 1 (tal como a distribuição hiperexponencial) são consideradas de variância alta. Algumas fórmulas nestes campos são expressas usando o coeficiente quadrático de variação, frequentemente abreviado como CQV. Em modelagem, uma variação do CV é o coeficiente de variação da raiz do erro quadrático médio, abreviado como CV(REQM). Na essência, o CV(REQM) substitui o termo do desvio padrão com a raiz do erro quadrático médio (REQM). Ainda que muitos processos naturais mostrem de fato uma correlação entre o valor da média e a quantidade de variação em seu entorno, dispositivos com sensores precisos precisam ser projetados de forma que o coeficiente de variação seja próximo de zero, isto é, produzindo um erro absoluto constante ao longo do intervalo de trabalho.

Em ciências atuariais, o CV é conhecido como risco unitarizado.[14]

Medidas laboratoriais de coeficientes de variação intra-ensaios e inter-ensaios editar

Medidas de CV são frequentemente usadas como controles de qualidade para ensaios laboratoriais quantitativos. Ainda que se possa assumir que CVs intra-ensaios e inter-ensaios são calculados simplesmente fazendo a média dos valores de CV ao longo dos valores de CV para múltiplas amostras no interior de um ensaio ou fazendo a média de múltiplos estimados de CV inter-ensaios, tem sido sugerido que estas práticas são incorretas e que um processo computacional mais complexo é necessário.[15] Tem sido notado que valores de CV não são um índice ideal da certeza de uma medição quando o número de replicados varia ao longo das amostras — neste caso, sugere-se que o erro padrão em porcentagem é superior.[13] Se as medições não têm um ponto zero natural, então, o CV não é uma medição válida e medidas alternativas, como o coeficiente de correlação intraclasse, são recomendadas.[16]

Medida de desigualdade econômica editar

O coeficiente de variação preenche as exigências para uma medida de desigualdade econômica.[17][18][19] Se   (com entradas  ) for uma lista de valores de um indicador econômico (por exemplo, riqueza), sendo   a riqueza do agente  , os seguintes requisitos são atendidos:

  • Anonimato —   é independente do ordenamento da lista  . Isto se segue do fato de que a variância e a média são independentes do ordenamento de  ;
  • Invariância à escala —  , em que   é um número real;[19]
  • Independência da população — se   for a lista   anexa a ela mesma, então  . Isto se segue do fato de que tanto a variância, como a média obedecem este princípio;
  • Princípio de transferência de Pigou–Dalton — quando a riqueza é transferida de um agente mais rico   a um agente menos rico   (isto é,  ) sem que seus postos sejam alterados, então,   decresce e vice-versa.[19]

O   assume seu valor mínimo de zero para igualdade completa (todos os   são iguais).[19] Sua desvantagem mais notável é que não é limitado acima, logo, não pode ser normalizado de modo a permanecer no interior de um intervalo fixo, como o coeficiente de Gini, que sempre está entre 0 e 1.[19] No entanto, é matematicamente mais tratável do que o coeficiente de Gini.

Distribuição editar

Se os valores negativos e positivos pequenos da média amostral ocorrerem com frequência negligenciável, a distribuição de probabilidade do coeficiente de variação para uma amostra de tamanho   foi mostrado por Walter A. Hendricks e Kate W. Robey como sendo:[20]

 

em que o símbolo   indica que a somatória é apenas sobre valores pares de  , isto é, se   for ímpar, soma-se sobre os valores pares de   e, se   for par, soma-se apenas sobre os valores ímpares de  .

Isto é útil, por exemplo, na construção de testes de hipóteses ou intervalos de confiança. A inferência estatística para o coeficiente da variação em dados normalmente distribuídos é frequentemente baseada na aproximação qui-quadrado de McKay para o coeficiente de variação.[21][22][23][24]

Alternativa editar

De acordo com Shuang Liu e Erich L. Lehmann, há uma alternativa ao CV também derivada da distribuição amostral do CV a fim de dar um método exato para a construção de um intervalo de confiança para o CV, baseada em uma distribuição t não central.[25]

Razões semelhantes editar

Momentos padronizados são razões semelhantes  , em que   é o  -ésimo momento sobre a média, também adimensionais e invariantes à escala. A razão da variância pela média,  , é outra razão semelhante, mas não é adimensional e, por isso, também não é invariante à escala.

Em processamento de sinal, particularmente em processamento de imagem, a razão recíproca   é referida como razão do sinal pelo ruído. Outras razões semelhantes são:

  • Eficiência —  ;
  • Momento padronizado —  ;
  • Razão da variância pela média (ou variância relativa) —  ;
  • Fator de Fano —  ;
  • Erro padrão relativo.

Ver também editar

Referências editar

  1. Everitt, Brian S. (8 de outubro de 1998). Cambridge Dictionary of Statistics (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521593465 
  2. «GraphPad - FAQ 1089 - What is the difference between ordinal, interval and ratio variables? Why should I care?». www.graphpad.com. Consultado em 25 de julho de 2017 
  3. Mohallem, D. F.; Tavares, M.; Silva, P. L.; Guimarães, E. C.; Freitas, R. F. (abril de 2008). «Avaliação do coeficiente de variação como medida da precisão em experimentos com frangos de corte». Arquivo Brasileiro de Medicina Veterinária e Zootecnia. 60 (2): 449–453. ISSN 0102-0935. doi:10.1590/s0102-09352008000200026. Consultado em 26 de julho de 2017 
  4. Sokal, Robert R.; Rohlf, F. James (1981). Biometry: The Principles and Practice of Statistics in Biological Research (em inglês). [S.l.]: W. H. Freeman. ISBN 9780716712541 
  5. LIMPERT, ECKHARD; STAHEL, WERNER A.; ABBT, MARKUS (1 de maio de 2001). «Log-normal Distributions across the Sciences: Keys and Clues». BioScience (em inglês). 51 (5). ISSN 0006-3568. doi:10.1641/0006-3568(2001)051[0341:lndats]2.0.co;2 
  6. Koopmans, L. H.; Owen, D. B.; Rosenblatt, J. I. (1 de junho de 1964). «Confidence intervals for the coefficient of variation for the normal and log normal distributions». Biometrika. 51 (1-2): 25–32. ISSN 0006-3444. doi:10.1093/biomet/51.1-2.25 
  7. Diletti, E.; Hauschke, D.; Steinijans, V. W. (1992). «Sample size determination for bioequivalence assessment by means of confidence intervals». International Journal of Clinical Pharmacology, Therapy, and Toxicology. 30 Suppl 1: S51–58. ISSN 0174-4879. PMID 1601532 
  8. Julious, Steven A.; Debarnot, Camille A. M. (15 de fevereiro de 2000). «Why Are Pharmacokinetic Data Summarized by Arithmetic Means?». Journal of Biopharmaceutical Statistics. 10 (1): 55–71. ISSN 1054-3406. PMID 10709801. doi:10.1081/bip-100101013 
  9. Reed, George F.; Lynn, Freyja; Meade, Bruce D. (1 de novembro de 2002). «Use of Coefficient of Variation in Assessing Variability of Quantitative Assays». Clinical and Diagnostic Laboratory Immunology (em inglês). 9 (6): 1235–1239. ISSN 1556-6811. PMID 12414755. doi:10.1128/cdli.9.6.1235-1239.2002 
  10. Sawant, Sandeep; Mohan, Neha (2011). «FAQ: Issues with Efficacy Analysis of Clinical Trial Data Using SAS» (PDF). PharmaSUG 2011 Conference Proceedings. Consultado em 25 de julho de 2017 
  11. Schiff, Michael H.; Jaffe, Jonathan S.; Freundlich, Bruce (1 de agosto de 2014). «Head-to-head, randomised, crossover study of oral versus subcutaneous methotrexate in patients with rheumatoid arthritis: drug-exposure limitations of oral methotrexate at doses ≥15 mg may be overcome with subcutaneous administration». Annals of the Rheumatic Diseases (em inglês). 73 (8): 1549–1551. ISSN 0003-4967. PMID 24728329. doi:10.1136/annrheumdis-2014-205228 
  12. Kirkwood, Thomas B. L. (1979). «Geometric Means and Measures of Dispersion». Biometrics. 35 (4): 908–909 
  13. a b Eisenberg, Dan T.A.; Kuzawa, Christopher W.; Hayes, M. Geoffrey (8 de julho de 2015). «Improving qPCR telomere length assays: Controlling for well position effects increases statistical power». American Journal of Human Biology (em inglês). 27 (4): 570–575. ISSN 1520-6300. PMID 25757675. doi:10.1002/ajhb.22690 
  14. Broverman, Samuel A.; Actuaries, Society of; Society, Casualty Actuarial; Publications, Actex (2001). Actex study manual, Course 1 examination of the Society of Actuaries, Exam 1 of the Casualty Actuarial Society (em inglês). [S.l.]: Actex Publications. ISBN 9781566984010 
  15. Rodbard, D. (outubro de 1974). «Statistical quality control and routine data processing for radioimmunoassays and immunoradiometric assays». Clinical Chemistry. 20 (10): 1255–1270. ISSN 0009-9147. PMID 4370388 
  16. Eisenberg, Dan TA (1 de agosto de 2016). «Telomere length measurement validity: the coefficient of variation is invalid and cannot be used to compare quantitative polymerase chain reaction and Southern blot telomere length measurement techniques». International Journal of Epidemiology. 45 (4): 1295–1298. ISSN 0300-5771. doi:10.1093/ije/dyw191 
  17. Champernowne, D. G.; Cowell, F. A. (1998). Economic Inequality and Income Distribution (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521589598 
  18. Campano, Fred; Salvatore, Dominick (2 de fevereiro de 2006). Income Distribution: Includes CD (em inglês). [S.l.]: Oxford University Press. ISBN 9780198041221 
  19. a b c d e Bellù, Lorenzo Giovanni; Liberati, Paolo (2006). Policy Impacts on Inequality (PDF). [S.l.]: Organização das Nações Unidas para Alimentação e Agricultura. Consultado em 26 de julho de 2017 
  20. Hendricks, Walter A.; Robey, Kate W. (setembro de 1936). «The Sampling Distribution of the Coefficient of Variation». The Annals of Mathematical Statistics (em inglês). 7 (3): 129–132. ISSN 0003-4851. doi:10.1214/aoms/1177732503 
  21. Iglewicz, Boris; Myers, Raymond H. (1970). «Comparisons of Approximations to the Percentage Points of the Sample Coefficient of Variation». Technometrics. 12 (1): 166–169. doi:10.2307/1267363 
  22. Bennett, B. M. (1976). «On an Approximate Test for Homogeneity of Coefficients of Variation». Birkhäuser, Basel. Contribution to Applied Statistics (em inglês): 169–171. doi:10.1007/978-3-0348-5513-6_16 
  23. Vangel, Mark G. (1 de fevereiro de 1996). «Confidence Intervals for a Normal Coefficient of Variation». The American Statistician. 50 (1): 21–26. ISSN 0003-1305. doi:10.1080/00031305.1996.10473537 
  24. Forkman, Johannes (1 de janeiro de 2009). «Estimator and Tests for Common Coefficients of Variation in Normal Distributions». Communications in Statistics - Theory and Methods. 38 (2): 233–251. ISSN 0361-0926. doi:10.1080/03610920802187448 
  25. Shuang, Liu, (2012). «Confidence Interval Estimation for Coefficient of Variation». Georgia State University (em inglês)