Variável dummy (estatística)

Na análise de regressão, uma variável dummy (também conhecida como variável indicadora, variável fictícia ou apenas dummy) é aquela que assume os valores 0 ou 1 para indicar a ausência ou a presença de algum efeito categórico que pode mudar o resultado. [1] Por exemplo, se estivéssemos estudando a relação entre sexo biológico e renda, poderíamos usar uma variável dummy para representar o sexo de cada indivíduo no estudo. A variável pode assumir o valor 1 para homens e 0 para mulheres (ou vice-versa). No aprendizado de máquina, isso é conhecido como codificação one-hot.

As variáveis fictícias são comumente usadas na análise de regressão para representar variáveis categóricas que têm mais de dois níveis, como nível educacional ou ocupação. Nesse caso, várias variáveis fictícias seriam criadas para representar cada nível da variável e apenas uma variável fictícia assumiria o valor 1 para cada observação. As variáveis fictícias são úteis porque nos permitem incluir variáveis categóricas em nossa análise, que de outra forma seriam difíceis de incluir devido à sua natureza não numérica. Elas também podem nos ajudar a controlar fatores de confusão e melhorar a validade dos resultados.

Veja também

editar

Referências

editar
  1. Draper, N.R.; Smith, H. (1998) Applied Regression Analysis, Wiley. ISBN 0-471-17082-8 (Chapter 14)