Variáveis instrumentais

Em estatística, econometria, epidemiologia e disciplinas relacionadas, o método de variáveis ​​instrumentais (IV, em inglês) é usado para estimar relações causais, quando experimentos controlados não são viáveis​​. O método IV permite estimações consistentes quando as variáveis ​​explicativas são correlacionados com os termos de erro de uma relação de regressão. Nesta situação, a regressão linear simples geralmente produz estimativas viesadas e inconsistentes. No entanto, se um instrumento está disponível, estimativas consistentes ainda podem ser obtidas.

Um instrumento é uma variável que não se pertence à equação explicativa mas está correlacionada com as variáveis ​​explicativas. Em modelos lineares, existem dois requisitos principais para a utilização de um IV:

  • O instrumento deve ser correlacionado com as variáveis ​​endógenas explicativo, condicionada a outras variáveis​​.
  • O instrumento não pode ser correlacionada com o termo de erro na equação explicativa, isto é, o instrumento não pode sofrer o mesmo problema que a variável original para a qual ele servirá de instrumento.

Exemplo editar

Suponha que um pesquisador deseja estimar o efeito causal do tabagismo sobre a saúde geral (como em Leigh e Schembri 2004 [1]).

Em princípio, a existência de correlação entre a saúde e o hábito de fumar não implica necessariamente que o fumo piora a saúde, porque

  • Outras variáveis ​​podem afetar tanto a saúde quanto o hábito de fumar. Por exemplo, pode ocorrer por acaso que pessoas de uma certa cidade exposta à poluição radioativa fumem muito, mas é a poluição que realmente causa problemas de saúde à esta população em estudo.
  • Mesmo que o tabagismo cause realmente problemas, a saúde em si pode afetar o hábito de fumar (digamos, um paciente muito doente pode se sentir instigado a fumar mais).

Fazer estudos controlados (por exemplo, colocar uma pessoa num laboratório, sem exposição à poluição, fumando quantidades controladas) pode ser difícil, caro ou antiético. Uma opção alternativa, portanto, seria o pesquisador tentar estimar o efeito causal do tabagismo sobre a saúde a partir de dados observacionais, utilizando, por exemplo, a alíquota de imposto sobre o tabaco como um instrumento para fumar em uma regressão de saúde.

Se as alíquotas de imposto sobre o tabaco afetam apenas (positivamente, imagina-se) a saúde porque eles afetam o hábito de fumar (mantendo as outras variáveis do modelo fixas), a correlação entre impostos sobre o tabaco e a saúde é uma evidência de que o tabagismo provoca alterações na saúde. Uma estimativa do efeito do tabagismo sobre a saúde podem ser feita também fazendo uso da correlação entre os impostos e os hábitos de fumar.

Estimação editar

Suponha que as observações são geradas por um processo na forma

 

Onde "i" é o número de cada observação,   é a variável dependente,   é a variável explicativa,   é o erro não observado (que representa tudo que afeta   além de  ), e   é um parâmetro escalar não observado.

O parâmetro   é o efeito causal em   de uma mudança de uma unidade em  , mantidos todos os demais fatores constantes. O objetivo da econometria, aqui, é estimar  .

Por simplicidade, vamos assumir que os termos de erro   não têm correlação serial e são homoscedásticos.

Suponha que um modelo de regressão é proposto. dada uma amostra de "T" observações, o estimador de mínimos quadrados ordinários é

 

onde x, y e   denotam vetores coluna de dimensão TX1. Quando x e   são não correlacionados, sob certas condições o valor esperado do segundo termo da expressão acima é zero, e portanto o estimador de mínimos quadrados ordinários (OLS) é não-viesado e consistente. Ao contrário, quando "x" e outras causas não mensuradas que estão no termo de erro   são correlacionadas, o estimador OLS é geralmente viesado e inconsistente para β.

Uma variável instrumental "z" é aquela que é correlacionada com a variável explicativa mas não com os termos de erro. Usando o método dos momentos, poderemos descobrir que:

 

O segundo termo do lado direito da equação é zero por hipótese. Resolvendo para   e escrevendo a expressão resultante em termo de momentos amostrais,

 

Quando z e   são não correlacionados, o termo final, sob certas condições, tende a zero no limite, o que caracteriza um estimador consistente. Ou seja, o efeito causal de "x" sobre "y" pode ser eficientemente estimado a partir destes dados.

Esta técnica pode ser generalizada para o caso em que há mais de uma variável explicativa, ou seja, para o caso em que x não é um vetor TX1 (1 variável), e sim uma matriz TXK (K variáveis explicativas, T observações). Seja "Z" uma matriz TXK de instrumentos. Então, pode ser mostrado que o estimador

 

é consistente sob as condições discutidas acima. Se houver mais instrumentos que variáveis explicativas, então "Z" é uma matriz  . O método dos momentos generalizados pode ser usado e o estimador IV resultante é

  onde  .

Esta expressão torna-se a primeira ( ) quando o número de variáveis instrumentais é igual ao número de variáveis explicativas (M=K) da equação de interesse.

Ver também editar

  • Explicação sobre variáveis instrumentais e um exemplo usando o estimador de Wald, em que a variável instrumental é binária.

Referências editar

  1. Leigh, J.P. and M. Schembri (2004) Instrumental variables technique: cigarette price provided better estimate of effects of smoking on SF-12, Journal of Clinical Epidemiology 57(3), 284–293.