Abrir menu principal

Método dos mínimos quadrados

Question book-4.svg
Esta página cita fontes confiáveis e independentes, mas que não cobrem todo o conteúdo (desde abril de 2017). Ajude a inserir referências. Conteúdo não verificável poderá ser removido.—Encontre fontes: Google (notícias, livros e acadêmico)

O Método dos Mínimos Quadrados (MMQ), ou Mínimos Quadrados Ordinários (MQO) ou OLS (do inglês Ordinary Least Squares) é uma técnica de otimização matemática que procura encontrar o melhor ajuste para um conjunto de dados tentando minimizar a soma dos quadrados das diferenças entre o valor estimado e os dados observados (tais diferenças são chamadas resíduos).[1]

É a forma de estimação mais amplamente utilizada na econometria. Consiste em um estimador que minimiza a soma dos quadrados dos resíduos da regressão, de forma a maximizar o grau de ajuste do modelo aos dados observados.

Um requisito para o método dos mínimos quadrados é que o fator imprevisível (erro) seja distribuído aleatoriamente e essa distribuição seja normal. O Teorema Gauss-Markov garante (embora indiretamente) que o estimador de mínimos quadrados é o estimador não-enviesado de mínima variância linear na variável resposta.

Outro requisito é que o modelo é linear nos parâmetros, ou seja, as variáveis apresentam uma relação linear entre si. Caso contrário, deveria ser usado um modelo de regressão não-linear.

Credita-se Carl Friedrich Gauss como o desenvolvedor das bases fundamentais do método dos mínimos quadrados, em 1795, quando Gauss tinha apenas dezoito anos. Entretanto, Adrien-Marie Legendre foi o primeiro a publicar o método em 1805, em seu Nouvelles méthodes pour la détermination des orbites des comètes. Gauss publicou suas conclusões apenas em 1809.[2][3][4]

Regressão simplesEditar

Queremos estimar valores de determinada variável  . Para isso, consideramos os valores de outra variável   que acreditamos ter poder de explicação sobre   conforme a fórmula:

 

onde:

  •  : Parâmetro do modelo chamado de constante (porque não depende de  ).
  •  : Parâmetro do modelo chamado de coeficiente da variável  .
  •  : Erro - representa a variação de   que não é explicada pelo modelo.

Também temos uma base de dados com   valores observados de   e de  . Perceba que, usando a base de dados,   e   são vetores, ou seja, representam uma lista de valores, um para cada observação da base de dados. O método dos mínimos quadrados ajuda a encontrar as estimativas de   e  . Como o nome diz, serão somente estimativas desses parâmetros, porque o valor real dos parâmetros são desconhecidos. Portanto, ao fazer a estimativa, mudamos a notação de algumas variáveis:

 

Deste modo, ao estimar o modelo usando a base de dados, estamos estimando, na verdade:

 

onde   indica cada uma das   observações da base de dados e   passa a ser chamado de resíduo, ao invés de erro. Em alguns livros, a notação para as estimativas dos parâmetros é um pouco diferente. Ao invés de substituir a letra, apenas adiciona-se o símbolo chapéu ( ).

O método dos mínimos quadrados minimiza a soma dos quadrado dos resíduos, ou seja, minimiza  .

A ideia por trás dessa técnica é que, minimizando a soma do quadrado dos resíduos, encontraremos   e   que trarão a menor diferença entre a previsão de   e o   realmente observado.

Substituindo   por  , temos:

 

A minimização se dá ao derivar   em relação a   e   utilizando a regra da cadeia e então igualar a zero:

 

Distribuindo e dividindo a primeira expressão por   temos:

 

onde   é a média amostral de   e   é a média amostral de  .

Substituindo esse resultado na segunda expressão temos:

 

Alguns livros também usam uma fórmula diferente que gera o mesmo resultado:

 

Exemplo de regressão simplesEditar

Considere a seguinte base de dados:

   
Consumo
 
Renda
1 122 139
2 114 126
3 86 90
4 134 144
5 146 163
6 107 136
7 68 61
8 117 62
9 71 41
10 98 120

Aplicando as fórmulas acima, chega-se em:

 

portanto,

 

Interpretação: Tirando a parte do Consumo que não é influenciada pela Renda, o incremento de $ 1 na Renda causa um incremento esperado de $ 0,4954 no Consumo.

Regressão múltiplaEditar

A regressão múltipla apresenta um funcionamento parecido com o da regressão simples, porém, leva em consideração diversas variáveis explicativas   influenciando   ao mesmo tempo:

 

Ao usar a base de dados com   variáveis explicativas e   observações, o modelo pode ser escrito na forma matricial:

 

, onde   representa o valor da  -ésima variável da  -ésima observação. A fórmula também pode ser escrita na forma resumida:

 

A solução de mínimos quadrados continua sendo alcançada através da minimização da soma do quadrado dos resíduos  , que pode ser reescrito como  , onde o apóstrofe significa que a matriz foi transposta.

Substituindo   por  , temos:

 

A minimização pode ser obtida ao derivar   em relação a   e igualar a zero. O primeiro termo não depende de  , os segundo e terceiro termos são iguais e o terceiro termo é uma forma quadrática dos elementos de  .

 

Exemplo de regressão múltiplaEditar

Considere a base de dados usada no exemplo da regressão simples, porém, acrescente mais uma variável explicativa (taxa de juros):

   
Consumo
 
Renda
 
Taxa de Juros
1 122 139 11,5%
2 114 126 12,0%
3 86 90 10,5%
4 134 144 9,0%
5 146 163 10,0%
6 107 136 12,0%
7 68 61 10,5%
8 117 62 8,0%
9 71 41 10,0%
10 98 120 11,5%

Aplicando a fórmula acima, chega-se a:

 

portanto,

 

Interpretação: Tirando a parte do Consumo que não é influenciada pela Taxa de Juros, o incremento de $ 1 na Renda causa um incremento esperado de $ 0,6136 no Consumo; além disso, o incremento de 1 ponto percentual (0,01) na Taxa de Juros causa um decréscimo esperado de $ 1034,41 no Consumo.

PremissasEditar

Ao usar o método dos mínimos quadrados, assumimos algumas premissas a respeito das variáveis:

  • Os regressores são fixos: As variáveis da matriz   não são estocásticas.
  • Erro é aleatório com média 0: O erro   é aleatório e sua esperança  .
  • Homoscedasticidade: A variância do erro é constante.
  • Sem correlação: Não existe correlação entre os erros das observações, ou seja,   para qualquer  .
  • Parâmetros são constantes:   e   são valores fixos desconhecidos.
  • Modelo é linear: Os dados da variável dependente   foram gerados pelo processo linear  .
  • Erro tem distribuição normal: O erro é distribuído conforme a curva de distribuição normal.

Caso alguma dessas premissas não seja verdadeira, o método pode gerar resultados sub-ótimos ou com viés.

Coeficiente de determinação R²Editar

 Ver artigo principal:

O Coeficiente de determinação, também chamado de é uma medida de qualidade do modelo em relação à sua habilidade de estimar corretamente os valores da variável resposta  .

  , sendo SQres o Somatório dos Quadrados dos Resíduos e SQtot o Somatório dos Quadrados Total

ou R² ajustado:

 

Exemplo de R² e R² ajustadoEditar

O valor do coeficiente de determinação, quando aplicado ao caso da regressão simples permite obter o seguinte resultado:

 

E, usando os dados do exemplo de regressão múltipla, podemos calcular:

 

Isso significa que 88,729% da variância de   é explicada pela variância de  .

 

Teste de significância dos coeficientesEditar

 Ver artigos principais: Estatistica t e Valor p

Se uma variável   realmente possui poder explicativo sobre  , seu coeficiente   deve ser estatísticamente diferente de zero. Ou seja, deve ser suficientemente maior ou menor do que zero para que tenhamos confiança de que a variável realmente possui poder explicativo. Caso isso não seja verdade, a variável poderia ser retirada do modelo sem que exista grande perda da sua qualidade. Para verificar se os coeficientes são significantes, levamos em consideração que o estimador   tem distribuição normal centrada em   e com variância  , onde   é a variância do erro  . Ou seja:

 

Porém, como o erro não é observado, usamos a aproximação amostral  :

 

, onde   representa o número de variáveis explicativas mais a constante.

Considerando que a hipótese nula é a de que  , então a estatística t para a variável j é:

 

, onde   é o j-ésimo elemento da diagonal de  .

Aplicando o valor de   na curva acumulada da distribuição t de Student com   graus de liberdade, pode-se obter o nível de confiança necessário para que a hipótese nula seja rejeitada.

Exemplo de teste de significância dos coeficientesEditar

Usando os dados do exemplo de regressão múltipla, podemos calcular:

 
 
 

Na distribuição t de Student com 7 (10-2-1) graus de liberdade, o valor de   que garante um nível de confiança de 95% é 2,3646. Como   é maior que 2,3646, a hipótese nula de que   é rejeitada com, pelo menos 95% de confiança. O mesmo também ocorre para  .

Referências

  1. Universidade de Berkeley, Econometrics Laboratory Software Archive. «Regression Analysis» (em inglês). Consultado em 18 de maio de 2011 
  2. «Karl Friedrich Gauss». Human Intelligence: Biographical profiles (em inglês). 20 de dezembro de 2016. Consultado em 8 de outubro de 2017 
  3. Memória, José Maria Pompeu (2004). «Breve História da Estatística». Brasília: Embrapa Informação Tecnológica. Texto para discussão (21). ISSN 1677-5473. Consultado em 8 de outubro de 2017 
  4. Stigler, S. M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900 (em inglês). Belknap: Harvard University Press. 410 páginas 

Ver tambémEditar

Ligações externasEditar