Regressão não linear

Em estatística, a regressão não linear é uma forma de análise de regressão em que dados observacionais são modelados por uma função que é uma combinação não linear dos parâmetros do modelo e depende de uma ou mais variáveis independentes. Os dados são ajustados por um método de aproximações sucessivas.^[1]

Definição

Curva de saturação para uma enzima mostrando a relação entre a concentração do substrato (abcissas) e a velocidade de reação (ordenadas).

Os dados consistem de variáveis independentes livres de erro (variáveis explicativas) $x$ e suas variáveis dependentes observadas associadas (variáveis de resposta) $y$ . Cada $y$ é modelada como uma variável aleatória com uma média dada por uma função não linear $f(x,\beta )$ . O erro sistemático pode estar presente, mas seu tratamento está fora do escopo da análise de regressão. Se as variáveis independentes não estiverem livres de erro, este é um modelo com erros nas variáveis, também fora do escopo.^[2]

Por exemplo, o modelo de Michaelis–Menten para cinética de enzimas

v={\frac {V_{\max }\ [{\mbox{S}}]}{K_{m}+[{\mbox{S}}]}}

pode ser escrito como

f(x,{\boldsymbol {\beta }})={\frac {\beta _{1}x}{\beta _{2}+x}}

em que $\beta _{1}$ é o parâmetro $V_{\max }$ , $\beta _{2}$ é o parâmetro $K_{m}$ e $[{\mbox{S}}]$ é a variável independente $x$ . Esta função é não linear porque não pode ser expressa como uma combinação linear dos dois $\beta$ s.

Outros exemplos de funções não lineares incluem funções exponenciais naturais, crescimentos logarítmicos, funções trigonométricas, exponenciações, funções de Gauss e curvas de Lorenz. Algumas funções, tais como as funções exponenciais e logarítmicas, podem ser transformadas a fim de que se tornem lineares. Quando transformadas, a regressão linear padrão pode ser realizada, mas deve ser aplicada com cautela.

Em geral, não há expressão de forma fechada para os parâmetros mais bem ajustados, como há na regressão linear. Geralmente, algoritmos de otimização numérica são aplicados para determinar os parâmetros mais bem ajustados. De novo em contraste com a regressão linear, pode haver muitos mínimos locais da função a ser otimizada e mesmo o mínimo global pode produzir uma estimativa viesada. Na prática, valores estimados dos parâmetros são usados, em conjunção com o algoritmo de otimização, a fim de encontrar o mínimo global de uma soma de quadrados.

Estatística

O pressuposto subjacente a este procedimento é de que o modelo pode ser aproximado por uma função linear.

f(x_{i},{\boldsymbol {\beta }})\approx f^{0}+\sum _{j}J_{ij}\beta _{j}

em que $J_{ij}={\frac {\partial f(x_{i},{\boldsymbol {\beta }})}{\partial \beta _{j}}}$ . Segue-se disto que os estimadores dos mínimos quadrados são dados por

{\hat {\boldsymbol {\beta }}}\approx \mathbf {(J^{T}J)^{-1}J^{T}y} .

A estatística da regressão não linear é computada e usada como na estatística da regressão linear, mas usando ${\boldsymbol {J}}$ no lugar de ${\boldsymbol {X}}$ nas fórmulas. A aproximação linear introduz viés na estatística. Por isso, mais cautela ainda é exigida na interpretação da estatística derivada de um modelo não linear.

Mínimos quadrados ordinários e ponderados

Assume-se que a curva mais bem ajustada seja a que minimiza a soma dos quadrados dos resíduos.^[3] Esta é a abordagem dos mínimos quadrados ordinários. Entretanto, nos casos em que a variável dependente não tem variância constante, uma soma dos quadrados ponderados dos resíduos ponderados pode ser minimizada. Cada peso deve ser idealmente igual à recíproca da variância da observação, mas os pesos devem ser recomputados em cada iteração em um algoritmo de mínimos quadrados iterativamente ponderados.

Linearização

Relação entre rendimento da colza e salinidade do solo

Transformação

Alguns problemas da regressão não linear podem ser movidos para um domínio linear por uma transformação adequada da formulação do modelo.^[4]

Por exemplo, considere o problema da regressão não linear^[5]

y=ae^{bx}U\,\!

com parâmetros $a$ e $b$ e com termo de erro multiplicativo $U$ . Tomando o logaritmo de ambos os lados, isto se torna

\ln {(y)}=\ln {(a)}+bx+u,\,\!

em que $u=\ln(U)$ , sugerindo a estimação dos parâmetros desconhecidos por uma regressão linear de $\ln(y)$ em $x$ , uma computação que não requer otimização iterativa. Entretanto, o uso da transformação não linear exige cautela. As influências dos valores dos dados mudarão, assim como a estrutura de erro do modelo e a interpretação de quaisquer resultados inferenciais. Estes efeitos podem não ser desejados. Por outro lado, dependendo de qual seja a maior fonte de erro, uma transformação não linear pode distribuir os erros em uma forma gaussiana, logo, a escolha de fazer uma transformação não linear deve ser informada por considerações de modelagem.

Para a cinética de Michaelis-Menten, o diagrama linear de Lineweaver-Burk

{\frac {1}{v}}={\frac {1}{V_{\max }}}+{\frac {K_{m}}{V_{\max }[S]}}

de ${\frac {1}{v}}$ contra ${\frac {1}{[S]}}$ tem sido muito usado. Entretanto, por ser muito sensível a erros de dados e fortemente viesado em favor de ajustar os dados a um intervalo particular da variável independente $[S]$ , seu uso é fortemente desencorajado.

Para distribuições de erros que pertencem à família exponencial, uma função de ligação pode ser usada para transformar os parâmetros sob o quadro do modelo linear generalizado.

Segmentação

A variável independente ou explicativa $X$ pode ser dividida em classes ou segmentos e a regressão linear pode ser realizada por segmento. A regressão segmentada com análise de confiança pode fazer que a variável dependente ou de resposta $Y$ se comporte diferentemente nos vários segmentos.^[6]

A imagem ao lado mostra, por exemplo, que a salinidade do solo $X$ inicialmente não exerce influência no rendimento $Y$ da colza até um valor crítico, a partir do qual o rendimento é afetado negativamente.^[7]

Ver também

Referências

↑ Schittkowski, Klaus (5 de junho de 2013). Numerical Data Fitting in Dynamical Systems: A Practical Introduction with Applications and Software (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9781441957627
↑ Seber, George A. F.; Wild, C. J. (19 de setembro de 2003). Nonlinear Regression (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780471471356
↑ Meade, Nigel; Islam, Towhidul (1 de setembro de 1995). «Prediction intervals for growth curve forecasts». Journal of Forecasting (em inglês). 14 (5): 413–430. ISSN 1099-131X. doi:10.1002/for.3980140502
↑ Bethea, Robert M. (30 de março de 1995). Statistical Methods for Engineers and Scientists, Third Edition, (em inglês). [S.l.]: CRC Press. ISBN 9780824793357
↑ Mazucheli, Josmar; Achcar, Jorge Alberto (22 de abril de 2008). «Algumas considerações em regressão não linear». Acta Scientiarum. Technology. 24 (0): 1761–1770. ISSN 1807-8664
↑ Ritzema, H. P. (1 de janeiro de 1994). Drainage Principles and Applications (em inglês). [S.l.]: International Institute for Land Reclamation and Improvement. ISBN 9789070754334
↑ Oosterbaan, R.J. (2002). «Drainage Research in Farmers' Fields: Analysis of Data» (PDF). Liquid Gold. Consultado em 14 de junho de 2017

[1] Schittkowski, Klaus (5 de junho de 2013). Numerical Data Fitting in Dynamical Systems: A Practical Introduction with Applications and Software (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9781441957627

[2] Seber, George A. F.; Wild, C. J. (19 de setembro de 2003). Nonlinear Regression (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780471471356

[3] Meade, Nigel; Islam, Towhidul (1 de setembro de 1995). «Prediction intervals for growth curve forecasts». Journal of Forecasting (em inglês). 14 (5): 413–430. ISSN 1099-131X. doi:10.1002/for.3980140502

[4] Bethea, Robert M. (30 de março de 1995). Statistical Methods for Engineers and Scientists, Third Edition, (em inglês). [S.l.]: CRC Press. ISBN 9780824793357

[5] Mazucheli, Josmar; Achcar, Jorge Alberto (22 de abril de 2008). «Algumas considerações em regressão não linear». Acta Scientiarum. Technology. 24 (0): 1761–1770. ISSN 1807-8664

[6] Ritzema, H. P. (1 de janeiro de 1994). Drainage Principles and Applications (em inglês). [S.l.]: International Institute for Land Reclamation and Improvement. ISBN 9789070754334

[7] Oosterbaan, R.J. (2002). «Drainage Research in Farmers' Fields: Analysis of Data» (PDF). Liquid Gold. Consultado em 14 de junho de 2017

[1]

[2]

[3]

[4]

[5]

[6]

[7]