Em estatística e econometria, particularmente em análise de séries temporais, um modelo auto-regressivo integrado de médias móveis (autoregressive integrated moving average ou ARIMA, na sigla em inglês) é uma generalização de um modelo auto-regressivo de médias móveis (ARMA). Ambos os modelos são ajustados aos dados da série temporal para entender melhor os dados ou para prever pontos futuros na série. Modelos ARIMA são aplicados em alguns casos em que os dados mostram evidências de não estacionariedade, em que um passo inicial de diferenciação (correspondente à parte "integrada" do modelo) pode ser aplicado uma ou mais vezes para eliminar a não estacionariedade.[1]

A parte auto-regressiva (AR) do modelo ARIMA indica que a variável evoluinte de interesse é regressada em seus próprios valores defasados, isto é, anteriores. A parte de média móvel (MA) indica que o erro de regressão é na verdade uma combinação linear dos termos de erro, cujos valores ocorreram contemporaneamente e em vários momentos no passado. A parte integrada (I) indica que os valores de dados foram substituídos com a diferença entre seus valores e os valores anteriores e este processo diferenciador pode ter sido realizado mais de uma vez. O propósito da cada uma destas características é fazer o modelo se ajustar aos dados da melhor forma possível.[2]

Modelos ARIMA não sazonais são geralmente denotados como ARIMA(), em que os parâmetros , e são números inteiros não negativos, é a ordem (número de defasagens) do modelo auto-regressivo, é o grau de diferenciação (o número de vezes em que os dados tiveram valores passados subtraídos) e é a ordem do modelo de média móvel. Modelos ARIMA sazonais são geralmente denotados como ARIMA()(), em que se refere ao número de períodos em cada temporada e , e se referem aos termos de auto-regressão, diferenciação e média móvel para a parte sazonal do modelo ARIMA.[3][4]

Quando dois dos três termos são iguais a zero, o modelo pode ser referido com base no parâmetro diferente de zero, retirando "AR", "I" ou "MA" do acrônimo que descreve o modelo. Por exemplo, ARIMA() é AR(), ARIMA() é I() e ARIMA() é MA().

Modelos ARIMA podem ser estimados seguindo a abordagem de Box–Jenkins.[5]

Definição editar

Dada uma série temporal de dados  , em que   é um índice representado por um número inteiro e   são números reais, um modelo ARMA( ) é dado por:[6]

 

ou equivalentemente por

 

em que   é operador de defasagem,   são os parâmetros da parte auto-regressiva do modelo,   são os parâmetros da parte de média móvel e   são os termos de erro. Os termos de erro   são geralmente assumidos como variáveis independentes e identicamente distribuídas amostradas a partir de uma distribuição normal com média zero. Assuma agora que o polinômio   tem uma raiz unitária (um fator  ) de multiplicidade  . Então, isto pode ser rescrito como:

 

Um processo ARIMA( ) expressa a propriedade de fatoração deste polinômio com  , sendo dado por:

 

e assim pode ser pensado como um caso particular de um processo ARMA( ) que tem o polinômio auto-regressivo com   raízes unitárias. Por esta razão, nenhum modelo ARIMA com   é estacionário em sentido amplo. O que foi descrito acima pode ser generalizado como:

 

Isto define um processo ARIMA( ) com deriva  .

Outras formas especiais editar

A identificação explícita da fatoração do polinômio de auto-regressão em fatores como descrita acima pode ser estendida a outros casos, primeiramente para aplicar ao polinômio de média móvel e, em segundo lugar, para incluir outros fatores especiais. Por exemplo, ter um fator   em um modelo é uma forma de incluir uma sazonalidade não estacionária do período   no modelo. Este fator tem o efeito de reexpressar os dados como mudanças a partir de   períodos atrás. Outro exemplo é o fator  , que inclui uma sazonalidade não estacionária de período igual a 2. O efeito do primeiro tipo de fator é permitir ao valor de cada temporada derivar separadamente ao longo tempo, enquanto os valores do segundo tipo para temporadas adjacentes se movem juntos.[6]

A identificação e a especificação de fatores apropriados em um modelo ARIMA podem ser passos importantes na modelagem, já que permitem uma redução no número geral de parâmetros a serem estimados, enquanto autorizam a imposição de tipos de comportamento sugeridos pela lógica e pela experiência sobre o modelo.[6]

Diferenciação editar

A diferenciação em estatística é uma transformação aplicada aos dados de uma série temporal a fim de tornar esta série estacionária. As propriedades de uma série temporal estacionária não dependem do tempo em que a série é observada.

A fim de diferenciar os dados, a diferença entre observações consecutivas é computada. Matematicamente, isto é mostrado como:[7]

 

A diferenciação remove as mudanças no nível de uma série temporal, eliminando tendência e sazonalidade e consequentemente estabilizando a média da série temporal. Pode ser necessário às vezes diferenciar os dados uma segunda vez para obter uma série temporal estacionária, processo referido como diferenciação de segunda ordem:[8]

 

Outro método de diferenciar os dados é a diferenciação sazonal, que envolve computar a diferença entre uma observação e a observação correspondente no ano anterior. Isto é mostrado como:

 

Os dados diferenciados são então usados para a estimação de um modelo ARMA.

Exemplos editar

Alguns casos especiais bem conhecidos surgem naturalmente ou são matematicamente equivalentes a outros modelos de previsão populares. Por exemplo:

  • Um modelo ARIMA( ) (ou modelo I( )) é dado por   — que é simplesmente um passeio aleatório;
  • Um modelo ARIMA( ) com uma constante é dado por   — que é um passeio aleatório com deriva;
  • Um modelo ARIMA( ) é um modelo de ruído branco;
  • Um modelo ARIMA( ) é um modelo de Holt amortecido;
  • Um modelo ARIMA( ) sem uma constante é um modelo básico de suavização exponencial;[9]
  • Um modelo ARIMA( ) é dado por   — que é equivalente ao método linear de Holt com erros aditivos ou suavização exponencial dupla.[10]

Escolha da ordem editar

Para determinar a ordem de um modelo ARIMA não sazonal, um critério útil é o critério de informação de Akaike (AIC).[9] É escrito como:

 

em que   é verossimilhança dos dados,   é a ordem da parte auto-regressiva e   é a ordem da parte de média móvel. O parâmetro   neste critério é definido como o número de parâmetros no modelo sendo ajustado aos dados. Para o AIC, se  , então  , e se  , então  . O AIC corrigido para modelos ARIMA pode ser escrito como:

 

O critério de informação bayesiano (BIC) pode ser escrito como:

 

O objetivo é o minimizar os valores de AIC, AICc e BIC para um bom modelo. Quanto menor o valor de um destes critérios para uma gama de modelos investigados, melhor o modelo se adequará aos dados. Deve-se notar entretanto que o AIC e o BIC são usados para dois propósitos completamente diferentes. Enquanto o AIC tenta aproximar modelos da realidade da situação, o BIC tenta encontrar o ajuste perfeito. A abordagem do BIC é frequentemente criticada, já que nunca há um ajuste perfeito aos dados complexos da vida real. No entanto, ainda é um método útil para seleção, já que penaliza mais intensamente modelos por terem mais parâmetros do que o AIC faria.

O AICc pode ser usado apenas para comparar modelos ARIMA com as mesmas ordens de diferenciação. Para modelos ARIMA como ordens distintas de diferenciação, a raiz do erro quadrático médio pode ser usada para comparação de modelos.

Previsões com modelos ARIMA editar

O modelo ARIMA pode ser visto como uma "cascata" de dois modelos. O primeiro é não estacionário:

 

enquanto o segundo é estacionário em sentido amplo:

 

Agora, previsões podem ser feitas para o processo  , usando uma generalização do método de previsão auto-regressiva.[11]

Intervalos de previsão editar

Os intervalos de previsão (intervalos de confiança para previsões) para modelos ARIMA são baseados no pressuposto de que os resíduos são não correlacionados e normalmente distribuídos. Se um destes dois pressupostos não se aplicar, então, os intervalos de previsão podem estar incorretos. Por esta razão, pesquisadores mapeiam a função autocorrelação e o histograma dos resíduos para checar os pressupostos antes de produzirem os intervalos de previsão.

No caso de intervalo de previsão de 95%, tem-se:

 ,

em que   é a variância de  .

Para  ,   para todos os modelos ARIMA, independentemente dos parâmetros e das ordens.

No caso de um modelo ARIMA( ),  , temos:

 

Em geral, intervalos de previsão de modelos ARIMA aumentarão conforme o horizonte de previsão aumenta.

Variações e extensões editar

Uma quantidade de variações sobre o modelo ARIMA é comumente empregada. Se séries temporais múltiplas forem usadas, então,   podem ser pensados como vetores e um modelo auto-regressivo integrado de médias móveis vetorial (VARIMA).[12] Algumas vezes, suspeita-se de um efeito sazonal no modelo. Neste caso, geralmente é melhor usar um modelo auto-regressivo integrado de médias móveis sazonal (SARIMA) do que aumentar a ordem das partes AR ou MA do modelo.[13] Se se suspeitar que a série temporal exibe dependência de longo intervalo, então, pode-se permitir ao parâmetro   ter valores não inteiros em um modelo auto-regressivo fracionariamente integrado de médias móveis, que também é chamado de modelo ARIMA fracionário (FARIMA ou ARFIMA).[14]

Ver também editar

Referências editar

  1. «8.1 Stationarity and differencing | OTexts». www.otexts.org (em inglês). Consultado em 3 de agosto de 2017 
  2. Greene, William H. (1997). Econometric Analysis (em inglês). [S.l.]: Prentice Hall. ISBN 9780023466021 
  3. «SAS/ETS(R) 9.3 User's Guide». support.sas.com (em inglês). Consultado em 3 de agosto de 2017 
  4. «8.9 Seasonal ARIMA models | OTexts». www.otexts.org (em inglês). Consultado em 3 de agosto de 2017 
  5. Asteriou, Dimitrios; Hall, Stephen G. (12 de outubro de 2015). Applied Econometrics (em inglês). [S.l.]: Palgrave Macmillan. ISBN 9781137415479 
  6. a b c Vu, Ky M. (2007). The ARIMA and VARIMA Time Series: Their Modelings, Analyses and Applications (em inglês). [S.l.]: AuLac Technologies Inc. ISBN 9780978399610 
  7. TIME SERIES PROPERTIES OF ECONOMETRIC MODELS AND THEIR IMPLIED ARIMA REPRESENTATION. (em inglês). [S.l.]: University of MICHIGAN. 1982 
  8. Mills, Terence C. (13 de junho de 1991). Time Series Techniques for Economists (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521405744 
  9. a b Business, Fuqua School of. «Introduction to ARIMA models». people.duke.edu. Consultado em 3 de agosto de 2017 
  10. TimeModels.jl: Modeling time series in Julia, Julia Statistics, 2 de maio de 2017, consultado em 3 de agosto de 2017 
  11. Forecasting with limited information: ARIMA models of the trailer on flatcar transportation market (em inglês). [S.l.: s.n.] 1974 
  12. Pawlowsky-Glahn, Vera; Buccianti, Antonella (19 de setembro de 2011). Compositional Data Analysis: Theory and Applications (em inglês). [S.l.]: John Wiley & Sons. ISBN 9780470711354 
  13. Valipour, Mohammad (1 de julho de 2015). «Long-term runoff study using SARIMA and ARIMA models in the United States». Meteorological Applications (em inglês). 22 (3): 592–598. ISSN 1469-8080. doi:10.1002/met.1491 
  14. Shu, Yantai; Jin, Zhigang; Wang, Jidong; Yang, O. W. W. (2000). «Prediction-based admission control using FARIMA models». 2000 IEEE International Conference on Communications. ICC 2000. Global Convergence Through Communications. Conference Record. 3: 1325–1329 vol.3. doi:10.1109/icc.2000.853713