Uma série (ou sucessão) cronológica consiste num conjunto de valores quantitativos observados em períodos regulares de tempo. Este registo, normalmente identificado como \(y_{1}, y_{2}, ..., y_{n}\) ou \(y_{t}\) com t = 1, 2, ..., n, permite analisar a evolução ao longo do tempo de determinado fenómeno ou característica. Um dos grandes objectivos que se pretende atingir com essa análise é o cálculo de valores para períodos de tempo futuros, ou seja, uma boa parte da vezes o interesse da análise prende-se com a previsão. Podem existir séries cronológicas em qualquer àrea do conhecimento e a sua análise tem tido aplicação empírica em áreas tão diversas como a demografia, a meteorologia, o marketing ou a economia. Tomemos como exemplo os valores anuais das dormidas realizadas pelos turistas no alojamento recenseado desde 1995 apresentados na tabela seguinte:
Figura 5.1 - Número de dormidas dos turistas em Portugal no período1995 a 2013.
w |
Neste caso temos a variável de interesse: número de dormidas na hotelaria em Portugal, observada ano a ano, ou seja, com periodicidade anual. Portanto, admitindo que esta variável teria um comportamento linear a simples aplicação, a este conjunto de dados, de um método como o dos mínimos quadrados teria como resultado um ajustamento linear do tipo \(y=a+bt\). Desta forma obteríamos uma estimativa para o valor do crescimento médio anual das dormidas (b). No entanto, quando a periodicidade das séries é infra-anual é frequente encontrarmos padrões gráficos bastante diferentes daquele que é apresentado pela série das dormidas anuais. Se a série apresenta um padrão regular, então cada valor depende das observações anteriores. Existem um conjunto bastante diversificado de factores que influenciam o comportamento das variáveis. Por exemplo, o turismo é uma actividade económica que, em determinadas regiões, apresenta um padrão comum ao longo do tempo. Se registarmos o tempo em meses verifica-se que, de ano para ano, os meses homólogos apresentam valores próximos e determinados meses do mesmo ano registam valores bastante superiores (ou inferiores) aos outros. É portanto um fenómeno onde a componente sazonal domina a evolução dos dados. Neste contexto, podemos considerar que os valores da série são o resultado de várias componentes: • a componente tendência (\(T_t)\): que representa a evolução da série a longo prazo. A tendência pode ser linear ou não-linear, crescente, decrescente ou constante; • a componente sazonal (\(S_t)\): que representa as variações periódicas e sistemáticas de curto prazo (geralmente inferiores a um ano). • a componente cíclica (\(C_t)\): que corresponde a movimentos recorrentes, ascendentes ou descendentes, com duração geralmente superior a um ano. • a componente irregular (\(I_t)\): que agrupa os efeitos de todos os factores não sistemáticos e imprevisíveis. Na prática, todas as variações de uma série cronológica que não possam ser atribuídas às componentes anteriores, podem ser classificadas como irregularidades. O impacto de cada uma destas componentes em cada observação da série pode ser representado da seguinte forma: \begin{equation} \hspace{2cm}Y_t = f(T_t,S_t, C_t, I_t) \end{equation} ou seja, o valor observado em cada período é uma função das quatro componentes referidas. Se considerarmos que o efeito conjunto é cumulativo então podemos definir o seguinte modelo aditivo, $$\hspace{2cm}Y_t = T_t + S_t + C_t + I_t $$ Se, por outro lado, considerarmos que o efeito global é o produto das diferentes componentes então definimos o modelo multiplicativo $$\hspace{2cm}Y_t = T_t \times S_t \times C_t \times I_t $$ Independentemente do modelo considerado, a análise da série cronológica passa agora pela identificação de cada componente e pela sua eliminação das observações iniciais. A componente sazonal é muito frequente em séries económicas e a sua identificação poder ser efectuada de várias formas. A primeira pode ser feita através da simples representação gráfica da série. Uma outra forma consiste no cálculo de um índice de sazonalidade, cuja versão mais simples relaciona a média mensal com uma média global para o conjunto de observações da série. No contexto do turismo no Algarve podemos quantificar este fenómeno recorrendo, por exemplo, à serie do número de dormidas nos estabelecimentos hoteleiros. O Índice de sazonalidade, apresentado na tabela seguinte, evidencia, por exemplo, a diferença entre os meses de verão e os de inverno.
Em média, o número de dormidas em agosto quase duplica o número médio anual, enquanto em dezembro o número de dormidas fica 63% abaixo da média anual. | <\td> |
Fonte: Autor.
Adicionar Tendência (\(y = 1117275+293 x\)): Valores previstos : Série dessazonalizada :
ALISAMENTO EXPONENCIAL SIMPLES Fórmula recursiva que permite actualizar a estimativa do nível no instante t incorporando o valor observado para instante t-1 (conhecido). O parâmetro α é conhecido por parâmetro de alisamento e está limitado ao intervalo [0,1]. $$\hspace{2cm}n_{t} = \alpha\; y_{t}+(1-\alpha)\;n_{t-1}$$ Aplicando sucessivamente a expressão anterior para estimar os níveis de instantes progressivamente mais antigos, obtém-se: $$\hspace{2cm}n_{t} = \alpha\; y_{t}+\alpha(1-\alpha)\;y_{t-1}+\alpha(1-\alpha)^2y_{t-2} +\; ...\; +\alpha(1-\alpha)^jy_{t-j}+\; ...$$ Este método denomina-se Alisamento exponencial simples porque os pesos de cada y diminui de forma exponencial até 0. O modelo assume que os dados flutuam à volta de ma média relativamente estável (não existe tendência ou padrão de crescimento). Tratando-se de uma série estacionária podemos estimar k períodos $$\hspace{2cm}\hat{y}_{t+k} = \alpha\; y_{t}+(1-\alpha)\;n_{t-1}$$ $$\hspace{2cm}\hat{y}_{t+k} =n_{t}$$ Como é facilmente observável no gráfico anterior o alisamento exponencial simples não é um método adequado para realizar previsões em séries com uma componente sazonal. Quando as séries cronológicas apresentam tendência definida e sazonalidade o mesmo princípio da estimação recursiva pode ser utilizado na previsão de valores futuros. Neste caso, um método que lida bem com estas componentes é o método proposto por Holt e Winters.
MÉTODO HOLT-WINTERS Para séries em que um modelo de componentes aditivas possa ser mais adequado, os estimadores das componentes são: • nível: $$\hspace{2cm}n_{t} = \alpha(y_{t}-f_{t-s})+(1-\alpha)(n_{t-1}+b_{t-1}) $$ • tendência: $$\hspace{2cm}b_{t}=\beta(n_{t}-n_{t-1})+(1-\beta)b_{t-1}$$ • sazonalidade: $$\hspace{2cm}f_{t} = \gamma(y_{t}-n_{t})+(1-\gamma)f_{t-s} $$
e a função de previsão é: \(\hat{y}_{t+k} =n_{t}+kb_{t}+f_{t+k-ms}\) onde m = 1 para \(1 \leq k \leq s\) m = 2 para \(s \leq k \leq 2s\) etc. A inicialização pode ser efectuada ajustando um modelo de regressão linear às primeiras s observações: \(\hat{y}=a+ct\) e \(n_{s} = a+cs\) \(b_{s} =c\) \(f_{j}=y_{j}-(a+cj)\)
Para séries em que um modelo de componentes multiplicativas possa ser mais adequado, os estimadores das componentes são: • nível: $$\hspace{2cm}n_{t} = \alpha(\frac{y_{t}}{f_{t-s}})+(1-\alpha)(n_{t-1}+b_{t-1}) $$ • tendência: $$\hspace{2cm}b_{t}=\beta(n_{t}-n_{t-1}+(1-\beta)b_{t-1}$$ • sazonalidade: $$\hspace{2cm}f_{t} = \gamma(\frac{y_{t}}{n_{t}})+(1-\gamma)f_{t-s} $$ e a função de previsão é: \(\hat{y}_{t+k} =(n_{t}+kb_{t})\;f_{t+k-ms}\) onde m = 1 para \(1 \leq k \leq s\) m = 2 para \(s \leq k \leq 2s\) etc.
QUALIDADE DA PREVISÃO Para avaliar a qualidade das previsões (a sua precisão) para períodos de tempo posteriores (para o futuro), fornecidas por um determinado método, seria necessário calcular os respectivos desvios relativos à realidade observada. Contudo, os valores reais observados só existem para os períodos anteriores (para o passado). Deste modo opta-se por comparar os resultados das previsões com os valores históricos conhecidos. Ou seja, os erros \(e_t = y_t - \hat{y_t} \) com t = 1, 2, ..., n podem apenas ser calculados para os valores observados no passado. Neste contexto e como os erros tendem a anular-se foram criados vários indicadores, que quantificam os desvios entre valores observados e previstos, • Erro absoluto médio: $$\hspace{2cm}EAM = \frac{1}{n}\sum\limits_{t=1}^n |y_{t}- \hat{y_t}| $$ • Erro quadrático médio: $$\hspace{2cm}EQM = \frac{1}{n}\sum\limits_{t=1}^n (y_{t}- \hat{y_t})^{2} $$ • Desvio padrão do erro: $$\hspace{2cm}DPE = \sqrt{\frac{\sum\limits_{t=1}^n (y_{t}- \hat{y_t})^{2}}{n-1}} $$