Analise de Séries Temporais

ANALISE DE SERIES TEMPORAIS
RICARDO S. EHLERS
Primeira publicao 2003 ca Segunda edio publicada em 2004 ca Terceira edio publicada em 2005 ca Quarta edio publicada em 2007 ca RICARDO SANDES EHLERS 2003-2007
Sumrio a
1 Introduo ca 2 Tcnicas Descritivas e 2.1 Decomposio Clssica . ca a 2.2 Sries com Tendncia . . e e 2.3 Sries Sazonais . . . . . e 2.4 Autocorrelao . . . . . ca 2.4.1 O Correlograma 1 7 7 7 12 12 14 20 20 21 22 22 22 23 24 26 31 32 35 36 37 41 42 43 45 45 46 54 54 54
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
3 Modelos Probabil sticos 3.1 Introduo . . . . . . . . . . . . . ca 3.2 Processos Estacionrios . . . . . . a 3.3 A Funo de Autocorrelao . . . . ca ca 3.4 Alguns Processos Estocsticos . . . a 3.4.1 Sequncia Aleatria . . . . e o 3.4.2 Passeio Aleatrio . . . . . . o 3.4.3 Processos de Mdia Mveis e o 3.4.4 Processos Autoregressivos . 3.4.5 Modelos Mistos ARMA . . 3.4.6 Modelos ARMA Integrados
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
4 Estimao ca 4.1 Autocovarincia e autocorrelao . . a ca 4.2 Ajustando Processos Autoregressivos 4.3 Ajustando Processos Mdias Mveis e o 4.4 Ajustando Processos ARMA . . . . . 4.5 Modelos Sazonais . . . . . . . . . . . 4.6 Adequao do Modelo . . . . . . . . ca 4.6.1 Anlise dos Res a duos . . . . . 4.6.2 Testes sobre os res duos . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
. . . . . . . .
5 Previso a 5.1 Mtodos Univariados de Previso . . . . . . . . . . . . . . . . . . . . . e a 5.1.1 Alisamento Exponencial Simples . . . . . . . . . . . . . . . . . i
ii 5.1.2 Mtodo de Holt-Winters . . . e Previso em Modelos ARMA . . . . a Performance Preditiva . . . . . . . . Critrios de Informao . . . . . . . e ca Previses Usando Todos os Modelos o Previso Bayesiana . . . . . . . . . . a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
SUMARIO . . . . . . . . . . . . . . . . . . . . . . . . 58 60 64 66 69 70 75 75 76 82 83 84 85 89 89 91 92 94 97 98 98 99 99 100 101 102 108 108 108 109 109 109 109 110 110 110 111 111 111 111
5.2 5.3 5.4 5.5 5.6
6 Modelando a Varincia a 6.1 Introduo . . . . . . . ca 6.2 Modelos ARCH . . . . . 6.3 Modelos GARCH . . . . 6.3.1 Estimao . . . . ca 6.3.2 Adequao . . . ca 6.4 Volatilidade Estocstica a
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
7 Modelos Lineares Dinmicos a 7.1 Introduo . . . . . . . . . . . . . . . . . . . . . ca 7.2 Modelos Polinomiais . . . . . . . . . . . . . . . . 7.2.1 Anlise Sequencial e Previses . . . . . . a o 7.2.2 Varincias de Evoluo e das Observaes a ca co 7.3 Modelo de Crescimento Linear . . . . . . . . . . 7.4 Modelos Sazonais . . . . . . . . . . . . . . . . . . 7.4.1 Modelos sem Crescimento . . . . . . . . . 7.4.2 Modelos com Crescimento . . . . . . . . . 7.5 Representao de Fourier . . . . . . . . . . . . . ca 7.6 Ilustrao . . . . . . . . . . . . . . . . . . . . . . ca 7.7 Modelos de Regresso . . . . . . . . . . . . . . . a 7.8 Monitoramento . . . . . . . . . . . . . . . . . . . A Lista de Distribuioes c A.1 Distribuio Normal . . . . . . ca A.2 Distribuio Gama . . . . . . . ca A.3 Distribuio Wishart . . . . . . ca A.4 Distribuio Gama Inversa . . . ca A.5 Distribuio Wishart Invertida ca A.6 Distribuio Beta . . . . . . . . ca A.7 Distribuio de Dirichlet . . . . ca A.8 Distribuio t de Student . . . ca A.9 Distribuio F de Fisher . . . . ca A.10 Distribuio Binomial . . . . . ca A.11 Distribuio Multinomial . . . ca A.12 Distribuio de Poisson . . . . ca A.13 Distribuio Binomial Negativa ca
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
SUMARIO References
iii 113
Cap tulo 1
Introduo ca
Uma srie temporal uma coleo de observaes feitas sequencialmente ao longo do e e ca co tempo. A caracter stica mais importante deste tipo de dados que as observaes vize co inhas so dependentes e estamos interessados em analisar e modelar esta dependncia. a e Enquanto em modelos de regresso por exemplo a ordem das observaes irrelevante a co e para a anlise, em sries temporais a ordem dos dados crucial. Vale notar tambm a e e e que o tempo pode ser substituido por outra varivel como espao, profundidade, etc. a c Como a maior parte dos procedimentos estat sticos foi desenvolvida para analisar observaes independentes o estudo de sries temporais requer o uso de tcnicas esco e e pec cas. Dados de sries temporais surgem em vrios campos do conhecimento como e a Economia (preos dirios de aes, taxa mensal de desemprego, produo industrial), c a co ca Medicina (eletrocardiograma, eletroencefalograma), Epidemiologia (nmero mensal u de novos casos de meningite), Meteorologia (precipitao pluviomtrica, temperatura ca e diria, velocidade do vento), etc. a Algumas caracter sticas so particulares a este tipo de dados, por exemplo, a Observaes correlacionadas so mais dif co a ceis de analisar e requerem tcnicas e espec cas. Precisamos levar em conta a ordem temporal das observaes. co Fatores complicadores como presena de tendncias e variao sazonal ou c c e ca clica podem ser dif ceis de estimar ou remover. A seleo de modelos pode ser bastante complicada, e as ferramentas podem ser ca de dif interpretao. cil ca E mais dif de lidar com observaes perdidas e dados discrepantes devido ` cil co a natureza sequencial.
Terminologia
Uma srie temporal dita ser cont e e nua quando as observaes so feitas continuamente co a no tempo. Denindo o conjunto T = {t : t1 < t < t2 } a srie temporal ser denotada e a 1
CAP ITULO 1. INTRODUCAO
Note que estes termos no se referem ` varivel observada X, esta pode assumir a a a valores discretos ou cont nuos. Em muitas situaes X pode ser discreta por denio co ca (e.g. o nmero de casos noticados de AIDS) porm para efeito de anlise estat u e a stica pode ser tratada como continua se os seus valores observados no forem muito a pequenos.
por {X(t) : t T }. Uma srie temporal dita ser discreta quando as observaes e e co so feitas em tempos espec a cos, geralmente equiespaados. Denindo o conjunto c T = {t1 , . . . , tn } a srie temporal ser denotada por {Xt : t T }. Por simplicidade e a podemos fazer T = {1, 2, . . . , n}.
Por outro lado, sries temporais discretas podem surgir de vrias formas. Sries e a e cont nuas podem ser discretizadas, i.e. seus valores so registrados a certos intervalos a de tempo. Sries de valores agregados ou acumulados em intervalos de tempo, por exe emplo exportaes medidas mensalmente ou quantidade de chuva medida diariamente. co Finalmente, algumas sries so inerentemente discretas, por exemplo dividendos pagos e a por uma empresa aos seus acionistas em anos sucessivos. Uma srie temporal tambm pode ser multivariada. Se k variveis so observadas e e a a a cada tempo (por exemplo discreto) denota-se por {X1t , . . . , Xkt , t T }. Neste caso vrias sries correlacionadas devem ser analisadas conjuntamente, ou seja em cada a e tempo tem-se um vetor de observaes. co
Objetivos
Em algumas situaes o objetivo pode ser fazer previses de valores futuros enquanto co o em outras a estrutura da srie ou sua relao com outras sries pode ser o interesse e ca e principal. De um modo geral, os principais objetivos em se estudar sries temporais e podem ser os seguintes, Descrio. Descrever propriedades da srie, e.g. o padro de tendncia, existnca e a e e cia de variao sazonal ou c ca clica, observaes discrepantes (outliers), alteraes co co estruturais (e.g. mudanas no padro da tendncia ou da sazonalidade), etc. c a e Explicao. Usar a variao em uma srie para explicar a variao em outra ca ca e ca srie. e Predio: predizer valores futuros com base em valores passados. Aqui assumeca se que o futuro envolve incerteza, ou seja as previses no so perfeitas. Porm o a a e devemos tentar reduzir os erros de previso. a Controle. Os valores da srie temporal medem a qualidade de um processo e de manufatura e o objetivo o controle do processo. Um exemplo o controle e e estat stico de qualidade aonde as observaes so representadas em cartas de co a controle. Este tpico no ser abordado nestas notas de aula. o a a
Abordagens
Tcnicas Descritivas. Tcnicas grcos, identicao de padres, etc. e e a ca o Modelos Probabil sticos. Seleo, comparao e adequao de modelos, estica ca ca mao, predio. Ferramenta bsica a funao de autocorrelaao. ca ca a e c c Anlise espectral. a Mtodos no paramtricos (alisamento ou suavizao). e a e ca Outras Abordagens. Modelos de espao de estados, modelos no lineares, sries c a e multivariadas, estudos longitudinais, processos de longa dependncia, modelos e para volatilidade, etc.
Sazonalidade
Muitas sries temporais exibem um comportamento que tende a se repetir a cada s e per odos de tempo. Por exemplo, natural esperar que as vendas mensais de brinquee dos tero um pico no ms de dezembro e talvez um pico secundrio em outubro. Este a e a padro possivelmente se repetir ao longo de vrios anos. Vejamos alguns poss a a a veis modelos sazonais, 1. Sazonalidade deterministica. Variveis dummies (binrias). O coeciente de a a cada varivel dummy representa o fator sazonal do respectivo ms, trimestre, a e etc. 2. Funes trigonomtricas. co e 3. Sazonalidade estocstica: a (a) Varivel endgena com defasagem sazonal no modelo (modelos ARMA a o peridicos), o (b) modelo ARMA sazonal.
Tipos de Sazonalidade
Aditiva. A srie apresenta utuaes sazonais mais ou menos constantes no e co a importando o n global da srie. vel e Multiplicativa. O tamanho das utuaes sazonais varia dependendo do n co vel global da srie. e No exemplo dos brinquedos, suponha que o aumento esperado nas vendas nos meses de dezembro de 1 milho de reais em relao ` mdia anual. Ento as e a ca a e a previses para os meses de dezembro dos prximos anos deve somar a quantia de 1 o o milho de reais ` uma mdia anual para levar em conta esta utuao sazonal. Isto a a e ca o que se chama de sazonalidade aditiva. e
Suponha agora que o aumento esperado nos meses de dezembro seja de 30%. Ento o aumento esperado (em valor absoluto) de vendas em dezembro ser pequeno a a ou grande dependendo da mdia anual de vendas ser baixa ou alta. Nas previses e o para os prximos meses de dezembro deve-se multiplicar a mdia anual pelo fator 1,3. o e Isto o que se chama de sazonalidade multiplicativa. e
Tendncia e
Globalmente, uma srie pode exibir tendncia de crescimento (ou decrescimento) com e e vrios poss a veis padres. o Crescimento linear. Por exemplo, a cada ano o aumento esperado nas vendas de um certo brinquedo de 1 milho de reais. e a Crescimento exponencial. Por exemplo, a cada ano as vendas de um certo brinquedo aumentam de um fator 1,3. Crescimento amortecido. Por exemplo, as vendas de um certo brinquedo tem uma aumento esperado de 70% sobre o ano anterior. Se o aumento esperado for de 1 milho de reais no primeiro ano, no segundo ano ser de 700 mil reais, no a a terceiro ano ser de 490 mil reais e assim por diante. a
Exemplos de Sries Temporais e

Como primeira ilustrao so apresentadas na Figura 1.1 quatro sries temporais ca a e dispon veis no pacote R. Nos eixos horizontais aparecem os anos de observao e nos ca eixos verticais os nomes das sries (mesmos nomes do R). A Figura 1.1a mostra totais e mensais de passageiros em linhas areas internacionais nos EUA entre 1949 e 1960. e Existe uma clara tendncia de crescimento bem como um padro sazonal ao longo e a dos anos. A Figura 1.1b mostra a srie com o nmero anual de linces capturados em e u armadilhas entre 1821 e 1934 no Canad. Existe um padro c a a clico em torno de 10 ou 11 anos. A Figura 1.1c mostra a srie com as medies anuais de vazes do Rio Nilo e co o em Ashwan entre 1871 e 1970. Parece haver alguma alterao estrutural em torno do ca ano de 1900. Finalmente a Figura 1.1d mostra a srie trimestral do consumo de gs no e a Reino Unido entre o primeiro trimestre de 1960 e o quarto trimestre de 1986. H uma a tendncia de crescimento porm a amplitude do padro sazonal aumenta bastante a e e a partir de 1971.
AirPassengers
500
300
lynx 1950 1954 (a) 1958 0 1820 2000
100
5000
1860 (b)
1900
1400
1000
UKgas 1880 1920 (c) 1960
Nile
600
200 1960
600
1000
1970 (d)
1980
Figura 1.1: (a) Totais mensais de passageiros em linhas areas internacionais nos EUA e entre 1949 e 1960, (b) nmero anual de linces capturados em armadilhas entre 1821 u e 1934 no Canad, (c) medies anuais de vazes do Rio Nilo em Ashwan entre 1871 a co o e 1970, (d) consumo de gs no Reino Unido entre o primeiro trimestre de 1960 e o a quarto trimestre de 1986.
Exerc cios
1. Classique as seguintes sries temporais quanto ao tempo e quanto a varivel e a observada. (a) Registros de mar durante 1 dia. e (b) Medidas de temperatura em uma estao meteorolgica. ca o (c) O ndice dirio da bolsa de valores de So Paulo. a a (d) A inao mensal medida pelo ca ndice de preos ao consumidor. c (e) Variao diria de um determinado ca a ndice nanceiro, 1 para variao posca itiva, -1 para variao negativa ou zero se no ocorreu variao. ca a ca (f) Nmero mensal de novos casos de Dengue em uma determinada regio. u a 2. D exemplos de sries temporais continuas que poderiam ser discretizadas (e de e e que forma).
Cap tulo 2
Tcnicas Descritivas e
Ao se analisar uma ou mais sries temporais a representao grca dos dados see ca a quencialmente ao longo do tempo fundamental e pode revelar padres de comportae o mento importantes. Tendncias de crescimento (ou decrescimento), padres c e o clicos, alteraes estruturais, observaes aberrantes, etc. so muitas vezes facilmente idenco co a ticados. Sendo assim, o grco temporal deve ser sempre o primeiro passo e antecede a qualquer anlise. Outras ferramentas sero descritas ao longo deste cap a a tulo.
2.1
Decomposio Clssica ca a
Muitas das propriedades observadas em uma srie temporal Xt podem ser captadas e assumindo-se a seguinte forma de decomposio ca Xt = Tt + Ct + Rt onde Tt uma componente de tendncia, Ct uma componente c e e e clica ou sazonal e Rt uma componente aleatria ou ru (a parte no explicada, que espera-se ser e o do a puramente aleatria). A componente c o clica se repete a cada intervalo xo s, i.e. = Ct2s = Cts = Ct = Ct+s = Ct+2s = . . . . Assim, variaes peridicas podem ser captadas por esta componente. co o
2.2
Sries com Tendncia e e
No existe uma denio precisa de tendncia e diferentes autores usam este termo de a ca e diferentes formas. Podemos pensar em tendncia como uma mudana de longo prazo e c no n mdio da srie. A diculdade aqui denir longo prazo. vel e e e A forma mais simples de tendncia e e Xt = + t + t (2.1)
onde e so constantes a serem estimadas e t denota um erro aleatrio com mdia a o e zero. O n mdio da srie no tempo t dado por mt = + t que algumas vezes vel e e e e 7
CAP ITULO 2. TECNICAS DESCRITIVAS
chamado de termo de tendncia. Porm alguns autores preferem chamar a inclinao e e ca de tendncia, ou seja a mudana no n e c vel da srie por unidade de tempo j que e a = mt mt1 . Note que a tendncia na equao (2.1) uma funo determin e ca e ca stica do tempo e algumas vezes chamada de tendncia global (i.e. vale para toda a srie), e e e em oposio a tendncia local. ca e De um modo geral, uma forma de se lidar com dados no sazonais que contenham a uma tendncia consiste em ajustar uma funo polinomial, e ca Xt = 0 + 1 t + + p tp + t . Uma funo linear ou quadrtica seria apropriada no caso de uma tendncia monoca a e tonicamente crescente ou decrescente. Caso contrrio polinmios de ordem mais alta a o devem ser ajustados. Outras poss veis formas de tendncia so os crescimentos descritos por uma curva e a Gompertz, log xt = a + brt onde a, b e r so parmetros com 0 < r < 1, ou uma curva Log a a stica, xt = a/(1 + bect ) onde a, b e c so parmetros. Estas duas ultimas so chamadas curvas S e se aproxa a a imam de uma ass ntota quando t . Neste caso o ajuste pode levar a equaes co no lineares. a Seja qual for a curva utilizada, a funo ajustada fornece uma medida da tendncia ca e da srie, enquanto os res e duos (valores observados valores ajustados) fornecem uma estimativa de utuaes locais. co Exemplo 2.1 : A Figura 2.1 mostra as medies anuais de vazes do Rio Nilo em co o Ashwan entre 1871 e 1970 juntamente com polinmios de graus 3 e 6 superimpostos. o Os polinmios foram ajustados por m o nimos quadrados usando os comandos do R a seguir. A srie original com as tendncias estimadas aparecem na Figura (2.1). e e > + + + + + + + + > > mypolytrend = function(y, degree = 1) { n = length(y) x = 1:n X = matrix(NA, n, degree) for (i in 1:degree) X[, i] = x^i a = as.numeric(lm(y ~ X)$coeff) out = cbind(rep(1, n), X) %*% a return(ts(out, start = start(y), freq = frequency(y))) } z3 = mypolytrend(Nile, 3) z6 = mypolytrend(Nile, 6)
2.2. SERIES COM TENDENCIA
1400
Vazoes
600
800
1000
1200
observado tendencia grau 3 tendencia grau 6
1880
1900
1920
1940
1960
Figura 2.1: Medies anuais de vazes do Rio Nilo em Ashwan entre 1871 e 1970 (pontos), co o
com polinmios de graus 3 e 6 ajustados por minimos quadrados. o
Regresso Local a
A idia aqui estimar para cada t uma equao de regresso polinomial diferente, e e ca a por exemplo xt = (t) + (t)t. Note que as estimativas de e dependem do tempo o que d o carter local das a a retas de regresso. a O procedimento conhecido como loess um procedimento iterativo que a cada e passo aplica a regresso local anterior, calcula os res a duos xt xt e aplica novamente a regresso local dando peso menor `s observaes com res a a co duos maiores. Este procedimento se repete at atingir convergncia. e e Exemplo 2.2 : A Figura 2.2 apresenta os mesmos dados da Figura 2.1 sendo que as curvas superimpostas foram obtidas usando regresso local com os comandos do R a a seguir.
10
1400
Vazoes
600
800
1000
1200
observado tendencia f=1 tendencia f=0.25
1880
1900
1920
1940
1960
Figura 2.2: Medies anuais de vazes do Rio Nilo em Ashwan entre 1871 e 1970 (pontos), co o
tendncia estimada via funo lowess. e ca
Filtragem
Outro procedimento para analisar sries com tendncia atravs de ltros lineares. e e e e Um ltro linear converte uma srie {xt } em outra {yt } atravs da seguinte operao e e ca linear
s
yt =
j=q
aj xt+j
Mdias mveis so em geral simtricas com s = q e ar = ar . Por exemplo, se e o a e s = q = 2 temos que yt = a2 xt2 + a1 xt1 + a0 xt + a1 xt+1 + a2 xt+2 .
onde {aj } um conjunto de pesos. Alm disso, como queremos estimar a mdia local e e e s os pesos devem ser tais que j=q aj = 1, garantindo assim que min{xt } < yt < max{xt }. Neste caso a operao chamada mdia mvel. ca e e o
O caso mais simples quando todos os pesos aj tem o mesmo valor e devido ` restrio e a ca de soma 1 segue que aj = 1/(2q +1), para j = q, . . . , q. Neste caso, o valor suavizado
2.2. SERIES COM TENDENCIA de xt dado por e yt = 1 2q + 1
11
xt+j .
j=q
Qualquer que seja o ltro utilizado, yt uma estimativa da tendncia no tempo t e e e xt yt uma srie livre de tendncia. e e e Exemplo 2.3 : A Figura 2.3 apresenta a srie com os totais mensais de passageiros e de linhas areas internacionais nos EUA, entre 1949 e 1960 (Box, Jenkins and Reinsel, e 1976) juntamente com a tendncia estimada superimposta. Foram aplicados ltros e lineares com mdias mveis aproximadamente trimestrais (q = 2) e mdias mveis e o e o aproximadamente anuais (q = 5).
Numero de passageiros (em milhares)
500
600
100
200
300
400
dados Media Movel q=2 Media Movel q=5
1950
1952
1954 Anos
1956
1958
1960
Figura 2.3: Totais mensais de passageiros de linhas areas internacionais nos EUA, com e
a tendncia superimposta aplicando mdias mveis aproximadamente trimestrais (q = 2) e e e o mdias mveis aproximadamente anuais (q = 5). e o
Note que, para a aplicao de qualquer ltro simtrico os valores suavizados s ca e o podem ser calculados para t = q + 1, . . . , n q e assim a srie suavizada ter n 2q e a valores. Em algumas situaes no entanto importante obter valores suavizados at co e e o per odo t = n e uma alternativa utilizar um ltro assimtrico que usa apenas os e e valores atual e passados de xt . Por exemplo na tcnica conhecida como alisamento e
12
exponencial os valores suavizados so dados por a
yt =
j=0
(1 )j xtj
onde 0 < < 1. Note como, embora todas as observaes passadas sejam usadas no co j decaem geometricamente com j. Quanto mais prximo de 1 ltro, os pesos (1 ) o estiver mais peso ser dado `s observaes mais recentes e quanto mais prximo de a a co o zero mais os pesos estaro distribuidos ao longo da srie. Por exemplo se = 0, 90 a a e srie ltrada ca yt = 0, 9xt + 0, 09xt1 + 0, 009xt2 + . . . enquanto que para = 0, 1 e temos que yt = 0, 1xt + 0, 09xt1 + 0, 081xt2 + . . . . Este tipo de ltro pode ser utilizado para fazer previses. Especicamente a o previso da srie original em t + 1 ser o valor ltrado yt (mais detalhes no Cap a e a tulo 5).
Diferenciao ca
Um tipo especial de ltro, muito util para remover uma componente de tendncia e polinomial, consiste em diferenciar a srie at que ela se torne estacionria (este cone e a ceito ser formalizado no Cap a tulo 3). Para dados no sazonais, a primeira diferena a c e em geral suciente para induzir estacionariedade aproximada. A nova srie y2 , . . . , yn e formada a partir da srie original x1 , . . . , xn como e e yt = xt xt1 = xt . Note que isto nada mais do que um ltro (assimtrico) com coecientes 1 e -1. e e Diferenciao de primeira ordem a mais utilizada sendo que ocasionalmente uma ca e diferenciao de segunda ordem pode ser requerida, i.e. ca yt = 2 xt = (xt xt1 ) = xt 2xt1 + xt2 . Alm disso, independente do seu uso para induzir estacionariedade, a diferencie ao pode ser muito util como ferramenta exploratria. Observaes discrepantes por ca o co exemplo podem ter um efeito dramtico na srie diferenciada e uma representao a e ca grca em geral suciente para identicar tais pontos. a e
2.3
Sries Sazonais e
Uma forma bastante simples de eliminar o efeito sazonal simplesmente tomar mdias e e sazonais. Por exemplo, em dados mensais com sazonalidade anual, as mdias anuais e estaro livres do efeito sazonal. Embora este procedimento esteja correto muitos dados a sero perdidos e ao invs disto pode-se recorrer mais uma vez `s mdias mveis. a e a e o
2.4
Autocorrelao ca
Uma importante ferramenta para se identicar as propriedades de uma srie teme poral consiste de uma srie de quantidades chamadas coecientes de autocorrelaao e c
2.4. AUTOCORRELACAO
13
amostral. A idia similar ao coeciente de correlao usual, i.e. para n pares de e e ca observaes das variveis x e y o coeciente de correlao amostral dado por co a ca e
n i=1 n i=1
r=
(xi x)(yi y)
n
(2.2)
(xi x)2
i=1
(yi y)2
Aqui no entanto queremos medir a correlao entre as observaes de ca co uma mesma varivel em diferentes horizontes de tempo, i.e. correlaes ena co tre observaes defasadas 1, 2, . . . per co odos de tempo. Assim, dadas n observaes x1 , . . . , xn de uma srie temporal discreta podemos formar os pares co e (x1 , x2 ), . . . , (xn1 , xn ). Considerando x1 , . . . , xn1 e x2 , . . . , xn como duas variveis a o coeciente de correlao entre elas dado por ca e
n1 t=1 n1 t=1
r1 =
(xt x1 )(xt+1 x2 )
n1 t=1
(2.3)
(xt x1 )2
(xt+1 x2 )2
n
onde as mdias amostrais so e a

n1
x1 =
t=1
xt /(n 1)
e x2 =
t=2
xt /(n 1).
Como o coeciente r1 mede as correlaes entre observaes sucessivas ele chamado co co e de coeciente de autocorrelao ou coeciente de correlao serial. ca ca E usual simplicar a equao (2.3) utilizando-se a mdia de todas as observaes, ca e co
n
i.e. x =
t=1
xt /n j que x1 x2 , e assumindo varincia constante. Assim, a verso a a a

n1 t=1
simplicada de (2.3) ca (xt x)(xt+1 x)

n
r1 =
(2.4)
(n 1)
t=1
(xt x) /n
sendo que alguns autores ainda retiram o termo n/(n 1) que prximo de 1 para e o n no muito pequeno. Esta ultima forma simplicada, sem o termo n/(n 1) ser a a utilizada neste texto. A equao (2.4) pode ser generalizada para calcular a correlao entre observaes ca ca co defasadas de k per odos de tempo, i.e.
nk t=1
rk =
(xt x)(xt+k x)
n t=1
(2.5)
(xt x)
14
fornece o coeciente de autocorrelao de ordem k. Assim como o coeciente de ca correlao usual, as autocorrelaes so adimensionais e 1 < rk < 1. ca co a Na prtica mais usual calcular primeiro os coecientes de autocovarincia {ck }, a e a denidos por analogia com a frmula usual de covarincia, i.e. o a
nk
ck =
t=1
(xt x)(xt+k x)/n, k = 0, 1, . . . .
Os coecientes de autocorrelao so ento obtidos como rk = ck /c0 . ca a a
2.4.1
O Correlograma
Um grco com os k primeiros coecientes de autocorrelao como funo de k a ca ca e chamado de correlograma e pode ser uma ferramenta poderosa para identicar caracter sticas da srie temporal. Porm isto requer uma interpretao adequada do e e ca correlograma, i.e. devemos associar certos padres do correlograma como determio nadas caracter sticas de uma srie temporal. Esta nem sempre uma tarefa simples e e e a seguir so dadas algumas indicaes. a co
Sries aleatrias e o
A primeira questo que podemos tentar responder atravs do correlograma se uma a e e srie temporal aleatria ou no. Para uma srie completamente aleatria os valores e e o a e o defasados so no correlacionados e portanto espera-se que rk 0, k = 1, 2, . . . . a a Suponha que x1 , . . . , xn sejam variveis aleatrias independentes e identicamente a o distribuidas com mdia arbitrrias. Ento, pode-se mostrar que o coeciente de aue a a tocorrelao amostral rk assintoticamente normalmente distribuido, com mdia e ca e e varincia dados por a E(rk ) 1/n e V ar(rk ) 1/n.
(ver Kendall, Stuart, & Ord 1983, Cap tulo 48). Portanto, limites de conana aproc ximados de 95% so dados por 1/n 1, 96/ n, que so frequentemente ainda mais a a aproximados para 1, 96/ n. Isto ilustra uma das diculdades de interpretar o correlograma j que, mesmo para a uma srie completamente aleatria, espera-se que 1 em cada 20 coecientes rk esteja e o fora destes limites. Por outro lado, um valor muito grande de rk tem menos chance de ter ocorrido ao acaso do que um valor que est apenas ligeiramente fora dos limites. a A Figura 2.4 mostra uma srie temporal com 100 observaes independentes e e co identicamente distribuidas geradas no computador juntamente com o seu correlo grama. Neste caso os limites de conana de 95% so aproximadamente 2/ 100 = c a 0,2 e podemos notar que 2 dentre as 20 primeiras autocorrelaes esto ligeiramente co a fora destes limites. No entanto isto ocorre em defasagens aparentemente arbitrrias a (12 e 18) e podemos concluir que no h evidncia para rejeitar a hiptese de que as a a e o observaes so independentes. co a
2.4. AUTOCORRELACAO
15
observaes
3 0
20
40 tempo
60
80
100
autocorrelaoes
0.2 0
0.4
1.0
10 defasagem
15
20
Figura 2.4: (a) 100 observaes simuladas independentes e identicamente distribuidas. (b) co
20 primeiras autocorrelaes amostrais. co
Correlao de curto-prazo ca
Uma srie temporal na qual uma observao acima da mdia tende a ser seguida e ca e por uma ou mais observaes acima da mdia, similarmente para observaes abaixo co e co da mdia, dita ter correlao de curto-prazo. Um correlograma desta srie dever e e ca e a exibir um valor relativamente grande de r1 seguido por valores que tendem a car sucessivamente menores. A partir de uma certa defasagem k os valores de rk tendem a ser aproximadamente zero. Na Figura 2.5 temos 50 observaes geradas de acordo co com o processo xt = 0, 7xt1 + t juntamente com o seu correlograma.
Correlao negativa ca
Se os valores de uma srie temporal tendem a se alternar acima e abaixo de um valor e mdio, o correlograma desta srie tambm tende a se alternar. O valor de r1 ser e e e a negativo enquanto o valor de r2 ser positivo j que as observaes defasadas de 2 a a co per odos tendem a estar do mesmo lado da mdia. Esta caracter e stica est ilustrada a na Figura 2.6 aonde temos 50 observaes simuladas com autocorrelaes negativas co co juntamente com as 15 primeiras autocorrelaes amostrais. co
16
observacoes
4 0
10
20 tempo
30
40
50
autocorrelacoes
0.2 0
0.4
1.0
5 defasagem
10
15
Figura 2.5: (a) 50 observaes simuladas com autocorrelaes de curto-prazo. (b) 16 co co

primeiras autocorrelaes amostrais. co
Sries no estacionrias e a a
Para uma srie temporal com tendncia os valores de rk no decairo para zero a e e a a no ser em defasagens grandes. Intuitivamente, isto ocorre porque uma observao a ca de um lado da mdia tende a ser seguida por um grande nmero de observaes do e u co mesmo lado (devido ` tendncia). Neste caso, pouca ou nenhuma informao pode a e ca ser extraida do correlograma j que a tendncia dominar outras caracter a e a sticas. Na verdade, como veremos em outros cap tulos a funo de autocorrelao s tem um ca ca o signicado para sries estacionrias, sendo assim qualquer tendncia deve ser removida e a e antes do clculo de {rk }. a A Figura 2.7 mostra uma srie temporal com 50 observaes geradas segundo o e co modelo xt = xt1 + t , juntamente com o seu correlograma. Note que a no estacionaa riedade da srie ca evidenciada no correlograma j que as autocorrelaes amostrais e a co decaem muito lentamente.
Variao sazonal ca
Um padro sazonal em geral facilmente identicado no correlograma. De fato, se a e uma srie temporal contem utuaes sazonais o correlograma ir exibir oscilaes na e co a co
2.4. AUTOCORRELACAO
17
observacoes
2 0
10
20 tempo
30
40
50
autocorrelacoes
0.5 0
0.5
5 defasagem
10
15
Figura 2.6: (a) 50 observaes simuladas com autocorrelaes negativas. (b) 15 primeiras co co
autocorrelaes amostrais. co
mesma frequncia. Por exemplo, com observaes mensais r6 ser grande e negativo e co a enquanto r12 ser grande e positivo. Na verdade, se o padro sazonal j for evidente no a a a grco da srie original o correlograma trar pouca ou nenhuma informao adicional. a e a ca
Observaes discrepantes co
Se uma srie temporal contem uma ou mais observaes discrepantes (outliers) o core co relograma pode ser seriamente afetado. No caso de uma unica observao discrepante ca o grco de xt contra xt+k ter pontos extremos o que pode viesar os coecientes a a de correlao para zero. Com dois valores discrepantes o efeito pode ser ainda mais ca devastador, alm de gerar uma correlao espria quando k igual ` distncia entre e ca u e a a os valores.
18
observacoes
0.2 0.2 0
0.6
10
20 tempo
30
40
50
autocorrelacoes
0.5 0
0.5
10 defasagem
15
20
Figura 2.7: (a) 50 observaes simuladas segundo um passeio aleatrio. (b) 20 primeiras co o
autocorrelaes amostrais. co
2.4. AUTOCORRELACAO
19
Exerc cios
1. Use o R para gerar uma srie temporal Yt = b0 + b1 t + t , t = 1, . . . , 100, com e 2 b0 , b1 = 0 e t normais e independentes com mdia e varincia 1 se t 70 e a 2 2 mas varincia 2 = 1 se t > 70. Usando diferentes valores de aplique o a alisamento exponencial e faa um grco da srie com os valores suavizados. c a e Comente os resultados. 2. Para cada um dos processos abaixo gere 200 observaes. Faa um grco da co c a srie e do correlograma. e (a) Srie aleatria, observaes iid da distribuio N(0,1). e o co ca (b) Srie com tendncia estocstica, xt = xt1 + t , t N (0, (0, 1)2 ) e e a (c) Outra srie com tendncia estocstica, xt = xt1 + t , t N (1, 52 ) e e a
(d) Srie com correlao de curto-prazo, xt = 0, 7xt1 + t , t N (0, 1) e ca (e) Srie com correlaes negativas, xt = 0, 8xt1 + t , t N (0, 1) e co (f) Mdias mveis, xt = t + 0, 6t1 , t N (0, 1) e o (g) passeio aleatrio com desvio Xt = 1 + Xt1 + t , t N (0, 1). o 3. Se mt = c0 + c1 t + + cp tp mostre que mt um polinmio de grau p 1 em e o t e portanto p+1 mt = 0
Cap tulo 3
Modelos Probabil sticos

3.1 Introduo ca
Neste cap tulo sero descritos vrios modelos adequados para dados de sries tempoa a e rais. Tais modelos so chamados de processos estocsticos. a a Matematicamente um processo estocstico pode ser denido como uma coleo de a ca variveis aleatrias ordenadas no tempo e denidas em um conjunto de pontos T , que a o pode ser cont nuo ou discreto. Iremos denotar a varivel aleatria no tempo t por X(t) a o no caso cont nuo (usualmente < t < ), e por Xt no caso discreto (usualmente t = 0, 1, 2, . . . ). O conjunto de poss veis valores do processo chamado de espao e c de estados que pode ser discreto (e.g. o nmero de chamadas que chegam a uma u central telefnica a cada 2 horas) ou cont o nuo (e.g. a temperatura do ar em uma localidade observada em intervalos de 1 hora). Em anlise de sries temporais a situao bem diferente da maioria dos problemas a e ca e estat sticos. Embora seja poss variar o tamanho da srie observada, usualmente vel e ser imposs a vel fazer mais do que uma observao em cada tempo. Assim, tem-se ca apenas uma realizao do processo estocstico e uma unica observao da varivel ca a ca a aleatria no tempo t denotada por x(t) no caso cont o nuo e xt , para t = 1, . . . , N no caso discreto. Uma maneira de descrever um processo estocstico atravs da distribuio a e e ca de probabilidade conjunta de X(t1 ), . . . , X(tk ) para qualquer conjunto de tempos t1 , . . . , tk e qualquer valor de k. Esta uma tarefa extremamente complicada e na e prtica costuma-se descrever um processo estocstico atravs das funes mdia, vara a e co e incia e autocovarincia. Estas funes so denidas a seguir para o caso cont a a co a nuo sendo que denies similares se aplicam ao caso discreto. co mdia (t) = E[X(t)] e varincia 2 (t) = V ar[X(t)] a autocovarincia (t1 , t2 ) = E[X(t1 ) (t1 )][X(t2 ) (t2 )] a Note que a funo de varincia um caso especial da funo de autocovarincia ca a e ca a quando t1 = t2 . Momentos de ordem mais alta do processo tambm ser denidos e 20
3.2. PROCESSOS ESTACIONARIOS
21
mas so raramente utilizados na prtica e as funes (t) e (t1 , t2 ) so em geral a a co a sucientes.
3.2
Processos Estacionrios a
Uma importante classe de processos estocsticos so os chamados processos estaa a cionrios. A idia intuitiva de estacionariedade foi introduzida no cap a e tulo anterior e aqui ser apresentada a denio formal. a ca Uma srie temporal dita estritamente estacionria se a distribuio de probae e a ca bilidade conjunta de X(t1 ), . . . , X(tk ) a mesma de X(t1 + ), . . . , X(tk + ). Ou e seja, o deslocamento da origem dos tempos por uma quantidade no tem efeito na a distribuio conjunta que portanto depende apenas dos intervalos entre t1 , . . . , tk . ca Em particular, para k = 1 a estacionariedade estrita implica que a distribuio ca de X(t) a mesma para todo t de modo que, se os dois primeiros momentos forem e nitos, temos que (t) = e 2 (t) = 2 so constantes que no dependem de t. a a Para k = 2 a distribuio conjunta de X(t1 ) e X(t2 ) depende apenas da distncia ca a t2 t1 , chamada defasagem. A funo de autocovarincia (t1 , t2 ) tambm depende ca a e apenas de t2 t1 e pode ser escrita como ( ) onde ( ) = E[X(t) ][X(t + ) ] = Cov[X(t), X(t + )] chamado de coeciente de autocovarincia na defasagem . e a Note que o tamanho de ( ) depende da escala em que X(t) medida. Portanto, e para efeito de interpretao, mais util padronizar a funo de autocovarincia dando ca e ca a origem a uma funo de autocorrelao ca ca ( ) = ( )/(0) que mede a correlao entre X(t) e X(t + ). No cap ca tulo anterior foi apresentado o seu equivalente emp rico para sries discretas rk . Note tambm que o argumento e e ser discreto se a srie temporal for discreta e cont a e nuo se a srie temporal for e cont nua. Na prtica muito dif usar a denio de estacionariedade estrita e costuma-se a e cil ca denir estacionariedade de uma forma menos restrita. Denio 3.1. Um processo estocstico {X(t), t T } dito ser estacionrio de ca a e a segunda ordem ou fracamente estacionrio se a sua funao mdia constante e sua a c e e funao de autocovarincia depende apenas da defasagem, i.e. c a E[X(t)] = e Cov[X(t), X(t + )] = ( ).
Nenhuma outra suposio feita a respeito dos momentos de ordem mais alta. ca e Alm disso, fazendo = 0 segue que V ar[X(t)] = (0), ou seja a varincia do processo e a
22
CAP ITULO 3. MODELOS PROBABIL ISTICOS
assim como a mdia tambm constante. Note tambm que tanto a mdia quanto a e e e e e varincia precisam ser nitos. a Esta denio mais fraca de estacionariedade ser utilizada daqui em diante j ca a a que muitas propriedades dos processos estacionrios dependem apenas da estrutura a especicada pelo primeiro e segundo momentos. Uma classe importante de processos aonde isto se verica a classe de processos normais ou Gaussianos aonde a e distribuio conjunta de X(t1 ), . . . , X(tk ) normal multivariada para todo conjunto ca e t1 , . . . , tk . A distribuio normal multivariada ca completamente caracterizada pelo ca primeiro e segundo momentos, i.e. por (t) e (t1 , t2 ), assim estacionariedade fraca implica em estacionariedade estrita para processos normais. Por outro lado, e ( ) podem no descrever adequadamente processos que sejam muito no-normais. a a
3.3
A Funo de Autocorrelao ca ca
Foi visto na Seo 2.4 que os coecientes de autocorrelao amostral de uma srie ca ca e temporal observada so uma ferramenta importante para descrever a srie. Analogaa e mente, a funo de autocorrelao terica (fac) de um processo estocstico estaca ca o a cionrio uma ferramenta importante para assessar suas propriedades. A seguir a e sero apresentadas propriedades gerais da funo de autocorrelao. a ca ca Se um processo estocstico estacionrio X(t) tem mdia e varincia 2 ento a a e a a ( ) = ( )/(0) = ( )/ 2 e portanto (0) = 1. As seguintes propriedades so facilmente vericveis. a a 1. A correlao entre X(t) e X(t + ) a mesma que entre X(t) e X(t ), ou ca e seja ( ) = ( ). 2. 1 < ( ) < 1. 3. Embora um processo estocstico tenha uma estrutura de autocovarincia unica a a o contrrio no verdadeiro em geral. E poss encontrar vrios processos com a a e vel a a mesma funo de autocorrelao, o que diculta ainda mais a interpretao ca ca ca do correlograma.
3.4
Alguns Processos Estocsticos a
Nesta seo sero apresentados alguns processos estocsticos que so utilizados com ca a a a frequncia na especicao de modelos para sries temporais. e ca e
3.4.1
Sequncia Aleatria e o
Um processo em tempo discreto chamado puramente aleatrio se consiste de uma e o sequncia de variveis aleatrias {t } independentes e identicamente distribuidas. Isto e a o implica nas seguintes propriedades
3.4. ALGUNS PROCESSOS ESTOCASTICOS 1. E(t ) = E(t |t1 , t2 , . . . ) =

2 2. V ar(t ) = V ar(t |t1 , t2 , . . . ) =
23
3. (k) = Cov(t , t+k ) = 0,
k = 1, 2, . . . .
Como a mdia e a funo de autocovarincia no dependem do tempo o processo e ca a a e estacionrio em segunda ordem. A funo de autocorrelao simplesmente a ca ca e (k) = 1, k = 0 0, k = 1, 2, . . . .
Um processo puramente aleatrio as vezes chamado de ru branco e pode ser o e do util por exemplo na construo de processos mais complicados. As propriedades ca acima podem ser entendidas como ausncia de correlaao serial e homocedasticidade e c condicional (varincia condicional constante). a
3.4.2
Passeio Aleatrio o
2 Seja {t } um processo discreto puramente aleatrio com mdia e varincia . Um o e a processo {Xt } chamada de passeio aleatrio se e o
Xt = Xt1 + t . Fazendo-se substituies sucessivas obtm-se que co e Xt = Xt2 + t1 + t = Xt3 + t2 + t1 + t . . .

t
= X0 +
j=1
e iniciando o processo em X0 = 0 no dif vericar que a e cil

t
E(Xt ) =
j=1 t
E(j ) = t
2 V ar(j ) = t . j=1
V ar(Xt ) =
Alm disso, a funo de autocovarincia dada por e ca a e

2 Cov(Xt , Xtk ) = Cov(1 + + tk + + t , 1 + + tk ) = (t k)
e portanto a funo de autocorrelao ca ca ca t (k) = tk . t
24
Como a mdia, a varincia e as autocovarincias dependem de t este processo no e a a e a estacionrio. No entanto, interessante notar que a primeira diferena de um passeio a e c aleatrio estacionria j que o e a a Xt = Xt Xt1 = t . Os exemplos mais conhecidos de sries temporais que se comportam como um e passeio aleatrio so os preos de aes em dias sucessivos (ver por exemplo Morettin o a c co e Toloi, 2004).
3.4.3
Processos de Mdia Mveis e o
2 Seja {t } um processo discreto puramente aleatrio com mdia zero e varincia . o e a Um processo {Xt } chamada de processo de mdias mveis de ordem q, ou MA(q), e e o se Xt = t + 1 t1 + + q tq , (3.1)
sendo i R, i = 1, . . . , q. No dif vericar como cam a mdia e a varincia a e cil e a deste processo,
q
E(Xt ) = E(t ) +
j=1
j E(tj ) = 0
q 2 2 2 2 j V ar(tj ) = (1 + 1 + + q ) .
V ar(Xt ) = V ar(t ) +
j=1
2 ca Alm disso, como Cov(t , s ) = para t = s e Cov(t , s ) = 0 para t = s, a funo e de autocovarincia dada por a e
(k) = Cov(Xt , Xt+k ) = Cov(t + 1 t1 + + q tq , t+k + 1 t+k1 + + q t+kq ) 0 k>q qk 2 j j+k k = 0, . . . , q = (3.2) j=0 (k) k<0
com 0 = 1. Como a mdia e a varincia so constantes e (k) no depende de t e a a a o processo (fracamente) estacionrio para todos os poss e a veis valores de 1 , . . . , q . Alm disso, se os t s forem normalmente distribuidos os Xt s tambm sero e portanto e e a o processo ser estritamente estacionrio. a a A funo de autocorrelao pode ser facilmente obtida de (3.2) como ca ca k=0 1 qk q 2 j j+k j k = 1, . . . , q (k) = j=0 j=0 0 k>q (k) k < 0.
3.4. ALGUNS PROCESSOS ESTOCASTICOS
25
Note que a funo tem um ponto de corte na defasagem q, i.e. (k) = 0 para k > ca q. Esta uma caracter e stica espec ca de processos mdias mveis e ser util na e o a especicao do valor de q na prtica (Box & Jenkins 1970, p. 170). ca a > MAacf <- function(q, beta, lag.max) { + sig2x = 1 + sum(beta^2) + rho = rep(0, lag.max) + for (k in 1:q) { + rho[k] = beta[k] + if (q - k > 0) { + for (j in 1:(q - k)) rho[k] = rho[k] + beta[j] * + beta[j + k] + } + rho[k] = rho[k]/sig2x + } + return(rho) + } > round(MAacf(q = 2, beta = c(0.5, 0.3), lag.max = 6), 4) [1] 0.4851 0.2239 0.0000 0.0000 0.0000 0.0000 Vamos analisar agora com mais detalhes o caso particular do processo MA(1). A funo de autocorrelao ca ca ca 1 k=0 2 ) k = 1 (k) = (3.3) /(1 + 1 1 0 k > 1.
O processo estacionrio para qualquer valor de 1 mas em geral desejvel impor e a e a restries para que ele satisfaa uma condio chamada inversibilidade. Considere os co c ca seguintes processos MA(1) Xt = t + t1 1 Xt = t + t1 .
Substituindo em (3.3) no dif vericar que estes dois processos diferentes tm a e cil e exatamente a mesma funo de autocorrelao. Assim, no poss identicar um ca ca a e vel processo MA(1) unico a partir da funo de autocorrelao. Por outro lado, podemos ca ca fazer substituies sucessivas e reescrever estes dois processos colocando t em funo co ca de Xt , Xt1 , . . . , i.e. t = Xt Xt1 + 2 Xt2 3 Xt3 + . . . 1 1 1 t = Xt Xt1 + 2 Xt2 3 Xt3 + . . . Se || < 1 a primeira srie converge e o modelo dito ser invers mas a segunda no e e vel a converge e o modelo no invers e a vel. Ou seja, a condio de inversibilidade (neste ca
26
caso || < 1) garante que existe um unico processo MA(1) para uma dada funo ca de autocorrelao. Outra consequncia da inversibilidade que o processo MA(1) ca e e pode ser reescrito como uma regresso de ordem innita nos seus prprios valores a o defasados. Para um processo MA(q) esta condio pode ser melhor expressa usando-se o ca operador de retardo, denotado por B e denido como B j Xt = Xtj , para todo j.
A equao (3.1) pode ento ser reescrita como ca a Xt = (1 + 1 B + 2 B 2 + + q B q )t = (B)t onde (B) um polinmio de ordem q em B. Um processo MA(q) invers se as e o e vel ra zes da equao ca (B) = 1 + 1 B + 2 B 2 + + q B q = 0 estiverem fora do c rculo unitrio. Ou seja, se 1 , . . . , q so q solues de (B) = 0 a a co ento o processo invers se |i | > 1, i = 1, . . . , q. Teremos ento 2q modelos com a e vel a a mesma funo de autocorrelao mas somente um deles ser invers ca ca a vel. Finalmente, vale notar que uma constante qualquer pode ser adicionada ao lado direito de (3.1) dando origem a um processo com mdia . O processo continuar e a sendo estacionrio com E(Xt ) = e em particular a funo de autocorrelao no a ca ca a ser afetada. a
3.4.4
Processos Autoregressivos
Suponha que {t } seja um processo puramente aleatrio com mdia zero e varincia o e a 2 . Um processo {Xt } chamada de processo autoregressivo de ordem p, ou AR(p), e se Xt = 1 Xt1 + + p Xtp + t . (3.4)
Note a similaridade com um modelo de regresso mltipla, onde os valores passados a u de Xt fazem o papel das regressoras. Assim, processos AR podem ser usados como modelos se for razovel assumir que o valor atual de uma srie temporal depende do a e seu passado imediato mais um erro aleatrio. o Por simplicidade vamos comear estudando em detalhes processos de primeira c ordem, AR(1), i.e. Xt = Xt1 + t . (3.5)
Note que existe uma estrutura Markoviana no processo AR(1) no sentido de que, dado Xt1 , Xt no depende de Xt2 , Xt3 , . . . . Fazendo subtituies sucessivas em (3.5) a co
3.4. ALGUNS PROCESSOS ESTOCASTICOS obtemos que Xt = (Xt2 + t1 ) + t = 2 Xt2 + t1 + t = 2 (Xt3 + t2 ) + t1 + t = 3 Xt3 + 2 t2 + t1 + t . . .
r
27
= r+1 Xtr1 +
j=0
j tj .
2 Se Xt for estacionrio com varincia nita X podemos escrever que a a r
E[Xt
2 2 j tj ]2 = 2r+2 E(Xtr1 ) = 2r+2 X j=0
e se || < 1 temos que 2r+2 0 quando r . Portanto, esta condio nos ca permite escrever Xt como o seguinte processo MA innito, Xt = t + t1 + 2 t2 + . . . e assim || < 1 uma condio suciente para que Xt seja estacionrio. Neste caso, e ca a reescrevendo o processo k per odos ` frente, i.e. a Xt+k = t+k + t+k1 + + k t + . . . (3.6)
note como o efeito de t sobre Xt+k diminui a medida que k aumenta e por isso e chamado efeito transitrio. o Podemos tambm usar o operador de retardo reescrevendo a equao (3.5) como e ca (1 B)Xt = t ou equivalentemente Xt = 1 t = (1 + B + 2 B 2 + . . . )t = t + t1 + 2 t2 + . . . (1 B)
Escrevendo o processo AR(1) neste formato de MA innito ca fcil ver que a sua a mdia e varincia so dados por e a a
2 E(Xt ) = 0 e V ar(Xt ) = (1 + 2 + 4 + . . . ) = 2 . 1 2
A funo de autocovarincia pode ser obtida usando os resultados acima. Reeca a screvendo a equao (3.6) como ca Xt+k = t+k + + k1 t+1 + k t + k+1 t1 + k+2 t2 + . . . pode-se vericar que, para qualquer k = 1, 2, . . . , Cov(t + t1 + 2 t2 + . . . , t+k + + k1 t+1 ) = 0.
28 Portanto,
E(Xt Xt+k ) = Cov(t + t1 + 2 t2 + . . . , k t + k+1 t1 + k+2 t2 + . . . ) = k E(2 ) + k+2 E(2 ) + k+4 E(2 ) + . . . t t1 t2
2 = k (1 + 2 + 4 + . . . ) = k 2 2 = k X = (k). 1 2
Assim, a funo de autocorrelao (k) = k para k = 0, 1, 2, . . . . Assim, como a ca ca e mdia e a varincia so constantes e (k) no depende de t o processo AR(1) com e a a a || < 1 estacionrio. e a Na Figura 3.1 so mostradas gracamente as autocorrelaes tericas de um proa co o cesso AR(1) at a defasagem k = 20 para igual a 0,8, -0,8, 0,2 e -0,2. Note como e a funo de autocorrelao decai rapidamente para zero quando = 0, 2 e se alterna ca ca entre valores positivos e negativos quando = 0, 8. Ou seja sempre h um decaia mento exponencial para zero mas este decaimento depende do sinal e magnitude de .
0.8
0.6
0.4
0.2
10
15
20
0.8
0.0
0.2
0.2
0.6
10
15
20
0.20
0.10
10
15
20
0.20
0.00
0.10
0.00
10
15
20
Figura 3.1: As 20 primeiras autocorrelaes tericas de um processo AR(1) com (a) = 0, 8, co o (b) = 0, 8, (c) = 0, 2 e (d) = 0, 2. Generalizando os resultados acima para um processo AR(p) escrevemos novamente Xt como um processo MA innito com coecientes 0 , 1 , . . . , i.e. Xt = 0 t + 1 t1 + 2 t2 + = (0 + 1 B + 2 B 2 + . . . )t = (B)t .
3.4. ALGUNS PROCESSOS ESTOCASTICOS e em analogia com o caso AR(1) segue que o processo ser estacionrio se a a Usando agora o operador de retardo a equao (3.4) ca ca (1 1 B 2 B 2 p B p )Xt = t e portanto o processo AR(p) pode ser escrito como Xt = (B)1 t = (B)t . Assim, os coecientes j podem ser obtidos a partir dos coecientes j fazendo-se (1 1 B 2 B 2 p B p )(0 + 1 B + 2 B 2 + . . . ) = 1 Desenvolvendo-se esta expresso segue que a 0 + 1 B + 2 B 2 + 1 0 B 1 1 B 2 1 2 B 3 . . . ou (B)Xt = t
j
29
2 j < .
2 0 B 2 2 1 B 3 2 2 B 4 . . . . . .
p 0 B p p 1 B p+1 = 1 + 0B + 0B 2 + . . . e agora agrupando em termos de B, B 2 , . . . 0 + (1 1 0 )B + (2 1 1 2 0 )B 2 + = 1 + 0B + 0B 2 + . . . donde obtm-se os coecientes MA recursivamente como e 0 = 1 1 = 0 1 2 = 1 1 + 0 2 3 = 2 1 + 1 2 + 0 3 . . .

i
i =
j=1
ij j .
O efeito de t sobre Xt+k dado por k , k = 1, 2, . . . . e Pode-se mostrar que (ver por exemplo Box, Jenkins, & Reinsel 1994) a condio ca de estacionariedade do processo Xt que todas as ra e zes de (B) = 0 estejam fora do c rculo unitrio. Em particular, para p = 1 temos que (B) = 1 B = 0 implica a que B = 1/ e a condio de estacionariedade ca || < 1 conforme j haviamos ca a vericado. Para reescrever um processo AR(p) em forma vetorial, dena Z t = (Xt1 , . . . , Xtp ) e portanto Z t = Z t1 + ut
30
e ut = (t , 0, . . . , 0) . Para obter a funo de autocorrelao de um processo AR(p) algebricamente ca ca e mais simples assumir a priori que o processo estacionrio com E(Xt ) = 0, V ar(Xt ) = e a 2 X e Cov(Xt , Xtk ) = (k). Neste caso, multiplicando a equao (3.4) por Xtk , i.e ca Xt Xtk = 1 Xt1 Xtk + + p Xtp Xtk + t Xtk . e tomando o valor esperado obtemos que E(Xt Xtk ) = (k) = 1 E(Xt1 Xtk ) + + p E(Xtp Xtk ) = 1 (k 1) + + p (k p), k > 0.
2 Dividindo-se ambos os lados pela varincia constante X obtem-se que a
sendo a matriz denida como 1 2 1 0 =0 1 . . . . . . 0 0
... ... ... . . . ...
p1 p 0 0 0 0 . . . . . . 1 0
(k) = 1 (k 1) + + p (k p),
k>0
chamadas equaes de Yule-Walker. co Por exemplo, para um processo AR(1) com coeciente segue que (1) = , (2) = (1) = 2 , . . . , (k) = k como j haviamos vericado. Para um processo a AR(2) com coecientes 1 e 2 segue que (1) = 1 (0) + 2 (1) (1) = 1 /(1 2 ) e as outras autocorrelas so obtidas iterativamente como co a (k) = 1 (k 1) + 2 (k 2), k2
Autocorrelaes Parciais co
Para um processo AR(p), o ultimo coeciente p mede o excesso de correlao na ca defasagem p que no levado em conta por um modelo AR(p 1). Este chamado a e e de p-simo coeciente de autocorrelaao parcial. Assim, variando k = 1, 2, . . . temos e c a chamada funao de autocorrelaao parcial (FACP). c c Por outro lado, em um processo AR(p) no existe correlao direta entre Xt e a ca Xtp1 , Xtp2 , . . . e substituindo k = p + 1, p + 2, . . . nas equaes de Yule-Walker co obtem-se que todos os coecientes de correlao parcial sero nulos para k > p. Por ca a exemplo, substituindo-se k = p + 1 segue que (p + 1) = 1 (p) + + p (1) + p+1 . O fato de que a facp igual a zero para k > p sugerido em Box and Jenkins (1970, e e p. 170) como uma ferramenta para determinar a ordem p do processo autoregressivo para sries temporais observadas. e
31
3.4.5
Modelos Mistos ARMA
Combinando-se modelos AR e MA pode-se obter uma representao adequada com ca um nmero menor de parmetros. Processos autoregressivos mdias mveis (ARMA) u a e o formam um classe de modelos muito uteis e parcimoniosos para descrever dados de sries temporais. O modelo ARMA(p, q) dado por e e Xt = 1 Xt1 + + p Xtp + t + 1 t1 + + q tq
2 onde {t } um processo puramente aleatrio com mdia zero e varincia . Note e o e a que, modelos AR ou MA podem ser obtidos como casos especiais quando p = 0 ou q = 0. Usando o operador de retardo o modelo pode ser reescrito como
(1 1 B 2 B 2 p B p )Xt = (1 + 1 B + 2 B 2 + + q B q )t ou (B)Xt = (B)t . Os valores de 1 , . . . , p que tornam o processo estacionrio so tais que as ra a a zes de (B) = 0 esto fora do c a rculo unitrio. Analogamente, os valores de 1 , . . . , q a que tornam o processo invers vel so tais que as ra a zes de (B) = 0 esto fora do a c rculo unitrio. a Vale notar que as funes de autocorrelao e autocorrelao parcial cam conco ca ca sideravelmente mais complicadas em processos ARMA. De um modo geral, para um processo ARMA(p, q) estacionrio a funo de autocorrelao tem um decaimento a ca ca exponencial ou oscilatrio aps a defasagem q enquanto que a facp tem o mesmo o o comportamento aps a defasagem p (Box & Jenkins 1970, p. 79). Em princ o pio este resultado pode ser utilizado para auxiliar na determinaao da ordem (p, q) do processo c mas na prtica pode ser bastante dif distinguir entre decaimentos exponenciais e a cil oscilatrios atravs das estimativas destas funes. o e co A Tabela 3.1 mostra as propriedades tericas das funes de autocorrelao e auo co ca tocorrelao parcial para alguns processos estacionrios como auxiliar na identicao ca a ca do modelo. Tabela 3.1: Propriedades tericas da fac e facp. o Processo srie aleatria e o AR(1), > 0 AR(1), < 0 AR(p) MA(1) ARMA(p, q) FAC 0 decaimento decaimento decaimento 0, k > 1 decaimento FACP 0 0, k 2 idem 0, k > p decaimento oscilatrio o decaimento a partir de p
exponencial oscilatrio o para zero a partir de q
32
3.4.6
Modelos ARMA Integrados
Os modelos discutidos at agora so apropriados para sries temporais estacionrias. e a e a Assim, para ajustar estes modelos a uma srie temporal observada necessrio ree e a mover as fontes de variao no estacionrias. Por exemplo, se a srie observada for ca a a e no estacionria na mdia pode-se tentar remover a tendncia tomando-se uma ou a a e e mais diferenas (esta abordagem muito utilizada em Econometria). c e Um modelo ARMA no qual Xt substituido pela sua d-sima diferena d Xt e e c capaz de descrever alguns tipos de sries no estacionrias. Denotando a srie e e a a e diferenciada por Wt = d Xt = (1 B)d Xt o processo autoregressivo integrado mdias mveis denotado ARIMA(p, d, q) dado e o e por Wt = 1 Wt1 + + p Wtp + t + 1 t1 + + q tq ou, equivalentemente (B)(1 B)d Xt = (B)t . (3.7) Da equao (3.7) acima pode-se notar que o modelo para Xt claramente no ca e a estacionrio j que o polinmio autoregressivo (B)(1 B)d tem exatamente d ra a a o zes sobre o c rculo unitrio, ou d ra a zes unitrias. Um processo que se torna estacionrio a a aps d diferenas dito ser no estacionrio homogneo, ou integrado de ordem d, o c e a a e I(d). Na prtica valores pequenos so em geral especicados para d, sendo d = 1 o valor a a mais frequentemente utilizado e excepcionalmente d = 2. Note tambm que o passeio e aleatrio pode ser considerado um processo ARIMA(0,1,0). o Vale notar que para dados reais um modelo ARIMA (e de fato qualquer modelo) no mximo uma aproximao para o verdadeiro processo gerador dos dados. Na e a ca prtica pode ser bem dif distinguir entre um processo estacionrio com memria a cil a o longa (e.g. AR(1) com 1) e um processo no estacionrio homogneo. Existe a a e uma vasta literatura economtrica sobre testes de ra unitria (ver por exemplo e z a Hamilton 1994 e Bauwens, Lubrano, & Richard 1999). Mais recentemente, modelos da classe ARFIMA (ou ARIMA fracionrios) tem sido utilizados para analisar sries a e com memria longa. Estes tpicos no sero abordados aqui e o leitor interessado o o a a pode consultar por exemplo Brockwell & Davis (1991) alm das referncias acima. e e
33
Exerc cios
Nos exerc cios a seguir {t } um processo discreto puramente aleatrio com mdia e o e 2. zero e varincia a 1. Encontre a fac do processo Xt = t + 0, 7t1 0, 2t2 . 2. Encontre a fac do processo Xt = 0, 7(Xt1 ) + t .
1 2 3. Encontre a fac do processo Xt = 3 Xt1 + 9 Xt2 + t .
4. Se Xt = + t + t1 mostre que a fac do processo no depende de . a 5. Reescreva cada um dos modelos abaixo em termos de operador de retardo B e verique se o modelo estacionrio e/ou invers e a vel: (a) Xt = 0, 3Xt1 + t . (b) Xt = t 1, 3 t1 + 0, 4 t2 . (c) Xt = 0, 5Xt1 + t 1, 3 t1 + 0, 4 t2 . (d) Xt = 0, 3 Xt1 + t 0, 6 t1 (e) Xt = Xt1 + t 1, 5t1 6. Mostre que o processo Xt = Xt1 + cXt2 + t estacionrio se 1 < c < 0 e e a obtenha a fac para c = 3/16. 7. Mostre que o processo Xt = Xt1 + cXt2 cXt3 + t no estacionrio para e a a qualquer valor de c. 8. Descreva como deve se comportar a funo de autocorrelao terica para os ca ca o seguintes processos, (a) AR(1) estacionrio, para = 0, 1, = 0, 75 e = 0, 99. a (b) Mdias mveis de ordem q. e o (c) Como deveriam car as funes de autocorrelao e autocorrelao parcial co ca ca amostrais que identicam os processos acima? 9. Descreva como deveriam se comportar as funes de autocorrelao e autocorco ca relao parcial amostrais para processos AR, MA e ARMA no sazonais. ca a 10. Para o modelo (1 B)(1 0, 2B)Xt = (1 0, 5B)t , identique os valores de p, q, e d e verique se o processo estacionrio e invers e a vel. 11. Mostre que a funo de autocovarincia de um processo AR(1) estacionrio com ca a a 2 dada por k 2 (Sugesto: use a expresso (3.2) com q ) varincia X e a a a X 12. Verique se Xt =
t j=1 t
estacionrio. e a
34
13. Mostre que a fac do processo Xt = aXt1 + t + bt1 dada por e (1 + ab)(a + b) 1 + b2 + 2ab (k) = a(k 1), k = 2, 3, . . . (1) = 14. Obtenha a funo de autocovarncia do processo ca a 1 1 1 Xt = t + t1 + 2 t2 + + m tm a a a sendo que 0 < a < 1. 15. Se {Xt } um processo estacionrio obtenha a funo de autocovarincia de e a ca a Yt = Xt Xt1 . 16. Mostre que o processo Xt = ( + 1)Xt1 Xt2 + t tem exatamente uma raiz unitria e reescreva-o como um processo ARIMA(1,1,0). a 17. Obtenha a funo de autocorrelao do passeio aleatrio Xt = Xt1 + t com ca ca o 2 E(t ) = , V ar(t ) = e Cov(t , s ) = 0, t = s. 18. Verique se o processo {Yt } tal que P (Yt = 1) = P (Yt = 1) = 1/2 estae cionrio. Obtenha sua mdia, varincia e covarincia. a e a a 19. Sejam os processos Yt = t + t1 , || > 1 e {Xt } tal que Xt = 1 se Yt 0 e Xt = 1 se Yt < 0. Verique se {Xt } e {Yt } so estacionrios. Calcule a funo a a ca de autocorrelao de {Xt }. ca 20. Verique que o processo Yt = (1)t t estacionrio e que Xt = Yt + t no e a a e estacionrio. a 21. Se {Xt } e {Yt } so independentes e estacionrios verique se Zt = Xt + Yt , a a , R tambm estacionrio. e e a 22. Obtenha a representao MA() de um processo AR(2) estacionrio. ca a 23. Obtenha a representao AR() de um processo MA(1) invers ca vel.
Cap tulo 4
Estimao ca
No cap tulo anterior foram estudados modelos probabil sticos que podem ser utilizados para descrever dados de sries temporais. Neste cap e tulo ser discutido o problema a de ajustar um modelo aos dados observados. A inferncia ser baseada na funo de e a ca autocorrelao. ca Para um processo estacionrio {Xt } (t = 1, . . . , n), a funo de densidade de a ca probabilidade conjunta de X1 , . . . , Xn pode ser sempre fatorada como p(x1 , . . . , xn ) = p(x1 )p(xn , . . . , x2 |x1 )
= p(x1 )p(x2 |x1 )p(xn , . . . , x3 |x2 , x1 ) . . .

n
= p(x1 )
t=2
p(xt |xt1 , . . . , x1 ).
Em particular para um modelo ARMA(p, q), denotando o vetor de parmetros por a 2 =(1 , . . . , p , 1 , . . . , q , ) e destacando-se a densidade conjunta das p primeiras realizaes segue que co
n
p(x1 , . . . , xn |) = p(x1 , . . . , xp |) = p(x1 , . . . , xp |)
t=p+1 n t=p+1
p(xt |xt1 , . . . , x1 , ) p(xt |xt1 , . . . , xp , ). (4.1)
A ultima igualdade vem da estrutura Markoviana da componente autoregressiva. O segundo termo em (4.1) a densidade condicional conjunta de xp+1 , . . . , xn dados os e valores iniciais x1 , . . . , xp e dene ento uma funo de verossimilhana condicional a ca c enquanto p(x1 , . . . , xn |) dene a funo de verossimilhana exata. ca c Se for atribuida uma distribuio de probabilidades conjunta tambm para ento ca e a pelo Teorema de Bayes poss obter sua distribuio atualizada aps os dados serem e vel ca o observados (distribuio a posteriori), ca p(|x) = p(x|)p() p(x|)p(). p(x) 35
36
CAP ITULO 4. ESTIMACAO
4.1
Autocovarincia e autocorrelao a ca
O coeciente de autocovarincia amostral de ordem k foi denido na Seo 2.4 como a ca

nk
ck =
t=1
(xt x)(xt+k x)/n
que o estimador usual do coeciente de autocovarincia terico (k). As proe a o priedades deste estimador no sero detalhadas aqui mas podem ser encontradas a a por exemplo em Priestley (1981). Aps obter as estimativas de (k) os coecientes o de autocorrelao so ento estimados como rk = ck /c0 , k = 1, 2, . . . . ca a a Aqui sero consideradas apenas as propriedades de rk quando a amostra vem de a um processo puramente aleatrio (propriedades gerais podem ser obtidas em Kendall o et al. 1983, Cap tulo 48). Vimos na Seo 2.4.1 que o coeciente de autocorrelao ca ca amostral rk assintoticamente normalmente distribuido, com mdia e varincia dados e e a por E(rk ) 1/n e V ar(rk ) 1/n. e os limites de conana aproximados de 95% frequentemente utilizados so dados c a por 1, 96/ n. No caso geral, limites de 100(1-)% podem ser construidos como ca a q/2 / n sendo q/2 o percentil /2 da distribuio normal padro.
Interpretando o correlograma
No Cap tulo 2 foram vistos alguns exemplos de correlogramas associados a caracter sticas de sries temporais observadas. O correlograma util tambm na identicao e e e ca do tipo de modelo ARIMA que fornece a melhor representao de uma srie observada. ca e Um correlograma como o da Figura 2.7 por exemplo, aonde os valores de rk decaem para zero de forma relativamente lenta, indica no estacionariedade e a srie precisa a e ser diferenciada. Para sries estacionrias o correlograma comparado com as autoe a e correlaes tericas de vrios processos ARMA para auxiliar na identicao daquele co o a ca mais apropriado. Por exemplo, se r1 signicativamente diferente de zero e todos os e valores subsequentes r2 , r3 , . . . so prximos de zero ento um modelo MA(1) india o a e cado j que sua funo de autocorrelo terica se comporta assim. Por outro lado, se a ca ca o r1 , r2 , r3 , . . . parecem estar decaindo exponencialmente ento um modelo AR(1) pode a ser apropriado. Vale notar entretando que a interpretao de correlogramas um dos aspectos ca e mais dif ceis da anlise de sries temporais. A funo de autocorrelao parcial um a e ca ca e importante coadjuvante nesta etapa de identicao se houver termos autoregressivos ca no modelo j que seus valores estimados tendem a car prximos de zero aps a a o o defasagem p. Vimos no Cap tulo 3 que para um processo ARMA(p, q) estacionrio a funo a ca de autocorrelao terica ter um decaimento exponencial ou oscilatrio aps a deca o a o o fasagem q enquanto que a funo de autocorrelao parcial terica ter o mesmo ca ca o a comportamento aps a defasagem p. Mas na prtica esta distino entre decaimentos o a ca
4.2. AJUSTANDO PROCESSOS AUTOREGRESSIVOS
37
exponenciais e oscilatrios atravs das estimativas destas funes pode ser bastante o e co dif cil.
4.2
Ajustando Processos Autoregressivos
Para um processo AR de ordem p com mdia dado por e Xt = 1 (Xt1 ) + + p (Xtp ) + t , e dadas n observaes x1 , . . . , xn , os parmetros , 1 , , . . . , p podem ser estimados co a pelo mtodo de m e nimos quadrados, i.e. minimizando-se a soma de quadrados
n
S=
t=p+1
[(xt ) 1 (xt1 ) p (xtp )]2
com respeito a , 1 , , . . . , p . Note que o somatrio de t = p + 1 em diante, mas o e esta pequena perda de informao no ser importante se a srie no for muito curta. ca a a e a Alm disso, se o processo t tiver distribuio normal ento as estimativas de m e ca a nimos quadrado coincidem com as estimativas de mxima verossimilhana condicionada nas a c p primeiras observaes. co Alternativamente, dois mtodos aproximados podem ser utilizados tomando-se e = x. O primeiro ajusta os dados ao modelo Xt x = 1 (Xt1 x) + + p (Xtp x) + t , como se fosse um modelo de regresso linear mltipla. a u No segundo mtodo os coecientes de autocorrelao (k) so substituidos pelas e ca a suas estimativas rk nas p primeiras equaes de Yule-Walker. Ou seja, estamos usando co o mtodos dos momentos e por isto os estimadores resultantes so assintoticamente e a equivalentes aos estimadores de mxima verossimilhana. Assim, temos um sistema a c com p equaes e p incgnitas 1 , . . . , p , i.e. co o r1 = 1 + 2 r1 + + p rp1
r2 = 1 r1 + 2 + + p rp2 . . .
rp = 1 rp1 + 2 rp2 + + p ou equivalentemente, r1 r2 .= . . rp 1 r1 . . . r1 1 . . . ... ... 1 rp1 rp2 2 . . . . . . 1 p
rp1 rp2 . . .
Exemplo 4.1 : Usando os comandos do R abaixo vamos simular um processo AR(3) e usar as equaes de Yule-Walker para estimar os coecientes. co
38 > > > > > > >
CAP ITULO 4. ESTIMACAO x = arima.sim(n = 200, model = list(ar = c(0.6, -0.7, 0.2))) r = acf(x, plot = FALSE)$acf[2:4] R = diag(3) R[1, 2] = R[2, 1] = r[1] R[1, 3] = R[3, 1] = r[2] R[2, 3] = R[3, 2] = r[1] round(solve(R, r), 4) 0.5811 -0.6940 0.1660
[1]
podemos reescrever o modelo na forma matricial como y = X + ,
Para estimao por minimos quadrados basta escrever o AR(p) como um modelo ca linear usual e resolver um sistema de equaes lineares. Denindo-se co xp+1 xp . . . x1 p+1 1 x2 xp+2 xp1 . . . p+2 2 y= . X= . . = . = . . . . . . . . . . . xn xn1 . . . xnp n p (4.2)
2 sendo E() = 0, V ar() = I np e I np a matriz identidade de ordem n p. A soluo de m ca nimos quadrados para os coecientes obtida minimizando-se e e e 1 X y. Usando o valor estimado de na equao do modelo dada por = (X X) ca calcula-se os res duos como y = X , i.e. p
et = xt
j xtj , t = p + 1, . . . , n
j=1
2 e e a estimativa de m nimos quadrados de dada por
2 =
1 np
e2 . t
t=p+1
Note que os res duos tambm foram calculados a partir de t = p + 1. e Mantendo a representao (4.2) e adicionando a hiptese de normalidade dos erros, ca o 2I i.e. N (0, np ) obtm-se uma funo de verossimilhana aproximada dada por, e ca c
2 2 2 L(, ) ( )(np)/2 exp{ (y X) (y X)/2}. 2 nimos quadrados, Neste caso, os EMV de e coincidem com os estimadores de m 2 log(L(, )) 2 (y X) (y X) 2 2 (2 X y + X X) = 2 2 (2X y + 2X X). = 2
4.2. AJUSTANDO PROCESSOS AUTOREGRESSIVOS

2 log(L(, )) = 0 = (X X)1 X y. = 2 Lembrando que (y X ) (y X ) = n t=p+1 et segue que n 2 )) log(L(, 1 2 2 e2 = (n p) log( ) + t 2 2 2 t=p+1 n 1 2 4 e2 = (n p) t 2 t=p+1
39
2 log(L(, )) 2
2 2 =
2 = 0 =
1 np
e2 . t
t=p+1
Exemplo 4.2 : Para um modelo AR(1) com erros normais a matriz X tem somente uma coluna e no dif vericar que a e cil
n n
XX=
t=2
x2 t1
e Xy=
t=2
xt xt1 .
Portanto, o EMV condicional dado por e =

n t=2 xt xt1 n 2 t=2 xt1
2 e =
1 n1
n t=2
(xt xt1 )2 .
Exemplo 4.3 : Novamente para o modelo AR(1) com erros normais o EMV incondicional obtido maximizando-se da funo de verossimilhana exata. A expresso e ca c a (4.1) com p = 1 ca
n 2 p(x1 , . . . , xn |, )
2 p(x1 |, )
t=2
2 p(xt |xt1 , , ).
2 Lembrando que E(Xt ) = 0 e V ar(Xt ) = /(1 2 ) e razovel assumir que X1 a 2 /(1 2 )). Segue ento que N (0, a 2 L(, ) 2 1 2 1/2
exp
1 2 2 x 2 2 1
n t=2
2 ( )(n1)/2 exp
1 2 2
(xt xt1 )2
n
(1 )
2 1/2
2 ( )n/2 exp
1 2 2
(1
)x2 1
+
t=2
(xt xt1 )2
Maximizar esta expresso (ou seu logaritmo) em relao a requer algum algoritmo a ca de otimizao numrica (por exemplo mtodos de Newton-Raphson). No R podemos ca e e usar a funo optim como no Exemplo 4.4. ca
40
Exemplo 4.4 : Foram gerados 200 valores de um processo AR(1) com parmetros a 2 = 1. Os comandos abaixo podem ser usados para obter as estimativas de = 0, 8 e mxima verossimilhana (incondicional). Note que estamos maximizando o logaritmo a c da verossimilhana e vericando a condio de estacionariedade. c ca > fun = function(theta, x) { + s2 = theta[1] + alpha = theta[2] + if (abs(alpha) >= 1) + return(-Inf) + n = length(x) + e = x[2:n] - alpha * x[1:(n - 1)] + Q = (1 - alpha^2) * x[1]^2 + sum(e^2) + return(-0.5 * (n * log(s2) - log(1 - alpha^2) + Q/s2)) + } > > > + > x = arima.sim(n = 200, model = list(ar = 0.8)) init = c(1, 0.5) out = optim(init, fn = fun, method = "BFGS", control = list(fnscale = -1), hessian = T, x = x) out$par
[1] 0.9923290 0.7502152 Como o custo computacional de estimar modelos AR no to grande uma a e a abordagem alternativa para determinao de p consiste em estimar modelos de ordem ca progressivamente mais alta e calcular a soma de quadrados residual para cada valor de p. Pode ser poss encontrar o valor de p para o qual a incluso de termos extras vel a no melhora sensivelmente o ajuste. Como vimos na Seo 3.4.4 este procedimento a ca d origem ` funo de autocorrelao parcial. a a ca ca Suponha agora que vamos atribuir uma distribuio de probabilidades para o vetor ca 2 ). Pelo Teorema de Bayes e usando a verossimilde parmetros = (1 , . . . , p , a hana condicional segue que c
2 2 p(|x) p() ( )(np)/2 exp{ (y X) (y X)/2}.
Para representar a informao a priori sobre pode-se fazer por exemplo, p() = ca 2 )p( 2 ) com | 2 N (0, 2 I ) ou p() = p()p( 2 ) com N (0, I ). Nos p(| p p 2 tem distribuio Gama Inversa, i.e. 2 ca dois casos comumente assume-se que 2 GI(a, b) (ver Apndice A), ou equivalentemente Gama(a, b). e Exemplo 4.5 : No modelo AR(1) com erros normais vamos atribuir as seguintes 2 distribuies a priori, N (0, 1) e GI(1, 1). Portanto, co p() exp(2 /2)
2 2 2 e p( ) ( )2 exp(1/ )
4.3. AJUSTANDO PROCESSOS MEDIAS MOVEIS
41
e os comandos abaixo podem ser usados para obter a moda da distribuio a posteriori ca 2 e . conjunta de > + + + + > > + > prior = function(theta) { s2 = theta[1] alpha = theta[2] return(-alpha^2/2 - 1/s2 - 2 * log(s2)) } post = function(theta, x) fun(theta, x) + prior(theta) out = optim(init, fn = post, method = "BFGS", control = list(fnscale = -1), hessian = T, x = x) out$par
[1] 0.9827075 0.7486626 Note que as estimativas pontuais nos Exemplos 4.4 e 4.5 so bastante similares. a Nenhuma restrio de estacionariedade foi imposta na distribuio a priori, mas ca ca e poss fazer uma otimizao restrita ou mesmo impor esta restrio a priori. No caso vel ca ca do AR(1) poderiamos atribuir uma distribuio normal truncada ou uma distribuio ca ca uniforme em (-1,1) para o parmetro . a
4.3
Ajustando Processos Mdias Mveis e o
O problema de estimao dos parmetros em modelos MA bem mais complicado ca a e do que em modelos AR. Os erros t so agora funes no lineares complicadas dos a co a parmetros 1 , . . . , q e expresses anal a o ticas para os estimadores no podem ser obtia das. Assim, mtodos computacionais iterativos precisam ser utilizados para minimizar e a soma de quadrados residual. Dado um modelo MA(q) Xt = + t + 1 t1 + + q tq e uma srie observada x1 , . . . , xn o procedimento iterativo consiste basicamente em e xar os valores de , 1 , . . . , q e calcular os res duos et = xt 1 t1 q tq sequencialmente para t = 1, . . . , n assumindo que 0 = 1 = = q+1 = 0 e substituindo t1 , . . . , tq pelos residuos calculados. Assim, e1 = x1
e2 = x2 1 e1 = x2 1 x1 + 1 e3 = x3 1 e2 2 e1 . . .
42
Dados estes res duos pode-se calcular a soma de quadrados residual S(, ) = n 2 . Repetindo este procedimento para , , . . . , variando em uma grade 1 q t=1 et de pontos pode-se escolher os valores que minimizam a soma de quadrados. Este procedimento requer o uso de algoritmos ecientes de otimizao numrica e nada ca e garante a sua convergncia para um m e nimo global. Alm das estimativas pontuais, se o processo {t } tem distribuio normal ento e ca a Box & Jenkins (1970), p. 228 descrevem regies de conana para os parmetros do o c a 2 modelo. Neste caso, se t N (0, ) a funo de verossimilhana ca, ca c
n 2 L(, , )
=
t=1
2 (2 )1/2 exp
1 2 e 2 2 t
n
2 ( )n/2 exp
1 2 2
e2 t
t=1
2 e e os valores de et so calculados como anteriormente. Portanto L(, , ) uma a funo no linear dos parmetros. ca a a Em termos prticos, se o procedimento de otimizao utilizado levar muitas ita ca eraes para convergir ou mesmo no convergir deve-se desconar das estimativas. co a Neste caso as estimativas podem ser instveis no sentido de que adicionando-se ou a removendo-se uma ou duas observaes pode-se obter valores muito diferentes. Nesta co situao pode ser computacionalmente mais vantajoso ajustar um modelo AR aos ca dados mesmo que o modelo resultante tenha mais parmetros do que o modelo MA a sugerido pela funo de autocorrelao. ca ca
4.4
Ajustando Processos ARMA
Os problemas de estimao para modelos ARMA so similares aqueles para modelos ca a MA no sentido de que um procedimento iterativo precisa ser utilizado. Isto ocorre porque os erros {t } so funes no lineares complicadas de todos os coecientes a co a 1 , . . . , p , 1 , . . . , q . Portanto os mesmos comentrios da seo anterior so vlidos a ca a a para procedimentos que levam muitas iteraes para convergir, i.e deve-se desconar co das estimativas. Os residuos so calculados de forma anloga ao modelo MA (ver a a Exerc 14). cio Outra diculdade, espec ca de modelos ARMA, o problema de cancelamento e de ra zes. Por exemplo considere o modelo ARMA(2,1) Xt = 2Xt1 2 Xt2 t1 + t que pode ser reescrito em termos do operador de retardo como (1 B)2 Xt = (1 B)t . Note como = implica em um modelo AR(1) Xt = Xt1 + t , ou seja ambos os modelos implicam exatamento no mesmo comportamento para a srie temporal Xt . e
4.5. MODELOS SAZONAIS
43
Este um problema de identicao que ca ainda mais complicado em modelos de e ca ordem mais alta. Em termos prticos dif identicar o problema de cancelamento de ra a no a e cil zes a ser, como j foi dito, que o procedimento iterativo dever ter convergncia lenta. No a a e caso particular de um modelo ARMA(1,1) deve-se desconar quando as estimativas de e so muito similares. Para outros valores de p e q a unica sugesto para tentar a a minimizar o problema no incluir muitos parmetros no modelo. e a a Exemplo 4.6 : Vamos simular um processo ARMA(1,1) com ra zes similares e vericar o problema de cancelamento de ra zes. > x = arima.sim(n = 100, list(ar = 0.7, ma = -0.75)) > arima(x, order = c(1, 0, 1), include.mean = F) Call: arima(x = x, order = c(1, 0, 1), include.mean = F) Coefficients: ar1 -0.9478 s.e. 0.0666
ma1 0.9055 0.0861 log likelihood = -142.18, aic = 290.37
sigma^2 estimated as 1.005:
Note como as estimativas dos coecientes esto muito diferentes dos valores vera dadeiros e os erros padres esto enormes! o a
4.5
Modelos Sazonais
Muitas sries temporais contm uma componente peridica sazonal que se repete a e e o cada s observaes (s > 1). Por exemplo, com dados mensais e s = 12 tipicamente co espera-se que Xt dependa de Xt12 e talvez de Xt24 alm de Xt1 , Xt2 , . . . . e Neste caso, tomar a primeira diferena xt xt1 no suciente para tornar a c a e srie (aproximadamente) estacionria. A forma apropriada de diferenciar dados com e a padro sazonal acentuado tomar diferenas no per a e c odo sazonal. Por exemplo, para dados mensais a primeira diferena sazonal c e 12 xt = (1 B 12 )xt = xt xt12 e ter variabilidade menor do que a primeira diferena no sazonal xt = xt xt1 , a c a sendo portanto mais fcil de identicar e estimar. a Em geral, uma diferena sazonal denotada por s onde s o per c e e odo sazonal. D . Combinando-se os dois tipos A D-sima diferena sazonal ento denotada por s e c e a c de diferenciao obtem-se o operador d D . Por exemplo, tomando-se 1 diferena ca s simples e 1 sazonal em uma srie mensal tem-se que e 12 xt = xt xt1 xt12 + xt13
44
Box & Jenkins (1970) generalizaram o modelo ARIMA para lidar com sazonalidade e deniram um modelo ARIMA sazonal multiplicativo, denominado SARIMA, dado por (B)(B s )Wt = (B)(B s )t (4.3) onde (B) = (1 1 B p B p ) Wt = d D Xt s
(B s ) = (1 s B s P B P s ) (B) = (1 + 1 B + + q B q )
(B s ) = (1 + s B s + + Q B Qs ). Este modelo chamado SARIMA multiplicativo de ordem (p, d, q)(P, D, Q)s e e parece extremamente complicado ` primeira vista mas na prtica os valores de d e a a D em geral no sero maiores do que 1 e um nmero pequeno de coecientes ser a a u a suciente. Por exemplo, com P = 1 temos que (B s ) = (1 s B s ) o que signica simplesmente que Wt depende de Wts . A srie Wt formada a partir e e da srie original tomando-se diferenas simples para remover a tendncia e diferenas e c e c sazonais para remover a sazonalidade. Para xar idias considere o modelo SARIMA(1,0,0) (0, 1, 1)12 para dados mene sais. Ou seja temos um termo autoregressivo e um termo mdia mvel sazonal mode o elando a primeira diferena sazonal. O modelo pode ser escrito como c (1 B)(1 B 12 )Xt = (1 B 12 )t e desenvolvendo os produtos obtemos que Xt = Xt12 + (Xt1 Xt13 ) + t + t12 . Assim, Xt depende de Xt1 , Xt12 e Xt13 alm do erro no tempo t 12. e Para nalizar, ao ajustar um modelo sazonal aos dados a primeira tarefa ese pecicar os valores de d e D que tornam a srie (aproximadamente) estacionria e e a remove a maior parte da sazonalidade. Como j foi dito, estes valores raramente sero a a maiores do que 1. Posteriormente os valores de p, P , q e Q devem ser especicados com base nas funes de autocorrelao e autocorrelao parcial da srie diferenciada. co ca ca e Os valores de P e Q so especicados basicamente a partir de rk , k = s, 2s, . . . . Por a exemplo, para dados mensais se r12 grande mas r24 pequeno isto sugere que um e e termo mdia mvel sazonal pode ser adequado. e o Aps ter identicado, por tentativa, o que parece ser um modelo SARIMA razovel o a os parmetros sero estimados por algum procedimento iterativo similar `queles proa a a postos para modelos ARMA. Detalhes sobre as rotinas de estimao destes modelos ca no sero abordados aqui e podem ser obtidos em Box & Jenkins (1970). a a
4.6. ADEQUACAO DO MODELO
45
4.6
Adequao do Modelo ca
Todos os modelos so errados mas alguns so uteis (George Box) a a
Aps identicar a ordem e estimar ecientemente os parmetros de um modelo o a e necessrio vericar sua adequao antes de utiliz-lo por exemplo para fazer previses. a ca a o Pode-se fazer testes de sobreajustamento, que consistem em incluir parmetros extras a no modelo e vericar sua signicncia estat a stica. No caso de modelos ARMA deve-se incluir um parmetro de cada vez para evitar o problema de cancelamento de ra a zes mencionado na Seo 4.4. ca
4.6.1
Anlise dos Res a duos
Aps um modelo ter sido ajustado a uma srie temporal deve-se vericar se ele fornece o e uma descrio adequada dos dados. Assim como em outros modelos estat ca sticos a idia e vericar o comportamento dos res e duos onde residuo = observao - valor ajustado. ca Para os modelos vistos aqui o valor ajustado a previso 1 passo a frente de modo e a que o res duo ca denido como o erro de previso 1 passo a frente. Por exemplo, a em um modelo AR(1) se a estimativa do coeciente autoregressivo ento o valor e a ajustado no tempo t xt1 e o res e duo correspondente et = xt xt1 . e Se o modelo tiver um bom ajuste espera-se que os res duos se distribuam aleatoriamente em torno de zero com varincia aproximadamente constante e sejam no a a correlacionados. Se a varincia dos res a duos for crescente uma transformao logar ca tmica nos dados pode ser apropriada. O fenmeno de no constncia na varincia o a a a denominado de volatilidade na literatura de sries temporais e pode ser tratado e e atravs de transformaes nos dados (e.g. transformaes de Box-Cox)1 . e co co Alm disso, em modelos de sries temporais os res e e duos esto ordenados no tempo a e portanto natural trat-los tambm como uma srie temporal. E particularmente e a e e importante que os res duos de um modelo estimado sejam serialmente (i.e. ao longo do tempo) no correlacionados. Evidncia de correlao serial nos res a e ca duos uma e indicao de que uma ou mais caracter ca sticas da srie no foi adequadamente descrita e a pelo modelo. Consequentemente, duas maneiras bvias de vericar a adequao do modelo cono ca sistem em representar gracamente os res duos e o seu correlograma. O grco tema poral poder revelar a presena de dados discrepantes, efeitos de autocorrelao ou a c ca padres c o clicos enquanto que o correlograma permite uma anlise mais detalhada da a estrutura de autocorrelao indicando poss ca veis termos faltantes no modelo. Ou seja, assim como em outros modelos estat sticos, a idia que os res e e duos podero identicar caracter a sticas que no foram adequadamente modeladas. Por exa emplo, autocorrelaes residuais signicativas nas defasagens 1 ou 2, ou em defasagens co
Uma tendncia mais recente no entanto consiste em tentar modelar simultaneamente a mdia e e e a varincia ao invs de usar transformaes. a e co
1
46
sazonais (e.g. 12 para dados mensais) so uma indicao de que mais termos mdias a ca e mveis devem ser incluidos no modelo. Por outro lado, um valor de rk ligeiramente o fora dos limites de conana em defasagens sem signicado bvio (e.g. k=5) no c o a indicao suciente para se rejeitar o modelo. O mesmo comentrio vale para as e ca a autocorrelaes parciais dos res co duos no que diz respeito ` incluso de termos autorea a gressivos (sazonais e no sazonais). a
4.6.2
Testes sobre os res duos
Ao invs de olhar para as autocorrelaes residuais individualmente pode-se testar e co se um grupo de autocorrelaes signicativamente diferente de zero atravs das co e e chamadas estat sticas Q. Para modelos ARMA Box & Jenkins (1970) sugeriram o uso do teste de Box-Pierce para as hipteses o H0 : (1) = = (m) = 0 sendo a estat stica de teste dada por
m
H1 : (k) = 0, para algum k {1, . . . , m}.
Q=n
k=1
2 rk .
Na prtica o nmero m de autocorrelaes amostrais tipicamente escolhido entre a u co e 15 e 30. Se o modelo ajustado for apropriado ento Q ter distribuio aproximadaa a ca mente qui-quadrado com m p q graus de liberdade. Assim, valores grandes de Q fornecem indicao contra a hiptese de que as autocorrelaes so todas nulas, em ca o co a favor da hiptese de que ao menos uma delas diferente de zero. o e O teste de Box-Pierce no tem bom desempenho em amostras pequenas ou moda eradas no sentido de que a distribuio se afasta da qui-quadrado. Vrios testes ca a alternativos foram sugeridos na literatura e o mais conhecido o teste de Ljung-Box, e aonde a estat stica de teste dada por e
m
Q = n(n + 2)
k=1
2 rk . nk
Sua distribuio amostral tambm aproximadamente ca e e m p q graus de liberdade.
qui-quadrado
com
Exemplo 4.7 : Considere novamente a srie com os totais mensais de passageiros e em linhas areas internacionais nos EUA entre 1949 e 1960 que aparece na Figura ??. e Existe uma clara tendncia de crescimento bem como um padro sazonal ao longo e a dos anos. Foi feita uma transformao logaritmica nos dados (esta transformao ca ca sugerida na literatura). Faa os grcos da FAC amostral da srie original, 1a e c a e a diferena sazonal. Os comandos abaixo podem ser utilizados e obtmdiferena e 1 c c e se os grcos da Figura 4.1. a
4.6. ADEQUACAO DO MODELO > y = log(AirPassengers) > z = cbind(y, diff(y), diff(y, lag = 12)) > yl = c("No de passageiros", "Variacao mensal", "Variacao anual") > par(mfrow = c(3, 2)) > for (i in 1:3) { + plot(z[, i], main = "", xlab = "Anos", ylab = yl[i]) + m = acf(z[, i], lag.max = 36, plot = F, na.action = na.pass) + m$lag = m$lag * 12 + plot(m, main = "", xlab = "defasagem", ylab = "FAC") + }
47
No de passageiros
5.0
FAC 1950 1954 Anos 1958
0.2 0
0.4 0.8
6.0
10
15
20
25
30
35
defasagem
Variacao mensal
0.2
FAC 1950 1954 Anos 1958
0.0
0.2
0.2 0
0.4
1.0
10
15
20
25
30
35
defasagem
Variacao anual
0.2
FAC 1950 1954 Anos 1958
0.0
0.2 0
0.4
1.0
10
15
20
25
30
35
defasagem
Figura 4.1: Os grcos anteriores indicam que precisamos tomar 1 diferena simples mais 1 a c diferena sazonal para tentar induzir estacionariedade aproximada. c > z = diff(diff(y), lag = 12) > m = acf(z, lag.max = 36, plot = F) > m$lag = m$lag * 12 Note que h valores grandes nas defasagens 1, 3, 12 e 23 do ultimo grco. Isto a a pode ser uma indicao de que termos MA sazonais e no sazonais devem ser incluidos ca a
48
> par(mfrow = c(2, 1)) > plot(z, main = "serie com 1 diferenca simples e 1 sazonal", xlab = "Anos", + ylab = "") > plot(m, main = "")
serie com 1 diferenca simples e 1 sazonal

0.15 0.15 1950 0.00
1952
1954
1956 Anos
1958
1960
ACF
0.4 0
0.2
0.8
10
15 Lag
20
25
30
35
Figura 4.2: no modelo. Um modelo candidato para o logaritmo da srie SARIMA(0,1,1)x(0,1,1) e e e foi estimado usando os comandos abaixo. > m = arima(y, order = c(0, 1, 1), seasonal = list(order = c(0, + 1, 1))) > m Call: arima(x = y, order = c(0, 1, 1), seasonal = list(order = c(0, 1, 1))) Coefficients: ma1 -0.4018 s.e. 0.0896
sma1 -0.5569 0.0731
4.6. ADEQUACAO DO MODELO sigma^2 estimated as 0.001348: log likelihood = 244.7,
49 aic = -483.4
Como primeiro vericao da adequao do modelo vamos usar a funo tsdiag() ca ca ca que retorna os grcos dos residuos padronizados, o correlograma e os p-valores do a teste de Ljung-Box para autocorrelaes de ordem 1, 2, . . . . O resultado est na Figura co a 4.3. > tsdiag(m)
Standardized Residuals
3 3 1 1
1950
1952
1954 Time
1956
1958
1960
ACF of Residuals
0.4 0.8 0.2 0.0
ACF
0.5 Lag
1.0
1.5
p values for LjungBox statistic

0.8 0.0 0.4
p value
4 lag
10
Figura 4.3: Compare estes p-valores com o resultado da funo Box.test() que calcula as ca estatisticas de Box-Pierce e Ljung-Box para a hiptese nula de independncia. o e > for (i in 1:10) { + b = Box.test(m$residuals, i, type = "Ljung-Box")$p.value + print(b) + } [1] [1] [1] [1] 0.8610213 0.945251 0.4829255 0.3663101
50 [1] [1] [1] [1] [1] [1] 0.4320234 0.4883209 0.539204 0.6328112 0.5096084 0.5502513
Testando a Normalidade dos Res duos

Para uma varivel aleatria X tal que E(X) = e V ar(X) = 2 dene-se os coea o cientes de assimetria e curtose como, A(X) = E (X )3 3 e K(X) = E (X )4 4
respectivamente. A distribuio normal tem assimetria 0 e curtose igual a 3. Substica tuindo os momentos tericos de X pelos seus equivalente amostrais o 1 mj = n
n t=1
(Xt X)j
os estimadores da assimetria e curtose so dados por a m3 A= m3 2 e m4 K= m2 2
respectivamente. Sob a hiptese de normalidade as variveis aleatrias n/6A e o a o n/24(K 3) so independentes e tm distribuio assinttica N (0, 1) e assim a a e ca o estat stica nA2 n(K 3)2 + 6 24 tem distribuio assinttica 2 com 2 graus de liberdade e pode ser usada para testar ca o a normalidade de X. As outras vericaes usuais sobre os residuos tambm devem ser feitas. Por co e exemplo, um histograma com curva normal superposta, o grco de probabilidades a normais e um teste de normalidade. Os comandos abaixo podem ser utilizados no R. > z = m$residuals > d = seq(range(z)[1] - 3 * sd(z), range(z)[2] + 3 * sd(z), 0.001) > a = shapiro.test(z)
51
> > > > > > >
par(mfrow = c(2, 1)) hist(z, freq = F) lines(d, dnorm(d, 0, sd(z))) qqnorm(z) qqline(z) text(-1.5, 0.05, "Teste de Shapiro-Wilk") text(-2, 0.01, paste("p-valor=", round(a$p.value, 4)))
Histogram of z
12 Density 0 4 8
0.10
0.05
0.00 z
0.05
0.10
Normal QQ Plot
Sample Quantiles 0.05 0.10
Teste de ShapiroWilk pvalor= 0.1674
Theoretical Quantiles
Figura 4.4:
52
Exerc cios
1. A partir de 100 observaes do processo Xt = 1 Xt 1 + 2 Xt 2 + t foram co calculadas as seguintes autocorrelaes amostrais r1 = 0.8, r2 = 0.5 e r3 = 0.4. co Obtenha estimativas para 1 e 2 . 2. Calcule as autocorrelaes tericas de um processo MA(Q) puramente sazonal. co o 3. Faa um esboo do correlograma para uma srie com estrutura MA(Q) purac c e mente sazonal, i.e. no existe dependncia dentro de um per a e odo sazonal. 4. Para uma srie temporal observada foi identicado o modelo ARIMA(1,1,1). e (a) Escreva o modelo em termos do operador de retardo. (b) Descreva como deve ter sido o comportamento das funes de autocorreco lao e autocorrelao parcial da srie original e da srie diferenciada. ca ca e e 5. Escreva o modelo SARIMA(0, 0, 1) (1, 1, 0)12 em termos de operador de retardo. 6. Para uma srie mensal observada foi identicado e estimado o modelo e SARIMA(1,1,0)(0,1,0). (a) Escreva o modelo em termos de operador de retardo. (b) Descreva como deve ter sido o comportamento das funes de autocorreco lao e autocorrelao parcial da srie original e da srie diferenciada. ca ca e e (c) Como deve ser o comportamento esperado dos res duos em termos de suas autocorrelaes para que o modelo seja adequado? co (d) O que se deve fazer no caso de autocorrelaes residuais signicativas nas co defasagens 1, 8 e 12 ? 7. Para uma srie observada trimestralmente foi identicado e estimado o modelo e SARIMA(1,1,0)(2,1,1). (a) Escreva o modelo em termos de operador de retardo. (b) Descreva como deve ter sido o comportamento das funes de autocorreco lao e autocorrelao parcial da srie original e da srie diferenciada. ca ca e e (c) O que se deve fazer se a autocorrelao residual na defasagem 4 for signica cativa ? 8. Explique como voc estimaria os coecientes em um modelo ARMA(1,1) utie lizando as duas primeiras autocorrelaes amostrais? co 9. Obtenha os estimadores de m nimos quadrados para os coecientes em um modelo AR(2). 10. Escreva as equaes de m co nimos quadrados para o modelo AR(p). Como voc e estima a varincia dos erros? a
53
11. Em que condies as estimativas de m co nimos quadrados de um modelo AR(p) coincidiro com as de mxima verossimilhana? a a c 12. Seja o modelo AR(1) com erros normais. (a) Obtenha os EMV usando a verossimilhana condicional. c (b) Obtenha os EMV usando a verossimilhana exata com c
2 X1 N (0, /(1 2 )).
13. Usando as notas de aula e qualquer outra referncia bibliogrca faa um resumo e a c da anlise de res a duos em sries temporais. e 14. Explique como podem ser calculados os res duos em um modelo ARMA(p,q).
Cap tulo 5
Previso a
Uma das formas de utilizao de um modelo ajustado para fazer previses de valores ca e o futuros. Assim, se t o per e odo corrente estamos interessados em prever os valores de Xt+1 , Xt+2 , . . . . A previso de Xt+k , para k = 1, 2, . . . ser denotada por xt (k) e a a e denida como a esperana condicional de Xt+k dados todos os valores passados, i.e. c xt (k) = E(Xt+k |xt , xt1 , . . . ). (5.1)
A equao acima chamada de funao de previso e o inteiro k chamado de horizonte ca e c a e de previso. Pode-se mostrar que esta previso tem o menor erro quadrtico mdio a a a e 2 . Na prtica temos um n mero nito de observaes e (EQM), E(Xt+k xt (k)) a u co obtemos ento que xt (k) = E(Xt+k |xt , . . . , x1 ) que no tem o EQM m a a nimo mas pode ser visto como uma aproximao de (5.1). ca Note que se temos uma srie temporal observada x1 , . . . , xn as previses podem e o ser feitas dentro do per odo amostral e comparadas com os valores observados. Esta uma prtica bastante comum para checar a performance preditiva do modelo. A e a diferena entre os valores previsto e observado, xt (k) xt+k , chamada de erro de c e previso k passos a frente e ser denotado por et+k . a ` a
5.1
Mtodos Univariados de Previso e a
Os mtodos descritos nesta seo tm um forte apelo intuitivo, decompondo uma srie e ca e e temporal em componentes de fcil interpretao. Dados os recursos computacionais a ca dispon veis atualmente eles tambm tm a vantagem de serem extremamente simples e e de programar e sua utilizao ter um custo computacional muito pequeno. Vamos ca comear com o caso mais simples, adequado para sries localmente constantes. c e
5.1.1
Alisamento Exponencial Simples
Dada uma srie temporal x1 , . . . , xn , no sazonal e sem tendncia sistemtica, rae a e a e zovel tomar a estimativa de xn+1 como uma soma ponderada das observaes pasa co sadas, i.e. xn (1) = a0 xn + a1 xn1 + . . . 54
5.1. METODOS UNIVARIADOS DE PREVISAO
55
onde {aj } so os pesos. Parece razovel tambm dar um peso maior `s observaes a a e a co mais recentes do que `s observaes mais distantes no passado, i.e. a0 > a1 > . . . . a co Neste procedimento so adotados pesos que decaem geometricamente a uma taxa a constante dados por aj = (1 )j , j = 0, 1, . . . onde 0 < < 1 chamada de constante de alisamento. Assim, a previso 1 passo ` e a a frente em t = n ca xn (1) = xn + (1 )xn1 + (1 )2 xn2 + . . . . (5.2)
Naturalmente que na prtica haver um nmero nito de observaes passadas e a a a u co soma acima ser tambm nita. A idia de que o contedo informativo de uma obsera e e u vao decai com a sua idade bastante intuitivo e o parmetro est controlando ca e a a o grau de envelhecimento deste contedo. u A equao (5.2) costuma ser reescrita em forma de equao recursiva. Colocandoca ca se (1 ) em evidncia obtm-se que e e xn (1) = xn + (1 )[xn1 + (1 )xn2 + (1 )2 xn3 + . . . ] = xn + (1 )n1 (1) x (5.3)
i.e. uma mdia ponderada entre a observao mais recente e a previso anterior. e ca a A equao (5.2) pode ainda ser reescrita na forma de correao de erro. Denindo ca c en = xn xn1 (1) o erro de previso 1 passo ` frente no tempo n ento a a a xn (1) = xn1 (1) + en . Ou seja, a previso para t = n + 1 igual ` previso para t = n que foi feita em a e a a t = n 1 mais uma proporo do erro cometido. A previso k-passos a frente a ca a e mesma, i.e xn (k) = xn (1), k = 2, 3, . . . .
Previses Dentro da Amostra o

Usando x0 (1) = x1 como previso inicial em t = 0 e denindo et = xt xt1 (1) os a erros de previso 1 passo ` frente, a equao (5.3) pode ser usada recursivamente para a a ca obter as previses, i.e. o xt (1) = xt + (1 )t1 (1), x Na forma de correo de erro as recurses cam ca o xt (1) = xt1 (1) + et , t = 1, 2, . . . t = 1, 2, . . .
Especicao de ca
Vale notar que o valor de no depende da escala em que as observaes foram media co das, mas sim das propriedades da srie temporal. O valor de deve ser especicado de e modo a reetir a inuncia das observaes passadas nas previses. Valores pequenos e co o
56
CAP ITULO 5. PREVISAO
produzem previses que dependem de muitas observaes passadas. Por outro lado, o co valores prximos de 1 levam a previses que dependem das observaes mais recentes o o co e no caso extremo = 1 a previso simplesmente a ultima observao. O valor de a e ca tambm pode ser estimado a partir dos dados e o critrio utilizado a minimizao e e e ca da soma de quadrados dos erros de previso. Ou seja, dado um valor xo de e a usando a equao (5.3), calcule ca x0 (1) = x1 , x2 (1) = x2 + (1 )1 (1), x . . . x1 (1) = x1 + (1 )0 (1), x e3 = x3 x2 (1) e2 = x2 x1 (1)
xn1 (1) = xn1 + (1 )n2 (1), x
en = xn xn1 (1)
n 2 e calcule t=2 et . Repita o procedimento para valores de variando entre 0 e 1 (digamos com incrementos de 0,1) e selecione o valor que minimiza esta soma de quadrados. Na prtica, o valor m a nimo pode ocorrer muito prximo de um dos exo tremos do intervalo de variao de . Isto pode ocorrer quando a soma de quadrados ca varia muito pouco na regio em torno do m a nimo. Neste caso faz mais sentido utilizar valores no to extremos. a a
Exemplo 5.1 : No banco de dados do R, a srie lh contm as quantidades de um e e tipo de hormnio em amostras de sangue coletadas a cada 10 minutos de uma pessoa o do sexo feminino (Diggle 1990). Vamos aplicar o mtodo de alisamento exponencial e simples ` esta srie fazendo primeiro a seleo do valor de que minimiza a soma a e ca dos quadrados dos erros de previso 1 passo a frente. Na Figura 5.1 temos o grco a a desta soma de quadrados como funo de e o grco das previses 1 passo ` frente ca a o a juntamente com a srie observada. e O valor timo obtido foi = 0, 945 com a soma de erros quadrados igual a 11,86 o e os seguintes comandos do R podem ser utilizados para a seleo de . ca
> AES = function(x, interval) { + e = NULL + for (alfa in interval) { + e2 = 0 + prev = x[1] + for (i in 2:length(x)) { + prev = c(prev, alfa * x[i - 1] + (1 - alfa) * prev[i + 1]) + e2 = e2 + (x[i] - prev[i])^2 + } + e = c(e, e2) + } + plot(interval, e, type = "l", xlab = expression(alpha), ylab = "Soma de quadra + e.min = min(e)
5.1. METODOS UNIVARIADOS DE PREVISAO + + + + + + } alfa = interval[e == e.min] prev = x[1] for (i in 2:length(x)) prev = c(prev, alfa * x[i - 1] + (1 alfa) * prev[i - 1]) return(list(alfa = alfa, sq2 = e.min, prev = prev))
57
> > > >
par(mfrow = c(2, 1)) m = AES(lh, seq(0.1, 0.99, 0.001)) plot(1:48, m$prev, ylab = "Hormonio", xlab = "Amostras", type = "l") points(lh)
Soma de quadrados dos erros
12.0
13.5
0.2
0.4
0.6
0.8
1.0
Hormonio
1.5 0
2.5
3.5
10
20 Amostras
30
40
Figura 5.1: Soma dos quadrados dos erros de previso 1 passo a frente em funo de . a ca Valores observados (pontos) e previses 1 passo a frente (linhas) usando o valor timo de . o o
Exemplo 5.2 : O procedimento do Exemplo 5.1 foi repetido para a srie de medidas e anuais de vazes do Rio Nilo entre 1871 e 1970, tambm do banco de dados do R. Os o e resultados esto na Figura 5.2. a
58 > > > >
CAP ITULO 5. PREVISAO par(mfrow = c(2, 1)) m = AES(Nile, seq(0.1, 0.99, 0.001)) plot(1:length(Nile), m$prev, ylab = "", xlab = "", type = "l") points(1:length(Nile), Nile)
Soma de quadrados dos erros
2100000
2700000
0.2
0.4
0.6
0.8
1.0
800 0
1000
20
40
60
80
100
Figura 5.2: Soma dos quadrados dos erros de previso 1 passo a frente em funo de . a ca Valores observados (pontos) e previses 1 passo a frente (linhas) usando o valor timo de o o
5.1.2
Mtodo de Holt-Winters e
O procedimento de alisamento exponencial pode ser generalizado para sries que cone tenham tendncia e variao sazonal. Suponha por exemplo que as observaes so e ca co a mensais e sejam Lt , Tt e It o n vel, a tendncia e o e ndice sazonal no tempo t. Assim, Tt o aumento ou reduo esperada por ms no n atual da srie. e ca e vel e Suponha que no tempo t os termos (L1 , T1 , I1 ), . . . , (Lt1 , Tt1 , It1 ) sejam conhecidos. Ento, aps observar xt os termos Lt , Tt e It so atualizados via alisamento a o a exponencial. Se a variao sazonal for multiplicativa, i.e. com amplitudes que tendem ca a crescer ao longo do tempo, as equaes de atualizao na forma de recorrncia so co ca e a
5.1. METODOS UNIVARIADOS DE PREVISAO dadas por Lt = (xt /It12 ) + (1 )(Lt1 + Tt1 ) Tt = (Lt Lt1 ) + (1 )Tt1 It = (xt /Lt ) + (1 )It12
59
e as previses k per o odos ` frente so dadas por a a xt (k) = (Lt + kTt )It12+k , k = 1, 2, . . . .
No caso de sazonalidade aditiva as equaes de atualizao para o n co ca vel e o ndice sazonal so modicadas para a Lt = (xt It12 ) + (1 )(Lt1 + Tt1 ) It = (xt Lt ) + (1 )It12 e as previses k per o odos ` frente cam a xt (k) = Lt + kTt + It12+k , k = 1, 2, . . . .
Aqui temos parmetros de alisamento, , e , para cada componente da srie a e que so em geral escolhidos no intervalo (0,1) e podem ser estimados minimizando-se a a soma de quadrados dos erros de previso como na seo anterior. Aqui vale tama ca bm o comentrio sobre valores prximos aos extremos devido ` soma de quadrados e a o a variar pouco nesta regio. Alm disso, estes parmetros no dependem da escala das a e a a observaes mas sim das propriedades temporais do n co vel, tendncia e sazonalidade e da srie. Valem os mesmos comentrios sobre estes valores reetindo a inuncia das e a e observaes passadas nas previses de cada componente. co o Para o caso particular de sries sem variao sazonal basta utilizar as equaes e ca co para Lt e Tt acima (sem o ndice It12 ). Ou seja, Lt = xt + (1 )(Lt1 + Tt1 ) Tt = (Lt Lt1 ) + (1 )Tt1 e a previso k passos ` frente no tempo t simplesmente Lt + kTt . Se a srie tambm a a e e e no tem uma tendncia sistemtica retorna-se ` equao (5.3), ou seja a e a a ca Lt = xt + (1 )Lt1 e Lt a previso 1 passo ` frente (t (1)). e a a x Exemplo 5.3 : A varivel UKLungDeaths contm os nmeros mensais de mortes a e u por doenas do pulmo (bronquite, esema e asma) no Reino Unido entre janeiro c a de 1974 e dezembro de 1979. A varivel composta por 3 sries: ambos os sexos a e e (ldeaths), sexo feminino (fdeaths) e sexo masculino (mdeaths). Aqui ser utilizada a a funo HoltWinters do R que faz o alisamento exponencial de Holt-Winters com a ca
60
srie ldeaths. As constantes de alisamento ( , e ) so determinadas minimizando e a a soma dos quadrados dos erro de previso 1 passo ` frente. Considere um modelo a a sazonal aditivo. O resultado so as constantes de alisamento calculadas e as Estimaa tivas nais (em t = n) do nivel, tendncia e componentes sazonais. Pode-se tambm e e obter as previses e intervalos de previso (supondo normalidade) para modelos ajuso a tados pelo mtodo de Holt-Winters. No grco da Figura 5.3 temos a srie original e a e com a srie suavizada mais as previses para os anos de 1980, 1981 e 1982 da srie e o e ldeaths. > data(UKLungDeaths) > m = HoltWinters(ldeaths, seasonal = "addit") > p = predict(m, n.ahead = 12, prediction.interval = T) > plot(m, p)
HoltWinters filtering
4000 Observed / Fitted 1000 1975 1500 2000 2500 3000 3500
1976
1977
1978 Time
1979
1980
1981
Figura 5.3: Srie original, srie suavizada e previses para o ano de 1980 da srie ldeaths via e e o e
mtodo de Holt-Winters. e
5.2
Previso em Modelos ARMA a
Em modelos ARMA as previses podem ser obtidas usando-se diretamente a equao o ca do modelo. Assumindo que a equao do modelo seja conhecida a previso xn (k) ca a
5.2. PREVISAO EM MODELOS ARMA
61
obtida substituido valores futuros dos erros por zero, valores futuros da srie e e Xn+1 , Xn+2 , . . . pela sua esperana condicional, e valores passados de X e de pelos c seus valores observados. Tomemos como exemplo o modelo SARIMA(1, 0, 0) (0, 1, 1)12 . A equao do ca modelo dada por e (1 B)(1 B 12 )Xt = (1 + B 12 )t ou equivalentemente Xt = Xt12 + (Xt1 Xt13 ) + t + t12 . Neste caso, as previses 1 e 2 passos ` frente cam o a xn (1) = xn11 + (xn xn12 ) + n11
xn (2) = xn10 + (n (1) xn11 ) + n10 . x Note como o valor futuro Xn+1 foi substitu na segunda equao pela sua esperana do ca c condicional xn (1), i.e. a previso feita em t = n para t = n + 1. Previses para a o horizontes maiores podem ser obtidas recursivamente. No caso de modelos autoregressivos AR(p) no dif vericar como ca a funo a e cil ca de previso. a xt (1) = 1 xt + + p xtp+1
xt (2) = 1 xt (1) + + p xtp+2 . . . xt (p + 1) = 1 xt (p) + + p xt (1) de modo que as previses para horizontes maiores do que p usam apenas as previses o o anteriores. Para p = 1 por exemplo segue que xt (k) = t (k 1) = 2 xt (k 2) = = k xt x Para modelos mdias mveis MA(q) tambm no dif vericar que a equao e o e a e cil ca de previso ca a xt (1) = 1 t + + q tq+1
xt (2) = 2 t + + q tq+2 . . . xt (q) = q t xt (q + j) = 0, ou seja, xt (k) =

q i=k
j = 1, 2, . . .
0,
i t+ki , k = 1, . . . , q k>q
62
Atualizao das Previses ca o

E interessante notar tambm como as previses podem ser atualizadas conforme novas e o observaes da srie forem obtidas. Suponha por exemplo que o valor xn+1 foi obserco e vado. Neste caso a previso para t = n + 2 car condicionada em x1 , . . . , xn , xn+1 a a e pode ser facilmente atualizada para a nova origem n + 1. Para o modelo SARIMA visto acima a previso ca a xn+1 (1) = E(Xn+2 |xn+1 , . . . , x1 )
= xn10 + (xn+1 xn11 ) + n10 .
(5.4)
Somando e subtraindo n (1) no lado direito de (5.4) obtemos que x xn+1 (1) = xn10 + (n (1) xn11 ) + (xn+1 xn (1)) + n10 x = xn (2) + (xn+1 xn (1)) ou seja, a previso atualizada a previso anterior mais uma proporo do erro de a e a ca previso 1 passo ` frente em t = n + 1. a a
Previses usando a forma MA o

As previses tambm podem ser obtidas reescrevendo-se o modelo como um processo o e mdias mveis de ordem innita. Neste caso temos que e o Xn+k = n+k + 1 n+k1 + + k n + k+1 n1 + . . . e ca claro que a previso k passos ` frente dada por a a e xn (k) = k n + k+1 n1 + . . . . (5.5)
Note que apenas os valores n , n1 , . . . foram utilizados j que a esperana dos valores a c futuros igual a zero. Esta forma particularmente util para o clculo da varincia e e a a do erro de previso. Da equao (5.5) obtemos que o erro de previso k passos ` a ca a a frente dado por e xn+k xn (k) = n+k + 1 n+k1 + + k1 n+1 e portanto a varincia do erro de previso dada por a a e
2 2 2 V ar(et+k ) = (1 + 1 + + k1 ) . 2 O ponto importante a se notar aqui que, para xo, a varincia do erro de previso e a a aumenta com o horizonte de previso. Na prtica, isto signica ter mais conana a a c em previses de curto prazo do que em previses de longo prazo. o o At agora no haviamos assumido nenhuma distribuio de probabilidade para os e a ca erros. Assumindo tambm que a sequncia {t } seja normalmente distribuida pode-se e e
5.2. PREVISAO EM MODELOS ARMA
63
construir intervalos de conana para Xt+k simtricos em torno das previses. Estes c e o so chamados intervalos de previso e so dados por a a a
k1 j=1
xt (k) z/2
E claro que neste caso a hiptese de normalidade precisa ser checada. o Finalmente, vale notar que na prtica os parmetros do modelo no so conhecidos a a a a de forma exata e precisam ser estimados. Os valores passados dos erros t tambm e precisam ser estimados como erros de previso um passo ` frente. Assim, por exemplo a a para o modelo SARIMA(1, 0, 0) (0, 1, 1)12 visto acima teremos que xn (1) = xn11 + (xn xn12 ) + n11 onde o erro de previso 1 passo ` frente em n 11 dado por a a e n11 = xn11 xn12 (1). Alm disso, os intervalos de previso obtidos sero intervalos aproximados devido a e a a esta substituio. ca Exemplo 5.4 : A Figura 5.4 mostra uma srie temporal com os totais mensais de e mortes por acidente nos Estados Unidos entre janeiro de 1973 e dezembro de 1978. Suponha que foi identicado o modelo SARIMA(0,1,1)x(0,1,1). Aps a estimao, o ca anlise de res a duos e vericao da adequao do modelo foram feitas previses para ca ca o o ano de 1979, i.e. previses 1, 2, . . . , 12 passos ` frente. Em julho de 1979 os valores o a para os primeiros 6 meses daquele ano foram disponibilizados e aparecem na Figura 5.5 juntamente com as previses. Note como os valores observados caram dentro o dos intervalos de previso fornecendo assim indicao de que o modelo teve uma boa a ca performance preditiva. Sendo assim, uma estratgia inicial para o segundo semestre e de 1979 consiste em simplesmente atualizar as previses. Os comandos do R para este o exemplo so dados a seguir. a
1 +
2 2 j .
Transformaes co
Em muitas aplicaes a srie modelada na verdade uma transformao dos dados co e e ca originais, sendo a transformao logaritmica a mais usual. Assim, tanto as previses ca o pontuais quanto os intervalos de previso so obtidos para a srie transformada e estes a a e valores precisam ser transformados novamente para a escala original. A abordagem mais simples (e geralmente adotada) consiste simplesmente em tomar a transformao ca inversa, por exemplo se um modelo foi ajustado para a srie Xt = log Yt ento yn (k) = e a exp(n (k)) a previso k passos a frente da srie original. No entanto deve-se ter em x e a e mente que estas previses via transformao inversa so em geral viesadas. Felismente o ca a os intervalos de previso tem boas propriedades e por exemplo quanto se toma o antia logaritmo dos limites xn (k) z/2 var(en+k )
64
> data(USAccDeaths) > plot(USAccDeaths, xlab = "Anos", ylab = "Numero de mortes por acidente")
Numero de mortes por acidente
7000 1973
8000
9000
10000
11000
1974
1975
1976 Anos
1977
1978
1979
Figura 5.4: Totais mensais de mortes por acidente nos Estados Unidos entre janeiro de 1973
e dezembro de 1978.
obtm-se um intervalo (geralmente assimtrico) de 100(1 )% para a previso pone e a tual yn (k). Exemplo 5.5 : Considere novamente a srie AirPassengers e faa transformao e c ca logaritmica nos dados (conforme sugerido na literatura). Estime um modelo SARIMA(0,1,1)x(0,1,1) usando os dados at dezembro de 1960 e faa previses de e c o 1 at 12 meses ` frente para o ano de 1961 nas 2 escalas. As previses e intervalos e a o de previso na escala transformada so dados na Tabela 5.1, enquanto as previses, a a o intervalos de previso e suas semi-amplitudes na escala original so dadas na Tabela a a 5.2.
5.3
Performance Preditiva
A idia de vericar a adequao de um modelo em termos dos erros de previso um e ca a passo ` frente foi apresentada na Seo 4.6. Na prtica preciso vericar se os res a ca a e duos
5.3. PERFORMANCE PREDITIVA previso a 6.11 6.05 6.17 6.20 6.23 6.37 6.51 6.50 6.32 6.21 6.06 6.17 li 6.04 5.97 6.08 6.09 6.12 6.25 6.38 6.37 6.18 6.06 5.91 6.00 ls 6.18 6.14 6.27 6.31 6.35 6.49 6.64 6.64 6.47 6.36 6.22 6.33
65
1961 Jan 1961 Feb 1961 Mar 1961 Apr 1961 May 1961 Jun 1961 Jul 1961 Aug 1961 Sep 1961 Oct 1961 Nov 1961 Dec
Tabela 5.1: Previses e limites inferior (li) e superior (ls) dos intervalos de previso. o a
se comportam de maneira aleatria (ou imprevis o vel) em torno de zero e com varincia a aproximadamente constante, alm de serem no correlacionados ao longo do tempo. e a Alm disso, dois ou mais modelos podem ser comparados segundo a sua perfore mance preditiva, ou seja construindo-se medidas baseadas nos erros de previso. A a maioria dos mtodos de previso baseia-se na idia de minimizar somas de quadrados e a e ou de valores absolutos dos erros de previso e esta tambm uma medida usada a e e para comparar a adequao de modelos alternativos. A idia ento comparar o erro ca e a e 2 /(nm) ou erro absoluto mdio quadrtico mdio et a e e |et |/(nm) para diferentes modelos, onde m o nmero de parmetros a serem estimados. e u a Uma estratgia simples de se fazer previses consiste em tomar a observao mais e o ca recente como a melhor previso de um valor futuro da srie, i.e. xt (1) = xt . Note a e que esta a previso 1 passo ` frente de um passeio aleatrio. Assim, uma forma e a a o de medir a capacidade preditiva de um modelo consiste em comparar seus erros de previso com aqueles do passeio aleatrio. Isto pode ser feito atravs da chamada a o e estat stica U de Theil denida como U=
n1 2 t=1 (xt+1 xt (1)) . n1 2 t=1 (xt+1 xt )
Note que valores maiores do que 1 so uma indicao de que globalmente os erros a ca de previso tendem a ser grandes em relao aos erros de um passeio aleatrio. Esta a ca o no uma boa caracter a e stica e gostariamos que o valor de U fosse sempre menor do que 1. Vale notar tambm que neste caso os erros de previso esto sendo avaliados e a a independente da escala dos dados. Finalmente, vale notar que todas as medidas de capacidade preditiva citadas podem ser estendidas para erros de previso k passos a frente. a Outra prtica comum em sries temporais consiste em estimar o modelo excluindo a e algumas observaes nais e usar o modelo estimado para fazer previses. Neste caso co o
66 prev 450.42 425.72 479.01 492.40 509.05 583.34 670.01 667.08 558.19 497.21 429.87 477.24 li 418.53 390.81 435.08 443.00 453.98 516.02 588.18 581.40 483.18 427.59 367.37 405.40 ls 484.74 463.75 527.37 547.32 570.81 659.45 763.23 765.38 644.85 578.17 503.01 561.81
CAP ITULO 5. PREVISAO prev.li 31.89 34.91 43.93 49.41 55.07 67.33 81.83 85.68 75.01 69.62 62.50 71.84 ls.prev 34.32 38.03 48.36 54.92 61.75 76.11 93.22 98.30 86.66 80.96 73.14 84.57
1961 Jan 1961 Feb 1961 Mar 1961 Apr 1961 May 1961 Jun 1961 Jul 1961 Aug 1961 Sep 1961 Oct 1961 Nov 1961 Dec
Tabela 5.2: Previses e limites inferior (li) e superior (ls) e semi-amplitudes dos o intervalos de previso. a
as previses podem ser comparadas com os valores observados. Por exemplo, para uma o srie mensal observada ao longo de 5 anos poderia-se estimar o modelo identicado e usando os primeiros 4 anos e meio (54 observaes) e fazer previses para os ultimos co o 6 meses.
5.4
Critrios de Informao e ca
Em muitas aplicaes vrios modelos podem ser julgados adequados em termos do co a comportamento dos res duos. Uma forma de discriminar entre estes modelos competidores utilizar os chamados critrios de informaao que levam em conta no e e c a apenas a qualidade do ajuste mas tambm penalizam a incluso de parmetros exe a a tras. Assim, um modelo com mais parmetros pode ter um ajuste melhor mas no a a necessariamente ser prefer em termos de critrio de informao. A regra bsica a vel e ca a consiste em selecionar o modelo cujo critrio de informao calculado seja m e ca nimo. A regra mais utilizada em sries temporais o chamado critrio de informao de e e e ca Akaike, denotado por AIC. A denio mais comumente utilizada ca e AIC = 2 log verossimilhana maximizada + 2m1 c onde m o nmero de parmetros (em modelos ARMA(p, q) m = p + q + 1). Para e u a dados normalmente distribuidos e usando-se estimativas de mxima verossimilhana a c para os parmetros pode-se mostrar que a AIC = n log( ) + 2m 2 onde = (1/n) 2
1
2 . t
O fator 2 somente uma conveno e no ir alterar a seleo do modelo. e ca a a ca
5.4. CRITERIOS DE INFORMACAO
67
Existem outros critrios de informao que so basicamente modicaes do AIC e ca a co na forma de penalizar a incluso de parmetros extras. O mais famoso deles o a a e critrio de informao Bayesiano, denotado por BIC e dado por e ca BIC = 2 log verossimilhana maximizada + m log n. c Note como este critrio penaliza bem mais a incluso de parmetros do que o AIC e e a a portanto tende a selecionar modelos mais parcimoniosos. E sempre bom lembrar que estas medidas no tm nenhum signicado quando a e olhadas individualmente, i.e. considerando-se um unico modelo. Assim, tanto o AIC quanto o BIC podem assumir valores quaisquer, inclusive valores negativos, j que a eles dependem da forma da funo de verossimilhana. ca c Vale lembrar tambm que ao usar tais critrios para comparar modelos a estie e mao precisa ser feita no mesmo per ca odo amostral de modo que os modelos sejam comparveis. Note tambm que aumentando-se o nmero de termos autoregressivos a e u e/ou mdias mveis, o valor de m aumenta. Assim se a incluso de termos adicionais e o a no modelo no melhorar sensivelmente o ajuste, ento o AIC e o BIC (e qualquer a a outro critrio de informao) sero maiores. e ca a Para uma reviso geral destes e outros critrios de informao no contexto de a e ca sries temporais ver por exemplo Priestley (1981), Cap e tulo 5.
Identicao Revisitada ca
Vimos que as duas ferramentas bsicas para identicao de modelos da classe ARIMA a ca so as autocorrelaes e autocorrelaes parciais amostrais. Esta etapa envolve ala co co gum grau de arbitrariedade por parte do pesquisador ao interpretar estas funes, co i.e. comparar subjetivamente seus valores amostrais com os correspondentes valores tericos. o Uma abordagem alternativa consiste em usar os critrios de informao de um e ca forma mais abrangente. Neste caso, um conjunto de poss veis modelos competidores denido a priori e aquele que minimiza o AIC ou BIC selecionado. Por exemplo, e e modelos ARMA(p, q) podem ser estimados sequencialmente variando os valores de p e q entre 0 e 3 digamos. Note que neste caso teremos 16 poss veis modelos sendo comparados e os critrios de informao so agora funes de p e q. Analogamente, e ca a co para modelos AR(p) podemos variar o valor de p, digamos entre 1 e 10. Na prtica este procedimento pode ser aplicado de forma semi-automtica j que a a a muitos pacotes estat sticos fornecem estes valores. Porm aps um modelo ser selee o cionado a anlise residual ainda deve ser feita antes de se passar ` etapa das previses. a a o Outro problema de ordem prtica que pode haver dois ou mais modelos com AIC a e e/ou BIC muito similares de modo que no seja trivial discriminar entre eles. Nestas a situaes Burnham & Anderson (1998), Seo 4.2, sugerem o uso de pesos que so co ca a obtidos subtraindo-se o valor associado com o melhor modelo. Os pesos relativos ao AIC so dados por a wk exp(AIC(k)/2)
68
sendo AIC(k) = AIC(k) min(AIC) e k a ordem do modelo. Estes pesos so e a ento normalizados para somarem 1 de modo que 0 < wk < 1 e a comparao entre a ca os modelos ca mais fcil. Se M o nmero total de modelos a comparao ento a e u ca e a baseada em wi , i = 1, . . . , M. wi = M j=1 wj Por exemplo, para modelos AR(p) os pesos relativos ao AIC so dados por a wp exp(AIC(p)/2), p = 1, . . . , pmax
sendo AIC(p) = AIC(p) min(AIC) e pmax deve ser especicado. Exemplo 5.6 : Na Figura 5.6 apresentada a srie com os totais anuais de linces e e canadenses capturados em armadilhas entre 1821 e 1934. Estes dados tm sido mode elados na literatura aps uma transformao que consiste em tomar o logaritmo na o ca base 10 e subtrair a mdia dos dados transformados. Vamos ajustar modelos AR(p) e com p variando de 1 at 5 e calcular os critrios de informao e os respectivos pesos e e ca para cada modelo. Os resultados esto na Tabela 5.3. Note que h falta de cona a cordncia entre os critrios de informao quanto ao melhor modelo. Isto pode ser a e ca uma indicao de que na verdade h 2 modelos descrevendo bem os dados. Outro ca a problema que o AIC seleciona um modelo com o valor mximo de p e isto pode ine a dicar a necessidade de considerar mais termos autoregressivos. Repetindo o exercicio com p variando de 1 a 15 obteve-se a Tabela 5.4. p 1 2 3 4 5 AIC -242.3913 -333.0988 -332.7283 -335.6596 -335.8881 pesos AIC 0.0000 0.1057 0.0878 0.3802 0.4263 BIC -234.9189 -321.8902 -317.7835 -316.9786 -313.4709 pesos BIC 0.0000 0.8137 0.1044 0.0698 0.0121
1 2 3 4 5
Tabela 5.3: Critrios de informao AIC e BIC e respectivos pesos para modelos e ca AR(p) ajustados a srie Lynx. e
Os comandos do R utilizados no Exemplo 5.6 seguem abaixo. > > > > > > > > + y = log10(lynx) x = y - mean(y) p = 1:15 n = length(x) crit = matrix(0, nrow = length(p), ncol = 5) colnames(crit) = c("p", "AIC", "pesos AIC", "BIC", "pesos BIC") crit[, 1] = p for (k in p) { ar = arima(x, order = c(k, 0, 0), include.mean = F)
5.5. PREVISOES USANDO TODOS OS MODELOS + + + > > > > crit[k, 2] = n * log(ar$sigma2) + 2 * (k + 1) crit[k, 4] = n * log(ar$sigma2) + (k + 1) + (k + 1) * log(n) } aicp = bicp = crit[, crit[, exp(-(crit[, 2] - min(crit[, 2]))/2) exp(-(crit[, 4] - min(crit[, 4]))/2) 3] = aicp/sum(aicp) 5] = bicp/sum(bicp) p 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 AIC -242.3913 -333.0988 -332.7283 -335.6596 -335.8881 -334.4484 -338.8427 -338.8505 -338.3849 -341.8678 -354.5690 -354.7117 -353.0609 -351.0895 -349.2335 pesos AIC 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0001 0.0001 0.0001 0.0006 0.3581 0.3846 0.1685 0.0629 0.0249 BIC -234.9189 -321.8902 -317.7835 -316.9786 -313.4709 -308.2950 -308.9531 -305.2247 -301.0229 -300.7696 -309.7346 -306.1411 -300.7541 -295.0465 -289.4543 pesos BIC 0.0000 0.8100 0.1039 0.0695 0.0120 0.0009 0.0013 0.0002 0.0000 0.0000 0.0019 0.0003 0.0000 0.0000 0.0000
69
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Tabela 5.4: Critrios de informao AIC e BIC e respectivos pesos para modelos e ca AR(p) ajustados a srie Lynx. e
Finalmente vale notar que se o nmero de modelos candidatos for muito grande u e a srie analisada muito longa o custo computacional deste mtodo pode ser muito e e alto. Por exemplo, em modelos SARIMA com pmax = qmax = 5, Pmax = Qmax = 2 e dmax = Dmax = 2 teremos mais de 500 modelos candidatos, sem contar poss veis transformaes nos dados, diferentes distribuies dos erros, presena de dados disco co c crepantes, alteraes estruturais, etc. co
5.5
Previses Usando Todos os Modelos o
Suponha que existem k modelos candidatos denotados por M1 , M2 , . . . , Mk e desejase fazer a previso de Xn+h . Tratando tanto Xn+h quanto Mi como variveis a a aleatrias ento pelas regras de esperana condicional segue que o a c
k
xn (h) = E(Xn+h |x) =
i=1
E(Xn+h |x, Mi )P (Mi |x).
70
Ou seja, podemos escrever a previso pontual como uma mistura discreta de previses a o pontuais sob cada modelo considerado. A mesma lgica se aplica a qualquer funo de Xn+h , em particular o ca
k 2 E(Xn+h |x) = i=1 2 E(Xn+h |x, Mi )P (Mi |x).
que pode ser usado para quanticar a incerteza sobre Xn+h , i.e.
2 V ar(Xn+h |x) = E(Xn+h |x) [E(Xn+h |x)]2 k
=
i=1 k
2 E(Xn+h |x, Mi )P (Mi |x) [E(Xn+h |x)]2
=
i=1
[V ar(Xn+h |x, Mi ) + E 2 (Xn+h |x, Mi )]P (Mi |x) [n (h)]2 x
Um procedimento para fazer previses usando todos os modelos estimados consiste o em substituir as probabilidades P (Mi |x) pelos pesos wi padronizados. Por exemplo, para modelos autoregressivos se pmax o nmero mximo de defasagens ento e u a a
pmax
E(Xn+h |x) =
i=1
E(Xn+h |x, AR(i))wi .
5.6
Previso Bayesiana a
Na prtica, os mtodos de previso em modelos ARIMA so aplicados substituindoa e a a se os parmetros do modelo pelas suas estimativas pontuais. Porm o fato de no a e a conhecermos os valores dos parmetros mais uma fonte de incerteza em relao as a e ca previses e que em muitas situaes pode ser muito grande para ser ignorada. o co No contexto Bayesiano esta incerteza pode ser levada em conta j que a previso a a de valores futuros feita a partir da distribuio preditiva de Xn+h , que dada por e ca e p(xn+h |x) = p(xn+h |x, )p(|x)d.
Neste caso, todos os poss veis valores de esto sendo levados em conta e no apenas a a a sua estimativa pontual.
5.6. PREVISAO BAYESIANA
71
> + + > > > > >
plot(ts(c(USAccDeaths, pacc$pred), frequency = 12, start = c(1973, 1)), xlab = "Anos", ylab = "Numero de mortes por acidente", ylim = c(6000, 12000)) abline(v = 1979 - 1/12, lty = 2) lines(pacc$pred + 1.96 * pacc$se, lty = 2) lines(pacc$pred - 1.96 * pacc$se, lty = 2) obs79 = c(7798, 7406, 8363, 8460, 9217, 9316) points(1979 + (0:5)/12, obs79, pch = "*")
Numero de mortes por acidente
10000
11000
12000
9000
** ** * *
6000 1973
7000
8000
1974
1975
1976
1977
1978
1979
1980
Anos
Figura 5.5: Previses para 1979 com observaes do primeiro semestre incluidas. o co
72
lynx
0 1820
1000
2000
3000
4000
5000
6000
7000
1840
1860
1880 Time
1900
1920
Figura 5.6: Totais anuais de linces canadenses capturados em armadilhas entre 1821 e 1934.
5.6. PREVISAO BAYESIANA
73
Exerc cios
1. No alisamento exponencial simples descreva a papel do parmetro . a 2. No mtodo de Holt-Winters descreva o papel dos parmetros , e . e a 3. Explique em que situaes seriam usados os mtodos de Holt-Winters aditivo co e ou multiplicativo. 4. Seja o modelo MA(1), Xt = t + t1 . (a) Obtenha a previso 1 passo ` frente em t = n e mostre que as previses k a a o passos ` frente para k = 2, 3, . . . so iguais a zero. a a
2 (b) Mostre que a varincia do erro de previso k passos ` frente dada por a a a e 2 ) 2 para k = 2, 3, . . . . para k = 1 e (1 +
5. Seja o modelo Xt = 90 + t + 0, 8t1 + 0, 5t1 . (a) Obtenha as previses k passos ` frente em t = n. o a (b) Obtenha a varincia do erro de previso k passos ` frente. a a a 6. Seja o modelo AR(1), Xt = Xt1 + t . (a) Mostre que a previso k passos ` frente feita em t = n dada por k xn . a a e (b) Mostre que a varincia do erro de previso k passos ` frente dada por a a a e 2 (1 2k )/(1 2 ). 7. Para o modelo SARIMA(0, 0, 1)(1, 1, 0)12 obtenha as previses no tempo t = n o para at 12 per e odos ` frente em termos das observaes e residuos at o tempo a co e t = n. 8. Seja o modelo (1 B)(1 0, 2B)Xt = (1 0, 5B)t . (a) Obtenha as previses 1 e 2 passos ` frente. o a (b) Mostre que as previses 3 ou mais passos ` frente so dadas pela equao o a a ca recursiva xn (k) = 1, 2n (k 1) 0, 2n (k 2). x x (c) Obtenha a varincia dos erros de previso 1, 2 e 3 passos ` frente. a a a (d) Obtenha a previso xn (2) e o erro padro do erro de previso sabendo que a a a 2 = 2. n = 1, xn = 4, xn1 = 3 e 9. Seja o modelo ARIMA(1,0,1) para uma srie Xt com mdia zero. e e (a) Reescreva o modelo na forma de choques aleatrios, i.e. o Xt = t + 1 t1 + 2 t2 + . . . obtendo uma expresso geral para os coecientes j . a (b) Escreva a expresso da varincia do erro de previso et (k) = xt+k xt (k). a a a
74
CAP ITULO 5. PREVISAO (c) Obtenha as previses xt (k) para horizontes k = 1 e k > 1. o
10. Sabe-se que se Y N (, 2 ) ento X = exp(Y ) tem distribuio log-normal a ca 2 /2) e V ar(X) = e2+ 2 (e 2 1). Se foram obtidas as com E(X) = exp( + previses k passos ` frente de Yt = log(Xt ) e assumindo que Yt normal mostre o a e que as previses na escala original so dadas por o a Xt (k) = exp(Yt (k) + Vy (k)/2) com varincia a exp(2Yt (k) + Vy (k)) [exp(Vy (k)) 1]. 11. Deseja-se ajustar um modelo ARMA a uma srie temporal estacionria mas e a os grcos das funes de autocorrelao e autocorrelao parcial so pouco a co ca ca a informativos. Descreva um procedimento de identicao alternativo (voc tem ca e um pacote estat stico para fazer as contas). 12. Descreva um procedimento para obter previses h passos ` frente em modelos o a autoregressivos com nmero mximo de defasagens igual a kmax utilizando todos u a os modelos estimados. Ilustre situaes em que as previses pontuais mdias co o e devem muito similares (ou muito diferentes) das previses usando somente o o melhor modelo.
Cap tulo 6
Modelando a Varincia a
6.1 Introduo ca
Nos modelos vistos at aqui a varincia dos erros foi assumida constante ao longo e a 2 ) = 2 . Muitas sries temporais no entanto exibem do tempo, i.e. V ar(t ) = E(t e per odos de grande volatilidade seguidos de per odos de relativa tranquilidade. Nestes casos, a suposio de varincia constante (homocedasticidade) pode no ser aproprica a a ada. Na verdade, embora a varincia incondicional dos erros ainda possa ser assumida a constante, sua varincia condicional pode estar mudando ao longo do tempo. a Alm disso, em muitas situaes prticas tem-se interesse em prever a varincia e co a a condicional da srie alm da srie propriamente dita. Por exemplo, no mercado de e e e aes o interesse no apenas prever a taxa de retorno mas tambm a sua varincia co e a e a ao longo de um certo per odo. Esta varincia condicional tambm chamada de a e e volatilidade. Algumas referncias para este cap e tulo so Taylor (1986), Franses (1998), a e Tsay (2002). Exemplo 6.1 : Na Figura 6.1 os grcos da esquerda apresentam as taxas de cma a bio dirias da Libra Esterlina, Dolar Canadense, Marco Alemo e Iene Japones, em a a relao ao Dolar Americano, enquanto nos grcos da direita esto os logaritmos ca a a das taxas de variao (retornos dirios). O per ca a odo amostral vai de janeiro de 1991 a dezembro de 1998. Uma caracter stica comum nestes retornos que embora as e mdias paream ser aproximadamente constantes as varincias mudam ao longo do e c a tempo. Na Figura 6.2 esto os histogramas com uma curva normal superimposta para a os mesmos dados (retornos). Pode-se notar que muitos valores aparecem nas caudas das distribuies. Finalmente, na Figura 6.3 temos as autocorrelaes amostrais dos co co retornos e dos retornos ao quadrado. Note como existe bastante aucorrelao entre os ca retornos ao quadrado. Todas estas caracter sticas so em geral vericadas em sries a e reais de retornos e devem ser levadas em conta pelo modelo. A idia aqui tentar modelar simultaneamente a mdia e a varincia de uma srie e e e a e temporal. Para xar idias, suponha que um modelo AR(1), Xt = Xt1 + t foi e 75
76
CAP ITULO 6. MODELANDO A VARIANCIA
0.70
z.Iene Japonesz.Marco Alemao z.Dolar Canadense z.Libra Esterlina

0 500 1000 1500 2000
y.Iene Japonesy.Marco Alemao y.Dolar Canadense y.Libra Esterlina
0.60
1.4
1.2
1.4
140
100
120
80
0.04 0
0.00
0.03
0.00
1.6
0.02 0.015
1.8
0.000
0.015 0.03
0.50
0.00
0.02
500
1000
1500
2000
Figura 6.1: Taxas de cmbio e retornos dirios em relao ao Dolar Americano da a a ca Libra Esterlina, Dolar Canadense, Marco Alemo e Iene Japones, entre janeiro de a 1991 a dezembro de 1998. estimado e deseja-se fazer previses 1 passo ` frente, o a xt (1) = E(Xt+1 |xt ) = xt . A varincia condicional de Xt+1 dada por a e V ar(Xt+1 |xt ) = V ar(t+1 |xt ) = E(2 |xt ). t+1
2 At agora assumimos que E(2 |xt ) = , mas suponha que a varincia condicional e a t+1 2 |x ) = 2 . Uma poss no seja constante, i.e. E(t+1 t a vel causa disto que os dados e t+1 se distribuem com caudas muito longas. Para facilitar a notao vamos denotar por ca 2 It = {xt , xt1 , . . . , t , t1 , . . . }, ou seja t = V ar(t |It1 ).
6.2
Modelos ARCH
Existem vrias formas de especicar como a varincia condicional (volatilidade) varia a a 2 com o tempo. Uma estratgia utilizada para modelar t , proposta em Engle (1982), e
6.2. MODELOS ARCH
77
Libra Esterlina
80
Dolar Canadense
60
40
20
0.03
0.01
0.01
0.03
0 0.015
50
100
150
0.000
0.010
Marco Alemao
60
Iene Japones
60
40
20
0.03
0.01
0.01
0.03
0 0.06
20
40
0.02
0.02
Figura 6.2: Histogramas dos retornos dirios do Exemplo 6.1. a consiste em assumir que ela depende dos quadrados dos erros passados, t1 , t2 , . . . atravs de uma autoregresso. No caso mais simples, faz-se e a t = vt c + 2 t1 (6.1)
onde {vt } uma srie puramente aleatria com mdia zero e varincia igual a 1 e vt e e o e a e t so independentes. Segue que a esperana e a varincia condicionais so dadas a c a a por, E(t |It1 ) = E(vt ) c + 2 = 0 t1 (6.2)
2 E(2 |It1 ) = t = c + 2 t t1
Neste caso dizemos que a varincia segue um processo autoregressivo condicionalmente a heterocedstico de ordem 1, ARCH(1). Note que necessrio impor as restries c > 0 a e a co 2 seja sempre positiva. Quando = 0 a varincia condicional e 0 para que t a e constante e t um processo condicionalmente homocedstico. Alm disso queremos e a e garantir a estacionariedade da autoregresso de modo que a restrio imposta 0 < a ca e < 1. Note tambm que (6.2) no inclui um termo de erro e portanto no um e a a e processo estocstico. a
78
Libra Esterlina

Libra Esterlina^2
0.02 0 5 15 25 0.04 0 5
Dolar Canadense
0.04
0.04
0 5
15
25
0.05
0.10
15
25
Dolar Canadense^2
Marco Alemao
Marco Alemao^2
0.10
0.05
0.06
0.00
0 5
15
25
0 5
15
25
0.05 0 5
0.10
15
25
Iene Japones
0.10 0.25 0 5 15 25 0.05 0.10
Iene Japones^2
0.00
0 5
15
25
Figura 6.3: Correlogramas dos retornos e retornos ao quadrado no Exemplo 6.1 A esperana e varincia incondicionais podem ser obtidas como, c a E(t ) = E[E(t |It1 )] = 0
V ar(t ) = E(2 ) = E[E(2 |It1 )] t t
= E[c + 2 ] = c + E(2 ). t1 t1
Se o processo estacionrio ento E(2 ) = E(2 ) = V ar(t ) e portanto e a a t t1 V ar(t ) = Alm disso, e Cov(t , t+k ) = E(t t+k ) = E[E(t t+k )|t+k1 , . . . , t1 ] = E[t E(vt+k c + 2 t+k1 )] = 0, para k > 0. c . 1
Ou seja, ao postular o modelo ARCH(1) estamos assumindo que os {t } so no a a correlacionados. Exemplo 6.2 : Para ilustrao a Figura 6.4 apresenta dois processos ARCH de ordem ca 1 simulados a partir de uma sequncia {vt } de 200 nmeros aleatrios i.i.d. gerados e u o
6.2. MODELOS ARCH
79
de uma distribuio N (0, 1). A sequncia {t } foi construida usando a equao (6.1) ca e ca com c = 1 e = 0, 8. Note como a sequncia {t } continua tendo mdia zero mas e e parece ter tido um aumento de volatilidade em alguns per odos. Em um modelo AR(1), a forma como esta estrutura nos erros afeta a srie original depende do valor e do parmetro autoregressivo e duas poss a veis situaes so mostradas nos grcos co a a inferiores da gura. Na Figura 6.5 temos o histograma dos valores {t } gerados, com uma curva normal superimposta, alm do grco de probabilidades normais (QQe a plot normal). Note como h um excesso de valores nas caudas ocorrendo com uma a frequncia maior do que seria esperado na distribuio normal. e ca
processo aleatrio
10 10 0 50 100 150 200 5 0 0 5
(t) = v(t) 1 + 0.8(t 1)2
50
100
150
200
x(t) = 0.5x(t 1) + (t)

10 10
x(t) = 0.9x(t 1) + (t)
50
100
150
200
5 0
50
100
150
200
Figura 6.4: Processos autoregressivos com erros ARCH(1) simulados. Basicamente a equao (6.2) nos diz que erros grandes (ou pequenos) em valor ca absoluto tendem a ser seguidos por erros grandes (ou pequenos) em valor absoluto. Portanto o modelo adequado para descrever sries aonde a volatilidade ocorre em e e 2 grupos. Alm disso, na equao (6.2) somando 2 e subtraindo t de ambos os lados e ca t obtemos que 2 = c + 2 + t t t1
2 2 2 com t = 2 t = t (vt 1). Ou seja, o modelo ARCH(1) pode ser reescrito como t 2 um AR(1) estacionrio para 2 com erros no normais (vt 2 se vt N (0, 1)) que a a t 1 tm mdia zero e varincia no constante. Portanto, a funo de autocorrelao do e e a a ca ca
80
densidades
0.00
0.15
QQ plot Normal
quantis amostrais 6 6 3 2 2
0 quantis teoricos
Figura 6.5: Caracteristicas de um processo ARCH(1) simulado. processo {2 } dada por (k) = k e o correlograma amostral deve apresentar um t e decaimento exponencial para zero. Se o processo ARCH(1) for estacionrio no dif calcular o seu coeciente de a a e cil curtose que dado por e E(4 ) t . = [V ar(t )]2
4 Denotando por E(vt ) = o quarto momento do erro segue que o quarto momento condicional dado por e 4 4 4 E(4 |It1 ) = E(vt t |It1 ) = E(t |It1 ) = (c + 2 )2 . t t1
(se assumirmos que vt N (0, 1) ento = 3). Portanto, o quarto momento incondia cional ca, E(4 ) = E[E(4 |It1 )] = E(c2 + 2 4 + 2c2 ). t t t1 t1 Se o processo estacionrio de quarta ordem ento podemos escrever E(4 ) = e a a t 4 ) = e portanto, E(t1 4 4 = (c2 + 2 4 + 2c c ) = c2 1 1+ 1 + 2 4
6.2. MODELOS ARCH e nalmente, 4 = O coeciente de curtose ento ca, a =
81
c2 (1 + ) . (1 )(1 2 )
(1 )2 (1 2 ) c2 (1 + ) = , 2 < 1/ (1 )(1 2 ) c2 1 2
que sempre maior do que . Ou seja, qualquer que seja a distribuio de vt o coee ca ciente de curtose ser maior do que a curtose de vt (desde que > 0 e > 1). Em a particular, processos ARCH(1) tm caudas mais pesadas do que a distribuio nore ca mal e so portanto adequados para modelar sries temporais com esta caracter a e stica. Sries de retornos, como as do Exemplo 6.1, frequentemente apresentam caudas mais e pesados do que a normal devido ao excesso de curtose.
Previses da Volatilidade o
Suponha que uma srie temporal Xt segue um processo ARCH(1), i.e. Xt = vt ht , e vt N (0, 1). As previses da volatilidade, k passos ` frente, no tempo t = n so o a a obtidas como, 2 hn (k) = E(hn+k |In ) = c + E(Xn+k1 |In ).
2 2 Para k = 1 segue que E(Xn+k1 |In ) = Xn+k1 e para k > 1 temos que 2 2 E(Xn+k1 |In ) = E(hn+k1 vn+k1 |In )
2 = E(hn+k1 |In )E(vn+k1 |In ) = E(hn+k1 |In ) = hn (k 1)
pois hn+k1 e vn+k1 so independentes. As previses ento cam, a o a hn (k) =

2 c + Xn , k = 1 c + hn (k 1), k = 2, 3, . . .
O Modelo ARCH(p)
Estas idias podem ser generalizadas para processos mais gerais ARCH(p) em que a e varincia condicional depende dos quadrados de p erros passados, i.e. a t = vt c + 1 2 + + p 2 tp t1 (6.3)
e ento a varincia condicional modelada como, a a e

2 t = E(2 |It1 ) = c + 1 2 + + p 2 . t t1 tp 2 Neste caso, para garantir que t seja sempre positiva necessrio impor a seguintes e a restries c > 0 e 1 0, . . . , p 0 e para garantir estacionariedade necessrio co e a p = 0 estejam fora do c tambm que as ra e zes de 1 1 B p B rculo unitrio. a Juntando estas restries equivale a impor a restrio c > 0 e p i < 1. co ca i=1
82
Analogamente podemos reescrever o modelo ARCH(p) como um modelo AR(p) para 2 denindo os erros t como anteriormente, i.e. t 2 = c + 1 2 + + p 2 + t . t t1 tp
2 2 com t = t (vt 1).
Identicao ca
A caracter stica chave dos modelos ARCH que a varincia condicional dos erros t se e a comporta como um processo autoregressivo. Portanto deve-se esperar que os res duos de um modelo ARMA ajustado a uma srie temporal observada tambm sigam este e e padro caracter a stico. Em particular, se o modelo ajustado for adequado ento a FAC a e a FACP dos res duos devem indicar um processo puramente aleatrio, no entanto o 2 , tiver um decaimento caracter se a FAC dos quadrados dos res duos, t stico de uma autoregresso isto uma indicao de que um modelo ARCH pode ser apropriado. A a e ca ordem p do modelo pode ser identicada atravs da FACP dos quadrados dos res e duos.
Previses da Volatilidade o
Suponha que uma srie temporal Xt segue um processo ARCH (p). As previses da e o volatilidade, k passos ` frente, no tempo t = n so obtidas como, a a
p
hn (k) = E(hn+k |In ) = c +
i=j
2 j E(Xn+kj |In ).
2 2 Para k j segue que E(Xn+kj |In ) = Xn+kj e para k > j temos que 2 2 E(Xn+kj |In ) = E(hn+kj vn+kj |In )
2 = E(hn+kj |In )E(vn+kj |In ) = E(hn+kj |In ) = hn (k j)
j que hn+k1 e vn+k1 so independentes. a a
6.3
Modelos GARCH
Uma generalizao natural dos modelos ARCH consiste em assumir que a varincia ca a condicional se comporta como um processo ARMA, i.e. depende tambm de seus e valores passados. Fazendo t = vt ht onde
p q
ht = c +
i=1
i 2 ti
+
j=1
j htj
segue que a esperana condicional de t zero e a varincia condicional c e a e 2 = h . Este modelo chamado ARCH generalizado, ou GARCH, de ordem (p, q). t e t Aqui as restries de positividade e estacionariedade impostas sobre os parmetros so co a a dadas por c > 0, i 0, i = 1, . . . , p, j 0, j = 1, . . . , q e p i + q j < 1. i=1 j=1
6.3. MODELOS GARCH
83
Embora a primeira vista parea um modelo mais complexo, sua vantagem sobre c os modelos ARCH basicamente a parcimnia. Assim como um modelo ARMA pode e o ser mais parcimonioso no sentido de apresentar menos parmetros a serem estimados a do que modelos AR ou MA, um modelo GARCH pode ser usado para descrever a volatilidade com menos parmetros do que modelos ARCH. a Em termos de identicao dos valores de p e q as ferramentas bsicas so mais ca a a uma vez a FAC e a FACP dos quadrados dos res duos. Assim, se o modelo ajustado for adequado a FAC e a FACP dos res duos devem indicar um processo puramente aleatrio, no entanto quando estas funes so aplicadas aos quadrados dos res o co a duos elas devem indicar um processo ARMA(p, q). A identicao pode no ser muito fcil ca a a em algumas aplicaes embora na maioria dos casos um modelo GARCH(1,1) seja co suciente. Na prtica recomenda-se tambm tentar outros modelos de ordem baixa a e como GARCH(1,2) e GARCH(2,1). As previses da volatilidade em modelos GARCH so obtidas de forma similar o a a de um modelo ARMA. Por exemplo, aps estimar os parmetros de um modelo o a GARCH(1,1) e assumindo-se que 0 = h0 = 0 pode-se construir as sequncias 1 , . . . , t e e h1 , . . . , ht e a previso 1 passo ` frente da volatilidade ca a a t (1) = c + 2 + ht . 2 t
6.3.1
Estimao ca
Para uma srie x1 , . . . , xn observada e um modelo GARCH(p, q), denotando-se o vetor e de parmetros por =(c, 1 , . . . , p , 1 , . . . , q ) e destacando-se a densidade conjunta a das p primeiras realizaes segue que co
n
p(x1 , . . . , xn |) = p(x1 , . . . , xp |) Assumindo normalidade segue que
t=p+1
p(xt |xt1 , . . . , xtp , ).
Xt |xt1 , . . . , xtp N (0, ht ) e portanto

n
p(x1 , . . . , xn |) = p(x1 , . . . , xp |)
(2ht )1/2 exp((1/2)x2 /ht ). t

t=p+1
Em geral o nmero de observaes ser grande o suciente para que o termo u co a p(x1 , . . . , xp |) possa ser desprezado. Por exemplo, para um modelo ARCH(1) a funo log-verossimilhana ca ca c
n
0.5
log(2) + log(c + x2 ) + x2 /(c + x2 ) . t1 t t1

t=2
Note que algum algoritmo de otimizao no linear dever ser utilizado e nada garante ca a a sua convergncia para um timo global. No R pode-se usar a funo garch do pacote e o ca tseries para fazer a estimao por mxima verossimilhana. ca a c
84
6.3.2
Adequao ca
Se um modelo ARCH ou GARCH foi ajustado a uma srie Xt no correlacionada e a ento os res a duos padronizados so dados por a Xt Xt = ht e formam uma sequncia i.i.d. com distribuio normal padro. Assim, a adequao e ca a ca do modelo pode ser vericada aplicando os testes usuais de normalidade a estes residuos padronizados e os testes de aleatoriedade (Box-Pierce e Ljung-Box) aos quadrados dos res duos. Exemplo 6.3 : Na parte superior da Figura 6.6 esto os preos dirios no fechamento a c a de um indice de mercado da Alemanha (DAX), entre 1991 e 1998. O interesse em e analisar os chamados retornos dados por log(xt /xt1 ) e estes esto no grco inferior a a da Figura 6.6. Existe evidncia na literatura que modelos GARCH(1,1) conseguem e captar bem os movimentos caracter sticos dos retornos. Usando a funo garch no ca
DAX
2000
5000
1992
1993
1994
1995
1996
1997
1998
retornos
0.10
0.00
1992
1993
1994
1995
1996
1997
1998
Figura 6.6: Preos dirios no fechamento de um indice de mercado da Alemanha (DAX), c a

entre 1991 e 1998 e respectivos retornos.
6.4. VOLATILIDADE ESTOCASTICA pacote tseries do R o modelo ajustado obtido foi Yt = vt ht , vt N (0, 1)
85
2 ht = 0.000005 + 0.068Yt1 + 0.889ht1
sendo todos os coecientes signicativos. O teste de Ljung-Box aplicado nos quadrados dos residuos indicou aleatoriedade (p-valor = 0,71), no entanto o teste de normalidade de Jarque-Bera aplicado aos residuos rejeitou a hiptese nula (p-valor<0,001). o Assim a hiptese de normalidade condicional parece estar sendo violada. o Na Figura 6.7 esto os histogramas, grcos de probabilidades normais dos rea a tornos e res duos do modelo GARCH(1,1) estimado, alm dos correlogramas dos e quadrados dos retornos e res duos. Use os comandos abaixo para estimar o modelo. > > > > > > > library(tseries) data(EuStockMarkets) x = EuStockMarkets dax = diff(log(x))[, "DAX"] dax.garch = garch(dax, trace = F) r = dax.garch$residuals round(dax.garch$coef, 6)
a0 a1 b1 0.000005 0.068329 0.889067 Um fato estilizado presente em sries temporais nanceiras que o mercado tem e e baixa volatilidade quando est em alta e alta volatilidade quando est em baixa. a a Tal assimetria no levada em conta pelos modelos GARCH e para contornar esta a e limitao outros modelos foram propostos na literatura. Por exemplo, no modelo ca EGARCH (ou GARCH exponencial) modela-se o logaritmo da volatilidade como,
2 log(t ) = c +
t1 t1 2 + + t1 . t1 t1
Em termos de estimao uma vantagem deste modelo que os parmetros c, e so ca e a a irrestritos j que estamos modelando o logaritmo da volatilidade. A unica restrio a ca e < 0 pois assim a volatilidade aumenta quando t1 < 0.
6.4
Volatilidade Estocstica a
2 As frmulas para modelar t vistas at agora foram todas determin o e sticas, i.e. sem uma componente de erro aleatrio. No entanto, pode ser mais razovel assumir que a o a varincia condicional varia estocasticamente ao longo do tempo ao invs de determina e isticamente, especialmente se existem mudanas abruptas na volatilidade (e.g. como c resultado de greves, guerras, etc.).
86
DAX
30
Residuos
0 10
0.10
0.05
0.00
0.05
0.0
0.2
10
DAX
0.10 5
Residuos
0.00
0.10
DAX^2
0.8 0.8
Residuos^2
0.4
0.0
10
15
20
25
30
0.0 0
0.4
10
15
20
25
30
Figura 6.7: Histogramas e probabilidades normais dos retornos do indice de mercado da

Alemanha (DAX) e res duos do modelos GARCH(1,1) e correlogramas dos seus quadrados.
Assim, uma alternativa aos modelos ARCH ou GARCH consiste em assumir que 2 segue um processo estocstico. Geralmente modela-se o logaritmo de t . Em sua a forma mais simples um modelo de volatilidade estocstica (VE) dado por a e
2 t
Xt = vt exp(ht /2), vt N (0, 1)
2 ht = c + ht1 + t , t N (0, )
2 com || < 1 e ht = log(t ). Note que no h necessidade de restries de positividade a a co nos parmetros pois estamos modelando o logaritmo da volatilidade. O modelo pode a ser estendido para uma estrutura AR(p) em ht , ou seja
Xt = vt exp(ht /2), vt N (0, 1)

p
ht = c +
i=1
2 i hti + t , t N (0, )
Propriedades
1. E(Xt ) = E(vt eht /2 ) = E(eht /2 )E(vt ) = 0, j que ht e vt so independentes. a a
6.4. VOLATILIDADE ESTOCASTICA
87
2 2 2 2. V ar(Xt ) = E(Xt ) = E(eht vt ) = E(eht )E(vt ) = E(eht ). Mas, como estamos assumindo que ht estacionria segue que, e a
E(ht ) = = c/(1 )
2 e V ar(ht ) = 2 = /(1 2 )
e a distribuio incondicional do log-volatilidade ht N (, 2 ). Portanto, eht ca e segue uma distribuio log-normal com parmetros e 2 cuja mdia e varincia ca a e a so dados por a E(eht ) = e+ V ar(e ) = (e
ht 2
2 /2
= V ar(Xt )
2
1)e2+
4 4 4 4 a 3. E(Xt ) = E(vt e2ht ) = E(vt )E(e2ht ). Se t N (0, 1) ento E(vt ) = 3 e 4 E(Xt ) = 3E(e2ht ). Mas
E(e2ht ) = V ar(eht ) + E 2 (eht ) = (e 1)e2+ + (e+ = e2+ (1 + e 1) = e2+2 .

2 2 2
2 /2
)2
Portanto, a curtose dada por e 3 e2+2 2 = 2+2 = 3e e que sempre maior do que 3 pois e > 1. Um resultado mais geral que e e 2 4 = E(vt )e ou seja a curtose induzida por este modelo sempre maior do que e a curtose de vt .
2 2
88
Exerc cios
1. Um modelo ARIMA foi identicado e estimado para uma srie temporal obsere vada mas h indicao de que a varincia condicional deve ser modelada por a ca a um processo GARCH(1,1). Explique como se chegou a esta concluso. a 2. Refaa o exemplo da Figura 6.4 e estime um modelo AR(1) para a srie Xt . Verc e ique se existe estrutura autoregressiva nos quadrados dos res duos e identique um modelo ARCH para os erros. 3. Obtenha as previses 1, 2 e 3 passos a frente para um modelo GARCH(1,2). o 4. Descreva duas vantagens de modelos EGARCH sobre modelos GARCH.
Cap tulo 7
Modelos Lineares Dinmicos a

A classe de modelos lineares dinmicos (MLD), tambm conhecidos como modelos a e de espao de estados tem sido utilizada com sucesso em anlise e previso de sries c a a e temporais. Neste cap tulo sero apresentadas as formas mais comumente utilizadas a de MLD, maiores detalhes podem ser obtidos em West & Harrison (1997) e Pole, West, & Harrison (1994).
7.1
Introduo ca
yt = F t + t t t = Gt t1 + t (7.1)
Um modelo linear dinmico pode ser caracterizado pelo seguinte par de equaes a co
chamadas equaes de observao e evoluo respectivamente, onde t denota o vetor co ca ca de estados no tempo t, F um vetor de constantes conhecidadas ou regressores, G e uma matrix de evoluo conhecida. Os erros t e t so geralmente assumidos no e ca a a correlacionados em todos os per odos de tempo e serialmente no correlacionados com a 2 mdia zero. Em muitas aplicaes prticas pode-se assumir tambm que t N (0, ) e co a e e t tem distribuio normal multivariada com mdia zero e matriz de varinciaca e a covarincia W t . a A idia aqui que a idade da informao que se tem sobre seja levada em e e ca conta no sentido de que nossa incerteza a respeito de deve aumentar com o passar do tempo. Neste sentido, a forma do modelo apropriada apenas localmente no e tempo e necessrio caracterizar algum tipo de evoluo temporal de . O que se e a ca tem ento uma sequncia de modelos ou um modelo dinmico parametrizado por t a e e a (o estado do processo no tempo t). Considere um modelo em que uma varivel y est relacionada a uma outra varivel a a a X de acordo com a seguinte forma paramtrica e y = X + . Alm disso, a incerteza do pesquisador em relao ao parmetro descrita em e ca a e termos de uma distribuio de probabilidades p(). ca 89
90
CAP ITULO 7. MODELOS LINEARES DINAMICOS
Em um per odo t qualquer, Dt representa o conjunto de informaes dispon co veis sobre . Por simplicidade vamos assumir que Dt = {y1 , . . . , yt }. Neste sentido, D0 representa toda a informao inicial (antes de observar os dados) relevante sobre ca incluindo a prpria denio do modelo. o ca No tempo t 1, aps observar y1 , . . . , yt1 , toda a informao sobre o estado do o ca processo est resumida probabilisticamente na distribuio a posteriori p(t1 |Dt1 ). a ca No tempo t, antes de observar yt , toda a informao histrica Dt1 est resumida ca o a probabilisticamente na distribuio a priori de t obtida como ca p(t |Dt1 ) = p(t |t1 )p(t1 |Dt1 )dt1
que atualizada aps observar yt para a posteriori t , combinando-se com o modelo e o amostral p(yt |t ) via teorema de Bayes p(t |Dt ) = sendo p(yt |Dt1 ) = p(yt |t )p(t |Dt1 )dt p(yt |t )p(t |Dt1 ) p(yt |Dt1 )
a distribuio preditiva de yt . Esquematicamente, e ca t1 |Dt1 Posteriori t |Dt1 Priori Yt |Dt1 Previso a t |Dt Posteriori
Estas equaes fornecem um sistema de aprendizado sequencial sobre os parmetco a ros do processo (no observveis) e tambm uma sequncia de distribuies preditia a e e co vas (1 passo a frente) para as quantidades observveis. Porm a sua implementao a e ca prtica envolve a resoluo de integrais que pode ser um problema de dif soluo a ca cil ca em casos mais gerais. Um caso particular, onde as equaes podem ser escritas em co forma fechada, o de modelos lineares dinmicos (MLD) normais onde a distribuio e a ca amostral denida pela e equao das observaes yt = Xt t + t , ca co t N (0, Vt )
e os parmetros se relacionam em per a odos sucessivos atravs da e equao do sistema t = Gt1 + t , ca t N (0, Wt )
onde as sequncias t e t so independentes, mutuamente independentes e ambas e a so independentes da informao inicial 0 |D0 N (m0 , C0 ). A matriz G descreve a a ca evoluo (determin ca stica) dos parmetros. Modelos nesta classe sero analisados nas a a prximas sees. o co
7.2. MODELOS POLINOMIAIS
91
7.2
Modelos Polinomiais
No MLD mais simples as observaes so representadas por co a yt = t + t , t N (0, Vt )
onde t o n e vel da srie no tempo t. A evoluo do n e ca vel modelada como um e passeio aleatrio simples, i.e. o t = t1 + t , Estas equaes podem ser reescritas como co yt |t N (t , Vt ) t N (0, Wt ).
t |t1 N (t1 , Wt ) e a informao inicial 0 |D0 N (m0 , C0 ). Vamos assumir por enquanto que as varca e incias Vt e Wt so conhecidas. Este modelo pode ser pensado como uma aproximao a a ca a ordem para uma funo suave do tempo (t) de modo que ca de Taylor de 1 (t + t) = (t) + termos de ordem mais alta e o modelo descreve os termos de ordem mais alta simplesmente como ru dos de mdia e zero. Como saber ento se este modelo adequado a uma particular aplicao? a e ca No tempo t, o valor esperado da srie k per e odos a frente condicional ao n vel atual e
k
E(Yt+k |t ) = E(t+k |t ) = E(t +
i=1
t+i |t ) = t
e denotando a mdia da distribuio a posteriori de t por mt ento a funao de e ca a c previso constante a e ft (k) = E(Yt+k |Dt ) = E[E(Yt+k |t , Dt )] = E(t |Dt ) = mt , k > 0.
Assim, este modelo util para previses de curto prazo, particularmente quando a e o variao das observaes (medida por Vt ) muito maior do que a variao do n ca co e ca vel (medida por Wt ). Exemplo 7.1 : Foram gerados 100 valores de um modelo polinomial de primeira ordem com varincias constantes (Vt = V e Wt = W ). Na Figura 7.1 esto os valores a a gerados com as relaes V /W iguais a 20, 2 e 0,2. Seguem os comandos do R para co produo dos grcos. ca a > mld.sim = function(n, V, W, mu0) { + mu = mu0 + cumsum(rnorm(n, sd = sqrt(W))) + obs = mu + rnorm(n, sd = sqrt(V)) + ts(cbind(obs, mu)) + }
92
7.2.1
Anlise Sequencial e Previses a o
A mdia inicial m0 uma estimativa pontual do n e e vel da srie e a varincia inicial e a C0 mede a incerteza associada. Assumindo que t1 |Dt1 N (mt1 , Ct1 ), ento a condicionalmente a Dt1 , t a soma de 2 quantidades normais e independentes t1 e e t e portanto tambm normal com mdia e varincia dadas por e e e a E(t |Dt1 ) = E(t1 |Dt1 ) + E(t |Dt1 ) = mt1
V ar(t |Dt1 ) = V ar(t1 |Dt1 ) + V ar(t |Dt1 ) = Ct1 + Wt = Rt Yt |Dt1 tambm a soma de quantidades normais independentes e portanto tem e e distribuio normal com ca E(Yt |Dt1 ) = E(t |Dt1 ) + E(t |Dt1 ) = mt1
V ar(Yt |Dt1 ) = V ar(t |Dt1 ) + V ar(t |Dt1 ) = Rt + Vt = Qt Aps observar yt , a distribuio atualizada do n obtida via teorema de Bayes o ca vel e combinando-se a verossimilhana c p(yt |t , Dt1 ) = (2Vt )1/2 exp{(yt t )2 /2Vt } com a priori p(t |Dt1 ) = (2Rt )1/2 exp{(t mt1 )2 /2Rt } de modo que p(t |Dt ) exp 1 (yt t )2 (t mt1 )2 + 2 Vt Rt 1 1 1 exp 2 (Vt1 + Rt ) 2t (Vt1 yt + Rt mt1 ) 2 t
1 Ct (2 2t mt ) t 2
exp onde
exp
1 Ct (t mt )2 2
1 mt = Ct (Vt1 yt + Rt mt1 ) 1 1 Ct = Vt1 + Rt
e todos os termos que no dependem de t foram colocados na constante de propora cionalidade. Portanto, t |Dt N (mt , Ct ). A mdia a posteriori pode ser reescrita de 2 formas alternativas denindo-se o e coeciente adaptativo At = Ct Vt1 = Rt /Qt (0, 1) e o erro de previso 1 passo a a frente et = yt mt1 . Assim mt = (1 At )mt1 + At yt = mt1 + At et . Note a similaridade com a equao de previso do mtodo de alisamento exponencial ca a e simples visto no Cap tulo 5. Aqui At faz o papel da constante de alisamento porm e
7.2. MODELOS POLINOMIAIS
93
agora variando no tempo. A varincia a posteriori tambm pode ser reescrita como a e funo do coeciente adaptativo como ca Ct = Rt A2 Qt < Rt . t Podemos utilizar as equaes das observaes e de evoluo para obter a disco co ca tribuio preditiva k passos a frente. Fazendo substituies sucessivas obtemos que ca co
k
t+k = t +
j=1 k
t+j
Yt+k = t +
j=1
t+j + t+k
e como todos os termos so normais e independentes segue que Yt+k tambm normal a e e com E(Yt+k |Dt ) = E(t |Dt ) = mt
k
V ar(Yt+k |Dt ) = Ct +
Wt+j + Vt+k
j=1
A funo abaixo estima um modelo com tendencia polinomial de 1a ordem fazendo ca a analise sequencial usando as equaes dadas no texto com varincias xas e conco a hecidas. > mld = function(Y, V, W, m0, C0) { + n = length(Y) + m = C = R = Q = f = A = e = ts(rep(NA, length = n), start = start(Y)) + Y = ts(c(NA, Y), end = end(Y)) + C[1] = C0 + m[1] = m0 + for (t in 2:n) { + R[t] = C[t - 1] + W[t] + f[t] = m[t - 1] + Q[t] = R[t] + V[t] + A[t] = R[t]/Q[t] + e[t] = Y[t] - f[t] + m[t] = m[t - 1] + A[t] * e[t] + C[t] = A[t] * V[t] + } + return(list(m = m, C = C, R = R, f = f, Q = Q)) + } Exemplo 7.2 : A funo mld pode ser usada para estimar sequencialmente o nivel ca da serie de vazes do rio Nilo. Primeiro vamos permitir que o nivel varie bastante ao o
94
longo do tempo especicando um valor grande para W e depois reestimar com pouca variao temporal (W bem pequeno). Usaremos a variancia amostral da serie como ca estimativa de V . Como informao inicial usaremos uma estimativa do nivel igual ca a 1000 mas com uma grande incerteza associada. O grco da srie com os n a e veis superimpostos aparece na Figura 7.2.
7.2.2
Varincias de Evoluo e das Observaes a ca co
Tipicamente, Wt desconhecida. Sua estimao entretanto leva a uma intratabilidade e ca anal tica que pode ser evitada atravs de sua especicao subjetiva. e ca O fator de desconto o parmetro bsico que controla o grau de envelhecimento e a a da informao de uma observao. Por exemplo, podemos quanticar o envelhecica ca mento da informao sobre o parmetro t como um aumento de 5% em sua varincia ca a a a priori (no tempo t), i.e. V ar(t |Dt1 ) = (1 + )V ar(t1 |Dt1 ) ou Rt = (1 + ) Ct1
com = 0.05. Por outro lado, informao em geral medida em termos de preciso ca e a (o inverso da varincia) e podemos escrever a Preciso(t |Dt1 ) = (1 + )1 Preciso(t1 |Dt1 ) a a
1 1 ou Rt = (1 + )1 Ct1 .
Nesta escala, o fator de desconto = (1 + )1 varia entre 0 e 1 e = 5% implica em 0.95. Vale notar que o fator de desconto no depende da escala na qual as a observaes so medidas. co a Se = 1 ento no existe mudana ao longo do tempo no n da srie e quanto a a c vel e menor o valor de maiores so as alteraes esperadas e maior a perda de infore a co e mao contida em observaes mais antigas. ca co Assim, para um valor xo do fator de desconto temos que Rt = Ct1 / = Ct1 + Wt ou equivalentemente Wt = Ct1 1 = Ct1 .
Como Rt = Ct1 + Wt podemos interpretar esta especicao intuitivamente como ca um aumento de incerteza, ao evoluir de t1 para t, quanticado como uma proporo ca de Ct1 . A sequncia de varincias Vt tambm , em geral, desconhecida embora o e a e e pesquisador possa ter alguma informao a priori sobre caracter ca sticas desta sequne cia. Por exemplo, Vt = V (varincia constante e desconhecida), Vt = V kt onde os a pesos kt so conhecidos, Vt = V k(t ) onde k() uma funo de varincia do n da a e ca a vel p srie ou em particular Vt = V t . e Impondo-se uma particular estrutura para a sequncia Wt e para a informao e ca inicial obtem-se um procedimento de atualizao sequencial para V alm de t . Para ca e
7.2. MODELOS POLINOMIAIS isto redene-se o modelo, agora condicionalmente em V , como yt = t + t , t N (0, V ),
95
t = t1 + t ,
0 |V, D0 N (m0 , V C0 ) n0 n0 S0 , V 1 |D0 Gama 2 2
t N (0, V Wt ), ou n0 S0 V 1 2 0 n
sendo que m0 , C0 , n0 e S0 sero especicados. Surgiu assim mais um item na infora mao inicial com ca n0 /2 1 E(V 1 |D0 ) = = n0 S0 /2 S0
e S0 a estimativa pontual a priori da varincia V . Com esta denio pode-se e a ca mostrar que a distribuio inicial marginal de 0 ca e 0 |D0 tn0 (m0 , C0 )
com C0 = S0 C0 . Se a distribuio a posteriori (incondicional) do n em t 1 ca vel e
t1 |Dt1 tnt1 (mt1 , Ct1 ) ento pode-se mostrar que as distribuies a priori, preditiva e a posteriori no tempo a co t so dadas por a t |Dt1 tnt1 (mt1 , Rt ) t |Dt tnt (mt , Ct )
Yt |Dt1 tnt1 (mt1 , Qt )
onde os parmetros atualizados so a a Qt = Rt + St1 mt = mt1 + At et Ct = (St /St1 )(Rt A2 Qt ) t nt = nt1 + 1 nt St = nt1 St1 + St1 e2 /Qt . t A funo mld1 abaixo faz a anlise sequencial com a varincia das observaes ca a a co xa e desconhecida. A especicao de Wt feita via fator de desconto. Note que ca e agora tanto o nivel quanto a varincia e os graus de liberdade so atualizados sequena a cialmente. > mld1 = function(Y, delta, m0, C0, n0, S0) { + N = length(Y) + m = n = C = R = Q = S = f = A = e = rep(NA, length = N) + Y = c(NA, Y)
96 + + + + + + + + + + + + + + + + + + }
CAP ITULO 7. MODELOS LINEARES DINAMICOS C[1] = C0 m[1] = m0 S[1] = S0 n[1] = n0 for (i in 2:N) { n[i] = n[i - 1] + 1 R[i] = C[i - 1]/delta f[i] = m[i - 1] Q[i] = R[i] + S[i - 1] A[i] = R[i]/Q[i] e[i] = Y[i] - f[i] S[i] = S[i - 1] + (S[i - 1]/n[i]) * (e[i]^2/Q[i] - 1) m[i] = m[i - 1] + A[i] * e[i] C[i] = A[i] * S[i] } return(list(m = m, C = C, R = R, f = f, Q = Q, n = n, S = S, e = e))
Exemplo 7.3 : Novamente vamos examinar a srie de vazes do rio Nilo, agora e o usando diferentes fatores de desconto na funo mld1. ca > res1 = mld1(y, delta = 0.98, m0 = 1000, C0 = 100, n0 = 1, S0 = 0.01) > res2 = mld1(y, delta = 0.7, m0 = 1000, C0 = 100, n0 = 1, S0 = 0.01) Os grcos na Figura 7.3 mostram a srie original, as estimativas do nivel obtidas a e com descontos 0,70 e 0,98 e estas mesmas estimativas com um intervalo de 1, 5 Ct . Os grcos foram feitos com os seguintes comandos do R, a Os modelos podem ser comparados calculando-se o erro quadrtico mdio e o a e desvio absoluto mdio. Usando os comandos abaixo percebe-se que o modelo com e fator de desconto 0,70 melhor segundo estes critrios. e e > > + + + + + > eqm = dam = rep(0, 2) for (i in 2:length(y)) { eqm[1] = eqm[1] + (y[i] - res1$m[i - 1])^2 dam[1] = dam[1] + abs(y[i] - res1$m[i - 1]) eqm[2] = eqm[2] + (y[i] - res2$m[i - 1])^2 dam[2] = dam[2] + abs(y[i] - res2$m[i - 1]) } eqm
[1] 2681716 2375484 > dam [1] 13258.47 11904.16
7.3. MODELO DE CRESCIMENTO LINEAR
97
7.3
Modelo de Crescimento Linear
Considere agora que a descrio local mais apropriada uma tendncia polinomial ca e e de 2a ordem. Um modelo um pouco mais elaborado ento obtido criando-se um e a parmetro extra para descrever o crescimento do n a vel do processo observado. A equao das observaes ca inalterada, i.e. ca co yt = t + t , t N (0, Vt )
e a evoluo do n e do crescimento modelada como ca vel e t = t1 + t1 + 1t t = t1 + 2t . Usando a representao matricial temos que o vetor de regresso e a matriz de ca a evoluo so dados por ca a Xt = ( 1 0 ) e Gt = 1 1 0 1 .
Nesta notao, denindo t = (t , t ) obtemos os momentos das distribuies a priori ca co e preditiva como E(t |Dt1 ) = at = GE(t1 |Dt1 ) = Gmt1 = (mt1 + bt1 , bt1 )
V ar(t |Dt1 ) = Rt = GCt1 G + Wt
V ar(Yt |Dt1 ) = Qt = Xt Rt Xt + St1 .
E(Yt |Dt1 ) = ft = Xt at = mt1 + bt1
Os momentos da distribuio a posteriori de t so uma generalizao matricial ca a ca daqueles obtidos para o modelo anterior, E(t |Dt ) = mt = at + At et
V ar(t |Dt ) = Ct = (St /St1 )(Rt At A Qt ) t No dif vericar que a funo de previso dada por a e cil ca a e ft (k) = Xt Gk mt = mt + kbt sendo que mt e bt so as estimativas pontuais do n t e do crescimento t . Portanto, a vel assim como no caso anterior, este modelo tambm apropriado para previses de curto e e o prazo. As varincias Wt so mais uma vez especicadas indiretamente atravs de um a a e fator de desconto . Neste caso, Rt = GCt1 G / implica que Wt = GCt1 G (1 1).
98
7.4
Modelos Sazonais
Um comportamento peridico ou c o clico pode ser encontrado em vrias sries tema e importante que se consiga descrever o padro sazonal da srie atravs de porais. E a e e quantidades que possam ser estimadas incluindo-se assim este padro na funo prea ca viso. Nos modelos aqui analisados dene-se um componente sazonal descrevendo a desvios sazonais em torno de um n dessazonalizado ou tendncia. vel e
7.4.1
Modelos sem Crescimento
vel A idia aqui fazer a superposio de um modelo polinomial de 1a ordem (para o n e e ca dessazonalizado) com um modelo de efeitos sazonais. As equaes das observaes e co co de evoluo so dadas por ca a yt = t + t0 + t , t = t1 + t tr = t1,r+1 + t,r , t,p1 = t1,0 + t,p1 t N (0, Vt ) r = 0, , p 2
e odo sazonal da srie. Por exemplo, e com a restrio p1 tr = 0, t e onde p o per ca r=0 p = 12 para uma srie com observaes mensais e p = 4 para observaes trimestrais. e co co Para xar idias, considere uma srie trimestral e suponha que t 1 o segundo e e e trimestre de um determinado ano. Ento o vetor de parmetros consiste de 4 efeitos a a sazonais, um para cada trimestre, t0 t1 t2 t3 trim. trim. trim. trim. 2 3 4 1
t1 =
A funo de previso assume a forma ft (k) = mt + htj onde mt o valor esperado ca a e do n dessazonalizado no tempo t + k e htj o desvio sazonal esperado em torno vel e deste n vel. O desvio utilizado na funo de previso tal que j o resto da diviso ca a e e a k/p. Por exemplo, se p = 12, e t0 refere-se ao ms de janeiro ento a previso e a a 1 passo a frente (k = 1) feita em dezembro mt + E(t0 |Dt ), com j = 1. Se o e horizonte de previso for k = 2 ento j = 2 e o desvio sazonal refere-se a fevereiro, a a i.e. ft (2) = mt + E(t1 |Dt ).
e ao passar de t 1 para t ocorre simplesmente uma rotao nos elementos deste ca vetor, trim. 3 t0 trim. 4 t1 t = = . t2 trim. 1 t3 trim. 2
7.5. REPRESENTACAO DE FOURIER
99
7.4.2
Modelos com Crescimento
Novamente a idia fazer a superposio de um modelo para os efeitos sazonais e e ca a mas agora com um modelo polinomial de 2a ordem onde se tem um parmetro que representa o crescimento do n dessazonalizado. vel O modelo pode ser escrito como yt = t + t0 + t ,
t = t1 + t
t = t1 + t1 + t tr = t1,r+1 + t,r , t,p1 = t1,0 + t,p1 com a restrio ca forma

p1 r=0 tr
t N (0, Vt )
r = 0, , p 2
= 0, t. A funo de previso agora assume a seguinte ca a

p1
ft (k) = mt + kbt + htj , onde htj tem a mesma interpretao anterior. ca
com
j=0
htj = 0
7.5
Representao de Fourier ca
Uma forma alternativa de se representar padres c o clicos atravs de combinaes e e co lineares de funes peridicas. Em particular a utilizao de funes trigonomtricas co o ca co e leva a representaes de Fourier da sazonalidade. co O modelo (com crescimento) representado pelas seguintes equaes e co
p/2
yt = t +
j=1
j,t + t ,
t N (0, Vt )
t = t1 + t1 + t , j,t
j,t t = t1 + t ,
e j,t = j,t1 + j,t para j = p/2. A funo de previso dada por ca a e

p/2 p/2
cos 2j/p sin 2j/p sin 2j/p cos 2j/p
j,t1 j,t1
wj,t wj,t
, j = 1, . . . , p/2 1
ft (k) =
j=1
Sjk =
j=1
[at,j cos(2jk/p) + a sen(2jk/p) t,j
onde at,j e a so as estimativas pontuais de coecientes de Fourier t,j e t,j . t,j a Como no cap tulo anterior, as varincias dos erros de evoluo so especicadas a ca a indiretamente atravs de um fator de desconto. A estratgia recomendada em (Pole, e e West, & Harrison 1994) e West & Harrison (1997) consiste em especicar um fator de
100
desconto para cada componente do modelo. No modelo com uma tendncia polinomial e mais um componente sazonal teremos ento 2 fatores de desconto. a Em geral, o fator de desconto do componente sazonal maior do que o da tendne e cia. Neste sentido estamos assumindo que o padro sazonal da srie, embora possa a e estar sujeito a alteraes, mais estvel do que a sua tendncia. co e a e
7.6
Ilustrao ca
A Figura ?? apresenta o total de vendas trimestrais (em milhares) de perus na Irlanda entre o primeiro trimestre de 1974 e o terceiro trimestre de 1982. A srie exibe e um crescimento sistemtico ao longo de todo o per a odo juntamente com um padro a sazonal acentuado. Outra caracter stica interessante que a forma do padro sazonal e a se alterou a partir de 1978. Vamos fazer a estimao sequencial de um modelo para ca os efeitos sazonais superpostos a uma tendncia de crescimento linear e vericar o e comportamento das previses 1 passo a frente. o Suponha que a informao a priori foi acessada examinando-se as vendas dos anos ca anteriores a 1974. Esta informao est resumida na Tabela 7.1. Note a restrio de ca a ca soma zero na especicao a priori dos efeitos sazonais e tambm que a especicao ca e ca equivalente em termos de fatores sazonais seria 11, 19, 19 e 11 para os fatores e (11+19+19+11)/4 = 15 para o n vel. Tabela 7.1: Informao a priori. ca
Componente N vel Crescimento Efeito sazonal 1 Efeito sazonal 2 Efeito sazonal 3 Efeito sazonal 4 D.P. das observaes co
Mdia (Desvio padro) e a 15 (0.75) 0 (0.3) -4 (0.5) 4 (0.5) 4 (0.5) -4 (0.5) 1 com 1 g.l.
A performance preditiva do modelo foi investigada para fatores de desconto variando nos intervalos (0.9,1.0) para a tendncia e (0.6,1.0) para os fatores sazonais. e Estes intervalos esto coerentes com a idia de que espera-se um padro sazonal mais a e a estvel do que a tendncia. Entretanto os valores encontrados aps esta busca foram a e o 0.90 para a tendncia e 0.80 para os fatores sazonais. Uma idia intuitiva a alterao e e e ca no padro sazonal ocorrida em 1978 deve ter contribuido para este resultado at a pico. Os 2 grcos a seguir apresentam as previses pontuais (1 passo a frente) juntaa o mente com intervalos de 90% de probabilidade e os valores observados da srie. O e primeiro grco refere-se ao modelo esttico (ambos os fatores de desconto iguais a 1). a a Note que a mudana no padro sazonal ocorre muito lentamente no modelo esttico e c a a
7.7. MODELOS DE REGRESSAO
101
no nal da srie o padro estimado apenas ligeiramente diferente do padro inicial. e a e a J no modelo dinmico o padro sazonal evolui para uma forma completamente difera a a Tabela 7.2: Descontos 0.90 e 0.80 1.00 e 1.00 EQM 3.11 4.23 DAM 1.34 1.64 LLIK -71.1 -77.6
ente melhorando a performance preditiva. Este fato pode ser notado por inspeo ca visual e conrmado pelos indicadores na Tabela 7.2. e A explicao intuitiva para este fato, lembrando da denio de fator de desconto, ca ca que no modelo dinmico um peso maior dado para as observaes mais recentes e a e co ao fazer previses. Com isto a alterao no padro sazonal incorporada mais rapo ca a e idamente do que no modelo esttico. As previses de vendas para o quarto trimestre a o de 1982 e para 1983 tambm levaro em conta os diferentes padres sazonais do nal e a o da srie. e
7.7
Modelos de Regresso a
Para completar o nosso modelo dinmico podemos pensar em incluir na equao a ca das observaes efeitos de variveis regressoras. Considere por exemplo a regresso co a a linear da varvel yt em uma coleo de p variveis independentes X1t , . . . , Xpt . Se a ca a um termo constante for incluido no modelo ento X1t = 1, t. Denotando o vetor de a regresso e o vetor de coecientes de regresso no tempo t por Xt = (X1t , . . . , Xpt ) e a a t = (1t , . . . , pt ) respectivamente ento as equaes do modelo so dadas por a co a yt = Xt t + t , t = t1 + t , t N (0, Vt )
t N (0, Wt ).
Assim, os coecientes da regresso evoluem segundo um passeio aleatrio, como a o no modelo polinomial de 1a ordem, i.e., a matriz de evoluo G = Ip . O vetor de ca regresso formado pelas prprias variveis regressoras e note que a equao das a e o a ca observaes pode ser reescrita como co
p
yt =
i=1
it Xit + t
de modo que o modelo pode ser visto como uma superposio de p regresses simples ca o pela origem. Todas as distribuies envolvidas so anlogas aos casos anteriores e as equaes co a a co dadas na Seo 2.3 podem ser utilizadas para obter os momentos das distribuies a ca co
102
priori, preditiva e a posteriori fazendo-se G = Ip . Assim, at = mt1 Rt = Ct1 + Wt ft = Xt mt1 e as outras equaes permanecem inalteradas. co interessante notar como ca a funo de previso ft (k) neste caso. Primeiro E ca a reescreva a equao de evoluo para t+k fazendo k substituies sucessivas obtendo ca ca co
k
t+k = t +
j=1
t+j
de modo que at+k = mt

k
Rt+k = Ct +
j=1
Wt+j .
Ento, usando a equao das observaes obtemos que a ca co ft (k) = Xt+k mt

Qt+k = Xt+k Rt+k Xt+k + St .
Assim, a previso pontual k passos a frente a prpria funo de regresso avaliada a e o ca a na estimativa dos coecientes no tempo t e nos valores futuros dos regressores (que nem sempre esto dispon a veis). A sequncia de varincias Wt mais uma vez estruturada usando um fator de e a e desconto.
7.8
Monitoramento
Ao comparar sequencialmente as previses com os valores observados pode-se julgar o a adequao relativa de modelos alternativos com base em sua performance preditiva. ca Observaes ocorrendo nas caudas da distribuio preditiva so sempre poss co ca a veis por denio porm improvveis. Quanto mais afastada em uma das caudas mais ca e a improvvel a observao. E preciso ento estabelecer um critrio para julgar que a e ca a e tipo de inconsistncia entre observao e previso deve ser sinalizada pelo sistema. e ca a No entanto, sinalizar uma observao como improvvel apenas indica uma poss ca a vel decincia geral do modelo. E preciso saber em que sentido o modelo deciente, e e i.e. vericar que modelos alternativos, com diferentes distribuies preditivas, teriam co uma performance melhor. O fator de Bayes, denido a seguir, a ferramenta utilizada e para fazer esta comparao de modelos. ca
7.8. MONITORAMENTO
103
Se pA (yt |Dt1 ) a densidade preditiva 1 passo a frente de um modelo alternativo e ento o fator de Bayes denido como a e Ht = p(yt |Dt1 ) , pA (yt |Dt1 )
i.e. a razo das densidades preditivas avaliadas no valor observado yt . a Outra forma de comparar a performance preditiva de dois modelos considerer um e grupo de observaes ao invs de uma unica e se basear no fator de Bayes acumulado co e Ht (k) = p(yt |Dt1 )p(yt1 , . . . , ytk+1 |Dtk ) p(yt , . . . , ytk+1 |Dtk ) = pA (yt , . . . , ytk+1 |Dtk ) pA (yt |Dt1 )pA (yt1 , . . . , ytk+1 |Dtk )
k1 j=0
= Ht Ht1 (k 1) =
Htj .
Pode-se assim sinalizar evidncias de alterao lenta na estrutura da srie. A idia e ca e e que, individualmente, estas evidncias no so sucientes para se questionar as e e a a previses do modelo em uso mas quando consideradas conjuntamente a evidncia o e acumulada pode ser grande e deve ser sinalizada. A questo agora como construir a e um sistema de monitoramento automtico da srie a partir destas idias intuitivas. a e e Quando as observaes esto cada vez mais afastadas das previses ento um fator co a o a de Bayes individual Ht pode no ser sucientemente pequeno e precisa ser acumua lado para indicar alguma evidncia contra o modelo padro. Neste caso, o monitor e a identica o grupo mais discrepante de observaes consecutivas calculando Vt and lt co da seguinte forma, Vt = min Ht (k) = Ht (lt )
1kt
sendo calculado sequencialmente com as seguintes recurses, o Vt = Ht min{1, Lt1 } e lt = lt1 + 1, se Lt1 < 1 1, se Lt1 1
conforme mostrado em West (1986). O modelo padro aceito como sendo satisfatrio at a ocorrncia de um valor a e o e e Lt menor do que um valor pr-especicado < 1 (o limite inferior para aceitao e ca de Lt ) quando a ocorrncia de uma descontinuidade na srie sinalizada. Se lt = 1 e e e ento uma unica observao discrepante identicada como a causa mais provvel de a ca e a falha, embora o in de uma mudana tambm seja uma possibilidade. Por outro cio c e lado, lt > 1 indica que uma mudana comeou a ocorrer lt periods atrs em t lt + 1. c c a Alm disso, se uma mudana estrutural lenta est ocorrendo na srie as observaes e c a e co mais recentes indicaro evidncia contra o modelo padro que no ser suciente para a e a a a fazer Lt < . Assim, para aumentar a sensibilidade do monitor a estas mudanas uma c descontinuidade deve ser sinalizada se lt > 3 ou 4. Para especicar o modelo alternativo assume-se que as densidades preditivas so a normais com mdia comum ft e varincias Qt e Qt / onde 0 < < 1, de modo que o e a fator de Bayes ca Ht = 1 (yt ft )2 exp (1 ) 2Qt = 1 1 exp (1 )e2 t 2
104
onde et o erro de previso um passo a frente padronizado. e a A escolha de pode ser facilitada reescrevendo-se o fator de Bayes como Ht = exp(0.5 log + (1 )e2 ). t Claramente Ht = 1 ou equivalentemente e2 = (log )/(1 ) indica nenhuma evt idncia para discriminar entre os modelos. O valor de , pode ser escolhido de modo e a fornecer o valor mximo de |et | que no indica evidence contra o modelo padro. a a a Por exemplo, (0.1, 0.3) implica que a evidncia contra o modelo padro deve ser e a acumulada para 1.3 < |et | < 1.6 que so aproximadamente os percentil 0.90 e 0.95 a distribuio normal padro. ca a E claro que para xo, a evidncia contra o modelo padro aumenta com |et |. e a West & Harrison (1997) ilustraram como a escolha de tem pouca inuncia quando e o erro se torna muito grande em relao ao modelo alternativo. Este pode ser visto ca como um modelo geral no sentido de levar em conta vrios tipos de mudanas alm a c e de observaes discrepantes. Essencialmente, este procedimento pode ser visto como co um mtodo exploratrio gerando informao sobre o tipo e o per e o ca odo mais provvel a de mudana estrutural. c
7.8. MONITORAMENTO
105
> > > > + + +
w = c(0.05, 0.5, 5) g = list(col = 1:2, xlab = "tempo", ylab = "y") par(mfrow = c(2, 2)) for (i in w) { ts.plot(mld.sim(100, 1, i, 25), gpars = g, main = paste("V/W=", 1/i)) }
V/W= 20
29 18 20 22 24 26
V/W= 2
27
23
25
20
40
60
80
100
20
40
60
80
100
tempo
tempo
V/W= 0.2
40 y 10 0 20 30
20
40
60
80
100
tempo
Figura 7.1: 100 valores simulados do modelo polinomial de 1a ordem com (a) V /W = 20,
(b) V /W = 2, (c) V /W = 0, 2.
106
> > > > > > > > + > > +
y = Nile n = length(y) res = mld(y, V = rep(var(y), n), W = rep(50, n), m0 = 1000, C0 = 1000) plot(y, xlab = "Anos", ylab = "Medioes", type = "p") c~ lines(res$m, col = 2) lines(res$m - 2 * sqrt(res$C), col = 2, lty = 1) lines(res$m + 2 * sqrt(res$C), col = 2, lty = 1) res = mld(y, V = rep(var(y), n), W = rep(0.05, n), m0 = 1000, C0 = 1000) lines(res$m, col = 4) legend(1940, 1350, c("obs", "W=50", "W=.05"), col = c(1, 2, 4), bty = "n")
1400
Medies
600
800
1000
1200
obs W=50 W=.05
1880
1900
1920 Anos
1940
1960
Figura 7.2:
7.8. MONITORAMENTO
107
Serie original
1400
Desconto 0.98 0.70

1400 obs desconto=.98 desconto=.70
1000
1400
600
1200
1000
1880
1920
1960
600 1880
1000
1920
1960
600
800
1880
1900
1920 Time
1940
1960
Figura 7.3:
Apndice A e
Lista de Distribuies co
Neste apndice so listadas as distribuies de probabilidade utilizadas no texto para e a co facilidade de referncia. So apresentadas suas funes de (densidade) de probabilie a co dade alm da mdia e varincia. Uma reviso exaustiva de distribuies de probabilie e a a co dades pode ser encontrada em Johnson et al. (1994), Johnson et al. (1995) e Johnson et al. (1992).
A.1
Distribuio Normal ca
X tem distribuio normal com parmetros e 2 , denotando-se X N (, 2 ), se ca a sua funo de densidade dada por ca e p(x|, 2 ) = (2 2 )1/2 exp[(x )2 /2 2 ], < x < ,
para < < e 2 > 0. Quando = 0 e 2 = 1 a distribuio chamada ca e normal padro. A distribuio log-normal denida como a distribuio de eX . a ca e ca No caso vetorial, X = (X1 , . . . , Xp ) tem distribuio normal multivariada com ca vetor de mdias e matriz de varincia-covarincia , denotando-se X N (, ) e a a se sua funo de densidade dada por ca e p(x|, ) = (2)p/2 ||1/2 exp[(x ) 1 (x )/2] para Rp e positiva-denida.
A.2
Distribuio Gama ca
X tem distribuio Gama com parmetros e , denotando-se X Ga(, ), se sua ca a funo de densidade dada por ca e p(x|, ) = para , > 0. E(X) = / e V (X) = / 2 . 108 1 x x e , () x > 0,
A.3. DISTRIBUICAO WISHART
109
Casos particulares da distribuio Gama so a distribuio de Erlang, Ga(, 1), a ca a ca distribuio exponencial, Ga(1, ), e a distribuio qui-quadrado com graus de ca ca liberdade, Ga(/2, 1/2).
A.3
Distribuio Wishart ca
Diz-se que uma matriz aleatria (n n) segue uma distribuio Wishart com o ca parmetro e graus de liberdade, denotando-se W (, ), se sua funo de a ca densidade dada por, e p(|, ) ||(n1)/2 exp((1/2)tr()) sendo n, positiva-denida e tr(A) indica o trao de uma matriz A. Uma c propriedade util que AA W (AA , ). e
A.4
Distribuio Gama Inversa ca

denotando-se
X tem distribuio Gama Inversa com parmetros e , ca a X GI(, ), se sua funo de densidade dada por ca e p(x|, ) = para , > 0. E(X) = , 1 para > 1 e V (X) = 2 , ( 1)2 ( 2) (+1) /x x e , () x > 0,
para > 2.
No dif vericar que esta a distribuio de 1/X quando X Ga(, ). a e cil e ca
A.5
Distribuio Wishart Invertida ca
Diz-se que uma matriz aleatria (n n) segue uma distribuio Wishart-Invertida o ca com parmetro e graus de liberdade, denotando-se W I(, ) se sua funo a ca de densidade dada por, e p(|, ) ||(+n+1)/2 exp((1/2)tr()) sendo n, positiva-denida e tr(A) indica o trao de uma matriz A. No dif c a e cil 1 W (, ). Outra propriedade que AA W I(AA , ). vericar que e
A.6
Distribuio Beta ca
X tem distribuio Beta com parmetros e , denotando-se X Be(, ), se sua ca a funo de densidade dada por ca e p(x|, ) = ( + ) 1 x (1 x)1 , ()() 0 < x < 1,
110 para , > 0. E(X) = +
APENDICE A. LISTA DE DISTRIBUICOES
e V (X) =
. ( + )2 ( + + 1)
A.7
Distribuio de Dirichlet ca
O vetor aleatrio X = (X1 , . . . , Xk ) tem distribuio de Dirichlet com parmetros o ca a 1 , . . . , k , denotada por Dk (1 , . . . , k ) se sua funo de densidade conjunta dada ca e por k (0 ) p(x|1 , . . . , k ) = xi = 1, x1 1 . . . xk k 1 , (1 ), . . . , (k ) 1
i=1
para 1 , . . . , k > 0 e 0 = E(Xi ) = i , 0
k i=1 i .
V (Xi ) =
(0 i )i , 2 0 (0 + 1)
e Cov(Xi , Xj ) =
i j 2 ( + 0 0
1)
Note que a distribuio Beta obtida como caso particular para k = 2. ca e
A.8
Distribuio t de Student ca
X tem distribuio t de Student (ou simplesmente t) com mdia , parmetro de escala ca e a 2 ), se sua funo de densidade e graus de liberdade, denotando-se X t (, ca e dada por (( + 1)/2) /2 (x )2 p(x|, , ) = + 2 (/2)
2 (+1)/2
x R,
para > 0, R e 2 > 0. E(X) = , para > 1 e V (X) = 2
, 2
para > 2.
Um caso particular da distribuio t a distribuio de Cauchy, denotada por ca e ca 2 ), que corresponde a = 1. C(,
A.9
Distribuio F de Fisher ca
X tem distribuio F com 1 e 2 graus de liberdade, denotando-se X F (1 , 2 ), ca se sua funo de densidade dada por ca e p(x|1 , 2 ) = ((1 + 2 )/2) 1 /2 2 /2 1 /21 2 x (2 + 1 x)(1 +2 )/2 (1 /2)(2 /2) 1
x > 0, e para 1 , 2 > 0. E(X) = 2 , 2 2 para 2 > 2 e V (X) =

2 22 (1 + 2 2) , 1 (2 4)(2 2)2
para 2 > 4.
A.10. DISTRIBUICAO BINOMIAL
111
A.10
Distribuio Binomial ca
X tem distribuio binomial com parmetros n e p, denotando-se X bin(n, p), se ca a sua funo de probabilidade dada por ca e p(x|n, p) = para n 1 e 0 < p < 1. E(X) = np e V (X) = np(1 p) n x p (1 p)nx , x x = 0, . . . , n
e um caso particular a distribuio de Bernoulli com n = 1. e ca
A.11
Distribuio Multinomial ca
O vetor aleatrio X = (X1 , . . . , Xk ) tem distribuio multinomial com parmetros n o ca a e probabilidades 1 , . . . , k , denotada por Mk (n, 1 , . . . , k ) se sua funo de probabilca idade conjunta dada por e p(x|1 , . . . , k ) = n! x x1 , . . . , k k , x1 !, . . . , xk ! 1
k
xi = 0, . . . , n,
i=1
xi = n,
para 0 < i < 1 e k i = 1. Note que a distribuio binomial um caso especial ca e i=1 da multinomial quando k = 2. Alm disso, a distribuio marginal de cada Xi e ca e binomial com parmetros n e i e a E(Xi ) = ni , V (Xi ) = ni (1 i ), e Cov(Xi , Xj ) = ni j .
A.12
Distribuio de Poisson ca
X tem distribuio de Poisson com parmetro , denotando-se X P oisson(), se ca a sua funo de probabilidade dada por ca e p(x|) = para > 0. E(X) = V (X) = . x e , x! x = 0, 1, . . .
A.13
Distribuio Binomial Negativa ca
X tem distribuio de binomial negativa com parmetros r e p, denotando-se X ca a BN (r, p), se sua funo de probabilidade dada por ca e p(x|r, p) = r+x1 r p (1 p)x , x x = 0, 1, . . .
112 para r 1 e 0 < p < 1.
APENDICE A. LISTA DE DISTRIBUICOES
E(X) = r(1 p)/p
e V (X) = r(1 p)/p2 .
Um caso particular quando r = 1 e neste caso diz-se que X tem distribuio gee ca omtrica com parmetro p. e a
Referncias e
Bauwens, L., Lubrano, M. & Richard, J. (1999). Bayesian Inference in Dynamic Econometric Models. Oxford University Press. Box, G. E. P. & Jenkins, G. M. (1970). Time Series Analysis, Forecasting and Control. Holden-Day, San Francisco, California. Box, G. E. P., Jenkins, G. M. & Reinsel, G. C. (1994). Time Series Analysis: Forecasting and Control (Third ed.). Englewood Clis NJ: Prentice-Hall. Brockwell, P. & Davis, R. (1991). Time Series: Theory and Methods (2nd ed.). New York: Springer-Verlag. Burnham, K. P. & Anderson, D. R. (1998). Model Selection and Inference: A Practical Information-Theoretic Approach. Springer: New York. Diggle, P. (1990). Time Series: A Biostatistical Introduction. Oxford University Press: New York. Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of United Kingdom ination. Econometrica 50, 9871007. Franses, P. H. (1998). Time Series Models for Business and Economic Forecasting. Cambridge University Press. Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1994). Continuous Univariate Distributions (2nd ed.), Volume 1. John Wiley, New York. Johnson, N. L., Kotz, S. & Balakrishnan, N. (1995). Continuous Univariate Distributions (2nd ed.), Volume 2. John Wiley, New York. Johnson, N. L., Kotz, S. & Kemp, A. W. (1992). Univariate Discrete Distributions (2nd ed.). John Wiley, New York. Kendall, M. G., Stuart, A. & Ord, J. K. (1983). Advanced theory of statistics (4th ed.), Volume 3. Grin: London. Pole, A., West, M. & Harrison, J. (1994). Applied Bayesian Forecasting and Time Series Analysis. Texts in Statistical Sciences. Chapman & Hall. Priestley, M. B. (1981). Spectral Analysis and Time Series. London: Academic Press. Taylor, S. (1986). Modelling Financial Time Series. Wiley. 113
114 Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley.
References.
West, M. & Harrison, P. J. (1997). Bayesian Forecasting and Dynamic Models. Springer Verlag, New York.

Analise de Séries Temporais

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Analise de Séries Temporais

Uploaded by

Copyright:

Available Formats

ANALISE DE SERIES TEMPORAIS

5 Previso a 5.1 Mtodos Univariados de Previso . . . . . . . . . . . . . . . . . . . . . e a 5.1.1 Alisamento Exponencial Simples . . . . . . . . . . . . . . . . . i

5.2 5.3 5.4 5.5 5.6

CAP ITULO 1. INTRODUCAO

CAP ITULO 1. INTRODUCAO

Exemplos de Sries Temporais e

lynx 1950 1954 (a) 1958 0 1820 2000

UKgas 1880 1920 (c) 1960

CAP ITULO 1. INTRODUCAO

Sries com Tendncia e e

CAP ITULO 2. TECNICAS DESCRITIVAS

2.2. SERIES COM TENDENCIA

observado tendencia grau 3 tendencia grau 6

CAP ITULO 2. TECNICAS DESCRITIVAS

observado tendencia f=1 tendencia f=0.25

2.2. SERIES COM TENDENCIA de xt dado por e yt = 1 2q + 1

Numero de passageiros (em milhares)

dados Media Movel q=2 Media Movel q=5

CAP ITULO 2. TECNICAS DESCRITIVAS

exponencial os valores suavizados so dados por a

onde as mdias amostrais so e a

xt /n j que x1 x2 , e assumindo varincia constante. Assim, a verso a a a

simplicada de (2.3) ca (xt x)(xt+1 x)

CAP ITULO 2. TECNICAS DESCRITIVAS

(xt x)(xt+k x)/n, k = 0, 1, . . . .

Os coecientes de autocorrelao so ento obtidos como rk = ck /c0 . ca a a

CAP ITULO 2. TECNICAS DESCRITIVAS

Figura 2.5: (a) 50 observaes simuladas com autocorrelaes de curto-prazo. (b) 16 co co

CAP ITULO 2. TECNICAS DESCRITIVAS

Modelos Probabil sticos

3.2. PROCESSOS ESTACIONARIOS

mas so raramente utilizados na prtica e as funes (t) e (t1 , t2 ) so em geral a a co a sucientes.

CAP ITULO 3. MODELOS PROBABIL ISTICOS

Alguns Processos Estocsticos a

3.4. ALGUNS PROCESSOS ESTOCASTICOS 1. E(t ) = E(t |t1 , t2 , . . . ) =

3. (k) = Cov(t , t+k ) = 0,

Xt = Xt1 + t . Fazendo-se substituies sucessivas obtm-se que co e Xt = Xt2 + t1 + t = Xt3 + t2 + t1 + t . . .

e iniciando o processo em X0 = 0 no dif vericar que a e cil

Alm disso, a funo de autocovarincia dada por e ca a e

e portanto a funo de autocorrelao ca ca ca t (k) = tk . t

CAP ITULO 3. MODELOS PROBABIL ISTICOS

Processos de Mdia Mveis e o

3.4. ALGUNS PROCESSOS ESTOCASTICOS

CAP ITULO 3. MODELOS PROBABIL ISTICOS

2 Se Xt for estacionrio com varincia nita X podemos escrever que a a r

2 2 j tj ]2 = 2r+2 E(Xtr1 ) = 2r+2 X j=0

CAP ITULO 3. MODELOS PROBABIL ISTICOS

p 0 B p p 1 B p+1 = 1 + 0B + 0B 2 + . . . e agora agrupando em termos de B, B 2 , . . . 0 + (1 1 0 )B + (2 1 1 2 0 )B 2 + = 1 + 0B + 0B 2 + . . . donde obtm-se os coecientes MA recursivamente como e 0 = 1 1 = 0 1 2 = 1 1 + 0 2 3 = 2 1 + 1 2 + 0 3 . . .

CAP ITULO 3. MODELOS PROBABIL ISTICOS

sendo a matriz denida como 1 2 1 0 =0 1 . . . . . . 0 0

... ... ... . . . ...

3.4. ALGUNS PROCESSOS ESTOCASTICOS

Modelos Mistos ARMA

exponencial oscilatrio o para zero a partir de q

CAP ITULO 3. MODELOS PROBABIL ISTICOS

Modelos ARMA Integrados

3.4. ALGUNS PROCESSOS ESTOCASTICOS

CAP ITULO 3. MODELOS PROBABIL ISTICOS

= p(x1 )p(x2 |x1 )p(xn , . . . , x3 |x2 , x1 ) . . .

p(x1 , . . . , xn |) = p(x1 , . . . , xp |) = p(x1 , . . . , xp |)

p(xt |xt1 , . . . , x1 , ) p(xt |xt1 , . . . , xp , ). (4.1)

CAP ITULO 4. ESTIMACAO

O coeciente de autocovarincia amostral de ordem k foi denido na Seo 2.4 como a ca