Series Temporales Semana 2
1.
Proce Proceso soss Esta Estaci cion onar ario ioss
Un proceso aleatorio es estacionario estacionario si sus propiedade propiedadess estad´ estad´ısticas perman p ermanecen ecen constante constantess en el tiempo. La hip´ otesis de estacionaridad resulta fundamental en muchos casos pues, con frecuencia, s´olo otesis olo tenemos una realizaci´ on del proceso a partir de la cual queremos hacer inferencia sobre las propiedades on del fen´omeno omeno que estamos estamos estudiando, estudiando, y la estacionarid estacionaridad ad nos permite p ermite aprender aprender sobre las propiedades propiedades del fen´omeno, omeno, observ´ andolo por un periodo suficientemente largo de tiempo. andolo Definici´ on on 1 Sea X Sea X t , t
∈
∈
T un proceso aleatorio. Decimos que es (estrictamente) estacionario si dado ∈ T un
cualquier n N, h R y cualesquiera t1 , t2 , . . . , tn en T T tales que t1 + h, + h, t2 + h + h,, . . . , tn + h + h ta tambi´ mb i´en est´ an an en T , T , los vectores (X t , X t , . . . , Xt ); 1
2
n
y
(X t
1
+h , X t2 +h , . . . , Xt n +h )
tienen la misma distribuci´ on. on. En la pr´actica actica esta condici´ condici´ on on es imposible de verificar verificar,, pues requerir´ requerir´ıa conocer todas las distribuciones finito-dimensionales del proceso. Por ello se usa una condici´ on m´ as as d´ebil, ebil, que s´ olo olo pone condiciones en los dos primeros momentos de las variables que forman el proceso. 1.1.
Procesos D´ ebilmente ebilmente Estacionarios
{
∈ }
Sea X (t), t T un proceso con segundo momento finito. Decimos que X (t) es estacionario en sentido amplio o d´ ebilmente ebilmente estacionario si la funci´ on de media es constante: E(X (t)) = m, m(t) = E(X
∀t ∈ T ,
y la funci´on on de (auto)covarianza γ (s, t) s´ olo depende de la diferencia s olo diferencia s
− t:
− t). Como γ Como γ (s, t) = γ (t, s), en el caso estacionario tenemos γ tenemos γ (s − t) = γ (t − s) y por lo tanto γ tanto γ (h) = γ (−h), γ (s, t) = γ (s
es decir, la funci´on on de covarianza es par.
{
Si X (t), t
∈ T } un proceso estacionario, la funci´on on de autocovarianza a una distancia o lapso h lapso h es γ X Cov(X (t + h), X (t)) = E (X (t + h) − m)(X )(X (t) − m) . X (h) = Cov(X
La funci´ on on de autocorrelaci´ on on (ACF) a un lapso h es ρX (h) =
γ X X (h) γ X X (0)
Recordamos la propiedad de linealidad para la covarianza: Si X Si X,Y, ,Y, Z son son v.a. con segundo momento finito y a y a,, b, c R, Cov(aX Cov(aX + + bY + c, Z ) = a Cov(X, Cov(X, Z ) + b Cov(Y, Cov(Y, Z )
∈
1
1.1.1.
Ejemplos
1. Ruido i.i.d.: X n , n m = E(X n ) = 0 y
≥ 1 es una sucesi´on de v.a.i.i.d. con E(X n) = 0, Var(X n) = σ 2. En este caso
σ2 0
γ X (t, t + h) =
si h = 0 si h = 0.
≥
2. Ruido Blanco. En este caso las variables X n , n 1 no son independientes pero no est´an correlacionadas. El resultado en cuanto a las funciones de media y autocivarianza es el mismo. 3. Promedio M´ ovil. Consideremos el proceso vt =
1 wt−1 + wt + wt+1 3
Podemos ver que para este proceso mv (t) = E(vt ) =
1 E(wt−1 ) + E(wt ) + E(wt+1 ) = 0 3
En cuanto a la funci´ on de autocovarianza tenemos
γ v (h) =
3 2 9 σw 2 2 9 σw 1 2 9 σw
0
para h = 0, para h = 1, para h = 2, para h > 2,
| | | | | |
4. Paseo Aleatorio con Deriva. Este proceso se define por t
X (t) = δt +
w j
j=1
En consecuencia
t
mX (t) = E(X (t)) = δt +
E(w j ) = δt
j=1
y como esta funci´ on no es constante, el paseo al azar no es un proceso estacionario. Calculemos su covarianza s
s
γ X (s, t) = Cov(X s , X t ) = Cov(
j=1
w j ,
2 wk ) = m´ın s, t σw
k=1
y en particular 2 Var(X (t)) = tσ w
de modo que la varianza del paseo al azar aumenta con el tiempo.
2
{ }
1.1.2.
Propiedades de γ
γ (0)
≥ 0,
|γ (h)| ≤ γ (0), ∀h,
−
γ (h) = γ ( h).
Una funci´ on real definida en Z es la autocovarianza de una ST estacionaria si y s´ olo si es par y definida no-negativa. Veamos que una funci´on de autocovarianza es definida no-negativa: n
n
ai γ (i
i,j=1
− j)a j =
n
− m)(X j − m))
ai a j E((X i
i=1 j=1 n
= E(
n
ai (X i
i=1 n
= E((
− m)(
a j X j
j=1
ai (X i
i=1
− m))
− m))2) ≥ 0
La autocorrelaci´ on ρ tiene las mismas propiedades que hemos descrito para la autocovarianza y la propiedad adicional ρ(0) = 1. Ejemplo 1
La funci´on K (h) = cos(ωh) para ω = 0 es definida no-negativa, ya que es la funci´on de covarianza del proceso estacionario X t = A cos(ωt) + B sen(ωt) con A, B v.a. centradas de varianza 1 e independientes. Tenemos X t X s = (A cos(ωt) + B sen(ωt)(A cos(ωs) + B sen(ωs)) = A 2 cos ωt cos ωs + B 2 sen ωt sen ωs + AB(cos ωt sen ωs + sen ωt cos ωs) y E(X t X s ) = cos ωt cos ωs + sen ωt sen ωs = cos ω(t
− s)
Observamos que X t se puede representar como X t = C sen(ωt + φ) con C 2 = A2 + B 2 y φ = arctan(A/b).
Definici´ on 2 Si tenemos dos series de tiempo X t , Y t definimos la (funci´ on de) covarianza cruzada o
croscovarianza por γ XY (s, t) = Cov(X s , Y t ) = E[(X s
− µX (s))(Y t − µY (t))]
La funci´on de correlaci´ on cruzada o croscorrelaci´ on es ρXY (s, t) =
γ XY (s, t) (γ X (s, s)γ Y (t, t))1/2
3
Definici´ on 3 Dos series de tiempo X, Y son conjuntamente estacionarias si cada una es estacionaria
−
y su funci´on de croscovarianza s´ olo depende de s t. La funci´on de croscorrelaci´on de un par de series de tiempo conjuntamente estacionarias X t , Y t se define por ρXY (h) =
γ XY (h) (γ X (0)γ Y (0))1/2
Ejemplo 2
Sean X t = w t + wt−1 , Y t = w t
− wt−1 con wt ∼ iid(0, σ2). Tenemos
γ X (0) = E((wt + wt−1 )2 ) = E(wt2 + wt2−1 + 2wt wt−1 ) = 2σ 2 γ Y (0) = γ X (0) = 2σ 2
γ X (1) = E((wt+1 + wt )(wt + wt−1 )) = E(wt2 ) = σ 2 = γ Y ( 1)
−
γ X ( 1) = γ Y (1) =
−
−σ 2
− wt−1)) = E(wt2) = σ 2 γ XY (0) = E((wt + wt−1 )(wt − wt−1 )) = E(wt2 − wt2−1 ) = 0 γ XY (−1) == − E(wt2 ) = −σ 2 γ XY (1) = E((wt+1 + wt )(wt
y en consecuencia ρXY (h) =
−
0 h = 0, 1/2 h = 1 1/2 h = 1 0 h 2.
− | |≥
Ejemplo 3
Veamos que la funci´ on Γ(h) definida en los enteros por
Γ(h) =
1 si h = 0, ρ si h = 1, 0 en otro caso,
±
| |≤ ±
∼ W N (0, σ2) y θ ∈ R.
es la funci´ on de autocovarianza de un proceso estacionario ssi ρ 1/2. Sea w k Definimos X t = wt + θwt−1 , t = 0, 1, . . . En este caso, E(X t ) = 0,
E(X t2 ) = E(wt2 + θ2 wt2−1 + 2θwt−1 wt ) = σ 2 (1 + θ2 )
γ X (t + h, t) = E(X t+h X t ) = E((wt+h + θwt+h−1 )(wt + θwt−1 )) =
σ 2 (1 + θ2 ) si h = 0, σ2 θ si h = 1, 0 si h > 1.
| |
4
±
y la funci´on de autocorrelaci´ on es
ρX (h) =
Ponemos
θ = ρ; 1 + θ2
1 si h = 0, θ/(1 + θ2 ) si h = 1, 0 si h > 1.
±
| |
θ = ρ + ρθ2 ;
ρθ2
− θ + ρ = 0
que tiene soluci´ on θ =
1
±
−
1 4ρ2 2ρ
Para tener una soluci´ on real es necesario que 4ρ2 1 ρ 1/2. Si ρ > 1/2 no hay un proceso de este tipo que tenga covarianza Γ. Veamos que en este caso Γ no es definida no-negativa: Consideremos la matriz de covarianza para tres valores de h y ρ > 1/2:
≤ ⇒| |≤
| |
Γ3 =
Γ(0) Γ(1) Γ(2) Γ(1) Γ(0) Γ(1) Γ(2) Γ(1) Γ(0)
=
1 ρ 0 ρ 1 ρ 0 ρ 1
−
Para ver que esta matriz no es definida no-negativa tomamos el vector a = (1, 1, 1):
−
(1, 1, 1)
−
1 ρ 0 ρ 1 ρ 0 ρ 1
1 1 1
− ρ + 1 − 2ρ + 1 − ρ = 3 − 4ρ
=1
−
−
y si ρ > 3/4 esta expresi´ on es negativa. En general, si tomamos Γn y a = (1, 1, 1, 1, , . . . ) entonces a Γn a = n para 2ρ/(2ρ
2.
− 2(n − 1)ρ < 0
− 1) < n. Para ρ < −1/2 usamos el mismo argumento con a = (1, 1, 1, . . . )
Proceso Lineal El proceso lineal se define como una combinaci´ on lineal infinita de ruido blanco w t :
∞
X t = µ +
j=
−∞
∞ |
ψ j wt− j ,
| ∞.
ψ j <
j=
−∞
La segunda condici´ on garantiza que la suma infinita que define al proceso converge con probabilidad uno. Recordemos que, usando la desigualdad de Jensen, (E wt )2
| | ≤ E(|wt |2) = σ 2
| | ≤ σ. Tenemos
y en consecuencia E wt
| |
∞ − ≤ ∞ | || −∞ −∞ ∞ | | | − | ≤ ∞ | |
E X t = E
ψ j wt
E
j
j=
=
ψ j wt− j
j=
ψ j E( wt
j=
j
)
ψ j σ <
j=
−∞
5
−∞
|
∞.
Para el proceso lineal tenemos E(X t ) = µ y E((X t−h
∞ −∞ ∞ ∞ −∞ −∞ ∞
− µ)(X t − µ)) = E =
ψ j wt+h− j
j=
j=
k=
= σ 2
∞
ψk wt
k=
−∞
− k
ψ j ψk E(wt+h− j wt−k )
ψ j+h ψ j
j=
−∞
≥
para h 0. En general es posible representar los procesos ARMA de esta forma. Introducimos el operador de retardo o backward shift B definido por BX t = X t−1 . Usando este operador podemos escribir la serie que define al proceso lineal de manera m´as compacta como X t = ψ(B)wt
∞ ψ j B j . Podemos pensar que el operador ψ(B) es un filtro lineal, que al aplicarlo donde ψ(B) = j= −∞ al proceso de ruido blanco w t produce como resultado el proceso X t . Decimos que un proceso lineal es un proceso de promedio m´ovil o M A( ) si µ = 0 y ψ j = 0 para j < 0, es decir, si
∞
X t =
∞
j=0
ψ j wt− j ,
El siguiente resultado muestra que si aplicamos un filtro lineal a cualquier proceso estacionario, obtenemos un proceso estacionario
{ }
on de covarianza γ Y . Proposici´ on 1 Sea Y t una serie de tiempo estacionaria con media 0 y funci´ ∞ Si j=−∞ ψ j < entonces la serie de tiempo
| | ∞
∞
X t =
j=
−∞
ψ j Y t− j = ψ(B)Y t
(1)
es estacionaria con media 0 y funci´ on de autocovarianza
γ X (h) =
∞ ∞
j=
ψ j ψk γ Y (h + k
−∞ k=−∞
− j)
(2)
{ }
En el caso particular cuando X t es un proceso lineal,
γ X (h) =
∞
j=
ψ j ψ j+h σ 2 .
−∞
Demostraci´ on. El mismo argumento que usamos en la definici´ on del proceso lineal muestra que la
serie 1 es convergente con probabilidad 1. Como E(Y t ) = 0 tenemos E(X i ) = E
∞ j=
−∞
ψ j Y t
∞ − j
j=
−∞
6
ψ j E(Y t− j ) = 0
y
∞ −∞ ∞ ∞ −∞ −∞ ∞ ∞
E(X t+h X t ) = E
∞ −
ψ j Y t+h
j=
=
j=
=
k=
j
k=
−∞
j k
ψ j ψk E(Y t+h− j Y t−k ) ψ j ψk γ Y (h
j=
−∞ k=−∞
{ }
ψ j Y t
−−
− j + k) { }
Esto muestra que X t es un proceso estacionario con funci´ on de covarianza (2). Finalmente, si Y t 2 es un ruido blanco, entonces γ Y (h j + k) = σ si k = j h y es 0 en otro caso.
3.
−
−
Estimaci´ on.
En el caso de series de tiempo usualmente tenemos una realizaci´ on x1 , x2 , . . . , xn a partir de la cual deseamos estimar la media, la autocovarianza y la autocorrelaci´ on. No disponemos, como sucede en el caso de la estad´ıstica cl´ asica, de varias copias independientes del proceso a partir de las cuales podemos hacer la estimaci´ on. Para poder hacer la estimaci´ on de la media, por ejemplo, en el caso de un proceso estacionario, requerimos un resultado de convergencia tipo LGN: Queremos estimar E(X t ) =
X t (ω) dP (ω) = m
por 1 n
n
X i .
i=1
Si las variables X i son i.i.d. entonces sabemos que 1 n
n
i=1
X i
→ m
c.s.
pero en nuestro caso hay una estructura de correlaci´ on en el proceso y las variables X i no son i.i.d. Un teorema que garantice la convergencia del estimador en el caso dependiente se conoce como un teorema erg´ odico y esta propiedad del proceso se conoce como ergodicidad. Vamos a suponer que los procesos que consideramos tienen esta propiedad. Resultados de este tipo se pueden ver en el libro de Karlin y Taylor. 3.1.
Estimaci´ o n de la Media
Usamos como estimador
¯ n = 1 (X 1 + X n
7
··· + X n).
¯ n es un estimador insesgado porque E(X ¯ n ) = X estimador es ¯ n E(X
−
1 n
n 1 E(X i ) n
¯ n ) = 1 µ) = Var(X n2 2
= =
1 n2 1 n
= µ. El error medio cuadr´atico de este
n
− | − | − − − | |
Cov(X i , X j )
i=1 j=1
n
n
i j= n n
i
− j)
j γ (i
h γ (h) n
1
h= n
−
¯ n converge a µ en media cuadr´atica. Para demostrar esto a partir de la Si γ (h) 0 cuando h , X expresi´ on anterior observamos que dado ε > 0 existe H t.q. h > H γ (h) < ε/2. Tenemos
→
→∞ 1 n
| |
n
− | |
h γ (h) n
1
h= n
−
≤
2 n
2 = n
n
⇒
h γ (h) n
− − − 1
h=0
H
n
+
h=0
1
h γ (h) n
1
h ε n 2
h=H +1 n
2 ≤ 2H γ (0) + n n
H +1
≤ C n + ε
donde C es una constante. Esto es suficiente para ver la convergencia. Si
∞
h=
entonces
γ (h) <
−∞
¯ n ) = l´ım n Var(X
n
→∞
∞
γ (h)
|h|<∞
Resumimos este resultado en la siguiente proposici´ on. Proposici´ on 2 Si X t es una S.T. estacionaria con media µ y funci´ on de autocovarianza γ , entonces, cuando n ,
→∞
¯ n ) = E(X ¯ n Var(X ¯ n n E(X
− µ)2
− µ)2 → 0
→
|→ |
si γ (h)
γ (h)
si
γ (h) <
h
|h|<∞
0
∞.
¯ n es u ¯ n o una aproximaci´ Para hacer inferencia sobre µ usando X ´ til conocer la distribuci´ on de X on. Si la S.T. es gaussiana entonces
√ n(X ¯ n − µ) ∼ N 0,
− | | 1
|h|
8
h γ (h) n
¯ n es aproxiPara muchas ST y en particular para muchos procesos lineales y modelos ARMA, X 1 madamente normal con media µ y varianza n |h|<∞ γ (h) para n grande. Un intervalo de confianza aproximado al 95 % para µ es
¯n X
1,96ν 1/2 ¯ 1,96ν 1/2 , X n + n n
− √
√
con ν =
γ (h)
|h|<∞
No conocemos ν pero lo podemos estimar por νˆ =
3.2.
− | |
h γˆ (h) n
1
|h|<√ n
Estimaci´ on de la autocovarianza y autocorrelaci´ on
La autocovarianza muestral se define como 1 γˆ (h) = n
n
h
−| | t=1
X t+|h|
− X ¯n
X t
− X ¯n
La autocorrelaci´ on muestral se define de manera an´ aloga: ρˆ(h) =
γˆ (h) γˆ (0)
−
Ambos estimadores tienen sesgo (y tampoco ser´ıan insesgados si reemplazamos n por n h en el denominador). La ventaja de usar esta expresi´on (con n) es que la funci´on que resulta γˆ (h) es positiva definida, al igual que la covarianza γ (h). Esta propiedad asegura que la varianza de cualquier combinaci´ on lineal de variables X t nunca es negativa, y es natural pedir esta misma condici´ on al estimador de la autocovarianza. La propiedad de ser positiva definida dice que si
ˆk = Γ
γˆ (0) γˆ (1) γˆ (2) .. .
··· ··· ··· ...
− 2) ··· ˆ k a ≥ 0. entonces para cualquier vector a de dimensi´ on k, a Γ γˆ (k
− 1)
γˆ (1) γˆ (0) γˆ (1) ... γˆ (k
γˆ (k γˆ (k γˆ (k
− 1) − 2) − 3)
... γˆ (0)
ˆ m es no-negativa definida entonces Γ ˆ k tambi´en lo es para todo k < m. Observamos que si Γ
La ACF muestral juega un papel importante en la selecci´ on de modelos adecuados para los datos. Aunque no es posible calcular la distribuci´ on de la estad´ıstica ρ(h) ˆ en la mayor´ıa de los casos, en general se puede aproximar adecuadamente por una distribuci´ on normal si el tama˜ no de la muestra es grande.
9
Proposici´ on 3 Si X t es i.i.d. con cuarto momento finito entonces, para n grande, la ACF muestral ρˆX (h) para h = 1, 2, . . . , H con H arbitrario pero fijo, es aproximadamente normal centrada con desviaci´ on t´ıpica dada por
σρˆ
X
√ 1H
(h) =
Con base en este resultado tenemos un m´etodo para evaluar si los valores altos de ρ(h) ˆ son significativos, al determinar si salen del intervalo 2/ N . Si la sucesi´ on corresponde a un ruido blanco, aproximadamente 95 % de la ACF muestral debe caer dentro de este intervalo.
± √
3.3.
Estimaci´ on de la Covarianza Cruzada
Covarianza Cruzada:
n h
−
1 γˆ XY (h) = n
(xt+h
t=1
−
con γˆX Y ( h) = γˆ XY (h). Correlaci´ on Cruzada:
ρˆXY (h) =
− x¯)(yt − y¯)
γˆ XY (h) γ X (0)γ Y (0)
Proposici´ on 4 Para muestras grandes ρˆXY (h) tiene distribuci´ on aproximadamente normal centrada con desviaci´ on t´ıpica
σρˆ
(h) =
XY
√ 1n
si al menos uno de los procesos es un ruido blanco.
4.
Series Vectoriales
Con frecuencia encontramos situaciones en las cuales es de inter´ es estudiar las relaciones entre series temporales que han sido medidas conjuntamente. Por lo tanto ser´ au ´ til considerar la noci´ on de una serie temporal vectorial Xt = (X 1 (t), X 2 (t), . . . , X p (t)), cuyas componentes son p series temporales univariadas. En el caso estacionario, el vector de medias µ est´ a dado por µ = E(X(t)) de la forma µ = (µ1 , µ2 , . . . , µ p ) y la matriz de autocovarianza de orden p
Γ(h) = E (Xi (t + h)
− µ)(Xi(t) − µ)
× p
donde los elementos de la matriz Γ(h) son las funciones de covarianza cruzada
γ ij (h) = E ((X i (t + h)
− µi)(X j (t + h) − µ j )
−
para i = 1, . . . , p. Como γ ij (h) = γ ji ( h), tenemos que Γ( h) = Γ (h).
−
×
La funci´on de autocovarianza muestral de la serie vectorial x t es la matriz p p de croscovarianzas 1 ˆ Γ(h) = n
n h
−
(xt+h
t=1
10
− x)(xt − x)
donde 1 x = n
n
xt
t=1
es el vector de media muestral. La propiedad de simetr´ıa tambi´en es cierta para para la autocovarianza muestral: ˆ h) = ˆ Γ( Γ (h)
−
En muchos problemas aplicados el ´ındice de una serie puede ser tambi´ en multidimensional. Por ejemplo, la posici´ on de una unidad experimental puede describirse por dos coordenadas, s1 y s 2 . La funci´on de autocovarianza para un proceso estacionario multidimensional x s de define en t´erminos de un vector de lapsos h = (h1 , . . . , hr ) , por
donde
− µ)(x − µ)
γ (h) = E (xs+h
s
µ = E(ss ) que no depende de la coordenada espacial s . Para el proceso bidimensional de temperaturas tenemos
γ (h1 , h2 ) = E (xs
1
+h1 ,s2 +h2
− µ)(xs ,s − µ) 1
2
que es funci´on del lapso, tanto en las filas (h1 ) como en las columnas (h2 ). La funci´on de autocovarianza muestral multidimensional se define como γˆ (h) = (S 1 S 2 ··· S r )−1
···
(xs+h
s1
s2
sr
− x)(x − x) s
donde s = (s1 , s2 , . . . , sr ) y el rango de la suma para cada ´ındice es 1 La media se calcula para el arreglo r-dimensional: x = (S 1 S 2 donde los argumentos se suman sobre 1 sional est´ a dada por
··· S r )−1
··· s1
s2
xs
1
≤ si ≤ S i − hi, para i = 1, . . . , r.
,s2 ,...,sr ,
sr
≤ si ≤ S i. La funci´on de autocorrelaci´on muestral mutidimenρˆ(h) =
γˆ (h) . γˆ (0)
11