Part III Series de Tiempo
115
Chapter 7 Modelos Univariados 7.1
Martingalas y Caminos Aleatorios
Para comenzar esta sección hay que definir dos conceptos: Martingala y Camino Aleatorio. Una martingala es un proceso estocástico, supongamos {Pt } que satisface una propiedad fundamental: E [Pt+1 | Pt , Pt−1,... ] = Pt o puesto de otro modo: E [Pt+1 − Pt | Pt , Pt−1,... ] = 0 Es decir la mejor predicción del precio de un activo mañana es el precio que este tiene hoy día, y no impone ningún condicionamiento al proceso que representa el riesgo del activo. Tampoco quiere decir que aquel activo que obedezca a esta condición refleja cierta racionalidad de parte del mercado. Ha sido demostrado que la propiedad de la martingala no es una condición necesaria ni suficiente para que los precios de activos sean determinados racionalmente (Lucas, Robert (1978), "Asset Prices in an Exchange Economy", ECONOMETRICA). Para demostrar este punto repliquemos el argumento de Lucas. Si asumimos un activo y un agente representativo que optimiza sus decisiones de consumo de manera de maximizar su nivel de bienestar, podemos represen117
118
CHAPTER 7 MODELOS UNIVARIADOS
tar este problema por: MaxE0
∞ P
β t u (ct )
t=0
sujeto a : at+1 = Rt (yt + at − ct ) donde a es la riqueza del individuo, c representa el nivel de consumo, y la dotación de producción, R la tasa de retorno bruta de su ahorro, y β el factor de descuento subjetivo. Si asumimos una economía simple donde la riqueza financiera se define con la dotación y retornos de acciones que se posee de una única firma, es decir a = (p + d) s donde d es el dividendo y s es el número de acciones que se poseen, y además por simplicidad asumimos que y = 0, entonces la restricción presupuestaria del agente se debiera reescribir como: ct + pt st+1 = (pt + dt ) st . Asumiendo además que el precio depende del estado de dividendos dt y que este vector de dividendos sigue un proceso markoviano de primer orden cuya función de transición se define por: F (d0 , d) =
Rd0 0
f (s, d) ds = Pr [dt+1 ≤ d0 | dt = d]
entonces podemos escribir la ecuación de Bellman como: ª © R 0 0 0 0 v (s (p (d) + d)) = Max (p (d ) + d )) ∂F (d , d) u (c) + β v (s 0 c,s
s.a. 0 c + ps = (p + d) s
Sabemos que de la condición necesaria de primer orden y de la condición (teorema) de Benveniste-Scheinkman se llega a que el proceso que determina la evolución de los precios corresponde a (imponiendo la condición de equilibrio competitivo que c = d): R u0 (d) p (d) = β u0 (d0 ) [p (d0 ) + d0 ] ∂F (d0 , d)
lo cual indica que los precios están en equilibrio y reflejan toda la información disponible. De esta última expresión es fácil verificar que la condición de martingala no se presenta en los precios del activo bajo análisis. De existir esta sería sobre la serie u0 (d) p (d), pues al calcular el valor esperado de
7.1 MARTINGALAS Y CAMINOS ALEATORIOS
119
βu0 (d0 ) (p (d0 ) + d0 )−u0 (d) p (d), esta sería cero, tal como predice la condición de la martingala. Cabe destacar que para que se dé la condición de martingala para el nivel de precios (corregidos por dividendos), es decir que se verifique: R p (d) = β [p (d0 ) + d0 ] ∂F (d0 , d)
se requeriría que u0 (d) no cambie mucho con el nivel de dividendos (i.e. neutralidad al riesgo, lo cual implica u0 (d) = u0 (d0 )), pero igualmente habría que corregir por el factor de descuento β. Una hipótesis más testeable empíricamente es la de camino aleatorio. Esta característica impondrá cierta estructura sobre los residuos poblacionales ε de la siguiente expresión, donde δ es lo que se conoce como drift: Pt = δ + Pt−1 + εt ¡ ¢ εt ∼ IID 0, σ 2
Si analizamos recursivamente esta expresión entonces podemos encontrar cuál es la relación intertemporal del precio del activo en relación al precio inicial P0 de este: Pt = δ + Pt−1 + εt Pt = δ + (δ + Pt−2 + εt−1 ) + εt = 2δ + Pt−2 + εt−1 + εt Pt = δ + δ + (δ + Pt−3 + εt−2 ) + εt−1 + εt = 3δ + Pt−3 + εt−2 + εt−1 + εt ... j=t P Pt = P0 + δt + εj j=1
Si a esta última expresión calculamos su valor esperado y su varianza llegamos a dos expresiones lineales al tiempo t: E [Pt | P0 ] = P0 + δt V [Pt | P0 ] = σ 2 t Con esta representación podemos decir que si el residuo ε se distribuye idénIID tica e independientemente como una normal, es decir εt ∼ N (0, σ 2 ), entonces el proceso generador de datos para el precio del activo se denominará Movimiento Browniano Aritmético: Pt = δ + Pt−1 + εt
120
CHAPTER 7 MODELOS UNIVARIADOS
El problema que surge al asumir una función de distribución normal, es que los precios pueden tomar valores negativos con probabilidad mayor que cero, es decir Pr [P < 0] > 0, lo cual ciertamente es no es factible u observable empíricamente. La corrección que se utiliza es asumir que este residuo posee una distribución lognormal, o lo que es lo mismo, asumir que este movimiento Browniano se dá para el logaritmo del precio del activo en lugar del nivel absoluto de este. Este solo hecho hace que ahora los retornos, calculados como por la diferencia del logaritmo (aproximación), se distribuyan como una distribución normal, lo cual si puede ser factible empíriamente. Este proceso se denominará Movimiento Browniano Geométrico: ln Pt = δ + ln Pt−1 + εt rt ≡ ln Pt − ln Pt−1 ¶ µ Pt rt = ln Pt−1 ⇒ rt = δ + εt ¡ ¢ IID εt ∼ N 0, σ 2
Este capítulo evalúa las alternativas metodológicas para testear distintos grados de eficiencia de mercado, es decir presenta tests de independencia y aleatoriedad desde distintos puntos de vista econométrico.
7.2 7.2.1
Independencia y Caminos Aleatorios Test de Independencia: BDS
El test de Brock, Dechert y Scheinkman (BDS) permite evaluar la dependencia temporal de una serie, y sirve para testear hipótesis alternativas de dependencia lineal, no-lineal, o dependencia caótica. Este test puede ser aplicado a series de residuos estimados para evaluar si estos son independientes e idénticamente distribuidos (iid). Por ejemplo los residuos de un modelo de series de tiempo ARIMA(p,d,q) pueden ser utilizados para evaluar si existe alguna dependencia no lineal en la serie después de que el modelo ha sido estimado. Para generar el test se debe escoger una distancia > 0. Posteriormente se consideran un par de puntos. Si las observaciones de la series son ver-
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS
121
daderamente iid, entonces, para cualquier par de puntos la probabilidad de que la distancia entre estos sea menor o igual a será constante. Definamos a esta probabilidad c1 ( ). Empíricamente se consideran múltiples pares de puntos, moviéndonos consecutivamente a lo largo de las observaciones, de manera que dada una observación s, y una observación t de una serie y, podamos construir un conjunto de pares de la forma: {{ys , yt } , {ys+1 , yt+1 } , {ys+2 , yt+2 } , {ys+3 , yt+3 } , ..., {ys+m−1 , yt+m−1 }}
donde m es el número de puntos consecutivos a ser utilizados en el conjunto (embedding dimension). Denotamos la probabilidad conjunta de todos los pares de puntos en el set satisfaciendo la condición de por la probabilidad cm ( ). El test BDS procede considerando que bajo el supuesto de independencia, esta probabilidad será la simple multiplicación de las probabilidades individuales (marginales) de cada par de puntos, es decir que si las observaciones son independientes se observará: cm ( ) = c1 ( )m Empíricamente calculamos estimadores para estas probabilidades, verificándose la existencia de un error de estimación, de manera que esta relación no se observaría exactamente incluso de ser las series iid. Mientras más grande es el error, menos probable es que el error sea causado por una variación muestral aleatoria. Para estimar la probabilidad de una dimensión particular, generamos todos los posibles sets de este largo que puedan ser generados de la muestra y se cuenta el número de conjuntos que satisfacen la condición de . La razón entre el número de conjuntos que satisfacen la condición versus el total de conjuntos considerados provee de una estimación de esta probabilidad. Dada una muestra de T observaciones para una serie y, esta probabilidad se puede calcular por (llamada también integrales de correlación): cm,T
T −m+1 X T −m+1 X 2 ( )= Πm−1 I (ys+j , yt+j ) (T − m + 1) (T − m) s=1 t=s+1 j=0
donde I es una función indicadora: 1 I (ys+j , yt+j ) = 0
, |ys+j − yt+j | ≤ , en otro caso
122
CHAPTER 7 MODELOS UNIVARIADOS
Luego podemos utilizar estos estimadores muestrales para construir un test de independencia: bm,T ( ) = cm,T ( ) − c1,T −m+1 ( )m Bajo el supuesto de independencia, se esperaría que este indicador sea cercano a cero, de hecho BDS demuestran que: ³√ ´b m,T ( ) ∼ N (0, 1) T −m+1 σ m,T ( ) donde: Ã
σ 2m,T ( ) = 4 km + 2
m−1 X j=1
km−j c2j 1
+ (m −
1)2 c2m 1
−
(2m−2) m2 kc1
!
donde c1 puede ser estimado a partir de c1,T , y k es la probabilidad de que cualquier tripleta de puntos pertenezca a la vecindad delimitada por , y es estimada contando el número de conjuntos que satisfacen la condición muestral: T T T X X X 2 kT ( ) = (I (yt , ys ) I (ys , yr ) + (T (T − 1) (T − 2)) t=1 s=t+1 r=s+1
+I (yt , yr ) I (yr , ys ) + I (ys , yt ) I (yt , yr ))
Cabe mencionar que este estadístico es relativamente eficiente para muestras superiores a 200 observaciones (ver Granger, C. W. J. y T. Terasvirta (1993), Modelling Nonlinear Economic Relationships, sección 6.3.5, páginas 90 y 91). En otro caso es mejor hacer un muestreo por bootstrapping y aumentar la muestra artificialmente de manera de no perder poder del test al aplicar el estadístico en muestras pequeñas. Ejercicio. Una aplicación del test BDS a la serie de inflación para Chile (1933:02-2001:06) entrega el siguiente resultado, denotando el rechazo de la
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS
123
hipótesis nula de independencia de la serie: Dimensión
BDS
Std.Error z − stat P − V alor
2
0.111196 0.004338 25.63572
0.0000
3
0.187459 0.006916 27.10598
0.0000
4
0.232728 0.008267 28.14973
0.0000
5
0.255301 0.008653 29.50290
0.0000
6
0.261486 0.008382 31.19535
0.0000
Ejercicio. Aplicando este test BDS a los retornos del índice de precios selectivo de acciones de Chile IPSA los datos del test nos indican la presencia de dependencia de la serie: Dimensión
BDS
Std.Error z − stat P − V alor
2
0.192041 0.002680 71.66640
0.0000
3
0.325164 0.004257 76.38699
0.0000
4
0.416266 0.005068 82.14049
0.0000
5
0.477852 0.005281 90.48426
0.0000
6
0.518700 0.005092 101.8606
0.0000
Ejercicio. Generamos una variable aleatoria de una función de distribución estandarizada y al aplicar el test BDS se encuentra que la serie es absolutamente independiente: Dimensión
BDS
Std.Error
2
0.001034
0.001730
0.597777
0.5500
3
0.001546
0.002740
0.564317
0.5725
4
0.001094
0.003250
0.336538
0.7365
5
0.000254
0.003373
0.075320
0.9400
6
z − stat P − V alor
−0.000116 0.003239 −0.035931
0.9713
124
7.2.2
CHAPTER 7 MODELOS UNIVARIADOS
Estadístico Cowles-Jones (1937)
Este estadístico compara la frecuencia de secuencias versus oposiciones de signos de retornos consecutivos. Para esto se define una función indicadora que toma valor 1 cuando los retornos son positivos y 0 cuando los retornos son negativos o cero, es decir: 1 si rt > 0 It = 0 si r ≤ 0 t
A partir de definior una función acumuladora At como: At = It It+1 + (1 − It ) (1 − It+1 )
podemos definir como Ns al número de pares de retornos consecutivos con el mismo signo y No al número de pares de signos opuestos: Ns =
TP −1
At
t=1
No = (T − 1) − Ns Con estos parámetros se construye en estadístico de Cowles-Jones (CJ) el que se define como la razón entre la suma de secuencias de signos iguales versus la suma de secuencias de signos contrarios: ∧
CJ =
Ns = No
Ns T −1 No T −1
=
π ˆs 1−π ˆs
donde πs define a la probabilidad de que ocurra una secuencia de signos positivos. Se demuestra que bajo absoluta aleatoriedad la distribución de este estadístico converge asintóticamente a 1. Si se observa que CJ > 1 entonces hay evidencia de que los precios tienen una estructura que difiere de la que se desprende de un camino aleatorio. De existir DRIFT, es decir una tendencia en la serie de precios, entonces la probabilidad de que se de una secuencia es mayor a la probabilidad de que no se dé. Esto nos indica que ahora con DRIFT la razón debiera converger a un valor distinto (mayor) de 1.
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS
125
IID
Si a partir del proceso para el residuo εt ∼ N (0, σ 2 ) definimos la función indicadora como: 1 con probabilidad π It = 0 con probabilidad 1 − π r P P 2 £δ¤ r (rt −ˆδ) donde π = Pr [r > 0] = Pr σ , con ˆδ = T t y σ ˆ = entonces se T −1 demuestra que: CJ |
πs π2 + (1 − π)2 = ≥1 drif t6=0 1 − πs 2π (1 − π) Ã ¡ 3 ¢! 3 2 (1 − π ) + 2 π + (1 − π) − π π π s s a s s , CJ ∼ N 4 1 − πs T (1 − π s ) =
Para un juego justo donde H0 : CJ = 1 (es decir π = 12 ) vemos que los límites inferiores del estadístico CJ serán CJ = 1 con una varianza de cero, es decir: 1 = 0 =
π2 + (1 − π)2 2π (1 − π) ¡ ¢ πs (1 − π s ) + 2 π 3 + (1 − π)3 − π 2s T (1 − π s )4
Ejercicio. Supongamos que generamos una secuencia de números aleatorios ε de dimensión T = 1000 que obedecen a la siguiente ley de movimiento (sin drift): rt = εt A esta vector aplicamos las definiciones para la función indicadora I y la función acumuladora de signos A. Una vez encontrados los valores para estas funciones generamos Ns y No . El cálculo del test se efectúa sobre la hipótesis nula H0 : CJ = 1 lo cual nos entrega: ∧
CJ = r
π ˆ 2 +(1−ˆ π )2 2ˆ π (1−ˆ π) π ˆ s (1−ˆ π s )+2(π ˆ 3 +(1−ˆ π)3 −ˆ π 2s ) T (1−ˆ πs )4
= 0.038895
126
CHAPTER 7 MODELOS UNIVARIADOS
con lo cual no rechazamos la hipótesis nula H0 : CJ = 1 pues el estadístico es menor a 1.96 (5% de significancia). El siguiente recuadro muestra un código GAUSS que permite replicar estos resultados. Código rndseed 1234; r=rndn(1000,1); i=zeros(rows(r),1); j=1; do while j le rows(r); if r[j] gt 0;i[j]=1;endif; j=j+1; endo; a=i[1:rows(i)-1].*i[2:rows(i)]+(1-i[1:rows(i)-1]).*(1-i[2:rows(i)]); ns=sumc(a); no=rows(a)-ns; p=cdfn(meanc(r)/stdc(r)); ps=ns/rows(a); cj_est=(p^2+(1-p)^2)/(2*p*(1-p)); cj_var=((ps*(1-ps)+2*(p^3+(1-p)^3-ps^2))/(rows(a)*(1-ps)^4)); cjtest=(cj_est-1)/sqrt(cj_var);cjtest;
7.2.3
Test de Fuller
Fuller testea la hipótesis nula de que los coeficientes de autocorrelación para varios rezagos de una serie (por ejemplo los retornos de un activo) son cero. Si definimos al coeficiente de covarianza como θ (s) = cov (rt , rs ) entonces el coeficiente de correlación se representa por: γ (s) =
θ (s) Cov (rs , rt ) = V ar (rt ) θ (0)
La contraparte muestral de estos estadísticos será (la covarianza ˆθ se
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS
127
puede calcular dividiendo por T − 1 o por T − s): T −s ˆθ (s) = 1 P (rt − r¯) (rt+s − r¯) T t=1 ˆθ (s) γˆ (s) = ˆθ (0) PT t=1 rt r¯ = T
El test propuesto tiene la siguiente distribución asintótica: T √ ρ˜ (s) ∼ N (0, 1) T −s ρ˜ (s) = ρˆ (s) +
¢ T −s ¡ 2 (s) 1 − ρ ˆ (T − 1)2
Como es usual la hipótesis nula corresponde a no existencia de autocorrelación de la serie y se contrasta con una distribución normal estandarizada. Si el estadístico es superior a 1.96 (considerando un 5% de significancia) entonces rechazamos la hipótesis nula existiendo evidencia de autocorrelación de la serie en el tiempo.
7.2.4
Tests Q y Q’
Esta clase de tests permite analizar la dependencia temporal (autocorrelación) existente entre las observaciones en el tiempo (por ejemplo los retornos). Box-Pierce (1970) o test Q. Este test se basa en el análisis conjunto de los coeficientes estimados de una ecuación de residuos intertemporales para verificar si son o no estadísticamente ceros. Estos coeficientes son las correlaciones de los residuos, de manera que se analizan los γ rs rt definidos por: E (rs , rt ) Cov (rs , rt ) γ rs rt = = V ar (rt ) E (rt2 ) Tal como sabemos este coeficiente γ rs rt es equivalente al parámetro de la ecuación auxiliar inversa γ s : rt−s = γ s rt + ν t−s
∀s = 1, 2, ..., q
128
CHAPTER 7 MODELOS UNIVARIADOS
donde el γˆ se calcula como la razón entre las covarianzas y la varianza de la variable dependiente. Estimando la expresión anterior utilizando los retornos efectivos estimamos un vector γˆ de dimensión qx1. Los autores demuestran que el estadístico relevante para evaluar la hipótesis nula de que no existe autocorrelación de retornos se define por (expresiones equivalentes): Q = T
q P
s=1 0
γ 2s ∼ χ2 (q)
Q = T γˆ γˆ ∼ χ2 (q) de manera que si este estadístico supera a su equivalente χ2α (q) entonces rechazamos la nula presentándose evidencia de autocorrelación de orden q de los retornos. Ljung-Box (1978) o test Q’. Una perfección de este test lo presentan Ljung y Box. Utilizando una expresión similar a la presentada por Box-Pierce, los autores definen el estadístico Q0 como: · ¸ q P γ 2s 0 Q = T (T + 2) ∼ χ2 (q) (T − s) s=1
Si el estadístico Q0 es mayor a su equivalente de tabla χ2α (q), entonces rechazamos la hipótesis nula H0 : γ 1 = γ 2 = ... = γ q = 0. Típicamente q es un número alto como 24 ó 36, dependiendo de la frecuencia de la serie.
7.2.5
Test de Razón de Varianzas
Este test surge del análisis de la representación geométrica de movimiento Browniano definido en una sección anterior, y evalúa si la variable o serie bajo análisis presenta evidencia de autocorrelación serial. Por ejemplo, si sabemos que los retornos ³de un´activo se pueden representar por la expresión t rt ≡ ln Pt − ln Pt−1 = ln PPt−1 = δ + εt , entonces sabemos que la varianza de los retornos será V (rt ) = σ 2ε . de aquí podemos decir que si: V (rt ) = σ 2ε V (rt−1 ) = σ 2ε entonces la agregación de ambas varianzas será: V (rt ) + V (rt−1 ) = 2σ 2ε = 2V (rt )
7.2 INDEPENDENCIA Y CAMINOS ALEATORIOS
129
El test se contruye a partir de la siguiente razón, considerando que bajo la hipótesis nula se esperaría que se aproximara a 1: κ=
V (rt ) + V (rt−1 ) −→ 1 2V (rt )
Al operacionalizar este test con la contraparte muestral del estadístico κ, podemos representar la relación entre κ ˆ y el coeficiente de correlación de primer orden ρˆ (1): κ ˆ (1) =
Vˆ (rt + rt−1 ) 2Vˆ (rt )
κ ˆ (1) =
v (rt , rt−1 ) Vˆ (rt ) + Vˆ (rt−1 ) + 2Coˆ 2Vˆ (rt )
κ ˆ (1) = 1 +
2Coˆ v (rt , rt−1 ) 2Vˆ (rt )
κ ˆ (1) = 1 + ρˆ (1) Esta expresión nos recuerda que cualquier serie estacionaria posee una razón κ que se define como 1 más el coeficiente de correlación de primer orden. Si encontramos que ρˆ (1) = 0 entonces podemos decir que κ ˆ = 1. Existe la generalización de esta última expresión para lo cual la hipótesis nula a considerar será: H0 : ρ (j) = 0
∀j = 1, ..., s
y el estadístico estará representado por: ³P ´ j=s µ ¶ Vˆ r j=s P j=0 t−j j κ ˆ (s) = 1− ρˆ (j) =1+2 s+1 (s + 1) Vˆ (rt ) j=1
por ejemplo para un s = 1, o s = 2 el estadístico sería: µ ¶ µ ¶ j=1 P j 1 1− κ ˆ (1) = 1 + 2 ρˆ (j) = 1 + 2 1 − ρˆ (1) = 1 + ρˆ (1) 2 2 j=1 µ ¶ µ ¶ µ ¶ j=2 P j 1 2 1− ρˆ (j) = 1 + 2 1 − ρˆ (1) + 2 1 − ρˆ (2) κ ˆ (2) = 1 + 2 3 3 3 j=1
130
CHAPTER 7 MODELOS UNIVARIADOS
Si la serie posee un largo de T observaciones (asumamos que T es par) entonces el test para una razón de varianzas de dos períodos se formará de: Pj=T /2 1 (r2j − 2¯ r)2 σ 2II j=1 T /2 κ (1) = 2 = Pj=T 1 σI ¯)2 j=1 (rj − r T
donde rj = ln pj − ln pj−1 y r2j = ln p2j − ln p2j−2 . Dado que la distribución asintótica de este estadístico está definido por: r a ˆξ = T (ˆ κ (2) − 1) ∼ N (0, 1) 2 entonces si ˆξ pertenece al intervalo [−1.96, 1.96] entonces no rechazamos la hipótesis nula de que el coeficiente de correlación es nulo, no existiendo evidencia de correlación de los retornos en el tiempo. Ejercicio. Supongamos la serie del Indice de Precios de Acciones del IPSA desde abril 1995 hasta abril del año 2000 (T = 1247). Calculamos los estadísticos para verificar con el test anterior si κ (2) = 1, es decir si el coeficiente de autocorrelación de primer orden es cero. Los valores conseguidos son: r¯ = 0.011% σ 2I = 2.724016031 σ 2II = 6.290088658 lo cual implica que el estadístico a contrastar es: r r µ ¶ T 1247 6.290088658 ˆξ = (ˆ κ (2) − 1) = − 1 = 32. 689 2 2 2.724016031 siendo este muy superior al valor de referencia de una tabla normal estandarizada de 1.96, rechazando la hipótesis de no autocorrelación de los retornos. Ejercicio. √ Generamos una serie aleatoria a partir de yt = 100 + εt donde εt ∼ N(0, 10) considerando una muestra de T = 1247 observaciones simuladas. Calculamos los estadísticos para verificar si κ (2) = 1, es decir si el coeficiente de autocorrelación de primer orden es cero. Los valores conseguidos son: y¯ = 0.0015% σ2I = 1.751081639 σ 2II = 1.649981214
131
7.3 TESTS DE RAíCES UNITARIAS lo cual implica que el estadístico a contrastar es: r r µ ¶ T 1247 1.649981214 ˆξ = (ˆ κ (2) − 1) = − 1 = −1. 441 7 2 2 1.751081639
Podemos verificar que el estadístico es mayor a −1.96 (es decir es menor en valor absoluto), de manera que no rechazamos la hipótesis nula de autocorrelación cero de la serie.
7.3 7.3.1
Tests de Raíces Unitarias Test t y F de Dickey-Fuller (RW-RWD-RWDT) yt = γyt−1 + εt yt = µ + γyt−1 + εt yt = µ + βt + γyt−1 + εt
Reordenando (restando yt−1 a ambos lados): ∆yt = γ ∗ yt−1 + εt ∆yt = µ + γ ∗ yt−1 + εt ∆yt = µ + βt + γ ∗ yt−1 + εt
7.3.2
Tests t y F de DFA (Dickey-Fuller Ampliado) ∗
∆yt = γ yt−1 +
p X
θj ∆yt−j + εt
j=1
∗
∆yt = µ + γ yt−1 +
p X
θj ∆yt−j + εt
j=1
∆yt = µ + βt + γ ∗ yt−1 +
p X
θj ∆yt−j + εt
j=1
donde en orden p se define minimizando los criterios de Akaike (AIC), Schwarz (BIC) o el critero de Hannan—Quinn (HQ), es decir se basan en
132
CHAPTER 7 MODELOS UNIVARIADOS
−2 veces el valor de la función de log-likekihood promedio ajustado por una función de castigo asociada a cada criterio: lk k + 2 T T k lk BIC = −2 + ln (T ) T T lk k HQ = −2 + 2 ln (ln (T )) T T AIC = −2
donde lk representa al log-likelihood, T el número de observaciones y k el número de parámetros a estimar. Los tests se presentan a continuación: γˆ ∗ ˜ df tc = q ∗ ˆ V (ˆ γ ) Hip´ otesis T ests P ∆yt = pj=1 θj ∆yt−j + εt Φ1 : (µ, γ ∗ ) = (0, 0) ∆y = µ + γ ∗ y + Pp θ ∆y + ε t t−1 t−j t j=1 j P p ∆yt = j=1 θj ∆yt−j + εt Φ : (µ, β, γ ∗ ) = (0, 0, 0) ∆y = µ + βt + γ ∗ y + Pp θ ∆y + ε 2 t t−1 t−j t j=1 j P ∆yt = µ + pj=1 θj ∆yt−j + εt Φ : (µ, β, γ ∗ ) = (µ, 0, 0) ∆y = µ + βt + γ ∗ y + Pp θ ∆y + ε 3
t
t−1
j=1
j
t−j
t
donde se contrasta con una tabla F de Fisher con sus respectivos grados de libertad (típicamente J = 2, 3):
Φi =
(SRCR − SRCNR ) /J ˜F (J, T − k) SRCNR / (T − k)
133
7.3 TESTS DE RAíCES UNITARIAS
7.3.3
Test Said-Dickey
Said-Dickey (Biometrica, 1984), permite testear raíces unitarias cuando los errores siguen un proceso ARMA(p,q). Recordemos que un MA(1) se puede representar por un AR(∞), de aquí que ahora la sumatoria se aplique hasta K → ∞. En este caso el modelo es: ∆yt = (ρ − 1) yt−1 +
K→∞ X
θj ∆yt−j + εt
j=1
De esta manera un proceso generador de datos para y del tipo AR(k) donde k → ∞ permite especificar un proceso ARMA(p,q) para el residuo.
7.3.4
Tests de Phillips-Perron
En una serie de artículos, Phillips (Econometrica, 1987) y Phillips-Perron (Biometrica, 1988) generan un test a partir del DF y DFA de manera de controlar por correlación serial y heteroscedasticidad de los residuos al mismo tiempo. Consideremos el modelo a estimar: yt = θ + ρyt−1 + εt sin embargo asumamos que el verdadero proceso generador de datos para la serie es: yt − yt−1 = εt = ψ (L) et donde ψ (L) sigue un polinomio estacionario y e sigue un proceso Gaussiano. El método Phillips-Perron consiste en: Paso 1. Estimar por OLS los parámetros θ, ρ, el error estándar de ρ P 2 ˆ εt 2 definido por σ ˆ ρˆ , y el error estándar de la regresión s = T −k . ¡ ¢ Paso 2. Estimadores consistentes de la varianza de la media λ2 y la ¡ ¢ autocovarianzas γ j poblacionales se obtienen del término de error ˆεt . γˆ j = T
−1
T X
ˆεtˆεt−j
t=j+1 q
X· ˆ = γˆ 0 + 2 1− λ 2
j=1
¸ j γˆ (q + 1) j
134
CHAPTER 7 MODELOS UNIVARIADOS
para las autocovarianzas y para la media (Newey-West) respectivamente. Paso 3. Estas correcciones se utilizan para ajustar el test t de DickeyFuller asociado al parámetro ρ: ´³ ´ ³ 2 σ ˆ ρˆ 1 ˆ µ ¶ 12 λ T − γ ˆ 0 2 s γˆ0 zt = t− 2 ˆ ˆ λ λ
Ejercicio. A partir de la siguiente información generada de la estimación por OLS del modelo para la inflación en Chile (1933:02-2001:06): ˆ + ρˆπ t−1 + ˆεt πt = α = 0.825274 + 0.651348π t−1 + ˆεt (0.119979) (0.026534) El test de DF para el estadístico (ρ − 1) es (0.651348 − 1)/0.026534 = −13.14. Este es el test estadístico que debe ser corregido según PP. La suma de los residuos al cuadrado es de 7001.243 con una muestra de 819 observaciones. Es decir que s2 = 7001.243/(819 − 2) = 8.569453, es decir una desviación estándar de 2.927363. Las autocovarianzas se estiman con: P 2 ˆεt = 8.54853 γˆ 0 = PT ˆεtˆεt−1 = −1.68145 γˆ 1 = PT ˆεtˆεt−2 = 0.381113 γˆ 2 = PT ˆεtˆεt−3 = 0.989295 γˆ 3 = PT ˆεtˆεt−4 = 1.810678 γˆ 4 = T ˆ2: Con estos estimadores calculamos λ
µ ¶ µ ¶ 4 3 ˆ = 8.548 + 2 λ (−1.68) + 2 (0.381) + 5 5 µ ¶ µ ¶ 1 2 (0.9893) + 2 (1.8107) 2 5 5 ˆ 2 = 7.83292 λ 2
7.3 TESTS DE RAíCES UNITARIAS
135
Con esto calculamos el estadístico de Phillips-Perron: ´³ ´ ³ 2 σ ˆ ρˆ 1 ˆ λ − γˆ 0 T s γˆ 0 2 zt = t − 2 ˆ ˆ λ λ ´ ³ (0.026534) 1 ¶ 12 µ √ (7.83292 − 8.54853) 819 2 8.5485 8.569453 √ (−13.14) − = 7.83292 7.83292 µ
¶ 12
= −12.78
De igual manera se rechaza la hipótesis nula de raíz unitaria ya sea utilizando el DF o el PP test.
7.3.5
Test de Kwiatkowski et al.
Este es un test cuya nula es estacionariedad con raíz unitaria como alternativa (a la inversa de los tests anteriores). Este test se conoce como KPSS en honor a sus autores (Kwiatkowski, Phillips, Schmidt y Shin, 1992, Journal of Econometrics). Se formula a partir de la suma parcial de la serie: ˆt = Γ
t X
ˆεi
i=1
donde ˆεt se obtienen de una ecuación auxiliar como: yt = τˆ + ˆδt + ˆεt El test estadístico de interés es: X 1 ˆ2 η= 2 2 Γ n s (l) t=1 t n
donde s2 (l) se denomina varianza de largo plazo de ˆεt la cual es estimada por: n l n X 1X 2 2X s˜2 (l) = ˆεt + w (j, l) ˆεtˆεt−j n t=1 n j=1 t=j+1
136
CHAPTER 7 MODELOS UNIVARIADOS
donde los pesos w(j, l) se determinan por (Newey-West, 1987): w (j, l) = 1 −
j (l + 1) 1
El valor de l se define gerenalmente por l = n 2 (Newey-West, 1994, Review of Economic Studies). Finalmente el test KPSS para la nula de estacionariedad es: n X 1 ˆ2 ηˆ = 2 2 Γ n s˜ (l) t=1 t
La distribución asintótica es derivada en Kwiatkowski et al.
7.4
Teorema de Descomposición de Wold
Este teorema se debe a H. O. A. Wold (1938, A Study in the Analysis of Stationary Time Series) y es fundamental en la teoría de series de tiempo. Teorema. Todo proceso estocástico estacionario puede ser aproximado tan cerca como se desee ya sea a través de un AR(p), un MA(q), o una combinación de ambos, es decir un proceso ARMA(p,q). Este teorema fundamental de representación es el que nos permite estimar modelos de series de tiempo de cualquier tipo para representar series que son estacionarias.
7.5
Estacionariedad
Sea la variable {yt }Tt=1 un proceso estocástico. Existen dos formas de estacionariedad: débil y fuerte (o estricta). 1. Estacionariedad Débil. Se dice que el proceso {yt }Tt=1 es débilmente estacionario si este cumple con tres condiciones: E [yt ] = µ, |µ| < ∞ £ 2¤ 2 E (yt − µ) = σ y < ∞ ∀s E [(yt − µ) (yt−s − µ)] = γ (s) < ∞, Que los dos primeros momentos sean finitos e independientes de t es una condición necesaria para estacionariedad débil.
7.6 OPERADORES DE REZAGOS: LK
137
2. Estacionariedad Fuerte o Estricta. Si el proceso {yt }Tt=1 posee una distribución de densidad fy que no es dependiente de s, k entonces se dice que {yt }Tt=1 posee estacionariedad fuerte: fy (yt1 , yt2 , ..., ytk ) = fy (yt1 +s , yt2 +s , ..., ytk +s ) es decir que la función de densidad no cambia con le tamaño ni el perídodo considerado en la muestra.
7.6
Operadores de Rezagos: Lk
Para simplificar la notación es necesario introducir el concepto de operador de rezagos L (del inglés "lag") que se define como aquel operador que rezaga k veces la variable a la cual se le aplica. Por ejemplo consideremos las siguientes equivalencias notacionales: Lxt L2 xt ¡ ¢ 1 − 2L + 3L2 xt L−1 xt ¡ ¢ 1 + 3L−1 − 0.5L2 xt
= = = = =
xt−1 xt−2 xt − 2xt−1 + 3xt−2 xt+1 xt + 3xt+1 − 0.5xt−2
Esta notación nos permite representar de una manera más simplificada los modelos de series de tiempo que se revisan a continuación.
7.7
AR(p)
Un proceso autoregresivo de series de tiempo de orden p, AR(p), tiene la siguiente estructura analítica: yt = ρ1 yt−1 + ρ2 yt−2 + ... + ρp yt−p + εt εt = yt − ρ1 yt−1 − ρ2 yt−2 − ... − ρp yt−p ¡ ¢ εt = 1 − ρ1 L − ρ2 L2 − ... − ρp Lp yt
donde típicamente la variable endógena se presenta en desviación de su media (yt − y¯), el residuo ε es un "ruido blanco", es decir cumple con las condiciones
138
CHAPTER 7 MODELOS UNIVARIADOS
E (εt ) = 0, y V (εt ) = σ 2ε < ∞. Aquí la variable yt es una combinación lineal de sus propios rezagos o valores pasados. Considerando la última expresion que representó al modelo AR, se puede demostrar que todo proceso AR se puede representar como un MA y viceversa. Supongamos que tenemos un proceso AR(1): εt = (1 − ρL) yt Podemos despejar yt dividiendo la expresión por (1 − ρL), es decir: εt = yt (1 − ρL) Dado que la serie es estacionaria el coeficiente ρ es menor que 1 de manera que podemos extender la serie de residuos sabiendo que si b < 1 entonces 1 = 1 + b + b2 + ....: 1−b εt (1 − ρL) ¢ ¡ yt = εt 1 + ρL + (ρL)2 + (ρL)3 + ...
yt =
yt yt yt yt
= = = =
εt + εt ρL + εt (ρL)2 + εt (ρL)3 + ... εt + θ1 εt−1 + θ2 εt−2 + θ3 εt−3 + ... ¡ ¢ 1 + θ1 L + θ2 L2 + θ3 L3 + ... εt P∞ i i=1 θ i L εt + εt
donde θi = ρi , ∀i = 1, 2, 3, .... Esta relación permite representar modelos AR(p) en forma equivalentes a MA(∞), y como veremos en la siguiente sección, también se dá la relación inversa (MA (q) = AR (∞)). Algunos ejemplos de procesos autoregresivos son: y = ρy + ε t t−1 t AR(1) : (1 − ρL) y = ε t t y =ρ y +ρ y +ε t t 1 t−1 2 t−2 AR(2) : (1 − ρ L − ρ L2 ) y = ε 1
2
t
t
139
7.8 MA(Q)
7.8
MA(q)
Un proceso de media móvil (moving average, MA) de orden q, MA(q), tiene la siguiente representación analítica:
yt = εt + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q ¡ ¢ yt = εt 1 + θ1 L + θ2 L2 + ... + θq Lq donde ε sigue siendo una variable aleatoria ruido blanco.Aquí la variable yt es una combinación lineal de residuos pasados. Algunos ejemplos de procesos de medias móviles son:
y = θε + ε t t−1 t MA(1) : y = (1 + θL) ε t t y =ε +θ ε +θ ε t t 1 t−1 2 t−2 MA(2) : y = (1 + θ L + θ L2 ) ε t
7.9
1
2
t
Proceso Integrado I(d)
Un proceso estocástico {yt }∞ t=1 se dice integrado de orden ”d”, es decir es yt ∼ I (d), si es que yt requiere ser diferenciado d-veces para que sea estacionaria. Ejercicio. Sea una variable aleatoria yt = µ+yt−1 +εt , donde por ejemplo asumamos µ = 2, y0 = 1, y εt ∼ N (0, 10), entonces la dinámica para una
140
CHAPTER 7 MODELOS UNIVARIADOS
realización de 200 observaciones será:
Serie Intergrada y ∼ I(1) Al calcular su primera diferencia la podemos representar como:
Primera Diferencia: ∆y ∼ I(0) De aquí es posible determinar que casi cualquier serie no estacionaria se puede transformar a estacionaria a través de diferenciar la serie ya sea una vez, lo que es usual, o diferenciándola dos o más veces, lo cual es poco usual en series económicas.
141
7.10 ARMA(P,Q)
7.10
ARMA(p,q)
Un proceso autoregresivo de media móvil de orden (p, q) para una serie estacionaria y se puede representar por: yt = ρ1 yt−1 + ρ2 yt−2 + ... + ρp yt−p + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q + εt donde ε es u ruido blanco. Aquí la serie y es una combinación lineal de residuos y valores rezagados de y. La expresión analítica resumida de este modelo es: ¡ ¡ ¢ ¢ 1 − ρ1 L − ρ2 L2 − ... − ρp Lp yt = 1 + θ1 L + θ2 L2 + ... + θq Lq εt Algunos ejemplos de modelos ARMA(p, q) son: y = ρy + θε + ε t t−1 t−1 t ARMA(1, 1) : (1 − ρL) y = (1 + θL) ε t t y = ρ y + ρ y + θε + ε t t−1 t 1 t−1 2 t−2 ARMA(2, 1) : (1 − ρ L − ρ L2 ) y = (1 + θL) ε t t 1 2 y = ρy + θ ε + θ ε + ε t t−1 1 t−1 2 t−2 t ARMA(1, 2) : (1 − ρL) y = (1 + θ L + θ L2 ) ε t
7.11
1
2
t
ARIMA(p,d,q)
Tal como señala el teorema de Wold, todo proceso estacionario puede ser representado a través de un modelo del tipo AR, MA, o ARMA. Si la serie bajo análisis no es estacionaria (no es I(0)) entonces debe ser diferenciada "d" veces para que lo sea. Esto hace que uno pueda representar un modelo de series de tiempo utilizando la extensión de los modelos ARMA, agregándose el componente "integrado" al medio de la expresión. De esta forma el modelo extendido es una representación autoregresiva, integrada, de media móvil y se denota por ARIMA. Podemos representar modelos cuya serie original y es no estacionaria, de la siguiente forma: ∆d yt = ρ1 ∆d yt−1 + ρ2 ∆d yt−2 + ... + ρp ∆d yt−p + θ1 εt−1 + θ2 εt−2 + ... + θq εt−q + εt Pp Pq d ∆d yt = i=1 ρi ∆ yt−i + i=1 θ i εt−i + εt
142
CHAPTER 7 MODELOS UNIVARIADOS
cuya representación analítica resumida es: ¡ ¡ ¢ ¢ 1 − ρ1 L − ρ2 L2 − ... − ρp Lp ∆d yt = 1 + θ1 L + θ2 L2 + ... + θq Lq εt Algunos ejemplos de modelos ARIMA son: ∆y = ρ∆y + θε + ε t t−1 t−1 t ARIMA(1, 1, 1) : (1 − ρL) ∆y = (1 + θL) ε t t ∆y = ρ ∆y + ρ y + θε + ε t t−1 t−1 t 1 2∆ t−2 ARIMA(2, 1, 1) : (1 − ρ L − ρ L2 ) ∆y = (1 + θL) ε t t 1 2 ∆2 y = ρ∆2 y + θ ε + ε t t−1 1 t−1 t ARIMA(1, 2, 1) : (1 − ρL) ∆2 y = (1 + θ L) ε t
7.12
1
t
Estacionalidad y Modelos SAR y SMA
Cuando una serie tiene una frecuencia que presenta estacionalidad (por ejemplo datos mensuales o trimestrales, o efectos día de la semana) se sugiere sacar la estacionalidad ajustando la serie sacando la diferencia de ella considerando la frecuencia que se quiere sacar. Es decir, la serie se ve transformada por el factor (1 − Ls ) donde s indica la frecuencia estacional, por ejemplo: trimestral (s = 4), mensual (s = 12), datos diarios con efecto semana (s = 5). Este ajuste se denomina corrección de estacionalidad al factor autoregresivo y se denota por SAR, es decir SAR(4), SAR(12), y SAR(5) , respectivamente para el ejemplo anterior. Si una serie yt , tiene frecuencia mensual y presenta estacionalidad, entonces se debe transformar como SAR(12): yt → yt − φyt−12 ¡ ¢ = 1 − φL12 yt
y si la frecuencia es trimestral el ajuste será SAR(4): yt → yt − φyt−4 ¡ ¢ = 1 − φL4 yt
7.13 ESTIMACIÓN DE MODELOS ARIMA(P, D, Q)
143
Este ajuste modifica la dinámica de cualquier proceso autoregresivo incorporándose nuevos rezagos. Por ejemplo si tenemos inicialmente un proceso AR(2), y le agregamos un SAR(4) el modelo se transformará a: AR(2) : yt = ρ1 yt−1 + ρ2 yt−2 + εt ¡ ¢¡ ¢ AR(2), SAR(4) : 1 − ρ1 L − ρ2 L2 1 − φL4 yt = εt ¡ ¢ ¡ ¢ ¡ ¢ ⇒ 1 − φL4 yt = ρ1 1 − φL4 yt−1 + ρ2 1 − φL4 yt−2 + εt ⇒ yt = ρ1 yt−1 + ρ2 yt−2 + φyt−4 − ρ1 φyt−5 − ρ2 φyt−6 + εt También (aunque más exótico) puede agregarse un componente estacional al proceso de media móvil: SMA(s). Expresiones de este tipo son por ejemplo: ¢ ¡ AR(1), SMA(4) : (1 − ρL) yt = 1 − φL4 εt ⇒ yt = ρyt−1 + εt − φεt−4 ¡ ¢ MA(1), SMA(4) : yt = (1 + θL) 1 − φL4 εt ⇒ yt = εt + θεt−1 − φεt−4 − φθεt−5 Un modelo general ARMA con ajustes estacionales a las medias móviles y al proceso autoregresivo tiene una dinámica más compleja. Por ejemplo, la siguiente ecuación representa a un proceso ARMA(1, 1), SAR(4), SMA(4): ¡ ¢ ¢ ¡ (1 − ρL) 1 − φL4 yt = (1 + θL) 1 − φL4 εt yt = ρyt−1 + φyt−4 − ρφyt−5 + εt + θεt−1 − φεt−4 − θφεt−5
7.13
Estimación de Modelos ARIMA(p, d, q)
Box y Jenkins desarrollaron una metodología para estimar modelos de series de tiempo. Este procedimiento consistía en tres etapas: 1. Indentificación. Aquí el investigador determina estadísticamente el orden autoregresivo (p), el orden de media móvil (q), y el grado de integración (d) de la serie bajo estudio. Para identificar estos parámetros usualmente se visualizan conjuntamente la función de autocorrelación y la función de correlación parcial de la serie. 2. Estimación de Parámetros. Se puede utilizar mínimos cuadrados no lineales o métodos de máximo verosimilitud.
144
CHAPTER 7 MODELOS UNIVARIADOS
3. Diagnóstico de los Residuos. Una vez se ha estimado el modelo hay que verificar que los residuos del proceso ARIMA no presenten ningún tipo de autocorrelación que el modelo no haya considerado. Para este diagnóstico podemos ver las autocorrelaciones y la función de correlación parcial, o más formalmente podemos aplicar los siguientes tests (ver secciones anteriores para una descripción en detalle de estos tests): • Brock, Dechert y Scheinkman (BDS) • Cowles y Jones (CJ) • Fuller • Box-Jenkins (Q) • Ljung-Box (Q0) • Razón de Varianzas (κ) Esta etapa es crucial en todo proceso de estimación de un modelo de series de tiempo.
Chapter 8 Modelos Heteroscedásticos 8.1
GARCH
El modelo que se utilizará como punto de partida en esta sección es el tradicional modelo de autorregresivo generalizado de heteroscedasticidad condicionada (GARCH), desarrollado por Bollerslev (1987), el cual se representa analíticamente por el siguiente sistema aplicado yt y su volatilidad σ 2t : yt = µ +
X
ρj yt−j + εt
j∈J
σ 2t
¡ ¢ εt ˜N 0, σ 2t
= β0 +
i=q X
γ i ε2t−i
i=1
+
i=p X
β i σ 2t−i
i=1
donde J, p, q se identifican utilizando procedimientos estándares de series de tiempo. Existe una extención que permite considerar la volatilidad de la variable yt como variable explicativa de su propio nivel o media. En este caso la ecuación GARCH debe incluir rezagos de σ 20 t s como variables explicativas, dando origen a los modelos GARCH-M, es decir con volatilidad en la media. A su vez se puede requerir de evaluar si el nivel de la variable yt o alguno de sus rezagos afecta a su propia volatilidad. Para considerar esta posibilidad es necesario incorporar a yt−j directamente en la expresión de volatilidad, tal 145
146
CHAPTER 8 MODELOS HETEROSCEDÁSTICOS
como se representa en el siguiente sistema: X X yt = µ + ρj yt−j + θk σ 2t−k + εt j∈J
σ 2t
¡ ¢ εt ˜N 0, σ 2t
= β0 +
i=q X
γ i ε2t−i
i=1
k∈K
+
i=p X i=1
β i σ 2t−i +
X
ψs yt−s
s∈S
donde al igual que en caso del GARCH J, K y S deben ser determinadas empíricamente. Estos modelos tienen la característica de que shocks inducen a comportamientos simpétricos de la volatilidad, independientemente de si estos son positivos o negativos. Para evaluar un eventual comportamiento asimétrico existe una variedad de modelos conocidos como GARCH-Cuadrático (QGARCH), Umbral-GARCH (TGARCH), Glosten-Jagannathan-Runkle GARCH (GJRGARCH) model, y finalmente el modelo asimétrico Box-Cox GARCH (BoxCox-AGARCH), el cual es capaz de incluir como casos especiales a la mayoría de los modelos de volatilidad existentes.
8.2
QGARCH
El modelo QGARCH(1,1)1 puede representarse por: X X yt = µ + ρj yt−j + θk σ 2t−k + εt j∈J
¡ ¢ εt ˜N 0, σ 2t
k∈K
σ 2t = β 0 + γ 1 ε2t−1 + β 1 σ 2t−1 + ϕεt−1 +
X
ψs yt−s
s∈S
donde ϕ es el parámetro asimétrico que ayuda a diferenciar del efecto positivo o negativo del impacto del shock sobre la volatilidad. Un shock positivo de tamaño 1 tendrá un impacto equivakente a γ 1 + ϕ sobre la volatilidad, mientras que un shock de igual magnitud pero de orden negativo impactará γ 1 −ϕ sobre la volatilidad de yt , en lugar de γ 1 y −γ 1 como predice el modelo simétrico. 1
Por simplicidad se reportan la familia de modelos de orden p = 1 y q = 1, con yt como variable dependiente.
147
8.3 T-GARCH
8.3
T-GARCH
La ecuación para la volatilidad del modelo de umbral o TGARCH(1,1) se representa por: X ψs yt−s σ 2t = β 0 + γ 1 ε2t−1 + β 1 σ 2t−1 + ϕτ t−1 ε2t−1 + s∈S
donde el parámetro τ opera como una función indicadora a partir de la definición del umbral, tal como lo define la siguiente expresión: ½ ¾ 1 si εt−1 ≤ 0 τ t−1 = 0 si εt−1 > 0 Luego si existe un shock negativo sobre yt , el impacto sobre la volatilidad será igual a γ 1 + ϕ mientras que si el shock es positivo el impacto será solamente γ 1 , dado que en este caso τ = 0.
8.4
GJR-GARCH
El modelo introducido por Glosten, Jagannathan and Runkle (1993) resuelve el problema de la asimetría con un enfoque alternativo. La ecuación para la volatilidad se representa por: X ψs yt−s σ 2t = β 0 + (1 − αt−1 ) γ 1 ε2t−1 + β 1 σ 2t−1 + ϕαt−1 ε2t−1 + s∈S
donde la función indicadora es ahora: ¾ ½ 0 si εt−1 ≤ 0 αt−1 = 1 si εt−1 > 0 Esto significa que si el shock sobre yt es positivo, el impacto sobre la volatilidad será ϕ, mientras que si es negativo el impacto es γ 1 . El modelo GJRGARCH entrega similares resultados al modelo TGARCH.
8.5
Modelo Asimétrico GARCH
Hentschel(1995) presenta un modelo generalizado que incluye como caso especial a la mayoría de los modelos GARCH2 . Dependiendo del valor que toman 2
Excluye al QGARCH.
148
CHAPTER 8 MODELOS HETEROSCEDÁSTICOS
determinados parámetros del modelo, es posible representar a una amplia variedad de representaciones de volatilidad, ya sea un GARCH, TGARCH, o un GARCH exponencial, por ejemplo. La representación asimétrica del modelo Box-Cox-AGARCH(1,1), está dada por: µ ¶ σλ − 1 X σ λt − 1 εt−1 λ ν + β 1 t−1 ψs yt−s = β 0 + γ 1 σ t−1 f + λ σ t−1 λ s∈S ¯ ¯ ¶ µ ¶ µ ¯ ¯ εt−1 ε εt−1 t−1 = ¯¯ f − δ 0 ¯¯ − δ1 − δ0 σ t−1 σ t−1 σ t−1
donde ³ su ´ comportamiento asimétrico se deriva de la existencian de la función εt−1 f σt−1 que posee dos parámetros (δ 0 y δ 1 ) que representan la evolución no simétrica de la volatilidad de yt dependiendo de si el shock es positivo o negativo.
8.6
Curvas de Impacto de Noticias (News Impact Curves)
8.6 CURVAS DE IMPACTO DE NOTICIAS (NEWS IMPACT CURVES)149
Figure 8.1: Curvas de Impacto para Modelos de Volatilidad
Figure 8.2: Curvas de Impacto para Modelos de Volatilidad Extendidos
150
CHAPTER 8 MODELOS HETEROSCEDÁSTICOS
Figure 8.3: Curva de Impacto de Noticias para Modelo Box-Cox-AGARCH
Chapter 9 Modelos de Volatilidad Alternativos 9.1
Volatilidad con Distribución t-Student
Una altenativa muy utilizada teóricamente es la de trabajar con residuos que tienen una distribución de densidad leptokúrtica del tipo t-Student o del tipo Cauchy. La distribución Cauchy tiene la siguiente representación analítica para una variable aleatoria ε: f (εt , α, β) =
α 1 π α2 + (εt − β)2
y 0.3 0.25 0.2 0.15 0.1 0.05
-5
-2.5
0
2.5
5 x
Función Cauchy con α = 1 y β = −1, 0, 1 151
152CHAPTER 9 MODELOS DE VOLATILIDAD ALTERNATIVOS Para la función de distribución t-Student, consideremos una función con λ grados de libertad: h i ¸− λ+1 · Γ (λ+1) 2 ε2t ( 2 ) f (εt , λ) = £ ¤ 1+ 1 λ [πλ] 2 Γ λ2 y
0.5
0.375
0.25
0.125
0 -4
-2
0
2
4 x
Función de Distribución N(0, 1) y t-Student con λ = 5 (azul) donde la función Gamma se representaba por Γ (x) = (x − 1)!. Se sabe que asintóticamente (grados de libertad λ → ∞) esta distribución converge a una normal, incluso su cuarto momento (kurtosis) se aproxima a lo que una distribución normal predice (3) reflejándose la leptokurtosis requerida en muestras finitas, según lo que se observa en la data. Para una variable aleatoria y estos dos momentos son: λ λ→∞ → 1 λ−2 λ→∞ 3λ2 → (λ−2)(λ−4)
E (ε2t ) = E (ε4t ) =
3
A continuación se presenta un código escrito en GAUSS que efectúa la optimización por máximo verosimilitud a partir de una distribución t-Student, que supone tener en memoria la base de datos de la serie y. Para que el cuarto momento esté definido se le restribge durante el proceso de optimización a que el parámetro λ (representado por c[1] en el código) sean superior a 4. Código GAUSS @ Estimacion del Modelo t-Student por ML @ nobs=rows(y); y=y[1:nobs];
9.2 MODELOS DE VOLATILIDAD ESTOCÁSTICA
153
proc (1) = lnlk(c,y); local lnl, llk, nobs, t; nobs=rows(y); lnl=zeros(nobs,1); t=1; do while t le nobs; lnl[t]=ln(gamma((c[1]+1)/2))-ln(gamma(c[1]/2))-0.5*ln(c[1]*pi) -((c[1]+1)/2)*ln(1+y[t]^2/c[1]); t=t+1; endo; llk=sumc(lnl); retp(llk); endp; c1=70; startv=c1; __title="Modelo PDF t-Student"; _cml_MaxIters = 5000; _cml_Algorithm = 1; _max_LineSearch =2; _cml_GradMethod=1; _cml_covpar=1; _cml_c=1; _cml_d=4; {b,f0,g,cov,retcode} = maxprt(cml(y,0,&lnlk,startv));
9.2
Modelos de Volatilidad Estocástica
Chapter 10 Modelos Multivariados Una extensión natural a los modelos de series de tiempo univariados es aquella que considera que existe una covariación entre un conjunto de variables que se relacionan tanto contemporáneamente como intertemporalmente. Es el caso por ejemplo de la tasa de interés de política de un banco central, la inflación, y el nivel de actividad, o en el ámbito financiero la relación existente entre los índices accionarios en el mundo (FTSE, Dow Jones, Nikkey, DAX, etc.) y los tipos de cambio (Yen, Euro, Libra, etc.), o en general los precios de activos financieros. Este grado de correlación es capturado por modelo sde series de tiempo multivariados, es decir aquellos en los cuales el análisis se efectua por sobre un conjunto de variables de interés como los arriba mencionados, en lugar de una sola variable como era el caso de los modelos univariados. Este capítulo extiende el análisis hacia aquellos modelos multivariados, siempre preservando la característica de lineal, lo cual permite denominarlos modelos de vectores autoregresivos (VAR). Se revisarán modelos VAR simples y sus versiones estructurales, y se presenta un modelo VAR heteroscedástico simétrico del tipo VAR-GARCH que analiza el impacto de contagio de volatilidades de retornos accionarios para un conjunto de activos internacionales.
10.1
Vectores Autoregresivos: VAR
La extensión más directa de los modelos univariados autorregresivos es la de considerar un vector de variables que se correlacionan entre sí autorregresivamente. Estos modelos VAR se pueden representar por un sistema de 155
156
CHAPTER 10 MODELOS MULTIVARIADOS
ecuaciones. Consideremos un modelo Bi-VAR(p), es decir un modelo de dos variables (y1 , y2 ) con un rezago (p = 1): y1t = θ11 + θ12 y1t−1 + θ13 y2t−1 + ε1t y2t = θ21 + θ22 y1t−1 + θ23 y2t−1 + ε2t donde la estructura de residuos ε1 , ε2 tienen valor esperado cero y matriz de varianzas y covarianzas contemporanea no singular y constante para todo t, y además en donde estos residuos no covarían intertemporalmente. La forma matricial del sistema anterior en conjunto con los supuestos se pueden representar por: yt E (εt ) E (εt ε0t ) Cov (εt ,t+k )
= = = =
Θ0 + Θ1 yt−1 + εt 0 Σε 0, ∀k 6= 0
donde podemos definir:
yt =
Θ0 =
Θ1 =
10.1.1
y1t y2t
θ21
θ12
θ13
θ11
θ22 θ23
Estacionariedad del VAR
Al igual que en para el caso univariado se requiere que este sistema sea estacionario. Estacionariedad estricta o fuerte impone la condición que la función de distribución multivariada sea estable en el tiempo, mientras que estacionariedad en su versión débil implica necesariamente que la media, la varianza y las covarianzas intertemporales entre variables dependientes no cambien en el tiempo y adicionalmente encontrar una dinámica convergente
10.1 VECTORES AUTOREGRESIVOS: VAR
157
del sistema a través de analizar las raíces del siguiente polinomio: ¯ ¯ ¯ ¯ ¯ 1 0 θ12 θ13 ¯ − λ ¯ p (λ) = det ¯¯ ¯ ¯ 0 1 θ22 θ23 ¯
La última condición de estacionariedad consiste en que las raíces de este polinomio deben estar fuera del círculo unitario, es decir deben ser mayores a uno. Para nuestro vector autorregresivo de un rezago (VAR(1)) el polinomio de segundo grado se representa por la resolución del siguiente determinante: ¯ ¯ ¯ ¯ ¯ 1 − λθ12 −λθ13 ¯ ¯ det ¯¯ ¯ ¯ −λθ22 1 − λθ23 ¯ = 1 − (θ12 + θ23 ) λ + (θ12 θ23 − θ22 θ23 ) λ2
donde se requiere que λ1 > 1 y λ2 > 1. Una definición alternativa consiste en analizar la estacionariedad del VAR calculando las raíces que definan que el siguiente polinomio característico: ¯ ¯ ¯ ¯ ¯ θ12 θ13 1 0 ¯ ¯ ¯ p (φ) = det ¯ −φ ¯ ¯ θ22 θ23 0 1 ¯ donde si se resuelve la ecuación característica p (φ) = 0, entonces φ define al vector propio (eigenvalue) de la matriz Θ1 . Específicamente: ¯ ¯ ¯ ¯ ¯ θ12 θ13 1 0 ¯ − φ ¯ = 0 det ¯¯ ¯ ¯ θ22 θ23 0 1 ¯
este determinante es un polinomio de grado n, equivalente al número de filas (o columnas) de la matriz analizada Θ. Este polinomio permite obtener las raíces de Θ1 denominados valores propios o eigenvalues. Para que un sistema sea estacionario estas raíces deben ser menores que 1 en valor absoluto. Generalizando a un sistema o vector autorregresivo con k variables y con p rezagos, la representación matricial con su respectiva condición de estacionariedad será: yt = Θ0 + Θ1 yt−1 + Θ2 yt−2 + ... + Θp yt−p + εt ¡ ¢ 0 = det I − λΘ1 − λ2 Θ2 − ... − λp Θp
158
CHAPTER 10 MODELOS MULTIVARIADOS
Ejercicio. La estimación de un sistema de dos variables con un rezago entregó el siguiente vector de parámetros estimados, representados en forma matricial por:
0.08 0.61
0.32 0.27
El polinomio característico se representa por el determinante de ¯ ¯ ¯ ¯ ¯ 0.08 0.61 1 0 ¯ − φ ¯ = φ2 − 0.35φ − 0.173 6 det ¯¯ ¯ ¯ 0.32 0.27 0 1 ¯
cuyas raíces o valores propios al solucionar φ2 − 0.35φ − 0.173 6 = 0 son: φ1 = −0.276 91 φ2 = 0.626 91 ambos menores que 1 en valor absoluto de manera que el sistema es estacionario. Para determinar la condición de estacionariedad debemos calcular el siguiente determinante: ¯ ¯ ¯ ¯ ¯ 1 0 0.08 0.61 ¯ ¯ ¯ = 0 det ¯ −λ ¯ ¯ 0 1 0.32 0.27 ¯ 1.0 − 0.35λ − 0.173 6λ2 = 0
donde ahora la solución es: λ1 = −3. 611 2 λ2 = 1. 595 1 que equivale al inverso de los valores encontrados para φ1 y φ2 . 1 1 = −3. 611 2 λ1 1 1 φ2 = 0.626 91 = = 1. 595 1 λ2 φ1 = −0.276 91 =
De quí se entiende por qué a veces cuando se habla de estacionariedad se dice que las raíces deben estar fuera del círculo unitario, lo que se refiere a
159
10.1 VECTORES AUTOREGRESIVOS: VAR
que los valores de las raíces λ0 s deben ser mayores que 1 en valor absoluto, o lo que es lo mismo, que los valores de los φ0 s sean menores que 1 en valor absoluto. Ejercicio. La estimación de un sistema de dos variables con dos rezagos entregó el siguiente vector de parámetros estimados, representados en forma matricial por:
−0.561594 −0.023580 0.071865
0.657941
,
0.0000734 −0.007503 0.396690
0.216838
El polinomio característico se representa por el determinante de ¯ ¯ ¯ ¯ ¯ 1 0 0.0000734 −0.007503 ¯ −0.561594 −0.023580 2 − λ ¯ −λ det ¯¯ ¯ ¯ 0 1 0.396690 0.216838 ¯ 0.071865 0.657941
= 2. 992 3 × 10−3 λ4 − 0.111 83λ3 − 0.584 71λ2 − 0.09 634 7λ + 1
La solución de este polinomio entrega los siguientes valores propios, todos los cuales son mayores que 1 de manera que el sistema es estacionario: λ1 λ2 λ3 λ4
10.1.2
= = = =
42. 035 1. 123 4 −1. 756 2 −4. 029 6
Rezagos Optimos: VAR(p)
Al igual que en modelos univariados existen diversos criterios o funciones a minimizar, y que permiten definir exactamente el número de rezagos (o orden) que deben presentar los modelos de VAR. Entre los más utilizados empíricamente se encuentran los criterio de información de Akaike (AIC), criterio de información Bayesiana de Schwarz (BIC), y el criterio de Hannan y Quinn (HQ). Los tres criterios imponen una función de pérdida considerando el número de parámetros a estimar en el modelo, lo cual determina un factor comun
160
CHAPTER 10 MODELOS MULTIVARIADOS
entre los tres criterios (AIC < HQ < BIC): 2 ˆ e | + pd [2] AIC = ln |Σ T 2 pd ˆ e| + [ln (T )] BIC = ln |Σ T 2 ˆ e | + pd [2 ln (ln (T ))] HQ = ln |Σ T
donde p define el número de rezagos del VAR, T el número de observaciones, ˆ e | define el logaritmo d el número de ecuaciones (o variables) del VAR, y ln |Σ del determinante de la matriz de varianzas y covarianzas estimada de los ˆe residuos muestrales de cada ecuación del sistema VAR. Los elementos de Σ son calculados considerando la estimación por máximo verosimilitud de las varianzas de los residuos (es decir dividiendo por T en lugar de dividir por T − (pd2 + 1)) llegando a definirse por: 0 0 0 e e e e ... e1 ed 1 1 1 2 0 0 0 e2 e1 e2 e2 ... e2 ed 1 ˆe = Σ T ... ... ... ... 0 0 0 ed e1 ed e2 ... ed ed dxd
10.2
Funciones de Impulso-Respuesta
10.3
Test de Causalidad de Granger
10.4
Vector Autoregresivo Estructural: SVAR
Esta metodología consiste en relacionar los residuos estructurales (εt ) con los muestrales del vector autoregresivo (et ). El modelo estructural se representaría por una media móvil MA(∞) de la forma: P ∆yt = A0 εt + A1 εt−1 + A2 εt−2 + .... = ∞ i=0 Ai εt−i = A (L) εt
donde A(L) representa a la matriz de polinomios de rezagos y ∆y representa el vector de variables integradas de orden cero I(0) o estacionarias. Por
10.4 VECTOR AUTOREGRESIVO ESTRUCTURAL: SVAR 161 construcción se asume que la matriz de varianzas y covarianzas de los shocks estructurales se representa por la matriz identidad, es decir: E (εε0 ) = I Para identificar los parámetros de este modelo estructural se estima su forma autoregresiva reducida con p rezagos V AR(p): ˆ 1 ∆yt−1 + Θ ˆ 2 ∆yt−2 + ... + Θ ˆ p ∆yt−p + et ∆yt = Θ ˆ i representa la matriz de rezagos polinomiales estimada. La matriz donde Θ de varianzas y covarianzas estimada se denota por: E (ee0 ) = Ψ Dado que el proceso estocástico estimado anterior es estacionario, entonces podemos representar al V AR(p) como un proceso de media móvil con infinitos rezagos (Teorema de Descomposición de Wold), es decir un MA(∞): P ∆yt = et + C1 et−1 + C2 et−2 + .... = ∞ i=0 Ci et−i = C (L) et
donde C0 = 1, lo cual finalmente nos permite relacionar los residuos estructurales con los muestrales o estimados a través de la siguiente expresión: et = A0 εt lo cual implica que: E (ee0 ) = A0 E (εε0 ) A00 = A0 A00 = Ψ
Luego finalmente para identificar los shocks estructurales (ε) a partir de la información contenida en la estimación del V AR(p), es decir a partir de los residuos muestrales (e) y la matriz de varianzas y covarianzas estimada Ψ, necesitamos identificar suficientes parámetros o restricciones de la matriz A0 . Para esto tomamos la matriz simétrica Ψ que nos entrega estimadores n (n + 1) /2 de A0 (n es el número de variables en el V AR), restando solamente n (n − 1) /2 restricciones que imponer para completar la matriz A0 . Una vez definida A0 se procede a identificar la matriz de efectos de largo plazo de los shocks del modelo reducido1 , C(1), para relacionarla con su matriz equivalente del modelo estructural A(1), a través de A(1) = C(1)A0 . El 1
C(1) se obtiene de la estimación del V AR(p) y correspopnde al valor del polinomio C(L) cuando L = 1.
162
CHAPTER 10 MODELOS MULTIVARIADOS
proceso final consiste en identificar e imponer restricciones de largo plazo, es decir sobre A(1), considerando, la matriz de polinomios C(1) estimada a partir del VAR, la parte conocida de A0 , y finalmente restricciones de cointegración y teoría macroeconómica sobre relaciones de largo plazo entre las variables2 .
10.5
Modelo VAR-GARCH(1,1)
El modelo a estimar se representa por: yt = θ11 + θ12 yt−1 + θ13 π t−1 + εyt πt = θ21 + θ22 yt−1 + θ23 π t−1 + επt 2 εyt 0 σyt ρσ yt σ πt ˜N , ε = 2 επt ρσ yt σ πt σ πt 0
σ 2yt = φ1 + φ2 ε2yt−1 + φ3 σ 2yt−1
σ 2πt = ω 1 + ω 2 ε2πt−1 + ω3 σ 2πt−1 + ω 4 σ 2πt−2 Código GAUSS proc lnlk(c,data); local nobs,ey,ep,cova,sigma,dsigma,t,hy,hp,m,lnl,stt,in; nobs=rows(data); hy=zeros(nobs,1);hp=hy;dsigma=hy;cova=hy;m=hy; hy[1]=sqrt(abs(c[7]/(1-c[8]-c[9]))); hp[1]=sqrt(abs(c[10]/(1-c[11]-c[12]-c[13]))); ey=zeros(nobs,1);ep=ey; t=3; do while t le nobs; hy[t]=sqrt(abs(c[7]+c[8]*ey[t-1]^2+c[9]*hy[t-1]^2)); hp[t]=sqrt(abs(c[10]+c[11]*ep[t-1]^2+c[12]* hp[t-1]^2+c[13]*hp[t-2]^2)); ey[t]=y[t]-x[t,.]*(c[1]|c[2]|c[3]); ep[t]=p[t]-x[t,.]*(c[4]|c[5]|c[6]); 2
La restricción usual de largo plazo en modelos macroeconométricos es que shocks de demanda no causan efectos permanentes sobre el producto, o que los shocks de oferta producen efectos permanentes sobre el producto.
10.5 MODELO VAR-GARCH(1,1)
163
cova[t]=c[14]*hy[t]*hp[t]; sigma=(hy[t]^2~cova[t])|(cova[t]~hp[t]^2); dsigma[t]=det(sigma); in=inv(sigma); m[t]=(ey[t]~ep[t])*in*(ey[t]|ep[t]); t=t+1; endo; stt=3; lnl=-.5*ln(2*pi)-.5*ln(dsigma[stt:rows(data)]) -.5*m[stt:rows(data)]; retp(lnl); endp; proc inevgarch(c); retp((c[7]/(1-c[8]-c[9]))|(c[10]/(1-c[11]-c[12]-c[13]))); endp; _cml_MaxIters = 200; _cml_Algorithm = 3; _cml_LineSearch = 2; _cml_GradMethod=1; _cml_covpar=2; c7=0.4; c8=0.2; c9=0.7; c10=0.4; c11=0.2; c12=0.7; c13=0; c14=0; startv=inv(x’x)*x’y|inv(x’x)*x’p|c7|c8|c9|c10|c11|c12|c13|c14; _cml_ineqproc = &inevgarch; {b,f0,g,cov,retcode} = maxprt(cml(data,0,&lnlk,startv));
164
CHAPTER 10 MODELOS MULTIVARIADOS
10.6
Cointegración y MCE
10.6.1
Cointegración Uniecuacional
Supongamos que yt , xt son RW (i.e. no estacionarios). Dado lo anterior es de esperar que una combinación lineal de x, y tambien sea RW. Sin embargo, las dos series pueden tener la propiedad de que una combinación lineal particular de ellas (yt − θxt ) sea estacionaria. Si tal propiedad es válida, entonces se dice que y, x cointegran.
Procedimiento de Dos Etapas de Engle y Granger (EG2) La ideas de cointegración surge del artículo de Engle y Granger (EMA, 1987), en el cual proponen un procedimiento de dos etapas para modelar variables cointegradas. Sin embargo no está libre de problemas. Las etapas son dos: Paso 1. Estimar la relación de cointegración por OLS: yt = α + βxt + εt
(10.1)
y testear la existencia de cointegración analizando las propiedades de las series ˆεt . Para esto se utiliza el test de CRDW (cointegrating regression DurbinWatson), el cual evalua si εt es I (1), es decir si el DW → 0 (no cointegración). Si DW es significativamente mayor a cero, entonces x, y cointegran. H0 : DW = 0 (No Cointegración), si DWc > DWT abla rechazamos H0. Para esto ver tabla de EG1987 para DW. Otra alternativa es testear raíz unitaria para los residuos ˆεt con DFA u otro test (Phillips-Perron, Said-Dickey, Kwiatkowski et al., etc...). Si la hipótesis de no cointegración en rechazada, entonces la ecuación (1) representa ³la relación de largo plazo entre y y x, y el vector de parámetros ´ ˆ estimados α ˆ , β se denomina vector de cointegración. Paso 2. Definir el modelo de corrección de errores que incluye como variable explicativa al rezago del error de la ecuación de cointegración ˆεt−1 : A (L) ∆yt = B (L) ∆xt + γˆεt−1 + ν t
165
10.6 COINTEGRACIÓN Y MCE Modelo de Correción de Errores Uniecuacional
Consideremos un ecuación de demanda por dinero tradicional con una variable de ajuste de stocks de corto plazo: mt = α + βyt + γit + δmt−1 + εt Asumiendo equilibrio de largo plazo mt = mt−1 de manera que la relación de largo plazo se representa por: m=
β γ α + y+ i 1−δ 1−δ 1−δ
Restando mt−1 a ambos lados y sumando cero: ∆mt = α + βyt + γit + (δ − 1) mt−1 + βyt−1 − βyt−1 + γit−1 − γit−1 + εt ∆mt = α + β∆yt + γ∆it + (δ − 1) mt−1 + βyt−1 + γit−1 + εt · ¸ α + βyt−1 + γit−1 ∆mt = β∆yt + γ∆it − (1 − δ) mt−1 − + εt 1−δ Método de Tres Etapas de Engle-Yoo Existen dos problemas con el método de EG2: (i) si los errores de la ecuación estática están correlacionados, entonces los estimadores están sesgados y son ineficientes, y, (ii) la distribución de los estimadores es generalmente nonormal y por lo tanto no es posible efectuar inferencias a partir de los usuales test-t en la regresión de cointegración. La solución porpuesta por Engle-Yoo a este problema es: Paso 1. Estimar la ecuación plazo yt = α+βxt +εt . Esto entrega ¡ de largo ¢ un vector de conintegración α1 , β 1 . Paso 2. Estimar el modelo de correción de errores: A (L) ∆yt = B (L) ∆xt + γˆεt−1 + ν t Se guardan los residuos estimados de esta ecuación νˆt , y el término de correción de errores γˆ . Paso 3. Regresionar los residuos del modelo anterior (ECM) νˆt con los regresores de largo plazo del modelo (xt ) ponderados por el inverso aditivo del parámetro de correción de errores γˆ: γ xt ) + νˆt = δ 0 + δ 1 (−ˆ
t
166
CHAPTER 10 MODELOS MULTIVARIADOS
¡ ¢ El vector original de parámetros estimados α1 , β 1 se ajustan por estos nuevos estimadores: α3 = α1 + δ 0 β 3 = β 1 + δ1 Los errores estandar de los coeficientes de la regresión de largo plazo son simplemente los errores estandar de los coeficientes δ i estimados en la regresión del paso 3. Los estadísticos t computados utilizando estos errores estandar tienen una distribución t que puede ser utilizada para hacer inferencia perfectamente. Phillips-Hansen Fully Modified Estimator (PH) Sea el DGP: y1t = βx1t + u1t x1t = x1t−1 + u2t donde se asume que y1t , x1t son I (1). Cuando los términos de errores uit están auto e intercorrelacionados, y cuando la regresión estática y1t = βx1t + u1t no utiliza ninguna de la información que permite generar x1t , los sesgos en el estimador pueden ser grandes. HP propone la siguiente solución. Asumamos que la estructura exacta de la estructura de var-covarianza ut = [u1t , u2t ]0 es desconocido. Sin embargo sabemos que es débilmente estacionario (i.e. covarianza estacionario), lo cual se describe por: ut ˜ [0, Ω] donde Ω = {ωij } , i, j = 1, 2. Es conveniente descomponer la matriz de var-covarianza en: Ω = V + Γ + Γ0 donde V = E [u0 , u00 ] es la matriz de covarianza contemporanea, y donde Γ = Σk E [u0 , u0k ] captura el componente de correlación serial del vector de error. Entonces si el proceso de error es no correlacionario y estacionario, entonces la matriz de covarianza Ω = V . En presencia de correlación serial entonces los términos de Γ no son cero.
10.7 SISTEMAS DE COINTEGRACIÓN
167
El ”fully modified least squares estimator” de β toma la forma: i ¡ ¢−1 h¡ T + ¢ + Σt=1 y1t x1t − T ˆδ β + = ΣTt=1 x21t
donde:
+ y1t = y1t − ω ˆ 12 (ˆ ω 22 )−1 ∆x1t 1 + ˆδ = Λ ˆ −1 ˆ 12 − (ˆ ω 22 ) ω 0 ˆ = Σ∞ Λ k=0 E [u20 uk ]
+ El estimador modificado envuelve dos correciones. Primero el término ˆδ corrige el sesgo en el estimador utilizando estimaciones de largo plazo de la matriz de var-covarianza. Segundo, se utiliza una variable instrumental de + manera que el estimador está condicionado en y1t en lugar de y1t . Finalmente, el error estándar modificado por PH se define por s+ como:
donde:
¡ + ¢2 ¡ ¢−1 s =ω ˆ 11.2 ΣTt=1 x21t ˆ 11 − ω ˆ 221 ω ˆ −1 ω ˆ 11.2 = ω 22
10.7
Sistemas de Cointegración
Dado un vector X˜I(1) de n elementos, puede haber a lo más n − 1 combinaciones de cointegración. Sea el número de combinaciones de cointegración r. Luego 0 ≤ r ≤ n − 1, y los r vectores de cointegración se representan en una matriz n × r definida por β = [β 1 , β 2 , ..., β r ]. El número de vectores de cointegración se conoce como el rango de cointegración de Xt .
10.7.1
Identificación del Rango de Cointegración
Note que en el caso en que r = 0 entonces no habría ninguna relación de cointegración, y por lo tanto el modelo puede estimarse en sus primeras diferencias.
168
CHAPTER 10 MODELOS MULTIVARIADOS
El modelo de corrección de errores vectorial VECM se deriba de un VAR general de la forma: Xt = Π1 Xt−1 + Π2 Xt−2 + ...Πk Xt−k +
t
donde los elementos de Xt son I(1). Puesto que queremos revisar relaciones de cointegración dentro de un sistema estacionario, podemos reparametrizar el modelo de forma analoga al proceso uniecuacional del caso bi-variado. Luego rezagando la ecuación anterior y agregando y restando Πi Xt−i para i = 1, 2, ..., k en el lado derecho, permite representar el VECM como: ∆Xt = ΠXt−k + Σk−1 i=1 Γi ∆Xt−i +
t
donde: Γi = − (I − Π1 − ... − Πi ) , Π = (I − Π1 − ... − Πk )
∀i = 1, ..., k
Los Γi son los parámetros dinámicos del vector del modelo, y la matriz Π contiene los parámetros de largo plazo del modelo. El método de Maximum Likelihood de Johansen consiste en examinar el rango de la matriz Π la cual contiene información sobre las relaciones de largo plazo. Aquí tenemos tres casos: (i) Π posee rango cero. En este caso no hay vectores de cointegración y significa que las variables on individualmente I(1) y que no existe relaciones de largo plazo de la data. La manera en que debe ser estimado el sistema es a través de un VAR estándar con variables en primeras diferencias, i.e. ∆Xt . (ii) La matriz tiene rango completo, lo cual significa que las variables no diferenciadas son de hecho I(0), y entonces el modelo es estacionario en niveles. (iii) La matriz tienen rango r, donde 0 < r < n, lo cual significa que existen r vectores de cointegración entre las n variables.
Part IV Modelos No Lineales Univariados
169
Chapter 11 Estimación por Máxima Verosimilitud Ejercicio. Suponga que la distribución de densidad conjunta dos variables aleatorias x, y está dada por: f (x, y) = β, θ > y = x =
θe−(β+θ)y (βy)x x! 0 0 0, 1, 2, ....
Obtenga los estimadores de máxima verosimilitud de los parámetros β y θ. Para obtener los estimadores MV debemos generar la función log-verosimilitud y derivarla con respecto a los parámetros de interés: X µ θe−(β+θ)y (βy)x ¶ $ (β, θ) = ln x! ¶ Xµ θ x = ln (yβ) − yβ − yθ x! X X X X X = T ln θ − ln x! + x ln (y) + x ln (β) − β y−θ y entonces P ∂$ x X = − y=0 ∂β β ∂$ T X = − y=0 ∂θ θ 171
172CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD De donde se obtiene finalmente que: P x x¯ ˆ β MV = P = y¯ y ¯θMV = 1 y¯ Ejercicio. Para el modelo Y = Xβ + ε se dispone de la siguiente información: 20 11 x0 x = 11 25 25 x0 y = 10
Calcule los estimadores mínimos cuadrados. Genere un intervalo de confianza del 95% para el coeficiente de sensibilidad. Suponiendo que el error se distribuye con media 0 y matriz de varianzas y covarianzas identidad (I) testee la hipótesis nula H0 : β 0 = β 1 = 0 utilizando el test de razón de verosimilitud. A partir de la información entregada en la prueba podemos calcular los estimadores OLS: −1 25 20 11 1. 358 8 −1 = βˆ = (x0 x) x0 y = (11.1) 10 11 25 −0.197 89 Asumiendo que e0 e = 36 la varianza estimada para el estimador βˆ 1 será: −1 ³ ´ 0 36 20 11 ee −1 Vˆ βˆ = (x0 x) = T −k 20 − 2 11 25 ³ ´ 0.131 93 −5. 804 7 × 10−2 Vˆ βˆ = −2 −5. 804 7 × 10 0.105 54
lo cual indica que la desviación estándar estimada del parámetro estimado √ 2 ˆ β 1 será σ ˆ βˆ 1 = 0.105 54 = 0.324 87. Un intervalo de confianza para β 1 se
173 genera a partir del estadístico: tc =
βˆ 1 − β 1 ∼ t (T − k) σ ˆ βˆ 1
en nuestro caso al reemplazar y considerando un intervalo de confianza 95%, para t0.975 (18) = 2.101 el intervalo para el parámetro β 1 será: βˆ 1 − t0.975 (T − k) · σ ˆ βˆ 1 < β 1 < βˆ 1 + t0.975 (T − k) · σ ˆ βˆ 1 reemplazando con los resultados obtenidos anteriormente: −0.197 89 − 2.101 · 0.324 87 < β 1 < −0.197 89 + 2.101 · 0.324 87 −0.880 44 < β 1 < 0.484 66 Suponiendo que el error se distribuye normal con valor esperado cero y matriz de varianzas y covarianzas identidad, entonces efectuemos el test de razón de verosimilitud para testear la hipótesis nula H0 : β 0 = β 1 = 0. La función de log-verosimilitud para el modelo propuesto será: $NR = −
T 1 e0 e T ln (2π) − ln σ 2 − 2 2 2 σ2
Recordando que e0 e = y 0 y − y 0 xβˆ podemos reescribir la expresión anterior como: T 1 y 0 y − y 0 xβˆ T $NR = − ln (2π) − ln σ 2 − 2 2 2 σ2 Si ahora escribimos la misma expresión anterior pero para el modelo restringido tenemos que dado una hipótesis nula de que β 0 = β 1 = 0, entonces: $R = −
T T 1 y0 y ln (2π) − ln σ 2 − 2 2 2 σ2
Considerando que σ 2 = 1 podemos resescribir esta expresión de la siguiente forma, tanto para el modelo no restringido como para el modelo restringido (ln(1) = 0): ´ T 1³ 0 $NR = − ln (2π) − y y − y 0 xβˆ 2 2 T 1 $R = − ln (2π) − y 0 y 2 2
174CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD El test de LR se forma del doble de la diferencia entre estas dos expresiones, es decir: ¡ ¢ LR = 2 $NR − $R ¶¸ ·µ ´¶ µ T T 1³ 0 1 0 0 ˆ − − ln (2π) − y y LR = 2 − ln (2π) − y y − y xβ 2 2 2 2 ¸ · ´ ³ 1 1 LR = 2 − y 0 y − y 0 xβˆ + y 0 y = −y 0 y + y 0 xβˆ + y 0 y = y 0 xβˆ 2 2 ³ ´ 1. 358 8 = 31. 991 LR = 25 10 −0.197 89
Para un test χ295% (2) = 5.99. Como LR > 5.99 entonces rechazamos la hipótesis nula H0 : β 0 = β 1 = 0. Ejercicio. De la siguiente muestra de tamaño 10 para una variable aleatoria x generada de una distribución normal con media µ y varianza σ 2 , es decir x ∼ N (µ, σ 2 ): {1.1, 2.4, 0.5, 2.2, 0.8, 0.1, 2.9, 3.3, 2.5, 1.9} Testee la hipótesis de que la varianza es uno, es decir H0 : σ 2 = 1. Genere un intervalo de confianza del 95% para σ 2 , y utilizando un test de razón de verosimilitud testee la hipótesis conjunta H0 :
µ=2
σ 2 = 1.5
.
Lo primero es calcular la varianza muestral: P 10.541 (xi − x¯)2 2 = = 1. 171 2 s = N −1 9 N −1 9 σ ˆ 2 = s2 = 1.1712 · = 1. 054 1 N 10
Para testear H0 : σ 2 = 1 debemos recordar la expresión: (N − 1)
s2 ∼ χ2 (N − 1) σ2
Luego el test consisrte en: χ2c = (N − 1)
s2 1. 171 2 = 10. 541 = (9) 2 σ H0 1
175 Al comparar con un valor de tabla de χ20.975 (9) = 19.02 vemos que no rechazamos la hipótesis nula H0 : σ 2 = 1 Para el cálculo del intervalo de confianza aplicamos una expresión similar: s2 s2 2 < σ < (N − 1) χ20.975 (N − 1) χ20.025 (N − 1) 1.1712 1.1712 < σ 2 < (9) (9) 19.02 2.7 2 0.554 20 < σ < 3. 904 µ=2 se obtienen Los valores para el cálculo del test LR para H0 : 2 σ = 1.5 una vez evaluada la función de log-verosimilitud en los parámetros estimados versus los restringidos: P n 1 (xi − µ)2 n NR 2 $ = − ln (2π) − ln σ − 2 2 2 σ2 (N − 1)
Al reemplazar por los valores ya encontrados: P n 1 (xi − µ)2 n NR 2 = − ln (2π) − ln σ − $ 2 2 2 σ2 10 1 10.541 10 ln 1. 054 1 − = −14. 453 $N R = − ln (2π) − 2 2 2 1. 054 1 P 10 1 (xi − 2)2 10 R $ = − ln (2π) − ln 1.5 − 2 2 2 1.5 10 10 1 11.07 R $ = − ln (2π) − ln 1.5 − = −14. 907 2 2 2 1.5 Con este resultado aplicamos el test LR: ¢ ¡ LR = 2 $NR − $R LR = 2 (−14. 453 − (−14. 907)) LR = 0.908 2 Comparando con un estadístico de tabla χ0.95 (2) = 5.99 vemos que no es µ=2 . posible rechazar la hipótesis nula H0 : 2 σ = 1.5
176CHAPTER 11 ESTIMACIÓN POR MÁXIMA VEROSIMILITUD Ejercicio. La variable aleatoria x posee la siguiente distribución: f (x) =
e−λ λx x!
, x = 0, 1, 2, 3, ....
Suponga que se obtiene la siguiente muestra aleatoria para x: 3, 5, 1, 2, 1, 0, 0, 1, 1, 4, 2, 0, 0, 3, 2 Utilice el test de Wald para evaluar la hipótesis H0 : λ = 2. Si la variable aleatoria tiene la distribución: f (x) =
e−λ λx x!
entonces la función de log-verosimilitud (log-likelihood) se representará por: ¶ X X µ e−λ λx ¶ X µ 1 X 1 x $ (λ) = ln = ln λ − λ = x − Tλ ln + ln λ x! x! x! Derivando con respecto a λ se obtiene: ∂$ 1X = x−T =0 ∂λ λ P x ˆ = x¯ ⇒ λMV = T ˆ MV = 25 = 1. 666 7.El test de Dada la muestra este estimador equivale a λ 15 Wald a aplicar es equivalente a testear la hipótesis H0 : g (λ) = 0 donde en nuestro caso g (λ) = λ − 2: ³ ³ ³ ´´2 ´2 ˆ ˆ g λMV λMV − λH0 ³ ´´ = ´ W = ³ ³ ˆ MV ˆ MV Vˆ g λ Vˆ λ
dado que la varianza de g (λ) es equivalente en esta restricción lineal a la varianza de λ. Es decir: (1.6667 − 2)2 ´ ³ W = ˆ ˆ V λMV
177 La varianza del estimador maximo-verosimil se obtiene de derivar dos veces la función de lok.likelihood pues sabemos que: ³ ´ µ ∂ 2 $ ¶−1 µ 1 X ¶−1 ˆ ˆ V λMV = − 2 = x ∂λ λ2 ˆ MV esta expresión tenemos: Al valorar en el estimador λ !−1 µ Ã ¶−1 ´ ³ X 1 1 ˆ ˆ x = 25 = 0.11111111 V λMV = 1.666666662 ˆ2 λ MV luego el test de Wald es: (1.666666 − 2)2 = 1.0 W = 0.1111111 Al 95% de una Chi-cuadrado con un grado de libertad se tiene un valor crítico de tabla de 3.84 lo cual nos indica que no rechazamos la hipótesis nula de que λ = 2.
Chapter 12 GMM Para comenzar a explicar en qué consiste en Método Generalizado de Momentos hay que introducir el concepto a través de la estimación por el clásico Método de los Momentos.
12.1
Método de Momentos
Sean una variable aleatoria y generada a partir de una función de distribución t-student con λ grados de libertad: h i ¸− λ+1 · Γ (λ+1) 2 y2 ( 2 ) f (y, λ) = £ ¤ 1+ 1 λ [πλ] 2 Γ λ 2
donde la función gamma se representaba por Γ (x) = (x − 1)!. Dado que la función de distribución posee solamente un parámetro representativo (su grado de libertad λ), supongamos que tenemos una muestra de observaciones de tamaño T . Una forma de estimar este parámetro es a través del método de máxima verosimilitud, calculando primero la función de logaritmo de verosimilitud y segundo maximizando el valor de esta función de manera de encontrar el ˆ MV . estadístico λ El Método de los Momentos entrega una alternativa de estimación para este parámetro. Sabemos que la media poblacional de una distribución t es λ cero y que su varianza es igual a λ−2 . Si sabemos que: ¡ ¢ ¡ ¢ σ 2y = E y 2 − [E (y)]2 = E y 2 = 179
λ λ−2
180
CHAPTER 12 GMM
entonces podemos encontrar la expresión muestral de σ 2y a partir de:
Dado que σ 2y = a partir de:
λ λ−2
¡ ¢ ˆ y 2 = 1 PT yt2 σ ˆ 2y = E T t=1
entonces parece natural que el estimador de λ se obtenga
ˆ 1 PT 2 λ y = t ˆ−2 T t=1 λ con lo cual llegamos a que el estimador de método de los momentos para λ será: 2ˆ σ 2y ˆ λMM = 2 σ ˆy − 1 σ ˆ 2y =
ˆ MM del método de los momentos es el valor para el Es decir el estimador λ cual los momentos poblacionales son igualados a los momentos observacios muestrales. Supongamos que además del segundo momento se requiere calcular el parámetro λ utilizando otros momentos como por ejemplo el cuarto momento de la distribución t que denotamos por (kurtosis): ¡ ¢ E y4 =
3λ2 (λ − 2) (λ − 4) P 4 con su contraparte muestral igual a T1 yt . Dado que ahora son más de una función a minimizar se requiere de alguna forma de ponderación entre ellas de manera de evitar conflictos entre cada ecuación a minimizar. El Método de los Momentos Generalizados (GMM) permite escoger λ de manera de minimizar la siguiente función: QT (λ) = g0 W g donde W es una matriz simétrica definida positiva de ponderación entre los momentos y g (vector de orden 2x1) se denota por: P 2 1 λ yt − λ−2 T g= P 1 3λ2 4 − y t T (λ−2)(λ−4)
181
12.2 MÉTODO GMM DE HANSEN
12.2
Método GMM de Hansen
Definamos a ωt un vector de hx1 variables aleatorias observadas en t, ϑ un vector de dimensión kx1. Sea h (ϑ, ω t ) un vector de función real de dimensión rx1, y sea ϑ0 el verdadero valor de ϑ, que supongamos obedece a la propiedad: E [h (ϑ0 , ω t )] = 0rx1 Si denotamos por g (ϑ) a la contraparte muestral de h (ϑ, ω t ): g (ϑ) =
T 1 P h (ϑ, ω t ) T t=1
La idea detrás de la metodología GMM es escoger ϑ de manera de hacer que el momento muestral g (ϑ) sea lo más cercano posible al momento poblacional de cero E [h (ϑ0 , ω t )] = 0. ˆ GMM es el valor de ϑ que minimiza el Definición. El estimador GMM λ escalar: QT (ϑ) = g (ϑ)0 WT g (ϑ) donde {WT }∞ T =1 es una secuencia de matrices de ponderación definidas positivas de orden rxr que pueden ser función de las series observadas. Así lo que podemos observar es que el estimador del método de momentos σ2y ˆ MM = 2ˆ es un caso especial de GMM: clásico para λ 2 σ ˆ −1 y
ω t = yt ϑ = λ WT = 1 h (ϑ, ω t ) = yt2 −
λ λ−2
1P 2 λ yt − T λ−2 r = k=1 ¶2 µ 1P 2 λ QT (ϑ) = yt − T λ−2 g (ϑ) =
ˆ GMM = La solución de este problema claramente se logra cuando λ P ˆ MM . σ ˆ 2 = 1 T y 2 , que corresponde al estimador λ y
T
t=1
t
2ˆ σ2y 2 σ ˆ y −1
donde
182
12.3
CHAPTER 12 GMM
WT Optima
Es necesario determinar cual es el valor óptimo de WT al momento de calcular los estimadores GMM. Supongamos que cuando se evalúa en el vector verdadero ϑ0 , el proceso {h (ϑ0 , ω t )}t=∞ t=−∞ es estrictamente estacionario com media cero y matriz de autocovarianza de orden ν dada por: £ ¤ Γν = E h (ϑ0 , ωt ) h (ϑ0 , ω t )0 Asumiendo que estas autocovarianzas son sumables se define: ∞ P S= Γν ν=−∞
Sabemos que S es la varianza asintótica de la media muestral de h (ϑ0 , ω t ): £ ¤ S = lim T · E g (ϑ0 ) g (ϑ0 )0 T →∞
entonces el valor óptimo de la matriz de ponderación de g (ϑ) para g (ϑ)0 WT g (ϑ) será S −1 . De esta manera la mínima varianza asintótica del estimador GMM ˆ T se obtiene cuando ϑ ˆ T se escoge de manera de minimizar la función: ϑ QT (ϑ) = g (ϑ)0 S −1 g (ϑ) Existen dos alternativas de presentación del vector que representa al proceso {h (ϑ0 , ωt )}t=∞ t=−∞ ya sea que esten serialmente no correlacionados o serialmente correlacionado. £ ¤ Si no existe correlación entonces la matriz S = limT →∞ T ·E g (ϑ0 ) g (ϑ0 )0 puede ser estimada consistemente a través de su contraparte muestral: ST =
T 1 P h (ϑ0 , ω t ) h (ϑ0 , ω t )0 T t=1
Calcular ST requiere de un estimador para ϑ0 aunque puede demostrarse que para cualquier estimador consistente de ϑ0 , si h (ϑ0 , ω t ) no se correlaciona serialmente, entonces: ´ ³ ´0 ³ T 1 P P ˆ T , ωt → ˆ T , ωt h ϑ h ϑ S SˆT = T t=1 Dado el carácter recursivo del método, pues para estimar ϑ requerimos de un estimador de S, y para estimar S requerimos de un estimador de ϑ, entonces se plantea un esquema iterativo con criterio de convergencia con el siguiente algoritmo:
183
12.3 WT OPTIMA ˆ (0) minimizando la expresión: 1. Obtener un estimador inicial de ϑ T Q (ϑ) = g (ϑ)0 WT g (ϑ) utilizando la matriz WT = Ir . (0)
ˆ ) se procede a calcular la primera esti2. Con este estimador de ϑ (ϑ T mación de S: ³ (0) ´ ³ (0) ´0 T 1 P (0) ˆ , ωt ˆ , ωt h ϑ h ϑ SˆT = T T T t=1
i−1 h (0) 3. Utilizamos WT = SˆT en la expresión de Q (ϑ) para estimar un ˆ (1) : nuevo vector de parámetros GMM ϑ T h i−1 0 ˆ(0) Q (ϑ) = g (ϑ) ST g (ϑ) (1)
(1)
ˆ se calcula una nueva matriz S, Sˆ movién4. Con este nuevo vector ϑ T T donos al paso 2. Este proceso itera hasta que la regla de detensión (stopping rule) es válida, es decir hasta que el vector de parámetros entre cada iteración sea equivalente considerando algún criterio de distancia (euclidiana por ejemplo): ˆ (j+1) ˆ (j) ∼ ϑ T = ϑT Si alternativamente se presume que el proceso vectorial de {h (ϑ0 , ω t )}t=∞ t=−∞ está serialmente correlacionado, entonces se puede utilizar el estimador de Newey-West (1987) para S: · µ ¶³ ´¸ q P ν 0 ˆ 0,T + ˆ ν,T ˆ ν,T + Γ SˆT = Γ κ Γ q+1 ν=1 ·µ ¶³ ´¸ q P ν 0 ˆ ˆ ˆ ˆ 1− Γν,T + Γν,T ST = Γ0,T + q+1 ν=1
donde:
´ ³ ´0 ³ T ˆ ωt ˆ ωt h ϑ, ˆ ν,T = 1 P h ϑ, Γ T t=ν+1
184
CHAPTER 12 GMM
Hay que mencionar que existen variadas funciones kernels candidatos a ponderar las matrices de autocovarianzas. A continuación se presentan los kernels más conocidos entre los cuales se encuentra el propuesto por NeweyWest, que fue utilizado anteriormente:
1. Kernel Truncado (White):
kT R (x) =
1
para |x| ≤ 1 en otro caso
0 y
1.25
1
0.75
0.5
0.25 0 -2
-1
0
1
2 x
Kernel Truncado
2. Kernel Bartlett (Newey-West): 1 − |x| , para |x| ≤ 1 kB (x) = 0, en otro caso
185
12.3 WT OPTIMA
y
1.25
1
0.75
0.5
0.25 0 -2
-1
0
1
2 x
Kernel Bartlett (Newey-West) 3. Kernel Parzen (Gallant): 3 1 2 1 − 6x + 6 |x| , para 0 ≤ |x| ≤ 2 3 1 kP R (x) = 2 (1 − |x|) , para 2 ≤ |x| ≤ 1 0 en otro caso y
1.25
1
0.75
0.5
0.25 0 -2
-1
0
1
2 x
Kernel Parzen 4. Tukey-Hanning: kT H (x) =
(1+cos(πx)) , 2
0,
para |x| ≤ 1 en otro caso
186
CHAPTER 12 GMM
y
1.25
1
0.75
0.5
0.25 0 -2
-1
0
1
2 x
Kernel Tukey-Hanning 5. Quadratic-Spectral (Andrews): 25 kQS (x) = 12π 2 x2
Ã
sin
y
¡ 6πx ¢
5 6πx 5
µ
6πx − cos 5
¶!
1.25
1
0.75
0.5
0.25 0 -2.5
-1.25
0
1.25
2.5 x
Kernel Quadratic Spectral (Andrews) Otro punto de relevancia consiste en determinar el q óptimo, parámetro conocido como bandwidth parameter. La literatura menciona criterios automáticos de selección para este parámetro (Andrews, 1991, "Heteroskedasticity and Autocorrelation Consistent Covariance Matrix Estimation", ECONOMETRICA 59(3), y Newey and West, 1994, "Automatic Lag Selection in Covariance Matrix Estimation", Review of Economic Studies 61(4)).
12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM
187
Newey-West y Andrews determinan este parámetro según las siguiente ecuaciones para los kernel tipo Barttlet (Newey-West) y Quadratic-Spectral (Andrews): 1
qB = 1.1447 [ˆ ϕ (1) T ] 3 1
qQS = 1.3221 [ˆ ϕ (2) T ] 5 donde: ϕ ˆ (1) =
Pk
4ˆ ρ2a σ ˆ 4a a=1 (1−ˆ ρa )6 (1+ˆ ρa )2
Pk
σ ˆ 4a a=1 (1−ˆ ρa )4
Pk
ˆ 4a 4ˆ ρ2a σ a=1 (1−ˆ ρa )8
ϕ ˆ (2) = Pk
σ ˆ 4a a=1 (1−ˆ ρa )4
¡ ¢ Para determinar el par ρˆa , σ ˆ 2a Andrews y Monahan ("An Improved Heteroskedasticity and Autocorrelation Consistent Covariance Matrix Estimator", ECONOMETRICA 60) proponen estimar un proceso AR(1) para el componente ae´simo de {h (ϑ0 , ω t )} previamente "blanqueado" a través de un V AR(1) o un V AR(2).
12.4
Distribución de los Estimadores GMM
ˆ T el vector que minimiza la expresión: Sea ϑ h i−1 g (ϑ) Q (ϑ) = g (ϑ)0 SˆT P
donde SˆT → S. Asumiendo un óptimo interior, esta minimización se consigue haciendo que la derivada de la expresión anterior con respecto al vector de ˆ GMM se obtiene de la solución del parametros ϑ sea cero. Luego el vector ϑ T siguiente sistema de ecuaciones no lineales: ¶ µ h i−1 0 ˆ g (ϑ) ∂ g (ϑ) ST ∂Q (ϑ) = ∂ϑ ∂ϑ =
µ
∂g (ϑ) ∂ϑ
¶0
ˆT ϑ=ϑ
h i−1 SˆT g (ϑ) = 0
188 donde
CHAPTER 12 GMM ³
∂g(ϑ) ∂ϑ
´0
ˆT ϑ=ϑ
h i−1 es una matriz de orden kxr, SˆT es de orden rxr, g (ϑ)
de orden rx1, y finalmente 0 es de orden kx1. Utilizando la teoría central del límite se puede demostrar que la distribuˆ T está dada por: ción asintótica del estimador ϑ ³ ´ √ ˆ T − ϑ0 → N (0, V ) T ϑ −1
donde V = (DS −1 D0 ) , de manera que podemos decir que la distribución aproximada del estimador GMM será: Ã ! ˆT V ˆ T → N ϑ0 , ϑ T donde:
´−1 ³ ˆ T Sˆ−1 D ˆ T0 D T ´ ³ ´0 ³ T P 1 ˆT , ωt ˆT , ωt h ϑ h ϑ h no correlacionado T t=1 SˆT = ´³ ´i q h³ ˆ 0,T + P 1 − ν ˆ ν,T + Γ ˆ0 Γ h correlacionado Γ ν,T q+1 ν=1 ¶0 µ ∂g (ϑ) ˆT = D ∂ϑ ˆT ϑ=ϑ VˆT =
ˆ T es de orden kxr. con D Más formalmente las siguientes tres condiciones son las que permiten ˆT : llegar a la distribución asintótica del estimador para ϑ √ CLT 1. T g (ϑ0 ) → N (0, S) P ˆT → 2. ϑ ϑ0 ·³ ´ 3. p lim ∂g(ϑ) 0 ∂ϑ
ˆT ϑ=ϑ
¸
= p lim
·³
∂g(ϑ) ∂ϑ0
´
ϑ=ϑ0
¸
= D0
Estas condiciones permiten decir entonces que: ´ √ ³ ˆ T − ϑ0 CLT T ϑ → N (0, V )
´ ³ VˆT ˆ donde V = (DS D ) , de manera que entonces ϑT → N ϑ0 , T . −1
0 −1
12.4 DISTRIBUCIÓN DE LOS ESTIMADORES GMM
12.4.1
189
S Cuasi-Singular
Empiricamente es común encontar que la matriz S es casi singular, lo cual dificulta el trabajar con su inversa S −1 . Ete hecho se da especialmente cuando se estima modelos con retornos de activos pues estos tienden a estar fuertemente correlacionados unos a otros, fenómeno que se refuerza cuando además se incluyen muchos activos en relación al número de observaciones (un nivel de saturación parámetros/data muy alto). Por ejemplo supongamos que: 1 ρ S= ρ 1 de manera que su inversa es:
S −1 =
− ρ21−1 ρ ρ2 −1
ρ ρ2 −1
− ρ21−1
La descomposición matricial de Cholesky permite descomponer cualquier matriz real cuadrada simétrica y definida positiva (como debiera ser S −1 ) en dos matrices que cumplen con la condición que C 0 C = S −1 . Para nuestro ejemplo la descomposición de Cholesky se denota por la matriz C definida por: q C=
− ρ21−1 0
ρ q (ρ2 −1) −
q − ρ21−1 −
ρ2
1 ρ2 −1
(ρ2 −1)2
(−ρ2 + 1)
Lo interesante de esta descomposición es que nos permite visualizar el peso que se le está dando a cada momento dentro de la función objetivo. Recordemos que la función a minimizar la definimos por: Q (ϑ) = g (ϑ)0 SˆT−1 g (ϑ) Si reemplazamos SˆT−1 por su descomposición de Cholesky respectiva se obtiene: £ ¤ Q (ϑ) = g (ϑ)0 C 0 [Cg (ϑ)]
de manera que la expresión Cg (ϑ) nos señala la ponderación que cada momento tendrá en el proceso de minimización.
190
CHAPTER 12 GMM
Por ejemplo para el caso en que ρ = 0.9 la matriz C es: 2. 294 2 −2. 064 7 C= 0 1.0
indicando que el peso en la función objetivo del primer momento es más del doble de lo que se pondera el segundo momento, y que además la diferencia entre los dos momentos tienen una ponderación doble a la del segundo momento. El consejo práctico es evaluar la matriz S −1 con su descomposición de Cholesky de manera de visualizar cuál es la ponderación de los momentos que está siendo utilizada en la función objetivo.
12.4.2
Inferencia
³ ´ ˆ ˆ En relación a inferencia sobre el i elemento del vector ϑT ϑi,T podemos ´ ³ ˆ T → N ϑ0 , VˆT de manera que: utilizar la distribución asintótica anterior ϑ T esimo
ˆ − ϑi,0 ˆξ = ϑi,T q → N (0, 1) Vˆii,T T
¯ ¯ ¯ ¯ de manera que si el estadístico ¯ˆξ ¯ es mayor a 1.96 entonces rechazamos la 0 ˆ ˆ hipótesis nula H0 : ϑH i,0 = ϑi,0 , donde ϑi,T es el elemento i del vector ϑT y Vˆii,T es el elemento i de la diagonal de la matriz VˆT . Para el caso de hipótesis conjuntas o multivariadas consideremos una función F :
12.5 APLICACIONES
191
donde: VF = f (ϑ0 ) V f (ϑ0 )0 ¸ · ∂F f (ϑ0 )JxJ = ∂ϑ0 ϑ=ϑ0 La contraparte muestral de este test debe considerar estimadores para V de manera que: ³ ´ ³ ´0 ˆ T VˆT f ϑ ˆT VˆF,T = f ϑ Finalmente el test se efectúa con la expresión cuadrática de la distribución asintótica normal, es decir una chi-cuadrado con J grados de libertad, equivalente al número de restricciones o subhipótesis consideradas: ³ ´0 ³ ´ ˆ T Vˆ −1 F ϑ ˆ T ∼ χ2 (J) TF ϑ T Test de Hansen Usualmente denominado test de Hansen, este desarrolla una manera de testear lo que se conoce como restricciones de sobreidentificación (JT − test) que evalúa el ajuste completo del modelo estimado. Establece que el estadístico formado por T veces el valor de la función objetivo minimizada en la segunda etapa iterativa posee una distribución chi-cuadrado con grados de libertad equivalentes a la diferencia entre momentos considerados (r) y parámetros estimados (k): µ ¶ h i−1 0 ˆ T JT = T min g (ϑ) ST g (ϑ) ∼ χ2 (r − k) ϑ
12.5
Aplicaciones
Esta sección revisa las aplicaciones más conocidas de la metodología GMM.
192
CHAPTER 12 GMM
12.5.1
Mínimos Cuadrados
12.5.2
Modelos de Expectativas Racionales
Sea la función de bienestar del tipo de aversión relativa al riesgo contante (CCRA), definida por: 1−γ ct para γ > 0 y γ 6= 1 1−γ u (ct ) = ln (c ) para γ = 1 t
donde ct es el consumo del agente en el momento t, γ representa al coeficiente de aversión relativa al riesgo, y la función de utilidad es creciente al tasas decrecientes: u0 > 0 , u00 < 0. En esta economía el agente representativo maximiza su nivel de bienestar 1 descontado a una tasa β < 1 que es equivalente a 1+δ donde δ > 0 representa la tasa de descuento subjetivo del agente representativo. El probela analíticamente a resolver es: ∞ P MaxE0 β t u (ct |=t ) t=0
sujeto a la restricción de flujo que indica ct + pit sit+1 = (pit + dit ) sit , y al set de información disponible por el agente y el econometrista en el período t, el cual denotamos por =t . En cada momento del tiempo t el agente decide cuánto comprar de cualquiera de los m activos disponibles a invertir, cada uno de los cuales retorna una tasa bruta de retorno (1 + ri,t+1 ) en t + 1. Si asumimos una solución interior, es decir que el inversionista toma una posición en cada activo disponible, el portafolio óptimo del accionista deberá satisfacer las condiciones de Euler (condiciones necesarias de primer orden del problema de optimización dinámica) siguientes: u0 (ct ) = βE [(1 + ri,t+1 ) u0 (ct+1 ) |=t ]
∀i = 1, 2, ..., m
Al incorporar el supuesto de una función de utilidad del tipo CRRA, descrita anteriormente, la expresión de optimalidad de Euler se traducirá a: £ ¤ c−γ = βE (1 + ri,t+1 ) c−γ ∀i = 1, 2, ..., m t t+1 |=t Al simplificar esta expresión a: "
µ
ct+1 1 = βE (1 + ri,t+1 ) ct
¶−γ
|=t
#
193
12.5 APLICACIONES
· ´−γ ¸ ³ ct+1 no estará queda claro que la variable aleatoria 1 − β (1 + ri,t+1 ) ct
correlacionado con el set de información =t disponible en el período t. Esta última expresión se puede representar como una condición de ortogonalidad, · ³ ´−γ ¸ ct+1 donde la variable aleatoria β (1 + ri,t+1 ) ct − 1 es ortogonal al set de variables contenidas en =t , es decir: " # ¶−γ µ ct+1 E β (1 + ri,t+1 ) − 1|=t = 0 ct
Utilizando la notación del modelo GMM definamos el vector de parámetros θ y al vector de variables observadas por el econometrista ω t por: θ = (β, γ)0 ¶0 µ ct+1 0 ωt = r1,t+1 , r2,t+1 , ..., rm,t+1 , , =t ct Concatenando las condiciones de ortogonalidad para los m activos disponibles llegamos a representar la función h (θ, ω t ) por (r = m): ¶ µ ´−γ ³ ct+1 − 1 |=t β (1 + r1,t+1 ) ct µ ¶ ´ ³ −γ c β (1 + r2,t+1 ) t+1 − 1 |= t ct µ ¶ ³ ´−γ h (θ, ωt ) = β (1 + r3,t+1 ) ct+1 − 1 |= t ct .... µ ¶ ´ ³ −γ ct+1 β (1 + rm,t+1 ) ct − 1 |=t mx1
donde la representación muestral de h (θ, ω t ) estará definida por: g (ϑ) = y la función objetivo es:
T 1 P h (ϑ, ω t ) T t=1
h
Q (ϑ) = g (ϑ) SˆT 0
i−1
g (ϑ)
194
CHAPTER 12 GMM
Esta expresión debe ser minimizada numéricamente con respecto ´a−γϑ. ³ De acuerdo a la teoría, la expresión 1 − β (1 + ri,t+1 ) ct+1 no dect biera estra correlacionada con ninguna variable del set de información =t disponible en t, set que puede incluir incluso sus propios rezagos. Dada esta caracerística, el vector h (θ, ω t ) no debiera estar correlacionado con sus propios rezagos, lo cual sugiere que la matriz S pueda ser consistentemente estimada por1 : · ³ ´ ´0 ¸ ³ T 1 P ˆ ˆ ˆ h ϑT , ωt h ϑT , ωt ST = T t=1 rx1 1xr ˆ T es un estimador inicial consistente que puede derivarse minimizando donde ϑ Q (ϑ) con SˆT = I.
12.5.3
Modelos de Descuento Estocástico
Tradicionalmente modelos de CAPM (Capital Asset Pricing Models) y APT (Arbitrage Price Theory) consideran ciertos parámetros como exógenos en la determinación de retornos, ya sea la tasa libre de riesgo o los factores que se consideran en los modelos de multifactores como el APT. En su representación estándar, en estos modelos las decisiones de portafolio no toman en consideración períodos futuros siendo más bien modelos estáticos, que además ignoran decisiones intertemporales de consumo. Modelos de equilibrio intertemporal permiten establecer que existe un factor de descuento estocástico tal, que la esperanza del producto de cualquier retorno bruto de un activo con este factor es igual a uno. En modelos de equilibrio general de precios de activos, que consideran decisiones intertemporales de consumo del agente representativo, el factor de descuento estocástico es la tasa marginal de sustitución intertemporal del agente representativo. Formalicemos el resultado del modelo presentado en secciones anteriores. Si consideramos un agente representativo que maximiza el valor descontado a 1
Es usual suponer que los instrumentos o variables consideradas en el set de información de este pronlemas sean: µ ¶0 ct ct ct , , ..., , r1t , r1t−1 , ..., r2t , r2t−1 , ... =t = 1, ct−1 ct−1 ct−1
195
12.5 APLICACIONES
una tasa β del flujo de utilidades futuras u (ct ) podemos decir que el plan de consumo y portfolio óptimo de este agente estará representado en las ecuaciones de Euler (condiciones de primer orden del problema de optimización) definidas por:
u0 (ct ) = βE [(1 + ri,t+1 ) u0 (ct+1 ) |=t ]
∀i = 1, 2, ..., m
Dividiendo ambos lados de la ecuación por u0 (ct ), llegamos a definir el factor de descuento estocastico a partir de: ¸ · 0 u (ct+1 ) (1 + ri,t+1 ) |=t = 1 E β 0 u (ct ) E [mt+1 (1 + ri,t+1 ) |=t ] = 1 donde el factor de descuento estocástico, o precio-kernel, se define por mt+1 = 0 ) β uu(c0 (ct+1 . t) A partir de esta definición es posible verificar que el factor de descuento estocástico es siempre positivo (o en rigor no negativo), pues las utilidades marginales son positivas (la excepción es cuando teóricamente u0 (∞) → 0). 1−γ
Si consideramos una función del tipo u (c) = c1−γ , entonces u0 (c) = c−γ de manera que el factor de descuento estocástico será:
mt+1
u0 (ct+1 ) =β 0 =β u (ct )
µ
ct+1 ct
¶−γ
Modelos más completos, que involucran hábitos de consumo y dinero en forma de Cash In Advance (CIA) o Money in Utility Function (MUF ), generan descuentos estocásticos modificados, los cuales se presentan a con-
196
CHAPTER 12 GMM
tinuación: Modelo
γ β η ϕ
: : : :
Factor de Descuento ´−γ ³ ct+1 C-CAPM β ct ´η(γ−1) ³ ´−γ ³ ct+1 ct Hábito Consumo β ct−1 c ³ ´ϕ(1−γ)−1 ³t ´(1−ϕ)(1−γ) ct+1 Mt+1 Pt Dinero MUF β ct Mt Pt+1 ´−γ ³ Pt+1 Pt+1 Mt+1 Pt+1 Dinero CIA β Mt Pt+2 Pt Pt+2
CRRA Factor Subjetivo de Descuento Grado de Separabilidad en Hábitos de Consumo Ponderación de Consumo en Función de Utilidad
Ejercicio. Utilizando información de consumo privado para Chile y los retornos de precios de acciones (IPSA) estimamos por GMM los coeficientes β y γ para generar el factor de descuento estocástico mt+1 .