Nota sobre el “Delta-Method” 1. Definiciones El delta-method sirve para encontrar la distribución asintótica de una función no lineal de los estimadores, ya sean generados por MCO, MV u otros métodos. El teorema en el caso caso de un escalar es: Teorema. (Delta Method) Si ? es un escalar y n (θˆ − θ ) d → N [0,σ 2 ] y si g(?) es una función continua que no involucra n, entonces g (θˆ) : N ( g (θ ), (1 / n) g´( ´(θ ) 2 σ 2 ) . Si ? es desconocido, una fórmula práctica para estimar la varianza asintótica es usar Vaˆr ( g (θˆ)) ; g´(θˆ) 2 σˆ 2 . En el caso que ? es un vector de kx1 parámetros y la matriz de varianzas y covarianzas del estimador de ? , es V entonces para estimar la varianza asintótica usamos θˆ
Vaˆr ( g (θˆ)) ; 1424 24 3 1 x1
∂g (θˆ)
Vθˆ
∂g (θˆ)
'
θ3 ∂2 ∂θ ' ' 1 kxk 1 424 3 {
1 xk
kx1
1
En el caso que ? es un vector de kx1 parámetros y tenemos J funciones g(?) y la matriz de varianzas y covarianzas del estimador de ?, esV entonces para estimar la varianza asintótica del vector g(?) de Jx1 usamos θˆ
ˆ ( g (θˆ)) ; Var 1424 3 JxJ
∂g (θˆ)
Vθˆ
∂g (θˆ)
'
' θ3 ∂2 ∂θ ' 1 kxk 1 424 3 {
Jxk
kxJ
2. Ejemplo. Supongamos que tenemos una función de Utilidad CES (constant elasticity of substitution) entre Ocio, l . y Consumo, c. En varios libros de texto la función de Utilidad (CES) se define como: U
= α δ c − ρ + (1 − δ )l − ρ
−η ρ
La TMS de este consumidor es: U l Uc
≡ TMS ≡
1− δ c
δ
1+ ρ
l
: y la elasticidad de sustitución, s es : 2
σ
=
d ( ln c / l ) d ln(TMS )
=
1 1+ ρ
Se puede mostrar que cuando s tiende a 1, la función CES converge a la función Cobb Douglas; cuando s tiende a 0, la función CES tiende a la función Leontief de coeficientes fijos (complementos perfectos); y cuando s tiende a 8 , la función de Utilidad tiene curvas de indiferencia lineales, ( X e Y son sustitutos perfectos). Supongamos que queremos testear si la TMS entre ocio y consumo es TMS = 0.2 cuando c/l = 0.8. Estas hipótesis son no lineales en los parámetros d y ?: H 0 H 1
= =
1−δ
δ 1− δ
δ
(0.8)1+ ρ
= 0.2
(0.8)1+ ρ
≠ 0.2
• Las hipótesis más usuales son lineales en los parámetros, de la forma H 0
= α 0 β0 + α1β1 = c 3
.• Las hipótesis más generales, lineales o no lineales, pueden ser escritas como H 0
= g (θ ) = 0
donde g es cierta función (continua y diferenciable) y ? es un vector de parámetros. • En la hipótesis anterior, podemos escribir: g (θ ) = g (δ , ρ ) =
1− δ
δ
(0.8)1+ ρ
− 0.2
• Cuando tenemos una hipótesis no lineal, lo esencial es obtener el error standard de la función que estamos testeando. • Para el caso lineal con dos parámetros: es(α 0 β 0
=
+ α1β1 ) =
ˆ α 0 βˆ0 var(
+ α1βˆ1 − c)
ˆ βˆ0 ) + α 21 var( ˆ βˆ1 ) + 2α 0α1 cov( βˆ0 , βˆ1 ) α 2 0 var(
• Para el caso no lineal con dos parámetros: es ( g (δˆ, ρˆ )) =
ˆ g (δˆ, ρˆ )) var(
donde de acuerdo al delta method: 4
∂g ˆ ˆ ˆ var[ g (δ , ρ )] =
δ ∂
2
ˆ δˆ ) + var(
En nuestro caso, g (δ , ρ ) =
∂g ∂ρ
1−δ
δ
2
∂g ∂g coˆ ∂ρ δ ∂
ˆ ρˆ ) + 2 var(
(0.8)1+
ρ
− 0.2
y por lo tanto,
∂g −1 = 2 (0.8)1+ ρ ∂δ δ
∂g 1 − δ = ln(0.8)(0.8)1+ ρ ∂ρ δ
Supongamos que obtuvimos estimaciones de los parámetros estructurales de la función de Utilidad (p.ej a través de las estimaciones de las funciones de demanda de ocio y consumo) y que resultaron en las siguientes estimadores, varianzas y covarianzas: Parámetro Estimación Varianza Cov (d, ?) delta 0.34 0.018 -0.248 ro 3.01 5.398
5
Por lo que computando las derivadas en los valores estimados: ∂g = −3.61 ∂δ
∂g = −0.18 ∂δ
y ahora si sustituimos en la fórmula de la varianza de g: 2 2 ˆ ˆ g (δ , ρˆ )] = ( −3.61) (0.018) + ( −0.18 ) 5.398 + 2 ( −3.61)( −0 var[
= 0.094 y por lo tanto: es ( g (δˆ , ρˆ )) =
0.094
= 0.307
1 − δˆ ˆ ˆ g (δ , ρˆ ) = (0.8)1+ ρ δˆ
y
− 0.2 = 0.605
Nuestro estadístico es entonces: t =
g (δˆ, ρˆ ) es ( g (δˆ, ρˆ ))
=
0.605 0.307
= 1.973
Este valor es un poco mayor que el valor crítico de la normal Z =1.96 y un poco menor que el valor crítico al 5% de la t de Student de 2.056. Es un caso “borderline”, en el caso de la normal rechazaríamos la hipótesis nula. Notemos que este test no lineal es válido solamente en muestras 6
grandes, por lo que deberíamos usar los valores críticos de la normal Z: Pero algunos investigadores usan t, ya que en muestras chicas podría ser una mejor aproximación (no probado usualmente). Por supuesto, que en muestras grandes ambos tests son equivalentes ya que t tiende a Z. Resultado General En el caso de 1 sola restricción y k parámetros tenemos un test normal o t también. Sea θ = (θ1 ,θ 2 ,...θ k ) y la matriz de varianzas y covarianzas del estimador de ?, V Queremos testear : H = g (θ ) = 0 . Definimos el vector de derivadas parciales: θˆ
0
∂g ∂g ∂g , ,... ∂θ1 ∂θ 2 ∂θ k
q=
Por ende una aproximación en muestras grandes de la varianza de g (θ ) es: ˆ g (θˆ)) = q 'Vθˆ q var(
y el test estadístico que sigue una distribución N(0,1) asintóticamente es: −1 g (θˆ) '( q 'Vθˆ q ) g (θˆ)
7
(comprobar para el caso k=2 que se cumple) Con más de una restricción Z o t ya no se pueden usar, en lugar usamos o un test χ o F − donde J es el número de restricciones. El estadístico que se describe a continuación es el χ , que es el que sugiere la teoría asintótica, si uno quiere en cambio el correspondiente valor del F, F = χ J 2 ( j)
( j, T k)
2 ( j )
2 ( j )
Por ejemplo, si queremos testear dos restricciones: 1− δ
H 0
=
H1
= H 0
δ
+ρ
(0.8)1
= 0.2
y η
=1
es falsa
En este caso definimos: g1 (θ ) =
1− δ
δ
(0.8)1+ ρ
− 0.2
g 2 (θ ) = η − 1
y
g1 (θ ) g2 (θ )
g (θ ) =
y
H 0 : g (θ ) = 0
La matriz de varianzas y covarianzas de g (θˆ)
es (Q 'VθˆQ) −1 donde
8
∂q1 ∂θ 1 ∂q1 Q = (q1 , q2 ) = ∂θ 2 L ∂q 1 ∂θ k
∂q2 ∂θ1 ∂q2 ∂θ 2 L ∂q2 ∂θ k
Entonces el test estadístico es χ (22 )
= g (θˆ) '(Q 'VθˆQ) −1 g (θˆ)
Los ejemplos que vimos hasta ahora son casos particulares de este test estadístico tipo Wald. Si tuviéramos J restricciones deberíamos computar el test χ con las nuevas dimensiones de g y de Q por supuesto. 2 ( J )
Para recordar los test estadísticos de Wald para diferentes números de restricciones, parámetros y linealidad o no en parámetros: Número de Modelo restricciones lineal con errores iid
9
Modelo no lineal o hipótesis no lineal o errores no
J=1 J=1 Cuando J=1
t(T-k) F(J,T-k) F(1,T-k) = t2(T-
normales iid Z χ (2 J ) 2 = Z 2 χ (1)
k)
3. Cómputo de los Errores Standard de los Efectos Marginales en el modelo PROBIT En el caso general recordemos que los efectos marginales eran:
∂ E( y / x) ∂ F( β ' x) ∂ (β ' x) = = f ( β ' x) β ∂ x ∂ ( β ' )x ∂ x
Para simplificar la notación llamemos al estimador del efecto marginal: f( βˆ ' x) βˆ
=
ˆfβˆ = γˆ
Aplicando el método DELTA y llamando V ˆ βˆ ) , a la varianza asintótica de βˆ , V = var( tenemos que la varianza (asintótica) de los efectos marginales es:
10
'
γˆ γ ˆ ∂ ∂ Var (γ ˆ ) = V ˆ ˆ ∂β ∂β
Notemos que en la notación del delta method habíamos llamado Q a la matriz de derivadas parciales de los efectos marginales. Podemos ser más explícitos en la definición de nuestro estimador de la varianza notando que:
∂γˆ ∂ ˆ βˆf ˆ ∂βˆ ˆ ∂ ˆ f ∂( βˆ ' ˆ = ˆ = f ˆ + β ˆ ∂β ∂( β ' x) ∂βˆ ∂β ∂β ˆ f ∂ = ˆ + fI ˆ βˆ ' x ∂( β ' x)
)x
y reemplazando en la varianza asintótica de los efectos marginales obtenemos: '
∂γˆ ∂γ ˆ Var (γ ˆ ) = V ˆ ˆ ∂β ∂β '
ˆ ˆ f f ∂ ∂ = ˆ fI+ ˆ βˆ ' x V ˆ fI+ ˆ βˆ ' x ∂( β ' x) ∂ ( β ' x)
Esta ecuación todavía no nos dice mucho. Es más interesante mirar a como es este 11
estimador para diferentes especificaciones de F. (1) MPL. Recordemos que F = β ' x, f = 1, y f ´= 0
⇒
V ( fˆ βˆ ) = V
(2)
= V ( β ˆ )
PROBIT. Aquí F = Φ, f = φ , y f ´= − β ´xφ
⇒
(
V ( fˆ βˆ ) = φˆI
= φˆ
2
) (
ˆ ˆ ' x V φˆ I − βˆ ' xφβ
ˆˆ'x − βˆ ' xφβ
)
'
( I − ( βˆ ' x)( βˆ ' x) ) V ( I − ( βˆ ' x)( βˆ ' x))
'
(3) LOGIT. Aquí F = Λ, f = Λ(1− Λ ), y f ´= Λ (1− Λ ) [1− 2Λ ]
⇒ ˆ (1 − Λ ˆ ) V ( fˆ βˆ ) = Λ
2
ˆ )βˆ ' x )V ( I + (1 − 2 Λ ˆ )βˆ ' x ) I + (1 − 2 Λ (
12