UCEMA Econometría Aplicada Variables Variables Instrumentales Motivación
Muchos modelos económicos implican endogeneidad: esto es una relación teórica que no encaja exactamente dentro del esquema de regresión de Y contra X, en el cual suponemos que la variable variable Y es determinada (pero no de manera manera conjunta) con X. n e!ecto, los conceptos simples de demanda " o!erta en micro o la !unción consumo #e"nesiana en macro son relaciones de este tipo donde al menos una de las variables explicativas es endógena o determinada conjuntamente con la variable dependiente. $esde un punto de vista matem%tico las di!icultades que esta endogeneidad causa para el an%lisis econom&trico son similares a las que se generan en el contexto de variables omitidas o errores en las variables o errores de medida en las variables X. n estos casos M' no genera estimadores consistentes consistentes de los par%metros de inter&s. rataremos rataremos una solución general al problema de regresores endógenos que tambi&n puede ser convenientemente convenientemente aplicada aplicada en otros contextos contextos como el de variables omitidas omitidas (o errores de medida). l concepto general es el de estimador de variables instrumentales (*+). na !orma bastante -popular -popular de este estimador estimador habitualmente utili/ada utili/ada en el contexto contexto de endogeneidad endogeneidad es conocida como m0nimos cuadrados en dos etapas (121). 3ara motivar el problema, consideremos el caso de variables omitidas: por ejemplo el caso de una ecuación de salarios que correctamente especi!icada ser0a:
sta ecuación no puede ser estimada porque la habilidad (abil) no es observada. 1i tuvi&ramos una 3rox" disponible para esta variable podr0amos sustituirla por abil " entonces la calidad de esta ecuación depender% de la medida en que tengamos una buena 3rox". 3rox". 1i simplemente ignoramos abil, entones pasar% a !ormar parte del t&rmino de error en la especi!icación: especi!icación:
1i abil " educ est%n correlacionadas M' genera estimadores sesgados sesgados e inconsistentes. 3ara estimar de manera consistente esta ecuación necesitamos una variable instrumental: una nueva variable que satis!aga ciertas propiedades particulares. 1upongamos que tenemos una variable / que no est% correlacionada con u pero que si est% correlacionada con educ. na variable que satis!ace estas dos condiciones es una variable instrumental par educ. 3odemos sinteti/ar los requisitos en : 4. / no est% correlacionada con u: 'ov (/, u)56
4
sto se resume diciendo que / es exógena en la ecuación " se denomina
“exogeneidad
del instrumento”.
n un contexto de variables omitidas esto signi!ica que / no debe tener ning7n e!ecto parcial sobre " (despu&s de que x " las variables omitidas se han controlado) " / no debe estar correlacionada con las variables omitidas. 8. 'ov (/,x) 9 6 . sto implica que / debe estar relacionada positiva o negativamente con la variable endógena x. sta condición se conoce como “relevancia del instrumento”
o es posible testear a priori el primer supuesto dado que no observamos u, pero podemos testear el 7ltimo supuesto (la correlación de / con educ) simplemente haciendo la regresión de la variable incluida sobre el instrumento. n esta regresión podemos !%cilmente testear la ;6: π456. st% claro que no ha" una elección 7nica de instrumento en este caso. s decir, muchas variables pueden cumplir con ambas condiciones de no estar correlacionadas con !actores no observables que in!luencian el salario " correlacionadas con educación. s importante notar que no estamos buscando por una 3rox" de abil: si tuvi&ramos una 3rox" esta no ser0a una buena *+, dado que la correlación con abil implicar% correlación con el proceso estoc%stico de error u.
$onde hacemos uso del hecho de que la covariancia con una constante es cero. $ado que por supuesto el instrumento no debe estar correlacionado con el t&rmino de error, u, el 7ltimo t&rmino tiene esperan/a cero " entones podemos resolver esta ecuación para obtener un estimador de β4.
ste estimador tiene un caso especial cuando x5/, esto es cuando la variable explicativa puede servir como su propio instrumento. 2o cual es correcto si : 'ov(x= u) 5 6.
8
n este caso particular el estimador puede ser interpretado como el estimador M'. ntonces M' es un caso particular de *+, que !unciona cuando el supuesto de exogeneidad de las x puede ser sostenido. 3odemos notar tambi&n que el estimador *+ es consistente en la medida en que los dos supuestos sobre las propiedades del instrumento se satis!agan. s decir plim(b4)5 β4. 1i alguno de los supuestos !alla , los estimadores *+ no ser%n consistentes. s importante notar que el estimador *+ no es un estimador insesgado. sto implica que en muestras peque>as el sesgo puede ser importante, lo que hace pre!erir muestras grandes cuando se utili/a esta t&cnica. Inferencia con el estimador IV
3ara reali/ar in!erencia suponemos que el error es homosced%stico: en este caso, condicional a la variable instrumental /, no a la incluida x. (u8?/) 5 σ8 5 +ar(u) 'on este supuesto adicional es posible derivar la variancia asintótica del estimador *+:
+ar(b4) 5 σ8 @ nσ2x ρ8x,/ $onde n es el tama>o de la muestra, σ8x es la varian/a poblacional de x. ρ8x,/ es el cuadrado de la correlación poblacional entre x " / (el A 8). 'omo en el estimador M' la varian/a asintótica del estimador +* disminu"e con el tama>o de la muestra (a la tasa 4@n). 1e observa que a medida que la correlación entre x " / aumenta, la varian/a disminu"e. ntonces un estimador *+ generad por un -mejor instrumento ser% m%s preciso (condicional a la correlación cero con u). ote tambi&n que esta varian/a debe exceder la del estimador M', dado que 6 Bρ8x,/ B4. n el caso particular en que la variable x sirve como su propio instrumento, entonces la correlación al cuadrado es uno (M'). l estimador *+ siempre tendr% varian/a asintótica ma"or que M' pero esto simplemente re!leja el hecho de la introducción de una !uente adicional de incertidumbre a trav&s de un instrumento imper!ectamente correlacionado con la variable x. Qué pasa si usamos IV con un instrumento débil o pobre?
na correlación d&bil entre x " / aumentar% el sesgo del estimador. 1i ha" alguna correlación entre / " u, entonces una correlación d&bil implicar% estimadores *+ inconsistentes. Cunque no podemos observar la correlación entre / " u, podemos emp0ricamente evaluar la correlación entre las variables explicativas " su instrumento, " esto siempre debe hacerse. $ebe notarse tambi&n que una medida del A8 en el contexto de *+ no es -el porcentaje de la variación explicada como en M'. n presencia de correlación entre x " u no es D
posible descomponer la varian/a de " en dos partes independientes (11 " 11A) " el A8 no tiene una interpretación natural. jemplo: Aendimiento de la educación en mujeres casadas utili/ando el archivo Mro/. stimamos una ecuación de salario en !unción de educación reg lw we if ww>0 Source | SS df MS -------------+-----------------------------Model | 2#%241$% 1 2#%241$% 'esidul | 1$)#001022 42 #4244%)1% -------------+-----------------------------o.l | 22%#%2)441 42) #"2%01"084
Number of obs F( 1, 42! &rob > F '-s*ured d '-s*ured 'oo. MS/
= = = = = =
428 "#$% 0#0000 0#11)$ 0#11"8 #800%
-----------------------------------------------------------------------------lw | oef# S.d# /rr# . &>|.| $" o3f# 3.er5l6 -------------+---------------------------------------------------------------we | #10848) #014%$$8 )#"" 0#000 #080%4"1 #1%$"2% 7co3s | -#18"1$8 #18"22"$ -1#00 0#%18 -#"4$2)% #1)88)% ------------------------------------------------------------------------------
3odemos pensar que la educación es una variable endógena. n instrumento puede ser la educación del padre. 3ara ello debe estar correlacionada con educación " no correlacionada con el t&rmino de error u. ;acemos la regresión de educación contra educación del padre regress Ee E!ed i! EEF6 Source | SS df MS -------------+-----------------------------Model | %84#841$8% 1 %84#841$8% 'esidul | 184"#%"428 42 4#%%181)" -------------+-----------------------------o.l | 22%0#1$2 42) "#222$420
Number of obs F( 1, 42! &rob > F '-s*ured d '-s*ured 'oo. MS/
= = = = = =
428 88#84 0#0000 0#1)2 0#1)0 2#081%
-----------------------------------------------------------------------------we | oef# S.d# /rr# . &>|.| $" o3f# 3.er5l6 -------------+---------------------------------------------------------------wfed | #2$441 #028"8% $#4% 0#000 #21%2"%8 #%2"2$" 7co3s | 10#2%)0" #2)"$%% %)#10 0#000 $#$48" 10#))$42
C partir de esta regresión podemos ver la relevancia de E!ed como instrumento. 2uego podemos estimar por *+: ivreg l !e"fed# if $%& first
(la opción !irst permite ver el primer 21 entre la variable endógena " el instrumento) Firs.-s.ge regressio3s ----------------------Source | SS df MS -------------+-----------------------------Model | %84#841$8% 1 %84#841$8% 'esidul | 184"#%"428 42 4#%%181)" -------------+------------------------------
Number of obs F( 1, 42! &rob > F '-s*ured d '-s*ured
= = = = =
428 88#84 0#0000 0#1)2 0#1)0
G
o.l |
22%0#1$2
42)
"#222$420
'oo. MS/
=
2#081%
-----------------------------------------------------------------------------we | oef# S.d# /rr# . &>|.| $" o3f# 3.er5l6 -------------+---------------------------------------------------------------wfed | #2$441 #028"8% $#4% 0#000 #21%2"%8 #%2"2$" 7co3s | 10#2%)0" #2)"$%% %)#10 0#000 $#$48" 10#))$42 ------------------------------------------------------------------------------
Instrumental variables (2SLS) regression Source | SS df MS ------------------------------------------Model | 2&%8$'$&$ " 2&%8$'$&$ ,esidual | 2&2%4$&&8 42$ %4'284&4 ------------------------------------------1otal | 22%2'44" 42' %2&"&84
Number of obs !( "# 42$) rob * ! ,-s.uared /d0 ,-s.uared ,oot MS
= = = = = =
428 2%84 &%&+2+ &%&+4 &%&+" %$8++
-----------------------------------------------------------------------------l3 | oef% Std% rr% t *|t| 5+6 onf% Interval7 ----------------------------------------------------------------------------3e | %&+"' %&"4"8 "%$8 &%&+ -%&&+8++4 %"2824$ cons | %44""&4 %44$"&"8 &%++ &%2 -%4'"2 "%"'+8 -----------------------------------------------------------------------------Instrumented9 3e Instruments9 3fed ------------------------------------------------------------------------------
Chora vemos que los rendimientos a la educación son aproximadamente la mitad de los estimados por M'. Estimación de IV en el modelo de regresión m'ltiple
Aevisión del problema de omisión de variable 1abemos que la omisión de una variable explicativa relevante en general provoca un sesgo tanto en la estimación de los coe!icientes como en la de la varian/a del t&rmino de perturbación. n consecuencia, los procedimientos de contrastación de hipótesis proporcionan in!erencias erróneas. 1upongamos que el modelo correcto es:
1in embargo se estima
l estimador M' de este modelo es βM' 5 (xH x)I4 xH". 1i ahora sustituimos el vector " por la expresión correspondiente al modelo correcto:
J
3ara calcular el sesgo de este estimador debemos obtener la esperan/a de la anterior expresión:
1i el estimador !uera insesgado debe cumplirse que:
2a segunda de las esperan/as que componen la anterior expresión ser0a nula si las variables incluidas !ueran exógenas, (xH ε) 5 6. 2a primera, por el contrario, no lo ser% a menos que las variables incluidas (x) " excluidas (/) sean ortogonales, (xH/) 5 6, un supuesto que, como sabemos de la discusión del problema de multicolinealidad, es poco probable en conom0a. 1i no se cumple, el estimador M' estar% sesgado. Clgo parecido ocurre con la estimación de la varian/a del t&rmino de perturbación. 1i denotamos con la letra v los errores muestrales del modelo propuesto una estimación de la varian/a es:
Y su esperan/a es:
l numerador del segundo t&rmino es el aumento en la suma de los cuadrados de los residuos provocado al eliminar la variable relevante. 1e trata, por lo tanto, de un valor positivo, lo que supone que la estimación del t&rmino de perturbación est% sesgada -hacia arriba. El problema de la Endogeneidad
n conometr0a se aplica a cualquier situación en la que una variable explicativa est% correlacionada con el t&rmino de error.
K
2a aparición de endogeneidad en nuestros modelos puede tener tres grandes causas: heterogeneidad inobservable, errores de medida " simultaneidad. L ;eterogeneidad inobservable. sta expresión se re!iere al hecho de que los individuos de una población pueden di!erir entre ellos en caracter0sticas que no son observadas por el investigador " que, en consecuencia, son omitidas de la especi!icación del modelo. 1ea q esta caracter0stica gen&rica no observada. bviamente, siempre podr0amos estimar (" x), pero los resultados de nuestra estimación podr0an tener poco que ver con las relaciones que de!inen (" x, q). 'omo vimos un ejemplo cl%sico de heterogeneidad inobservable lo constitu"e la habilidad (no observada) de los individuos en una ecuación de salarios. n la medida en que la habilidad quede integrada en el termino de perturbación del modelo su correlación con otros !actores explicativos como la educación puede provocar la endogeneidad de estos !actores. rrores de medida. 'uando la variable observada (x) sólo es una medida imprecisa de la variable de inter&s (xN) la di!erencia entre ambas constitu"e un error de medida (eN). 1i este error esta correlacionado con la variable observada, 'ov (x, eN) 9 6, esta ser% endógena. *maginemos, por ejemplo, que la tasa marginal de impuestos es uno de los determinantes del consumo de un bien pero la in!ormación de la que disponemos se re!iere a la tasa promedio. 1i los individuos con ma"or al0cuota media est%n asociados con ma"ores errores de medida respecto al marginal, entonces la correlación entre el tipo medio " el t&rmino de perturbación del modelo no ser% nula. L 1imultaneidad. 2a determinación simultanea de la variable dependiente " alguna explicativa provoca que la correlación entre esta dependiente " el t&rmino de perturbación no sea nula. Cs0, por ejemplo, uno de los determinantes de la demanda de un bien es su precio, pero este a su ve/ viene determinado por la cantidad demandada. n consecuencia, el precio es una variable endógena. Oormalmente, qd 5 !(pP., εd) " p 5 !(qd ,P, εd) , entonces cov (p, εd) 9 6. 2os ejemplos previos muestran que en 7ltima instancia la endogeneidad no es m%s que un error de especi!icación. 1i pudi&ramos observar directamente xN, por ejemplo, no tendr0amos necesidad de abandonar el marco anal0tico que de!ine el modelo de regresión lineal para tratar los errores de medida. ambi&n, los ejemplos dan una idea de la multitud de relaciones económicas que pueden verse a!ectadas por este tipo de problemas. 2a correlación entre regresores " perturbaciones es un problema grave porque, como se mencionó al discutir la heterogeneidad inobservable, a!ecta a la interpretación del modelo de regresión como una esperan/a condicional. Aecordemos que esta interpretación del modelo de regresión como una esperan/a condicional es la que nos permite estimar efectos causales bajo el supuesto del ceteris Q
paribus. n concreto, bajo el supuesto de linealidad el vector β mide el e!ecto causal de las variables explicativas sobre la dependiente. 1in embargo, esto solo es cierto en la medida en que (xH ε) 5 6. 1i esta condición no se cumple, entonces todav0a corresponde a la esperan/a condicional de " dadas las explicativas, pero "a no puede interpretarse como un e!ecto causal porque la cl%usula del ceteris paribus en la que se sustenta esta interpretación sólo se re!iere a las variables incluidas como explicativas, mientras que para poder llevar a cabo una interpretación causal tambi&n deber0a incluir a los inobservables. Cdem%s, independientemente de cual sea la causa, la endogeneidad hace que el estimador M' sea sesgado (e inconsistente). 2a esperan/a matem%tica del estimador M' es:
ntonces la insesgade/ se deriva directamente del supuesto de independencia entre x " ε. 1i son independientes:
3ero dado que la media poblacional del t&rmino de error es cero, esto implica que el estimador es insesgado. 1in embargo, cuando alguno de los regresores es endógeno se rompe esta propiedad.
*ntuitivamente, el problema es que el estimador M' da m%s cr&dito a la variable explicativa del que le corresponder0a. 'onsideremos, por ejemplo, el caso en el que la correlación entre regresor " perturbación es positiva en un modelo de regresión lineal simple. so signi!ica que cuando la perturbación es grande (peque>a) la variable dependiente tender0a a ser ma"or (menor) ", debido a la citada correlación, tambi&n la explicativa. n consecuencia, el coe!iciente asociado tiende a sobreestimar el verdadero e!ecto de la explicativa sobre la dependiente. sta interpretación del problema sugiere un procedimiento para la obtención de estimadores consistentes en presencia de endogeneidad. 1upongamos que la variación de las variables explicativas tiene dos componentes: una R
parte que, por cualquier ra/ón, esta correlacionada con el termino de perturbación (esta es la causa de nuestros problemas) " otra parte que no lo esta. 1i pudi&ramos aislar esta parte no correlacionada podr0amos concentrarnos en ella para obtener nuestros estimadores, desechando al mismo tiempo la parte correlacionada que provoca el sesgo del estimador M'. 2a cuestión entonces es como aislar la parte que nos interesa de la variación de las x. l denominado estimador de variables instrumentales utili/a variables adicionales ajenas al modelo original (-los instrumentos) para llevar a cabo este proceso de separación de los componentes correlacionados " no correlacionados de las variables explicativas. stos instrumentos o variables instrumentales, denotados con la letra /, deben cumplir dos condiciones !undamentales: L Aelevancia: 'ov (/, x) 9 6. L xogeneidad: 'ov (/, ε) 5 6. bs&rvese que si un instrumento es relevante su variación estar0a relacionada con la variación de la explicativa. 3ero si adem%s es exógeno entonces la parte de variación de la explicativa que captura el instrumento sólo corresponder0a a aquella que es exógena, es decir, a aquella que no esta correlacionada con el termino de perturbación. rasladar estas propiedades al contexto de la estimación de los coe!icientes del modelo de regresión supone de!inir un estimador de variables instrumentales en dos etapas. n la primera etapa descompondremos la variable endógena que act7a como explicativa en los componentes correlacionados " no correlacionados. 3ara ello empleamos una regresión entre la variable " el vector de instrumentos: (")
* v+
sta expresión de!ine la ecuación en !orma reducida de la variable x, siendo ) el componente de x no correlacionado con el termino de perturbación (variación de la variable x explicada por el vector de instrumentos) " v el componente correlacionado (variación no explicada). n la segunda etapa del procedimiento de estimación explotaremos el componente de x no correlacionado con el termino de perturbación ( ) ) " desecharemos el componente correlacionado (v). n concreto, lo que utili/aremos ser% la predicción de la variable endógena explicativa (en lugar de la variable original) obtenida a partir de las estimaciones M' de los coe!icientes de la ecuación en !orma reducida (en principio, desconocidos). ntonces la segunda etapa del procedimiento de estimación consiste en estimar:
S
$onde hemos sustituido las variables explicativas endógenas por las predicciones de las mismas obtenidas a partir de la estimación M' reali/ada en la primera etapa, l estimador resultante se conoce como el stimador de M0nimos 'uadrados en $os tapas (M'8) " la generali/ación del procedimiento descrito es sencilla. 1ea la regresión de inter&s:
en la que tenemos # variables explicativas endógenas " A variables explicativas exógenas. s decir, x 5T xU,wr V. 3ara estimar consistentemente los # W A coe!icientes del modelo procedemos de la siguiente !orma. n la primera etapa estimaremos por M' las ecuaciones en !orma reducida de las variables explicativas endógenas,
Y obtenemos las correspondientes predicciones
n la segunda etapa del procedimiento estimamos la siguiente regresión por M'
bserve que el vector de instrumentos inclu"e las M variables instrumentales " las A variables explicativas exógenas, / 5T/ m,ErV. ;a" dos motivos para que esto sea as0. l primero es de 0ndole pr%ctica. sta manera de proceder nos permite de!inir nuestro estimador de variables instrumentales como:
gracias a que cada variable (columna) de x que apare/ca en el vector de instrumentos ser% per!ectamente replicada en la estimación de su !orma reducida. 46
Oormalmente
2a segunda ra/ón es m%s !ormal desde el punto de vista estad0stico. l estimador +* as0 obtenido es el mas e!iciente, en el sentido de que su matri/ de varian/as " co varian/as (asintótica) siempre ser% menor que la de cualquier otra combinación de variables (inclu"endo por lo tanto aquella que sólo utili/a las /s) empleada para construir el vector de instrumentos. tro aspecto a tener en cuenta es que el numero de instrumentos, M, debe ser ma"or o igual que el numero de variables explicativas endógenas, #. 1e dice entonces que los coe!icientes del modelo est%n, respectivamente, sobreidentificados !M $ ,# o e(actamente identificados !M " ,#. n caso contrario los coe!icientes no est%n identi!icados: si # M entonces la matri/ )-( no es invertible " por lo tanto el estimador no se puede calcular. *+ " 121 3ara derivar el c%lculo del estimador *+ a partir de : " 5 xβ + ε $e!inimos la matri/ de instrumentos / de la misma dimensión que x. /H" 5 /Hx β W /Hε l supuesto de que / no est% relacionada con el error implica que 4@(/Hu) se aproxima a cero en probabilidad a medida que aumenta. ntonces podemos de!inir el estimador β*+
/H" 5 /Hx β*+ β*+ 5 (/Hx)I4 /H"
3ara de!inir el estimador 121 (M' en dos etapas) consideramos el caso en el cual tenemos un regresor endógeno " m%s de un potencial instrumento. 121 combina m7ltiples instrumentos en un solo instrumento óptimo el cual puede ser utili/ado en el estimador *+ simple 121 no es m%s que el estimador *+ con una regla de decisión que reduce el n7mero de instrumentos al n7mero exacto de instrumentos necesarios para estimar la ecuación de inter&s " completar la matri/ /. $e!inamos la matri/ de instrumentos / de dimensión n x l , para l ≥ k.
44
ntonces la primera etapa de!ine los instrumentos como:
48
∧
x
=
z ( z H z )
4
−
z H x
$enotamos la matri/ pro"ección /(/H/)I4 /H 5 3/. ntonces ∧
β TSLS
∧
=
∧
( xH x)
∧
4
−
xH y
5 ZxH/ (/H/)I4/Hx[I4 ZxH/ (/H/)I4/H"[ 5 (xH3/x)I4 xH3/ " $onde el estimador 121 puede ser calculado utili/ando los datos de X, \ e ". 'uando l=k el estimador 121 se reduce a *+. 1e puede demostrar que este estimador de *+ es consistente " normalmente distribuido, por lo que todos los procedimientos de in!erencia descritos para el estimador M' son per!ectamente validos. o obstante, estas propiedades dependen en buena medida de que los instrumentos sean e!ectivamente relevantes " exógenos. 2a relevancia de los instrumentos juega un papel an%logo al del tama>o muestral en M': cuanto mas relevante es el vector de instrumentos, ma"or es la precisión del estimador. n particular, la distribución ormal del estimador M'8 depende directamente de la relevancia de los instrumentos. 3or lo tanto, el empleo de instrumentos que expliquen poco la variabilidad de las variables explicativas endógenas (instrumentos -d&biles) puede a!ectar gravemente a la in!erencia (e incluso a la consistencia del estimador, en casos extremos). 3ara el caso particular en el que sólo tenemos una variable explicativa endógena se puede demostrar que el estad0stico de la O de signi!icación conjunta del modelo proporciona una buena medida de la relevancia de los instrumentos. 1i el estad0stico proporciona valores superiores a 46 podemos con!iar en que nuestros instrumentos son su!icientemente relevantes= en caso contrario deber0amos interpretar nuestros contrastes de signi!icación individual con cuidado. 3or su parte, la no exogeneidad de los regresores tiene un impacto directo sobre la consistencia del estimador M'8. 1i los instrumentos no son exógenos, entonces el estimador empleado "a no ser% consistente. ste es un resultado intuitivamente lógico, puesto que la motivación para el uso de un estimador de variables instrumentales era precisamente el tratar de capturar parte de la variabilidad exógena de las x. o obstante, cuando los coe!icientes est%n exactamente identi!icados resulta imposible construir un test para contrastar la hipótesis de exogeneidad. n cambio, si disponemos de mas instrumentos que regresores entonces podemos emplear un -contraste de restricciones sobreidenti!icadoras. 4D
*maginemos un modelo en el que sólo disponemos de una variable explicativa endógena " dos instrumentos (en otras palabras, no ha" variables explicativas exógenas en nuestro modelo). sto nos permitir0a obtener dos estimadores M'8, uno para cada instrumento. (3recisamente esto explica por que no es posible emplear este contraste cuando los coe!icientes est%n exactamente identi!icados: simplemente no es posible comparar di!erentes estimadores basados en instrumentos alternativos). 1i ambos instrumentos !ueran exógenos, entonces ambos estimadores tender0an a ser mu" parecidos. 3or el contrario, si !ueran mu" di!erentes lo interpretar0amos como una evidencia de que alguno de ellos o ambos no son exógenos, aunque no podr0amos determinar cual. n realidad, el contraste se constru"e impl0citamente sobre esta idea. n la pr%ctica lo que explota es el hecho de que si los instrumentos son exógenos entonces ser0an independientes de ε, por lo que si constru"o una regresión auxiliar entre los errores de la estimación M'8 " los instrumentos " variables exógenas explicativas los coe!icientes asociados a los instrumentos no deber0an ser conjuntamente estad0sticamente signi!icativos. ntonces si los errores de la estimación 121 son:
2a regresión auxiliar a estimar es:
1ea O/ el valor del correspondiente estad0stico de ]ald para el contraste del conjunto de restricciones lineales dado por δ0 = δ1= ... δΜ 56. ^ajo la hipótesis nula de que todos los instrumentos son exógenos (" asumiendo que los instrumentos no son d&biles " los errores homoscedasticos) el estad0stico _ 5 M x O/ 1e distribu"e como una 'hi cuadrado con M ` # grados de libertad. 1i recha/amos esta hipótesis podemos tener dudas acerca de la adecuación del conjunto de instrumentos. no o m%s de los instrumentos podr0a estar no tener correlación cero con el error. ste test conocido como de 1argan o ^asmann est% disponible en 1tata bajo el comando overid (ha" que instalarlo como un adicional). Identificación de la Endogeneidad
3odemos preguntarnos acerca de la endogeneidad de una variable. 'ómo detectarla s posible emplear un estad0stico de ]ald del tipo:
4G
dH.Zvar(d)[I4.d χ8 donde d 5 β*+ I βM' var(d) 5 var(β*+) ` var(βM') ^ajo la hipótesis nula de exogeneidad de los regresores el estad0stico ; 5 (β*+ I βM')H Z var(β*+) ` var(βM')[I4(β*+ I βM') 1e distribu"e como una chi cuadrado con #WA grados de libertad ste test se conoce como test de ;ausman de exogeneidad. o obstante, esta !orma del -test de ;ausman en ocasiones no puede ser calculada: bien porque la matri/ de varian/as " covarian/as no puede ser invertida de !orma convencional o bien porque la di!erencia d resulta ser negativa. na !orma alternativa del test utili/a la siguiente regresión -aumentada:
$onde v es la matri/ de dimensiHon # con los residuos M' de las regresiones de las !ormas reducidas de cada variable explicativa endógena, k
n este caso un simple contraste tipo O de signi!icación conjunta de estas variables es su!iciente para determinar la exogeneidad de las variables explicativas de nuestro modelo. l test de ;ausman puede ser reali/ado en 1tata estimando primero por ivreg. 2uego se invoca el comando estimates store iv (iv es el nombre donde van a guardarse los coe! estimados) 2uego se corre M' con el comando regress l test: hausman iv ., constant sigmamore E.emplo con rendimiento de educación
stimamos salario en !uncion de experiencia, experiencia al cuadrado " educación. ducación se instrumenta con educación de padre " madre. (ejemplo 4J.G6 ]ooldridge) use 9:;eco3ome.ri;/co3ome.ri
4J
(%2" missi3g 5lues ge3er.ed! ge3 s*= ? i5reg lw s* (we=wfed wmed! if ww>0, firs. Firs.-s.ge regressio3s ----------------------Source | SS df MS -------------+-----------------------------Model | 4)1#20$$8 4 11)#$0"2" 'esidul | 1)"8#")"2 42% 4#1")%88%% -------------+-----------------------------o.l | 22%0#1$2 42) "#222$420
Number of obs F( 4, 42%! &rob > F '-s*ured d '-s*ured 'oo. MS/
= = = = = =
428 28#% 0#0000 0#211" 0#2040 2#0%$
-----------------------------------------------------------------------------we | oef# S.d# /rr# . &>|.| $" o3f# 3.er5l6 -------------+--------------------------------------------------------------- | #04"22"4 #0402"0) 1#12 0#22 -#0%%8$0$ #124%41) s* | -#00100$1 #00120%% -0#84 0#402 -#00%%)44 #001%"2 wfed | #18$"484 #0%%)"" "#2 0#000 #12%1$)1 #2""8$$) wmed | #1")"$) #0%"8$41 4#%$ 0#000 #08)044 #2281"01 7co3s | $#1024 #42"14 21#%4 0#000 8#241$ $#$41084 ------------------------------------------------------------------------------
3s.rume3.l 5ribles (2S@S! regressio3 Source | SS df MS -------------+-----------------------------Model | %0#%0)42" % 10#1024)"2 'esidul | 1$%#02001" 424 #4""2%"88" -------------+-----------------------------o.l | 22%#%2)441 42) #"2%01"084
Number of obs F( %, 424! &rob > F '-s*ured d '-s*ured 'oo. MS/
= = = = = =
428 8#14 0#0000 0#1%") 0#12$ #)4)1
-----------------------------------------------------------------------------lw | oef# S.d# /rr# . &>|.| $" o3f# 3.er5l6 -------------+---------------------------------------------------------------we | #01%$ #0%14%) 1#$" 0#0"1 -#000%$4" #12%18)8 | #0441)04 #01%4%2" %#2$ 0#001 #01)))$ #0)0")2$ s* | -#0008$$ #000401) -2#24 0#02 -#00188" -#00010$4 7co3s | #048100% #400%281 0#12 0#$04 -#)%8))44 #8%4$)" -----------------------------------------------------------------------------3s.rume3.ed: we 3s.rume3.s: s* wfed wmed -----------------------------------------------------------------------------es.im.es s.ore i5 # reg lw s* we if ww>0 Source | SS df MS -------------+-----------------------------Model | %"#0222$) % 11#)40$8$ 'esidul | 188#%0"144 424 #44411"$0 -------------+-----------------------------o.l | 22%#%2)441 42) #"2%01"084
Number of obs F( %, 424! &rob > F '-s*ured d '-s*ured 'oo. MS/
= = = = = =
428 2#2$ 0#0000 0#1"8 0#1"0$ #42
-----------------------------------------------------------------------------lw | oef# S.d# /rr# . &>|.| $" o3f# 3.er5l6 -------------+--------------------------------------------------------------- | #041"" #01%1)"2 %#1" 0#002 #01"$) #0)4%% s* | -#0008112 #000%$%2 -2#0 0#040 -#001"841 -#0000%82 we | #10)48$ #01414" )#0 0#000 #0)$8%) #1%"2$" 7co3s | -#"22040 #1$8%21 -2#% 0#00$ -#$124) -#1%1144 ------------------------------------------------------------------------------
Ausm3 i5 # , co3s.3. sigmmore
4K
No.e: .Ae r3B of .Ae differe3ced 3umber of coefficie3.s bei3g .es.ed (4!C be sure
5ri3ce m.ri (1! does 3o. e*ul .Ae .Ais is wA. Dou e
---- oefficie3.s ---| (b! (E! (b-E! s*r.(dig(7b-7E!! | i5 # Giffere3ce S#/# -------------+---------------------------------------------------------------we | #01%$ #10)48$ -#040$% #02)40 | #0441)04 #041"" #0020%$ #001"1" s* | -#0008$$ -#0008112 -#00008)8 #0000"2 7co3s | #048100% -#"22040 #")0140$ #%418$4 -----------------------------------------------------------------------------b = co3sis.e3. u3der 9o 3d 9C ob.i3ed from i5reg E = i3co3sis.e3. u3der 9, efficie3. u3der 9oC ob.i3ed from regress es.:
9o:
differe3ce i3 coefficie3.s 3o. sDs.em.ic cAi2(1! = (b-E!H(7b-7E!I(-1!6(b-E! = 2#)8 &rob>cAi2 = 0#0$"4 (7b-7E is 3o.
l test muestra evidencia a !avor de la endogeneidad de educación.
4Q