Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Notas de clase preparadas para el curso de Econometría II. Prohibida su reproducción parcial o total del documento sin autorización expresa del autor.
Econometría Aplicada con Stata Modelos de Elección Discreta Edson Apaza Mamani UNIVERSIDAD NACIONAL DEL ALTIPLANO INGENIERÍA ECONÓMICA
Abril de 2017
pág. 0
pág. 1
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Contenido REGRESIÓN CON VARIABLES DEPENDIENTES E INDEPENDIENTES DISCRETAS ................................. 5 1.
Modelo de regresión con variables discretas en las variables independientes. ................. 5 1.1.
Prof. Edson Apaza Mamani
[email protected]
7.1.
Introducción ............................................................................................................. 42
7.2.
Modelos TRUNCADOS .............................................................................................. 42
7.3.
Modelos CENSURADOS ............................................................................................ 46
MODELOS DE HECKMAN DE AUTOSELECCION .............................................................................. 50 8.
Modelos Selección ........................................................................................................... 50 vi)
Aplicación del Modelo Lineal General 1 ..................................................................... 8
Aplicación................................................................................................................. 56
Referencias .......................................................................................................................... 10
Referencias: ......................................................................................................................... 57
REGRESIÓN CON VARIABLES DEPENDIENTES E INDEPENDIENTES DISCRETAS (2) .......................... 11
MODELOS DE ELECCIÓN MULTIPLE .............................................................................................. 59
2.
Modelo Lineal General 2 .................................................................................................. 11
3.
Estrategia de Identificación ............................................................................................. 12 i)
Causalidad y Correlación .............................................................................................. 12
9.
Modelos de elección múltiple .......................................................................................... 59 v) 9.2.
Aplicaciones ................................................................................................................. 61 Logit Condicional ...................................................................................................... 63
Aplicación: Ecuación de Mincer 3 (Impacto)............................................................. 14
Referencias .......................................................................................................................... 67
REGRESIÓN CON VARIABLES DEPENDIENTES DISCRETAS .............................................................. 15
MODELOS DE ELECCIÓN MULTIPLE .............................................................................................. 68
iii)
4.
Modelos de regresión con variables discretas en la variable dependiente ...................... 15 4.1.
Modelos de Elección Discreta................................................................................... 16
4.2.
Modelo de Probabilidad Lineal (MPL) ...................................................................... 16
4.3.
Modelo Probabilístico .............................................................................................. 17
4.4.
Modelo Logístico ...................................................................................................... 18
4.5.
Modelo de doble complementariedad logarítmica .................................................. 20
4.6.
Medidas de bondad de ajuste (fitstat) ..................................................................... 21
9.3.
Logit Multinomial ......................................................................................................... 68
References ........................................................................................................................... 71
Referencias .......................................................................................................................... 26 AUTOSELECCION .......................................................................................................................... 31 5.
Modelo de Autoselección ................................................................................................ 31 i)
Modelo de Heckman .................................................................................................... 31
Referencias .......................................................................................................................... 35 CAMBIO DE REGRESIÓN: SWITCHING REGRESSION ...................................................................... 36 6.
Modelo de Switching Regression ..................................................................................... 36
SWITCHING REGRESSION: APLICACIÓN .................................................................................... 38 Referencias .......................................................................................................................... 41 MODELOS TRUNCADOS Y CENSURADOS ...................................................................................... 42 7.
Modelos censurados y truncados .................................................................................... 42
pág. 2
pág. 3
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
ECONOMETRÍA APLICADA Prof. Edson Apaza Mamani REGRESIÓN CON VARIABLES DEPENDIENTES E INDEPENDIENTES DISCRETAS 1. Modelo de regresión con variables discretas en las variables independientes. La especificación habitual de los modelos lineales, incluyen una variable dependiente y varias variables explicativas. Así por ejemplo: =
+
+
+
+
Esta representación teórica puede ser utilizado en un contexto empírico, donde es posible establecer la siguiente relación; ln( ) representa el logaritmo del ingreso, esta medido en años de educación alcanzado, mide los años de experiencia laboral y es una variable dicotómica que toma el valor de uno si es casado e igual a cero si tiene otro estado civil. La especificación para esta relación sería de la forma: ( )=
+
+
+
+
Especificación propuesto por Mincer para identificar los retornos a la educación. La estimación de los parámetros se obtienen utilizando el método de Mínimos Cuadrados Ordinarios (MCO). Dadas las características de la especificación, es posible representarlo de forma matricial como: =
i)
+
Estimación por MCO
El método de estimación para un modelo lineal es el estimador de MCO, siempre y cuando se cumplan los supuestos del modelo lineal general (MLG). Dado que el método estima los parámetros minimizando la suma de los errores al cuadrado, se obtiene el siguiente estimador: =( ′ )
′
La estimación consistente debe reflejar resultados estadísticamente significativos, relevancia y dependencia. Asimismo, debe observase la bondad de ajuste del modelo estimado, el cual se observa por el , que indica el grado de ajuste o grado de
pág. 4
pág. 5
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
variabilidad explicada por las variables explicativas incluidos en el modelo econométrico.
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
a) Consistencia
Los supuestos de los estimadores de MCO:
=
a) MCO1: Linealidad en los parámetros del modelo, = + + , y ( )=0 b) MCO2: Independencia, { , } son i.i.d. (independiente e idénticamente distribuida), esto garantiza que la muestra sea aleatoria y de una muestra comparable. c) MCO3: Exogeneidad de las variables expectativas, i. | , ~ (0, ) Asume que el término de error es independiente de las variables explicativas y que éstas están normalmente distribuidas. ii. ∀ : ⊥ , (independiente) Implica que el termino de error es independiente de las variables explicativas. iii. ( | , ) = 0, (promedio independiente) El promedio del término de error es independiente de las variables explicativas. iv. ∀ : ( , ) = 0, (no correlación) Implica que el término de error y las variables explicativas no están correlacionadas. El término de error no contiene información relacionada con las variables explicativas. d) MCO4: Identificabilidad i. ,…, son linealmente independientes y 0 < ( ) < ∞ ∀ . Es decir que la matriz de información de las variables explicativas es de rango completo, esto garantiza que los regresores no sean colineales perfectos entre sí: ninguna variable es una combinación lineal de las otras explicativas. e) MCO5: Estructura del error, i. Si se cumple que ( | , … , ) = , entonces la relación entre las variables explicativas y el término de error es Homocedástica. Significa que la varianza del termino de error es una constante. )= ) < ∞, entonces se ii. Si se cumple que ( | , … , = ( ,… , presenta el problema de la Heterocedasticidad condicional. Este resultado permite a la varianza del error depender de las variables explicativas.
b) Asintóticamente Distribuido Normalmente −
√
→ (0,
)
c) Aproximadamente Distribuido Normalmente ,
~ =
ii)
varianza asintótica.
Interpretación de los estimadores
La interpretación de los estimadores se realizan obteniendo: = Es decir, que ante cambios en una unidad de las variables explicativas , la variable dependiente variará en unidades, para el caso lineal, en otras especificaciones el estimador tiene una interpretación diferente. Tabla 1. Interpretación de los Cambios marginales ( |
Modelo
Lineal
Semi-logaritmico
Logaritmico
=
+
Ln( ) =
ln( ) =
+
ln(
Interpretación de los Cambios marginales Niveles
+
+
+
)
,
)+
Semielasticidad
Elasticidad
La consistencia de los estimadores requieren que se cumplan las propiedades asintóticas, esto garantizará que las estimaciones sean estadísticamente significativas. A continuación se presenta las Propiedades Asintóticas de los Estimadores de Mínimos Cuadrados Ordinarios.
pág. 6
pág. 7
Econometría Aplicada
1.1.
i)
Prof. Edson Apaza Mamani
[email protected]
Aplicación del Modelo Lineal General 1
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
El comando post-estimación predict genera dentro de la muestra fuera de la muestra las predicciones. Por ejemplo regress wage educ exper expersq if _n < 100 predict wage_hat_in if e(sample) predict wage_hat_out if !e(sample) browse wage wage_hat_in wage_hat_out
Taller Stata 1
La estimación de un modelo lineal por MCO utilizando Stata es: regress vardep [varsindep] [if] [in] [weight], [option] donde vardep es la variable dependiente y varsindep es una lista de variables explicativas.
utiliza las primeras 100 observaciones para estimar el modelo de regresión lineal y estimar los valores del esto de observaciones. La estimación de cambios marginales se obtiene utilizando el comando mfx y sus respectivas opciones, de la forma:
ii)
Aplicación en Stata: Ecuación de Mincer 1
La ecuación de Mincer intenta explicar que tan importante es la escolaridad sobre el salario. ln(
)=
+
+
+
+
dydx, estima los efectos marginales por defecto eyex, estima las elasticidades en la forma de d(lny)/d(lnx) dyex, estima las elasticidades en la forma de d(y)/d(lnx) eydx, estima las elasticidades en la forma de d(lny)/d(x)
Estimación en Stata:
Un problema frecuente, del investigador, es determinar la mejor especificación del modelo empírico. A continuación vamos a determinar la especificación adecuada, para ello utilizaremos el comando stepwise con la opción prob(n.c.).
use mincer_peru.dta summarize regress wage educ exper expersq
stepwise, pr(0.2): regress wage educ exper expersq
Regresiona la ecuación de MINCER, el salario por hora en función de escolaridad y experiencia. Stata agrega automáticamente una constante. Stata reporta un estimador de MCO de covarianza robusta y consistente utilizando la opción robust. regress wage educ exper expersq, vce(robust) Se puede utilizar el comando postestimación test para estimar las pruebas de dependencia, prueba F, para una o más restricciones. Por ejemplo: test educ la prueba consiste en evaluar
:
= 0 contra
:
=0y
:
=
:
≠ 0,
test educ exper la prueba consiste en evaluar
= 0 contra
:
≠0o
≠0
test educ = exper la prueba consiste en evaluar
contra
:
≠ pág. 8
pág. 9
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Referencias
ECONOMETRÍA APLICADA Prof. Edson Apaza Mamani
Libros introductorios Stock, James H. and Mark W. Watson (2007), Introduction to Econometrics, 2nd ed., Pearson Addison-Wesley. Capítulos 4 - 9.
REGRESIÓN CON VARIABLES DEPENDIENTES E INDEPENDIENTES DISCRETAS (2)
Wooldridge, Jefrey M. (2009), Introductory Econometrics: A Modern Approach, 4th ed., South-Western Cengage Learning. Capítulos 2 - 8. Libros Avanzados
2. Modelo Lineal General 2
Cameron, A. Colin and Pravin K. Trivedi (2005), Microeconometrics:Methods and Applications, Cambridge University Press. Secciones 4.1-4.4.
La especificación inicial permite ver una relación lineal entre la variable dependiente (continua) y variables explicativas (continuas). Si a esta última relación de variables se incluyen variables binarias (dummy), de tal forma que tengamos la siguiente representación:
Wooldridge, Jefrey M. (2002), Econometric Analysis of Cross Section and Panel Data, MIT Press. Capítulos 4.1 - 4.23. Libros adicionales Angrist, Joshua D. and Jorn-Steffen Pischke (2009), Mostly Harmless Econometrics: An Empiricist's Companion, Princeton University Press. Capítulo 3.
ln(
)=
+
+
+
+
+
Donde es igual a uno si la el individuo es hombre y cero si es mujer, el uso de una variable dicotómica permite identificar la presencia o ausencia de un atributo, este tipo de variables tiene varias aplicaciones. Gráficamente podemos suponer que:
Figura Nro. 1 Representación de una variable ficticia
Note que el efecto marginal para los dos grupos (implícitamente definido por la variable dummy) es igual pero diferente en el término constante. i)
pág. 10
Prueba de hipótesis de relevancia (t) y de dependencia (F)
pág. 11
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Es importante evaluar la significancia individual y en todo el cojunto de variables explicativas, tanto pruebas de multicolinealidad y heterocedasticidad. ii)
Aplicación: Ecuación de Mincer para Perú (género) ln(
)=
+
+
+
+
+
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
probabilidades y las esperanzas condicionales— son llamados “parámetros asociativos” los cuales han sido utilizados como pieza clave en el análisis econométrico. Estos parámetros no son determinantes para establecer relaciones causales entre las variables. La presencia de variables asociadas sin mayor sentido, como en el caso de las conocidas regresiones espurias o la presencia de los llamados “confounders”, presenta una limitación importante para el análisis de inferencia causal con base en parámetros asociativos
3. Estrategia de Identificación
ii)
En los últimos veinte años, el “Enfoque Causal” o de “efectos de un tratamiento” se ha convertido en un complemento sustancial al anterior. Esto se debe a que ofrece una estrategia de identificación de los efectos causales de una política pública a partir, sobre todo, de datos adecuados para contestar a cada pregunta concreta, más que del soporte estricto de un determinado modelo económico. Este enfoque, más concentrado en los datos y menos necesitado de modelos teóricos o econométricos muy sofisticados, ha generado contribuciones notables en la evaluación de políticas tan relevantes como la formación, los subsidios a la contratación, los efectos de cambios fiscales sobre la oferta de trabajo o la inversión, etc.
De la forma functional
Así, la evaluación de políticas públicas constituye hoy un campo de indudable crecimiento, donde el interés científico se ha centrado en campos tan diversos como las finanzas públicas, las políticas de empleo y formación o las subvenciones públicas. Existen numerosos ejemplos en la literatura reciente sobre este tipo de evaluaciones. En particular, sobre el mercado de trabajo han aparecido numerosas contribuciones muy importantes para el desarrollo de esta técnica de evaluación. i)
Causalidad y Correlación
Interacciones
ln(
)=
+
+
+
+
∗
+
+
Efectos marginales para educ y exp: ∂ ln( ∂ ∂ ln( ∂
)
=
)
=
+2
+ +
La interpretación de estos efectos y de los parámetros individuales es muy específico al modelo teórico detrás de la relación. Un caso especial, la interacción con la variable dummy ln(
)=
+
+
+
+
: +
∗
+
Figura Nro. 2. Cambio en pendiente por una variable ficticia
El interés por hacer un estudio acerca de la relación causal entre las variables. Este estudio empieza con la pregunta inicial de cualquier estudio de impacto: ¿cuál es el efecto causal de una variable X sobre otra variable Y? Responderla puede ser un asunto no tan trivial ni desde el punto de vista analítico ni desde los datos. Pues para tener una idea de este efecto, deberíamos tener alguna idea sobre la existencia de una relación causal entre estas variables. La aceptación de la frase que “la correlación no implica causalidad” ha significado el límite que la estadística se ha puesto a si misma en su contribución a este análisis. Esto se debe a que tradicionalmente la estadística inferencial ha estudiado la manera como los datos “aparecen” en el mundo real. Tal interés conlleva al estudio de la distribución de probabilidad conjunta de estas variables, la cual entrega las probabilidades de ocurrencia de ellas. Luego, contando con una muestra de observaciones de estas variables y haciendo algunos supuestos simplificadores sobre la estructura de este proceso generador de datos, la estadística inferencial obtiene estimadores de los parámetros que configuran a tal proceso. Algunos de estos parámetros —como las pág. 12
pág. 13
Econometría Aplicada
iii)
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Aplicación: Ecuación de Mincer 3 (Impacto)
Prof. Edson Apaza Mamani
[email protected]
ECONOMETRÍA APLICADA
¿Vale la pena el esfuerzo?
Prof. Edson Apaza Mamani
Estimación por MCO.
REGRESIÓN CON VARIABLES DEPENDIENTES DISCRETAS
use mincer_peru.dta regress wage educ exper expersq
4. Modelos de regresión con variables discretas en la variable dependiente
Actividades:
Esta situación se presenta cuando una variable dummy (ficticia) exógena en un modelo, en realidad es endógena debido a causas del estudio. Esto origina un problema de autoselectividad o autoselección en la muestra. Un ejemplo de esto puede ser el caso en que se necesite estimar el efecto de las uniones sindicales (pertenecer a un sindicato) sobre el salario de los trabajadores. Otro ejemplo sería los estudiantes que solicitan el servicio de comedor o de residencia de la universidad, así como estos existen varios casos donde se pueden utilizar la variable dependiente discreta.
La estrategia de identificación Relación causal y correlación
Regresión lineal general generate hijos=( kidslt6!=0 & kidsge6!=0) regress wage educ exper expersq hijos, vce(robust) Se puede utilizar el comando postestimación test para estimar las pruebas de dependencia, prueba F, para una o más restricciones. Por ejemplo: test hijos la prueba consiste en evaluar
:
= 0 contra
:
El valor esperado de una variable dicotómica de 1:
≠ 0,
( )=0∙
test educ exper hijos la prueba consiste en evaluar o ≠ 0.
Muchas variables dependientes de interés en economía y otras ciencias sociales pueden tomar sólo dos valores. Los dos posibles valores están denotados usualmente por 0 y 1. Tales variables son llamadas variables dummy o variables dicotómicas.
:
= 0,
=0y
= 0 contra
:
≠0o
≠0
(
(
= 1) =
(
= 1)
El modelo de regresión lineal, =
xi: regress inlf educ exper expersq i.kidslt6, vce(robust) xi: regress inlf educ exper expersq i.kidslt6*educ, vce(robust)
= 0) + 1 ∙
∈ {0,1} es la probabilidad que toma el valor
+ ,
( | )=0
Es llamado el modelo de probabilidad lineal en este contexto. Este modelo no es un modelo estadístico adecuado como el valor esperado de ( | ) = puede sobrepasar los límites de [0,1] y no representan una probabilidad. Además el término de error es heterocedastico como: Tabla 2. Estimación del Modelo de Probabilidad Lineal Error
Probabilidad de Ocurrencia del Evento
( ) 1− 1− ( )=
(1 −
)
( ) = ( | )[1 − ( | )] pág. 14
pág. 15
Econometría Aplicada
4.1.
Prof. Edson Apaza Mamani
[email protected]
Modelos de Elección Discreta
ii)
Sea la utilidad de obtener el comedor universitario y la utilidad de estar pensionado. La decisión observada revela cual de las alternativas proporciona más utilidad o mayor beneficio (el cual es no observable). Por tanto, la variable que se observa vale 1 si > y 0 si ≤ . La formulación habitual es: Si denotamos a
=
+
y
=
+
( = 1| ) =
[
>
+
>
( = 1| ) =
[
+ > 0]
Interpretación La interpretación de los parámetros estimados es directa como efectos marginales sobre la variable dependiente . En general, se puede representar como: ( |
+
| ]
)
=
Este resultado explica la unidad de medida de los estimadores, como los cambios marginales.
]
Modelo de Probabilidad Lineal (MPL)
Es la representación más básica, el cual permite estimar las primeras aproximaciones a los resultados. Como se vió antes, a pesar de tener problemas asociados con las varianzas, empírcamente son válidos los resultados. Estimadores: MCO =( ′ )
Bondad de ajuste
]
Para la última representación, se puede asumir diferentes distribuciones para el término de error, por ejemplo, la función de transformación para definirá la especificación del modelo no lineal a estimar. Así se puede tener una distribución normal con media cero y varianza constante e igual a uno pero no logística, o puede tener una distribución logística con media cero y varianza constante logística. En el primer caso se puede aplicar el modelo Probit también llamada Normit y en el segundo el modelo Logit.
i)
iii)
.
[
( = 1| ) = [
Prof. Edson Apaza Mamani
[email protected]
Los habituales, y sus desventajas.
= 1, es decir que el consumidor escoja la alternativa a, obtenemos que: ( = 1| ) =
4.2.
Econometría Aplicada
4.3.
Modelo Probabilístico
Los modelos probabilidades
de elección discreta, binaria, describe ( = 1) de la variable dependiente .
En este tipo de modelos es habitual el uso del estimador por el método de mínimos cuadrados ordinarios, por su simplicidad, se requiere evaluar la consistencia de los resultados, robustez y demás pruebas para información de corte transversal. A pesar de su poca aplicación, los resultados son una primera aproximación a los resultados obtenidos con los modelos no lineales como son el logit, probit o cloglog. Sin embargo el uso de los modelos lineales con la variable dependiente binomial trae consigo riesgos de la presencia del problema de heterocedasticidad.
pág. 16
respuesta
de
Considere una muestra de N ( = 1,2, … , ) observaciones i.i.d. (independiente e idénticamente distribuida) de la variable dependiente dummy y un vector de dimensión ( + 1) variables explicativas incluyendo el término constante. La probabilidad que la variable dependiente toma el valor de 1 es modelado como: ( Donde
= 1| ) = ( ) = (
)
es un vector columna de parámetros de dimensión ( + 1), y =
Es un índice lineal simple. La transformación de la función rango [0,1] y en general satisface:
′
la
(−∞) = 0, (∞) = 1,
( )
muestra un índice dentro del
>0
El modelo probit asume que la transformación de la función es la función de densidad acumulativa (cdf) de la distribución normal estándar. La respuesta de probabilidad es:
(
= 1| ) = Φ(
)=
()
=
1 √2
pág. 17
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Donde (. ) es la función de densidad de probabilidad (pdf) y Φ(. ) la función de distribución acumulativa (cdf) de la distribución normal estándar.
i)
Figura Nro. 3. Función de transformación en el modelo Logit y Probit
Estimadores: MV =
=
ln[Φ(
)] +
) )
+
= 1| )]
[Prob(
)] [1 − Φ(
[Φ(
ϕ( Φ(
=
= 1| )]
[Prob(
=
ii)
Prof. Edson Apaza Mamani
[email protected]
)]
) [1 − Φ(
(1 −
(1 −
)]
−ϕ( ) [1 − Φ( )]
)
=0
Interpretación de los parámetros A diferencia del modelo lineal, los parámetros estimados no se pueden interpretar directamente como efectos marginales sobre la variable dependiente. En algunas situaciones, la función índice = tiene una clara interpretación en el modelo teórico y el efecto marginal, del cambio de sobre .
Nota: el modelo Logit y Probit son casi idéntico y el modelo de elección es usualmente arbitrario. Sin embargo, los parámetros de los modelos son escalados de manera diferente. Multiplicando los parámetros del modelo Probit por 1.6 son aproximadamente iguales al modelo Logit estimado.
i)
Estimadores: MV
En general, estamos interesados en estimar el efecto marginal del cambio de sobre . ( | ) 4.4.
=
(
= 1| )
=
∂Φ( ∂
)
= (
=
)
Modelo Logístico
=
En el modelo Logit, la transformación de la función probabilidades son: (
= 1| ) =
1+
)] [1 − F(
[F(
ln[F(
)] +
)]
) [1 − F(
(1 −
)]
es la función logística. La respuesta de
=
=
1
f( F(
) )
+
(1 −
)
−f( ) [1 − F( )]
=0
1+
La siguiente figura muestra la función de transformación de
para los dos modelos. ii) pág. 18
Interpretación de los parámetros pág. 19
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Como antes, los parámetros estimados no se interpretan directamente como efectos marginales. Este efecto marginal depende de las características de todas las para la observación . Además, cualquier individuo tiene un efecto marginal diferente.
( | )
4.5.
(
=
= 1| )
=
(1 +
)
Modelo de doble complementariedad logarítmica
Los modelos Logit y Probit, son las técnicas más comunes para la estimación de modelos con una variable dependiente dicotómica, impone el supuesto de que los individuos tienen una probabilidad de 0.5 de elegir cualquiera de las dos alternativas, sin embargo ambas son muy sensibles a los cambios en las variables independientes. Este supuesto es impuesta por la técnica de estimación porque las dos funciones de densidad logística y normal son simétricas con respecto a cero. Ante cambios en la probabilidad de elegir una de dos alternativas de manera desproporcional 30 y 70 o 70 y 30 los modelos habituales ya no son consistentes, ante ello propongo una distribución alternativa para los errores en la distribución normal o logística. El estimador resultante, se demuestra que es apropiado donde los individuos con alguna probabilidad inicial de elegir cualquiera de las dos alternativas son más sensibles a los cambios en las variables independientes. (
i)
= 1| ) = 1 −
4.6.
Prof. Edson Apaza Mamani
[email protected]
Medidas de bondad de ajuste (fitstat) Para los modelos de variables dependientes discretas y limitadas, los estadísticos habituales de bondad de ajuste ahora son diferentes. Algunos de ellos son modificaciones de la medida de bondad de ajuste de McFadden, a continuación listo algunos de estos:
Coeficiente de correlación
: 2 y , yˆ
Medida de Effron
:1
Ratio de LR.
L : 1 R LNR
Cragg-Uhler (1)
L : 1 R LNR
Cragg-Uhler (2)
: 1
McFadden
: 1
[Prob(
= 1| )]
[Prob(
Aderish-Nelson
:
2ln LNR ln LR 2ln LNR ln LR n
Veal-Zimmerman
:
2ln LNR ln LR 2 ln LNR n . 2ln LNR ln LR n 2 ln LR
Arturo Estrella
ln LNR : 1 ln LR
2
= 1| )]
=0
Interpretación ( | )
n yi yˆi n1n2
2
Estimadores: MV =
ii)
Econometría Aplicada
2/ N
2/ N
2
LNRN LRN 1 L2 N N L2 N R
ln LNR ln LR
2 ln LR N
Cada investigador puede especificar el uso del estadístico de bondad de ajuste. pág. 20
pág. 21
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
ECONOMETRÍA APLICADA Tabla 3. Resumen de modelos de elección discreta Modelo
Logit Probit Cloglog Probabilidad Lineal
Probabilidad
=
Λ( ′ ) =
(
= 1| )
Prof. Edson Apaza Mamani Efecto Marginal:
Valoración Económica
Λ( ′ ){1 − Λ( ′ )} 1+
Φ( ′ ) =
( ′ ) =1−
( )
( ′ )
( ′ )
( ′ )= ′
La bahía de Puno se encuentra dentro de la reserva nacional del Titicaca con 36,180 hectáreas. La ciudad de Puno es uno de los departamentos con un flujo de turismo considerable, por sus diversos atractivos turísticos, siendo uno de estos el lago Titicaca en cuyas aguas se encuentra la isla flotante de los Uros, que constituye uno de los atractivos más singulares del turismo mundial, ubicada a 6 kilómetros de la bahía de Puno, además de las islas de Taquile y Amantan en el lado peruano y las islas del Sol y de la Luna en el lado boliviano. En la actualidad la bahía de Puno enfrenta problemas de contaminación del agua derivados de la disposición de aguas servidas provenientes de diversas actividades económicas desarrolladas por las poblaciones aledañas a esta. En la actualidad los hogares no están de acuerdo con la disposición de las aguas servidas y sus inconveniencias asociadas con las inundaciones en épocas de lluvia y riesgos de contraer enfermedades asociadas con el agua contaminada. Dadas los antecedentes anteriores surgen una serie de preguntas de mucho interés en torno al manejo de este recurso natural. ¿Es posible la implementación de una política de descontaminación de la bahía y la regulación de las fuentes generadoras de la contaminación?, ¿cuál sería el mecanismo más adecuado de implementación de esta política?, ¿cuál sería la disponibilidad a pagar de los habitantes de Puno por una mejora en la calidad ambiental de la bahía?, ¿cuál sería el valor de no uso que estarían dispuesto a asignar estas personas a la reserva natural de Titicaca?. Las variables incluidas dentro de este estudio fueron: -
PROB: Variable dependiente discreta que toma el valor de 1 si la persona responde afirmativamente a la pregunta de disponibilidad a pagar y 0 si no. POSTURA: Variable dependiente que representa los precios revelados bajo una pregunta de formato abierto, para el valor de existencia. PH: Variable independiente que representa el precio hipotético propuesto en soles para financiar el plan de saneamiento ambiental. Y: Variable independiente que representa el ingreso familiar mensual en soles. EDAD: Variable independiente continúa que representa la edad del jefe o responsable de la familia. SEXO: Variable independiente discreta que toma el valor de 1 si el entrevistado es del genero masculino y 0 si es del genero femenino.
La variable nivel de educación del entrevistado fue presentada en tres variables discretas a como sigue:
pág. 22
pág. 23
Econometría Aplicada
-
Prof. Edson Apaza Mamani
[email protected]
ED1: Toma el valor de 1 si el entrevistado tiene educación superior completa y 0 los demás. ED2: Toma el valor de 1 si el entrevistado tiene educación secundaria completa y 0 los demás. ED3: Toma el valor de 1 si el entrevistado tiene educación primaria completa y 0 los demás. NP: Variable independiente que representa el número de personas por familia. La variable independiente ocupación del entrevistado fue representada a partir de cinco variables. OC1: Toma el valor de 1 si el entrevistado es empleado del sector público y 0 los demás. OC2: Toma el valor de 1 si el entrevistado es comerciante y 0 los demás. OC3: Toma el valor de 1 si el entrevistado es obrero o vendedor ambulante y 0 los demás. OC4: Toma el valor de 1 si el entrevistado es jubilado rentista y 0 los demás. OC5: Toma el valor de 1 si el entrevistado esta sin trabajo o es ama de casa y 0 los demás. ENTI: Variable independiente discreta que la preferencia por el tipo de identidad que ejecute el plan de saneamiento, 1 si es una entidad pública y 0 si es una entidad privada. MCON: Variable independiente que representa el tipo de material con que esta construida la casa del entrevistado, 1 si es noble, 0 si es adobe. NHAB: Variable independiente que representa el número de habitaciones de la vivienda del entrevistado. VALOR: Variable independiente que representa la ponderación que asigna a la bahía si se descontaminara, 3 = mucho, 2 = poco, 1 = ninguno. ENF: Variable independiente que representa la presencia de enfermedades relacionadas con la contaminación del agua de la bahía, 1 si hay presencia y 0 si no hay. i) Realice las estadísticas básicas de la muestra e interprete. ii) Especifique diferentes formas funcionales del modelo de elección discreta y concluya una especificación final, realice pruebas de robutez. Interprete. iii) Utilizando el comando stepwise de Stata, compruebe sus resultados del punto ii) iv) Estime la disponibilidad media a pagar (Excedente del consumidor) de los habitantes de la ciudad de Puno por el plan de Saneamiento Ambiente de la Bahía.
Econometría Aplicada
iii)
Prof. Edson Apaza Mamani
[email protected]
Especificación de los Cambios marginales: Interpretación de los coeficientes estimados: Bondad de ajuste: Especificación econométrica stepwise, pr(0.2): reg prob ph y edad sexo ed1 ed2 ed3 np oc1 oc2 oc3 oc4 oc5 enti mcon nhab valor enf uso, robust stepwise, pr(0.2): probit prob ph y edad sexo ed1 ed2 ed3 np oc1 oc2 oc3 oc4 oc5 enti mcon nhab valor enf uso, robust stepwise, pr(0.2): logit prob ph y edad sexo ed1 ed2 ed3 np oc1 oc2 oc3 oc4 oc5 enti mcon nhab valor enf uso, robust stepwise, pr(0.2): cloglog prob ph y edad sexo ed1 ed2 ed3 np oc1 oc2 oc3 oc4 oc5 enti mcon nhab valor enf, r
iv)
Estimación del beneficios social del proyecto de descontaminación logit prob ph y sexo ed1 ed2 np enf, robust gen ECL=-(_b[_cons]+_b[y]*y + _b[sexo]*sexo + _b[ed1]*ed1 + _b[ed2]*ed2 + _b[np]*np + _b[enf]*enf)/(_b[ph]) probit prob ph y sexo ed1 ed2 np enf, r gen ECP=-(_b[_cons]+_b[y]*y + _b[sexo]*sexo + _b[ed1]*ed1 + _b[ed2]*ed2 + _b[np]*np + _b[enf]*enf)/(_b[ph]) cloglog prob ph y sexo ed1 ed2 np enf, r gen ECCL=-(_b[_cons]+_b[y]*y + _b[sexo]*sexo + _b[ed1]*ed1 + _b[ed2]*ed2 + _b[np]*np + _b[enf]*enf)/(_b[ph]) summarize ECLO ECPR ECCL
Solución: valoración económica i)
Importando datos y Estadisticas descriptivas: insheet using "TITICACA.txt" describe summarize tabulate prob
ii)
Comparación de modelos de elección discreta Especificación de los modelos de elección discreta: Probit, Logit, Cloglog pág. 24
pág. 25
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Referencias
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Anexo: Estimador de Máxima Verosimilitud 1. Halle el estimador del parámetro por el método de MV a partir de una muestra de tamaño n. considere una v.a. que tiene la siguiente f.d.p.:
Libros introductorios Stock, James H. and Mark W. Watson (2007), Introduction to Econometrics, 2nd ed., Pearson Addison-Wesley. Capítulos 4 - 9. Wooldridge, Jefrey M. (2009), Introductory Econometrics: A Modern Approach, 4th ed., South-Western Cengage Learning. Capítulos 2 - 8.
( ; )=
2 1−
Sea la muestra aleatoria de tamaño n: ( ( ; )
( | )=
,0 ≤
≤ 1;
,…,
). La función de verosimilitud será:
( ; )…
>0
( ; )=
( ; )
Libros Avanzados Cameron, A. Colin and Pravin K. Trivedi (2005), Microeconometrics:Methods and Applications, Cambridge University Press. Secciones 4.1-4.4.
( | )=
2 1−
Wooldridge, Jefrey M. (2002), Econometric Analysis of Cross Section and Panel Data, MIT Press. Capítulos 4.1 - 4.23. Libros adicionales Angrist, Joshua D. and Jorn-Steffen Pischke (2009), Mostly Harmless Econometrics: An Empiricist's Companion, Princeton University Press. Capítulo 3.
2 1−
0≤
2 1−
=
≤ 1; … ,0 ≤
≤ 1;
…
≤ 1; 0 ≤
2 1− >0
Tomando logaritmos en la última expresión: 2 3 −1 ( | )= + 1− 1− = [ 2 − =
2+
(1 − )] + −
3 −1 1− 3 −1 1−
(1 − ) +
Derivando respecto de , e igualando a cero, se obtiene: ( | ) (−1) 3(1 − ) + (3 − 1) = − + (1 − ) 1− =
+
1−
+
2 (1 − )
=0
=0
Por lo tanto: 2 (1 − )
=− −
2 (1 − )
=
1
pág. 26
1−
=
− − + (1 − )
=−
− (1 − ) + (1 − ) =
− (1 − )
(1 − ) 2 (1 − ) pág. 27
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected] 1
=−
2
Econometría Aplicada
(1 − ) 2
,
= − (1 − )
;
,…,
max ℝ,
2
Prof. Edson Apaza Mamani
[email protected]
=− +
ℝ
=−
=−
+ 2
−
−
;
+
−
=−
2∑
=
=0
=
verosimilitud de:
,…,
( ,…,
=
)→
| ,
)=
,…,
( ,…,
=
− 2∑ ). Encontrar los estimadores de máxima
( ,…,
( | ,
(
1
| ,
)=
,…,
( ,…,
)
)
√2
;
=
1 2
2(
(
(
2
− )
− )
,…,
− )(−1) = 0
1
2
1(−2) 2
2
1
+
(
(
− ) =0
− )
( | ,
)…
(
| ,
)
1
(
)
…
1
)= (2
∑
(
1
(
)
( , ,
) = (2 )
( , ,
) = (2 )
,
. Encuentre el estimador de MV de
) (
)
√2 (
( ,
; ): ℝ x(0, ∞)
( ,
; ) = (2 )
( ,
; )=−
max
−
∈ℝ , ( , )
)
y Sea ~
(
1
)=
√2 )
+
(04 puntos)
( , ,
)
| ,
√2 | ,
) −
=
=
Multiplicación por independencia de xi ,…,
1
(
= 0; ⟹
−
.
( ,
1 2
− 2∑
=
~ ( ,
−
=−
3. Sea el modelo
i.i.d., donde
2
=−
=−
El estimador de MV es:
2. Sea { }
,…,
=0
,
2
(2 ) −
2
) −
(
2
Condiciones de primer orden ,
2
(2 ) −
2
2
2
)
(
)
(
)(
)
(
)(
)
−
1 ( − 2
(2 ) −
(2 ) −
−
1 2
( −
(
I
)
)′( −
)′( −
)
)
Condiciones de primer orden
Distribución conjunta, ahora en términos de función de verosimilitud
pág. 28
pág. 29
Econometría Aplicada
( ,
−2
; )
Prof. Edson Apaza Mamani
[email protected]
=0=−
1
(
2
−
Econometría Aplicada
ECONOMETRÍA APLICADA
+ ′ ′ + ′ ′ )
Prof. Edson Apaza Mamani
+2 ′ ′ =0
− ′ + ′
=0
=( ′ ) ( ,
=
AUTOSELECCION
′
; ) 1
Prof. Edson Apaza Mamani
[email protected]
5. Modelo de Autoselección
=0=−
−
′
−
−2 ( − 2
)′( −
)
Ahora analizaremos qué factores determinan el salario de las mujeres casadas. Para ello utilizaremos una especificación que en la literatura mundial se conoce como minceriana, en honor a Mincer (1974), la cual señala que el logaritmo del ingreso es función de la escolaridad, la experiencia laboral y el cuadrado de ésta. Formalmente se tiene:
−
Estimadores sesgados, común en MV
ln( Donde ln( educación,
)=
+
+
+
+
(1)
) representa el logaritmo del ingreso del individuo , son los años de es la experiencia laboral, y es el cuadrado de la experiencia laboral.
La especificación anterior tiene el problema de que no toma en cuenta si las mujeres han decidido autoseleccionarse a no participar en el mercado de trabajo. Si esto sucede, las estimaciones con este método pueden ser sesgadas. 1 Con el método de dos etapas de Heckman se busca eliminar los posibles sesgos que surgen debido a que en las encuestas únicamente se puede observar el ingreso de aquellos individuos cuyo salario de reserva es inferior al salario de mercado. Aquellos con un salario de reserva superior al de mercado no aparecen en la estimación. De acuerdo con Heckman (1979) esta situación puede introducir sesgos en los estimadores de los parámetros de la ecuación de ingresos similares a los generados por la omisión de variables relevantes en el modelo. i)
Modelo de Heckman
Para ilustrar este método se plantean dos ecuaciones: ∗
=
+
ó
=
+
ó
ó (2) é (3)
En este caso son la ecuación de participación de las ocupadas asalariadas y la función de Mincer (1), respectivamente. Donde ∗ es la propensión a trabajar, es un vector de variables explicativas observadas y es un término de error en la ecuación de decisión, no observado, es el nivel de ingreso potencial de un determinado individuo,
1
Este tipo de problema se conoce en la literatura como sesgo por autoselección. Para una explicación detallada, véase Heckman (1979) y Lewis (1974).
pág. 30
pág. 31
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
es un vector de variables que influyen en el nivel de ingreso potencial, término de error en la ecuación de interés, que tampoco se observa. Así,
es observado si
∗
es otro
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Para hacer esta estimación escribimos: reg lwage educ exp expsq
> 0. Esto es:
( |
)= ( |
∗
> 0)
Procedimiento manual:
(4)
∗
Modelo Probit:
Para las mujeres que no trabajan se tiene que ≤ 0 y en consecuencia es igual a cero. El problema de autoselección surge si la parte no observada de la decisión de trabajar ( ) se correlaciona con la parte no observada del resultado ( ).
probit inlf kidslt6 kidsge6 faminc age agesq lsens
Empíricamente, en la primera etapa de este método se estima un modelo probit en la ecuación de decisión con el cual se calcula el inverso de la razón de Mills ( ), el cual se incluye como regresor en la ecuación de interés, que se estima por el Método de Máxima Verosimilitud en la segunda etapa.
predict y_hat, xb gen imr = normalden(y_hat)/normprob(y_hat)
Para corregir el sesgo de selección, de la primera etapa, se obtienen el ratio inversa de Mills para cada grupo de hogares, restringido o no restringido del crédito, de la siguiente manera:
reg lwage educ exper expersq imr, robust
=
( Φ(
Estimando el IMR ( ):
Modelo Lineal con
:
) ) Procedimiento directo:
) ( = ) 1 − Φ(
Modelo HECKIT Para aplicar el modelo Heckit en STATA se deberá emplear el comando heckman.
Así la ecuación final que se estima es: |
∗
>0=
+
+
La sintaxis es la siguiente:
(5)
Donde es el coeficiente asociado al inverso de la razón de Mills evaluado en la ecuación de decisión. Si el valor estimado de es distinto a cero se puede concluir que existe autoselección. La decisión individual de incorporarse al mercado laboral puede estar afectada por diferentes factores. En este caso utilizaremos las variables siguientes: hijos menores a 6 años, hijos entre 6 y 18 añ0s, ingreso familiar, y edad. ii)
heckman depvar [indepvars], select(varlist_s) [twostep]
Donde depvar es la variable independiente. En nuestro caso es lwage. indepvars representa las variables independientes. En nuestro caso select(varlist_s). varlist_s representa el grupo de variables que se incluyen en la
Aplicación: inlf
ecuación de decisión. En nuestro caso son: hijo5, hijo611, hijo1218, ingfam, eda, eda2,
Estimación por MCO
norte, y sur
Aunque sabemos que si estimamos por MCO podemos tener un sesgo por variable omitid. A continuación se presenta la estimación por este método. Primero generamos la variable del logaritmo de los salarios:
twostep indica que es una estimación en dos etapas. Así se deberá escribir el comando siguiente:
gen lwage=log( salario)
pág. 32
pág. 33
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc age agesq) twostep
Referencias
heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc age agesq) first twostep
Heckman, J. (1979), Sample selection bias as a specification error, Econometrica, vol. 47, Nº 1, pp. 153-161.
El valor de lambda indica si existe o no autoselección.
Mroz, T. A. (1987), The Sensitivity of an Empirical Model of Married Women’s Hours of Work to Economic and Statistical Assumptions Econometrica 55, 765–799. Mincer, J. (1974), Schooling Experience and Earnings, National Bureau of Economic Research, Columbia University Press. Woolwridge, Jeffrey M. (2002), Econometric Analysis of Cross-Section and Panel Data, MIT Press
pág. 34
pág. 35
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected] >
ECONOMETRÍA APLICADA Prof. Edson Apaza Mamani
donde F es una función acumulativa de distribución normal, f es la función de densidad de distribución normal, es un ponderador opcional para la observación .
CAMBIO DE REGRESIÓN: SWITCHING REGRESSION
Luego de estimar los parámetros del modelo, se debe calcular las esperanzas condicional y no condicional. La esperanza no condicional:
6. Modelo de Switching Regression
=(
Considere el siguiente modelo, el cual describe el comportamiento de un agente con dos ecuaciones de regresión y una función de criterio, ∗ , que determina que régimen enfrenta el agente 2: =1
+
>0
=0
+
≤0
=
+
Régimen 1:
=(
=
+
)=
(3)
|
)=
(4)
La esperanza condicional: _
=1 =0
=(
| = 1,
)=
+
1
(1) =(
_
Régimen 2:
|
| = 0,
)=
−
1
(2)
Donde, son las variables dependientes en las ecuaciones continuas; y son los vectores de variables débilmente exógenas; y y , y γ son los vectores de parámetros. Se asume que , y tienen una distribución normal (trivariada) con el vector de media igual cero y una matriz de convarianzas:
_
_
=( =(
| = 1, | = 0,
)= )=
+ −
) )
(
)
1− ( 2
2
( (
)
( (
) )
(
)
1− (
(5) (6) (7)
)
(8)
Donde: Ω=
a) y son los errores estándar de y ; b) es el coeficiente de correlación entre y ; c) es el coeficiente de correlación entre y ; d) f(.) es la función de densidad normal, y F[.] es la distribución normal acumulativa.
a) es la varianza del termino de error en la ecuación de selección, b) y son las varianzas de los términos de error en las ecuaciones continuas. c) es la covarianza de y . d) es la covarianza de , y . e) La covarianza entre y no está definido, porque y no se observan simultáneamente. Asumiendo = 1 (γ es estimable solo como un factor de escala). f) El modelo está identificado por construcción a través de no linealidades. g) Dado el supuesto con respecto a la distribución de los términos de error, el logaritmo de la función de verosimilitud para el sistema de ecuaciones (1-2) es:
2
La discusión en esta sección es tomado de Maddala (1983, 223-225)
pág. 36
pág. 37
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
-
ECONOMETRÍA APLICADA
Prof. Edson Apaza Mamani
[email protected]
La estimación simultánea de (9-12) por ML corrige el sesgo de selección en el salario sectorial estimado.
Prof. Edson Apaza Mamani El indicador de elección del sector privado=1 si el individuo está empleado en el sector privado y 0 si está en el sector público.
SWITCHING REGRESSION: APLICACIÓN
La variable endógena, de (9-10), el logaritmo del salario individual mensual, lsalario. Aplicación. A continuación realizaremos la estimación empírica pada determinar los factores que determinan la decisión de trabajar en el sector público o privado, utilizando la ecuación de Mincer, determinamos el problema de estimación de salario individual en los sectores público y privado. Una especificación habitual se puede representar de la siguiente forma: = =
+
=1
(9)
+
=0
(10)
-
= (
−
)+
+
es la variable latente que determina el sector en el cual el individuo está empleado es el salario del individuo en el sector ; es un vector de características que afectan la decisión respecto al sector de empleo. es un vector de características individuales que se piensa que afecta el salario individual. , , y son vectores de parámetros, , y son los términos de error.
Las realizaciones observadas dicótomas de la variable latente empleado en un sector particular tiene la siguiente forma: ∗
>0 . .
+
>0
=0
∗
≤0 . .
+
≤0
∗
de si el individuo está
-
Regresión de decisión de participación en el sector privado: regress privado edad edad2 prima secun univer puno aqp otros soltero, robust
Regresión de salarios. regress lsalario edad edad2 prima secun univer puno aqp otros nempleados privado, robust
Regresión de autoselección. heckman lsalario edad edad2 prima secun univer puno aqp otros nempleados, select(privado=edad edad2 prima secun univer puno aqp otros soltero nempleados ) first twostep
(12)
Regresión de intercambio.
El supuesto que se hace con frecuencia en este tipo de modelos: -
-
Incluye las características individuales como: edad, edad2, educacion, y dummies regionales. Además, la ecuación de elección del sector de empleo (11) incluye dos variables para mejorar la identificación. El estado civil del individuo y el número de miembros empelados en el hogar que se cree que afecta la elección de un individuo del sector de empleo, pero no afecta el salario. La estimación por ML:
(11)
∗
=1
-
La función de criterio de decisión de trabajar en el sector público o privado esta dado por: ∗
Las variables exógenas en la regresión de salario (9-10) se basan en Mincer (Mincer y Polacheck, 1974).
Que el sector de empleo es endógeno para el salario. Algunas características no observadas que afecta la probabilidad de elegir un sector en particular de empleo además podrían influenciar al salario que recibe el individuo una vez que él este empleado. Omitiendo este efecto de selectividad es probable tener una imagen falsa de la relativa posición de ganancia tanto en el sector público y privado.
pág. 38
movestay lsalario edad edad2 prima secun univer puno aqp otros nempleados, select(privado=edad edad2 prima secun univer puno aqp otros soltero nempleados)
Los resultados de la ecuación de selección del sector son reportados en el panel select/privado. Los resultados de la regresión de salarios en el sector privado son reportados en el panel lsalario_1, y la regresión de salario en el sector público es reportada en el panel lsalario_0. pág. 39
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
El coeficiente de correlación rho_1 y rho_2 ambos son positivos pero solo es significativo para la correlación entre la ecuación de elección y la ecuación de salario del sector público.
Referencias
Ya que rho_2 es positivo y estadísticamente diferente de cero, el modelo sugiere que un individuo quien elige trabajar en el sector público ganan un salario menor en ese sector, que cualquier individuo de la muestra habría ganado, y aquellos que trabajan en el sector privado no están mejor o peor que un individuo cualquiera.
Heckman, J. 1979. Sample selection bias as a specification error. Econometrica 47(1): 153– 162.
La prueba de razón de verosimilitud para la independencia conjunta de las tres ecuaciones se reporta en la última línea de la salida. La variable sigma, /lns1, /lns2, /r1, y /r2 son parámetros auxiliares utilizando en el procedimiento de máxima verosimilitud. sigma_1 y sigma_2 son las raíces cuadradas de las varianzas de los errores del modelo de regresión. /r1 y /r2 son la transformación de la correlación entre los errores de las dos ecuaciones.
pág. 40
Maddala, G., (1983) Limited-Dependent and Qualitative Variables in Econometric, Econometric Society Monographs No. 3, Cambridge University Press, New York. Mincer Jacob and Solomon Polachek. 1974. Family Investments in Human Capital: Earnings of Women. The Journal of Political Economy, Vol. 82, No. 2, Part 2: Marriage, Family Human Capital, and Fertility (Mar. - Apr., 1974), pp. S76-S108 Winship Christopher and Robert D. Mare. 1992. Models for Sample Selection Bias. Annual Review of Sociology, Vol. 18, (1992), pp. 327-350
pág. 41
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected] ∗
La observación es sólo observado si conocido, es decir:
ECONOMETRÍA APLICADA Prof. Edson Apaza Mamani
=
MODELOS TRUNCADOS Y CENSURADOS
está por encima de cierto limite/umbral
∗
∗
. .
∗
> ≤
La función de densidad de la variable truncada observada es por tanto la función de densidad de probabilidad de la variable latente condicional sobre sus valores observados, es decir3:
7. Modelos censurados y truncados
( | )= (
La existencia de información omitida o no cuantificada en las encuestas, puede dar logar a la inconsistencia en la estimación de los modelos econométricos. Así por ejemplo, se presentan casos en las cuales existe disponible, para una submuestra, de información de salario muchos de los cuales están considerados como cero o no esá disponible, sin embargo todas la demás datos si están disponibles tanto para los que reportan salarios cero o no disponible. Para este caso el modelo a utilizar es un modelo truncado.
∗
|
∗
> ,
( ∗| )
)=
−1
( | )= 1−Φ
∗
> |
− − −
En otros casos, es posible que el investigador esté interesado en un rango de información, por ejemplo, un cierto nivel de estudios, o un cierto rango de edades, rango de ingresos etc. Esta información permitirá definir el modelo econométrico a estimar como un modelo censurado. 7.1.
( | )=
Φ
−
donde (. ) es la función de densidad de probabilidad y acumulativa.
Introducción
Φ(. ) La distribución normal
Note que el valor esperado de la variable observada no es lineal en ecuación de abajo).
La estimación de modelos econométricos con información faltante o con un interés particular de una submuestra, nos permitirá definir un modelo censurado o truncado. En estos modelos, los puestos del modelo lineal general ya no se cumplen. Por ello, el método de estimación más apropiado es el estimador de máxima verosimilitud. 7.2.
1
( | )= (
Modelos TRUNCADOS
∗
|
∗
> ,
)=
+
[( Φ[(
(intente derivar la
− )/ ] + − )/ ]
donde ≡ ( )/Φ( ) y = ( − )/ . La siguiente figura muestra el modelo de regresión truncada en un ejemplo con = 30, = 2 (un termino constante y una −2 variable dependiente) con un punto de truncamiento = 0, = y = 1. 0.5
Los efectos del trucamiento ocurre cuando los datos observados en la muestra sólo se agrupan a una submuestra de una gran población. La muestra de este subconjunto se basa en el valor de la variable dependiente. Un ejemplo, un estudio de los determinantes del ingreso de los pobres. Únicamente hogares con ingreso debajo de una cierta línea de pobreza son parte de la muestra. i)
Especificación del modelo (Regresión Truncada)
3
El término de error es independiente y normalmente distribuido con media cero y varianza constante. La distribución de ∗ dado es por lo tanto normal: ∗ | ~ ( , ). El valor esperado de la variable latente es ∗ = .
Note cómo la función de densidad de probabilidad de una variable normalmente distribuida con media y varianza puede ser escrita utilizando la función de densidad de probabilidad (. ) De la normal estándar (0,1) ( − ) 1 ( )= − 2 √2 ( ) 1 1 ( )= − 2 √2 − ( )=
pág. 42
pág. 43
Considere la variable aleatoria latente ∗
=
+
∗
que depende linealmente de ~ (0,
, es decir:
)
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Sin embargo, si el investigador sólo está interesado en el efecto del valor esperado de l subpoblación, estimar el efecto marginal es más complicado, de hecho se debe estimar: ( | )
= =
(
=
∗
|
∗
> ,
)
+
(1 −
−
)
Estos efectos marginales dependen de las características individuales y sólo pueden ser reportados para tipos específicos o como efectos promedio en la muestra poblacional (ver ejemplo de aplicación para cambios marginales). iv)
Stata estima el modelo de regresión truncada por el comando
Figura 1: Modelo de regresión truncada ii)
truncreg depvar [indepvars] [, ll(#)]
Estimadores: MV
La regresión lineal simple por MCO para la variable observada =
sobre
donde ll(#) define el punto de truncamiento . Podemos estimar un modelo general con un punto de truncamiento por arriba o por encima.
.
+
truncreg depvar [indepvars] [if] [in] [weight] [, ll(varname) lu(varname)]
Obteniendo estimadores sesgados de , como el término de error es: =( |
∗
donde la opción umbral arriba ll y abajo lu puede ser referido a observaciones específicas y sus valores están definidor por varname.
> )
y ( )= ( |
que está correlacionado con
∗
> )=
podemos utilizar los comandos post-estimación predict y mfx para obtener predicciones y efectos marginales. Por ejemplo:
> 0.
La regresión truncada además es usualmente por el método de máxima verosimilitud (ML). La función de máxima verosimilitud es: −
=
y permite estimar tanto
−
1−Φ
y
Interpretación de los parámetros
La interpretación de los parámetros depende mucho de la pregunta de investigación. Si el investigador está interesado en el promedio de toda la población, los coeficientes simplemente se interpretan como los efectos marginales. ( ∗| )
truncreg wage age educ, ll(1.5) predict wage_hat, e(.,1.5) mfx compute, predict(e(.,1.5)) at(age=40,educ=12)
−
por una procedimiento numérico iterativo. La función de verosimilitud aplica las propiedades de consistencia, eficiencia asintótica y normalidad, etc.
iii)
Aplicaciones
truncreg lwage age educ, ll(1.2) predict lwage_hat, e(.,1.2) mfx compute, predict(e(.,1.2)) at(age=40,educ=12)
estima un modelo de regresión truncada debajo del nivel de ingreso (wage) 1.5 dólares la hora, calcula el valor proyectado de ( | ) = ( ∗ | ∗ > , ) en esta submuestra y calcula los efectos marginales de edad y educación sobre el valor esperado del ingreso ( | ) para personas con 45 años de edad y con escolaridad de 12 años de educación.
= pág. 44
pág. 45
Econometría Aplicada
7.3.
Prof. Edson Apaza Mamani
[email protected]
Modelos CENSURADOS
El censuramiento ocurre cuando los valores de la variable dependientes están restringidos a un rango de valores. Como veremos más adelante, para el caso de truncamiento la variable dependiente la información sólo es observable para una bus muestra. Sin embargo, existe información (para las variables independientes) de la muestra completa.
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
La siguiente figura representa el modelo de regresión truncada en un ejemplo con = 30, = 2 (una constante y una variable independiente) un punto de truncamiento −2 debajo = y = 1. 0.5
Algunos ejemplos. Tickets vendidos para un encuentro deportivo, no puede exceder la capacidad del estadio. Gasto en bienes durables son tanto valores positivos como ceros (este es el ejemplo utilizado en Tobin (1958) en su paper original. El número de aventuras extramatrimoniales son no negativos. (Observe que aunque el famoso paper de Fair (1978) utiliza un modelo Tobit, los modelos de datos de conteo pueden ser más apropiados. i)
Especificación
Considere la variable latente aleatoria ∗
=
∗
que depende linealmente de
+
~ (0,
, es decir:
)
El término de error es independiente y normalmente distribuido con media cero y varianza constante. La distribución de ∗ dado es por lo tanto normal: ∗ | ~ ( , ). El valor esperado de la variable latente es ∗ = . El valor observado de
ii)
está censurada por abajo por 0, es decir: ∗
=
∗ ∗
0
=
El valor esperado de la variable observada es: ( | )=0∙
(
≤ 0| ) + (
( | )= ( | )=
+ Φ(
( Φ(
Estimadores: MV
La regresión por MCO para la variable observada
>0 ≤0
La variable observada es una variable aleatoria mezclada con una probabilidad de masa ( = 0| ) = ( ∗ < 0| ) = Φ(− / ) sobre 0 y un valor continuo sobre 0 con densidad ( | ) = ϕ[( − )/ ].
∗
Figura 2: El modelo Tobit estándar (tipo 1).
|
∗
> 0,
/ ) Φ( / )
/ ) + ϕ(
)∙
(
∗
> 0| )
.
+
Obteniendo estimadores sesgados de , como ( | )= no es una función lineal de
∗
sobre
Φ(
/ ) + ϕ(
/ )
.
Note que existe una muestra restringida de todas las observaciones observadas, recolectadas, es decir, donde > 0, no resuelve el problema como sería en el caso de un modelo de regresión truncada hacia arriba.
/ )
La regresión truncada usualmente se estima por el método de máxima verosimilitud. Asumiendo independencia entre las observaciones, la función de máxima verosimilitud (log likelihood) es:
/ )
pág. 46
pág. 47
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected] −
= {|
+
Prof. Edson Apaza Mamani
[email protected] (
1−Φ { |
}
Econometría Aplicada ∗
> 0)
=
Φ(
/ )
=
−1
}
esta función puede estimar tanto y por una procedimiento numérico iterativo. La función de verosimilitud hacia arriba es una función combinada de componentes discreta y continua y una función de máxima verosimilitud estándar, se deja al lector la demostración del mismo.
donde
≡
=
Sin embargo, este puede ser mostrado que el estimador tiene propiedades usuales de máxima verosimilitud. Aunque la función de máxima verosimilitud del modelo Tobit no es globalmente cóncava este tiene un máximo único. El estimador es inconsistente ante la presencia de heterocedasticidad. Greene (2004, seccion 22.3.3.) muestra cómo se realiza la prueba de heterocedasticidad.
y
La estimación por ML de los modelos de regresión censurada descansa fuertemente de los supuestos fuertes de que el término de error está normalmente distribuido. Existen varias estrategias de estimación semi-paramétrico, estrategias que han sido propuestas que relaja la distribución del término de error. Vea Chay y Powell (2001) para una introducción.
Estos efectos marginales dependen de las características individuales y sólo pueden ser reportados para tipos específicos o como efectos promedio en la muestra poblacional (ver ejemplo de aplicación para cambios marginales).
iii)
Interpretación de los Parámetros
(
| )
=
=
Φ(
=
(
∗
|
∗
> 0,
)
∗
(
iv)
Aplicaciones
tobit depvar [indepvars], ll[(0)]
Asimismo, se puede estimar modelos más generales con censuramiento para arriba (ll) y para abajo (lu).
(
> 0) +
( )
luego es posible utilizar los comandos post-estimación predict y mfx para obtener predicciones y efectos marginales. Por ejemplo: tobit faminc age educ, ll(2000) predict faminc_hat, ystar(2000,.) mfx compute, predict(ystar(2000,.)) at(age=40,educ=12)
/ )
Hay una descomposición interesante de este efecto marginal (McDonald y Moffit, 1980): (1) el efecto sobre la expectativa de todos los valores completamente observados y (2) el efecto sobre la probabilidad de ser completamente observado: ( | )
=
tobit depvar [indepvars] [if] [in] [weight] , ll[(#)] ul[(#)] [options]
Sin embargo, si el investigador está interesado en el efecto del valor esperado de los valores observados (censurado), el efecto marginal es (derívelo!): ( | )
Φ
El programa Stata, estima el modelo Tobit estándar (tipo 1) mediante el comando:
La interpretación de los parámetros depende mucho de la pregunta de investigación. Si el investigador está interesado en el promedio de toda la población, los coeficientes se interpretan como los efectos marginales. ∗
1−Φ
∗
> 0)
(
∗
|
∗
> 0,
( ∗ > 0| ) y calcula los efectos marginales estima ( | ) = ( ∗ | ∗ > 0, ) ∙ de la edad y educación sobre el nivel de ingresos ( | ) para personas de 45 años de edad con escolaridad de 12 años alcanzados.
)
( )
con ( ∗|
∗
> 0,
)
=
(1 −
−
)
pág. 48
pág. 49
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
ECONOMETRÍA APLICADA
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected] =
Prof. Edson Apaza Mamani
=
1 0 ∗
∗
>0 =1
. .
8. Modelos Selección
En otras palabras, la primera ecuación (la ecuación de decisión, ∗ ) explica qi una observación está en la muestra o no. La segunda ecuación (ecuación de regresión de interés, ∗ ) determina el valor de . Note que el modelo estándar tobit es un caso especial de esta especificación con = , = , = y = 1.
El problema de selección muestral ocurre cuando la muestra observada no es una muestra aleatoria pero sistemáticamente se eligen de una población. El truncamiento y censuramiento como casos especiales de selección muestral o truncamiento incidental.
La siguiente figura muestra un ejemplo de un modelo de selección con = 30, = −1.5 −2 , = , = 1, = 0.8 y correlación entre y explica porqué la 1 0.5 probabilidad de ser observada incrementa con .
MODELOS DE HECKMAN DE AUTOSELECCION
El ejemplo clásico: el ingreso sólo se observa para personas empleadas pero no para aquellos que deciden estar en casa (históricamente se mantienen para el caso de las mujeres). Otros ejemplos, en estudios de migración, solamente se observan aquella que decidieron hacer el cambio de residencia por diferentes factores. Hogares que realmente tienen acceso al crédito. No se pueden ver los otros casos, losque deciden quedarse en sus lugares de origen y los que no recibieron el crédito. Por tanto, es posible que al momento de estimar los determinantes de la migración o los factores que determinan el acceso al microcrédito, tengan el problema de selección muestral. i)
Especificación del modelo (Modelo de Selección de Heckman, Tobit tipo 2)
Considere un modelo con dos variables latentes ∗ y ∗ que dependen linealmente de variables observables y respectivamente, es decir: ∗
=
+
∗
=
+
con ( , )~
0 , 0
1
Los términos de error y son independientemente (entre observaciones) y conjuntamente normalmente distribuidos con covarianza . Note que la varianza de es fijado a la unidad ya que en la estimación no está identificada. Las dos variables latentes no son observadas por el investigador. Estas se observan únicamente en un indicador cuando la variable latente ∗ es positiva. El valor de la variable ∗ = sólo se observa si el indicador es 1. pág. 50
pág. 51
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected] ( Φ(
) )
se omite y se convierte parte del término de error. El término de error además está correlacionada con si ≠ 0 y está correlacionada con . El resultado sesgado es llamado sesgo de selección o sesgo de selección muestral. (Demostración en Stata). Note que no existe sesgo si los componentes no observables están no correlacionados ( = 0) incluso cuando la muestra observada es altamente selectiva (sólo inlf, solo migrantes, sólo con créditos, etc.), es decir, incluso cuando y están correlacionadas y así algunos valores de son más probables a ser observadas que otras. La siguiente figura muestra esta situación.
Figura 3: modelo de selección con correlación observable y características no observables.
Como = 0.8, indica que se tiene una correlación positiva del error explica por qué, para un y , puntos de ∗ por encima del valor esperado (por ejemplo, el punto 6) es más probable para ser observado. El valor esperado de la variable es la esperanza condicional de sea observado ( = 1), en términos econométricos: ( | , ) = ( ∗|
= 1,
, )=
+
( Φ(
) = )
∗
condicionado a que
+
(
)
donde ( ) ≡ ( )/Φ( ) es el indicador conocido como el ratio inversa de Mills. Note que ( | , ) = si los dos términos de errores no están correlacionados, es decir que = 0. Esto es aun cierto cuando y están correlacionados, como por ejemplo en el caso usual cuando alguna variable independiente aparece en y en . ii)
Estimación
La regresión por MCO para la variable observada =
sobre
Figura 4: el modelo de selección con correlación de características observables pero características no observables no correlacionados. No es necesario decir que no existe sesgo si las características observables y no observables entre la decisión y la ecuación de regresión no esta correlacioandas. Este es el caso de una representación de muestra aleatoria pura, la cual se observa en la siguiente figura.
.
+
Obteniendo estimadores sesgados de , ya que el f actor:
pág. 52
pág. 53
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
La estimación por ML del modelo de selección tienen las propiedades estándar de ML (consistencia, eficiencia, normalidad asintótica, etc.). En la práctica es difícil para encontrar numéricamente el máximo valor, ya que el valor inicial es muy importante. Además, la estimación con el procedimiento de dos etapas que analizaremos en la siguiente sección es a menudo utilizado como valor inicial. La estimación por ML es sólo necesario cuando la prueba de = 0 es rechazado en la estimación de dos etapas. La estimación por ML del modelo de selección de Heckman descansa fuertemente en el supuesto de que el términos de errores están conjuntamente normalmente distribuidos. Hay un supuesto muy fuerte y a menudo no realista. Muchas estrategias de estimación semi paramétricas han sido propuestos donde relajan los supuestos distributivos sobre el término de error. Vea Vella 81998) para una introducción. iv) Figura 5: el modelo de selección tanto con características observables y características no observables no correlacionadas, es decir, muestras aleatorias. iii)
Estimación con el Procedimiento de Dos Etapas de Heckman
Heckman propuso un estimador de dos etapas que sólo considera la estimación de un modelo probit estándar y un modelo de regresión lineal. El procedimiento de dos etapas se define sobre la media condicional:
Estimación con el Método de Máxima Verosimilitud
Las ecuaciones de decisión y regresión pueden ser estimados simultáneamente por el método de máxima verosimilitud bajo el supuesto distribucional de los errores. La función de máxima verosimilitud consiste en dos partes: (1) la contribución de probabilidad de las observaciones con = 0, es decir, la probabilidad de no ser observado en la ecuación de regresión. (2) La contribución de probabilidad de las observaciones con = 1, es decir la probabilidad de ser observada multiplicada con la densidad condicional del valor observado: =
= 0] +
[
[
=0
[
[
[Φ(−
∗
= 0] + =1
−
)] + =1
Φ =1
+ (1 −
(
)
∗
=
∗
> 0, 0 en otro caso
+
Podemos utilizar para esta estimación consistente, el ratio inversa de Mills observaciones.
∗
≡
∗
=1
+
+
La primera etapa es la estimación consistente de por el método de ML utilizando todo el conjunto de observaciones en el modelo probit estándar:
= 1 si
= 1|
+
) = )
de todas las ’s observadas
=1
= 1|
( Φ(
+
=1
=0
=0
∗
= 0] +
=0
=
∗|
=1
=
=
= 1]
( | , )=
) )
Segunda etapa; es la estimación de la ecuación de regresión con el ratio inversa de Mills como una variable adicional:
− )
( ) ( = 1 − Φ( ) Φ(
, para todas las
/
=
+
+
Para la submuestra de todas las observaciones. El modelo de regresión de MCO obtiene ,
y así la correlación
=
,
⁄ .
Note que esta función de máxima verosimilitud identifica , , , pero no la varianza de el cual fue fijado a la unidad. En el caso de = 0, las funciones de probabilidad se reduce a la suma de un modelo probit y un modelo regresión lineal que puede ser estimado por separado.
El estimador de dos etapas de Heckman es consistente per no eficiente. Además, la matriz de covarianzas del estimador de la segunda etapa proporcionado por MCO estándar es incorrecto con el regresor adicional (el ratio inversa de Mills), el cual esta medido con error y el término de
pág. 54
pág. 55
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
es hetorocedastico. Además el error estándar necesita ser corregido. Para más detalles Greene (2003, 22.4.3.) sobre cómo hacerlo. La pruena de la hipótesis nula = 0 es una prueba optima de = 0 y puede ser realizado utilizando los errores estándar “incorrectos” de MCO (como ellos son correctos bajo la hipótesis nula).
error
Existe a menudo un problema práctico de identificación (casi multicolinealidad) cuando las variables de ambas ecuaciones son las mismas, es decir, cuando = , vea Vella (1998). Los parámetros y están teóricamente identificados por la nolinealidad del ratio inversa de Mills (. ). Sin embargo, como puede verse en la siguiente figura, es caso lineal para una gran rango de valores de . Este es además fuertemente aconsejable para incluir variables en que no están incluidos en aunque esto es con frecuencia difícil encontrar tales variables.
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
donde depvar = , indepvars= , depvar_s = y varlist_s= . Stata calcula los parámetros de interés por el método de ML por dos etapas, agregando la opción twostep. Estimación de la primera etapa: probit inlf kidslt6 kidsge6 faminc age agesq predict y_hat, xb gen imr = normalden(y_hat)/normprob(y_hat)
Estimación de la segunda etapa: regress lwage educ exper expersq imr, r
Estimación del modelo de Heckman en dos etapas heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc age agesq) twostep heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc age agesq) first twostep heckman lwage educ exper expersq, select(kidslt6 kidsge6 faminc age agesq) first twostep mills(mymills)
Referencias: Figura 6: El ratio inversa de Mills y las observaciones de la Figura 3.
Greene, William H. (2003), Econometric Analysis, Prentice Hall, section 22.1-22.4. v)
Interpretación de los parámetros
En la mayoría de los casos, nosotros estamos interesados en el efecto de las variables independientes en toda la población. Además nos gustaría obtener los estimadores insesgados y consistentes de que es interpretado directamente como efecto marginal. En algunos casos, sin embargo, los investigadores están interesados en el efecto sobre la población observada. Para los regresores que aparecen en el lado izquierdo tanto en ∗ y ∗ , el efecto marginal depende no sólo de sino también de a través de la probabilidad de estar en la muestra. Vea Greene 2003, sección 22.4.2.). vi)
Aplicación
Davidson and MacKinnon (1993), Estimation and Inference in Econometrics, Oxford University Press, sections 15.6-15.8. Davidson and MacKinnon (2004), Econometric Theory and Methods, Oxford University Press, chapter 11.6-11.7. Amemiya, Takeshi (1994), Introduction to Statistics and Econometrics, Cambridge: Harvard University Press, section 13.6. Amemiya, Takeshi (1985), Advanced Econometrics, Cambridge: Harvard University Press, chapter 10. Chay, Kenneth Y. and James L. Powell (2001), Semiparametric Censored Regression Models, Journal of Economic Perspectives, 15(4), 29-42.
Stata calcula por el método de ML, con el comando heckman: heckman depvar [indepvars], select(depvar_s = varlist_s) [twostep]
pág. 56
pág. 57
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Vella, F. (1998) Estimating Models with Sample Selection Bias: A Survey, Journal of Human Resources, 33, 127-169
Prof. Edson Apaza Mamani
[email protected]
ECONOMETRÍA APLICADA Prof. Edson Apaza Mamani MODELOS DE ELECCIÓN MULTIPLE 9. Modelos de elección múltiple En muchas ocasiones, el agente económico debe elegir entre más de dos alternativas posibles. Los modelos presentados anteriormente pueden adaptarse, sin mucha dificultad, a este tipo de problemas de decisión. A modo de ejemplo, supongamos que cada individuo de una muestra puede escoger una entre tres alternativas posibles, y denotaremos por una variable que toma el valor de 1 si el individuo escoge la opción , mientras que toma el valor de 0 si el individuo escoge otra de las opciones. En esta sección analizaremos los modelos más conocidos de elección múltiple: probit ordenado, logit ordenado y modelo logit multinomial. 9.1.
Probit Ordenado
La variable dependiente a menudo toma números valores contables, por ejemplo: {1,2, … , } Esto aplica en contextos donde un agente (individuo, hogar, empresa, tomador de decisiones, …) elige de un conjunto de alternativas. Algunas veces tales valores/categorías de tales variables discretas pueden ser naturalmente ordenados, es decir, valores grandes se asumen a su correspondiente mayor “resultado”. El modelo probit ordenado es un modelo de variable latente que ofrece un proceso generador de datos para este tipo de variables dependientes. Algunos ejemplos:
i)
Escala en las encuestas de opinión: 1 = "Totalmente en desacuerdo", 2 = "Algo en desacuerdo", 3 = "Indeciso", 4 = "Algo de acuerdo ", 5 =" totalmente de acuerdo". Estado de Empleo: 1 = "sin empleo", 2 = "tiempo parcial", 3 = "tiempo completo". (Aunque a menudo se utiliza como ejemplo cabe preguntarse el orden "natural" en este caso y aplicar los modelos sin ordenar.) Especificación del Modelo Econométrico
Considere la variable latente aleatoria ∗
pág. 58
=
+
∗
para los individuos ~ (0,
= 1,2, … ,
)
pág. 59
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
que depende linealmente de . El término de error es independiente y normalmente distribuido con media 0 y varianza . La distribución de ∗ dado es ∗ además normal: ∗ | ~ ( , ). El valor esperado de la variable latente es = .
estimadores de la función de máxima verosimilitud asintóticamente eficiente y distribuidos normalmente.
La elección observada es únicamente si el índice del individuo indica la elección dentro de una categoría (que elige previamente) = 1,2, … , que se define a través de sus límites inferior y superiores , es decir, la elección observada es:
[el índice del individuo es omitida en esta sección] el signo del parámetros estimados puede ser interpretado directamente: un signo positivo nos dice si la probabilidad de respuesta/elección cambia a una categoría mayor cuando la variable independiente incrementa. La hipótesis nula = 0 implica que la variable , no tiene influencia sobre la probabilidad de elección. Tenga en cuenta, sin embargo, que la magnitud absoluta de los parámetros no tiene sentido, ya que es arbitrariamente escalado por el supuesto = 1. Lo cual puede abarcar, por ejemplo, no comparar directamente las estimaciones de los parámetros de la misma variable en diferentes subgrupos.
∗
1 ⎧2 ⎪ = 3 ⎨ ⎪ ⎩ La probabilidad que un individuo ayuda de la siguiente figura: Φ[( − ⎧ ⎪Φ[( − = Φ[( − ⎨ ⎪ ⎩1 − Φ
≤ < ∗≤ < ∗≤ ⋮ < ∗
elija la alternativa es fácilmente derivada con la )/ ] )/ ] − Φ[( )/ ] − Φ[(
− −
)/ ] )/ ]
iv)
Interpretación de los Parámetros
A menudo es interesante predecir las probabilidades de elección ( = | ) para ciertos tipos de y para inspeccionar el efecto marginal de una variable independiente en las probabilidades de elección (suponiendo = 1 y = 1).
=1 =2 =3
( = | ) ( = 2| )
⋮ −
/
= ( = 3| )
donde Φ(. ) Es la distribución acumulativa normal estándar. ii)
=− (
=[ (
=[ (
)
)− ( −
)− (
−
)] −
)]
Identificación …
La probabilidad de elección permite sólo para identificar los ratios / y / pero no , y individualmente. Además, uno usualmente asume = 1. Suponfa que la función índice contiene una constante, es decir = + +⋯+ . Entonces y , … , no están identificadas como sólo diferencias − aparecen en las probabilidades de elección . El modelo es usualmente identificado tanto por la definición de =0o = 0. iii)
̂ son consistentes,
y
Estimación
El modelo probit ordenado puede ser estimado utilizando el método de ML. La función de ML es:
( = | )
=
−
Tenga en cuenta que los efectos marginales sólo pueden ser reportados para tipos especificados . Cuando es positivo, entonces la probabilidad de elegir la primera categoría ( = 1) disminuye con y la probabilidad de que los última categoría ( = ) aumenta. Sin embargo, el efecto en las categorías medias es ambiguo y depende de . v)
Aplicaciones
El comando de Stata oprobit depvar [indepvars] [if] [in] [weight] [, options]
=
donde = 1 si el elije la alternativa y = 0 en caso contrario. La función de verosimilitud es numéricamente maximizado sujeto a < <⋯< . Los
estima los parámetros y el umbral en el modelo probit ordenado. Stata no asume la constante, es decir, = 0. depvar es una variable categórica que es más favorable pero no necesariamente codificado como 1,2, … , .
pág. 60
pág. 61
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
El comando post estimación. predict [type] {stub* | outcome(outcome) nooffset]
Econometría Aplicada
9.2. newvar
|
newvarlist}
[if]
[in]
[,
statistic
Prof. Edson Apaza Mamani
[email protected]
Logit Condicional
En la mayoría de los casos, las variables dependientes discretas {1,2, … , }
predict p1, p outcome(1)
predice la probabilidad de elegir, por ejemplo, la alternativa con valor = 1, en nuestra notación ( = | ), para todos los individuos de la muestra. Usted directamente puede predecir las probabilidades de elección para todas las alternativas. Para = 3 alternativas, el commando predict p1 p2 p3, p
asigna las probabilidades estimada ( = 1| ), 2| ) en las respectivas nuevas variables p1, p2 y p3.
(
= 2|
)y
(
=
no tienen un orden natural. Esto se aplica a menudo a un contexto en el que un agente (individuo, familia, empresa, toma de decisiones,...) elige a partir de un conjunto desordenado de alternativas. El modelo logit condicional requiere que las variables que varían entre alternativas y, posiblemente, a través de los individuos. Algunos ejemplos:
Los efectos marginales sobre la probabilidad de elegir la alternativa con valor 1 se calcula como
mfx compute, predict(outcome(1))
para un individuo con características medias ̅ . La opción at se utiliza para evaluar los tipos .
i)
Los viajeros eligen entre un conjunto de modos de transporte: "bus", "tren", "coche", "avión". Puede haber una variable "tiempo de viaje", que es específica a una alternativa y una variable "gastos de viaje" que depende del medio de transporte y el ingreso personal a través de los costos de oportunidad, que es el mismo para todas las alternativas. Los compradores de coches escogen entre ciertos tipos de vehículos: " Sedán 4 puertas", " coupé 2 puertas", "Station Wagons", "Convertibles", " Auto Deportivo", "Mini vans", "Todo terreno", "Camiones Tractor" , "Vans". Los compradores de papel higiénico tienen que elegir entre diferentes marcas. Las empresas deben elegir entre diferentes tecnologías.
Especificación del Modelo Econométrico
La elección de una de las alternativas desordenadas es impulsada por una variable latente, a menudo interpretada como utilidad indirecta. La utilidad indirecta ∗ de un individuo elegir la alternativa = 1,2, … , es: ∗
=
+
Hay términos errores para cualquier individuo . Las variables exógenas , , se puede dividir en variables que dependen de un sólo individuo, sólo en la alternativa, , o en ambos .
= ,
Un individuo elije la alternativa , siempre que ofrezca el mayor valor de utilidad indirecta. La elección observada de un individuo es por lo tanto 1 ⎧ ⎪2 = 3 ⎨ ⎪ ⎩ pág. 62
∗ ∗ ∗
∗
≤ ≤ ≤
∗ ∗
⋮ ∗
≤
∗
pág. 63
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Tenga en cuenta que esto implica que la elección sólo depende de la diferencia de utilidad y no sobre el nivel.
probabilidad de elección . Tenga en cuenta que para la identificación del efecto fijo, una alternativa actúa como referencia y su constante se fija en cero.
El modelo logit condicional supone que los términos de error siguen una distribución independiente e idénticamente un valor extremo. La función de distribución acumulativa es:
iii)
Estimación
El modelo condicional puede ser estimado utilizando máxima verosimilitud (ML). La función de verosimilitud es
= Esta especificación aparentemente arbitrario del término de error tiene dos características importantes: (1) La diferencia de dos términos de error sigue una distribución logística (como en el modelo logit). (2) La probabilidad de que un individuo elige la alternativa es una expresión simple (que no es trivial derivar): =
(
= |
)=
∑
=
donde = 1 si el individuo elije la alternativa y = 0 de lo contrario. El estimador de máxima verosimilitud es consistente, asintóticamente eficiente y normalmente distribuida. iv)
Interpretación de los Parámetros
La independencia del término de error a través de alternativas es un supuesto fuerte. Esto implica que la estocástica de un individuo, es decir, la preferencia no observada, la preferencia por una determinada alternativa es independiente de su preferencia estocástico para otras alternativas. Las fuertes y desagradables consecuencias de esta suposición se discuten en la literatura como independencia de alternativas irrelevantes (IIA).
[El índice de individuo se omite en esta sección] En algunas aplicaciones existe una interpretación natural de la variable latente ∗ . En estas situaciones, el signo de un parámetro se puede interpretar como la dirección de la influencia de la variable , = ,… , ,…, para todo . Tenga en cuenta que la magnitud absoluta de los parámetros no tiene sentido o intepretación dirrecta.
ii)
A veces es interesante examinar el efecto marginal de una variable independiente en las probabilidades de elección:
Identificación
En el modelo logit condicional, las personas sólo se preocupan por las diferencias de servicios públicos a través de alternativas. Los factores que influyen en el nivel de utilidad dependen de todas las alternativas, por lo tanto no se puede explicar la decisión del individuo. Las variables independientes individuales específicas por lo tanto se cancela en la probabilidad elección =
∑
=
∑
=
( = | )
1−
=
( = ≠ | )
=
Tenga en cuenta que los efectos marginales dependen de sólo puede ser reportado para tipos especificados.
∑
y el correspondiente no está identificado. Un término constante que no varían con los individuos ni las alternativas es, por supuesto, no identificado por el mismo argumento. La característica individual comienza a jugar un papel cuando interactúan con las características de las alternativas (forman los efectos fijos).
que pasa por
y para ello
A menudo es más interesante utilizar el modelo estimado para predecir probabilidades de elección para los tipos de hogares específicos descritos por =
( = | )=
∑
A menudo es beneficioso incluir el término constante de la alternativa específica . Estos efectos fijos de la alternativa capturan todas las características observadas y no observadas que describen la alternativa que son idénticos entre los individuos. En este caso, el coeficiente de la variable de alternativa específica no es identificado: cualquier vector añade ∗ = + y ∗= − se cancela dentro de la
Sin embargo sólo se puede inspeccionar los cambios de las características individuales en el resultado predicho como toda la información sobre las alternativas está encerrado en el estimado βj alternativa parámetros específicos. Además, no es posible simular la adición o supresión de alternativas de elección.
pág. 64
pág. 65
Econometría Aplicada
v)
Prof. Edson Apaza Mamani
[email protected]
Aplicaciones
Los modelos logit multinomiales sólo utiliza las características individuales específicas. Los datos se almacenan como los datos habituales de corte transversal: una línea por cada individuo. La variable dependiente (vardep = ) es una variable categórica para el individuo que elige la alternativa . Las variables independientes (varindeps = ) no varían entre las alternativas. Stata estima el modelo logit multinomial utilizando el siguiente comando: mlogit vardep varindeps, basecategory (#)
donde # indica la alternativa para el cual el parámetro = 0 para su identificación (valor de la variable dependiente como base o punto de referencia). De manera general el comando mlogit es de la forma:
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
numéricamente muy exigente. Por otra parte, todavía no muchos entienden completamente los problemas prácticos que surgen de la identificación. Referencias Train, Kenneth E. (2003), Discrete Choice Methods with Simulation, Cambridge University Press. Chapter 1 and 2. Greene, William H. (2003), Econometric Analysis, Prentice Hall. Sections 21.7.1-21.7.3, 21.8. Amemiya, Takeshi (1994), Introduction to Statistics and Econometrics, Harvard University Press. Section 13.5.2. Amemiya, Takeshi (1985), Advanced Econometrics, Harvard University Press. Chapter 9.3.1-9.3.4.
mlogit depvar [indepvars] [if] [in] [weight] [, options]
El comando post-estimación
Davidson and MacKinnon (2004), Econometric Theory and Methods, Oxford University Press, chapter 11.4.
predict p1, p outcome(1)
predice la probabilidad de elegir la alternativa con valor = 1, en nuestra notación ( = 1| ), para todos los individuos en la muestra. Usted puede proyectar directamente las probabilidades de elección para todas las alternativas. Por ejemplo, para 3 alternativas, el comando es: predict p1 p2 p3, p
básicamente asigna las probabilidades estimadas ( = 1| ), y ( = 2| ) en las respectivas nuevas variables p1, p2 y p3.
(
= 2|
)
Los efectos marginales sobre la probabilidad de elegir por ejemplo, la alternativa con valor 1 se calcula mediante mfx compute, predict(outcome(1))
para un individuo con características medias ̅ . La opción at se utiliza para evaluar otros tipos más, . vi)
Vea otros temas relacionados ...
La propiedad de independencia de alternativas irrelevantes (IIA) de los modelos logit condicional y el modelo logit multinomial es, en la mayoría de las aplicaciones de un supuesto muy poco realista. Los estimadores de los parámetros y en especial las predicciones contrafactuales de ambos modelos son incompatibles si el IIA no se sostiene. Los modelos más flexibles que se han propuestos son el logit anidado (nested logit), logit mixto (kernel) o probit multinomial tanto. La flexibilidad del probit multinomial y el modelo logit mixto, sin embargo, tiene un precio: la estimación es pág. 66
pág. 67
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Las partes restantes son como en el modelo logit condicional: la elección observada de un individuo es
ECONOMETRÍA APLICADA Prof. Edson Apaza Mamani MODELOS DE ELECCIÓN MULTIPLE 9.3.
∗
1 ⎧ ⎪2 = 3 ⎨ ⎪ ⎩
∗ ∗
∗
≥ ≥ ≥
∗ ∗
⋮ ∗
∗
≥
los términos de error continúan como independiente e idénticamente una distribución de valor extremo
Logit Multinomial
El modelo logit multinomial se utiliza para el mismo tipo de situaciones de elección como el logit condicional:
= y la probabilidad de que un individuo
elige la alternativa es:
{1,2, … , } donde el valor de
=
no tienen un orden natural.
Sin embargo, el logit multinomial utiliza sólo las variables que describen las características de los individuos y no de las alternativas. Esto limita la utilidad del modelo para las predicciones hipotéticas. Algunos ejemplos:
i)
Los viajeros eligen entre un conjunto de modos de transporte: "bus", "tren", "coche", "avión". Hay variables que describen al viajero, como sus ingresos. No hay información sobre los modos de viaje. Los compradores de coches escoger entre ciertos tipos de vehículos: Los compradores de coches escogen entre ciertos tipos de vehículos: " Sedán 4 puertas", " coupé 2 puertas", "Station Wagons", "Convertibles", " Auto Deportivo", "Mini vans", "Todo terreno", "Camiones Tractor" , "Vans". Sólo se utiliza información sobre el comprador. Los compradores de papel higiénico eligen entre diferentes marcas. Como en el caso anterior, sólo se utiliza información sobre el comprador. Las empresas deben elegir entre diferentes tecnologías. Sólo se utiliza Información de la empresa. Especificación del Modelo Econométrico
∗
=
= |
)=
∑
Una característica interesante del modelo logit multinomial es que el ratio de probabilidad /odds ratio) ( / ) depende log-linealmente de . = ii)
−
Identificación
El vector de parámetros , = 1,2, … , no tienen una nunca definición: cualquier vector se añade a todos los vectores de ∗ = + cancela en las probabilidades de elección =
∑
(
)
=
∑
=
∑
Los ’s se identifican generalmente mediante el establecimiento de la alternativa de referencia. iii)
El modelo logit multinomial difiere del modelo logit condicional sólo en la especificación de la parte determinística de la utilidad indirecta, ∗ .
(
= 0 para una
Estimación
El modelo condicional puede ser estimado utilizando máxima verosimilitud (ML). La función de verosimilitud es
+
Las variables exógenas describen únicamente los individuos y son idénticos entre las alternativas. Sin embargo el parámetro difiere entre las alternativas. pág. 68
=
pág. 69
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
donde = 1 si el individuo elije la alternativa y = 0 de lo contrario. El estimador de máxima verosimilitud es consistente, asintóticamente eficiente y normalmente distribuida. iv)
Interpretación de los Parámetros
[El índice individual se omite en esta sección] Los parámetros del modelo logit multinomial son difíciles de interpretar. Ni el signo (véase la sección de identificación anteriormente) ni la magnitud del parámetro tiene un significado intuitivo directa. Las pruebas de hipótesis deben, pues, ser muy cuidadosamente formuladas en términos de los parámetros estimados. El efecto marginal de una variable independiente la alternativa ( = | )
depende no sólo de los parámetros alternativas ̅ = 1/ ∑
en la probabilidad de elección para
Prof. Edson Apaza Mamani
[email protected]
Sin embargo sólo se puede inspeccionar los cambios de las características individuales en el resultado proyectado, como toda la información sobre las alternativas está encerrada en los parámetros específicos estimado de la alternativa . Además, no es posible simular la adición o supresión de alternativas de elección. v)
Aplicaciones
Los modelos logit multinomiales sólo utiliza las características individuales específicas. Los datos se almacenan tanto como es usual en formato de corte transversal: una línea por cada individuo. La variable dependiente (depvar = ) es una variable categórica con la persona que elige la alternativa . Las variables independientes (indepvar= ) no varían entre las alternativas. Stata estima el modelo logit multinomial con el comando mlogit depvar indepvars, basecategory(#)
− ̅
=
donde # indica la alternativa para el cual el parámetro = 0 para su identificación (valor de la variable dependiente como base o punto de referencia).
sino también en la media de todas las demás
Una posible interpretación más directa de las estimaciones de los parámetros se puede se ha subido al ver el registro de la razón de posibilidades: Una posible interpretación más directa de las estimaciones de los parámetros se puede obtener viendo el logaritmo del ratio de probabilidades: /
Econometría Aplicada
=
El comando post-estimación predict p1, p outcome(1)
predice la probabilidad de elegir la alternativa con valor = 1, en nuestra notación ( = 1| ), para todos los individuos en la muestra. Usted puede proyectar directamente las probabilidades de elección para todas las alternativas. Por ejemplo, para 3 alternativas, el comando es: predict p1 p2 p3, p
−
básicamente asigna las probabilidades estimadas ( = 1| ), y ( = 2| ) en las respectivas nuevas variables p1, p2 y p3.
que se reduce a: /
(
= 2|
)
Los efectos marginales sobre la probabilidad de elegir por ejemplo, la alternativa con valor 1 se calcula mediante
=
para las comparaciones con la categoría de referencia . Un parámetro positivo significa por lo tanto que la probabilidad relativa de elegir aumenta la probabilidad relativa de elegir .
mfx compute, predict(outcome(1))
para un individuo con características medias ̅ . La opción at se utiliza para evaluar otros tipos más, .
El modelo logit multinomial también se puede utilizar para predecir probabilidades de elección para determinados tipos de hogares References =
( = | )=
∑ Train, Kenneth E. (2003), Discrete Choice Methods with Simulation, Cambridge University Press. Chapter 1 and 2. pág. 70
pág. 71
Econometría Aplicada
Prof. Edson Apaza Mamani
[email protected]
Greene, William H. (2003), Econometric Analysis, Prentice Hall. Sections 21.7.1-21.7.3, 21.8. Amemiya, Takeshi (1994), Introduction to Statistics and Econometrics, Harvard University Press. Section 13.5.2. Amemiya, Takeshi (1985), Advanced Econometrics, Harvard University Press. Chapter 9.3.1-9.3.4. Davidson and MacKinnon (2004), Econometric Theory and Methods, Oxford University Press, chapter 11.4.
pág. 72