Notas sobre modelos de variable dependiente limitada Graciela Sanroman Serafín Frache Cátedra Cátedra de Econometría Econometría FCEA-UDELAR. Mayo, 2005
1
Intr Introdu oducc cció ión n
Los modelos de variable dependiente limitada (VDL) incluyen un conjunto de modelos en los cuales el comportamiento comportamiento de la variable dependiente dependiente di fiere del esperado en el modelo de regresión regresión lineal lineal clasico clasico.. Dentro Dentro de los modelos modelos VDL encontra encontramos mos los modelos modelos de elección discreta (también denominados de variable cualitativa) y los modelos de variable truncada o censurada. censurada.
2
Modelo odeloss de de elec elecci ción ón discr discret eta a
En los modelos de elección discreta la variable a ser explicada, y , es una variable variable aleatoria que sólo puede adoptar un número
finito
y generalmente reducido de valores. Uno de los
casos de mayor interés es el caso en el cual y sólo puede adoptar dos valores, por ejemplo cero o uno. Este tipo de variables variables es poco usual cuando se trabaja con datos agregados agregados (por ejemplo, el PBI, el consumo, la inversión, el empleo) pero es muy común cuando se consideran micro datos. Por ejemplo, y, y , podría ser una variable que indicara si una persona participa en el merc mercad ado o labor laboral al,, o si está está ocup ocupad ado o, o si hay hay niño niños s en un hoga hogarr, tamb tambié ién n podr podría ía indic indicar ar si una empresa realizó inversiones en maquinaria en un período determinado. Es posible enmumerar muchos otros casos que ilustran decisiones económicas de los individuos que refieren a la elección entre un conjunto finito de alternativas. alternativas. En el caso binario es usual suponer que los valores que puede adoptar la variable y son 0 o 1, y se denomina “éxito” al caso en el cual y = 1. Estos valores son completamente arbitarios aunque aunque facilitan el análisis del problema. En estos modelos estaremos interesados en estimar la probabilidad de que y adopte un valor determinado.
1
Es fácil corroborar que:
⎧⎨ y = 0 Pr(y Pr(y) = ⎩ y = 1
1
− p p
E (y) = Pr(y = 1) = p = p V ( V (y) = E (y E (y))2 = p(1 p(1
−
(1)
− p) p)
Pero Pero lo que interesar interesará á es el análisis análisis condicio condicional nal,, o sea el análisis análisis de y | x, con x =
¡
¢
x1, x2 , ......x ......xk 0 : E (y | x) = Pr(y Pr(y = 1 | x | x)) = p( p (x) V ( V (y | x) = p( p(x) [1 p( p(x)] = σ 2 (x)
−
(2) (3)
Entonces, podemos también ver este problema como uno en el que queremos un modelo para la media condicional E ( E (y | x) x ) = p( p (x) sabiendo que se trata de un problema intrínsecamente heterocedástico. En los modelos de elección binaria, de forma análoga que en el caso del modelo de regresión lineal, el interés de la estimación puede estar en:
a) Estudiar qué variables del vector x son relevantes para determinar la probabilidad de que y sea igual a uno (cero).
b) Estimar los efectos parciales (analizar cómo varía esa probabilidad ante cambios de una variable, por ejemplo, x j ).
c) Predecir y. y .para distintos valores de x. Pero para ello es necesario estimar p( p (x). Supongamos que
© ª
yi , xi i=1,...,N =1,...,N es una muestra aleatoria, para realizar una estimación paramétrica es necesario elegir una forma funcional para p( p (xi ) Estudiaremos Estudiaremos dos alternativas alternativas básicas: básicas:
(i) El modelo de probabilidad lineal (MPL) que supone linealidad es decir que p(xi ) se puede representar como x 0i β . (ii) Los modelos índice (o indicador) que incluyen 2
• El modelo probit, en el cual, p(xi ) = Φ(x0i β ) siendo Φ(.) la función de distribución de una v.a. N (0, 1).
• El modelo logit, en el cual, p(xi ) = Λ(x0i β ) siendo Λ(.) la función de distribución de una v.a. logística estándar . Notar que x es un vector de dimensión k que puede incluir variables transformadas (tales como el logaritmo, el cuadrado o el cubo) o interacciones entre variables.
3
El modelo de probabilidad lineal para variables de elección binaria
El modelo de probabilidad lineal para variables dependientes binarias puede especi ficarse como,
Pr(yi = 1 | x i) = x 0i β = β 0 + x1i β 1 + x2i β 2 + .. + xki β k En este modelo el efecto parcial ∂ Pr(yi = 1 |
xi )/∂ x j
= β j , es decir β j es el cambio en la probabilidad de éxito dado un aumento in finitesimal en la variable continua x j dejando constante el otro conjunto de variables; si x j no es continua y, en cambio, es una variable binaria β j es simplemente la diferencia en la probabilidad de éxito cuando x j = 1 y x j =
0.1
Para estimar este modelo apropiadamente es importante recordar que el mismo es intrínsecamente heterocedástico. Por lo tanto, en ausencia de otros problemas de especificación, la estimación MCO será consistente pero ine ficiente.
Podremos alternativamente
estimar por MCO y calcular los errores estándar robustos a heterocedasticidad a través de la fórmula de White. Pero alternativamente, dado que en este modelo la forma de la varianza del estimador es conocida, los estimadores MCG serán asintóticamente más e ficientes. Para estimar utilizando MCG un procedimiento sencillo es realizar un proceso en dos etapas. En el
b
primero se obtienen estimaciones consistentes β M CO utilizando la regresión MCO, a partir de ellos se realiza la predicción yi . Seguidamente, y siempre que se cumpla que 1 Esto
b
se cumple para x j siempre que la misma no aparezca funcionalmente relacionada con ninguna otra variable del vector x. Aunque es sencilla la generalización al caso en el cual esto no se cumple, por ejemplo, al caso en el cual el cuadrado de la variable está también incluido o si se incluyen productos cruzados.
3
0 < yi < 1 i = 1..N, se calcula σ2i = yi (1
b
b b − b b b b b b
∀
yi). Finalmente, en una segunda etapa, se
obtienen los estimadores β M CG aplicando la regresión MCO a
yi /σi , 1i /σi , x1i /σi , ....xki /σ i i = 1..N.
3.1
Limitaciones y ventajas del MPL
Limitaciones del Modelo de Probabilidad Lineal:
b
(i) Predicciones yi no necesariamente pertenecen al intervalo [0, 1] (ii) Efectos parciales constantes ∂ P (yi = 1 | xi )/∂ xk = β k
∀xi.
Ventajas del Modelo de Probabilidad Lineal:
(i) Es lineal, por lo cual las propiedades de los estimadores son ampliamente conocidas (ii) Ofrece buenas estimaciones de los efectos parciales para valores de
xi cercanos
a
su media (en ausencias de otros problemas de especi ficación)
(iii) Problemas tales como errores de medida en las variables explicativas, presencia de heterogeneidad inobservable u otras fuentes de endogeneidad son más facilmente tratadas.
4
Modelos “Indice”: Probit y Logit
¡
P yi = 1 | x i
donde xi =
¡¡
¢ ¡¢ = p
xi
= pi
= G(x0i β ) = G(r)
¢¢
1, x2i ,....,xKi es un vector K × 1 de características del individuo i
β = β 1 , β 2 , ...., β K es un vector K × 1 de parámetros desconocidos β denominamos a r = x 0i σ = β 1 + β 2 x2i .... + β K xKi función “Indice” G(.) es una función que proyecta ese índice en la probabilidad condicional.
Queremos 0 < G(.) < 1, entonces una fdp es una opción razonable. Las más usadas
4
G(r) =
Φ(r)
Z
r
=
−∞
G(r) =
√ 12π exp
(Modelo Probit)
½− ¾ 1 2 r 2
Λ(r)
(Modelo Logit)
exp(r) 1 + exp(r)
=
Las prediciones de estos modelos serán predicciones de la probabilidad condicional y asumirán la forma pi = G(r) = G(x0i β ).
5
b
b
Estimación de los modelos Probit y Logit
Cuando utilizamos este tipo de modelos nos enfrentamos a una estimación en la cual a forma de la función de verosimilitud es conocida. La contribución de cada individuo a la verosimilitud será
¡ − ¢−
y pi i 1 pi 1 yi entonces, la función de verosimiltud de una muestra aleatoria
N
L(β ) =
Y ¡ − ¢−
y pi i 1 i=1
© ª
yi, xi , i = 1, ...N será
pi 1 yi
(4)
de donde la log-verosimilitud
N
X ¡− ¢ ¡− ¢ b b X L(β ) =
li (β )
(5)
i=1
pi y p i = G(x0i β ).2 Entonces, los estimadores máximo verosímiles (MV) de β 3 serán
donde l i (β ) = y i log( pi ) + 1
yi log 1
N
β M V = β = arg max
b
2 Notar
li(b).
(6)
i=1
que si el parámetro de interés es p (es decir la probabilidad incondicional P [y1 = 1]), entonces la N 1 solución al problema de verosimilitud será p = N i yi = N , donde N 1 es la cantidad de éxitos en la muestra. 3 Es importante destacar que los parámetros pueden ser identi ficados “up to scale” es decir no es posible identificar separadamente los coe ficientes β y la varianza del término de perturbación σ.
b P
1
5
Las CPO del problema estarán dadas por:
N
X b
i=1
∂ li (β ) = 0. ∂ b
(7)
∂ G(r) ∂ l (b) g(xi b)xi[yi G(xi b)] g(xi b)xi[yi pi ] entonces i , = = . Es importante ∂ r ∂ b G(xi b)[1 G(xi b)] pi(1 pi) notar que esta última expresión evaluada en el verdadero valor de β corresponde con el 0
Sea g(r) =
− −
0
0
0
0
−
−
tanteo (o score) de la log-verosimilitud condicional de la observación i -ésima.4 De forma similar, el valor esperado del hessiano condicional en x i (que corresponde a ∂ 2 li (β )/∂ b∂ b0 ) resulta:
h i £ ¤ − h− i ⎧⎪⎨ h i b ³ ´ X b b ⎪⎩ b h − b i ⎧⎨X £ ¤ ⎫⎬− b ⎩ b ¡ − b ¢ ⎭ b E Hi (β ) | xi =
y por lo tanto
2 g(x0iβ )
G(x0i β ) 1
Avar β
=
=
(8)
⎫⎪⎬−1 0 i i⎪ ⎭
(9)
G(x0i β )
2 g(x0i β )
N
0 i
0 i=1 G(xi β ) 1
G(x0i β ) 1 N gi 2 0 xi x i pi 1 pi i=1
xi x
x x
= V
Notar que
g(x0i β ) = φ(x0i β ) 1 = exp 2π g(x0i β ) = = 4 Notar
½ ¾ h i √ − h− i h i 1 2
0 β 2 i
x
0 β ) 1 Λ(x0 β ) i i exp(x0i β ) 2 1 + exp(x0i β )
Λ(x
(Modelo Probit)
(Modelo Logit)
que en general no existe una solución cerrada para [7] debido a que no es un problema lineal en los parámetros. Una ventaja de este problema es que es globalmente cóncavo. Para obtener una solución es necesario utilizar algoritmos del tipo Newton-Ramphson o BHHH . No obstante, actualmente la casi totalidad de los paquetes estadísticos incluyen rutinas para estimar los modelos probit y logit por máxima verosimiltud, por lo cual para estimarlos no es necesario conocer el detalle del procedimiento de optimización.
6
5.1
Contrastes de hipótesis en los modelos Probit y Logit
bb
El vector β tendrá una distribución asintótica normal con media β . El error estándar (asin-
b
tótico) de β j estará dado por la raíz cuadrada del j ésimo elemento de la diagonal de V
−
en [ 9]. Por lo tanto es posible calcular los estadísticos t y construir intervalos de con fianza a la manera usual para realizar contrastes respecto a los parámetros β j .
Para realizar contrastes múltiples, se pueden utilizar tantos los test de Wald, de RV o LM, los tres son asintóticamente equivalentes. Por ejemplo, considere el modelo
¡
¢
P yi = 1 | x i , zi = G(x0i β + z0i γ ) donde xi , zi son vectores de dimensión K 1 y K 2 respectivamente. Queremos realizar el contraste de exclusión H 0 : γ = 0. El estadístico de Wald se obtiene estimando el modelo sin restricciones y calculando
³ b − ´ h b i− ³ b − ´
W = Rθ donde θ
⎛ ⎞0 ⎠ (K 1+ K 2) × 1 = ⎝
R=
β
³
identidad
γ
R1
R2
´
r
0
R × V × R0
1
Rθ
r
es el vector de parámetros
R1 K 2 × K 1 es una matriz de ceros y R 2 K 2 × K 2 es la matriz
r es un vector K 2 × 1 de ceros
b
b
V (K 1 + K 2 ) × (K 1 + K 2 ) es la matriz de varianzas y covarianzas de θ estimada.
Bajo la hipótesis nula el estadístico W se distribuye asintóticamente como una χ 2 .
K 2
El estadístico del contraste de la Razón de Verosimilitudes está dado por RV =2
donde
¡
LNR
− LR
¢
LN R es la log-verosimilitud resultante en la estimación del modelo no restringido. LR es la log-verosimilitud resultante en la estimación del modelo restringido.
Bajo la hipótesis nula el estadístico RV se distribuye asintóticamente como una χ 2 . K 2
El estadístico del contraste de los Multiplicadores de Lagrange es equivalente a
2
LM = NR
∗
donde
7
N es el tamaño muestral
2 es el coe ficiente de determinación en una regresión MCO de u sobre x y z i i i y g g i pi i i siendo ui = ; x = x y z i = z . pi (1 pi ) i pi (1 pi ) i pi (1 pi ) i Bajo la hipótesis nula el estadístico LM se distribuye asintóticamente como una χ 2 . K R
∗
5.2
b∗ p b − −b b ∗ p b b − b
p b b − b
∗
b∗
∗
∗
2
Medidas de bondad de ajuste
Existen distintos estadísitcos que ofrecen medidas de bondad de ajuste de los modelos probit y logit. Las medidad de bondad de ajuste más usuales son: 1. Proporción de predicciones correctas. Sea vc un “valor de corte”, se de fine
⎧⎨ byi = ⎩
bb
0
si yi < vc
1
si yi > vc
Habitualmente vc es establecido igual a 0.50, o también se establece en la frecuencia muestral de unos. Una medida del ajuste del modelo podría ser la proporción total de aciertos, no obstante, ésta será en general una mala medida. Para comprobarlo, basta observar el siguiente ejemplo: en los modelos de morosidad bancaria es razonable suponer que la proporción de no morosos es mayor al 90%, entonces, será difícil encontrar un modelo estadístico que obtenga una mayor proporción de predicciones correctas
b
que un modelo que simplemente establece yi = 1 i. Esto es debido a que muchas
∀
veces es más sencillo predecir los unos que los ceros (o viceversa). Entonces, deberíamos tener en cuenta separadamente la proporción de unos (ceros) predichos correctamente, o sea,
b
yi
yi 0 1
0
1
N 00 N 10
N 01 N 11
A partir de estos estadísticos, se pueden obtener medidas sintéticas, tales como el
d
porcentaje de ceros acertados dado por pr0 =
8
N 00 el porcentaje de unos acN 00+N 10 ,
N 00 N 00+N 10 y a partir de ellos podemos calcular combinaciones lineales convexas de pr1 y pr0, o el min( pr1, pr0).
dd d
ertados pr1 =
dd
2. Pseudo-R 2 de McFadden. Se basa en comparar la log-verosimilitud resultante en la estimación con las K variables explicativas
³ bh i´ L β
y compararlo con la log-
verosimilitud de un modelo que incluye sólo una constante (L0 ).
Pseudo-R 2 = 1
³´ b − L β L0
.
Notar que éste estadístico está relacionado con el estadìstico ya que
RV = 2
³ b³ ´ − ´ X ¡ − b ¢ X b X ¡ − b ¢ L β
RV pero
(10) no es igual,
L0 .
3. Suma de los cuadrados de los residuos. Se de fine como
N
yi
pi 2 =
i=1
p2i + 1 pi 2 . i:yi =0 i:yi=1
(11)
Este estadístico penaliza los errores según su distancia respecto a 0 o 1; esta medida no será de ninguna utilidad dado que estamos frente a un modelo heterocedástico. Es posible de finir la suma de los cuadrados de los residuos ponderada
X b¡ ¡− b− b¢ ¢ X ¡ b− b ¢ X ¡ b− b ¢ N
yi pi 2 1 pi pi = + . pi pi 1 pi 1 pi i=1 i:yi =0 i:yi =1
(12)
que corrige el problema de heterocedasticidad. 4. Criiterio de información de Akaike
AIC = donde K es la dimensión del vector β .
³ ´ b −
L β + K
Este estadístico particularmente útil para contrastar modelos no anidados. Como es habitual el criterio es elegir el modelo que minimice el estadítico AIC. 5. Test de Efran R2 Efran = 1
9
¡ ¢ X b − − ¡ − ¢ N
yi pi 2 2 i=1 yi y
donde y =
P
yi es la frecuencia muestral de unos. R 2 Efran no está acotado al N i
intervalo unitario, y no es claro que es lo que permite medir, ya que no se relaciona directamente con la varianza explicada por el modelo. Es importante destacar que ninguno de los estadísticos antes de finidos tiene una distribución asintótica conocida. Recordar que, no obstante, es posible realizar contrastes estadísticos sobre la signi ficación conjunta de todos (o varios) de los coe ficientes de un modelo mediante los contrastes de Wald, RV y LM, tal como se explicó en la sub-sección anterior.
5.3
Efectos parciales en los modelos Probit y Logit
Una diferencia importante de los modelos Probit y Logit con respecto al Modelo de Probabilidad Lineal es que, en los primeros, los efectos parciales dependerán del valor de
5.3.1
xi .
Efectos parciales cuando la variable x es continua
Si x j es una variable continua, entonces es posible de finir el efecto parcial como,
¡
∂ P yi = 1 | x i ∂ x j
¢
³
∂ P yi = 1 | 1, x1i ,...x ji .xKi = ∂ x j
´
= β j g(x0i β )
El efecto parcial será diferente para los diferentes individuos. Es necesario decidir en que valores es evaluan, las dos alternativas más obvias:
" P # ¤ P
a) Obtener la media muestral del efecto parcial β j 1 N b) Evaluarlo para
x (el
N
i=1
valor de la media muestral de
h i £
g(x0iβ ) .
xi ), o
sea, el el efecto parcial
es β j g(x0 β ) = β j g(β 1 + β 2 x2 + ..β K xK ) donde x j = 1 N
N
i=1
x ji .
Es importante tener en cuenta que el efecto parcial de β j es una función del vector β , por lo cual, para calcular los errores estándar y construir intervalos de con fianza para los efectos parciales se utilizará el método delta.
10
5.3.2
Efectos parciales cuando la variable x es binaria
Suponga que xK es una variable binaria, o sea, adopta sólo dos posibles valores, por ejemplo 0 y 1, el efecto parcial de x K estará de finido por la diferencia,
G(β 1 + β 2 x2i .... + β K 1 xk 1i + β K )
− − −G(β 1 + β 2x2i.... + β K −1xk−1i)
En este caso también es necesario de finir donde evaluar el efecto parcial y se aplica lo anterior, o sea, dos alternativas son obtener la media muestral de esta expresión o evaluar esta expresión para el promedio de las x que no son x K . 5.3.3
Efectos parciales cuando la variable x es discreta
Suponga que xK es una variable discreta ordinal, que adopta valores en el conjunto de los número enteros, por ejemplo x Ki mide los años de educación completos de un individuo, el efecto parcial de x K estará definido por la diferencia,
h
G β 1 + β 2 x2i .... + β K 1xk 1i + β K (xKi + 1)
h − G
− − β 1 + β 2 x2i .... + β K −1 xk−1i + β K xKi
i
i
Para evaluar este efecto parcial se aplican las alternativas de obtener la media muestral de esta expresión o de evaluar esta expresión para el promedio de las x .5
6
Probit y Logit como modelos de variable latente
Modelos de utilidad estocástica (RUM). Supongamos que un individuo enfrenta un problema de decisión binaria del tipo participar o no participar, invertir o no invertir, etc.. Especi ficamente supongamos que estoy estudiando la decisión de enviar un niño a una guardería. Definamos w0 como la utilidad que obtiene la madre si no lo envía y w1 si lo envía.
w0 = v0 + ε0 w1 = v1 + ε1 5 Formas
funcionales de las funciones G(.) y g() para los modelos Probit y Logit son las previamente
definidas.
11
donde v j es un componente determinístico y ε j es un componente aleatorio, notar que la decisión dependerá del signo de w1
− w0, al cual puedo expresarlo como, w1 − w0 = (v1 − v0 ) + ( ε1 − ε0 ) w∗ = v + ε yi = =
∗ > 0) 1(v > −ε) 1(w
Si supongo que ε se distribuye N(0,1) entonces el modelo probit además de ser un modelo estadístico tiene una interpretación estructural,
∗
Pr(yi = 1) = Pr (wi > 0) = Pr( vi < ε ) = =
− 1 − Φ(−vi ) Φ(vi )
Similarmente si supongo que ε se distribuye logistica, tengo
∗
Pr(yi = 1) = Pr (wi > 0) = Pr( vi < ε ) = =
− 1 − Λ(−vi ) Λ(vi )
Pero estamos considerando modelos microeconometricos, en los cuales lo que más interesa es analizar el comportamiento condicional, es decir, el objetivo del modelo es tener en cuenta v distintas para los individuos, En un modelo condicional no puedo observar separadamente v0 o v1 , pero supongo que la diferencia entre ambas depende de características observables del individuo,
0
vi = xi β yi
| =
∗ 1(x β > −ε) i
xi = 1 (wi > 0) 0
12
Para estimar este modelo podría suponer ε se distribuye como una variable normal,
¡ ¢ ¡ ¢
Pr yi | x i =
Φ(x
0
iβ )
pero también podría suponer que es una v.a. logit 0
Pr yi | x i = Λ(xi β )
7
Modelos multinomiales
Los modelos multinomiales son aquellos en los cuales el conjunto de elección es discreto pero hay más de dos alternativas. Consideramos el caso en el cual no existe un orden jerárquico entre las alternativas; por ejemplo el medio de transporte,
⎧⎪ ⎨ yi = ⎪⎩
1
bus
2
taxi
3 auto particular
Aquí los números no tienen ningun sentido, como tengo más de dos alternativas no puedo hablar de éxito o fracaso. Consideremos un caso en el cual existen M + 1 alternativas. 6 Defino un conjunto de M + 1 variables binarias que cubriran el conjunto de alternativas disponibles.
Notar que
M
P
j=0
⎧⎨ d ji = ⎩
1
yi = j
0 en caso contrario
j = 0, ....M
d ji = 1. Similarmente p ji = Pr(yi = j | x i) = Pr(d ji = 1 | x i)
6 La
cantidad de alternativas podría variar entre individuos. No obstante en esta exposición supondremos que todos los individuos enfrentan el mismo conjunto de alternativas.
13
La verosimilitud del modelo estará dada por
N M
YY X X
d p ji ji i=1 j=0 N L(β ) = li (β ) i=1 M li (β ) = d ji ln( p ji ) j=0
L(β ) =
7.1
Logit multinomial
El logit multinomial supone que
p ji = Pr(d ji = 1 | x i ) =
exp(x0i β j ) M 0 j=0 exp(xi β j )
P
este modelo se estandariza sin perder generalidad asumiendo que una alternativa “base” a la que denominamos como alternativa 0 cumple con β 0 = 0, o sea,
p0i = Pr(d0i = 1 | x i ) =
1+
P
1
M 0 j=1 exp(xi β j )
.
Notar que tengo J × M parámetros a estimar. Quedando así perfectamente de finido el problema de máxima verosimilitud. McFadden (1974) demostró que la log-verosimilitud de este problema es globalmente cóncava por lo cual el estimador máximo verosímil es muy atractivo. El modelo logit multinomial puede asociarse a modelos de utilidad estocástica. Supongamos que la utilidad que le brinda al individuo la alternativa j está dada por
u ji = v ji + ε ji j = 0, 1,...M y que v ji depende de características del individuo v ji = x i β j
h
p ji = Pr u ji = max(u1i , u2i , ......, uMi )
i
McFadden probó que el modelo Logit multinomial puede derivarse de un modelo de utilidad estocástica si los ε ji son variables aleatorias independientes cuya distribución es la
14
distribución de valor extremo de tipo 1, la función de distribución de probabilidad acumu-
³ ´ n− ³ ´o ³ − ´
lada es F ε ji = exp
exp ε ji
y densidad exp
que si eso se cumple
F ε ji
n− ³ ´o ε ji exp ε ji
. Lo importante es
εki se distribuye logistica
Obtener e interpretar los efectos parciales de este modelo es difícil, el efecto parcial cuando xk es una función continua está dado por
⎧⎨ ⎡ X M Pr(y = j | x) = Pr(y = j | x) jk − ⎣ ⎩ h=1 xk
∂
β
∂
⎤ ³ ´ 0 ⎦ hk exp x h
β
β
⎫ ³m x0 ´⎬⎭
Á
β
³´ P ³ ´
donde β hk es el elemento k-esimo de β h y m x0 β = 1 +
M exp x0 β . h h=1
Las predicciones del modelo pueden obtenerse asignando la opción que obtenga la mayor probabilidad. A partir de ello es posible obtener indicadores de porcentaje de predicciones correctas. Generalmente cuando estimamos estos modelos nos concentramos en los denomina-
p
p
dos odd-ratio p ji = exp(x0iβ j ) y el log-odd ratio ln( p ji ) = x0i β j cuando comparamos una 0i 0i p ji alternativa j respecto a la alternativa base, y p = exp x0i β j β k y el log-odd ratio
³ − ´
p ln( p jii ) = x 0i β j 0
ki
h ³ − ´i
β k cuando comparamos la alternativa j respecto a otra alternativa k.
Es importante notar que otra propiedad de este modelo es que cuando estimamos la probabilidad de que y = j condicional a que la variable y asume el valor j o k obtenemos un problema de tipo binario,
³
Pr d ji = 1 | x; d ji + dki = 1
´
p ji = p ji + pki =
exp(x0i β j )
exp(x0i β j ) + exp(x0i β k ) 1 = 1 + exp(x0i β k β j )
³−´
Se observa que cuando comparamos la probabilidad de una alternativa en relación a otra sólo interesan los coe ficientes de las alternativas bajo análisis. Esto se da así debido al supuesto de independencia de las variables aleatorias ε . Esta característica se denomina propiedad de independencia de las alternativas irrelevantes (IAI). Este es un defecto del modelo. El ejemplo con el que generalmente se ilustra el problema es el de medios de
15
transporte. Supongamos que inicialmente tenemos dos alternativas: 2/3 de la población utiliza auto propio mientras que 1/3 usa un bus rojo. el ratio de probabilidades es igual a
2/3 = 2 Consideremos que se modi fica el conjunto de alternativas y se incorpora un 1/3
bus verde, sería razonable suponer que ahora: auto propio 2/3, bus rojo 1/6, bus verde 1/6, ahora el odd ratio=
2/3 = 4. No obstante el multinomial logit diría que sigue siendo 2. 1/6
Aquí el problema es sencillo de solucionar porque es claro la sustituibilidad de bus verde frente a bus rojo, no obstante en otros problemas el dilema no es sencillo. Entonces, lo que estamos necesitando es un modelo que permita que las ε estén correlacionadas de forma de incorporar los distintos grados de sustituibilidad entre las alternativas.
7.2
Probit Multinomial
Supongamos que u ji con j = 1, 2,...M es la utilidad estocástica asociada a la alternativa
j. Definamos el vector u i = (u1i , u2i , ......, uM i )0 . Suponemos
ui
∼ N M
Nuevamente
³ ´ 0
xi β j , Ω
h
p ji = Pr u ji = max(u1i , u2i , ......, uMi ) Ejemplo M = 3
i
0
u1i = xi β 1 + ε1i 0
u2i = xi β 2 + ε2i 0
u3i = xi β 3 + ε3i εi
Ω
£ ¤ £h h
Pr d1i = 1
∼ N M (0, Ω)
⎡ ⎢ = ⎢ ⎣
σ2 1 σ 12 σ 13 σ2 2 σ 23 σ2 3
= Pr u1i > u2i , u1i > u3i 0
0
¤
⎤ ⎥⎥ ⎦ 0
0
= Pr xi β 1 + ε1i > xiβ 2 + ε2i , xiβ 1 + ε1i > xi β 3 + ε3i = Pr ε2i
0
0
i i
− ε1i > xi (β 1 − β 2) , ε3i − ε1i > xi (β 1 − β 3) 16
∼ N (0, Ω) entonces
como ε i
⎛ ⎝ i =
ξ
Γ
Pr(d1i = 1) =
Z
0
⎛ =⎝
2 σ2 1 + σ2
−
Z
−
xi (β 1 β 2 )
−
−∞
0
⎞ 2i − 1i ⎠ ∼ N (0, −
ε
ε
ε3i
ε1i
2σ12 σ 21
xi(β 1 β 3 )
−∞
¡
f ε2i
Γ)
− σ12 − σ13 + σ 2 σ2 1 + σ3 − 2σ13
− ε1i, ε3i − ε1i
⎞ 23 ⎠
¢¡
d ε2i
− ε1i
¢¡
d ε3i
− ε1i
¢
para calcular la integral múltiple tengo que proceder por cálculo númerico, y el problema se transforma en irresoluble para más de 3 alternativas. Como alternativa se pueden utilizar métodos de estimación por simulación. Algunas veces cuando se piensa que las opciones tienen un orden natural, por ejemplo, no trabajar, trabajar parcial, trabajar full time se utilizan los modelos denominados logit ordenados o probit ordenados.
8
Modelos de respuesta ordenada: Logit ordenado y probit ordenado
Otro tipo de modelos multinomiales son los modelos ordenados. Como el nombre lo sugiere si y es una variable ordenada entonces los valores que asignamos a cada alternativa ya no son totalmente arbitrarios. Por ejemplo y podrìa ser un rating de credito de 0 a 5 con y = 5 representando el mayor rating y y = 0 el rating menor. El hecho de que 6 es mejor que 5 es información útil; no obstante, la diferencia entre 6 y 5 no tiene un sentido de magnitud los valores tienen un sentido ordinal. Sea y una variable de respuesta ordenada que asume valores {0, 1, 2, ....J } para un
J entero conocido. El modelo probit ordenado para y (condicional en los regresores x) puede ser derivado desde un modelo de variable latente. Suponga que la variable latente
∗
y se define como y = x 0β + e
∗
con e | x
17
∼ Normal(0, 1)
donde β es un vector k × 1 y x no incluye constante. Sea α 1 < α 2 ... < α J valores de corte conocidos (parametros umbral) de finamos
∗
y = 0 si y < α 1 y = 1 si α 1 < y < α 2
∗
. .
∗
y = J si y > α J Dado el supuesto de normalidad de la variable e se sigue directamente que
Pr(y = 0 | x) = Pr( y < α 1 | x) = Pr(x0 β + e < α 1 | x) = Φ(α1 x0 β ) Pr(y = 1 | x) = Pr( α 1 < y < α 2 | x) = Pr(α1 < x0β + e < α2 | x) = Φ(α1 x0 β )
∗
−
∗
.
−
Φ(α2
− x0β ) −
.
Pr(y = J 1 | x) = Pr( αJ 1 < y < αJ | x) = Pr(αJ 1 < x0β + e < αJ | x) = x0 β ) Φ(αJ 1 x0β ) Φ(αJ Pr(y = J | x) = Pr( y > α J | x) = Pr(x0 β + e > α J | x) = 1 Φ(αJ x0 β )
− −
−
−
− − ∗
∗
−
−
−
El vector de parámetros α y β pueden estimarse por Máxima Verosimilitud. La contribución de cada individuo i esta dada por
£ ¤ h− £ ¤ − − £ ¤ h − − i
x0 β ) +1 yi = 1 log Φ(α2 x0 β )
li (α, β ) = 1 yi = 0 log Φ(α1
Φ(α1
−
...
+1 yi = J log 1
Φ(αJ
i
x0 β )
x0β )
Otras funciones de distribución en lugar de la normal pueden ser utilizadas. Por ejemplo la funciòn logistica da lugar a los conocidos como modelos logit ordenados. En cualquier caso debemos recordar que el interes de estos modelos no está en β per-se.
¡∗ ¢
En la mayoría de los casos no estamos interesados en E y | x
∗
= x0β en la medida
en que y es una construcción muy abstracta. Entonces, en general el interés estará en las probabilidades condicionales Pr(y = j | x) . Los efectos cuando el regresor es una
18
variable continua están dados por, ∂ Pr(y = 0 | x) = ∂ xk
−β k φ(α1 − x0β )
∂ Pr(y = J | x) = β k φ(αJ ∂ xk
h
− x0β )
∂ Pr(y = j | x) = β k φ(α j 1 ∂ xk
− −
x0 β )
− φ(α j −
x0β )
i
0 < j < J
Notar que mientras el signo del efecto de x k sobre Pr(y = 0 | x) y Pr(y = J | x) está totalmente determinado por el signo de β pero no asì para el efecto sobre (y = j | x)
− − x0β ) − φ(α j − x0β ).Similarmente se
para 0 < j < J el cual depende también de φ (α j 1 obtienen los efectos en el modelo logit ordenado.
Como en los modelos multinomiales las predicciones del modelo pueden obtenerse asignando la opción que obtenga la mayor probabilidad. A partir de ello es posible obtener indicadores de porcentaje de predicciones correctas.
9
Modelos de variable truncada y censurada
Cuando analizo microdatos también tendré casos en los cuales la variable dependiente tiene un comportamiento en parte “cualitativo”, en parte “cuantitativo”, por ejemplo: las horas trabajadas, la cantidad invertida en maquinaria por parte de una empresa. La situación aquí es la siguiente: para algunas observaciones la variable dependiente se comporta como continua, en tanto que para otras, la variable dependiente toma el valor cero. Tenemos en términos generales dos tipos de modelos: los modelos censurados y los modelos truncados. En los primeros se encuentran valores de las variables independientes para todos los casos, en tanto que la variable dependiente se observa para algunas observaciones y para otras no (por ejemplo se obtiene un cero). Un ejemplo de censura se da cuando se recopila información sobre el ingreso de un hogar y para los valores mayores a un cierto umbral sólo se recoge el hecho de que es mayor que ese umbral. Por ejemplo si el ingreso es inferior a c se observa el ingreso y si es superior a c no se registra el valor del ingreso, es decir,
⎧⎨ ∗ yi = yi yi = ⎩ yi = c 19
∗ ∗
yi < c yi > c
o
∗
yi = min(c, yi ) Un ejemplo de truncamiento es el salario. Sólo observamos el salario en aquellos casos en los que la persona está ocupada. ¿Cuál es sería el salario de los que no trabajan? No es cero obviamente, pero no observamos ningún valor.
9.1
Modelos de Regresión Truncada
Los modelos de regresión truncada se concentran en explicar el valor esperado de una variable endógena y condicional a los valores de las variables explicativas
x.
El problema
radica en que únicamente observamos la variable dependiente cuando la misma por ejemplo supera cierto valor. Cómo ejemplo se puede citar el caso en que se desea estudiar los salarios de las personas y únicamente se consideran aquellas perssonas que traba jan. El modelo de regresión truncada re fleja un modelo poblacional que cumple con los supuestos del modeo lineal clásico:
y = x β + u,
u | x
∼ N(0, σ2)
(13)
según estas suposiciones el procedimiento MCO produce los estimadores lineales e insesgados de mínima varianza. El problema es que sólo se observarán valores de y cuando sobrepasa un cierto umbral mínimo c , por lo que para estimar el vector β y σ necesitamos conocer la distribución de y dado que y i > c, en definitiva una distribución de probabilidad truncada. De esta forma, si tenemos una variable aleatoria continua con una función de densidad f (z ), la función de densidad de la variable truncada a partir del valor c es la función de densidad condicional:
f (z ) f (z ) = P [z > c] 1 F (c)
(14)
f (z ) (1/σ )φ((z µ)/σ ) = 1 Φ(c) 1 Φ(c)
(15)
f (z | z > c) =
−
∼ N (µ, σ2) entonces:
en el caso de que z
f (z | z > c) =
−
−
−
Veamos como es el valor esperado de la variable y en el caso del modelo truncado (ecuación 13):
E (y | y > c, x) = xβ + E (u | u > c
− xβ) = xβ + σE ( σu | σu > c −σxβ )
20
(16)
Aplicando la expresión (15) a E (u | u > c
− xβ) se obtiene: c−x β φ( σ ) E (yi | y i > c, xi ) = xi β + σ = x i β + σλi c − xβ Φ( σ ) i
i
(17)
φ(αi ) se le denomina inversa del ratio de Mills. A partir Φ(αi ) de esta expresión se puede ver cómo el estimador de β por MCO es sesgado, dado que
donde a la razón λ i = λ (αi ) =
ignora el segundo término de la ecuación (17). Utilizando el supuesto de normalidad de las perturbaciones de la ecuación (13) se puede calcular f (yi | x i , yi > c) usando (15), por lo que la función de verosimilitud será:
L(β, σ ) =
³ ´ h i − Y h− i − X − −X 1 σ φ
i 1
y la de log-verosimilitud será:
l(β, σ) =
− n2 (log(2π) + log(σ2) − 2σ12
(yi
y
c
Φ
xi β )
i
xi β
σ
xi β
(18)
σ
2
log(1
i
− Φ((c − xiβ)/σ)) (19)
a partir de la cual se obtienen los estimadores máximo verosímiles para β y σ ; el estimador máximo verosímil de la matriz de covarianzas puede obtenerse de la inversa de la matriz de información.
9.2
El modelo Tobit
Cierto tipo de modelos censurados son denominados modelos Tobit, en honor al economista James Tobin que estudió la demanda de bienes durables en un artículo de 1959. El modelo Tobit puede ser más sencillamente presentado como un modelo de variable latente:
∗
y = xβ + u,
u
∼ N(0, σ2)
∗
y = max(0, y )
(20)
(21)
donde la variable latente cumple con las suposiciones del modelo lineal clásico. La vari-
∗
∗ > 0, y y es 0 cuando y∗ < 0. variable y es mixta, ya que es discreta en 0 (cuando y ∗ < 0 ): able observada y es y cuando y
∗
P (yi = 0 | x β )=P (yi 6 0 | x i β) = P (u 6 xi β x β u = P ( 6 ) = Φ( i ) σ
−
−
σ
21
σ
La distribución de la
−xiβ)
(22) (23)
∗
y continua en los demás valores; es decir cuando y > 0 tendremos la función de densidad de una normal:
f (yi ) =
1 e 2πσ
−
√
1
( 2
y−xi β
µ¶∙− ¸ Yµ ¶ ∙ − ¸
σ
de esta forma la función de verosimilitud será:
Y
L(β , σ) =
Φ(
yi =0
σ
xi β
σ
φ
σ
yi =1
y
φ
1
−xiβ ) σ
1
)2 =
y
xi β
σ
(24)
(25)
y la log-verosimilitud
l(β, σ ) =
X
−x β log(Φ( i )) + σ
yi=0
X µ¶∙− ¸ 1
log(
σ
yi Â0
φ
y
xi β
σ
)
(26)
A partir de la maximización de la ecuación (26) se obtienen los estimadores β y σ ; el estimador máximo verosímil de la matriz de covarianzas puede obtenerse de la inversa de la matriz de información. Si a la ecuación (25) la multiplicamos por la siguiente expresión:
¸Y h i Y − Yµ ¶ ∙ − ¸Y ∙ ¸Y h i ³ ´ h i − Y h i Yµ ¶ ∙ − ¸Y ∙ ¸ Y
Φ
yi =1
∙i x
1
β
σ
xi β
yi =1 Φ
(27)
σ
reacomodando se llega a que:
L(β, σ ) =
Φ(
yi =0 =
xi β
σ
1 σ φ
yi =1
Φ
1
)
yi=1
y
σ
φ
xi β
σ xi β σ
y
σ
1
yi =1
xi β
σ
φ
Φ
yi =1
y
σ
xi β
σ
1
xi β
yi=1 Φ
Φ
yi =1
xi β
σ
xi β
= (28)
σ
(29)
donde la primer productoria de la segunda igualdad de la expresión (28) es un modelo truncado (cuando c = 0) y las otras dos productorias corresponden a un probit que modela si la observaciòn es censurada o no. La ecuación (28) sugiere que un modelo tobit (puede extenderse para un modelo censurado) es una combinación de un modelo probit, que determina las observaciones que son censuradas y las que no, y un modelo truncado para las observaciones no censuradas.
22
9.2.1
Efectos parciales en el modelo Tobit
Una expresión de particular importancia es la E (y | y > 0, x). Si z
z > c) = φ (c)/ [1
∼ N (0, 1) =⇒
− Φ(c)], entonces:
xβ xβ − ) φ( σ ) σ E (y | y > 0, x) = x β + σ = xβ + σ = x β + σλ xβ xβ 1 − Φ(− σ ) Φ( σ )
φ(
E (z |
(30)
φ(αi) donde nuevamente aparece la razón λ i = λ (αi ) = , la inversa del ratio de Mills, por Φ(αi ) xβ lo que E (y | y > 0, x) = xβ + σλ ( σ ). Para obtener los efectos parciales, podemos derivar la ecuación (20) respecto a x j y de
esta forma obtenemos el efecto parcial sobre la variable latente, variable que en ocasiones tiene un sentido económico y en otros no:
∗
∂ E (y | x) = β j ∂ x j
(31)
Pero para calcular el efecto parcial sobre la variable y debemos calcular en primera instancia E (y | x ):
E (y | x) = 0 · P (y = 0 | x ) + E (y | y > 0, x) · P (y > 0 | x ) E (y | y > 0, x) = x β + E (u | u >
(32)
−xβ) = x β + σE ( σu | σu > − xσβ )
(33)
Entonces:
E (y | x) = E (y | y > 0, x)P (y > 0 | x) =
∙
xβ
+ σλ(
xβ
σ
)
¸
Φ(
xβ
σ
)
(34)
Desarrollando la expresión anterior se llega a:
E (y | x) = Φ(
xβ
σ
)xβ+σφ(
xβ
σ
)
(35)
a partir de la cual queda claro que la E (y | x) es una función no lineal de ∂ E (y|x) queremos calcular es por lo que: ∂ x j
x y
β. Lo que
∂ E (y | x ) ∂ E (y | y > 0, x) ∂ P (y > 0 | x ) = P (y > 0 | x ) + E (y | y > 0, x) ∂ x j ∂ x j ∂ x j
(36)
En primer lugar podemos diferenciar la ecuación (30) y obtenemos: ∂ E (y | y > 0, x) dλ xβ = β j + β j ( ) ∂ x j dc σ
23
(37)
y usando el hecho que
d Φ(c) d φ(c) = φ (c) y = dc dc
entonces: ∂ E (y | y > 0, x) = β j ∂ x j
Por otro lado como
Φ(
−cφ(c) se demuestra que ddcλ = −λ(c) [c + λ(c)],
½− 1
λ(
xβ
σ
)
∙
xβ
σ
+ λ(
xβ
σ
)
¸¾
(38)
xβ
σ ) = P (y > 0 | x ) tenemos que: β j ∂ P (y > 0 | x ) xβ = ( )φ( ) ∂ x j σ σ
(39a)
xβ xβ σ )λ( σ ) = φ( σ ), que surge a partir de la de finición de la inversa de Mills, y simpli ficando se obtiene que:
Finalmente sustituyendo (38) y ( ??) en (36), usando que
Φ(
xβ
∂ E (y | x) xβ = β J Φ( ) ∂ xJ σ
9.3
(40)
Modelos de Regresión Censurada
Existen diferencias entre un modelo Tobit y un modelo censurado. Según se vió, el modelo Tobit responde a un problema económico, tiene variables continuas (dependiente e independientes) para valores de y positivos y tiene una probabilidad positiva de que la variable dependiente adopte el valor cero en algunos casos. El modelo de regresión censurada surge de que los datos de la variable dependiente son observados con censura, por ejemplo dentro de algún rango de valores. Por ejemplo, se recoge información del ingreso de los hogares hasta cierto nivel c, luego del cual no se recoge la información y se asume que la variable toma ese valor máximo (en de finitiva se “intercambia” el valor cero por un cierto umbral c). El planteo del modelo censurado sería el siguiente:
yi = x i β + ui
(41)
wi = min(yi , c)
(42)
donde por ejemplo si se asume que la distribución de u es normal e independiente del valor c , obtenemos el modelo de regresión normal censurado. La estimación del modelo de regresión normal censurado por MCO resulta en estimadores inconsistentes,al igual que sucede con el modelo Tobit; esto se deriva por un razonamiento similar con el que se llegó a la ecuación (30).
24
9.4
Modelos de selección muestral: El método de Heckman
En la ecuación (30) se puede ver cómo en el caso de aplicar MCO sobre los datos de la muestra truncada, es decir sobre las observaciones que cumplen que y > 0 , se obtiene un sesgo para el estimador β . En base de dicha constatación, Heckman plantea un método de estimación en dos etapas para obtener una estimación consitente de β (Modelo de selección muestral). El procedimiento consiste en intriducir una variable
ficticia
di (variable de selección)
que toma el valor 1 si y > 0 (caso en que no hay censura) y 0 en el caso contrario (
d = 1[y > 0] ). Esto lo podemos expresar de la siguiente forma:
⎧⎨ c yi = d i yi∗ + (1 − di )c = ⎩ yi∗
si d i = 0
(43)
si di = 1
lo cual corresponde a la versión censurada del modelo de selección muestral. También se puede construir la versión truncada, la cual sería:
∗
yi = d i yi
(44)
Continuemos trabajando para el caso del modelo censurado. Si se considera entonces el modelo de regresión que se aplica a las observaciones no censuradas:
E (yi | x i, di = 1) = x i β + σλi
(45)
lo que muestra que se podría estimar en forma consistente a β y σ si λ i fuera observable. Podemos dividir al modelo planteado en (45) entre σ : λ y x u ( i ) = ( i ) β + σ ( i ) + ( i ) σ
para los casos en que
di =
σ
σ
σ
(46)
1 se tiene que:
P [di = 1 | z ] = P [y > 0 | z ] = Φ(zγ )
(47)
entonces estimamos el modelo (47) para todas las observaciones, que por sus caracterísγ en una primer etapa ticas es el modelo probit ya presentado. A partir de la estimación de ˆ ˆ ) ˆ con ˆλ = φ(zi γ se pueden construir los distintos λ . En una segunda etapa se reestima i i Φ(zi γ ˆ ) λi como variable adicional. el modelo original (46) incorporando la variable ˆ
En resumen, en la primer etapa se estima un modelo probit utilizando todas las ob-
ˆ . En una segunda etapa se estima servaciones con el objetivo de construir la variable λ i 25
por MCO el modelo original considerando las observaciones no censuradas regresando
ˆ . En la primer la variable y contra las varables explicativas x y adicionando la variable λ etapa se estima la probabilidad de que los datos sean no censurados, en tanto que en la
ˆ para corregir el problema de sesgo que segunda etapa se incluye la variable adicional λ tiene la estimación MCO. Se debe señalar que el estimador MCO de la matriz de varianzas y covarianzas de la segunda etapa es sesgado y debe ser corregido. Amemiya, T. (1985) Advanced Econometrics, Oxford: Blackwell. Diez de Medina, R. Notas de la Cátedra de Econometría. Facultad de Ciencias Económicas y de Administración, UDELAR. Greene, W. (1999) Análisis Econométrico, Tercera edición, Prentice Hall Iberia. Maddala, G.S. (1983) Limited dependent and Qualitative Variables in Econometrics. Cambridge University Press. Manski, C. and D. McFadden (1981) Structural Analysis of Discrete Data with Econometric Applications, MIT press. Novales, A. (1997) Econometría, Segunda Edición, McGraw-Hill/Interamericana. Wooldridge, J. (2002): Econometric Analysis of Cross Section and Panel Data, MIT Press,
26