Modelo Logit

Márquez Juárez Natanael Fernando Econometría II Modelo Logit-Probit 1) Estima un modelo de variable dependiente limitada mediante la metodología del modelo Logit Probit. En el siguiente ejercicio se muestras tres variables, la primera de ellas considera las personas que votan en la elección presidencial (PV), la edad de los votantes (EV) y la cercanía de las residencias de los votantes respecto a las casillas (CC). PV

EV

CC

1

18

1

1

25

0

0

65

0

0

24

0

1

35

1

0

45

0

0

18

1

1

29

0

1

33

0

1

78

1

1

39

1

0

18

1

0

18

0

Se presentan las regresiones respectivas para el modelo Logit y Probit. Nuestros modelo tienen que como variable binaria dependiente a las personas potenciales que pueden votan, una variable cuantitativa para las edades de los votantes y una variable binaria explicativa que relaciona la cercanía de las residencias de los votantes potenciales a las casillas respectivas. Dependent Variable: PV Method: ML - Binary Logit (Quadratic hill climbing) Date: 03/19/14 Time: 21:46 Sample: 1 15 Included observations: 15 Convergence achieved after 3 iterations Covariance matrix computed using second derivatives Variable

Coefficient

Std. Error

z-Statistic

Prob.

C EV CC McFadden Rsquared S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic) Obs with Dep=0 Obs with Dep=1

-1.363783 0.035520 1.118024

1.464128 -0.931465 0.033650 1.055556 1.170300 0.955331

0.3516 0.2912 0.3394

0.250619 0.507093 1.610587 1.752197

Mean dependent var 0.600000 S.E. of regression 0.516881 Sum squared resid 3.205995 Log likelihood -9.079404

1.609079 2.031542 0.362123

Restr. log likelihood Avg. log likelihood

6 9

Total obs

-10.09518 -0.605294

15

Dependent Variable: PV Method: ML - Binary Probit (Quadratic hill climbing) Date: 03/19/14 Time: 22:36 Sample: 1 15 Included observations: 15 Convergence achieved after 3 iterations Covariance matrix computed using second derivatives Variable

Coefficient

C EV CC

-0.863089 0.022254 0.722446

McFadden Rsquared S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. LR statistic Prob(LR statistic) Obs with Dep=0 Obs with Dep=1

Std. Error

z-Statistic

0.894638 -0.964735 0.020048 1.110037 0.720421 1.002812

Prob. 0.3347 0.2670 0.3160

0.254149 0.507093 1.605837 1.747447

Mean dependent var 0.600000 S.E. of regression 0.516506 Sum squared resid 3.201335 Log likelihood -9.043776

1.604328 2.102797 0.349449

Restr. log likelihood Avg. log likelihood

6 9

Total obs

-10.09518 -0.602918

15

2) Estima los factores de ajuste para el modelo Logit y Probit y las Pendientes Modelo Logit

Modelo Probit

Variable

Coeficiente Pendiente

Coeficiente Pendiente

Constante

-1.363783

-0.863089

EV

0.035520

0.2451

0.22254

0.0147

CC

1.118624

0.7718

0.722446

0.4551

Factor de A 0.62

0.63

3) Explica detalladamente el significado de las pendientes y del R cuadrado Para interpretar el efecto que tiene cada variable sobre la probabilidad, de que las personas acudan a votar mejoran cuando nos enfocamos a un grupo relativamente joven, para lo cual se utilizan las pendientes. Si la edad de las personas que están en condiciones de votar aumenta una unidad, la probabilidad de que acudan a votar es de 0.24. Para el caso de CC, cuando aumenta la cercanía en una unidad (distancia) la residencia de los votantes a las casillas, la probabilidad de que acudan a votar es de 0.77 para el modelo Logit y 0.45 para el modelo Probit Como se puede observar en los resultados de la regresión del modelo Logit y Probit el estadístico R cuadrada de Mc Fadden es de 0.25, es decir, que un 25.0% de las variaciones en la probabilidad de que las personas vayan a votar es explicada por la cercanía a las casillas y la edad de los votantes.

4) Realiza todas las pruebas respectivas que vienen en el manual para este tipo de modelos y 59 Explica el resultado de las pruebas El estadístico Hosmer- Lemeshow trabaja agrupando las observaciones sobre la base de la probabilidad predictiba cuando y=1 (cuando la variable dependiente toma el valor de 1); el estadístico AnDrews es más general ya que agrupa las observaciones sobre la base de algunas series no importando que y=1 o y=0. Si la diferencia es muy grande se rechaza el modelo porque no se ajusta a los datos.

Goodness-of-Fit Evaluation for Binary Specification Andrews and HosmerLemeshow Tests Equation: UNTITLED Date: 03/20/14 Time: 00:37 Grouping based upon predicted risk (randomize ties) Quantile of Risk Low High 1 2 3 4 5 6 7 8 9 10

0.3264 0.3749 0.4173 0.4522 0.5971 0.5971 0.7201 0.7306 0.7674 0.7946

Dep=0 Actual Expect

Dep=1 Actual Expect

0.3264 0.3832 0.4173 0.5584 0.5971 0.5971 0.7201 0.7576 0.7674 0.9259

1 1 0 1 0 2 1 0 0 0

0.67358 1.24187 0.58266 0.98938 0.40285 0.80571 0.27989 0.51186 0.23261 0.27958

0 1 1 1 1 0 0 2 1 2

0.32642 0.75813 0.41734 1.01062 0.59715 1.19429 0.72011 1.48814 0.76739 1.72042

Total

6

6.00000

9

9.00000

H-L Statistic Andrews Statistic

6.5333 9.5560

Prob. Chi-Sq(8) Prob. Chi-Sq(10)

Total Obs

H-L Value

1 2 1 2 1 2 1 2 1 2

0.48460 0.12427 1.39615 0.00023 0.67463 2.96459 2.57278 0.68792 0.30312 0.32502

15 9.53330 0.2993 0.3159

Goodness-of-Fit Evaluation for Binary Specification Andrews and HosmerLemeshow Tests Equation: UNTITLED Date: 03/20/14 Time: 19:09 Grouping based upon predicted risk (randomize ties) Quantile of Risk Low High

Dep=0 Actual Expect

Dep=1 Actual Expect

Total Obs

H-L Value

1 2 3 4 5 6 7 8 9 10

0.3219 0.3711 0.4138 0.4488 0.6025 0.6025 0.7202 0.7383 0.7701 0.8053

0.3219 0.3795 0.4138 0.5550 0.6025 0.6025 0.7202 0.7665 0.7701 0.9447

1 1 0 1 0 2 1 0 0 0

0.67815 1.24940 0.58618 0.99620 0.39746 0.79492 0.27981 0.49520 0.22990 0.25002

0 1 1 1 1 0 0 2 1 2

0.32185 0.75060 0.41382 1.00380 0.60254 1.20508 0.72019 1.50480 0.77010 1.74998

Total

6

5.95725

9

9.04275

H-L Statistic Andrews Statistic

6.5316 10.9990

Prob. Chi-Sq(8) Prob. Chi-Sq(10)

1 2 1 2 1 2 1 2 1 2

0.47461 0.13266 1.41652 2.9E-05 0.65965 3.03193 2.57382 0.65815 0.29853 0.28574

15 9.53164 0.2994 0.1321

Como se puede observar, el valor del estadístico H-L no es muy grande en ambos modelos (este resulta de la sumatoria de la última columna del lado derecho de los cuadros) el valor de estadístico Andrews no es tan grande al H-L por lo cual no se rechaza el modelo. Para un análisis más profundo de los modelos binarios, se pueden hacer pruebas de restricción individuales o generales sobre los coeficientes. Para las pruebas individuales se encuentra el estadístico Wald y el de Razón de Verosimilitud (RV) que aparece en los resultados de la regresión del modelo Logit o Probit.

Wald Test: Equation: Untitled Test Statistic F-statistic Chi-square

Value 1.232183 1.232183

df

Probability

(1, 12) 1

0.2887 0.2670

Value

Std. Err.

Null Hypothesis Summary: Normalized Restriction (= 0) C(2)

0.022254 0.020048

Restrictions are linear in coefficients.

Como se puede observar en los resultados de esta prueba el valor de la probabilidad de los dos estadísticos es mayor que 0.05 por lo que no se rechaza la hipótesis nula de que el coeficiente de la variable EV es estadísticamente no significativo a un nivel de confianza del 95.0%. Adicionalmente a estas pruebas, existe otra prueba para analizar las propiedades y el funcionamiento de los modelos binarios. Esta prueba se llama tabla de Clasificación Esperada y Predicha. La tabla clasifica el valor esperado y predicho de la variable dependiente.

Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED Date: 03/20/14 Time: 19:21 Success cutoff: C = 0.5 Estimated Equation Dep=0 Dep=1 Total P(Dep=1)<=C P(Dep=1)>C Total Correct % Correct % Incorrect Total Gain* Percent Gain**

2 4 6 2 54.33 66.67 33.33

3 6 9 6 66.67 33.33 -33.33

33.33

NA

5 0 10 6 15 6 8 0 53.33 0.00 46.67 100.00 -6.67

0 9 9 9 100.00 0.00

0 15 15 9 60.00 40.00

-16.67

Estimated Equation Dep=0 Dep=1 Total E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect

Constant Probability Dep=0 Dep=1 Total


2.83

3.13

5.96

2.40

3.60

6.00

3.17 6.00 2.83 47.11 52.89

5.87 9.00 5.87 65.22 34.78

9.04 15.00 8.70 57.98 42.02

3.60 6.00 2.40 40.00 60.00

5.40 9.00 5.40 60.00 40.00

9.00 15.00 7.80 52.00 48.00

Total Gain* Percent Gain**

7.11

5.22

5.98

11.86

13.04

12.45

En el primer cuadro de esta tabla se muestra que el modelo Probit está pronosticando correctamente el 54.33% de las observaciones cuando y=0 y el 66.67% de las observaciones cuando y=1. Con estos resultados no se puede decir que el modelo Probit es bueno en sensibilidad y en especificidad del todo.

Expectation-Prediction Evaluation for Binary Specification Equation: UNTITLED Date: 03/20/14 Time: 19:23 Success cutoff: C = 0.5 Estimated Equation Dep=0 Dep=1 Total P(Dep=1)<=C P(Dep=1)>C Total Correct % Correct % Incorrect Total Gain* Percent Gain**

2 4 6 2 55.33 66.67 33.33

3 6 9 6 66.67 33.33 -33.33

33.33

NA

5 0 10 6 15 6 8 0 53.33 0.00 46.67 100.00 -6.67

0 9 9 9 100.00 0.00

0 15 15 9 60.00 40.00

-16.67

Estimated Equation Dep=0 Dep=1 Total E(# of Dep=0) E(# of Dep=1) Total Correct % Correct % Incorrect Total Gain*



2.83

3.17

6.00

2.40

3.60

6.00

3.17 6.00 2.83 47.10 52.90 7.10

5.83 9.00 5.83 64.73 35.27 4.73

9.00 15.00 8.65 57.68 42.32 5.68

3.60 6.00 2.40 40.00 60.00

5.40 9.00 5.40 60.00 40.00

9.00 15.00 7.80 52.00 48.00

Percent Gain**

11.83

11.83

11.83

Para la segunda tabla muestra que el modelo logit está pronosticando correctamente el 55.33% de las observaciones cuando y=0 y el 66.67% de las observaciones cuando y=1. Veamos el histograma de normalidad para los errores del modelo Probit. Según los resultados de la prueba de normalidad los errores del modelo Probit se distribuyen en forma normal al 95.0% de confianza ya que el valor de la probabilidad del estadístico Jarque Bera es mayor que 0.05. Pero se podría decir que al 98.0% de confianza los errores si se distribuyen de forma normal.

5

Series: Residuals Sample 1 15 Observations 15

4

Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis

3

2

1

0 -0.75

Jarque-Bera Probability -0.50

-0.25

0.00

0.25

0.50

-3.04e-11 0.205442 0.616754 -0.720106 0.478539 -0.231568 1.519642 1.503721 0.471488

0.75

Para el modelo Probit, encontramos que la probabilidad del jarque-bera es mayor a 0.05 por lo cual se acepta que los errores se distribuyen normalmente al 95% de confianza.

5

Series: Residuals Sample 1 15 Observations 15

4

Mean Median Maximum Minimum Std. Dev. Skewness Kurtosis

3

2

1

0 -0.75

Jarque-Bera Probability -0.50

-0.25

0.00

0.25

0.50

-0.002850 0.194682 0.620482 -0.720188 0.478182 -0.215137 1.535294 1.456562 0.482738

0.75

Otro elemento importante de analizar en los modelos binarios es la gráfica de curvas de respuesta de las probabilidades. Esta gráfica es útil para examinar como varían las probabilidades cuando una de las variables independientes está cambiando mientras las otras variables permanecen fijas en el valor de su media. En esta gráfica se muestra dos funciones en todo el intervalo de variación de la edad de los votantes, es decir, de 18 a 78. El efecto de la cercanía a las casillas no es tan considerable. El efecto marginal de la edad de los votantes es la diferencia de las dos funciones. Muestra que la probabilidad para que las personas vayan a votar es mayor en el sector de la población joven (entre 18 y 24 años) que en la de edad madura y anciana.

1.0 0.9 0.8 0.7 AB S1_0 AB S0_0

0.6 0.5 0.4 0.3 10

20

30

40

50

CMPLOT

60

70

80

Modelo Logit

Recommend Documents