apuntes

ECONOMETRÍA APUNTES DE CLASE

Profesores:

Verónica Gil Aroztegui Aldo Lema Navarro

Agosto 2004 Pontificia Universidad Católica de Chile

Estos apuntes están en permanente revisión por lo cual sugerencias o correcciones serán bienvenidas. E-mails: [email protected] y [email protected]

1

INDICE

1.

INTRODU NTR ODUCC CCIÓN IÓN.............. ............................. ............................. ............................ ............................. ............................. ............................ ............................. ............................. ......................... ...........11

1.1 ORÍGEN ORÍG EN Y CONCEPTO CONC EPTO ........................... ......................................... ............................. ............................. ............................ ............................. ............................. ............................ ...................1 .....1 Definiciones........ Definici ones............. .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....11 Diferencia Difer enciass entre un econome e conometrist tristaa y un estadístic estad ístico:...... o:........... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ....... 2 1.2 MODELO MOD ELO ECONOM ECO NOMÉTR ÉTRICO ICO.. ............................ .......................................... ............................. ............................. ............................ ............................ ............................. ......................2 .......2 1.3 OBJETIVOS OBJET IVOS DE LA ECONOMETRÍ ECONO METRÍA A ............................ ........................................... ............................. ............................ ............................ ............................. ......................3 .......3 1.4 METODO METO DO DE LA ECONOM EC ONOMETRÍ ETRÍA. A. ............................. ........................................... ............................ ............................. ............................. ............................ ........................3 ..........3 1.5 DATOS, DATO S, VARIABL VAR IABLES ES Y MODELO MO DELOS. S. ........................... ......................................... ............................ ............................. ............................. ............................ ........................5 ..........5 DATOS. ........ ............. .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ....... 5 RELACIONES. RELACI ONES. ........ ............. .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....7 7 VARIAB VAR IABLES LES.................... .................................. ............................. ............................. ............................ ............................. ............................. ............................ ............................. ............................. ......................... ...........7 7 FORMAS FUNCIONA FU NCIONALES LES (Introducci (Int roducción) ón) ........ ............. ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....88 A NEXO 1: R ECORDANDO ........................................... ............................ ............................. ............................. ............................ ............................. .................9 ..9 ECORDANDO DE I NFERENCI NFERENCIA A............................. Variable Vari able Aleatori Alea toriaa ............................ ........................................... ............................. ............................ ............................. ............................. ............................ ............................ ............................. ..................... ...... 9 Notación Nota ción::........ ............. .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....99 Distribución Distri bución de d e Probabilidade Probabi lidades....... s........... ........ ......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ....... 9 A NEXO 2: UN U N REPASO RE PASO DE MATRICE MA TRICES S ............................. ........................................... ............................. ............................. ............................ ............................. ...........................1 ............111 3.1.1 Operaciones matriciales:.............................................................................................................................11 3.1.2 Valores y vectores propios...........................................................................................................................16 3.2 A LGUNOS EJERCICIOS DE M ATRICES............................ .......................................... ............................ ............................. ............................. ............................ ............................. ...............19 19 3.2.1 Operaciones con matrices............................................................................................................................19 3.2.2 Determinantes...............................................................................................................................................19 3.2.3 3.2 .3 Matriz Matr iz Inversa Inve rsa ............................. ........................................... ............................. ............................. ............................ ............................. ............................. ............................ ............................20 ..............20 3.2.4 Valores y Vectores propios..........................................................................................................................20

2.

R EGRESIÓN EGRESIÓN S IMPLE.......................... IMP LE......................................... ............................. ............................ ............................. ............................. ............................ ............................22 ..............22

2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). (MIC O). ............................ .......................................... ............................ ............................. ...............22 22 2.1.1 Definición de análisis de regresión............................................................................................................22 2.1.2 Especificación de la Regresión Simple......................................................................................................23 2.1.3 2.1 .3 Ejempl Eje mplo: o: ............................ .......................................... ............................. ............................. ............................ ............................. ............................. ............................ ............................. ..........................23 ...........23 2.1.4 Fuentes de Error µ ........................... ......................................... ............................ ............................. ............................. ............................ ............................. ............................. .......................2 .........255 2.1.5 2.1 .5 Funció Fun ciónn de regres reg resión ión pob poblac lacion ional al y muestr mue stral.................. al................................ ............................. ............................. ............................ ............................25 ..............25 2.1.6. MICO para una regresión simple..............................................................................................................29

ˆ

ˆ

2.1.7 Ejemplo de cálculo de β1 y β 2 ............................. ........................................... ............................ ............................. ............................. ............................ ............................31 ..............31 2.1.8 Expresión de las formulas en desvíos........................................................................................................32 2.1.9 2.1 .9 Corolario Corola rioss de los estimad est imadore oress MICO. MIC O. ........................... .......................................... ............................. ............................ ............................ ............................. ...................3 ....333 2.1.10. Coeficiente de determinacion (R2 )....... )........... ......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........38 ....38 2.1.11 Algunas Regresiones Particulares...........................................................................................................40 2.1.12 2.1 .12.. ¿Cómo ¿Có mo selecc sel eccion ionar ar entre ent re estima est imador dores? es? ............................ ........................................... ............................. ............................ ............................. ..........................42 ...........42

S

2.2 UPUESTOS CLÁSICOS DEL MODELO DE R EGRESIÓN .......................................... ............................. ............................ ............................. ...............45 45 EGRESIÓN. ........................... 1. La variable vari able explica ex plicativa tiva X está es tá dada (es ( es no estocást est ocástica ica o no aleator al eatoria). ia)...... .......... .......... ......... ......... .......... .......... ......... ......... .......4 ..46 6 ∀ 2. E( µ /X )=0 i ............................. ............... ............................ ............................. ............................. ............................ ............................. ............................. ............................ ............................46 ..............46 i i 3. No autocor au tocorrelac relación ión ⇒ Cov( µ ,i u j )=0 i ≠ j...... j.......... ........ ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........46 ....46 2 4. Homocedasti Homoce dasticidad cidad ⇒ V( µ /X i/X )= i)= σ ............................. ........................................... ............................ ............................. ............................. ............................ .....................4 .......488 5. El modelo mode lo está bien b ien especif es pecificado icado......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........49 ....49 2 6. Normalidad Normal idad ⇒ µi ∼ N( 0 , σ ) .......... .............. ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........49 ....49 Economet Econ omet ría E-250: Apuntes de Clase

Profesores Verónica Gil y Aldo Lema

Agosto Agos to 2004

1

INDICE

1.

INTRODU NTR ODUCC CCIÓN IÓN.............. ............................. ............................. ............................ ............................. ............................. ............................ ............................. ............................. ......................... ...........11

1.1 ORÍGEN ORÍG EN Y CONCEPTO CONC EPTO ........................... ......................................... ............................. ............................. ............................ ............................. ............................. ............................ ...................1 .....1 Definiciones........ Definici ones............. .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....11 Diferencia Difer enciass entre un econome e conometrist tristaa y un estadístic estad ístico:...... o:........... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ....... 2 1.2 MODELO MOD ELO ECONOM ECO NOMÉTR ÉTRICO ICO.. ............................ .......................................... ............................. ............................. ............................ ............................ ............................. ......................2 .......2 1.3 OBJETIVOS OBJET IVOS DE LA ECONOMETRÍ ECONO METRÍA A ............................ ........................................... ............................. ............................ ............................ ............................. ......................3 .......3 1.4 METODO METO DO DE LA ECONOM EC ONOMETRÍ ETRÍA. A. ............................. ........................................... ............................ ............................. ............................. ............................ ........................3 ..........3 1.5 DATOS, DATO S, VARIABL VAR IABLES ES Y MODELO MO DELOS. S. ........................... ......................................... ............................ ............................. ............................. ............................ ........................5 ..........5 DATOS. ........ ............. .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ....... 5 RELACIONES. RELACI ONES. ........ ............. .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....7 7 VARIAB VAR IABLES LES.................... .................................. ............................. ............................. ............................ ............................. ............................. ............................ ............................. ............................. ......................... ...........7 7 FORMAS FUNCIONA FU NCIONALES LES (Introducci (Int roducción) ón) ........ ............. ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....88 A NEXO 1: R ECORDANDO ........................................... ............................ ............................. ............................. ............................ ............................. .................9 ..9 ECORDANDO DE I NFERENCI NFERENCIA A............................. Variable Vari able Aleatori Alea toriaa ............................ ........................................... ............................. ............................ ............................. ............................. ............................ ............................ ............................. ..................... ...... 9 Notación Nota ción::........ ............. .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... ......... ....99 Distribución Distri bución de d e Probabilidade Probabi lidades....... s........... ........ ......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ....... 9 A NEXO 2: UN U N REPASO RE PASO DE MATRICE MA TRICES S ............................. ........................................... ............................. ............................. ............................ ............................. ...........................1 ............111 3.1.1 Operaciones matriciales:.............................................................................................................................11 3.1.2 Valores y vectores propios...........................................................................................................................16 3.2 A LGUNOS EJERCICIOS DE M ATRICES............................ .......................................... ............................ ............................. ............................. ............................ ............................. ...............19 19 3.2.1 Operaciones con matrices............................................................................................................................19 3.2.2 Determinantes...............................................................................................................................................19 3.2.3 3.2 .3 Matriz Matr iz Inversa Inve rsa ............................. ........................................... ............................. ............................. ............................ ............................. ............................. ............................ ............................20 ..............20 3.2.4 Valores y Vectores propios..........................................................................................................................20

2.

R EGRESIÓN EGRESIÓN S IMPLE.......................... IMP LE......................................... ............................. ............................ ............................. ............................. ............................ ............................22 ..............22

2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). (MIC O). ............................ .......................................... ............................ ............................. ...............22 22 2.1.1 Definición de análisis de regresión............................................................................................................22 2.1.2 Especificación de la Regresión Simple......................................................................................................23 2.1.3 2.1 .3 Ejempl Eje mplo: o: ............................ .......................................... ............................. ............................. ............................ ............................. ............................. ............................ ............................. ..........................23 ...........23 2.1.4 Fuentes de Error µ ........................... ......................................... ............................ ............................. ............................. ............................ ............................. ............................. .......................2 .........255 2.1.5 2.1 .5 Funció Fun ciónn de regres reg resión ión pob poblac lacion ional al y muestr mue stral.................. al................................ ............................. ............................. ............................ ............................25 ..............25 2.1.6. MICO para una regresión simple..............................................................................................................29

ˆ

ˆ

2.1.7 Ejemplo de cálculo de β1 y β 2 ............................. ........................................... ............................ ............................. ............................. ............................ ............................31 ..............31 2.1.8 Expresión de las formulas en desvíos........................................................................................................32 2.1.9 2.1 .9 Corolario Corola rioss de los estimad est imadore oress MICO. MIC O. ........................... .......................................... ............................. ............................ ............................ ............................. ...................3 ....333 2.1.10. Coeficiente de determinacion (R2 )....... )........... ......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........38 ....38 2.1.11 Algunas Regresiones Particulares...........................................................................................................40 2.1.12 2.1 .12.. ¿Cómo ¿Có mo selecc sel eccion ionar ar entre ent re estima est imador dores? es? ............................ ........................................... ............................. ............................ ............................. ..........................42 ...........42

S

2.2 UPUESTOS CLÁSICOS DEL MODELO DE R EGRESIÓN .......................................... ............................. ............................ ............................. ...............45 45 EGRESIÓN. ........................... 1. La variable vari able explica ex plicativa tiva X está es tá dada (es ( es no estocást est ocástica ica o no aleator al eatoria). ia)...... .......... .......... ......... ......... .......... .......... ......... ......... .......4 ..46 6 ∀ 2. E( µ /X )=0 i ............................. ............... ............................ ............................. ............................. ............................ ............................. ............................. ............................ ............................46 ..............46 i i 3. No autocor au tocorrelac relación ión ⇒ Cov( µ ,i u j )=0 i ≠ j...... j.......... ........ ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........46 ....46 2 4. Homocedasti Homoce dasticidad cidad ⇒ V( µ /X i/X )= i)= σ ............................. ........................................... ............................ ............................. ............................. ............................ .....................4 .......488 5. El modelo mode lo está bien b ien especif es pecificado icado......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........49 ....49 2 6. Normalidad Normal idad ⇒ µi ∼ N( 0 , σ ) .......... .............. ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........49 ....49 Economet Econ omet ría E-250: Apuntes de Clase


Agosto Agos to 2004

2 2.3 P ROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO ............................. ........................................... ............................ ............................. ....................49 .....49 2.3.1 Linealidad.................................................................................................................................................50 2.3.2 Insesgamiento...........................................................................................................................................50 2.3.3 Eficiencia..................................................................................................................................................52 2.4 I NFERENCIA .......................................... ......................62 ........62 NFERENCIA ESTADÍSTICA EN EL M ODELO DE R EGRESIÓN EGRESIÓN LINEAL SIMPLE............................ 2.4.1 Repaso Repas o Breve de algunos algun os teoremas teore mas de Inferencia Infer encia...... .......... ........ ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......6 ..622 2 2.4.2 ¿Qué Consecuencias tiene suponer µi ~ N(0, σ )? .......... ............... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........65 ....65 2.4.3 Intervalos de Confianza para β1 y β2 . ............................. ........................................... ............................. ............................. ............................ ............................67 ..............67 2.4.4 2.4 .4 Prueba Pru eba de hipótes hipó tesis......................... is....................................... ............................ ............................. ............................. ............................ ............................. ............................. .......................6 .........688 2.4.5 Recordando de inferencia:...........................................................................................................................70 2.4.6 Ejemplos de Test De Hipótesis....................................................................................................................71 2.5 A NALISIS DE VARIANZA........................... .......................................... ............................. ............................ ............................ ............................. ............................. ............................ ......................76 ........76 Grados Gra dos de Libert Lib ertad ad ............................. ........................................... ............................ ............................. ............................. ............................ ............................. ............................. ............................ ................7 ..7 8 2.6 P RUEBA DE NORMALIDAD............................. ........................................... ............................ ............................. ............................. ............................ ............................ ............................. ....................80 .....80

3. MODELO MODE LO DE REGRESIÓN REGR ESIÓN MULTIP MUL TIPLE LE ............................ .......................................... ............................ ............................. ............................. ............................ .....................8 .......811 3.1 DEFINICI DEFI NICIONES ONES ........................... .......................................... ............................. ............................ ............................. ............................. ............................ ............................ ............................. ....................81 .....81 • Modelo Mode lo de regresión regr esión poblacion pob lacional al múltiple.. múltip le...... ........ ........ ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........81 ....81 • Modelo de d e regresión regres ión muestral mue stral múltipl mú ltiplee .......... ............... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........82 ....82 3.2 ESTIMADO ESTI MADORES RES MICO ............................. ........................................... ............................ ............................. ............................. ............................ ............................ ............................. ....................84 .....84 3.2.1 3.2 .1 Primer Pri meraa forma for ma de deriva der ivació ción......................... n....................................... ............................ ............................ ............................. ............................. ............................ .....................8 .......844 3.2.2 Otra forma de encontrar βˆ ........................... .......................................... ............................. ............................ ............................. ............................. ............................ ................8 ..8 7 3.2.3 Deducción Deducc ión de d e los estimadore estim adoress MICO MIC O en el modelo mo delo simple....... simpl e........... ........ ......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .........89 ....89 3.2.4 Una interpretaci interp retación ón de los estimadores estima dores MICO. ........ ............. ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......9 ..933 3.2.5 3.2 .5 Corola Cor olario rioss de los Estima Est imador dores es MICO MIC O ............................. ........................................... ............................ ............................. ............................. ............................ ................9 ..9 5 3.3 SUPUESTOS CLÁSICOS............................. ........................................... ............................ ............................. ............................. ............................ ............................. ............................. ......................10 ........1011 Explicació Expli cación..... n......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .....10 1022 3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO.................. MICO ................................. ............................. ............................ ...........................1 .............105 05 3.5.1 3.5 .1 Lineal Lin ealida idad................... d.................................. ............................. ............................ ............................. ............................. ............................ ............................. ............................. ............................ ..............10 1055 3.5.2 3.5 .2 Insesg Ins esgami amient ento...... o.................... ............................. ............................. ............................ ............................. ............................. ............................ ............................. ............................. .....................105 .......105 3.5.3 3.5 .3 Eficie Efi cienci nciaa ............................ ........................................... ............................. ............................ ............................. ............................. ............................ ............................. ............................. .....................105 .......105 3.5.4 3.5 .4 Consis Con sisten tencia cia ............................ ........................................... ............................. ............................ ............................. ............................. ............................ ............................ ............................. .................11 ..1111 3.6 I NFERENCIA EN EL MODELO GENERAL............................. ........................................... ............................. ............................. ............................ ............................. .........................1 ..........112 12

ˆ ........................... 3.6.1 Distribución de β ......................................... ............................ ............................. ............................. ............................ ............................. ............................. .....................112 .......112 3.6.2 Distribuciones derivadas de µ........................... ......................................... ............................. ............................. ............................ ............................ ............................. .................11 ..1122 3.6.3 Distribución de

e' e

............................. ........................................... ............................. ............................. ............................ ............................. ............................. ............................ ..............11 1133 σ2 3.6.4 Prueba de Hipótesis en el Modelo Múltiple............................................................................................115 3.5.5 Test General Gener al Para Pa ra Probar Pr obar Restriccio Restr icciones nes Lineal L ineales es de Parámetros. Parám etros..... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .....11 117 7 3.5.6 3.5 .6 Estabil Est abilida idadd y Cambio Camb io Estructur Estruc tural al ........................... ......................................... ............................. ............................. ............................ ............................. ........................123 .........123 3.6 PREDICCION PREDI CCION ........................... .......................................... ............................. ............................ ............................. ............................. ............................ ............................. ............................. ......................13 ........1311 esper ado del error de predicción predi cción?..... ?......... ........ ......... .......... ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .....13 1322 • ¿Cuál es el valor esperado

• • • •

¿Cuál es la varianza de e0 ?........................ ?...................................... ............................ ............................. ............................. ............................ ............................. ........................132 .........132 ¿Cómo se distribuye e 0 ? ............................. ........................................... ............................ ............................. ............................. ............................ ............................. ........................133 .........133 Intervalo Inter valo de confian co nfianza za para el e l error de predic p redicción...... ción.......... ........ ......... ......... ......... .......... .......... ......... ......... .......... .......... ......... ......... .......... .......... .......133 ..133 Intervalo Inter valo de confian co nfianza za para Y 0........................... .......................................... ............................. ............................ ............................. ............................. ............................ ..............13 1344

4. VARIABLE VA RIABLES S FICTICIAS FIC TICIAS O DUMMY O BINARIA BI NARIA S O DICOTÓMICAS DICOTÓMICA S ......... .............. .......... .......... ......... ......... .......... .......... .......135 ..135 4.1 MODELO MOD ELOS S ALTERN ALT ERNATI ATIVOS VOS.. ............................ .......................................... ............................ ............................ ............................. ............................. ............................ ....................13 ......1355 Ejemplo 1: 1 : Unica Variable Va riable Explicati Ex plicativa va es una variable va riable dummy. du mmy. ........ ............. ......... ......... .......... .......... .......... ......... ......... .......... .......... ......... ......... .....13 1355 Economet Econ omet ría E-250: Apuntes de Clase


Agosto Agos to 2004

3 Ejemplo 2: Una variable cualitativa y otra cuantitativa................................................................................136 Ejemplo 3: Dos variables cualitativas...............................................................................................................137 Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa..................................................137 Ejemplo 5: Variables Cualitativas Politómicas...............................................................................................138 4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR.........................................................................140 4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL............................................143 4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS. ........................................................................145

5.

MULTICOLINEALIDAD ....................................................................................................................................147 5.1 INTUICIÓN ..........................................................................................................................................................147 5.2 TIPOS DE MULTICOLINEALIDAD .............................................................................................................148 Multicolinealidad perfecta...................................................................................................................................148 Multicolinealidad imperfecta..............................................................................................................................150 ¿Por qué importa el determinante?....................................................................................................................151 5.3 EFECTO DE LA MULTICOLINEALIDAD A NIVEL EMPÍRICO ........................................................152 En el modelo con dos variables explicativas...................................................................................................152 En el Modelo General...........................................................................................................................................152 Efectos prácticos de la multicolinealidad:........................................................................................................153 5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD.........................................................................153 Por sus efectos sobre los test...............................................................................................................................153 5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD ...................................................................154 No hacer nada ........................................................................................................................................................154 Incorporar información adicional......................................................................................................................154

6. HETEROCEDASTICIDAD ...................................................................................................................................157 6.1 ¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR MICO CUANDO EXISTE HETEROCEDASTICIDAD? ....................................................................................................................................158 ¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?......................................160 6.2. M ÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS................................................................................160 Derivación de MCG en el caso simple ..............................................................................................................162 Derivación de MCG en el caso múltiple. ..........................................................................................................162 6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD? ..........................................................................163

• • • • • •

Naturaleza del problema:..........................................................................................................................164 Método gráfico:...........................................................................................................................................164 Prueba de Park ............................................................................................................................................164 Prueba de Glesjer .......................................................................................................................................164 Goldfeld - Quant .........................................................................................................................................165

Test de White. ..............................................................................................................................................166 6.4 ¿CÓMO SOLUCIONAR HETEROCEDATICIDAD? ..............................................................................166 Ejemplo en caso general ......................................................................................................................................167

7. AUTOCORRELACIÓN.........................................................................................................................................169 7.1 INTRODUCCIÓN ................................................................................................................................................169 7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN ....................................................................170 Ciclos o tendencias en las variables,.................................................................................................................170 Autocorrelación espacial,....................................................................................................................................170 Influencia prolongada de shocks:.......................................................................................................................170 Inercia:....................................................................................................................................................................170 Mala especificación ..............................................................................................................................................170 Quiebre o cambio estructural..............................................................................................................................171 7.3 ALGUNAS DEFINICIONES .............................................................................................................................172 Autocovarianza ......................................................................................................................................................172 Economet ría E-250: Apuntes de Clase


Agosto 2004

4 Coeficiente de Autocorrelación...........................................................................................................................172 EJEMPLO...............................................................................................................................................................172 7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO AUTOCORRELACIÓN ...................................175 7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN?...........................................................................................................176 Método gráfico:.....................................................................................................................................................176 Estadístico de Durbin-Watson (1951)................................................................................................................176 Test de Breusch - Godfrey (1978).......................................................................................................................179 Ejemplo de utilización de los test en Eviews. ...................................................................................................179 7.6 FORMAS DE CORREGIR POR AUTOCORRELACION ......................................................................181 7.6.1 Conozco la forma de la autocorrelación y conozco ρ.....................................................................181 7.6.2 . No conocemos ρ ...............................................................................................................................184

8. ESPECIFICACION DE MO DELOS ...................................................................................................................186 8.1 ATRIBUTOS DE UN BUEN MODELO .........................................................................................................186 8.2 TIPO DE ERRORES DE ESPECIFICACIÓN................................................................................................186 8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN. .........................................................186 8.3.1 Variables Omitidas......................................................................................................................................186 8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas) ................................................................189 Conclusión para Especificar Modelos...............................................................................................................190

Economet ría E-250: Apuntes de Clase


Agosto 2004

1

1. INTR ODUCCIÓN 1.1

ORÍGEN Y CONCEPTO

Algunos economistas ⇒ Europa S. XIX Otros ⇒ S. XX (como movimiento organizado) 1930 ⇒ fundación de la Sociedad Econométrica (Revista, 1933) La Econometría se nutre de:

• Economía (“Teoría”) • Matemáticas (“especificaciones” y “tools”) • Estadística (“Técnicas”) Definiciones.

• “Es lo que hacen los econometristas” • Etimológicamente: “Economía Medida” Sin embargo, este es un concepto vago, porque medir el PIB, el empleo, la oferta de dinero, etc., no es econometría. El concepto es más amplio que este.

• Maddala: “Es la aplicación de métodos estadísticos y matemáticos al análisis de los datos económicos con el propósito de otorgar contenido empírico a las teorías económicas, verificándolas o refutándolas”

• Kennedy : “ Los desacuerdos permitirían escribir un paper” La confusión proviene de que los econometristas son al mismo tiempo: i) ii)

Economistas: interpretan (o crean teoría) para probar empíricamente. Matemáticos: formulan matemáticamente su teoría

iii)

Estadísticos aplicados: buscando datos para sus variables y gastando horas frente al computador tratando de estimar relaciones económicas y prediciendo. Estadísticos teóricos: aplicando su habilidad para desarrollar técnicas estadísticas apropiadas a los problemas empíricos.

iv)

• La econometría no significa lo mismo que estadística económica, tampoco es lo que conocemos como teoría económica, ni es la aplicación de las matemáticas a la economía. Econometría es la unificación de estas tres áreas.



Agosto 2004

2

Diferencias entre un econometrista y un estadístico: La preocupación del econometrista está en los problemas causados por la violación de “supuestos estadísticos clásicos”; la naturaleza de las relaciones económicas y la falta de “experimentos controlados”

1.2

MODELO ECONOMÉTRICO.

i)

MODELO: representación simplificada de la realidad, recurriendo a un número limitado de conceptos formalizados. Críticas: • Sobre-simplificación. El contra-argumento es que se puede partir con un modelo sencillo y luego complicarlo. • Supuestos poco realistas. Sin embargo, se podría argumentar como lo hace Friedman, que lo importante no es cuán reales sean los supuestos, sino que tan buenos son como aproximación al fenómeno a explicar. • Se basa en un número limitado de “datos” MODELO ECONÓMICO, conjunto de supuestos que aproximadamente describen el comportamiento de una economía (o de un sector)

ii)

iii)

Ej. La función de producción Cobb-Douglas, Y= A K αLβ , establece la relación exacta, deterministica, que existe entre los insumos y el producto, basándose en una serie de supuestos. Pero, si quisiéramos testear cuán bueno es este modelo para explicar la evolución del PIB en Chile, tendríamos algunos problemas. Sin importar lo sofisticado que sea nuestro modelo de producción, no nos servirá para explicar hechos como la caída de la producción por inundación o sequía, los momentos de huelga, etc. Para poder testear este modelo, es necesario incorporarle elementos estocásticos. Esto lo convertirá de un modelo económico en uno econométrico. MODELO ECONOMÉTRICO: es un set de ecuaciones de comportamiento derivadas de un modelo económico que involucra: -

variables observables elementos estocásticos o shocks, que recogen errores de medición en las variables observadas y factores que no pueden ser recogidos por el modelo. Esto hace que la variable objetivo varíe no sólo porque lo hacen las variables explicativas, sino por cierta aleatoriedad del comportamiento humano o del contexto. El modelo determinístico ⇒ Y= A K αLβ se transforma en El modelo econométrico ⇒ Y= A K αLβ eµ



Agosto 2004

3 El término eµ será una variable aleatoria con determinadas propiedades que veremos en el curso, por lo que deberemos especificar la distribución de probabilidad de µ y las consecuencias de estas sobre la estimación.

1.3

OBJETIVOS DE LA ECONOMETRÍA

i)

Formulación de modelos econométricos (o sea modelos económicos en una forma testeable empíricamente). Objetivo: DESCRIPTIVO⇒ representar la realidad Usualmente hay diversas formas de formular un modelo econométrico a partir de un modelo económico ya que debe elegirse forma funcional ⇒

⇒

ii)

especificación de la estructura estocástica de las variables, etc. Estimar y testear los modelos con datos. Objetivo: INTERPRETAR.

iii)

Usar los modelos con fines predictivos y de política.

De lo anterior se infiere que LA ECONOMETRIA

⇒ ¿Es una ciencia? ⇒ Aplicación de modelos estadísticos para intentar verificar modelos económicos que representan el funcionamiento de la economía

1.4

METODO DE LA ECONOMETRÍA.

i)

Diagrama

que

resume

la

Metodología

de

la

econometría

(Cuadro

1. Teoría Económica o Modelo Económico 3.Información apriori

2. Modelo Econométrico

4. Datos

5. Estimación del Modelo 6. Testeo de Hipótesis sugeridas por el Modelo Económico 7.Predicción y Políticas Economet ría E-250: Apuntes de Clase


Agosto 2004

1)

4 Para el ejemplo que veíamos antes:

1. Y=AK αLβ 3. Revisión de resultados obtenidos en otros estudios similares, nacionales e internacionales

2. Y=AK αLβ eµ 5. Estimación de α yβ 6. Verifico hipótesis respecto a los parámetros. Ej: Test α +β =1

4. Conseguir los datos de PIB (Y) y Empleo (L) del Banco Central. Construir una serie de capital (K).

7. Predicción: dadas las estimaciones de K y L, cual será el PIB del próximo año ii)

Críticas: - Hay feedback entre 1 y 6 (no es cierto que sólo se “testean teorías”) -

Hay feedback entre 2 y 5 con 3 (también hay aportes en datos) Hay feedback entre 6 y 2 (como resultado de los test econométricos es posible replantear modelos econométricos) Por tanto hay retroalimentación (Cuadro 2) Teoría Económica Modelo Econométrico

Datos

Estimación

no

Pruebas de Especificación y examen de Diagnóstico ¿Es el modelo adecuado?

si

Prueba de alguna hipótesis Uso del modelo para predicción y políticas



Agosto 2004

5

⇒ los resultados econométricos influyen en la teoría ⇒ del modelo econométrico hacia los datos ⇒ De los test de especificación hacia la revisión de la especificación del modelo. ¿Qué constituye un test para la teoría económica? - Signos de los coeficientes son correctos. Problema: diferentes estudios econométricos llegan a conclusiones contradictorias. - El test más válido: “que una teoría económica genere mejores predicciones que una alternativa”. -

Estabilidad de los coeficientes estimados (Crítica de Lucas). IMPORTANTE: La econometría no es un elemento para derribar teorías, sino para conocer la realidad, y ver si los datos que tenemos se ajustar a la teoría. - SI LOS DATOS NO SE AJUSTAN LO ÚNICO QUE SE PUEDE DECIR ES QUE ESTOS DATOS NO VERIFICAN LA TEORÍA.

1.5

-

Error muy común: concluir que la equivocada es la realidad, si esta no coincide con el modelo.

-

Sin embargo pueden haber ciertas fuentes de error en la elaboración del modelo: - El modelo no se ajusta a la realidad. - Mala formulación del modelo - No se dispone de buena cantidad y/o calidad de datos.

DATOS, VARIABLES Y MODELOS.

DATOS. Hay tres tipos: Datos de cross-section (sección cruzada): son observaciones de una variable para i. varias unidades individuales en un momento de tiempo. Por ejemplo, la tasa de crecimiento del PIB para el año 1991, para distintos países de América Latina. 1991


ARGENTINA

8.9

BOLIVIA

5.1

BRASIL

0.3

CHILE

6.8

COLOMBIA

1.8

ECUADOR

4.9

MEXICO

3.6

PARAGUAY

2.3

PERU

2.6

URUGUAY

3.2

VENEZUELA

9.7


Agosto 2004

6 ii.

Datos de series temporales: son observaciones de una determinada variable a lo largo de cierto período de tiempo. Por ejemplo en PIB del período 1976-1997

PIB de CHILE a precios constantes (escala logarítmica) 17.6

17.2

16.8

16.4

16.0

15.6 60

iii.

65

70

75

80

85

90

95

00

Pool-Data: es la mezcla de datos de cross-section y series temporales. Ejemplo: tasas de crecimiento de varios países de América Latina en el período 1991-1995. Un tipo especial son los datos de panel (Panel Data), donde a la unidad de corte transversal se la sigue en el tiempo. 1999

2000

2001

2002

2003

Argentina Brasil

-3.1 1.0

-0.5 4.5

-4.4 1.5

-10.9 1.6

8.4 0.0

Colombia Chile

-4.5 -1.0

2.8 4.4

1.4 2.8

1.5 2.1

3.3 3.5

México Perú Venezuela

3.5 3.8 -7.2

6.9 3.6 3.2

-0.3 0.2 2.7

0.9 5.2 -8.9

1.1 4.0 -10.0

Ecuador Guatemala

-7.3 3.8

2.3 3.6

5.6 1.8

3.4 2.3

2.3 2.5

Rep.Dominicana Uruguay

8.0 -3.2

7.8 -1.1

3.0 -3.1

3.5 -10.8

-3.0 2.5



Agosto 2004

7

RELACIONES. i) Uniecuacionales: Es aquella en que la variable dependiente “está determinada” por variables explicativas. C= f(Y,r,G), donde C (Consumo) es la variable dependiente e Y(Ingreso) , r (tasa de interés) y G (Gustos) las variables independientes. ii) Multiecuacionales Es cuando para explicar un fenómeno se requieren varias ecuaciones. Ej: Consumo Durables =f(Ingreso Permanente, tasa de interés) Consumo No Durables: f(Ingreso Transitorio) iii)

El tratamiento de las ecuaciones puede ser en forma separada o conjunta. Ecuaciones simultáneas. Es cuando dos o más variables vienen determinadas “simultáneamente” por un cierto número de variables explicativas. En los casos anteriores, el ingreso (Y) es “dado” para una familia individual, pero en la economía como un todo no se puede considerar que el ingreso esté “dado” Para un consumidor individual el precio de un bien viene “dado”. Para toda la economía, los precios y las cantidades vienen determinadas simultáneamente por las condiciones de oferta y demanda. Qd = f (p,x) Qs= f (p,z) Qd =Qs Donde Qd es la cantidad demandada, Qs es la cantidad ofrecida, X es la variable de escala en la demanda (Ingreso) y Z es la variable de escala en la oferta (tecnología).

VARIABLES. En general: Variable dependiente: Y Variables independientes: X1, X2......Xk Sin embargo, reciben también otros nombres: Y a) Predicha b) Regresandos c) Explicada d) Dependiente e) Causada f) Endógena g) Objetivo Economet ría E-250: Apuntes de Clase

X1, X2......Xk Predictores Regresores Explicativas Independientes Causante Exógena Control Profesores Verónica Gil y Aldo Lema

Agosto 2004

8 La primera denominación surge de la posibilidad de efectuar predicciones. La terminología de las letras b, c y d son las usualmente utilizadas cuando se habla de modelos de regresión. En los estudios de causalidad se utiliza la expresión e). Se habla de variables exógenas y endógenas cuando se quiere distinguir entre aquellas variables que se determinan dentro del sistema (endógenas) y aquellas que se determinar fuera (exógenas). Por ejemplo en modelos de gran escala para explicar la economía de un país las variables exógenas son las determinadas fuera del país, como precios internacionales, tasas de interés, movimientos de capitales, etc. En problemas de control, se utiliza g). Por lo general las objetivo son aquellas que se desea influenciar.

FORMAS FUNCIONALES (Introducción) i)

Lineal

ii)

Log-Lineal

⇒ C= α + β Y ⇒ ln C= α + β ln Y

También se le llama Doble Logarítmica. Elasticidad Constante. iii)

Semi-logarítmica

iv)

Lineal-Recíproco

v)

Log-Recíproco

vi)

Lineal Log

⇒ ln C= α + β Y ⇒Elasticidad Variable ⇒ C=α + β (1/Y) ⇒ ln C= α +β (1/Y) C=α +β lnY ⇒

En iv y v, la relación entre C e Y no es lineal. ¿Qué significa linealidad? i) En las variables: la relación entre la variable dependiente y las variables independientes es lineal. Y= α +β X ii)

En los parámetros: la relación es lineal en β por ejemplo, si dicho coeficiente aparece con potencia 1 y no está multiplicado ni dividido por otro parámetro. Y= α +β X (lineal en variables y parámetro β ) Y= α +β (1/X) (lineal en parámetro, pero no en las variables).

Cuando se habla de linealidad en este curso se hace referencia a la LINEALIDAD EN LOS PARÁMETROS .

TAREA: de los modelos anteriores determine cuáles son lineales en los parámetros, en las variables o en ambos.



Agosto 2004

9

ANEXO 1: RECORDANDO DE INFERENCIA Variable Aleatoria Una variable aleatoria es una función que asocia un número real a cada elemento de un espacio muestral. En particular X es una V.A si para cada numero real a, existe una probabilidad P(X≤ a) de que X tome un valor menor o igual que a. Notación:

• X,Y,Z para variables aleatorias, x,y,z para los valores particulares que toman las variables aleatorias X,Y,Z.

• P(X=x) es la probabilidad de que la variable aleatoria X, tome el valor x. • P(x1 ≤ X≤ x2) es la probabilidad de que la variable X tome valores entre x1 y x2. Hay dos tipos de variables aleatorias: i)

ii)

Variables aleatorias discretas: Si la variable aleatoria toma un conjunto finito de valores o un conjunto “contable” de valores infinitos. Ej: el número de clientes que arriban en una hora a una tienda. Variables aleatorias continuas Si en un cierto rango pueden adoptar infinitos valores. Ej. Ingreso de una familia en Chile.

Distribución de Probabilidades. Discreta: Lista de los posibles valores que una variable aleatoria discreta puede tomar conjuntamente con sus probabilidades asociadas. Ej. X es el número que sale en la cara superior al tirar un dado. x P(X=x)


1 2 3

1/6 1/6 1/6

4 5 6

1/6 1/6 1/6


Agosto 2004

10

Continua: se le denomina “función densidad”: f(x)

P ( a ≤ X ≤ b ) =

b

∫ f ( x )dx a

Las probabilidades se discuten solo para intervalos, no para valores concretos. La probabilidad de obtener un valor exacto es cero. Las variables aleatorias continuas son una creación muy útil. Dentro de ellas la más f ( x ) =

1 σ

2π

e

−

1 2σ

2

(x − µ )

2

utilizada es la normal, que tiene la siguiente función densidad: f(x)

X

Donde µ es la media y σ es el desvío estándar. Tarea:

•

Revisar INFERENCIA

•

Leer Apéndice A de Gujarati.



Agosto 2004

11

ANEXO 2: UN REPASO DE MATRICES 1 DEFINICIÓN: una matriz es un arreglo rectangular de elementos aij donde i representa la fila en que se encuentra el elemento y j representa la columna en que se encuentra. El orden de una matriz es la cantidad de filas y columnas que esta tiene. Por ejemplo, la matriz  1 3 4  A=    , se dirá que es de orden 2×3. El elemento a21 =2 2 1 3 −   3.1.1 Operaciones matriciales:

• Igualdad A=B, si aij=bij

• Transposición La traspuesta de la matriz Am×n, es una matriz A’ n×m, que tiene por filas las columnas de A.

Propiedades:

⇒ ⇒ ⇒ ⇒ ⇒

(A′)′=A (A+B)′=A′+B′ (AB)′=B′A′ (α A)′=α A′, si α es un escalar y A una matriz. Si A=A′, entonces se dice que A es simétrica.

• Suma y Resta Sea Am×n y Bm×n , entonces Cm×n=A+B es tal que cij=aij+bij Sea Am×n y Bm×n , entonces Dm×n=A-B es tal que dij=aij-b ij

Propiedades:

⇒ A+B+C=A+(B+C)=(A+B)+C ⇒ A+B=B+A

1

• • •

Este anexo repasa solamente algunas propiedades de matrices. Mas detalles en: Econometría. Alfonso Novales. Segunda Edición. Capítulo 1 Métodos de Econometría. J. Johnston. Capítulo 4 Introducción a la Econometría. G.S. Maddala. Segunda edición. Apendice al Capítulo 2.



Agosto 2004

12

• Producto de matriz por escalar Sea Am×n una matriz y α una constante, entonces Bm×n=α A, es tal que bij= α aij • Producto de matriz por matriz Sea Am×n y B p×q , el producto AB solo se puede calcular si n=p (matrices conformables), Cm×q=AB es tal que cij se obtiene multiplicando elemento a elemento de la fila i-esima de A por la columna j-esima de B y sumando estos productos. Es decir n c = ∑ a b . ij is sj s =1 Propiedades:

⇒ AB ≠ BA ⇒ La única matriz que se puede multiplicar por si misma es la matriz cuadrada. ⇒ Si AA=A se dice que A es idempotente. n

⇒ Si An×1 , entonces A′A es un escalar igual ∑ a 2i , mientras que AA′ será una matriz 1

cuadrada y simétrica de orden n×n.

⇒ A(BC)=ABC=(AB)C ⇒ A(B+C)=AB+AC • Traza La traza de una matriz cuadrada es igual a la suma de los elementos de la diagonal principal.

Propiedades:

⇒ Tr(A+B)=Tr(A)+Tr(B) ⇒ Tr(ABC)=Tr(CAB)=Tr(BCA) • Matriz identidad. Se denota como In a la matriz cuadrada de orden n, que tiene elementos 1 en la diagonal y cero en el resto.

 1 0    0 1  

I2 = 

Propiedades: Economet ría E-250: Apuntes de Clase


Agosto 2004

13

⇒ Sea Am×n , luego, ImA=AIn=A

• Diferenciación Matricial  ∂[f ( b) ]  ∂ b   1   ∂[f ( b) ] ∂[f ( b )]  ∂ b 2  = Si bn ×1, entonces  ∂ b  .   .   ∂[f ( b) ]  ∂ b   n  Ejemplos:

∂[a ' b] =a ∂ b ∂ b [ ' Ab ] = 2 Ab ⇒ ∂ b ∂[2Ab ] = 2A ⇒ ∂ b

⇒

• Determinante de una matriz El determinante es una función que asocia un número real a una matriz cuadrada. Procedimiento de Laplace: 1. Elija cualquier fila o columna de una matriz y para cada uno de los elementos calcule el cofactor. El cofactor de un elemento aij será cij=(-1)i+jMij. 2. Mij (matriz menor) es el determinante de la matriz que surge de eliminar la fila i y la columna j de la matriz original. 3. Multiplique cada elemento aij de esa fila (o columna) por su cofactor cij n

4. Determinante de A=|A|=

∑a j=1

c

ij ij

∀i

Ejemplos : Economet ría E-250: Apuntes de Clase


Agosto 2004

14

 a a 12   1. A =  11 a a  21 22  

A = a 11c 11 + a 21c 12

c11 =(-1)1+1 M11 =(-1)2 (a22 )=a22 c21 =(-1)2+1 M21 =(-1)3(a12 )= -a12

A = a 11a 22 + a 21 ( −a 12 ) = a 11a 22 − a 21a 12 2 − 1 3     2. A=  3 0 − 5   2 1 1    1+1

c11 =(-1)

2+1

c21 =(-1)

3+1

c31 =(-1)

A = 2c 11 + 3c 21 + 2c 31

0 −5 M11 =(-1) 1 1 =5 2

3

−1 3

M21 =(-1) 1

1 =(-1)(-1-3)=4

−1 3 M31 =(-1) 0 − 5 =5 4

A = 2(5) + 3( 4) + 2(5) = 32 Propiedades:

⇒ A = A' ⇒ Intercambiar 2 filas (o columnas) cambia el signo del determinante ⇒ Si una fila de un determinante se multiplica por k, el determinante queda multiplicado por k.

⇒ La adición de un múltiplo de una fila a otra no altera el valor del determinante. ⇒ Si una fila (o columna) es combinación lineal de otra fila (o columna) el

determinante de la matriz es cero. Una matriz con determinante cero se denomina singular.

• Matriz inversa Dada la matriz cuadrada An, A −n1 es su matriz inversa si A n A −n1 = I n Procedimiento de calculo: Economet ría E-250: Apuntes de Clase


Agosto 2004

15 ( A c )' matriz de cofactores transp uesta = A = A determinant e de A −1

La matriz de cofactores se forma de sustituir cada elemento de la matriz por su correspondiente cofactor cij. Donde cij=(-1)i+j Mij , siendo Mij (menor) el determinante de la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j.

Ejemplo: 1 0 0     A =  0 0 1   0 1 0   

A = 1c 11 + 0c 21 + 0c 31 = 1

1+1

c11 =(-1)

0 1 M11 =(-1) 1 0 =-1 2

A = ( −1)

  0  (1)   1   0  ( −1)   1   0  (1) c (A )'   0 = A

1   0 1   0 0   ( 1 ) ( 1 )  −      0 0    0      0 1   0   1 0   1 0    (1)  '  ( −1)  0 1    (1)(−1) ( −1)(0) (1)(0)  0  0 0          0   1 0   1 0    ( −1)(0) (1)(0) ( −1)(1)  '  ( −1)   (1) 0 0      1  0 1        =  (1)(0) (−1)(1) (1)(0)  = −1 −1

 − 1 0 0   − 1    0 0 1 −   '  0  0 −1 0   0  =  =  −1

0 0   0 −1  1 0 0  − 1 0   =  0 0 1    −1  0 1 0   

Propiedades:

⇒ ¿Siempre existe A −1 ? No, la matriz A debe ser cuadrada y no singular ⇒ ( A −1 ) − 1 = A ⇒ La inversa (si existe) es única. ⇒ ( AB) −1 = B −1 A −1 ⇒ ( A' ) −1 = (A −1 )'



Agosto 2004

16

• Rango de una matriz Una matriz Am×n puede interpretarse como una colección de m vectores fila de dimensión n, o como una colección de n vectores columna de dimensión m. Entonces, podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes (LD). Se denomina rango de la matriz al máximo número de columnas (o filas) LI. Propiedades:

⇒ ⇒ ⇒ ⇒

El número máximo de filas LI es igual al número máximo de columnas LI Rango (Am×n)=min (m,n) Rango A=Rango A’ Si rango Am×n=m=n, entonces A es no singular y su inversa existe y es única.

3.1.2 Valores y vectores propios Dada una matriz cuadrada An, entonces existe una constante λ y un vector x (no nulo), tal que satisfacen la siguiente ecuación: A x=λ x y que reciben el nombre

λ= valor propio de A x= vector propio de A

A x=λ x es una ecuación que tiene implícita dos incógnitas, un vector y un escalar. Las soluciones vendrán en parejas, a cada λ le corresponde un vector x Procedimiento de cálculo: A x=λ x A x- λ x=0 (A-λI) x=0 Si A- λI es no singular, entonces la única solución a la ecuación anterior es la trivial ( x=0). Entonces, para que la solución sea no nula, el determinante de A-λI debe ser igual a cero. A esta se le conoce como ecuación característica y tiene n soluciones a las que se denomina valores propios. Para cada valor propio existe un vector propio que se obtiene sustituyendo el valor de λ en la ecuación (A-λI) x=0. Ejemplo:

0 1 A=  0.5 0.5 i) Encontramos los valores propios de la matriz A: Debemos resolver: det( A-λI)=0 Economet ría E-250: Apuntes de Clase


Agosto 2004

17 −λ

1 = (-λ)(0.5-λ)-0.5= -0.5λ+λ2-0.5 =0 0. 5 0. 5 − λ

1 0.5 2 − 4( −0.5) 0.5± =(0.5±1.5)/2=  −0.5 2 Los valores propios son 1 y –0.5 ii) Vectores propios:

♦ Para λ=1 (A-λ1I) x 1 =0  −1 1  a  0 0.5 − 0.5  b = 0      -a+b=0 a=b ⇒ 0.5a-0.5b=0 ⇒ a=b

(A-(1)I) x=0

Dado que las dos ecuaciones son iguales el vector propio es un vector genérico

a  a  x 1=   =    b  a  Cualquier vector que tenga dos componentes que sean iguales verifica esta ecuación. En particular se puede normalizar el vector haciendo que su longitud sea 1, es decir, haciendo que a2+b2=1

 1     2  1 Luego, a=b= con lo que x 1 =    1  2    2    ♦ Para λ=-0.5 det(A-λ2I) x 2=0 0.5 1 c  0  0.5 1 d  = 0       0.5c+d=0

c= -2d

05c+d=0

c= -2d

(A- 0.5I) x 2=0

 c   − 2d  x 2 =     =   =  d   d  Normalizando tenemos dos ecuaciones: c2 +d2 =1 y c= -2d , con lo que: (-2d)2+d2=1 ⇒ 4d2+d2= 1 ⇒ 5d2 =1 ⇒ d = 1 / 5 Economet ría E-250: Apuntes de Clase


Agosto 2004

18 c= -2d ⇒ c = −2 / 5

 − 2     c   5  x 2 =    =   d    1     5  Propiedades:

⇒ Los valores propios de una matriz simétrica son reales. ⇒ Los vectores propios correspondientes a distintos valores propios de una matriz simétrica son ortogonales entre si. Es decir que su producto es cero. x1' x2 = 0 ⇒ Sea B una matriz que tenga por columnas los vectores propios de A y D una matriz que tiene los valores propios en la diagonal y cero en el resto.

|  0   | |  λ1 0     | | | 0 0 λ     2    B= x 1 x 2 . . x n y D= 0 0 . 0      | | | 0 0 . 0      | | 0 0 |  λ n      La propiedad anterior asegura que B’ B= BB’ =In , esto implica que B’ es la inversa de B (B es ortogonal).

⇒ B' AB = D , es decir que la matriz B (de vectores propios) diagonaliza a A. ⇒ Si A es una matriz simétrica, definida positiva, existe una matriz no singular P tal que A=P’ P

⇒ ⇒ ⇒ ⇒ ⇒ ⇒

La suma de los valores propios de una matriz A es igual a la traza de A El producto de los valores propios de una matriz A es igual al determinante de A Una matriz es singular si y solo si al menos un valor propio es cero. El rango de una matriz es igual al número de valores propios no nulos de ella. Los valores propios de la matriz A2 son el cuadrado de los valores propios de A. Los valores propios de A-1 son los inversos de los valores propios de A, los vectores propios son los mismos que los de A.

⇒ Los valores propios de una matriz idempotente son cero o uno. ⇒ El rango de una matriz idempotente es igual al número de valores propios iguales a 1 e igual a su traza.



Agosto 2004

19

⇒ Sea una matriz A de orden m, definida positiva, y P una matriz de m×n, de orden m, el producto P’ AP es una matriz definida positiva.

⇒ Los elementos de la diagonal principal de una matriz definida positiva son estrictamente positivos, mientras que los elementos de la diagonal principal de una matriz semidefinida positiva son no negativos.

3.2 ALGUNOS EJERCICIOS DE MATRICES2 3.2.1 Operaciones con matrices a) Dadas los siguientes matrices,

 3 5 8  A =   4 0 2 

 3 8 0    B = 2 1 4  3 2 1   

 −4    C =  2   −1  

Calcular: (ABC), (CÀ`); (AC)` ; (B`C)` ; (C`B)

b) Dadas las matrices:

 1 3 4    A =  2 0 7  5 6 9   

 10 2 0    B = 7 1 3  4 5 6   

Calcular (A+B); (A-B); (4A+7B)

3.2.2 Determinantes a. Dadas las matrices cuadradas:

 1 0   4 1   B =    3 1   0 2 

A =

 1  2

C = 

2   1  

Comprobar: A. B = A . B A. B. C = A . B . C

2

Recomendables para quienes el tema de matrices resulte nuevo o olvidado.



Agosto 2004

20 b. Dada la siguiente matriz cuadrada:

 1 0 1    A =  2 3 0   0 4 1    Comprobar:

A = A'

probar con k=2

kA = k n A

c. Calcular los siguientes determinantes: a 0 1 A= 1 a 0 0 1 a 2 1 B= 1 1

1 2 1 1

1 1 2 1

x y z t

3.2.3 Matriz Inversa a. Hallar la inversa de las siguientes matrices:

 2 −2 3   A = 1 0 −3   3 4 0   

 3 1 1    B = 1 2 2  1 2 4   

b. Dadas tres matrices A, B y C cuadradas cualquiera, verificar: (ABC)-1 = C-1 B-1 A-1

3.2.4 Valores y Vectores propios. a) Encontrar los valores y vectores propios de:

 3 0 4    A = 1 1 2  y mostrar que 1 − 2 2   



Agosto 2004

21 i) la suma de las raíces características (valores propios) es igual a la suma de los elementos de la diagonal de A ii) el producto de las raíces características es igual al determinante de A. b) Dada la matriz:

 1 4  A=   1 1  i) Encontrar los vectores propios de A ii) Calcular A2 y comprobar que λ2 es un valor propio de A2. iii) Calcular A-1 y comprobar que 1/λ es un valor propio de A-1 c) Dada la siguiente matriz:

 2 1    1 2 

A =

i) Encontrar los valores y vectores propios ii) Probar que x1 es ortogonal a x2 ⇒(x1’ x2)=0 iii) Formar B y D y probar que el determinante de A es igual al determinante de D (es obvio?), que el rango de A es igual al rango de D y que A y D tienen la misma ecuación característica. iv) Probar que B diagonaliza A⇒ B’ AB=D

 1  1 d) Dado que X=  1   1

1   2  , calcular A= [I 4 − ( X(X' X) −1 X ' ) ]. Demostrar que A es idempotente  1  3  

y determinar su rango. Calcular los valores propios de A y obtener la matriz que diagonaliza a A.



Agosto 2004

22

2. R EGR ESIÓN SIMP LE 2.1 EL MÉTODO DE MÍNIMOS CUADRADOS ORDINARIOS (MICO). 2.1.1 Definición de análisis de regresión. Se vincula a la descripción y evaluación de la relación entre una determinada variable (dependiente o explicada) y una o más variables denominadas explicativas o independientes. Significado del término de regresión (Francis Galton, 1886): la estatura promedio de los niños que nacían de padres con una determinada estatura tendía a moverse o “regresar” hacia la altura promedio de la población total. Ello aún cuando existía una tendencia a que los padres altos tuvieran hijos altos y padres bajos tuvieran hijos bajos. Galton dijo que existía una “regresión a la mediocridad”. Actualmente se denomina regresión al estudio de la dependencia de una variable (la variable dependiente) de una o más variables (las explicativas) con la perspectiva de estimar y/o predecir el valor poblacional medio de la primera en términos de los valores conocidos de las segundas.

Y = f (X 1 , X 2 ,....., X k ) ⇒ Regresión Simple ⇒ Regresión Múltiple

Si k=2 Si k>2

Donde en general X1 no representa una variable, sino que es una columna de “unos” que permitirá calcular la constante del modelo. Ej.

Y X2 X3 X4

= gasto en consumo de una familia = ingreso de la familia = activos financieros de la familia = tamaño de la familia

Objetivos del Análisis de Regresión: ⇒ Predecir el valor poblacional medio de Y dado los valores fijos de las X ⇒ Analizar los efectos de políticas que alteren las X ⇒ Saber si las X tienen o no efectos sobre la Y (y si estos efectos son significativos). Economet ría E-250: Apuntes de Clase


Agosto 2004

23

2.1.2 Especificación de la Regresión Simple. Antes habíamos hablado de relación entre variables dependientes e independientes. Y= f (X) Esta puede ser de dos tipos: i) determinística o matemática. De este tipo de relación se preocupa la economía matemática. Ej: Y=1+X Y queda determinada exactamente dado el valor de la variable X. ii) estocástica o estadística De este tipo de relación se preocupa la Econometría. Para valores de X no podemos determinar Y en forma exacta, sino probabilísticamente. Y=1 + X+ µ Donde µ, conocido como RESIDUO, es una variable aleatoria. Representa la ignorancia residual, por lo tanto podemos atribuirle las propiedades más convenientes al problema en cuestión.

2.1.3 Ejemplo: Relación deterministica Y=K 0.3 L0.7 0 .3

Y K 0. 3L0.7 1 K = K 0.3 L−0.3 = K 0.3 0.3 =     Divido entre L, = L L  L  L

Aplico logaritmo: LN(Y/L) =0.3 LN(K/L) Dados los valores de K/L (relación capital/trabajo), existe un único valor de producto por trabajador (Y/L). 7

LN(K/L)

6

5 ) 4 L / Y ( N L 3

2

LN(Y/L)

Y/L

12

3.6

36.6

14

4.2

66.7

20

6

403.4

5

1.5

4.5

10

3

20.1

1

0 0

5

10


LN (K/L)

15

20

25


Agosto 2004

24 Relación estocástica Y=K 0.3 L0.7 eµ 0 .3

Divido entre L,

Y K 0.3L0.7e µ 1 K = = K 0.3L− 0.3eµ = K 0.3 0.3 e µ =     e µ L L L  L 

Aplico logarítmo: LN(Y/L) =0.3 LN(K/L) + µ Ahora el valor final de LN(Y/L) no depende solamente del valor de LN(K/L) sino también del valor de µ. Sabemos que µ es una variable aleatoria, pero aún no conocemos su distribución. Supongamos que µ tiene la siguiente distribución: + 1 con probabilid ad de 1/2 - 1con probabilid ad de 1/2 Entonces para cada valor de K/L tendríamos dos valores posibles de Y/L

µ=

8

LN(K/L) LN(Y/L) si µ =1

7

LN(Y/L) si µ =-1

6

X

Y

Y

5

12

4.6

2.6

L / Y ( 4 N L

14

5.2

3.2

3

20

7

5

2

5

2.5

0.5

1

10

4

2

0 0

5

10

15

20

25

LN (K/L)

Supongamos ahora que µ es una variable aleatoria continua que tiene una distribución normal estandarizada (con esperanza cero y varianza 1). Entonces por cada valor de K/L tendremos infinitos valores para Y/L, dependiendo del valor de µ. El gráfico que obtendríamos sería algo similar a esto:

Valor posible de LN(Y/L) para un K/L

valor dado de

La relación entre LN(Y/L) y (K/L), estocástica.

ahora es



Agosto 2004

25 En términos generales en econometría tendremos relaciones estocásticas entre la variable dependiente (Yi) y la explicativa (Xi). Yi=α +β Xi+µ

tiene dos componentes

⇒ componente determinístico: α +β Xi, donde α y β son los parámetros o coeficientes de la regresión. Sus valores serán estimados a partir de los datos disponibles para X e Y.

⇒ componente estocástico: µ 2.1.4 Fuentes de Error µ i)

ii)

iii)

Elementos impredecibles y aleatorios en las respuestas humanas. Por ejemplo Consumo=f(ingreso), pero las personas no siempre responden de igual forma para iguales valores del ingreso. Variables Omitidas: En el término de error se resume la incapacidad de identificar la influencia de ciertas variables o en otros casos imposibilidad de representarlas en valores (por ser de difícil cuantificación). Errores de medida en la variable dependiente. Cuidado: estos errores de medida tienen ciertos problemas que estudiaremos más adelante.

2.1.5 Función de regresión poblacional y muestral. Dado que el objetivo del análisis de regresión es estimar o predecir el valor medio o promedio (poblacional) de la variable dependiente basándose en los valores fijos o conocidos de las variables explicativas, distinguiremos algunos conceptos. Función de Regresión Poblacional (FRP): es la recta que surge de unir las esperanzas condicionales de la variable dependiente para los valores fijos de la variable explicativa. Dado que para cada Xi, existe una población de valores de Y, se puede calcular la esperanza condicional de los valores de Y, condicional a cada Xi. A la unión de las esperanzas condicionales se le denomina FRP. Economet ría E-250: Apuntes de Clase


Agosto 2004

26 Del gráfico podemos concluir que E(Y/Xi) es una función de Xi, y esa será una función lineal de Xi. Recordar: la linealidad puede ser en las variables y en los parámetros. Lo que nos interesa es que la relación sea lineal en los parámetros. E (Y / X ) = β + β X 2 → es lineal en parámetros , no en las variables i 1 2 i E (Y / X ) = β + β X 2 → no es lineal ni en los parámetros , ni en las variables 1 1 2 i Modelos Linealizables:

β

E (Y / X ) = β X 2 i 1 i

ln E(Y/Xi) = ln β 1 + β 2Xi No Linealizables

β X E (Y / X ) = β1 + β 2 e 2 i i Qué forma tiene esta función? Para saberlo hay que recurrir a la teoría, pero podría ser por ejemplo E(Y/Xi)= β 1+β 2 Xi Existe una relación lineal entre Xi y E(Y/Xi), en el caso del gráfico esta relación es positiva. Pero, ¿cómo es la relación entre cada Yi y el Xi correspondiente? Para cada Xi dado, un Yi en particular se desvía de la E(Y/Xi), por un término de error, µi. Es decir,

µi= Yi - E(Y/Xi) o Yi= E(Y/Xi) + µi ,

Por lo que

Yi= β 1+β 2 Xi+ µi

Para el ejemplo que veíamos antes: Ln (Y/L) = β 1 +β 2 Ln (K/L) + ui, lo que indica que para encontrar cada valor particular de producto por trabajador debo sumar dos componentes, el primero representa el promedio de producto obtenido dado el nivel de capital utilizado [β 1+β 2 Ln (K/L)], el segundo que indica cuánto hay que sumarle o restarle a ese promedio para alcanzar el valor de Y/L particular.



Agosto 2004

27 Función de Regresión muestral (FRM). Hasta ahora nos hemos referido a los valores poblacionales de Y correspondientes a los valores fijos de X. Al hacer econometría nuestro interés es estimar β 1 y β 2, pero el primer obstáculo que enfrentamos es que no conocemos la población, sino una muestra de ella. Antes (población)

Ahora (una muestra)

Así como tenemos esta muestra, podríamos tener otra. Dado que no conocemos la población sino muestras, la estimación de la E(Y/Xi) dependerá de la muestra elegida. ¿Cuál es la verdadera? No lo sabemos.

Nuestro objetivo es conocer E(Y/Xi) ⇒ lo sabemos si tenemos β 1 + β 2Xi pero en realidad no conocemos β 1 y β 2 (parámetros poblacionales o teóricos), por lo que debemos estimarlos: Yi = β 1 + β 2 X i + µ i Yî = βˆ 1 + βˆ 2 X i será la recta estimada

Yi = Yî + ei Yi = βˆ 1 + βˆ 2Xi + ei donde Economet ría E-250: Apuntes de Clase


Agosto 2004

28

βˆ 1 estimación para β 1 βˆ 2 estimación para β 2 Estimamos Yˆ i = βˆ 1 + βˆ 2 Xi donde los βˆ i - son los valores resultantes (estimaciones) a partir de estimadores (fórmulas o algoritmos). Modelo teórico Yi

E ( Y / X i ) = β1 + β 2 X i

Y1 2

µ1 µ2

Y2 1

X1

Xi

X2

Modelo estimado

Yî = βˆ 1 + βˆ 2 X i

Y1

ˆ µ1

e1

2

β2

E(Y/Xi)=β1+β2 Xi

E(Y/X1 )

Y1

β1

β1 X1



Agosto 2004

29 Diferencias entre µi y ei

µi= Yi - E(Y/Xi)

e i = Yi − Yî e i = Yi − βˆ 1 − βˆ 2 X i

µ

-es no observable -es una variable aleatoria a la que se le supone cierta distribución de probabilidad

e -es observable (se dispone de valores) - satisface ciertas propiedades que veremos más adelante. ¿Cómo calcular β 1 y β 2? Método de momentos? Máxima Verosimilitud? Método de Mínimos Cuadrados Ordinarios (MICO)?

2.1.6. MICO para una regresión simple Utilizaremos un método llamado Mínimos Cuadrados Ordinarios (MICO). Idea: “Pasar la recta de regresión a través de los puntos del gráfico de forma que esté lo más próxima posible a la urbe de puntos”. Trataremos que las distancias verticales (errores) sean lo más pequeñas posible. e = Y − Yˆ i i i e = Y − βˆ − β X i i 1 2 i Se trata de elegir βˆ 1 y βˆ 2 tal que la diferencia sea mínima. Minimizaremos ∑ e 2i (para dar peso equivalente a residuos más grandes). O sea, minimizaremos la suma de los cuadrados de las “distancias verticales” desde los puntos de la recta. Q = ∑( Yi − Yˆ i )2 = ∑ (Yi − βˆ 1 − βˆ 2 Xi )2 = f (βˆ 1, βˆ 2 ) Debemos minimizar Q, es decir que debemos encontrar las condiciones de mínimo

CNPO

•

∂Q =0 ∂βˆ 1

•

∂Q =0 ∂βˆ 2

CNSO ∂2Q

 >0   (∂βˆ ) 2  1  condicione s de mínimo 2  ∂ Q >0  (∂βˆ ) 2  2



Agosto 2004

30

(1)

∂Q = 2 (Y − βˆ − βˆ X ) ( −1) = 0 ∂βˆ 1 ∑ i 1 2 i ∑ (Yi − βˆ 1 − βˆ 2Xi ) = 0

∑ Y − βˆ ∑1 − βˆ ∑ X = 0 i

1

2

i

n Y − βˆ 1 − βˆ 2 X = 0 n βˆ 1 = Y − βˆ 2 X (*)

∑

∑

Alternativamente podríamos expresar (1) de la forma 2 e i ( −1) = 0 ⇒ e i = 0 , esta es la primera condición que se debe cumplir para minimizar la suma de cuadrados de los residuos. ( 2)

∂Q = − 2 ∑ ( Yi − βˆ 1 − βˆ 2 X i )(X i ) = 0 ∂βˆ 2 ∑ Y i Xi − βˆ 1 ∑ Xi − βˆ 2 ∑ X2i = 0 Sustituyo βˆ 1 por (*) Y X − ( Y − βˆ X)

∑ ∑ X − βˆ ∑ X ∑ Y X = (Y − βˆ X ) ∑ X + βˆ ∑ X ∑ Y X = (Y − βˆ X) nX + βˆ ∑ X ∑ Y X = n X Y − βˆ n X + βˆ ∑ X ∑ Y X = n X Y + βˆ (∑ X − nX ) i

i

2

i

2

2 i

i

i

2

i

2

2 i

i

i

2

i

i

i

i

2 i

2

2

βˆ 2 =

2

2 i

2

2 i

2

∑ Yi Xi − n X Y ∑ X 2i − n X2

=0

2

(**)

∑

∑

Alternativamente podríamos expresar (2) de la forma 2 e i X i ( −1) = 0 ⇒ e i X i = 0 , esta es la segunda condición que se debe cumplir para minimizar la suma de cuadrados de los residuos. A las dos condiciones se le llama generalmente ECUACIONES NORMALES. La fórmula (**) la podemos transformar para interpretarla mejor.



Agosto 2004

31 Recordando de Inferencia:

∑ (Xi − X )(Yi − Y ) = ∑ ( Xi Yi − Xi Y − XYi + X Y ) n X Y X Y n = ∑ i i − Y ∑ i − X ∑ i + X Y = S xy = cov(X,Y) = n

=∑

n

n

X i Yi − Y X − XY + X Y = n

∑X Y − n Y X i

i

Este último es el término que tenemos en el numerador de (**). El denominador es parecido a la formula de la varianza muestral, S 2x

(X =∑

2

− X) . n −1 i

Por lo que (**), para muestras grandes, se puede expresar:

βˆ 2 = ∑

Yi Xi − n X Y nS XY SXY cov arianza muestral entre X e Y = 2 = 2 = X2i − n X2 n Sx Sx var ianza muestral de X donde: βˆ 1 - ordenada en el origen βˆ 2 - coeficiente angular o pendiente

∑

ˆ ˆ 2.1.7 Ejemplo de cálculo de β1 y β 2 Supongamos que conocemos los datos de producción y horas trabajadas de 10 trabajadores de una fábrica en un momento de tiempo (corte transversal). Definimos Y = producto , X = horas de trabajo 1 2 3 4 5 6 7 8 9 10 ∑

X 10 7 10 5 8 8 6 7 9 10 80

Y 11 10 12 6 10 7 9 10 11 10 96

X2 100 49 100 25 64 64 36 49 81 100 668

Y2 121 100 . .

XY 110 . .

952

789

X =8 Y = 9,6 Yi = βˆ 1 + βˆ 2 Xi + e i βˆ 1 = Y − βˆ 2 X = 9,6 − βˆ 2 • 8 = 9,6 − 0,75(8) = 3,6 Economet ría E-250: Apuntes de Clase


Agosto 2004

32

X Y − n X Y 789 − 10(8) 9,6 βˆ 2 = ∑ 2 = = 0,75 668 − 10(8) 2 ∑ Xi − n X 2 Yˆ i = βˆ 1 + βˆ 2 Xi Yˆ i = 3, 6 + 0,75 Xi Yi = βˆ 1 + βˆ 2 Xi + e i Por ejemplo: Yˆ1 =3,6+0,75(10)=7,5+3,6=11,1 e1= Y − Yˆ = 11,0 − 11,1 = − 0,1 i

1

Yˆ 2 = 3,6 + 0,75(7)= 8,85 e2 = Yi − Yˆ1 = 10,0 − 8,85 = 1.15

15

e1=-0.1

10

e2=1.15

Y 5 Pendiente: 0.75 Intercepto: 3.6

0 0

2

4

6

8

10

12

X

Tarea: Verificar que en el ejemplo se cumplen los corolarios de las ecuaciones normales

∑e =0 ∑e X =0 i i

i

2.1.8 Expresión de las formulas en desvíos. Veremos una segunda forma de expresar los resultados anteriores: βˆ 1 = Y − βˆ 2 X (*) X i Yi − n X Y S XY ( X i − X)(Yi − Y ) (**) βˆ 2 = = = S 2X X 2i − n X 2 ( X i − X) 2 Definamos las variables en desvíos respecto a su media

∑ ∑


∑

∑


Agosto 2004

33 x i = Xi − X y i = Yi − Y Entonces, (**) la podemos expresar

βˆ 2 =

∑x y ∑x i

i

2 i

(***), donde las variables en minúsculas representan desvíos respecto a la media de la variable.

TAREA: demostrar CNSO

2.1.9 Corolarios de los estimadores MICO. 1. De las ecuaciones normales se desprende ∂Q = − 2 e i = 0 ⇒ e i = 0 ⇒ los errores se compensan (media = 0) ∂βˆ

∑

∑

1

∂Q = − 2 ∑ ei X i = 0 ˆ ∂β 2

⇒ ∑ ei X i = 0

2. La regresión siempre pasa por el punto X, Y . Y i = βˆ 1 + βˆ 2 Xi + e i Sumando para todo i, tenemos: ∑ Y i = N βˆ 1 + βˆ 2 ∑ X i + ∑ e i Dado que e i = 0 Y = βˆ 1 + βˆ 2 X , Con lo que el punto X , Y verifica la recta de regresión.

∑

3. El valor medio de Y estimado es igual al valor medio de Y observado. Yi = βˆ 1 + βˆ 2 X i + e i Sumando para todo i, Yi = Yî + e i Yi = Yî + e i Yî +0 Y= n Y = Yˆ

∑

∑

∑

∑



Agosto 2004

34 4. La regresión se puede expresar en desvíos: Como ∑ei = 0 Yi = βˆ 1 + βˆ 2 X i + e i , sumando para todo i,i,

(1)

∑ Y = n βˆ i

(2)

1

+ βˆ 2

∑ X + ∑ e , recordando que ∑ei = 0 y dividiendo entre n i

i

Y = βˆ 1 + βˆ 2 X

Restando (1) –(2)⇒ Yi − Y = βˆ 1 − βˆ 1 + βˆ 2 X i + e i − βˆ 2 X Yi − Y = βˆ 2 ( Xi − X ) + e i Expresado en desvíos ⇒ y i = βˆ 2 x i + e i Similarmente se podría verificar que

yˆ i = βˆ 2 x i

5. Cov ( Yˆ , e) = Cov ( X, e) = 0 Los residuos no están correlacionados con el valor estimado de Yi, ni con los valores explicativos. Para demostrar este resultado debemos recordar la propiedad 1 y su corolario e = 0 1 1 ( X i − X) ( e i − e ) = ( X i − X) (e i ) • Cov(X,e)= n n 1 1 = [ X i e i − Xe i ] = [0 − X e i ] = 0 n

∑

∑

∑ ∑

∑

∑

De este resultado se deriva que x i e i también es igual a cero. 1 1  1 Cov ( Yˆ , e i ) = ( Yˆ − Yˆ )( e i − e) =  Yˆ e i − Yˆ e i  =  n n  n

∑

Economet Econ omet ría E-250: Apuntes de Clase

∑

∑


∑ Yˆ e

i

 − Yˆ ∑ e i  

Agosto Agos to 2004

35 Analizando la última expresión, comprobamos que el segundo término es cero. Y como se observa debajo también lo es el primero. 1

[∑ Yˆ e ] = 1 ∑ ( βˆ i

1 n

[∑ Ye

i

ˆ 1 + β 2 X i )e i =

1 n

∑ [( Y − βˆ

2

]

X ) + βˆ 2 X i e i

− βˆ 2 X∑ e i +βˆ 2 ∑ X i e i ] = 0

6. Descomposición en Suma de Cuadrados Veamos un resultado previo. Sabemos que:

Yi = Yˆ i + e i Y = Yˆ Restando las dos expresiones anteriores, obtenemos Yi − Y = Yˆ i − Yˆ + e i desvíos respecto a la media, se puede expresar:

, lo que en

y i = yˆ i + e i y dado que yˆ i = βˆ 2 x i entonces y i = βˆ 2 x i + e i Con lo que: yi = βˆ 2x i + ei = yˆ i + ei Se eleva al cuadrado:

y i2 = (βˆ 2 x i + e i ) 2

= ( yˆ i + e i ) 2

y i2 = βˆ 22 x i2 + 2βˆ 2 x i e i + e i2 = yˆ i2 + 2 yˆ i e i + e i2 Se aplica ∑:

∑ y = ∑ (βˆ 2 i

∑y

2 i

∑y

2 i

= βˆ 22

2 2

x i2 + 2 βˆ 2 x i e i + e i2 =

∑x

2 i

∑ yˆ

2 i

+ 2 ∑ yˆ i e i + ∑ e i2

+ 2 βˆ 2 ∑ x i e i + ∑ e i2 = ∑ yˆ i2 + 2 ∑ yˆ i e i + ∑ e i2

= βˆ 22 ∑ x i2 + ∑ e i2 = ∑ yˆ i2 + ∑ e i2 , (****) dado que que los dos términos de de



Agosto Agos to 2004

36 producto productoss cruzado cruzadoss se hacen hacen cero por algu algunas nas de de las propieda propiedades des anter anteriore iores. s.

Definimos:

∑y ∑ yˆ ∑e

2 i

= Suma de cuadrados totales = SCT = SST

= βˆ 22 ∑ x i2 = Suma de cuadrados explicados = SCE = SSE 2 i = SCR = Suma de cuadrados residuales = SSR 2 i

Entonces el resultado (****) ⇒ SCT=SCE+SCR Una expresión alternativa para SCE, se deriva a continuación: SCE = βˆ 2 x 2 2

Como βˆ 2

∑ xy =∑ ∑x i

i

i

2 i

∑ xiyi  SCE = βˆ 22 ∑ x i2 =  2  x  ∑ i 

2

∑x

2 i

[∑ x i y i ]2 = [∑ x i2 ]2

∑x

2 i

=

[∑ x i y i ]2

∑x

2 i

= βˆ 2 ∑ x i y i

Ejemplo. Supongamos que el consumo de los hogares se explica por su nivel de ingreso. En el diagrama de dispersión (Gráfico1) cada punto (Xi,Yi) indica la combinación de ingreso y consumo del hogar. Podríamos partir explicando el consumo de una cierta familia por el consumo medio observado de la muestra. Para cada familia cometeríamos un error dado por Y −Y. i Si realizamos una regresión y estimamos los parámetros βˆ 1 y βˆ 2 por MICO, el error que cometemos al asignar a la familia Xi cuyo verdadero consumo es Yi, la media de los consumos, se divide ahora en dos partes (Gráfico 2). Una de ellas nos indica la parte del error que ha sido explicada por el modelo ( Yˆ i − Y ). La otra mide el error que aún subsiste (ei) Esto se puede generalizar obteniendo medidas resumen para todas las observaciones (o sea para para toda toda la la muest muestra) ra).. Estas Estas medida medidass son son las sumas sumas de de cuadr cuadrado adoss que que vimos vimos antes: antes: la suma suma de cuadrados totales (SCT) puede descomponerse en una parte explicada por la regresión (SCE) y otra parte que aún no logramos explicar o residual (SCR).



Agosto Agos to 2004

37 Gráfico 1: Desvío respecto a la media Y *

(Xi,Yi ) *

Yi − Y

Y

*

Es el desvío total (DT) respecto a la media.

*

*

* * X

DT = ( Yi − Y) le sumamos y restamos Yî , DT = Y − Yˆ + Yˆ − Y = ( Y − Yˆ ) + ( Yˆ − Y ) = DE + DR Al

i

i

i

i

i

i

Gráfico 2: Desvío Total, Desvío Explicado y Desvío Residual

Y (Xi,Y i) *

Yi

ˆ DR= Yi − Y

Yî

*

DT=Yi

−Y

1

+ βˆ 2 X i

Y

* * *

Y DE= i

*

−Y

* Xi



X

Agosto 2004

38

2.1.10. Coeficiente de determinacion (R 2) Esta descomposición da lugar a una medida de la bondad de ajuste de modelo de regresión R 2 =

SCE SCT − SCR SCR = = 1− SCT SCT SCT

Consideraciones: 1. Es una medida de bondad absoluta del modelo ya que mide qué proporción de la varianza total (la varianza de Y) es explicada por el modelo de regresión (por X). Cuanto mayor sea la relación entre X e Y, mayor será este indicador. 2. Es una medida de bondad relativa entre modelos. Por ejemplo, permite comparar si la capacidad explicativa es mayor incluyendo X como variable independiente respecto a incluir Z. 3. 0 ≤ R 2 ≤ 1 (Si el modelo no explica nada SCR = SCT ⇒ R 2 = 0) (Si el modelo explica todo SCE = SCT ⇒ R 2 = 1) R 2=1

Y

R 2=0

Y

Y

*

*

*

*

*

*

*

X

X

Todas las observaciones coinciden con la línea de regresión⇒ ajuste perfecto (imposible)

No existe relación alguna que sea expresable linealmente

Otr as formas de expr esarlo:

SCE = R = SCT 2

∑ ∑

yˆ i2 y i2

=

∑ ∑y

βˆ 2 2

  2 x i  = 2

i

2

∑  ∑ x ( xy) ∑ x  = ∑ ∑y ∑y ∑x x i y i  

2 i

2 i

2

i i

2 i

2 i

2 i

=

S 2xy S 2x

•

S 2y

= r x2, y

Es decir, en el modelo de regresión simple el R 2 es igual al cuadrado del coeficiente de Economet ría E-250: Apuntes de Clase


Agosto 2004

39 correlación muestral simple entre X e Y. Cov( X, Y) Recordar que r XY = = V( X ) V(Y) asociación lineal que existe entre X e Y.

∑x y ∑x ∑y i

2 i

i

2 i

=

S x ,y , era una medida de la S x Sy

Debemos recordar que el concepto de covarianza nos da una primera aproximación del grado de asociación que tienen X e Y. Sxy =

∑(X − X)( Y − Y) = ∑ xy n

n

Y

∑ xy < 0

Esto se cumple si los puntos muestrales se concentran predominantemente en estos cuadrantes. Puede pasar que exista una relación, pero pequeña, entre las dos variables, en ese caso los puntos estarán dispersos en los cuatro cuadrantes.

∑ xy > 0

Y xy > 0

xy < 0

X

Desventajas de trabajar con

∑ xy :

a. Su valor puede aumentar simplemente agregando más observaciones. La solución es dividir por el tamaño muestral, con esto se obtiene Sxy b. La covarianza depende de las unidades en que se miden X e Y. Por ejemplo si pasamos variables de dólares a centavos, la covarianza aumenta en 10000. Por esta razón, la covarianza se escala dividiendo por la desviación estándar de las variables en cuestión. ˆ Cov( X , Y) β 2S xy = 2 . El signo de r XY dependerá del signo Por eso trabajamos con r XY = V( X )V ( Y) Sy de la covarianza.



Agosto 2004

40

Propiedades de r: a. Está entre –1 y 1 b. Simetría r xy =r yx c. Es independiente del origen y de la escala. d. Si X e Y son estadísticamente independientes, entonces r=0. Pero r=0, no implica independencia. e. Como es una medida de asociación lineal, no tiene sentido utilizarlo para describir relaciones no lineales. f. No dice nada de las relaciones causa-efecto. Para eso se utiliza el test de Granger.

2.1.11 Algunas Regresiones Particulares

• Regresión que incluye sólo Constante (o sea no incluye X) Yi = β 1 + u i Yî = βˆ 1 Y = βˆ + e i

Q= ∂Q =2 ∂βˆ 1

1

Tarea:

verificar qué propiedades se cumplen para esta regresión. .

i

∑ e = ∑ (Y − βˆ ) 2 i

i

2

1

∑(Y − βˆ )( −1) = 0 i

1

∑ Y = ∑βˆ Y βˆ = ∑ = Y i

1

i

1

n

βˆ 1 = Y

• La regresión que pasa por el origen (incluye X, pero no constante) Yi = β 2 X i + u i e i = ( Yi − βˆ 2 X i )

∑ e = ∑ (Y − βˆ X ) = ∂Q = 2∑ ( Y − βˆ X )(−X ) = 0 ˆ ∂β ∑ (Y − βˆ X ) X = 0 ⇒ ∑ Y X − βˆ ∑ X YX βˆ = ∑ ∑X 2 i

Q=

2

i

i

2

2

i

calcular R 2, verificar las restantes propiedades. Tarea:

i

i

2

i

2

i

i

2

i

i

i

2

2 i

=0

i

2 i



Agosto 2004

41 Características:

∑e ≠0 ∑e X =0 i i

i

• Modelo doble logarítmico ln Y = β1 + β 2 ln X + u i

η YX =

∂ ln Y = elasticida d de Y respecto a X = βˆ 2 ∂ ln X

↓ cambio porcentual de Y, respecto al cambio porcentual en X

• Modelo Semilogarítmico ln Y = β1 + β2 X + ui ∂ ln Y ∂ X

= β 2 ⇒ cambio relativo en Y por un cambio absoluto en X

.

↓ semielasti cidad : tasa de cambio en Y por el cambio en una unidad en X.

• Ejemplo: el tiempo como variable explicativa Supongamos que tenemos el siguiente modelo para representar la evolución de una cierta economía: PIB=Aer t (Ver Recuadro) Donde A es un término constante, r es la tasa de crecimiento anual (que se supone constante) y t es el tiempo (1,2,3.......). Para estimar esta ecuación debemos linealizarla e incorporarle el componente aleatorio: PIBt =Aert eµ ln PIBt = ln A + rt+µi Economet ría E-250: Apuntes de Clase


Agosto 2004

42 ln PIBt = β 0+ β 1 t+µi (*) Luego de estimar (*) con los datos de un cierto país, obtenemos: ln PIBt = 6,96 + 0,0269 t +ei Esto significa que la tasa de crecimiento del PIB promedio en el período de esta economía es 2.69%. Supongamos que el PIB crece a una tasa de 3% anual. Matemáticamente esto significa que:

dPIB = 0.03PIB dt Esta es una ecuación diferencial que se puede reescribir como:

1 dPIB = 0.03dt . Si integramos a ambos lados de la ecuación, tenemos: PIB

∫

1 dPIB = 0.03dt y resolviendo ambas integrales: PIB

∫

ln PIB + c1 = 0.03t + c 2 Con lo que: ln PIB = 0.03t + c . Encontrando el antilogaritmo de esta ecuación:

PIB(t)=e0.03te c 2.1.12. ¿Cómo seleccionar entre estimadores? Hasta ahora hemos derivado los estimadores MICO para βˆ 1 y βˆ 2 . También hemos derivado sus propiedades. En este punto nos preguntamos qué criterios podemos aplicar para saber que tan buenos son estos estimadores. Pese a que MICO es el método más popular para estimar los parámetros de un modelo, minimizar la suma de los errores al cuadrado, no dice nada sobre la relación del estimador y el verdadero valor del parámetro. Puede pasar que la minimización sea válida para una muestra en particular. Economet ría E-250: Apuntes de Clase


Agosto 2004

43 MICO siempre minimiza ∑ e 2i , pero esto no garantiza que se cumplan otras propiedades. Mayor R2 ¿Tiene sentido decir que los estimadores tendrán buenas propiedades si hacen que el R 2 sea el mayor posible? No, MICO minimiza ∑ e 2i para una muestra en particular y esto es equivalente a maximizar R 2. El R 2 no es válido como criterio para "buena" estimación, sino como indicador ajuste de la regresión a la muestra seleccionada. Ver Sección 2.1.10

ˆ Insesgamiento ⇒ E(β) = β Esto no quiere decir que β = βˆ , sino que se calcula el estimador correspondiente para muestras repetidas, "en promedio" estaremos sobre el parámetro poblacional. Minimizar ∑ e 2i puede aplicarse sin requerir casi ninguna información sobre la forma en que los datos han sido generados. Este no es el caso del criterio de insesgamiento. Para verificar si el estimador MICO es insesgado, deberemos realizar ciertos supuestos sobre la forma en que se extrajo la muestra con la que trabajamos. Eficiencia ¿Cómo elegimos entre estimadores que son todos insesgados? Será mejor el que tenga la varianza más pequeña, es decir el que sea más eficiente.

Veremos qué supuestos deben plantearse para que se cumpla con esta propiedad.



Agosto 2004

44 Ahora, si tengo un estimador con mínima varianza, ¿estaré seguro que es el mejor estimador? No, depende del sesgo. Error Cuadrático Medio ECM ( βˆ ) = E (βˆ − β) 2 = Var ( βˆ )+ [Sesgo ( βˆ )]2

f (β* )

(β)

En este caso β * es sesgado, pero con menor varianza, βˆ mientras es insesgado pero con mayor varianza. Para poder elegir entre ellos debo comparar el ECM, que resume varianza y sesgo. Debieramos elegir el estimador con menor ECM.

E(

Consistencia En muchos problemas econometricos es imposible encontrar estimadores con las propiedades anteriores. Sin embargo, muchas veces se puede justificar la utilización de un estimador en base a sus propiedades asintóticas. La distribución muestral de un estimador muchas veces cambia en la medida que cambia el tamaño muestral. Es posible que el sesgo de un estimador se haga cada vez mas pequeño en la medida que aumenta n. Por esta razón al analizar las propiedades deseables de un estimador se deben tener en cuenta las propiedades asintóticas o de “muestras grandes” del mismo: 1. Si la distribución asintótica de βˆ se concentra en un valor k en la medida que n tiende a infinito, se dice que k es el límite en probabilidad de βˆ (plim βˆ =k ). Si plim βˆ =β se dice que el estimador es consistente.



Agosto 2004

45 2. La varianza de la distribución asintotica de βˆ se denomina varianza asintótica de βˆ . Si βˆ es consistente y su varianza asintótica es menor que la varianza asintótica de otros estimadores, se dice que βˆ es asintóticamente eficiente.

f(x)

f (βˆ ) 100

(βˆ )40

(βˆ)20

β

En el grafico vemos un ejemplo en que a medida que aumenta n (de 20 a100) la distribución se concentra respecto a β mientras la varianza del estimador va disminuyendo. En conclusión: cuando no se encuentra un estimador con buenas propiedades para muestras pequeñas es deseable elegir un estimador con buenas propiedades para muestras grandes.

2.2 SUPUESTOS CLÁSICOS DEL MODELO DE REGRESIÓN. Recordemos que para derivar las fórmulas de los estimadores MICO, no fue necesario realizar supuestos sobre la forma en que se extrajo la muestra o sobre la distribución de probabilidad de µ. Sin embargo para verificar las propiedades estadísticas que tienen estos estimadores si requeriremos ciertos supuestos. Los supuestos usuales que se requieren y que por tanto reciben el nombre de SUPUESTOS CLÁSICOS, son los siguientes:



Agosto 2004

46

1. La variable explicativa X está dada (es no estocástica o no aleatoria). Este supuesto implica que si se repitiera la selección de muestras se podría considerar que las variables independientes serían las mismas. Como se ve este supuesto es muy fuerte. Dado que X es no estocástica, la COV(X, µ)=0.

2. E(µ i /Xi )=0 ∀ i

µi ⇒ es una perturbación aleatoria que puede tomar valores positivos o negativos, pero no existe razón para esperar que sea sistemáticamente positiva o negativa. Por el contrario, suponemos que los errores “a la larga” se compensan. Dado que la X es fija y teniendo en cuenta este supuesto: E(Yi/Xi)= E(β 1+β 2 Xi+µi)= β 1+β 2 Xi Con lo que este supuesto también implica que todo lo que no está incluido explícitamente en el modelo (“todo lo que ignoramos” sobre los determinantes de la variable Y), se supone que no afecta en forma sistemática el valor promedio de Y, porque se compensan los errores negativos y los positivos.

3. No autocorrelación ⇒ Cov( µ i , u j)=0 i≠ j Se supone que los errores cometidos en dos momentos distintos en el tiempo no están correlacionados. Esto significa que en repetidas muestras no existe ninguna tendencia a que los errores asociados con una observación estén relacionada a los errores de otra. Si en un momento de tiempo o en un individuo de la muestra se genera un error positivo, esto no nos da ninguna información sobre si el próximo error será positivo o negativo. Este supuesto implica que los errores no tienen un patrón de comportamiento sistemático.

COV( µ i , µ j ) = E [µ i − E (µ i ) ] µ j − E(µ j ) y dado el supuesto 1

= E(µ i , µ j ) = 0 Cuando los términos de error correspondientes a períodos diferentes están correlacionados, diremos que existe autocorrelación. Más tarde en el curso estudiaremos MICO bajo autocorrelación.

Ejemplo:



Agosto 2004

47 Cuando se trabaja con series de tiempo en economía es muy común que se presenten fenómenos que tienen inercia y si esta no es recogida por el modelo, se genera autocorrelación en el error. Por ejemplo, los efectos de la crisis de 1982 generalmente son difíciles de recoger en su totalidad por un modelo, por lo que se genera un error que estará correlacionado con el error cometido en el período siguiente.

µi

µi

*

*

-µ j *

*

*

*

*

* * *

µ j

-µ j

* *

* Correlación Positiva

* * *

µ j * * Correlación Negativa

-µi

-µi

µi No existe Correlación

*

-µ j

* * * * * ** * *

µ j

-µi Economet ría E-250: Apuntes de Clase


Agosto 2004

48

4. Homocedasticidad ⇒ V(µ i /Xi )=σ 2 Se supone que las perturbaciones se distribuyen con igual dispersión (varianza) respecto a la media. V( µ i ) = σ 2 = E( µ i − E( µ i )) 2 y dado el supuesto 1 es equivalent e a E(µ 2i ) = σ 2 Cuando este supuesto no se cumple, decimos que existe heterocedasticidad. f ( µ) Homocedasticidad.

Y

X1

E(Y/Xi)=β 1+β 2Xi

X2 X3

X

f ( µ) Heterocedasticidad

Y

X1

E(Y/Xi)=β 1 +β 2Xi

X2 X3

X



Agosto 2004

49

Ejemplo: supongamos que deseamos explicar el gasto en consumo de las familias en función de su ingreso. Si los datos se refieren a una muestra de corte transversal, el supuesto de homocedasticidad no tiene mucho sentido, ya que indica que independiente del nivel de ingreso, los gastos de cada familia se desvían del modelo con la misma dispersión. Lo lógico es pensar que a mayores niveles de ingreso, hay un mayor espacio para que las familias distribuyan su ingreso. 5. El modelo está bien especificado. Es decir que no hay errores en la especificación: • No hay omisión de variables ni variables en exceso • La forma funcional es la correcta • No hay supuestos estocásticos incorrectos. Esto evitará errores en la estimación de los parámetros.

6. Normalidad ⇒ µ i ∼ N( 0 , σ 2 ) Los errores son normales, idéntica e independientemente distribuidos. Es decir que cada error es una extracción aleatoria independiente de una distribución normal con media cero y varianza σ2. f ( µ)

Y

X1

µ1 ∼ N(0, σ2)

µ2∼ N(0, σ 2)

E(Y/Xi)=β 1 +β2 Xi

X2 X3

X

2.3 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO



Agosto 2004

50 En base a algunos de los supuestos clásicos anteriores, veremos ahora que propiedades estadísticas tienen los estimadores MICO. ¿Son insesgados? ¿Son eficientes? ¿Tienen el menor ECM?

2.3.1 Linealidad

βˆ 2 = ∑

x i yi

∑x

2 i

=∑

x i ( Yi − Y)

∑x

2 i

Dado que la ∑xi=0 ⇒ βˆ 2 =

Si definimos k i =

=∑

∑x Y ∑x i

∑x Y = ∑x Y − Y ∑x ∑x ∑x

x i Yi −

i

i

2 i

i

i

i

2 i

(*)

2 i

xi como un tipo especial de ponderador que cumple las siguientes x i2

∑

propiedades: a) no estocástico b) c) d)

∑ k = 0 ∑ k = ∑1x

2 i

∑

k i X i = 1

i

2 i

k i x i =

∑

Tarea: Verificar ro iedades

Esto nos permite volver a (*) y expresar βˆ 2 =

∑ k Y i

i

estas

cuatro

(**)

Esta expresión muestra que βˆ 2 es un estimador que puede expresarse como combinación lineal de la variable Yi (donde k i son las ponderaciones de esa combinación lineal).

2.3.2 Insesgamiento Sabemos que Yi = β 1 + β 2 X i + µ i y por (**) sabemos que βˆ 2 = entonces



∑ k Y i

i

,

Agosto 2004

51

βˆ 2 = ∑ k i (β 1 + β 2 X i + µ i ) βˆ 2 = ∑ k i β1 + ∑ k iβ 2 X i + ∑ k i µ i βˆ 2 = β1 ∑ k i + β 2 ∑ k i X i + ∑ k i µ i 0 por a)

1 por d)

βˆ 2 = β 2 + ∑ k i µ i (***) Esta expresión es muy útil porque expresa al estimador como la suma del verdadero parámetro β 2 más una suma ponderada de errores aleatorios que puede resultar positiva o negativa, pero cuyo valor esperado es 0.

βˆ 2 es insesgado si E(βˆ 2 ) = β 2 Tomando esperanza a (***) E (βˆ 2 ) = E(β2 +

∑ k µ ) i

E (βˆ 2 ) = E(β2 ) + E( E (βˆ 2 ) = β2 +

i

∑ k µ ) i

dado que k i es fijo , no aleatorio

i

∑ k E (µ ) i

Supuesto 2 : E(µ i ) = 0

i

E (βˆ 2 ) = β 2 El estimador es insesgado, esto es, aunque para una muestra en particular βˆ 2 se puede alejar de β en algo positivo o negativo ( βˆ − β = k µ ), si repetimos muchas veces el 2

2

2

∑

i

i

experimento, estaremos en promedio sobre el verdadero valor del parámetro. Recordar: que el estimador sea insesgado no nos garantiza que sea el "mejor" estimador. Tarea: Chequear para βˆ 1



Agosto 2004

52

2.3.3 Eficiencia 2.3.3.1 Cálculo de varianzas y covarianzas. Para verificar cuan concentrado o disperso (respecto al verdadero valor) se encuentra el estimador MICO necesitamos calcular las VARIANZAS : Recordar var( X) = E(X i − E (X) ) 2

•

2 ˆ ˆ ˆ ( ) VAR (β 2 ) = E β 2 − E(β 2 ) , pero E(βˆ 2 ) = β 2 luego, VAR (βˆ 2 ) = E[(βˆ 2 − β 2 )]2

De (***) sabemos que βˆ = β + k µ

∑ βˆ − β = ∑ k µ , con lo que: Var (βˆ ) = E( ∑ k µ ) = E[(k µ 2

2

i

i

2

2

i

i

2

2

i

i

1 1

+ k 2 µ 2 + . . . + k n µ n ) 2 ]=

Var (βˆ 2 ) = E[(k 1µ 1 + k 2 µ 2 + . . . + k n µ n )(k 1µ 1 + k 2 µ 2 + . . . + k n µ n )] = Var (βˆ 2 ) = E[k 12 µ 12 + k 1k 2µ 1 µ 2 + k 1 k 3µ 1 µ 3 + . . . + k 22 µ 22 + k 2µ 2 k 1µ 1 + …] nos quedan n

→

n terminos

2 i

2 i

k µ →

∑ k µ 2 i

2 i

1

n (n −1) n ( n − 1) términos ( 2k i µ i k jµ j ) → 2k i k jµ i µ j → 2 1

∑

n ( n −1) n  2  2 2 Var (βˆ 2 ) = E ∑ k i µ i + 2 ∑ k i k j µ i µ j  1  1 

k i no aleatorio  Recordando  E(µ 2i ) = σ 2  E(µ i µ j ) = 0  Var (βˆ 2 ) =

n

n( n −1) 2

n

n ( n −1) 2

∑ k E (µ ) + 2 ∑ k k E(µ µ ) = ∑ k E (µ ) + 2 ∑ k k E(µ µ ) 2 i

1

2 i

i j

1

i

2 i

j

2 i

1

σ2 ∀ i Economet ría E-250: Apuntes de Clase


i

j

i

j

1

0 Agosto 2004

53 Var (βˆ 2 ) = σ 2

por c),

∑

 1  σ 2   ∑ x 2i  = ∑ x i2  

k 2i = σ 2 

∑ k = ∑1x 2 i

2 i

Tarea: verificar que Var (βˆ 1 ) = σ 2

∑X n∑ x

2 i 2 i

 X2 1 =σ  +  2 x  ∑ i n  2

• COV( βˆ 1 , βˆ 2 ) COV (βˆ 1 , βˆ 2 ) = E βˆ 1 − E(βˆ 1 ) βˆ 2 − E(βˆ 2 ) = E (βˆ 1 − β1 ) (βˆ 2 − β 2 )

↓

↓

E(βˆ 1 ) = β 1

E (βˆ 2 ) = β 2

Pero, βˆ 1 = Y − βˆ 2 X , con lo que

βˆ 1 − β1 = β1 + β 2 X + µ − βˆ 2 X − β1 , y por tanto, βˆ

− βˆ1 = X ( β 2 − βˆ 2 ) + µ = βˆ − β = − X ( βˆ − β ) + µ 1 1 2 2 1

Entonces,

COV ( βˆ1 , βˆ 2 ) = E {[− X ( βˆ 2 − β 2 ) + µ ) ][βˆ 2 − β 2 ]} = E [− X ( βˆ 2 − β 2 ) ( βˆ 2 − β 2 ) ] + E [µ ( βˆ 2 − β 2 ) ] =



− X E ( βˆ 2 − β 2 ) 2 + E (

∑ µ )(∑ k µ ) = i

 N

− X • − X •

i

i



σ2

 1 ( µ + µ + . . . + µ )(k µ + k µ + . . . + k µ ) = + E n 1 1 2 2 n n   ∑ xi2  N 1 2 σ2

∑ x

2 i

+ σ 2 ∑ k i



Agosto 2004

54

σ2 ˆ ˆ COV(β 1 , β 2 ) = − X • x 2i

∑

Características de la varianza

• La varianza de βˆ 2 es directamente proporcional a σ2 (varianza de µi) e inversamente proporcional a

∑x

2 i

(varianza de variable X)

• Dado σ2, cuanto mayor sea la variabilidad de la variable X, más centrado estará el estimador del verdadero valor.

• Dada la varianza de Xi, a mayor σ2 (mayor variabilidad de los datos a explicar o mayor variabilidad del error aleatorio), mayor será la varianza del estimador.

Y X variabilidad de Y no explicada por X La amplitud de esta área variabilidad común, en el sentido es σ2 que se puede explicar una por otra. Cuanto mayor esta área, mayor la información empleada por el procedimiento de estimación para calcular la pendiente β2 , entonces, menor su varianza.

variabilidad de X

Características de la covarianza

•

Implica que βˆ 1 y βˆ 2 dependen entre sí signo depende de X , si X > 0 → cov (βˆ , βˆ ) < 0 1 2 X < 0 → cov (βˆ , βˆ ) > 0 1 2

Tanto l as varianzas y como l a covari anza de los estimador es quedan dependi endo de datos

∑X ,∑X

conocidos

i

2 i

, n, X …) y de un parámetr o desconocido 2 .

• Cómo no conocemos σ2 (es un parámetro poblacional), no conoceremos los valores de Economet ría E-250: Apuntes de Clase


Agosto 2004

55 las verdaderas varianzas. Estimaremos σ2 y eso nos permitirá estimar las varianzas de βˆ y βˆ . 1

2



Agosto 2004

56 2.3.3.2 Estimador de σ2 (1)

Yi = β 1 + β 2 X i + µ i (divido entre n y sumo para todo i)

∑Y

i

n

(2)

= β1 + β 2

∑X + ∑µ i

n

i

n

Y = β1 + β 2 X + µ

(1)-(2) → Yi − Y = β 1 − β1 + β 2 ( X i − X) + µ i − µˆ , expresado en desvíos: (3)

y i = β 2 x i + (µ i − µ )

Recordando que: (4)

e = y − yˆ = y − βˆ x i i i i 2 i

Sustituyendo (3) en (4) (5)

e = β x + µ − µ − βˆ x i i 2 i i 2

(6)

e = (βˆ − β )(−x ) + µ − µ i 2 2 i i

Se eleva (6) al cuadrado

[

(7)

]

2 e 2i = (βˆ − β )(− x ) + µ − µ 2 2 i i e 2i = ( −x i ) 2 (βˆ 2 − β 2 ) 2 + (µ i − µ ) 2 − 2x i (βˆ 2 − β 2 ) (µ i − µ )

Sumando para todo i (8)

Σe 2i = ∑ x 2i (βˆ 2 − β 2 ) 2 + Σ(µ i − µ ) 2 − 2∑ x i (βˆ 2 − β 2 ) (µ i − µ )

Aplicando esperanza a (8)

[

(9)

E (Σ e 2 ) = E  ∑ x 2 (βˆ − β ) 2  + E  Σ(µ − µ ) 2  − 2E ∑ x (βˆ − β ) (µ − µ ) i i 2 2 i  i 2 2   i 

(10)

E (Σ e 2 ) = ∑ x 2 E (βˆ − β ) 2 + E Σ( µ − µ ) 2  − 2E (βˆ − β ) ∑ x (µ − µ ) i i 44 2 4 2244 i 4 i4 4  14i 4 4 2244 24 3 144 2 3 3 144 4 4 A C B


[


]

Agosto 2004

]

57 (11)

E (Σ e 2 ) = A + B + C i

Desarrollando A 2 σ2 2 2 2 ˆ A = ∑ x E(β – β ) = ∑ x • = σ i 2 2 i ∑ x i2

σ2 ˆ Recordar que V(β 2 ) = x 12

∑

Desarrollando B B = E  ∑ (µ i − µ ) 2   = E  ∑ (µ i2 − 2µ i µ + µ 2 )   = E  ∑ µ 2i + ∑ µ 2 − 2∑ µ i µ         = E  ∑ µ 2i − nµ 2 − 2µ ∑ µ i   = E  ∑ µ i2 + n µ 2 − 2 µ • nµ   = E  ∑ µ 2i + nµ 2 − 2nµ 2         2  ∑ µ 2  µ  ∑    = E = ∑ σ 2 − n E  i  =  ∑ µ 2i − nµ 2   = E  ∑ µ 2i   − n E  µ 2   = ∑ E (µ i2 ) − n E i         123  n 2   n    σ2 1 1 1 • ∑ E (µ 2 ) = ∑ σ 2 − ∑ σ 2 = nσ 2 − nσ 2 = σ 2 ( n − 1) n n 12i3 n2 σ2 Desarrollando C

= ∑ σ2 − n

            C = − 2 E (βˆ − β )∑ x (µ − µ )  = − 2E (∑ k µ ) ∑ x µ − µ ∑ x   = 2 24 2 i i i i  i i i   14  3    ∑ k µ  0     i i   = − 2 E [∑ k i µ i ∑ x i µ i ]= − 2 E [(k 1µ 1 + k 2 µ 2 … k n µ n )(x1µ1 + x 2 µ 2 … x n µ n ) ] {

    2 2 2 = − 2 k 1x1 E(µ1 ) + k 2 x 2 E (µ 2 ) + … + k n x n E (µ n ) + … k n x n − 1 E(µ n µ n − 1 )   123 123 123 14 4 244 3   0  σ2 σ2 σ2  = − 2 ∑ k i x i σ 2 = − 2σ 2 ∑ k i x i = − 2σ 2 123

1

Entonces ahora (11) Economet ría E-250: Apuntes de Clase


Agosto 2004

58

∑e ) = A + B + C = σ

(12) E (

2 i

2

+ (n − 1)σ 2 − 2σ 2 = σ 2 (1 + n − 1 − 2) = σ 2 (n − 2)

∑ e ) = σ (n − 2)

(13) E (

2 i

2

e2 ∑ 2 i Definamos que el estimador de σ2 es σˆ = , el resultado (13) nos asegura que n−2 estamos definiendo un estimador insesgado de σ2. Esto porque σ2 será insesgado si:

 ∑ e 2    1 1 2 2 2 E E • σ 2 (n − 2) = σ 2  σˆ   = σ y E(σˆ ) = E i  =  ∑ e 2i   =    4 n −2  n − 2  n − 2 142 3   σ 2 ( n − 2)

∑ e i2 2 El estimador insesgado de σ2 será σˆ = −2 2.3.3.3 Varianzas estimadas

σ2 ˆ Sabemos que V (β 2 ) = x 2i

σˆ

y

∑

σˆ 2 2 ˆ ˆ ˆ = V (β 2 ) = σ βˆ = 2 x 2i

∑

o alternativamente σˆ βˆ = 2

2

∑e =

2 i

n−2

, luego,

∑e /n−2 = ∑e ( n − 2)∑ x ∑x 2 i

2 i

2 i

2 i

σˆ

∑

x i2

y análogas para βˆ 1 , Var (βˆ 1 ) = σ 2

∑X n∑ x

2 i 2 i


 X2 1 =σ  +  2 x  ∑ i n  2


Tarea:

para el ejemplo 2.1.7, calcular las varianzas y covarianzas estimadas.

Agosto 2004

59 Vˆ (βˆ 1 ) = σˆ = ~σ 2 βˆ 1

2

∑X n∑ x

2 i 2 i

 X2 1  = σˆ 2  +  2 x  ∑ i n 

2.3.3.4 Teorema De Gauss-Markov

HIPÓTESIS: Si se cumplen los siguientes supuestos clásicos: 1. La variable explicativa X está dada (es no estocástica o no aleatoria). 2.

E(µi) = 0 ∀i

3. y 4.

σ 2 si i = j   E u , u  =  homocedasticidad y no autocorrelación  i j   0 si i ≠ j

5.

No hay errores de especificación

TE SIS: L os estimadores M I CO son de míni ma varianza entre los estimador es lineales e insesgados ⇒ M I CO son los mejores estimadores li neales in sesgados (M EL I ).

Demostración Sabemos que βˆ

es lineal ( βˆ = 2 2

∑ k iYi ) e insesgado ( E (βˆ ) = β 2

2

).

2 σ ˆ Además V(β 2 ) = x 2i

∑

• Supongamos que existe otro estimador β*2 lineal de β 2 . Entonces para que será lineal β* deberá ser igual a β*2 = ∑ w i Yi donde wi es alguna 2 ponderación.

• Calculemos E (β*2 ) y veamos que condición debemos exigirle a wi para que β*2 sea insesgado. E (β*2 ) = ∑ w i E( Yi ) = ∑ w E(β1 + β2 Xi + µ i ) = ∑ w i (β1 + β2 Xi ) = i = β1 ∑ w i + β2 ∑ wi Xi



Agosto 2004

60 para que β*2 sea insesgado se debe cumplir:

∑w = 0 ∑w X = ∑w x i i

i

i

i

=1

• Veamos las condiciones que tiene que cumplir wi para que la varianza sea mínima Var β* = Var ( ∑ w Y ) = ∑ w 2 Var (Y ) = ∑ w 2 • σ 2 = σ 2 ∑ w 2 2 i i i 1424 i i i 3 σ2 Sumando y restando

x

i al término con sumatoria, ∑ x i2

2    x x  x    2 i i 2 = σ ∑ w − w − i + = σ ∑     i ∑ x 2 ∑ x 2   i ∑x2  i i  i  

2  x   i   +   ∑ x 2  i  

2 2          x   x  x   x     = σ 2 ∑  w i − i  +  i  + 2 w i − i   i     x 2   ∑ x 2  x 2   ∑ x 2   ∑ ∑ i   i  i   i    

2

2

  x   w x x  x 2     i   i i  2 i 2 2 i 2 = σ ∑  wi − + σ + σ − ∑ ∑   2   2    ∑ x  ∑x x 2  (∑ x 2 ) 2  ∑ i  i    i   i   2 x x 2i    1 1  ∑ 2 2 2 2 i  wx −  = σ ∑ wi −  + σ ( x 2 ) 2 ∑ x i + 2σ 2 ∑ i i 2  2 ∑i ∑ x i  ∑ x i   ∑ x i   

2   x   σ2 * 2 i Var (β ) = σ ∑  w −  + 2 2 i 2  ∑ xi    ∑ x i


El término entre paréntesis es cero, ya que para que exista insesgamiento se requiere que


Agosto 2004

61 quiero minimizar esto, pero el segundo sumando

σ2 ∑ x i2

es un número , es una constante,

Entonces, minimizar Var(β*2 ) es equivalente a minimizar ∑ ( w

− i

x

i )2 ∑ x i2

y este cuadrado se minimiza cuando la base es igual a cero ⇒ se minimiza cuando wi −

xi = 0 o cuando x i2

∑

wi =

xi x 2i

∑

La condición que minimiza la varianza es que w i =

xi , que es una condición igual a la 2 xi

∑

de MICO, por lo que βˆ 2 = β*2 Este teorema asegura que si existe otro estimador (β*2 ) con similares propiedades al que tiene MICO (linealidad e insesgamiento), para que la varianza de β*2 sea mínima, este estimador debe ser el estimador MICO. Como consecuencia, MICO es el mejor estimador entre los estimadores lineales e insesgados.

Hasta este punto hemos demostrado que los estimadores MICO tienen propiedades importantes:

• linealidad • insesgamiento • mínima varianza dentro de la familia de estimadores lineales e insesgados (eficientes entre los estimadores lineales e insesgados)

De los seis supuestos clásicos solo hemos utilizado los cinco primeros, es decir, para determinar estas propiedades no hemos requerido ningún supuesto sobre la distribución de los errores. Tarea: verificar qué supuestos son necesarios para determinar cada una de las propiedades



Agosto 2004

62

2.4 INFERENCIA ESTADÍSTICA EN EL MODELO DE REGRESIÓN LINEAL SIMPLE Recordar: Para obtener estimadores de β 1 y β 2 que sean MELI no se requiere suponer ninguna distribución de probabilidades de µ .

⇓ Ahora, para tener intervalos de confianza para los parámetros y testear cualquier hipótesis requerimos el supuesto 6:

µ i ≈ N( 0, σ 2 ) ∀i Nos interesa saber: •

¿Qué tan cerca están βˆ 1 y βˆ 2 de los parámetros poblacionales?

•

¿Qué tan cerca está Yˆ i del verdadero E(Y/Xi)?

2.4.1 Repaso Breve de algunos teoremas de Inferencia. TM1 Teorema Central de Límite: Si X es la media de una muestra aleatoria de tamaño n que se toma de una población con media µ y varianza finita σ2, entonces de z =

lím ite

X −µ ~ N( 0, 1) σ/ n

n →∞ TM2 Z i ~ Normales e Independie ntes ( µ i , σ 2i ) aleatorias Entonces,

Z=

∑ k Z i

i

y

Z1 , Z2, ..., Zn son variables

≈ N(∑ k i µ i , ∑ k 2i σ 2 ) i

TM3 Una covarianza nula entre dos variables aleatorias que se distribuyen normal, implica independencia estadística. f(x, y) = f(x) • f(y)



Agosto 2004

63

TM4. Formación de la distribución Chi-Cuadrado

Si Z1 … Z n sonV.A.  Z i ~ N( 0,1), independie ntes 

∑Z

2 i

= Z12 + Z 22 + … + Z 2n ~ χ 2n

P( χ 2 > χ 2α ) = α la probabilidad de que α

0

cualquier valor de la chi-cuadrado sea mayor a 2 α es igual al área que se acumula arriba y a 2

la derecha de χα

χ 2α Exactamente el 95% de una distribución chi-cuadrado caen entre χ 20. 975 y χ 20.025 .

TM5 Si Zi son variables aleatorias independientes y Z i ~ χ 2k i Entonces,

∑Z

i

~ χ 2∑ k i

TM6 Si S2 es la varianza de una muestra aleatoria de tamaño n tomada de una población (n − 1)S 2 2 2 normal que tiene la varianza σ , entonces el estadístico χ = tiene una 2 distribución chi-cuadrado con n-1 grados de libertad.

σ

TM7 Formación de la distribución t- student.

Z1 ~ N( 0, 1)  Z1 Z k t Z 2 ~ χ 2k = 1 ~ t k  = Z 2 / k Z2 Z1 y Z 2 son independie ntes 



Agosto 2004

64 P(-tα/2 < t < t α/2) = 1-α

α/2

-tα/2

TM8

tα/2

0

Si X es la media de una muestra aleatoria de tamaño n que se toma de una población normal con media µ y varianza finita y desconocida σ2, pero varianza estimada S2, X −µ entonces el estadístico t = ~ t n −1 , se distribuye t con n-1 grados de libertad. S/ n

TM9 Formación de la distribución F de Fischer

 Z1 ~ χ 2k 1 Z / k  2 Z 2 ~ χ k 2  F = 1 1 ~ Fk 1 , Z 2 / k 2 Z1 es independie nte de Z 2 

k 2

P( F > Fα ) = α la probabilidad de α

0

que cualquier valor de la F sea mayor a Fα es igual al área que se acumula arriba y a la derecha de F α

Fα

TM 10

t 2k = F 1, k



Agosto 2004

65

2.4.2 ¿Qué Consecuencias tiene suponer µ i ~ N(0, σ 2)? 1. µi normal e incorrelacionados ⇒ son independientes. 2. Yi = β1 + β 2 X i + µ i Por lo que Yi es una combinación lineal de variables aleatorias que se distribuyen normal ⇒ Yi se distribuirá normal E(Yi)= E(β 1+β 2Xi+µi)= β 1+β 2 Xi V(Yi) = V (β 1+β 2Xi+µi)=V(µi)=σ2 2 Por lo que Yi ~ N(β1 + β 2 X i , σ )

3.

Recordemos que βˆ 2 = β 2 +

∑ k µ i

i

βˆ 2 también es C.L. de VA normales ⇒ βˆ 2 es una variable aleatoria que se distribuye normal E (βˆ 2 ) = β 2 V(βˆ 2 ) = σ = 2 βˆ 2

σ µ2

∑x

2 i

βˆ 2 ~ N (β2 , σ2βˆ 2 ) 4. Estandarizando, Z2 =

βˆ 2 − β 2 ~ N(0, 1) σβˆ 2

Z1 =

βˆ 1 − β1 ~ N( 0, 1) σ βˆ 1



Agosto 2004

66

βˆ 2 ≈ N (β 2 , σ 2βˆ ) 2

β2

0

βˆ 2 − β 2 Z2= σ 2βˆ

~ N(0,1)

2

0

5. Recordando el teorema 6, podríamos probar que: (n − 2) σˆ 2 ~ χ2 n−2 σ2

(1)

6. Sabemos que

βˆ 2 − β 2 ~ N(0, 1) σ βˆ

con σβˆ = 2

2

ˆ

βˆ 2 − β 2 (β 2 − β 2 ) Entonces, = σµ σµ

∑x

σ 2µ

∑x

∑x

2 i

2 i

=

σµ

∑x

2 i

~ N(0, 1)

(2)

2 i

Podríamos probar que (1) y (2) son independientes. Entonces:

(βˆ 2 − β 2 ) t=

∑x

2 i

σµ ~ t n −2 (n − 2) σˆ 2µ n−2 σ 2µ


(3)


Agosto 2004

67 Expresando (3) de otra forma y simplificando: t=

(βˆ 2 − β 2 )

∑x

2 i

σµ

=

σˆ µ2 (n − 2) 1 ⋅ ( n − 2) σ 2µ

(βˆ 2 − β 2 ) = σˆ µ

∑x

2 i

=

(βˆ 2 − β 2 )

∑x

σµ

σˆ 2µ σ 2µ

(βˆ 2 − β 2 )

σˆ µ

2 i

 σˆ 2  βˆ ∑ x i 

(βˆ 2 − β 2 ) x i2 σ µ = σˆ µ σ µ

∑

(βˆ 2 − β 2 ) = σˆ ˆ β2

2

Es decir que: (βˆ 2 − β 2 ) ≈ t n− 2 σˆ ˆ β2

(βˆ 1 − β1 ) ≈ t n−2 y por similar procedimiento, σˆ ˆ β1

Esto nos permitirá obtener intervalos de confianza y realizar test de hipótesis sobre β 1 y β 2.

2.4.3 Intervalos de Confianza para β 1 y β 2. Estamos buscando , P (βˆ 2 − δ ≤ β 2 ≤ βˆ 2 + δ) = 1 − α , es decir que la probabilidad de que β 2 esté entre dos valores sea 1-α .

Notación: (1-α ) %

nivel de confianza

α

nivel de significancia

El intervalo será aleatorio (depende de la muestra), pero después que se utilizó una muestra, el intervalo queda fijo y por tanto la probabilidad de que el verdadero valor esté en el intervalo es cero o uno (“está o no está”) Dado que

βˆ 2 − β2 ~ t n −2 , entonces exactamente el 1-α de esta distribución t con n-2 σˆ βˆ 2

grados de libertad, estará entre los valores -tα/2 y tα/2. P (− t α / 2 ≤ t

P (− t α / 2 ≤

n −2

≤ t α / 2 ) =1 − α

βˆ 2 − β 2 ≤ t α / 2 ) = 1− α σˆ βˆ 2



Agosto 2004

68 P (− t α / 2 • σˆ βˆ 2 ≤ βˆ 2 − β 2 ≤ t α / 2 • σˆ βˆ 2 ) = 1 − α P (−βˆ 2 − t α / 2 • σˆ βˆ 2 ≤ − β 2 ≤ − βˆ 2 + t α / 2 • σˆ βˆ 2 ) = 1 − α Por lo que finalmente: P (βˆ 2 − t α / 2 • σˆ βˆ 2 ≤ β 2 ≤ βˆ 2 + t α / 2 • σˆ βˆ 2 ) = 1 − α Esto implica que el intervalo de confianza para β 2 es:

IC

β 2 = βˆ 2 ± t α / 2 σˆ βˆ

2

Y en forma similar:

IC

β1 = βˆ 1 ± t α / 2 σˆ βˆ

1

2.4.4 Prueba de hipótesis Nos interesa verificar si las observaciones muestrales son compatibles con determinada hipótesis. Por ejemplo: H 0 ) β 2 = b H 1 ) β 2 ≠ b Para eso desarrollamos un procedimiento que nos permita decidir si se rechaza o no esa hipótesis en base a la información muestral. Hay dos enfoques de la prueba de hipótesis: Enfoque del intervalo de confianza. Supongamos que construimos un intervalo de confianza para β 2. Luego es posible discutir si el valor b que me estoy planteando como hipótesis nula cae o no dentro del intervalo.

β 2 = βˆ 2 ± t α / 2 σˆ βˆ y luego

Es decir buscamos un intervalo IC

2

• Si b ∈ IC ⇒ No rech H0 • Si b ∉ IC ⇒ Rech Ho. Rech H0

No rech H0

β 2 = βˆ 2 − t α / 2 σˆ βˆ


2

Rech H0

β 2 = βˆ 2 + t α / 2 σˆ βˆ


2

Agosto 2004

69 Enfoque de pruebas de significación. El procedimiento se basa en utilizar un estimador y su distribución, considerando que ésta se cumple bajo la hipótesis nula.

βˆ 2 − β 2 Sabemos que ~ t n − 2 , entonces bajo la hipótesis nula σˆ βˆ 2

P (− t α / 2 ≤

βˆ 2 − b ~ t n −2 σˆ βˆ 2

βˆ 2 − b ≤ t α / 2 ) =1 − α σˆ βˆ 2

P (− t α / 2 • σˆ βˆ 2 ≤ βˆ 2 − b ≤ t α / 2 • σˆ βˆ 2 ) = 1 − α P (− b − t α / 2 • σˆ βˆ 2 ≤ − βˆ 2 ≤ − b + t α / 2 • σˆ βˆ 2 ) = 1 − α Por lo que finalmente: P ( b − t α / 2 • σˆ βˆ 2 ≤ βˆ 2 ≤ b + t α / 2 • σˆ βˆ 2 ) = 1 − α Esto determina la región de aceptación y rechazo de la hipótesis:

r egión aceptación : b ± t α / 2 σˆ βˆ

2

βˆ 2 − b Bajo Ho, σˆ βˆ

~ t n-2

2

α/2

-tc

0

ˆ Rech Ho⇒ βˆ 2 < b -σ βˆ 2 tα/2

tc

Rech Ho⇒βˆ 2

>

Acepto la hipótesis nula (Ho) No rech H 0

Entonces rechazamos H0 si

• t >tc • t < tc


Rech

si t > t


Agosto 2004

ˆ

bσ+βˆ 2

tα /2

70

βˆ 2 − b βˆ 2 − b Rech H0 si > tc Como t = ˆ σ βˆ , entonces σˆ βˆ 2

2

2.4.5 Recordando de inferencia: 1.

Diferencia entre test a una o dos colas, viene dada por la hipótesis alternativa. Una cola

H 0 : β 2 = b 2 H 1 : β 2 > b 2

α

Rech H 0 si t > tc tc

Dos colas

: β 2 = b 2 1 : β 2 ≠ b 2 0

α /2 α/2 - tc

Rech H0 si |t| > t c

tc

Si βˆ 2 cae en alguna de las colas de la distribución (Rech H0), puede ser por dos razones a. La hipótesis nula es cierta, pero se ha elegido una muestra equivocada. b. La hipótesis nula es efectivamente falsa.

Rech H0 o Rech H0

H0 cierto

H0 falso

Error I

Ok

Ok

Error II

Al hacer test de hipótesis, estoy fijando en α , la probabilidad de cometer error I. Economet ría E-250: Apuntes de Clase


Agosto 2004

71 β 2 bajo H0 β 2 bajo H1

α = P(Error Tipo I) = P(Rech H0/H0 es cierto) Al minimizar la probabilidad de error I , se aumenta la probabilidad de cometer error II.

β = P(Error Tipo II) = P(No Rech H0/H0 es falso)

3.

La hipótesis nula más común utilizada: H 0 : β2 = 0 H1 : β2 ≠ 0

βˆ 2 , luego, bajo la hipótesis nula t = ~ t n −2 σˆ βˆ

Objetivo:

Evaluar si β 2 es significativamente distinto de cero. Si lo es se dice

2

que la variable X es significativa o relevante. 2.4.6 Ejemplos de Test De Hipótesis Ejemplo 1 El caso más común es probar Economet ría E-250: Apuntes de Clase


Agosto 2004

72 H0:

β2 = 0

H1:

β2 ≠ 0

Para el ejemplo 2.1.7, teníamos que Yˆ = 3.6 + 0.75 X i y los desvíos estándar de los coeficientes eran:

σˆ βˆ = 2.09 σˆ βˆ = 0.256 1

2

Nos interesa saber si la variable X es estadísticamente significativa, esto es probar la hipótesis nula de que β 2 = 0 Esto se puede hacer de dos maneras: Por medio de un intervalo de confianza. tα/2, 8 = t 0,025 = 2,306 IC β 2

0,75 – (2,306)(0,256) ≤ β 2 ≤ 0,75 + (2,306)( 0,256) 0.16≤ β 2≤1.34

IC 95%

Como el cero no pertenece al intervalo, rechazo la hipótesis nula a un 95% de nivel de confianza. Esto significa que de cada 100 intervalos que se realicen, 95 contendrán el verdadero valor de β 2. Pero luego de calculado uno (0,16; 1,34), la probabilidad de que β 2 esté contenido en él es 1 o 0. (o está o no está). ¿Cómo podemos producir intervalos menores?

•

aumentar el nivel de confianza (reduciendo α ).

•

ampliar el tamaño de la muestra buscando reducir la varianza.



Agosto 2004

73 Por medio de una prueba de significación. Rech Ho si |t |>2.306

βˆ 2 − 0 0,75 = = 2,93 > 2,3 ⇒ rech . H 0 t= σˆ ˆ 0,256 0.025

-2.306

2.306

0

2.93

Rech β 2=0 ⇒ β 2 es significativamente distinto de cero, X es significativo o relevante para explicar Y. Regla 2t Cuando n = 20,

P(t > 2,085) = 0,025 ⇒ si t =

βˆ i ≥ 2,0 estamos seguros que σˆ βˆ i

rechazamos H 0 y el coeficiente βi es significativamente distinto de cero.

Salida de E-Views para este ejemplo: Nos interesa ver solo la parte de la salida que hemos estudiado hasta ahora. LS // Dependent Variable is Y Date: 08/25/98 Time: 09:51 Sample : 1 10 Included observations: 10

Variable

Coefficient

Std. Error

t-Statistic

C X

3.600000 2.090177 1.722342 0.750000 0.255738 2.932692 R-squared Mean dependent var 0.518092 S.D. dependent var Adjusted R-squared 0.457854 S.E. of regression 1.353237 Akaike info criterion Sum squared resid 14.65000 Schwarz criterion Log likelihood -16.09866 F-statistic Durbin-Watson stat 2.346416 Prob(F-statistic)



Prob. 0.1233 0.0189 9.600000 1.837873 0.781855 0.842372 8.600683 0.018920

Agosto 2004

74 La salida tiene tres partes: i) La primera indica la variable dependiente (Y), el período muestra utilizado (sample) y su tamaño (número de observaciones). ii) La segunda parte plantea las estimaciones de los coeficientes y sus varianzas. Se muestran cinco columnas: Variable: variables explicativas (siempre se identifica el intercepto con la letra C) Coefficient:

muestra los coeficientes estimados.

ˆ ˆ ). Std. Error: indica las estimaciones de los desvíos estándar de los coeficientes (σ βi t-Statistic:

presenta el valor del estadístico t (t =

βˆ i σˆ βî

) para la hipótesis nula β i=0. Para

el ejemplo, vemos que el estadístico t del intercepto es menor que dos, por lo que podría podríamo moss decir decir que la cons consta tant ntee no no es sign signif ific icat ativ iva. a. el p-value, o sea, el nivel de significancia (α ) máximo ex post que requerimos para para no rechaz rechazar ar la hipóte hipótesis sis nula. nula. En este este ejemp ejemplo, lo, si trabaj trabajamo amoss con α =1.8%, no rechazamos la hipótesis de que β 2=0. Prob:

iii) La tercera parte de la salida presenta indicadores de ajuste y otros estadísticos veremos más adelante en este curso. Los que conocemos hasta ahora son: es el R 2 de la regresión e indica que la regresión logra explicar el 51% de la variación total de Y. R-squared:

S.E. of regression:

desvíación estándar de la regresión= σˆ =

Sum squared resid:

∑e

suma al cuadrado de los residuos:

∑e

2 i

n−2

2 i

Mean dependent var: Y S.D. dependent var:

desvíación estándar de la variable dependiente:

∑ (Y − Y )

2

i

n −1

Ejemplo 2: Relación Relación Error I y Error Error II • Rech H0/H0

⇒ Error de tipo I , P(Error I)=α

• no rech H0/H1

⇒ Error de tipo II

Ejemplo: Considere el siguiente modelo: Yi = β 1 + β 2 Xi + µi Economet Econ omet ría E-250: Apuntes de Clase


Agosto Agos to 2004

75 donde a priori se sabe que la varianza verdadera de µi es 40 (σ2 = 40). Dado una muestra de 10 observaciones, se sabe que

∑X

i

= 20 y ∑ X i2 = 50 .

Usted está interesado en probar la hipótesis nula de que β 2 = 1, versus la hipótesis alternativa de que β 2 > 1, con un nivel de significación de 5%. Si el verdadero valor de β 2 es 4, ¿cuál es la probabilidad de que usted rechace correctamente la hipótesis nula?

Sabemos que Yi = β 1 + β 2 X i + µ i H0) β 2 = 1 H1) β 2 > 1 Se pide calcular la Probabilidad de rechazar H0 correctamente. Esto es, la probabilidad de que rechacemos que β 2=1, dado que en realidad es 4. Debemos calcular Prob (rech H0/ β 2=4)

βˆ 2 − 1 Bajo H0, ~ N(0,1), porque se conoce la verdadera varianza de µi σ βˆ 2

Bajo H0, β 2~ N(1, σ βˆ )

Bajo H1, β 2~ N(4,σ βˆ )

2

2

1

El área achurada es la que se nos pide calcular, es la P( P (rech H0, dado H 1) y es igual a 1-P(no Rech H 0, dado H1)=1-β

4

βˆ c

No rech Ho Ho

Rech Ho

Lo primero que debemos calcular es el área de rechazo. Sabemos que rechazamos H0 si ˆ ˆβ > βˆ , Rech. H si β 2 − 1 > 1,645 c 0

σ βˆ

2

Dada la información que conocemos:



Agosto Agos to 2004

76

σ µ2 = 40   n = 10  2 1 σ βˆ = σ µ2 • = σ µ2  2 ∑ X i2 = 20  ∑x1 ∑ X i = 50 2

1

∑ (X

i

− X) 2

= σ µ2

1

∑X

2 1

− nX 2

=

40 40 = =4 50 − 10( 2) 2 10

⇒ σ βˆ = 4 = 2 2

Rech. H0 si

βˆ 2 − 1 2

> 1, 645

ˆ Rech Ho si β 2 > 1,645 * 2 + 1 = 4.29 ˆ Rech Ho si β 2 > 4.29 Luego,

 βˆ 2 − 4 4,29 − 4  ˆ   > Pr ob(Re (Re chH chH 0 / β2 = 4) = Pr ob (β 2 > 4, 29 / β 2 = 4) = P  2 2  



= P(Z > 0,145) 0,145) = 0,4443 Pr ob(Re (Re chH / β2 = 4) = 0, 4443 0

2.5 ANALISIS DE VARIANZA ANOVA ⇒ Es un test de significancia global del modelo en su conjunto.

⇒ Intenta medir el ajuste de la recta de regresión con el conjunto de datos proven provenie iente nte de la la muest muestra. ra.

La hipótesis a probar es3 : H0:

β2 = 0

H1:

β2 ≠ 0

Trataremos de encontrar un nuevo estadístico que nos permita verificar esta hipótesis. hipótesis.

3

En el caso de la regresión simple, tanto la hipótesis a probar como el estadístico que utilizaremos son coincidentes con un test de significancia. Esto debido a que solo existe una variable explicativa. Este resultado no será igual en un modelo general. Economet Econ omet ría E-250: Apuntes de Clase


Agosto Agos to 2004

77 Sabemos que:

βˆ 2 − β 2 ~ N( 0, 1) σβˆ

(1)

2

Si elevamos (1) al cuadrado, tenemos que (2) se distribuye chi-cuadrado con un grado de libertad.

(βˆ

2 −β2) ~ χ 12 2 σ βˆ 2

(2)

2

Transformando (2):

βˆ 2 − β 2 σµ

2

1 x 2i

=

(βˆ 2 − β 2 ) ∑ x 2i σµ 2

∑

~ χ 12

(3)

Por otro lado sabemos que:

σˆ 2 (n − 2) 2 ~ χ n− 2 σ2

⇒

∑e σ

2 i

2

~ χ 2n− 2

(4)

Se puede demostrar que (3) y (4) son independientes y pueden formar una nueva expresión que se distribuye F. 2 ˆ (β 2 − β 2 )

∑x

2 i

σ 2µ F=

1

∑e

~ F1, n− 2

2 1

σ 2u

(5)

−2

Simplificando (5)

βˆ ( F=

2 −β2)

2

∑e

∑x

2 i

2 1

~ F1, n − 2

(6)

n−2

Bajo H0:



Agosto 2004

78 F=

βˆ 22 ∑ x i2

∑

e 12 n−2

(7)

~ F1, n −2

Analizando esta expresión, vemos que el numerador coincide con la suma de cuadrados explicados (SCE), y el denominador es la SCR dividida por sus grados de libertad. F=

SCE ~ F1, n − 2 SC / − 2

(8)

Rechazo H0 , si el valor calculado del estadístico F =

α

0

α que F1, n − 2

SCE es mayor SCR / n − 2

Fα

Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el modelo" es suficientemente grande respecto al "ruido", a lo residual. Si F =

SCE > Fα (1, n − 2) ⇒ Re ch. H 0 SCR / n − 2

Rechazo que β 2 = 0, si obtengo un valor del "aporte de X" respecto al residuo que sea considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla.

Grados de Libertad Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse arbitrariamente). Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como consecuencia de la pérdida de un grado de libertad, necesario para calcular Y . Suma de cuadrados residuales (SCR ): tiene n-2 grados de libertad. Se pierden dos grados de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas



Agosto 2004

79 condiciones son:

∑ e = 0  n - 2 ∑ e X = 0 i

i

i

Suma de cuadrados explicados (SCE): dado βˆ 2 calculo SCE ⇒ tiene 1 g.l Antes veíamos que al realizar una regresión, esto nos permitía dividir la variación total en dos partes, la parte explicada por la regresión y la parte residual. Es decir que existen distintas fuentes en que se descompone la variación total. Esto se puede resumir en esta tabla a la que generalmente se conoce como TABLA ANOVA.

FUENTES DE VARIACION: Suma de Cuadrados Regresión Residuo Total

SCE = βˆ 22

∑x SCR = ∑ e 2 i

SCT = ∑ y12

2 i

Grados de Libertad

Suma Promedio de Cuadrados

1

SCE/1

n-2

SCR/n-2

n-1

Existe una forma alternativa de expresar (8) que también permite realizar el test: (n − 2) R 2 SCE SCE SCE / SCT R 2 F= ~ F1, n −2 = = = = 2 SCT − SCE SCR / n − 2 SCT − SCE SCT − SCE 1 R − SCT n −2 n−2 SCT ( n − 2) Verifiquemos ahora que este test, para el caso del modelo de regresión simple, es equivalente a un test de significancia de β 2. Sabemos que

βˆ 2 ∑ x 2i 2 Re ch H si = > t α / 2, n − 2 0 ˆ σ 2 σˆ µ / ∑ x i µ βˆ



Agosto 2004

80 Elevamos esta expresión al cuadrado, Re ch H si 0

βˆ 2 ∑ x 2 2

σˆ µ2

i =

βˆ 2 ∑ x 2

2 i >F 1, n − 2 ∑ e 2i / n − 2

Esta expresión es la misma de (7). Debemos recordar que el cualquier valor de la tabla t para k grados de libertad, elevado al cuadrado es igual al valor de la tabla F en 1, k grados de libertad. En particular t 2n − 2 = F1, n− 2 . Este resultado no se verifica en regresiones con mayor número de variables explicativas.

2.6 PRUEBA DE NORMALIDAD Las pruebas de hipótesis e intervalos de confianza estudiados, tienen como punto de partida el supuesto de normalidad del residuo, si µ no es normal, estas pruebas no son validas. Existen test que permiten verificar si los residuo calculados para una muestra en particular (ei) provienen de una distribucion normal. Uno de ellos es el test de Jarque-Bera Esta es una prueba asintótica que se basa en el tercer y cuarto momento de la distribución (asimetría y curtosis respectivamente).

∑ (X

3

i

− X)

n

coeficiente de simetría: S=

σ3

∑ (X coeficiente de curtosis: C=

4

i

− X)

n

σ4

Para una ditribución normal el coeficiente de asimetria es cero y el coeficiente de curtosis es 3. Bajo la hipótesis nula de que los residuos estan normalmente distribuidos, Jarque y Bera  S 2 (C − 3) 2  demostraron que asintóticamente el estadistico JB = n  +  sigue una 6 24   distribución chi-cuadrado con dos grados de libertad. Si el valor JB es grande comparado con el valor de una distribución chi-cuadrado con dos grados de libertad, rechazo la hipótesis nula, rechazo normalidad.



Agosto 2004

81

3. MODELO DE R EGR ESIÓN MULTIP LE 3.1 DEFINICIONES En algunas aplicaciones científicas (medicina, agronomía) los modelos de regresión generalmente utilizados tienen una única variable explicativa (modelo simple). En economía, sin embargo, es difícil tener un fenómeno explicado por una sola variable explicativa. Generalmente, Y = f(X1, X2, ...., Xk , µi) ⇒ a este tipo de modelo lo llamamos modelo múltiple. Ejemplo: Vtas Empresa = f (PIB, tasa de interés real, Gastos Publicidad)

•

Modelo de regresión poblacional múltiple

(1)

Yi = β 1 + β 2Xi2 + β 3Xi3 + ......................+ β k Xik + µi

para i =1,2, ....n

y donde Xik representa la observación i de la variable k. (1) es equivalente a:

(2)

 Y 1 = β 1 + β 2 X 12 + β 3 X 13 + . . . + β k X 1k + µ 1    Y 2 = β 1 + β 2 X 22 + β 3 X 23 + . . . + β k X 2 k + µ 2  •  • •  •  Y n = β 1 + β 2 X n 2 + β 3 X n 3 + . . . + β k X nk + µ n (2) es la forma abreviada de n ecuaciones con k incógnitas y por tanto se puede escribir:



Agosto 2004

82

(3)

 Y1  1 X12 X 13 Y  1 X 22 X 23  2  .  .  = . .  .  . . . Y    n  1 X n 2 X n3

. X 1k   β   µ  1 1      . X 2 k  β µ 2 2     . .  .  +  .   . .  .   .      . X nk  β k  µ n 

Definiendo las siguientes matrices:

 Y1  Y   2 Yn×1 =  .  .     Yn 

1 X 12 X13 1 X X 22 23  X n× k =  . . .  . . . 1 X n2 X n 3

. X 1k  . X 2k  . .   . .  . X nk 

β 1  β   2 β k ×1 =  .  . β   k 

µ1  µ   2 µ n×1 =  .  . µ   n Podemos expresar (3) de la siguiente forma: (4)

Yn×1 = X n× k β k ×1 + µ n×1

•

Modelo de regresión muestral múltiple

(5)

Yî = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik

para i=1,2,.....n

Nuevamente tenemos un sistema de n ecuaciones, que puede transformarse en:



Agosto 2004

83

(6)

Yˆ1 = βˆ 1 + βˆ 2 X12 + βˆ 3 X 13 + . . . + βˆ k X1k   ˆ ˆ ˆ Y2 = β 1 + β 2 X 22 + βˆ 3 X 23 + . . . + βˆ k X 2k •  • •  • ˆ ˆ ˆ Yn = β1 + β 2 X n2 + βˆ 3 X n 3 + . . . + βˆ k X nk

Utilizando las definiciones matriciales anteriores y agregando:

 Yˆ1  ˆ   Y2  ˆ Yn×1 =  .  .     Yˆn 

 βˆ 1  ˆ  β  ˆβ =  .2  k ×1    . βˆ k 

(6) se puede transformar en: (7)

Yˆ n×1 = X n ×k βˆ k ×1

Además tenemos que: (8)

Yi = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik + e i

e 1  e   2 Con lo que definiendo e n×1 = .  , lo podemos transformar en forma matricial como   .  e n  (9) •

Yn×1 = X n ×k βˆ k ×1 + e n×1 De la diferencia entre (9) y (7), sale la definición del error:



Agosto 2004

84

 e1  e   2 e n×1 = .  = Y − Yˆ = Y − Xβˆ   .   e n 

(10)

Entonces: Y = Xβ + µ Yˆ = Xβˆ

   e = Xβ + u − Xβˆ = X(β − βˆ ) + µ  e = Y − X βˆ  ⇓ Yˆ + e = Xβˆ + Y − Xβˆ = Y

3.2 ESTIMADORES MICO Al igual que antes se trata de minimizar

∑e

2 i

3.2.1 Primera forma de derivación. min Q = min

∑e

2 i

= min

∑ (Y − βˆ i

1

− βˆ 2 X i2 − βˆ 3 Xi 3 − …… βˆ k X ik ) 2

Ahora tenemos k ecuaciones normales

(11)

(1)    ( 2)   • •  •  ( k )  

∂Q = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i2 − βˆ 3 X i3 − … − βˆ k X ik )(−1) = 0 ∂βˆ 1 ∂Q = 2 ∑ ( Yi − βˆ 1 − βˆ 2 X i 2 − βˆ 3 X i3 − … − βˆ k X ik )(−X i2 ) = 0 ∂βˆ 2

∂Q = 2 ∑ (Yi − βˆ 1 − βˆ 2 X i2 − βˆ k X i3 − … − βˆ k X ik )(−X ik ) = 0 ∂βˆ k



Agosto 2004

85

Trabajando:

(12)

(1) ∑ Yi = Nβˆ 1 + βˆ 2 ∑ X i2 … + βˆ k ∑ X ik  ( 2) Y X = βˆ X + βˆ X 2i 2 + … + βˆ k ∑ X ik X i2 ∑ ∑ ∑ i i 2 1 i 2 2  • • • ( k ) ∑ Yi X ik = βˆ 1 ∑ X ik + βˆ 2 ∑ X i2 X ik + … + βˆ k ∑ X 2 ik 

Matricialmente podemos expresar esto de la siguiente manera (Demostrarlo):

(13)

1  1 X X 22  12  . .  .  . X 1k X 2k

. . . . .

. 1   Y1   . X n2   Y 2      . .  . =   . .   .   . X nk   Yn  

∑

n Xi2 . . X ik

∑

∑X ∑X

. . . . .

. . . . .

∑X ∑X X

1  1 X X 22  12 . = .  .  .  X1k X 2 k

. . . . .

. 1  . X n 2  . .   . .  . X nk 

∑

i2 2 i2

. . X i 2 X ik

  βˆ 1   ˆ  i 2 ik  β 2   .  .   .  .  2 ∑ X ik βˆ k  ik

Y dadas las definiciones anteriores,

1 X 12 X13 1 X X 22 23  X n×k =  . . . . . .  1 X n2 X n3

. X 1k  . X 2k  . .   . .  . X nk 

 n   ∑ X i2 X' X =  .   .  ∑ X ik 

X 'k × n

∑X ∑X

i2 2 i2

. .

∑X

i2

X ik

. . . . .

. . . . .

∑X ∑X X

  i 2 ik   .  .  2 ∑ X ik  ik

Entonces (13) puede expresarse: (14)

X ' Y = X' X βˆ

Esta expresión representa el conjunto de ecuaciones normales.



Agosto 2004

86

la matriz X’ X tiene las siguientes características: - simetría -

de dimensión k x k (cuadrada) en la diagonal principal aparecen la suma de cuadrados de cada variable y en el resto las sumas de productos cruzados.

Si (X’ X)-1 existe puedo postmultiplicar (14) por (X’ X)-1 (15)

( X' X) −1 X ' Y = ( X' X) −1 X' X βˆ , con lo que:

(16)

( X' X) −1 X ' Y = I βˆ

(17)

βˆ = ( X' X) −1 X' Y

Esta es la fórmula matricial que estabamos buscando y que resume los k estimadores MICO.

Pero, ¿necesitamos algún supuesto para obtener los βˆ ? Sí, necesitamos que X’ X sea invertible ¿Cuándo una matriz es invertible? Si es cuadrada -

Si no se pueden expresar las filas o las columnas como combinación lineal entre sí ⇔ la matriz es de rango completo ⇔ el determinante de la matriz es distinto de cero.

Esto implica que para poder calcular βˆ , las variables explicativas que son las que forman X’ X, tendrán que cumplir con determinadas condiciones que aseguren que la matriz sea invertible.



Agosto 2004

87

3.2.2 Otra forma de encontrar βˆ Queremos minimizar

∑e

2 i

y esto es equivalente a minimizar e’ e, porque

 e1     e  ( e1 … e n ) 2  = e' e = ∑ e 2i  .    e n  Como : e = Y - X βˆ e’ e = (Y - X βˆ )’ (Y - X βˆ ) ⇒ Debemos minimizar e’ e Algunas propiedades de operaciones con matrices: (A + B)’ = A’ + B’

min

∑e

2 i

-

(A B)’ = B’ A’ (A’ )’ = A

-

(A-1 )’ = (A’ )-1

-

z’ Az es una forma cuadrática⇒

∂z ' Az = 2Az z ∂

ˆ )' ( Y − Xβˆ ) ( Y X = min e' e = min − β ˆ β

min (Y − X βˆ )' ( Y − Xβˆ ) = ( Y' − βˆ ' X' )(Y − Xβˆ ) = Y' Y − Y ' Xβˆ 2 ' X4 '3 Y + βˆ ' X' X βˆ − βˆ4 144 ˆ β

*

¿A qué son iguales estos dos términos (*)? Y'1× n X n× k βˆ k ×1 = escalar por ser de orden 1×1

βˆ ' 1× k X' k ×n Yn×1 = escalar por ser de orden 1×1 Son escalares y uno es el transpuesto del otro ⇒ puedo sustituirlo por − 2 βˆ ' X' Y Economet ría E-250: Apuntes de Clase


Agosto 2004

88 Debemos minQ = Y' Y − 2βˆ ' X' Y + βˆ ' X' Xβˆ βˆ

∂Q ∂Y' Y ∂ (−2βˆ ' X' Y) ∂(βˆ ' X' Xβˆ ) =0 = + + ˆ ˆ ˆ ˆ ∂β ∂β ∂β ∂β ∂Q ∂ ( −2βˆ ' X' Y) ∂(βˆ ' X' Xβˆ ) =0 = + ∂βˆ ∂βˆ ∂βˆ

•

Queremos encontrar

∂( −2βˆ ' X' Y) , ∂βˆ

Sea a un vector de constantes,

 a 1    ' ) ∂ (a 1 b 1 + a 2 b 2 + L a k b k )  a 2  ∂( a b = =   = a ∂ b  b 1   M     ∂ M   a k   b   k  ∂( −2βˆ ' X' Y) Luego, = -2X’Y ∂βˆ ˆ ˆ • ∂(β' Xˆ' Xβ)

∂β

Sea A una matriz de constantes simétrica,

 a 11 a 12   a a 22 A=  12  L L  a 1k a 2k

L a 1k 



L a 2k  L L

 , entonces:  a kk   L

b’Ab= a 11 b 12 + 2a 12 b 1 b 2 + 2a 13 b1 b 3 + L + 2a 1k b1 b k + + a 22 b 22 + 2a 23 b 2 b 3 + L + 2a 2k b 2 b k + O


+ a kk b 2k


Agosto 2004

89

 2( a 11 b1 + a 12 b 2 + L + a 1k b k   2a1b   a1       ∂( b' Ab)  = M  =  M  = 2 M  b = 2Ab  b 1         b   2( a 1k b1 + a 2k b 2 + L + a kk b k   2ak b  ak  ∂ 2  M    b k  Luego,

∂(βˆ ' X' Xβˆ ) = 2X' Xβˆ ∂βˆ

∂Q = − 2 X' Y + 2 X' Xβˆ = 0 ˆ ∂β Con lo que: 2 X' Xβˆ = 2X' Y X ' Xβˆ = X ' Y

Si (X ' X) −1 existe

βˆ = ( X' X) −1 X' Y Condiciones de segundo orden

∂ 2Q = 2X' X (∂βˆ )(∂βˆ )' Las condiciones de mínimo implican que esta matriz debe ser definida positiva. Para comprobar esto definamos d cualquier vector no nulo de k elementos y c un vector de n elementos tal que c=Xd. Como X es de rango completo por columna esto implica que c sea no nulo (de lo contrario habría dependencia lineal entre las columnas de X). Por lo tanto, c’c= d’X’Xd >0 y entonces X’X es definida positiva.

3.2.3 Deducción de los estimadores MICO en el modelo simple.

βˆ = ( X' X) −1 X' Y Yi = β 1 + β 2 X i 2 + µ i ¿Cómo son las matrices para este caso en particular?



Agosto 2004

90

1 X 12  Y1  1 X  1 1 … … … … …   12 :      X = : :  X' =  Y=    :      : : X X X …     12 22 n2   Yn  1 X n2 

1  1  X12 X 22

X' X = 

1 X12  1 X  22   n . . 1  .  . . = . . X n 2    ∑ X i2 . .   1 X n 2 

∑X ∑X

i2 2 i2

  

( A c )' matriz de cofactores transp uesta = Recordar: A = A determinan te de A −1

La matriz de cofactores se forma de sustituir cada elemento de la matriz por su correspondiente cofactor Cij. Donde Cij=(-1)i+j Mij , siendo Mij (menor) el determinante de la submatriz que se forma cuando a la matriz A se le elimina la fila i y la columna j.

−1

(X' X) =

∑

n

1 X 2i2 − (

 ∑ X 2i2 − ∑ X i 2  ∑ X i 2 ) 2 − ∑ X i2 n 

 X 2i2 ∑  2 2  n ∑ X i 2 − (∑ X i2 ) ( X ' X ) −1 =   − ∑ X i2  n X 2 − ( X )2  ∑ i 2 ∑ i2

1 . . 1   1 .  X12 X 22 . . X n 2 

X' Y = 

 − ∑ Xi2  n ∑ X 2i2 − (∑ X i 2 ) 2    n  2 2  n ∑ X i2 − (∑ X i 2 )  Y1  :     =  ∑ Yi   :   ∑ X i2 Y i  Y   n

Reemplazando en la fórmula encontrada para βˆ , tenemos: Economet ría E-250: Apuntes de Clase


Agosto 2004

91

 X i22 ∑  2 2  n ∑ X i2 − (∑ X i 2 ) βˆ = ( X' X) −1 X' Y =   − ∑ Xi2   n X2 − ( X )2  ∑ i2 ∑ i 2

 − ∑ X i2  n ∑ X i22 − ( ∑ X i2 ) 2   ∑ Yi       X Y n  ∑ i 2 i  n ∑ X i22 − ( ∑ X i2 ) 2 

Multiplicando:

 ∑ X 2i 2 ∑ Yi − ∑ X i 2 ∑ X i2 Yi    2 2 n X ( X ) − ∑ i2 ∑ i2   ˆβ = (X' X) −1 X' Y =     X Y n X Y − +  ∑ i2 ∑ i ∑ i2 i    n ∑ X 2i2 − ( ∑ X i2 ) 2   Reemplazando

∑Y

i

= nY y

∑X

i

= nX

y dividiendo entre n, obtenemos:

 ∑ X 2i2 nY − n X∑ X i 2 Yi   ∑ X 2i2 Y − X∑ X i2 Yi      2 2 2 2 n X ( n X ) X n X    ∑ i2 −  ∑ i2 − =  ˆβ = ( X ' X ) −1 X' Y =       − nXnY + n ∑ X i2 Yi   − nX Y + ∑ X i 2 Yi       n ∑ X 2i 2 − ( nX) 2   ∑ X 2i2 − nX 2   ∑ X 2i 2 Y − X∑ X i 2 Yi    2 2  ∑ X i 2 − nX   ˆβ =     ∑ X i2 Yi − nXY     ∑ X i22 − n X 2  En la segunda fila obtenemos una formula que es idéntica a la que teníamos en el modelo simple.



Agosto 2004

92

 ∑ X 2i2 Y − X(∑ X i2 Yi − n XY + nXY)    2 2  ∑ X i2 − nX βˆ =     ˆ   β2  ∑ X 2i 2 Y −nX 2 Y X( ∑ X i 2 Yi − nXY)  −   ∑ X 2i 2 Y −nX 2 Y − X (∑ X i 2 Yi − nXY )   2 2 2 2 X n X X n X − −  ∑ i2    ∑ i2 2 2 X n X −   ∑ i2 = βˆ =      ˆ     β2 ˆ β2       Simplificando:

  ∑ X i22 −nX 2   ∑ X i2 Yi − n XY    − X    Y 2 2  2 2      ∑ X i 2 − n X   ∑ X i2 − nX    Y − Xβˆ 2  ˆβ =   = ˆ     β 2  ˆ β   2     Con lo que:

        ˆ ˆ Y X Y X − β − β     2 2     βˆ =  =     ∑ X i 2 Yi − nXY   ∑ x i 2 y i    2 2  2   ∑ X i2 − nX   ∑ x i2 

Para el caso de la regresión con intercepto y dos variables: Yi = β 1 + β 2 X i2 + β 3 X i3 + µ i



Agosto 2004

93

X n×3

1 X 12 X13  1 X X  22 23   .  = . .   . . .   1 X n2 X n 3 

 n  X' X =  ∑ X i2  ∑ X i3

∑X ∑X ∑X ∑X X ∑ X X ∑X i2 2 i2

i2

  i 2 i3  2  i3  i3

i3

 ∑ Yi    X' Y =  ∑ X i2 Yi   ∑ X i3 Yi  3.2.4 Una interpretación de los estimadores MICO. En el modelo simple Yî = βˆ 1 + βˆ 2 X i 2 + e i nos interesaba medir el efecto de la variable explicativa sobre la variable explicada. Este efecto se cuantifica a través de βˆ 2 . Cuando tenemos un modelo múltiple, Y i = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik + e i , los coeficientes βˆ i estimados miden el efecto parcial de la variable Xi sobre Yi. Esto es, el efecto de Xi sobre Yi luego de eliminados los efectos de las otras variables sobre Xi . Para entender esto veamos algunos diagramas de Ballentine. Supongamos que el modelo es Yî = βˆ 1 + βˆ X X i + e i . En el diagrama que sigue el circulo Y representa la variación de la variable dependiente y el circulo X representa la variación de la variable explicativa. El área achurada donde se sobreponen los dos círculos, representa la variación que es común entre X e Y y que por tanto puede ser explicada por MICO. Esta área representa la información que es utilizada para calcular βˆ x . Cuanto mayor esta área, mayor la información y por tanto menor la varianza del coeficiente.

X

Y

Consideremos ahora que se incluye una nueva variable explicativa Z, de forma que el modelo es Yî = βˆ + βˆ x X i + βˆ z Z i + e i Economet ría E-250: Apuntes de Clase


Agosto 2004

94

X

* * * * Y * * * *

• • • • • • • • • • • • •

∇ ∇ ∇∇ ∇∇ ∇ ∇ ∇∇∇

Z

En general existirá una zona (triángulos y rayas) en que X y Z se overlapan. Si Y fuera explicada sólo por X, para calcular βˆ x se utilizaría la información común entre X e Y (rayas y asteriscos). Si Y fuera explicada sólo por Z, para calcular βˆ z se utilizaría la información común entre Y y Z (rayas y puntos). En la regresión múltiple se incluyen X y Z como variables explicativas. Para calcular βˆ x se usa la intersección entre X e Y, luego de eliminar la intersección entre Xy Z. Es decir que el estimador es calculado usando sólo la información representada por el área marcada con asteriscos. En forma análoga, la información contenida en el área con puntos es la única utilizada para calcular βˆ z . La información contenida en el área rayada no es utilizada porque al reflejar la variación en Y que es determinada en conjunto por X y Z no permite aislar sus efectos y asignarlos a cada estimador. Debe notarse que al agregara variables explicativas los parámetros del modelo son calculados utilizando cada vez menos información. Esto provocará un incremento de las varianzas de los estimadores. Además, debe tenerse en cuenta que la información utilizada en la estimación de los parámetros (y por tanto su varianza) dependerá de cuanta información común exista entre las variables explicativas utilizadas. Cuanto mayor el área común entre X y Z (mayor colinealidad entre las variables explicativas), menor resultarán las áreas de puntos y asteriscos y por tanto mayor la varianza de los estimadores. Si la colinealidad es perfecta los círculos X e Z se overlapan completamente haciendo imposible la estimación. Por el contrario, si no existe ningún área común entre X y Z (si son ortogonales) no existe zona rayada y por tanto los estimadores encontrados en la regresión múltiple serían los mismos que en dos regresiones simples (una respecto a X y otra respecto a Z).



Agosto 2004

95

3.2.5 Corolarios de los Estimadores MICO Ortogonalidad del residuo (1)

e = Y − Yˆ = Y − Xβˆ

(2)

Y = Xβˆ + e

De las ecuaciones normales sabemos que:

( X' X) βˆ = X' Y ( X' X) βˆ = X' ( Xβˆ + e) ( X' X) βˆ = X' X βˆ + X' e Con lo que: X' e = 0 ¿Qué significa? 1  1 X X 22  12 . X' e =  .  . .  X 1k X 2k

. . . . .

∑e ∑e X ∑e X

. 1   e1    . X n 2  e 2     . .  e 3  =    . .   .   . X nk  e n  

 0   i i2  0  i i 3 = 0   .  . ∑ ei X ik  0 i

La igualdad de la primera fila implica que si la regresión tiene constante e = 0. Los elementos restante indican que la correlación muestral entre los residuos y cada variable Xi es cero. En términos matriciales esto implica que el vector de errores es ortogonal a la matriz X de variables del modelo.

Recordar: dos vectores a y b son ortogonales si a ' b = 0 . Un vector como e, que es ortogonal a cualquier vector del hiperplano generado por las columnas de X, se dice que es normal al hiperplano. El hiperplano de regresión pasa por el punto determinado por las medias muestrales de todas las variables involucradas en el modelo. ( X 2 , X 3 ,...., X k , Y) , siempre que éste posea intercepto. Esto debido a que la primera ecuación de (12) implica que Y = βˆ 1 + βˆ 2 X 2 + βˆ 3 X 3 + .... + βˆ k X k



Agosto 2004

96 Descomposición en suma de cuadrados. Recordar que en el modelo lineal simple: SCT=SCE+SCR y 2 = βˆ 2 x 2 +

∑

i

2

∑

i

∑ e = ∑ yˆ + ∑ e 2 i

2 i

2 i

Ahora: •

SCT SCT = Σ y i2 = Σ (Yi − Y) 2 =

∑Y

2 i

− nY 2

  Y1        Y2    Dado que Y' Y = (Y1 Y2 . . Yn ) .   = ∑ Yi2      .     Y     n    Luego, SCT = Y' Y − nY 2 Definiendo: y' = ( Y − Y )' , SCT también es igual a y' y = Y' Y − NY 2

SCE

•

SCE =

∑ yˆ = ∑ (Yˆ − Yˆ) 2 i

2

i

Dado que Yˆ = Y (demostrarlo de tarea) y que Yˆ = X βˆ =

∑ Yˆ

2 i

− nY 2 = Yˆ' Yˆ − NY 2 = βˆ ' X' Xβˆ − N Y 2

SCE = βˆ ' X ' Xβˆ − N Y 2 •

SCR ⇒SCR=

∑e

2 i

= e' e

Demostración: Y = ( Xβˆ + e )



Agosto 2004

97 Y' Y = ( Xβˆ + e )' ( Xβˆ + e ) Y' Y = (βˆ ' X '+e' ) ( Xβˆ + e) = βˆ ' X' Xβˆ + βˆ ' X ' e + e ' Xβˆ + e ' e Dado corolario 1 ⇒ βˆ ' X' e = 0 y Luego: Y ' Y = βˆ ' X ' X βˆ + e' e

e ' Xβˆ = 0

(*)

Finalmente, restando a ambos lados n Y 2 Y' Y − nY 2 = βˆ ' X' Xβˆ − nY 2 + e ' e (**) Obtenemos el mismo resultado anterior: SCT= SCE+SCR ⇒ es decir que en el modelo múltiple también es posible dividir la suma de cuadrados totales en dos partes, una explicada por el modelo y otra residual.

Otra forma de expresar este resultado: Dado:

βˆ = ( X' X) −1 X' Y (*) Es equivalente a: −1 ˆ ' X' Y + e' e + = β Y' Y = βˆ 'X ' X ( X ' X ) X ' Y e ' e 14 4 244 3 I

Y' Y = (( X ' X ) −1 X ' Y)' X ' Y + e' e = Y ' X (X' X) −1 X' Y + e' e El modelo en desvíos. Yi = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + ........ + βˆ k X ik + e i

Σ Yi n

= βˆ 1 + βˆ 2

ΣX i2 n

+ βˆ 3

ΣX i3 n

(1)

+ ........ + βˆ k

ΣX ik Σe i + n

n

Y = βˆ 1 + βˆ 2 X 2 + βˆ 3 X 3 + ........ + βˆ k X k



Agosto 2004

98

βˆ 1 = Y − βˆ 2 X 2 − βˆ 3 X 3 − ........ − βˆ k X k

(2)

Sustituyendo (2) en (1): (1) Y i = βˆ 1 + βˆ 2 X i 2 + ........ + βˆ k X ik + e i Yi = (Y − βˆ 2 X 2 − ........ − βˆ k X k ) + βˆ 2 X i 2 + ........ + βˆ k X ik + e i Yi = Y − βˆ 2 X 2 − ........ − βˆ k X k + βˆ 2 X i2 + ...... + βˆ k X ik + e i Yi − Y = βˆ 2 ( X i2 − X 2 ) + βˆ 3 ( X i3 − X 3 ) ........ βˆ k ( X ik − X k ) + e i y i = βˆ 2 x i 2 + βˆ 3 x i3 + ........ + βˆ k x ik + e i ⇒ el modelo se puede expresar en desvíos.

¿Cómo son las matrices?

 Y1 − Y   y 1  Y − Y   y 2   2    y= . = .  .  .  Y − Y     n   y n  βˆ *( k −1)×1

x n×( k −1)

 X 12 − X 2 X − X 2 =  22  .  X n2 − X 2

. . . .

. X1k − X k   x 12 . X 2 k − X k   x 22 =   . . .   . X nk − X k   x n 2

. . . .

. x 1k  . x 2 k  . .   . x nk 

βˆ 2  βˆ  =  3 . ˆ  β k 

Con lo que

y = x βˆ * + e yˆ = x βˆ *

Notar que el vector βˆ * no incluye βˆ 1 Derivación de MICO en desvíos: yˆ = x βˆ * e = y − yˆ = y − x βˆ * e' e = ( y − xβˆ * )' ( y − xβˆ * ) = y ' y − y ' xβˆ * − βˆ * ' x ' y + βˆ * ' x ' xβˆ * = y' y - 2βˆ * ' x ' y + βˆ * ' x ' xβˆ



Agosto 2004

99

∂e' e = − 2x ' y + 2x ' xβˆ * = 0 ˆ ∂β = − x ' y + x ' xβˆ * = 0

si x’ x es invertible

⇓ βˆ * = ( x ' x ) −1 x' y Es decir que la fórmula de calculo de los estimadores no cambia al utilizar las variables en desvíos respecto a la media. A esto debe agregarse:

βˆ 1 = Y − βˆ 2 X 2 + βˆ 3 X 3 + ........ + βˆ k X k Suma de cuadrados en desvíos: y = x βˆ * + e y' y = ( xβˆ * + e )' ( xβˆ * + e) = (βˆ * x '+e ' )( xβˆ * + e) = βˆ * ' x ' xβˆ * + βˆ * ' x ' e + e' xβˆ * + e' e = βˆ * ' x ' xβˆ * + e' e

Con x' e = e' x = 0

SCT = y' y   * * SCE = yˆ' yˆ = βˆ ' x ' x βˆ  y ' y = βˆ * ' x ' x βˆ * + e' e = SCE + SCR  SCR = e' e Notar que cuando las variables están expresadas en desvíos, no es necesario restar el término n Y 2 para el cálculo de la suma de cuadrados totales y de la suma de cuadrados explicados. Coeficiente de determinación: R2 SCE βˆ ' X ' Xβˆ − n Y 2 βˆ ' X ' Y − n Y 2 βˆ * ' x ' xβˆ βˆ * ' x ' y R = = = = = SCT y' y y' y Y' Y − n Y 2 Y' Y − n Y 2 2

R 2 =

SCT − SCR SCR e'e e' e 1 =1 − =1 − = − SCT SCT Y' Y − n Y 2 y' y

El R2 corregido. 2

El R múltiple tiene un problema Economet ría E-250: Apuntes de Clase


Agosto 2004

100 (1)

Yi = β 1 + β 2 X i 2 + µ i

(2)

Yi = β 1 + β 2 X i 2 + β 3 X i3 + µ i

Yi es la misma ⇒ ¿qué ocurre con SCT? es la misma ya que no cambia la muestra.

 SCT1 = SCE1 + SCR 1 SCT SCE SCR  2= 2 + 2 Sin embargo, sólo por agregar una nueva variable (“algo explica”), la SCR 2 disminuye, provocando un aumento R 2 cuando aumenta k. Por esta razón, para comparar el R 2 de dos regresiones, estas deben tener igual numero de variables. 2

Para evitar este problema se define un R corregido por grados de libertad

e' e e' e R 2c = 1 − n − k 2 = 1 − n − k y' y Y ' Y − nY n −1 n −1 ¿Qué relación tiene R 2 y R C2 ? R 2c = 1 −

e' e n −1 2 n −1 • 1 ( 1 R ) = − − n − k Y' Y − n Y 2 n − k

n −1  = R 2 − R 2 + 1 −    (1 − R 2 )  n − k  n − 1   n − 1  = R 2 + (1 − R 2 ) −    (1 − R 2 ) = R 2 + (1 − R 2 ) 1 −   n − k   n − k  n − k − n + 1  2  k −1  = R 2 + (1 − R 2 )    = R − (1 − R 2 )    n − k   n − k 

 k −1    n − k 

R 2C = R 2 − (1 − R 2 )  Otra formula: R 2c =

1 − k 1 − n  + R 2    n − k  n − k 

Para entender esto: Supongamos que tenemos dos observaciones:



Agosto 2004

101 Y *

Y

Yi = β1 + β 2 X i + µ i

*

X

∑

La recta va a tener que pasar por los dos puntos ⇒ minimizar la e i2 implica que Σe i2 2 2 e i = 0 , con lo que R = 1 − 2 = 1. Esto significaría un ajuste perfecto, sin embargo, Σy 1 no tiene ninguna significancia estadística. El R C2 está indeterminado.

∑

0 Σe 2i / n − 2 R = 1 − 2 =1− 2 0 . Σy i / n −1 Σy i / n − 1 2 c

Algunas propiedades: i)

R C2 < R 2, son iguales cuando la correlación es perfecta.

ii)

Si aumenta el tamaño muestral, dado k, el R C2 tiende al R 2

iii)

Dado n, al aumentar el número de variables explicativas, (R 2 - R C2 ) aumenta.

iv)

R C2 puede ser negativo.

3.3 SUPUESTOS CLÁSICOS Al igual que en el modelo simple, requerimos una serie de supuestos (supuestos clásicos) para determinar las propiedades estadísticas de los estimadores MICO. Estos supuestos clásicos para el modelo de regresión múltiple son equivalentes a los del modelo simple y se pueden expresar en notación escalar o matricial. Y = βX + µ

Notación escalar 1. X2 .... Xk son no estocásticas


Notación matricial Xnxk es no estocástica


Agosto 2004

102

2. E(µi) = 0 ∀i

E(µ) = 0 n×1 donde µn×1

3. Homocedasticidad y no autocorrelación  0 i ≠ j COV(µi, µ j)= E (µ i µ j ) =  2 σ i = j

E(µµ’) = σ I

4. Ausencia de multicolinealidad perfecta. Las Xi no son combinación lineal exacta entre sí

Rango de X=ρ(X) = k

5. ui ~ N(0, σ2 ) ∀i

u ~ N(0, σ I)

2

2

Explicación Todo nuestro análisis está condicionado a conocer X que se supone se mantiene fija 1. en distintas muestras. Esto implica que la única fuente de variación de Y viene dada por µi. Este supuesto se puede relajar suponiendo X estocásticos, pero independientes de µ.

2.

E (µ ) = 0

 µ 1   E(µ 1 )   0         µ 2   E (µ 2 )   0  E (µ) = E   =   =  .  = 0 nx1 . .           µ n   E(µ n )   0  Esto permite calcular: E(Y/X) = E(Xβ + µ) = Xβ + E(µ) = Xβ Es decir que se cometen errores pero en promedio estaremos sobre el plano de regresión.

3.

2

E(µµ ‘ ) = σ I En general Varianza de X = E [(X − E(X))(X − E (X))'] = E [(X − µ)(X − µ )'] =



Agosto 2004

103

 X1 − µ    X − µ    2     = E  .  (X1 − µ X 2 − µ . . X n − µ )    .    X n − µ       ( X − µ) 2 ( X − µ )(X − µ) .  1 1 2  . ( X − µ) 2 .  2 =E . . .      E( X − µ ) 2 E (X − µ)(X − µ)  1 1 2  . E( X − µ ) 2  2 = . .      VAR (X 1 ) Cov (X 1 , X 2 ) …  .  Cov ( X 1 , X 2 ) . =    

. ( X − µ)(X − µ )   1 n  . .   . .  . .   (X − µ ) 2  n  . . .

. E( X − µ)(X − µ )   1 n  . .   . .  . .   E( X − µ) 2  n  Cov ( X 1 , X n ) 

.

   =matriz varianza y   VAR ( X n )  

covarianza

En nuestro caso la variable aleatoria es µ y su esperanza es 0. Por lo tanto,

 µ 1   µ 12 µ 1µ 2 . . µ 1µ n   µ     2 µ   2 2      E(µµ‘ ) = E  .  (µ 1 µ 2 . . µ n ) = E .       .  .       2  µ n    µ n    



Agosto 2004

104

E( µ 12 ) E (µ 1µ 2 ) . . E(µ 1µ n )  σ 2 0 . . 0  1 0 . . 0       E(µ 22 ) σ2     2 0 1  = =σ   1 = . .       . 0 . .       2 2     0 1 E (µ n )   σ   E(µµ‘ )=σ2Inxn

4. El rango de X es k. Este es un requisito que permite invertir X’ X y que es necesario para obtener estimadores MICO βˆ en forma única.

• Rango de una matriz Una matriz Am×n puede interpretarse como una colección de m vectores fila de dimensión n, o como una colección de n vectores columna de dimensión m. Entonces, podemos hablarse de filas linealmente independientes (LI) o linealmente dependientes (LD). Se denomina rango de la matriz a máximo número de columnas (o filas) LI.

Propiedades:

⇒ ⇒ ⇒ ⇒ ⇒ 5.

El número máximo de filas LI es igual al número máximo de columnas LI Rango (Am×n)≤ min (m,n) Rango A=Rango A’ Si rango Am×n=m=n, entonces A es no singular y su inversa existe y es única. Rango (X’ X) = Rango (XX’ ) = Rango de X 2

µ ~ N (0, σ I) es normal multivariante.



Agosto 2004

105

3.4 PROPIEDADES ESTADÍSTICAS DE LOS ESTIMADORES MICO. 3.5.1 Linealidad

βˆ = ( X' X) −1 X' Y El estimador es lineal en Y, ya que cada elemento de βˆ es una combinación lineal de los elementos de Y. Las ponderaciones son funciones de los datos X, que son no estocásticos.

3.5.2 Insesgamiento

βˆ = ( X' X) −1 X' Y βˆ = ( X' X) −1 X' ( Xβ + µ ) βˆ = ( X' X) −1 X' X β + ( X' X) −1 X' µ = β + ( X' X) −1 X' µ ⇓ I

βˆ = β + (X' X) −1 X' µ E (βˆ ) = E(β) + E[( X' X) −1 X' µ ] E (βˆ ) = β + (X' X) −1 X' E (µ) E (βˆ ) = β

Es insesgado

3.5.3 Eficiencia 3.5.3.1 Matriz de Varianzas y Covarianzas. Var − Cov(βˆ ) = V(βˆ ) = E[ (βˆ − E (βˆ )) (βˆ − E(βˆ ))'] Como βˆ = β + ( X ' X ) −1 X ' µ

y E (βˆ ) = β

Entonces: βˆ − E (βˆ ) = βˆ − β = ( X' X) −1 X' µ

106

= E ((X' X) −1 X' µ) ((X' X) −1 X' µ )') = E (( X' X) −1 X' µµ' X(X' X) − 1 ) = ( X' X) −1 X' E(µµ' ) X( X' X) −1 = ( X' X) −1 X' σ 2 I X( X' X) −1 = σ 2 ( X' X) −1 X' X ( X' X) −1 = ⇓ I Var - Cov(βˆ ) = V(βˆ ) = σ ( X' X) 2

−1

Para el caso de dos variables:

V(βˆ ) = σ 2 (X' X) −1

 1  . X = .  . 1 

X 1   .  .   .   X n 

  1     1 1 . . 1   . .  X ' X =      X 1 X 2 . . X n   .  1   

 1 1 . . 1    X X . . X  1 2 n 

X ' = 

X 1     .    n .   =     X i .   X n   

∑ X  ∑X  i 2 i

∑

 ∑ X 2i − ∑ X i    1 −1   = ( X' X) = 2 2 n ∑ X i − (∑ X i )    − ∑ X i n    ∑ X 2i − ∑ X i    σ2 σ2 ˆ   V(β) = = 2 2 n ∑ X 2i − ( ∑ X i ) 2   n X ( n X ) − ∑ i  − ∑ X i n    ∑ X 2i − ∑ X i    σ 2 σ2 ˆ   = V(β) = 2 2 n ∑ x 2i   n (∑ X i − nX )    − ∑ X i n 

 ∑ X 2i − ∑ X i         X n − ∑ i  

 ∑ X 2i − ∑ X i         X n −  ∑ i 

107

 σ 2 2  X ∑ i  n ∑ x i2  V(βˆ ) =   σ2 − ΣX i  n ∑ x 2i 

 σ 2 ∑ X 2i σ 2 ∑ X i    − 2   n∑ x i n ∑ x i2    =    σ2 σ2 X   n − n ∑ x i2   n ∑ x 2i  

σ 2 X   − 2  n∑ x i    σ2  2 ∑ x i  

Tarea: Chequear con las encontradas en el caso simple.

Al igual que en el caso simple tanto las varianzas como las covarianzas dependen de σ2, parámetro poblacional desconocido que es necesario estimar. 3.5.3.2 Un estimador de σ2 Debemos estimar σ2, la varianza del término de error. Como los valores de µ no se pueden observar, el estimador se basará en los residuos e . Sabemos que: e = Y − X βˆ y dado que βˆ = ( X ' X ) −1 X' Y e = Y − X ( X' X) −1 X' Y , con lo que se puede sacar Y de post-factor común, de forma que: e = (I − X ( X' X) −1 X ')Y , y definiendo M = I − X( X ' X ) −1 X ' , luego:

e = MY La matriz M es especial por cumplir las siguientes propiedades:

♦

Es cuadrada (n×n)

♦

Es no estocástica

♦

Es simétrica (M’ =M) M ' = (I − X ( X' X) −1 X')' = I '− X( X ' X ) −1 X' = M

♦

Es idempotente (M.M=M) MM = I − X(X' X ) −1 X' I − X( X ' X ) −1 X' =

= I − X( X' X) −1 X'− X(X' X) −1 X'+X( X' X) −1 X' X( X' X) −1 X' = I − X( X' X) −1 X'− X(X' X) −1 X'+ X(X' X) −1 X' = I − X( X' X) −1 X' = M ♦

MX=0

108 MX = ( I − X( X ' X ) −1 X' ) X = X − X ( X' X) −1 X' X = X − X = 0

e = MY = M (Xβ + µ) = MXβ + M µ = Mµ

Luego, e' e = µ' M ' Mµ = µ' MM µ = µ ' Mµ e' e = µ' Mµ

Deseamos conocer E (e' e) = E (µ' M µ)

  a 11 a 12 . . a 1n   µ 1         a a . . a  21 22 2n   µ 2      .   = E (e' e) = E(µ' Mµ) = E (µ 1 µ 2 . . µ n ) .       .    .    a a    a nn   n1 n 2   µ n      µ 1        µ 2     = E(µ 1 ∑ µ i a i1 + µ 2 ∑ µ i a i2 + ... + µ n ∑ µ i a in ) = E (∑ µ i a i1 ∑ µ i a i2 . . ∑ µ i a in ) .      .     µ     n    = E[µ 1 (µ1a 11 + µ 2 a 21 + ... + µ n a n1 ) + µ 2 ( µ1a 12 + µ 2 a 22 + ... + µ n a n 2 ) + ... + µ n (µ1a 1n + µ 2 a 2n + ... + µ n a nn ) ] Al aplicar el término de esperanza y dado el supuesto de no autocorrelación, los términos cruzados se hacen cero.

= a 11E(µ 12 ) + a 22 E( µ 22 ) + ... + a nn E(µ 2n ) = σ 2 (a 11 + a 22 + ... + a nn ) = σ 2 ( Traza M ) Recordando que traza:

•

La traza de una matriz es la suma de los elementos de la diagonal principal

•

Tr(A±B)=Tr(A) ±Tr(B)

•

Tr(ABC)=Tr(CBA)=Tr(BAC)

•

Si A es una matriz idempotente, entonces Tr(A)=rango(A)

109 = σ 2 Tr ( I n − X ( X' X) −1 X' ) = σ 2 [Tr (I n ) − Tr (X ( X' X) −1 X')] = σ 2 [n − X' X( X ' X) −1 ] =

= σ 2 [n − Tr ( I k )] = σ 2 [n − k ] Con lo que : E (e' e ) = E(µ ' Mµ) = σ 2 [n − k ] e' e 2 Luego si definimos: σˆ = , tendremos un estimador de la varianza del término de n − k

perturbación que cumple la propiedad de ser insesgado. Esto porque:

 e ' e  = 1 E(e ' e ) = 1 σ 2 ( n − k ) = σ 2 E (σˆ 2 ) = E  n − k  n − k  n − k 3.5.3.3 Teorema de Gauss-Markov Sabemos que βˆ = ( X' X) −1 X' Y = β + ( X' X) −1 X' µ , es un estimador lineal e insesgado de β . En esta expresión ( X ' X ) −1 X ' es una matriz de números fijos. a. Supongamos que existe β *, otro estimador lineal de β , tal que:

β * = [( X' X) −1 X'+C]Y , donde C es una matriz de constantes de orden k ×n. Dado que Y=Xβ +µ,

β * = [( X' X) −1 X'+C]Y = [( X' X) −1 X'+C]( Xβ + µ ) = ( X' X) −1 X' Xβ + ( X' X) −1 X' µ + CXβ + Cµ β* = β + (X' X) − 1 X' µ + CXβ + Cµ b. ¿Qué condiciones se deben cumplir para que β * sea insesgado? E (β*) = β + ( X' X) −1 X ' E(µ ) + CXβ + CE(µ ) E (β*) = β + CXβ

Luego, para que β * sea insesgado se debe cumplir que CX=0 c. Calculemos la varianza de β * V(βˆ ) = E[ (β * − E(β*)) (β * − E(β*))'] Dados los resultados de a y b sabemos que :

• E(β *)=β

110

• β * -β = (X' X) −1 X' µ + Cµ Luego, V(β*) = E[ (β * − β) (β * − β)'] = E ((X' X) −1 X 'µ + Cµ ) ((X' X ) −1 X'µ + Cµ )' V(β*) = E[ ((X' X) −1 X ' µ + Cµ) (µ' X( X ' X ) −1 + µ ' C' ) ] V(β*) = E ( X ' X ) −1 X' µµ' X( X ' X) −1 + ( X' X) −1 X ' µµ' C'+Cµµ' X (X ' X ) − 1 + Cµµ' C' V(β*) = ( X' X) −1 X ' E( µµ' ) X(X' X) −1 + ( X' X) −1 X' E( µµ' )C'+CE(µµ' ) X ( X' X) −1 + CE(µµ' ) C' Recordando que E(µµ‘ )=σ2I V(β*) = σ 2 ( X' X) −1 X' X( X' X) −1 + σ 2 ( X' X) −1 X ' C'+σ 2 CX ( X' X) −1 + σ 2 CC ' Dado que CX=0 y simplificando, obtenemos: V(β*) = σ 2 ( X' X) −1 + σ 2 (X ' X ) −1 X' C'+σ 2 CX( X ' X) − 1 + σ 2 CC' V(β*) = σ 2 ( X' X) −1 + σ 2 CC' V (β*) = V (βˆ ) + σ 2 CC' d. Dado que C es una matriz de constantes de orden k ×n,

 c 11 c12   c 21 c 22 CC ' =    c c  k 1 k 2

. . .

 ∑ c12i   ∑ c1i c 2i CC ' =  .  .   ∑ c1i c ki

∑c c ∑c

.

. c 1n   c 11 c 21   . c 2n   c 12 c 22   .   .   .  . c kn    c 1n c 2n 1i

2i

2 2i

∑

. . c 2i c ki

. . . .

. . . .

. . .

. c k 1   . c k 2 

  .  . . c kn  

∑c c ∑c c

  2i ki   .   . ∑ c 2ki    1i

ki

Los elementos de la diagonal principal son positivos o cero, por lo que necesariamente se cumple que V(β*) ≥ V(βˆ ) . Con esto se concluye que si existe un estimador lineal e insesgado de β , para que éste sea el de menor varianza (eficiente), debe ser el estimador MICO. Si tenemos un estimador lineal e insesgado distinto de MICO, necesariamente tiene mayor varianza que MICO. Con lo que demostramos que MICO es el mejor estimador lineal e insesgado. MICO es MELI.

111

3.5.4 Consistencia Sabemos que :

βˆ = β + (X' X) −1 X' µ

luego, multiplicando y dividiendo entre n

1 X ' µ  βˆ = β + ( X' X) −1    n  n 

1  X' µ   plim βˆ = plim (β) + plim  ( X ' X) −1    n n     1 X' µ  = β + plim ( X' X) −1 • plim    n  n  1 X ' µ  = β + ( plim ( X ' X)) −1 • plim    n  n  1 La matriz ( X' X)

consta de las medias cuadráticas y de las medias de los productos

cruzados de las variables explicativas. Como la matriz X es constante para repetidas muestras, entonces, 1 lim ( X' X) n

1 = ( X' X) n

  1    plim  n ∑ µ i      1    X' µ  plim  ∑ X 2i µ i    El limite en probabilidad de la matriz   =  n    n    M   1   plim   ∑ X ki µ i     n   1 σ2   • plim  ∑ µ i  =plim ( µ ), como E( µ )=0 y var( µ )= , se deduce que plim ( µ )=0 n  n   1 X µ  , se cumple que E 1 X µ  =0 y  ∑ ki i  ∑ ki i    n  n  σ 2 ∑ X 2 ki 1 1    var(  ∑ X ki µ i  = , con lo que plim var(   ∑ X ki µ i  = 0 , n  n  n  n  X ' µ  luego, plim    =0  n 

•

plim 

1 asi, β + ( X' X) −1 • 0 = β , con lo que el estimador MICO es consistente. n

112

3.6 INFERENCIA EN EL MODELO GENERAL Hasta ahora no hemos usado el supuesto de que las µ siguen una distribución normal multivariante. Si suponemos µ ~ N (0, σ 2 I ) podremos derivar algunas distribuciones.

3.6.1 Distribución de βˆ

βˆ = β + ( X' X) −1 X' µ , con lo que βˆ por ser combinación lineal de variables aleatorias es también una variable aleatoria que se distribuye normal multivariante. Esperanza: E (βˆ ) = β  a 11 a 12 . . a 1k     a 12 a 22  − 2 1 2  . Varianza: V(βˆ ) = σ ( X' X) = σ    .   a   1k . . . a kk  Luego βˆ ~ N (β, σ 2 ( X ' X) −1 ) Esto es, βˆ i ~ N (β i , σ 2 a ii ) donde aii es el i-ésimo elemento de la diagonal principal de (X’ X)-1 . Así:

βˆ i − βi ~ N ( 0, 1) σ a ii Este resultado no es muy útil por si mismo, porque no conocemos σ2.

3.6.2 Distribuciones derivadas de µ Dado que µ ~ N (0, σ 2 I ) , esto significa que cada µi se distribuye normal e independiente con media cero y varianza σ2.

µ 12 µ 22 µ 2n Luego, 2 + 2 + ...... 2 ~ χ 2n , con lo que σ σ σ 1

µ' µ ~ χ 2n

σ µ' ( σ 2 I ) −1 µ ~ χ 2n 2

113 Este resultado, nos sirve para recordar como se forman las distribuciones derivadas de una normal multivariante. Sin embargo, tampoco es útil por si mismo ya que no conocemos µ.

3.6.3 Distribución de

e' e σ2

Hemos visto los siguientes resultados: • e = Mµ , como u ~ N (0, σ 2 I ) , por lo que e también se distribuye normal. • e' e = µ' Mµ • M = I − X( X' X) −1 X' , siendo simétrica e idempotente.

• Tr(M)=Rg(M)=n-k . Como M es idempotente de aquí se deriva que M tiene n-k valores propios.

• Sea B una matriz que tenga por columnas los vectores propios de M y D una matriz que tiene los valores propios en la diagonal y cero en el resto.

|  0   | |  λ1 0     0  |   0 λ2 | | B=  x 1 x 2 . . x n  y D=  0 0 . 0      |  . 0  0 0 | | | |   |  λ n   0 0   Sabemos que:

⇒ B’ B=BB’ =In ⇒ B' MB = D ⇒ Dado que los valores propios de una matriz idempotente son cero o uno,

sabemos que D tiene n-k valores propios 1 y k valores propios igual a cero.  1 0 . . . . 0    0 1 . .   . . . .     I n − k 0 k  D=  . 1   =   0 0 .   k k  0   . .     0 . . . . . 0 

Definamos: y= B’ µ Luego, premultiplicando por B tenemos que, B y=B B’ µ=Iµ

µ = B y

114

Dado que y= B’ µ, y será una variable que se distribuye normal multivariada. Encontremos la esperanza y la varianza de y.

Esperanza:

E( y)

=E( B’ µ)=B’ E(µ)=0

Varianza:

V( y)

=E{[ y – E( y)][ y – E( y)]’ }= E( yy’ )= E(B’ µ µ‘ B)= B’ E(µ µ‘ ) B= = B’ σ2 IB= σ2B’ B=σ2I

y i

Es decir que y ~ N (0, σ2I) , con lo que cada

σ

independiente.

~ N(0,1) se distribuye normal tipificada e

Sabemos que: e' e = µ' Mµ = y ' B MB 1'2 3y = D

 1  0 .  . y n ) . .  .   0

= ( y1 y 2 . y n − k y n −k +1

2 1

2 2

= y + y + ....y

2 n − k

n− k

e' e =

∑y

2 i

1

2

n− k

y i

 y  ~ N(0,1) , luego ∑  i  ~ χ 2n -k Como σ 1  σ  n − k

⇒

2 1 2

y

σ

+

y

σ

2 2 2

+ .....

y

.

+ 0 + .... + 0 = ∑ y i2 1

n − k

0 . 1 . . .

2 n − k 2

σ

=

∑y 1

σ

2

2 i

~ χ 2n- k

. . . 0   y 1     . y   2    .  .    1   y n − k    y  0   n − k +1  .   .     . . . . 0   y n 

115

e' e

⇒

σ

2

~ χ n2- k

3.6.4 Prueba de Hipótesis en el Modelo Múltiple Pruebas Individuales Tenemos:

i)

ii)

βˆ i

− βi

σ

a ii

e' e σ

2

~ N ( 0, 1) pero σ es desconocida

= ( n − k )

e ' e /( n − k ) σ

2

~ χ

2 n - k

iii) puede demostrarse que i) y ii) son independientes: Definimos:

t=

βˆ i − βi σ a ii e' e

βˆ i − βi =

a ii βˆ − β = i i ∼ t n-k σˆ σˆ a ii

σ2 n − k Prueba de Significación global en el Modelo Múltiple: A NÁLISIS D E V ARIANZA ANOVA ⇒ Es un test de significancia global del modelo H0:

β 2 = β 3 =............= β k = 0

H1:

Algún β i distinto de 0

i)

SCE/σ2 ∼ χ k 2-1

116 ii) iii)

e' e σ2

=

SCR σ2

~ χ n2- k

Puede demostrarse que i) y ii) son independientes.

SCE/ σ 2 SCE SCE R 2 / SCT ( n − k ) R 2 k 1 k 1 k 1 k 1 F = ~ F k −1, n− k = = = = SCR / σ 2 SCR SCT − SCE SCT SCT − SCE (k − 1)(1 − R 2 ) n − k n − k SCT ( n − k ) n − k Recordar diferentes expresiones para la SCE

Rechazo H0 , si el valor calculado del estadístico

α

0

( n − k )SCE es mayor que (k − 1)SCR

α

K −1 ,n − K

Fα

Este test indica que el modelo es significativo en su conjunto, si el "efecto explicado por el modelo" es suficientemente grande respecto al "ruido", a lo residual. Si el F calculado es mayor que el F de tabla, rechazo que β 2 = β 3 =............= β k = 0, o sea el "aporte de las X" respecto al residuo es considerable. ¿Cuán considerable? El límite nos lo da el valor de tabla. TABLA ANOVA

Variación

Suma de Cuadrados

Grados de Libertad

Suma Promedio de Cuadrados

Regresión Residuo

SCE SCR

k-1 n-k

SCE/(k-1) SCR/(n-k)

Total

SCT

n-1

SCT/ (n-1)

117 Grados de Libertad Asociado a cada suma de cuadrados hay grados de libertad; (valores que pueden elegirse arbitrariamente). Suma de cuadrados Totales (SCT): tiene n-1 grados de libertad. Esto surge como consecuencia de la pérdida de un grado de libertad, necesario para calcular Y . Suma de cuadrados residuales (SCR ): tiene n-k grados de libertad. Se pierden k grados de libertad que son necesarios para asegurar que se cumplan las ecuaciones normales. Estas condiciones son: 1  1 X X 22  12 . X' e =  .  . .  X 1k X 2k

. . . . .

∑e ∑e X ∑e X

. 1   e1    . X n 2  e 2     . .  e 3  =    . .   .   . X nk  e n  

 0   i i2  0  i i 3 = 0   .  . ∑ e i X ik  0 i

Suma de cuadrados explicados (SCE): tiene k-1 grados de libertad ya que se encuentra en función de todos los parámetros estimados, excepto el intercepto.

3.5.5 Test General Para Probar Restricciones Lineales de Parámetros i. Introducción Supongamos que estamos interesados en estimar una función de producción Cobb-Douglas: lnYi = β 1 + β 2 lnLi + β 3 lnK i + µi

Repasemos distintas hipótesis a probar: Ejemplo 1: Si queremos testear H0:

β2 = 0

H1:

β 2 ≠0

podemos expresar esta restricción en forma matricial H0:

Cβ = r

H1:

Cβ ≠ r

118

donde C = [0 1 0]

 β1  Cβ = [0 1 0]  β 2  = β 2  β 3  r=0 Ejemplo 2: Si queremos testear H0:

β 2 +β 3 = 1

H1:

β 2 +β 3 ≠ 1

debemos definir la matriz C y el vector r:

H0:

Cβ = r

H1:

Cβ ≠ r

donde C = [0 1 1]

 β1  Cβ = [0 1 1]  β 2  = β 2 + β 3  β 3  r = 1 (en este caso un vector de 1x1, o sea un escalar)

Ejemplo 3: Si queremos testear

119 H0:

β2 = β3

H1:

β2 ≠ β3

H0:

Cβ = r

H1:

Cβ ≠ r

donde C = [0 1 -1]

 β1  Cβ = [0 1 − 1]  β 2  = β 2 - β 3  β 3  r=0

Ejemplo 4:

H0:

β2 = β3 = 0

H1:


β  0 1 0  1  β 2  Cβ =   β 2  = β  0 0 1   β   3   3 0 r=   0

Ejemplo 5: lnYi = β 1 + β 2 lnLi + β 3 lnK i + β 4 lnZi + β 5 lnWi + µi

120 H0:

β4 = β5 = 0

H1:


 β1  β  0 0 0 1 0  2  β4  Cβ =    β3  = β  0 0 0 0 1   β   5   4 β 5 

0 r=   0 ii. Desarrollo del Test Existen distintas formas de desarrollar el test.

• Mediante el desarrollo del test Cβˆ ? Sabemos que: βˆ ~ N ( β , σ 2 ( X ' X ) −1 )

La distribución de probabilidad de una combinación lineal de βˆ será también normal. Debemos encontrar los parámetros de la distribución. E (Cβˆ ) = CE(βˆ ) = Cβ V( Cβˆ ) = E[Cβˆ − Cβ)(Cβˆ − Cβ)'] = E[(Cβˆ − Cβ)(βˆ ' C' − β' C' ) ] = E[C(βˆ − β)(βˆ ' − β' )C'] = E[C(βˆ − β)(βˆ − β)' C'] = CE (βˆ − β)(βˆ − β)' C' = σ2 C( X' X) −1 C'

Cβˆ ~ N( Cβ, σ 2 C( X' X) −1 C' ) Cβˆ − Cβ ~ N(0, σ 2 C(X' X) −1 C' ) Si H0 es cierta: Cβ = r Se puede demostrar que dado:

Cβˆ − r ~ N( 0, σ 2 C( X ' X ) −1 C' )

121 i.

−1

( Cβˆ − r )' [σ 2 C( X' X) −1 C'] elevadas al cuadrado]

( Cβˆ − r ) ~ χ 2R [Estamos sumando R normales(0,1)

donde R es el número de restricciones involucradas bajo la hipótesis nula. ii. iii.

σˆ 2 ( n − k ) e ' e 2 = 2 ~ χ n − k σ2 σ i y ii son independientes

Entonces: −1 (Cβˆ − r )' [σ 2 C( X ' X ) −1 C'] ( Cβˆ − r ) / R ~ FR , n −k e' e σ 2 (n − k )

1 ˆ (Cβ − r )' ( σˆ 2 C(X ' X ) −1 C' ) −1 (Cβˆ − r ) ~ FR , n − k R

α

Rech H 0si F calculado > F de tabla

Volvamos al Ejemplo 1 Siguiendo con el ejemplo de la función de producción Cobb-Douglas, retomemos la prueba de algunas hipótesis importantes: H0: β 2 = 0 H1: β 2 ≠ 0 C = [0 1 0] r=0 R=1

122 1 ˆ (Cβ − r )' (σˆ 2 C( X ' X ) −1 C' ) −1 ( Cβˆ − r ) ~ FR , n − k R −    a 11 a 12 a 13   0      2      βˆ 2  σˆ (0 1 0) a 21 a 22 a 23   1   βˆ 2  ~ F1,n − 3     a a a   0       31 32 33     −1  0    2   βˆ 2 σˆ (a 21 a 22 a 23 ) 10     βˆ 2 ~ F1, n − 3   −1 βˆ 2 [σˆ 2 a 22 ] βˆ 2 ~ F1, n − 3 1

βˆ 22

~ F1,n −3

σˆ 2 a 22

• Mediante el cálculo de los residuos libres y restringidos. Se puede demostrar que: ~e ' ~e − e' e = (Cβˆ − Cβ)' [C( X' X) −1 C1 ]−1 (Cβˆ − Cβ) donde ~e ' ~e es suma de cuadrados restringida, es decir, los obtenidos de la regresión en la que se impone H0 (la restricción). Entonces, tenemos que: ~e ' ~e

σ

2

~ χ 2n −( k −R )

Por lo que

•

~e ' ~e − e' e

~e ' ~e − e ' e

σ2

y

σ

2

e' e

σ

2

~ χ 2n −k

~ χ 2n −( k − R ) − ( n − k ) = χ2R



~ χ 2R 

 ~e ' ~e − e' e / R  2 e' e 2 • 2 ~ χ n− k ~ FR , n− k  e'σe σ  / n − k 2  σ • independie ntes   Con lo que:

123 (~e ' ~e − e' e) / R ~ FR , n − k e ' e / n − k

Etapas: 1. Se estima regresión restringida (imponiendo que se cumpla la hipótesis nula) y se obtiene la SCR restringida→ e˜' ˜e 2.

Se estima regresión libre (sin imponer que se cumpla la hipótesis nula) y se obtiene la SCR libres → e' e'

3.

Se calcula el estadístico F =

( ~e ' ~e − e' e) / R e' e /(n − k )

Si F > FTABLA rech H0 (Rech que la restricción sea valida si la suma se reduce mucho al calcular dicho estadístico)

rech H 0

•

Mediante el coeficiente de determinación, R 2

Una tercera forma equivalente de probar la misma hipótesis es: ~ 2 ) y 2 − (1 − R 2 ) y 2 ~e ' ~e − e' e (1 − R R = R = e' e (1 − R 2 y 2 n − k n − k

∑

∑

∑

~ 2 ) − (1 − R 2 ) ]/ R [1 − R ~ 2 − 1 + R 2 ]/ R [ (1 − R = = (1 − R 2 ) /( n − k ) ~ 2 ) / R ( R 2 − R ~ FR , n− k = (1 − R 2 ) /(n − k )

(1 − R 2 ) /(n − k )

3.5.6 Estabilidad y Cambio Estructural Volvamos al ejemplo de la función de producción para Chile en el período 1960-97 lnYi = β 1 + β 2lnLi + β 3lnK i + µi

124

Tenemos la hipótesis a priori que la función de producción difiere según períodos; por ejemplo: 1960-74 → β1I , β I2 , β I3 II II II 1975-97 → β 1 , β 2 , β 3

n = 38 y tenemos dos submuestras: nI = 15 y nII = 23 YI = XI β I + µI YII = XII β II + µII

H 0 : β I = β II H 0 : β I ≠ β II

Modelo restringido: los parámetros del primer período coinciden con los del segundo.

 YI   X I  Y = X β + µ ⇒   =  II  β + µ  YII   X  Es decir se supone que hay un solo modelo a lo largo del período y se obtiene SCR restringida, ~e ' ~e Modelo libre (no restringido): Se corren dos regresiones: una para el primer período y otra para el segundo.

YI   X I 0   β I   µ I  Y  =  0 X II  β II  + µ II   II       SCR libre = e'e = SCR I + SCR II = (e'e)I + (e'e) II

125

Asumiendo la distribución bajo la nula, V(µI) = V(µII ) = σ2 Luego:

~e ' ~e − e ' e R ~ F k , n − 2k e' e n − 2k Grados de Libertad Numerador: R = número de restricciones (k, se impone que los k parámetros sean iguales entre períodos). También puede deducirse como: gl de ~e ' ~e - gl de e'e gl de ~e ' ~e = n - k gl de e'e = gl de (e'e)I + gl de (e'e) II = n1 – k + n2 – k = n1 + n2 – 2k = n-2k gl numerador = n - k – (n-2k ) = k Denominador: gl de e'e = n-2k El Test de Chow es un caso particular del test de cambio estructural. Chow discutió dos situaciones peculiares: nII = k y nII < k. iv. Un Ejemplo Numérico del test C β Supongamos que estamos interesados en estimar el siguiente modelo: Yi = β 1 + β 2 Xi2 + β 3 Xi3 + µi con los siguientes datos:

126

 3 1    Y = 8   3    5

1 1  X = 1 1  1

3 1 5 2 4

5 4  26.7 4.5 − 8  −1 6 , luego ( X' X) =  4.5 1 − 1.5   − 8 − 1.5 2.5  4 6

Con estos datos se estima la regresión: LS // Dependent Variable is Y Included observations: 5

Variable

Coefficient

Std. Error

C 4.000000 4.474930 X1 2.500000 0.866025 X2 -1.500000 1.369306 R-squared 0.946429 Adjusted R-squared 0.892857 S.E. of regression 0.866025 Sum squared resid 1.500000 Log likelihood -4.084760 Durbin-Watson stat 1.666667

t-Statistic 0.893869 2.886751 -1.095445 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-stat isti c)

Prob. 0.4657 0.1020 0.3876 4.000000 2.645751 -0.003973 -0.238310 17.66667 0.053571

y podemos calcular SCE=26.5 y SCT=28 Ejemplos: 1. Significación conjunta de X2 y X3 Ho: β 2=β 3=0

SCE

26.5 k 1 3 −1 = 17.67 − F= = SCR 1.5 n − k 5−3 Como F 0.95(2,2)=19, la F muestral es menor que el valor critico⇒ no rechazo Ho. 2. Significación de X3 Ho: β 3=0 Una forma de probarlo es con un test de hipótesis simple. Observando la salida de E-Views se concluye que este parámetro es no significativo.

127 Otra forma de probar esto es estimando la regresión restringida (es decir aquella donde se supone válida la hipótesis nula). LS // Dependent Variable is Y Included observations: 5

Variable

Coefficient

Std. Error

C -0.800000 0.938083 X1 1.600000 0.282843 R-squared 0.914286 Adjusted R-squared 0.885714 S.E. of regression 0.894427 Sum squared resid 2.400000 Log likelihood 5.259770 Durbin-Watson stat 1.366667

Como ahora la SCR=2.4

t-Statistic -0.852803 5.656854 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-stat isti c)

Prob. 0.4564 0.0109 4.000000 2.645751 0.066031 -0.090194 32.00000 0.010938

⇒ ~e ' ~e ' =2.4

Luego, podemos utilizar el estadístico:

2.4 − 1.5 (~e ' ~e − e' e) / R 1 = 1.2 F= = 1.5 e ' e / n − k 5−3 F 0.95(1,2)=18.51, la F muestral es menor que el valor critico⇒ no rechazo Ho. 3. Los coeficientes de X2 y X3 son de igual magnitud pero de signo opuesto Ho: β 2+β 3=0 o en términos generales: C= [0 1 1]

r=0 con R=1

Sabemos que: F=

1 ˆ (Cβ − r )' ( σˆ 2 C(X' X) −1 C' ) −1 (Cβˆ − r ) ~ FR , n − k R

  βˆ 1    − 6   0    20.02 3.37        1 F= (0 1 1) βˆ 2  − 0 ' ( 0 1 1)  3.37 0.75 − 1.125  1   1  βˆ      − 6 − 1.125 1.875   1     3    

−1

  βˆ 1      ( ) 0 1 1  βˆ 2  − 0   βˆ     3   

128 −

1   0     (2.5 − 1.5 )' (3.37 − 6 0.75 − 1.125 − 1.125 + 1.875) 1   (2.5 −1.5 )  1      

12 = 2.66 F= 1[0.75 −1.125 − 1.125 + 1.875] 1 = 0.375 Dado que el valor del test F es muy pequeño, rechazo la hipótesis nula. −1

4. Región de confianza conjunta para β 2 y β 3 1 ˆ (Cβ − Cβ)' ( σˆ 2 C( X' X) −1 C' ) −1 (Cβˆ − Cβ) ~ FR , n− k , luego podemos utilizar R este resultado para construir regiones de confianza de los test. Distintas especificaciones de R, darán diferentes regiones de confianza para grupos de parámetros.

Sabemos que

Supongamos que nos interesa conocer la región en que se cumple que β 2 y β 3 son conjuntamente significativos. Ho: β 2=β 3=0 Luego,

 0 1 0    y R=2  0 0 1 

C =  F=

F=

1 ˆ (Cβ − Cβ)' (σˆ 2 C( X' X) −1 C' ) −1 ( Cβˆ − Cβ) = R

( Cβˆ − Cβ)' ( C(X' X) −1 C' ) −1 ( Cβˆ − Cβ) e' e

−1   βˆ1   β1     βˆ1   β1   26.7 4.5 − 8  0 0       0 1 0  ˆ       0 1 0   0 1 0    ˆ             0 0 1 β2  − β2  '  0 0 1  4.5 1 − 1.51 0   0 0 1 β2  −β2    βˆ  β       − 8 − 1.5 2.5 0 1    βˆ  β          3 3        3   3     

0.75 −1

F=

n − k

1 ˆ (β 2 − β 2 1.5

  0 0   ˆ     β 2 − β 2  4 . 5 1 1 . 5 −    1 0 βˆ 3 − β 3 )        ˆ     − 8 −1. 5 2.5   0 1    β 3 − β 3     

2

R

129 −1 1 − 1.5  βˆ 2 − β2  1   10 6  βˆ 2 − β2  1 ˆ   F= (β2 − β2 βˆ 3 − β3 )  = − β − − β 2 . 5 1 . 5 ( ) 2 3    βˆ − β  1.5  6 4   βˆ − β  − 1.5 1 . 5 2 . 5    3 3     3 3  

26.5 − 32β 2 − 18β 3 + 12β 2 β 3 + 10β 22 + 4β 23 F= 1.5 Eligiendo, por ejemplo, el valor crítico de F al 5 por ciento tenemos: Pr {F
26.5 − 32β 2 − 18β 3 + 12β 2 β 3 + 10β 22 + 4β 23 =19, es decir 1.5

10β 22 + 4β 23 + 12β 2 β 3 − 32β 2 − 18β 3 − 2 = 0 .

Esta es la ecuación de una elipse. Este procedimiento permite establecer una elipse de confianza al 95% para los parámetros β que son desconocidos. La elipse está centrada en el punto estimado βˆ 2 = 2. 5y βˆ 3 = −1.5 .

3

2

El origen (0,0) se encuentra dentro de la elipse, lo que significa que, con un 95% de confianza, no se puede rechazar la hipótesis de que ambos parámetros son cero en forma conjunta.

130 Es importante observar :

•

que la elipse cambia de forma en función de la covarianza entre los parámetros estimados βˆ 2 y βˆ 3 . Si cov( βˆ 2 , βˆ 3 ) < 0 la elipse se inclina hacia la izquierda, mientras que si cov( βˆ 2 , βˆ 3 ) > 0 se inclina hacia la derecha.

•

que los límites que se obtienen en forma conjunta para βˆ 2 y βˆ 3 son distintos a los que se obtienen en intervalos de confianza individuales. Es perfectamente posible que utilizando test individuales se concluya que los parámetros son individualmente no significativos, pero testeando conjuntamente la hipótesis de que ambos parámetros son cero esta sea rechazada por obtener un elipse tal que el punto (0,0) este fuera de la misma. En ese caso uno puede decir que al menos uno de los parámetros tiene suficiente influencia sobre la variable explicativa, pero no puede asignar esa influencia a uno de los parámetros en particular.

131

3.6 PREDICCION Para predecir debemos recurrir a los parámetros estimados dentro de la muestra: Yî = βˆ 1 + βˆ 2 X i2 + βˆ 3 X i3 + . . . + βˆ k X ik

i = 1 ....... n

Yˆn×1 = X n× k βˆ k ×1 El interés en general es pronosticar el valor de Y en un período posterior a n (por ejemplo el período que denominaremos 0). Si el interés está en predecir Y0 se hablará de predicción individual. Si, alternativamente, se predice E(Y0/X), hablaremos de predicción media o promedio. Ambas alternativas dan lugar a la misma predicción puntual, pero diferentes intervalos de confianza, ya que difieren en la varianza del error de predicción. Ello por cuanto en ambos casos se utiliza para predecir la siguiente ecuación: Yî = βˆ 1 + βˆ 2 X 02 + βˆ 3 X 03 + . . . + βˆ k X 0 k

Es fácil probar que Yˆ0 es un estimador insesgado de E(Y0/X) E (Yˆ0 ) = E( Y0 )

(porque Yˆ 0 e Y0 son V.A.)

Y0 = β1 + β2 X02 + … + βk X 0k + u 0

(verdadero valor)

• E (Y0 / X 0 ) = E (β + β2X02 + … + βk X0 k + u 0 )

= β1 + β2X02 + … + βk X0 k + E( u0 ) = β1 + β2X02 + … + βk X0 k • E (Yˆ0 / X0 ) = E (βˆ 1 + βˆ 2X 02 + … + βˆ k X 0k ) =

= E(βˆ 1 ) + E(βˆ 2 ) X02 + … + E(βˆ k ) X0 k = = β1 + β 2X 02 + … + β k X0 k

132 Es decir: Yˆ 0 en promedio estará sobre Y0 promedio. El punto clave es realizar una proyección correcta de las variables explicativas y verificar si es correcto usar βˆ i históricos hacia adelante. Que E( Yˆ0 ) = E(Y0) (no hay sesgo), no implica que no exista error de predicción, Error de predicción = e0= Y0 - Yˆ0

(escalar)

e 0 = β1 + β2 X 02 + … + β k X 0 k + u 0 − βˆ 1 − βˆ 2 X 02 ……βˆ k X 0k e 0 = X'0 (β − βˆ ) + u 0 1 xk

•

kx 1

1 x1

¿Cuál es el valor esperado del error de predicción?

E (e 0 ) = E( X '0 (β − βˆ ) + u 0 ) = E X'0 (β − βˆ ) + E( u 0 ) = 0

E(e0) = 0

•

¿Cuál es la varianza de e 0?

V(e0) = V( X '0 (β − βˆ ) + u 0 ) = V[X '0 (β − βˆ )] + V( u 0 ) + 2 Cov[X '0 (β − βˆ ) u 0 ] La covarianza está en función de dos variables aleatorias (βˆ y µ0 ). βˆ es función de los (i=1 hasta n) y µ0 es un error aleatorio posterior a n. Por lo tanto, COV (µi,µ0)=0 por el supuesto de no autocorrelación de los errores y Cov[X '0 (β − βˆ ), u 0 ] =0 = V[X '0 (β − βˆ ) ] + σ 2 = E{[X '0 (β − βˆ )][X '0 (β − βˆ ) ] '}+ σ 2 = E[X '0 (β − βˆ )(β − βˆ )' X 0 ] + σ 2 = X '0 E(β − βˆ )(β − βˆ )' X0 + σ 2 = X '0 V(βˆ ) X 0 + σ 2 = X '0 • σ 2 ( X ' X ) −1 X 0 + σ 2

133 = σ 2 [X '0 ( X' X) −1 X 0 + 1] • ¿Cómo podemos obtener un intervalo de confianza para Y0?

•

¿Cómo se distribuye e0?

e 0 = X'0 (β − βˆ ) + u 0 u ~ N (0, σ2 I)

βˆ ~ N (β, σ 2 ( X' X) −1 ) e 0 ~ N [0, σ2 ( X '0 ( X' X) −1 X 0 + 1) ] e 0 ~ N [0, V(e 0 )] DS( e 0 ) = σ X '0 ( X' X) −1 X 0 + 1

e0 − E( e0 )  ~ N( 0, 1)  DS( e0 )  e' e e0  ~ t n − k σˆ 2 =  −1 ' n − k X ( X ' X ) X 1  σˆ 0 0 + 2  σˆ 2 ( n k ) ~ − χ  n − k 2

σ



Con lo que

•

e0 ~ t n −k DSˆ(e 0 )

Intervalo de confianza para el error de predicción.

Esto nos permite hacer un intervalo para el error de predicción.

 

P− t α / 2 ≤

 e0 t α / 2  = 1− α ≤ DSˆ( e 0 ) 

P[− t α / 2 • DSˆ( e 0 ) ≤ e 0 ≤ t α / 2 • DSˆ( e 0 ) ] = 1 − α INT ( e 0 ) = ± t α / 2 • DS(ê 0 )

134

•

Intervalo de confianza para Y0 Como e0 = Y0 - Yˆ , podemos obtener un intervalo de confianza para Y0 0

INT (e0) = INT (Y0 - Yˆ 0 ) INT ( Y0 − Yˆ0 ) = ± t α / 2 • DSˆ( e 0 ) INT ( Y0 ) = Yˆ0 ± t α / 2 • DS(ˆ e 0 ) Tarea: Demostrar que el intervalo de predicción para una regresión simple es 2 − ( X X ) 1 0 Y0 = Yˆ0 ± t α / 2 σˆ 1 + + N x i2

∑

En algunos casos interesa predecir E ( Yˆ / X ) E (Y0 ) = X'0βˆ e 0 = E( Y0 ) − E (Yˆ0 ) = X '0β − X '0βˆ = X '0 (β − βˆ ) V( e 0 ) = V X '0 (β − βˆ ) = X'0 σ2 (X ' X ) − 1 X 0 = σ 2 X'0 (X ' X ) − 1 X 0

135

4. VAR IAB LES FICTICIAS O DUMMY O BINAR IAS O DICOTÓMICAS Variable dependiente = f (variables cualitativas como sexo, raza, religión, nacional o extranjero, etc) En estos casos se utiliza una variable explicativa dicotómica. solo puede adoptar dos valores. 1 o 0. Si la variable adopta más de dos valores, también puede convertirse fácilmente en dicotómica.

4.1 MODELOS ALTERNATIVOS. Ejemplo 1: Unica Variable Explicativa es una variable dummy.

0 si el alumno es hombre Si =  1 si el alumno es mujer Ni = β 1 + β 2 Si + µi

para i =1,2, ....n

donde Ni es nota en curso de Econometría y Si es una variable dummy (única variable explicativa) que representa el sexo del alumno. ¿Nota esperada para alumnas mujeres? E(Ni /mujer) = E(Ni / Si =1) = β 1 + β 2

(nota esperada para una mujer)

¿Nota esperada para alumnos hombres? E(Ni /hombre) = E(Ni / Si =0) = β 1

(nota esperada para un hombre)

¿Cómo se prueba que no hay diferencias de notas asociadas al sexo? H0: H1:

β 2 ≤0 β 2 > 0 (las mujeres muestran en mayor nota promedio)

Podemos estimar β 1 y β 2 y luego realizar una prueba de hipótesis sobre diferencia de resultados según sexo.

βˆ 2 − β2 ~ t n −2 DSˆ(βˆ )



Agosto 2004

136 Ni E Ni

β1 + β 2

con β2 > 0

β2 1

Observación

Ejemplo 2: Una variable cualitativa y otra cuantitativa Variable Dependiente = f(Intercepto, Variable Cualitativa, Variable Cuantitativa) La nota en econometría podría ser función del PPA.

Ni = β 1 + β 2 Si + β 3 PPAi + µi

para i =1,2, ....n

E(Ni /mujer) = E(Ni / Si =1) = β 1 + β 2 + β 3 PPAi

(nota esperada para una mujer)

E(Ni /hombre) = E(Ni / Si =0) = β 1 + β 3 PPAi

(nota esperada para un hombre)

β2 ≤ 0 β 2 > 0 (las mujeres muestran en mayor nota promedio)

H0: H1:

nota

β 1 + β 2 + β 3 PPA i

β2

1

+ β 3 PPA i

Supuestos: β2 > 0 β 3 igual para ambos sexos

PPAi



Agosto 2004

137

Ejemplo 3: Dos variables cualitativas Variable Dependiente = f(Intercepto, dos Variables Cualitativas) La nota en econometría podría ser función del sexo y de la nacionalidad (por ejemplo extranjero versus chileno).

Ni = β 1 + β 2 Si + β 3 Ei + µi

para i =1,2, ....n

0 si el alumno es chileno Ei =  1 si el alumno es extranjero

E(Ni /hombre, chileno) = E(Ni / Si =0, Ei =0) = β 1 chileno)

(nota esperada para un hombre

E(Ni /hombre, extranjero) = E(Ni / Si =0, Ei =1) = β 1+ β 3 extranjero)

(nota esperada para un hombre

E(Ni /mujer, chilena) = E(Ni / Si =1, Ei =0) = β 1 + β 2 chilena)

(nota esperada para una mujer

E(Ni /mujer,extranjera) = E(Ni / Si =1, Ei =1) = β 1 + β 2 + β 3 (nota esperada para una mujer extranjera)

Ejemplo 4: Interacción entre una variable cuantitativa y una cualitativa. Con la especificación planteada en el ejemplo 2, se esta suponiendo que el efecto “diferencial” asociado al sexo es constante, independiente del nivel de PPAi. Es posible que la PPAi dependa del sexo. Ni = β 1 + β 2 Si + β 3 PPAi + β 4 PPAi* Si + µi

para i =1,2, ....n

H0:

β 2 = β 4 = 0 (hombres y mujeres tienen nota similar)

H1:

Algún β i ≠ 0 (el sexo explica diferencias de notas)



Agosto 2004

138 Otra hipótesis a probar es si la influencia de la PPA en la nota en Econometría es la misma, independiente del sexo.

β 4 = 0 (hombres y mujeres tiene nota similar) β 4 ≠ 0 (el sexo genera efecto diferencial de la PAA)

H0: H1:

(β 1 + β 2 ) + (β 3 + β 4 )PPA i nota

1

β2

+ 3 PPA i

Supuestos: β2 > 0 β >0

β1 PPA

Ejemplo 5: Variables Cualitativas Politómicas

1 si el alumno es costarrice nce CR i =  0 en el resto 1 si el alumno es uruguayo Ui =  0 en el resto 1 si el alumno es de otras nacionalid ad R i =  0 en el resto



Agosto 2004

139 Nota

Uruguayo .Resto

Costa Rica

Uru

CR

Resto

N i = β1 + β 2 R i + β3 UR i + β 4 CR i + u i Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango completo por columnas. R i UR i CR i

1 1  • X=  • •  1

1 1 0 0 0 0

0 0 1 1 0 0

0 0  0  0 1  1 

R i + Ui + CR i = 1 (las tres variables dummy sumadas dan lugar a la columna 1) r (X) < k ⇒ X’ X no es invertible

Posibles soluciones i) Eliminar el intercepto N i = α 2 R i + α 3 U i + α 4 CR i + u i ii) Eliminar una de las variables dummy. N i = δ1 + δ 2 U i + δ 3 CR i + u i Economet ría E-250: Apuntes de Clase


Agosto 2004

140 ¿Cuáles son las notas esperadas? En la alternativa i):

E ( N i / R i = 1, U i = 0, CR i = 0, alumno del resto) = α 2 E ( N i / U i = 1, R i = 0, CR i = 0, alumno uruguayo) = α 3

E ( N i / CR i = 1, R i = 0, U i = 0, alumno costarrice nce) = α4

En la alternativa ii):

E ( N i / R i = 1, U i = 0, CR i = 0, alumno del resto) = δ1 E ( N i / Ui = 1, R i = 0, CR i = 0, alumno uruguayo) = δ1 + δ 2 E ( Ni / CR i = 1, R i = 0, Ui = 0, alumno costarrice nce) = δ1 + δ3

¿Qué diferencia tiene i) y ii)? De interpretación de los coeficientes. i)

α3

refleja la nota esperada para un alumno uruguayo.

ii)

δ2

refleja en cuánto difiere la nota de un uruguayo de la de un alumno “resto”.

¿Cómo realizar algunas pruebas de hipótesis? Con pruebas individuales o conjuntas.

4.2 VARIABLES DUMMY PARA DESESTACIONALIZAR En general, toda serie económica contiene cuatro componentes: Z = C + T + S +I donde : Z es la serie original C es el ciclo (podría aproximarse por funciones trigonométricas) T es la tendencia (en función del tiempo) S es la estacionalidad o el efecto en la variable originado por factores asociados al calendario (por ejemplo la actividad económica declina en febrero producto de las vacaciones) I es la parte irregular o ruido blanco que no responde a ningún patrón determínistico. Economet ría E-250: Apuntes de Clase


Agosto 2004

141 Identifiquemos en la serie “dinero real” estos componentes.

DINERO: DISTINTOS COMPONENTES 700000 650000 600000 550000 500000 450000 400000 350000 300000 250000 200000

I 6 8

I 7 8

I 8 8

I 9 8

I 0 9

I 1 9

M1A serie original

I 2 9

I 3 9

Ciclo

I 4 9

I 5 9

I 6 9

I 7 9

I 8 9

Tendencia

Sabemos que el comportamiento de largo plazo del dinero (componente tendencia-ciclo) depende de una variable de escala (ingreso) y del costo de mantenerlo (tasa de interés nominal). Pero además la trayectoria del dinero esta afectada por factores estacionales (por ejemplo aumenta fuertemente en septiembre por fiestas patrias o en diciembre, etc). (M/P)d = f(ingreso, tasa de interés, factores estacionales, componente irregular) Los efectos estacionales pueden aproximarse a través de variables dummy. ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi

1 si el trimestre es el primero D1 =  0 en el resto 1 si el trimestre es el segundo D2 =  0 en el resto 1 si el trimestre es el tercero D3 =  0 en el resto 1 si el trimestre es el cuarto D4 =  0 en el resto Economet ría E-250: Apuntes de Clase


Agosto 2004

142

Sin embargo, la regresión anterior no puede estimarse porque la matriz X no es de rango completo por columnas. D1 D2

1 1  1 1  1  1 X =  1  1 .  . .  1

ln ln ln ln ln ln ln ln

Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 . . . ln Y n

i1 i2 i3 i4 i5 i6 i7 i8 . . . in

1 0 0 0 1 0 0 0 . . . 0

0 1 0 0 0 1 0 0 . . . 0

D3 D4

0 0 1 0 0 0 1 0 . . . 0

0 0  0  1 0  0 0  1 .  . .  1 

D1 + D2 + D3 + D4 = 1 (las cuatro variables dummy son una combinación lineal que dan lugar a la columna 1) r (X) < k ⇒ X’ X no es invertible Posibles soluciones i) Eliminar el intercepto ln (M/P) = β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 4 E[ ln(M/P)/ D2i =1; D1i = 0; D3i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 5 E[ ln(M/P)/ D3i =1; D1i = 0; D2i = 0; D4i = 0] = β 2 lnYi + β 3 ii + β 6 E[ ln(M/P)/ D4i =1; D1i = 0; D2i = 0; D3i = 0] = β 2 lnYi + β 3 ii + β 7



Agosto 2004

143 ii) Eliminar una de las variables dummy ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + µi En este caso si existe estacionalidad en el cuarto trimestre, el efecto será captado por el intercepto. E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii + β 4 E[ ln(M/P)/ D2i =1; D1i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii + β 5 E[ ln(M/P)/ D3i =1; D1i = 0; D2i = 0] = β 1 + β 2 lnYi + β 3 ii + β 6 E[ ln(M/P)/ D1i =1; D2i = 0; D3i = 0] = β 1 + β 2 lnYi + β 3 ii iii) Suponer que la suma de los efectos estacionales es cero.

β4 + β5 + β6 + β7 = 0 ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + (-β 4 - β 5 - β 6 ) D4i + µi ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 (D1i - D4i) + β 5 (D2i - D4i) + β 6 (D3i - D4i) + µi iv) Desestacionalizar las series utilizadas. Por ejemplo en E-Views el comando SEAS elimina los efectos estacionales. SEAS Y YSA donde YSA es la series desestacionalizada. Luego se corre la regresión con las series desestacionalizadas. Por ejemplo: ln (M/PSAi) = β 1 + β 2 lnYSAi + β 3 iSAi + µi

4.3 VARIABLES DUMMY PARA DETECTAR CAMBIO ESTRUCTURAL Recordar test de cambio estructural CPi = β 1 + β 2 Yi + µi


Chile 1960 - 1997


Agosto 2004

144

H 0 : β I = β II H 1 : β I ≠ β II Supongamos que intuimos que hubo cambio estructural en 1974 producto del proceso de apertura comercial iniciado por el país. 1960-74 → β1I , β I2 II β , β II2 1 1975-97 →

Podríamos definir: 0 si economía es cerrada (60 − 74)  Di =  1 si economía es abierta (75 − 97 )  Planteamos un modelo más general: C i = β1 + β2 Di + β3Y i + β 4Di Y i +

i

E(C i / Di = 0, Yi ) = β1 + β3Yi E(C i / Di = 1, Yi ) = (β1 + β2 ) + (β3 + β4 ) Yi

β 2 es el intercepto diferencial β 4 es la pendiente diferencial H0 : β 2 = β 4 = 0 H1 : Algún β ι ≠ 0 Efectuar la prueba de la hipótesis anterior es absolutamente equivalente al test de cambio estructural presentado anteriormente. Sin embargo, utilizar variables dummy para verificar cambio estructural tiene una ventaja importante: indica en forma precisa cuál parámetro es diferente. En el ejemplo anterior podríamos identificar si cambió el intercepto o la pendiente o ambos. El procedimiento basado en los residuos o en el test Cβ sólo reportaba si había estructural, sin especificar en qué parámetro(s) se produjo. También es posible efectuar pruebas individuales e identificar en que parámetro se produjo el cambio estructural. H0 : β 2 = 0 H1 : β 2 ≠ 0 H0 : β 4 = 0 Economet ría E-250: Apuntes de Clase


Agosto 2004

145 H1 : β 4 ≠ 0

4.4 VARIABLES DUMMY PARA CORREGIR OUTLIERS. Un outlier es un error anormal. Su valor absoluto es largamente superior al desvío estándar de la regresión. Los parámetros estimados pueden estar fuertemente distorsionados considerando la presencia del outlier. ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + β 8 D5i + β 9 D6i + β 9 D7i + β 10 D8i + β 11 D9i + β 12 D10i + β 13 D11i + µi Aquí utilizamos 11 dummies para captar estacionalidad por tratarse de datos mensuales. ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO 13.5

13.0

0.20 0.15

12.5

0.10 0.05

12.0

0.00 -0.05 87

88

89

90

Residual

91

92

93

94

Actual

95

96

97

98

Fitted

Se percibe que en marzo de 1992 tenemos un residuo anormal: casi 0.15 en circunstancias que el desvío estándar de la regresión es de 0.023. Existe justificación para controlar ese residuo anormal a través de la inclusión de una dummy.

1 si i = marzo de 1992  D923 =  0 en el resto.  ln (M/P) = β 1 + β 2 lnYi + β 3 ii + β 4 D1i + β 5 D2i + β 6 D3i + β 7 D4i + β 8 D5i + β 9 D6i + β 9 D7i + β 10 D8i + β 11 D9i + β 12 D10i + β 13 D11i + β 14 D923 + µi Economet ría E-250: Apuntes de Clase


Agosto 2004

146

ECUACIÓN ESTIMADA PARA LA DEMANDA POR DINERO (Incluyendo la Variable Dummy D923) 13.5

13.0 0.06 12.5

0.04 0.02

12.0 0.00 -0.02 -0.04 87

88

89

90

Residual

91

92

93

94

95

Actual

96

97

98

Fitted

A primera vista, parecería que el numero de outliers hubiera aumentado. Sin embargo, debe considerarse que la banda se estrechó producto de la disminución del desvío estándar de la regresión (desde 0.023 a 0.017).



Agosto 2004

147

5. MULTICOLINEALIDAD 5.1 INTUICIÓN El estimador MICO de un parámetro específico del vector β , no involucra solamente las observaciones de la variable correspondientes a ese β , sino también el resto de las variables independientes. Esto es porque, para obtener estimaciones precisas de la influencia de una variable sobre otra, se debe tomar en cuenta la influencia simultánea de las otras variables explicativas. Hacer esto asegura que el elemento β j refleja la influencia de la variable independiente j, cuando el efecto de las otras variables se mantiene constante. •

Si el modelo a estimar es Yi = β 1 + β 2 Xi + ui

Y Y X

X

= variación de Y = variación de X = variación común de Y y X.

es la información utilizada para estimar la pendiente β 2 (cuanto mayor ésta área, mayor información es usada y menor su varianza). • Si el modelo incorpora una variable adicional, generalmente habrá una zona en que estas dos variables tienen variabilidad común, lo que denominaremos multicolinealidad o colinealidad (

+

).

Y X Z Yi = β 1 + β 2 Xi + β 3 Zi + ui



Agosto 2004

148 En la la regresi regresión ón múlti múltiple ple de de Y respec respecto to a X y Z, el el estima estimador dor MICO MICO util utiliza iza el el área área ( para para estim estimar ar β 2 y el el ár área (

)

) pa para es estimar β 3.

Esto implica implica que el área común ahora es desechada, desecha da, esto es porque no es posible saber a-priori a qué variable (X o Z) atribuirlo. • Si las variables X y Z son ortogonales [covarianza (X, Z) = 0] no hay áreas comunes y los estimadores MICO utilizan sólo los datos de la variable X para estimar β 2 y sólo Z para X3. •

Si las variab variables les X y Z son muy coline colineale ales, s, el área

es muy grande grande y las áreas áreas (

)

y ( ) son son pequ pequeñ eñas as,, lo lo que que impl implic icaa que que para para est estim imar ar β 2 y β 3 se utiliza muy poca información. Esto provoca que las varianzas estimadas de estos coeficientes son muy elevadas. •

Si hay colinealidad colinealidad perfecta entre X y Z, el área común abarca todo el círculo (no

hay hay área área (

) y (

)est )estoo impl implic icaa que que no es posi posibl blee hace hacerr esti estima maci cion ones es..

Veamos estos resultados con mayor rigurosidad

5.2 TIPOS DE MULTICOLIN MULTIC OLINEALI EALIDAD DAD Multicolineali Multicolinealidad: dad:

es el fenómeno que se produce cuando las variables explicativas tienen alta correlación.

Distinguiremos entre dos casos: 1.

Multicolinealidad perfecta: la relación relación entre las variables X y Z es perfecta (Ej X = X Z ). ). 2. Multicolinealidad imperfecta: la correlación entre las variables X y Z es alta, pero no perfecta.

Multicolinealidad Multicolinealidad perfecta Es el fenómeno presente cuando tenemos λ 1X 1 + λ 2X 2 + …… + λ k X k = 0 con algún λ i ≠ 0 ⇒ relación perfecta entre variables Xi. Ej. :Supongamos el siguiente modelo expresado en desvíos: y = x 2β 2 + β 3 x 3 + µ − µ Economet Econ omet ría E-250: Apuntes de Clase

donde se tiene que Profesores Verónica Gil y Aldo Lema

x3 = λ x2 Agosto Agos to 2004

149

x x' x =  12  x 13

x 22 x 23

•

 x 12 x 22 x n 2  • x n 3   •  x n 2

•

x 13  x 23  

∑x 

2 i2

=     ∑ x i 2 x i3 x n3 

∑x

i2

x i3 

  2  ∑ x i3 

Como x3 = λ x2

∑ x i22  x' x =  ∑ x λx  i2 i 2

∑x

λx i 2   2  = ∑ x i2 ∑ (x i 2 λ) 2  i2

1 λ      λ λ2 

Luego, el determinante de x’ x es igual a cero (o el rango de x es uno) ⇒ No se puede obtener una solución única para βˆ Más aún, de las ecuaciones normales sabemos: ( x ' x ) βˆ = x ' y donde :

∑ x i 2 y    x' y =   = ∑ x i2  x y ∑ i 3 

1  y   λ 

1 λ  βˆ 2   ∑ x i22 (βˆ 2 + λβˆ 3 )     x2   =  ( x ' x ) βˆ =    ∑ i2    βˆ 3   λ∑ x i22 (βˆ 2 + λβˆ 3 ) λ λ2    Por lo que:

∑x

2 i2

λ ∑ x i22

(βˆ 2 + λβˆ 3 ) =

∑x

i2

y 

 las dos ecuaciones son son una y no noss perm permit iten en estimar :  las (βˆ 2 + λβˆ 3 ) = λ∑ x i 2 y

βˆ 2 + λβˆ 3 =

∑x ∑x

y

i2 2 i2

es estimable la combinación, pero no βˆ 2 y βˆ 3 .

La presencia de multicolinealidad perfecta hace imposible el cálculo de βˆ 2 y βˆ 3 en forma independiente. Solo es posible estimar una combinación lineal de esos estimadores.



Agosto Agos to 2004

150 Otra forma de verlo: y = β 2 x 2 + β 3 x 3 + (µ − µ ) x 3 = λx 2 y = β 2 x 2 + β 3 λx 2 + (µ − µ ) y = (β 2 + λβ 3 ) x 2 + (µ − µ )

∑ x i2 y Si definimos β = β 2 + λβ 3 , el único parámetro que podremos estimar será βˆ = ∑ x i22 Multicolinealidad imperfecta Hay fuerte asociación entre variables explicativas en la regresión simple: el coeficiente de correlación simple r x1 x2 es alto múltiple: el coeficiente de determinación determinación R 2 de una regresión ⇒ en la regresión múltiple: x ,x j resto en que una de las variables explicativas x j es explicada por el resto de las variables x j = f ( x 1 , x 2 _____ x k ) explicativas es alto ↓ sin x j Ejemplo: Supongamos el mismo modelo anterior expresado en desvíos y = x 2β 2 + β 3 x 3 + µ − µ donde ahora se tiene que x i3 = λˆ x 2i + v i . Es decir que hay una relación entre xi3 y xi2, pero esta no es perfecta. vi es un término estocástico.

∑ x i22  x' x =  ∑ x x  i 2 i3

∑x

i2

∑x

2 i3

x i3 


   

 ∑ x i22  =  ∑ x (λˆ x + v ) i2 i2 i 

∑x

i2

(λˆ x i2 + v i ) 

∑ (x

i2

λˆ + v i ) 2


   

Agosto Agos to 2004

151

 x 2i2 ∑ x' x =  2 λˆ ∑ x i + ∑ x i 2 v i y dado que

∑x

λˆ ∑ x 2i + ∑ x i 2 v i  λˆ 2 ∑ x 2i2 + ∑ v 2i 

v =0

i2 i

 ∑ x i22 x' x =  2 λˆ ∑ x i2 det x' x = [λˆ 2

∑x

 λˆ ∑ x i22  λˆ 2 ∑ x 2i2 + ∑ v 2i  2 i2

+ ∑ v 2i − λˆ 2 ∑ x 2i2 ] ∑ x 2i2 = ∑ x 2i 2 ∑ v 2i

∑ x i22  ⇒ Supongamos que x2x3 son ortogonales ⇒ x' x =  0  2 2 luego, det x' x = ∑ x i2 ∑ x i3 ⇒ Sabemos que ∑ v 2i <

∑x

2 i3

0 

  2  ∑ x i3 

( porque v i2 es la SCR de la regresión x 3 = λˆ x 2 + v i ) y

siempre SCT> SCR

⇒ Entonces, concluimos que

∑x ∑v <∑x ∑x 2 i2

2 1

2 i2

2 i3

y por tanto el determinante

cuando existe colinealidad es menor que el determinante bajo Ortogonalidad. A mayor colinealidad ⇒ más pequeños el determinante ( cuanto más grande sea R 2, más pequeño será v 2i respecto a x 2i3

∑

∑

¿Por qué importa el determinante? Porque,

∑ x 2i3 − ∑ x i2 x i 3    1 (x ' x )− 1 =   det( x ' x )    − ∑ x i 2 x i 3 ∑ x i2  y este resultado se utiliza no solo para calcular βˆ , sino también para var-cov (βˆ ).



Agosto 2004

152

5.3 EFECTO DE LA MULT M ULTICOLIN ICOLINEALIDAD EALIDAD A NIVEL NIVEL EMPÍRICO En el modelo con dos variables explicativas. El principal principal efecto de la empírico de la multicolinealidad se deriva del resultado anterior:

∑ ∑ x x  ∑ ∑ x  σ ∑x = = ∑ x ∑ x − (∑ x x ) ∑ x

 x 23 − 1 ( x ' x ) −1 =  D − x x 2 3  2

Var βˆ 2

2 3

Var βˆ 2 =

D=

2 2

2 3

2 2

i3

σ2 (n cov ( x 2 x 3 ) )2 n var var x 2 − n var var x 3

σ2

=

∑ x ∑x 2 i3

2 i2

− (∑ x 2 x 3 )2

σ2

2

i2

y recordando r x 2, x3 =

Var Va r βˆ 2 =

2 3

2 2

−

(

∑x x ∑x i2

i3

)2

2 i3

σ2  n 2 cov( x 2 x 3 ) 2 var var x 2   n var var x 2 −   n var va r x var va r x   3 2

cov( x 2, x 3)

σ x2σx3

n var var x 2 − (n var var x 2 r x22 , x3

σ2 = ) ∑ x i22 (1 − r x2 , x ) 2

es decir que la varianza que

3

βˆ 2 queda dependiendo del grado de correlación entre las variables explicativas (r x

2 ,x 3

).

Ceteris paribus, a mayor correlación, mayor varianza del parámetro (intuitivamente este era un resultado conocido)

En el Modelo General V(βˆ j ) =

σ2 n var var ( X j )(1 − R j2 )

Tarea: demostrarlo

R j2 = coeficiente de determinación de una regresión entre las variables j y el resto de las variables explicativas. Cuando R j2 aumenta, la la varianza aumenta. Si R j2 → 1 ⇒ V(βˆ j ) ⇒ ∞ Importante: Esta colinealidad puede compensarse por alta varianza Xi o por elevado n. Si Xi es de baja varianza, el efecto sobre la varianza será igual al que produce la colinealidad.



Agosto Agos to 2004

153 Un modelo con alta correlación ( R 2 alto), pero σ2 bajo, puede tener estimaciones confiables para V( βˆ j ) .

Efectos prácticos de la multicolinealidad: multicolinealidad: 1.

Crecimiento varianzas y covarianzas.

2.

Intervalos de confianza se amplían.

3.

Test t se reducen

↑ var var (βˆ j ) ⇒ ↑ V(βˆ j ) ⇒

βˆ j ↓ ⇒ test t bajos bajos . V(β j )

Que los resultados de los test sean mas bajos no necesariamente quiere decir que hay que excluir una variable explicativa. Este resultado puede ser efecto de la multicolinealidad. 4.

El R 2 del modelo es alto y los los test t de los los coeficien coeficientes tes son bajos.

5.

Errores numéricos por redondeos de dígitos.

5.4 FORMAS DE DETECTAR LA MULTICOLINEALIDAD Por sus efectos sobre los test.

⇒ R 2 altos y test más bajos. Esto no significa que la multicolinealidad aumente el R 2. Cuidado: 1. A mayor multicolinealidad no implica mayor R 2. 2. Alta multicolinealidad no siempre siempre implica implica test t más bajos, bajos, puede compensarse por otros efectos. 3. No es una condición condición necesaria, ni suficiente suficiente para que que exista exista multicolinealidad.

⇒ Test sobre R j2 Donde R j2 , es el R 2 de la siguiente regresión X j = δ 1 + δ 2 X 2 + ... + δ j −1 X j −1 + δ j+1 X j +1 + ... + µ i

Se calcula : Economet Econ omet ría E-250: Apuntes de Clase


Agosto Agos to 2004

154 R j2 / k − 2 F j : ≈ Fk − 2, n− ( k −1) (1 − R j2 ) / n − ( k − 1) H 0 : δ 2 , δ 3 , …… , δ k −1 = 0 H i : a lg una una diferente a cero Si F>F tabla, se rechaza H0 ⇒ hay multicolinealidad.

⇒ Factor de Inflación de Varianza VIF (βˆ i ) =

1 1 − R i2

donde R i2 es el coeficiente de correlación múltiple entre xi y las demás variables explicativas. VIF sería la razón entre la varianza real de βˆ i con la que tendría βˆ i sin correlación. Esta comparación lo único que da es la relación entre la realidad y lo ideal, pero no más que esto. Tampoco ayuda a solucionar el problema.

Conclusión: No hay un test test único único que me permit permitaa detect detectarl arlo, o, además en caso caso de hacerl hacerlo, o, solo solo son medidas de lo mal que están las cosas respecto a la situación ideal.

5.5 FORMAS DE SOLUCIONAR LA MULTICOLINEALIDAD No hacer nada Dado que la multicolinealidad (imperfecta) no afecta las propiedades de la estimación, los estimadores siguen siendo MELI, aunque la varianza sea grande (aunque mínima), una solución es no hacer nada. Es asumir que la realidad es así, que la muestra utilizada, tiene estos problemas. Asumir que multicolinealidad es un problema muestral. Hay dos reglas prácticas en este sentido: 1. No preocuparse preocupars e por la multicolinealidad si el R 2 de la regresión total es mayor que el R 2 de las regresiones de las variables explicativas entre sí. 2. No preocuparse si los test t son mayores que 2. Incorporar información adicional a)

Aumentar el tamaño muestral (n).

Esto va en dos sentidos ya que aumenta n y puede aumentar var xi. Economet Econ omet ría E-250: Apuntes de Clase


Agosto Agos to 2004

155

V(β j ) = b)

σ2 n var( x j )(1 − R j2 )

Aumentar n intentando maximizar la Ortogonalidad en los datos.

No es fácil de realizar en ciencias sociales, c)

Utilizar datos en primeras diferencias:

Y i = β 1 + β 2 X 2i + β 3 X i3 + µ i Yi−1 = β1 + β 2 X 2i −1 + β 3 X i−1−3 + µ i−1 _____________________________________ Yi − Yi −1 = β2 ( X 2i − X2i −1) + β3 ( Xi3 − X i−13 ) + µ i − µi −1

∆Yi = β2 ∆X 2i + β3 ∆X 3i + v i Ahora explicamos las variables en cambios y no en niveles ⇒correlación disminuye en cambios. Para que esto sea aplicable vi debe cumplir supuestos clásicos. d)

Utilizar información a priori suministrada por la teoría.

Ej.:Y i = β 1 + β 2 X i 2 + β 3 X i3 + µ i donde Xi2 y Xi3 son correlacionadas pero la teoría dice que β 2 + β 3 = 1

⇒ Yi = β1 + (1 − β 3 ) X 2i + β 3 X 3i + µ i Y i = β 1 + X 2i − β 3 X 2 i + β 3 X 3 i + µ i Yi − X 2i = β 1 + β 3 (X 3i − X 2i ) + µ i Z i = β1 + β 3 Wi + µ i Problema: Si la restricción es falsa, se genera sesgo. Empíricamente: se hace un test F para saber si se acepta la restricción. e)

Combinación de series de tiempo y series de corte transversal.

Esto es, ocupar información para algún parámetro en un momento de tiempo e Economet ría E-250: Apuntes de Clase


Agosto 2004

156 imponerla como válida en toda la muestra. Ej.:ln Yt = β1 + β 2 ln Pt + β 3 ln I t + µ t , pero entre P e I hay multicolinealidad . Pero, de otro estudio sabemos que para un momento de tiempo β 3 = 1,02. ln Y t = β1 + β 2 ln Pt + 1,02 ln I t + µ t ln Y t − 1,02 ln I t = β 1 + β 2 ln Pt + µ t Si la restricción es válida, soluciono el problema de multicolinealidad. f)

Eliminación de una variable.

Supongo que un β i es cero. Esto tiene problemas si la variable no tiene coeficiente cero en el modelo teórico (verdadero). Modelo verdadero:

Y i = β 1 + β 2 X 2 i + β 3 X 3i + µ i

Pero ajusta:

Yi = b 1 + b 2 X 2i + u i

bˆ 2 =

∑x y ∑x i

i

2 i

y i = β 2 x 2i + β 3 x 3i + µ i − µ

∑ x (β x + β x + u − u ) = ∑x x β + β ∑ x x + ∑ x (u =∑ ∑x x x x ( u − u) =β +β ∑ +∑ ∑x ∑x

bˆ 2 =

i2

2 2i

2 2i

2

3 3i 2 2i

3

i2

i2

2

3

E( bˆ 2 ) = β 2 +

i

i3 2 2i

i3

i2

i2

2 i2

i

− u)

i 2 i2

β3 ∑ x i2 xi3 ∑ x2i2

⇒ salvo en el caso de Ortogonalidad, el estimador de bˆ 2 es sesgado al excluir una variable que debe ir en el modelo. g) Método de componentes principales

No lo veremos, pero es un método más completo de solución del problema



Agosto 2004

157

6. HETER OCEDASTICIDAD Uno de los supuestos clásicos que hemos mantenido hasta ahora es:

E (µ 2i ) = σ 2 o en términos matriciales

E (µµ' ) = σ 2 I Es decir que la varianza del término de error es constante ∀ i . Esto se refleja en una varianza constante para la regresión ⇒ V (Yi ) = σ 2 . Este supuesto es irreal en algunos casos: §

En estudios de corte transversal es más fácil imaginar ejemplos donde la varianza del término de error aumenta (o disminuye) con una variable explicativa. Ello debido a la convivencia de unidades heterogéneas. Esta heterogeneidad generalmente está asociada al comportamiento de una o mas variables explicativas. Ejemplo: explicamos el consumo en función del ingreso. Pero a medida que el ingreso aumenta, aumentan los posibles usos de éste por lo que si nuestra regresión es del tipo C i = β1 + β 2 Yi + µ i , la varianza del error no será constante sino que será creciente con el nivel de ingreso. Ci

• •

recta de regresión estimada

• • • •

•

•

•

•

•

Yi §

Ejemplos de aprendizaje-error; en la medida que se produce aprendizaje los errores de comportamiento se reducen (σi disminuye).



Agosto 2004

158 errores al tirar penales

•

•

•

•

•

• •

• •

• •

tiempo de aprendizaje §

6.1

Otro ejemplo es el de mejoras en el procesamiento de datos. En series de tiempo que son recolectadas por una entidad, σ 2i tiende a disminuir por aprendizajes en la recolección de la serie.

¿CÓMO SE AFECTAN LAS PROPIEDADES DEL ESTIMADOR MICO CUANDO EXISTE HETEROCEDASTICIDAD?

Supongamos que exista una relación positiva entre el valor absoluto de los residuos y una variable explicativa. En este caso, ampliar la muestra al final, afectará la recta de regresión fuertemente hacia la derecha (si la observación agregada es positiva) o hacia la izquierda (si la observación agregada es negativa). Yi • • • • • •

•

•

•

•

•

Xi

En muestas repetidas, estos casos se compensarán, y el estimador MICO seguirá siendo insesgado, pero la varianza de los estimadores será mayor. Economet ría E-250: Apuntes de Clase


Agosto 2004

159 Veamos esto en el caso simple:

Yi = β 1 + β 2 X i + µ i Pero con E (µ 2i ) = σ 2i

∑ x y = ∑ k y = ∑ k Y = ∑ k (β ∑x = β ∑ k + β ∑ k X + ∑ k µ i

βˆ 2 =

βˆ 2

i

i

2 i

1

i

i

2

i

i

i

i

i

i

1

+ β2 Xi + µ i ) =

i

y dadas las propiedades de k i

βˆ 2 = β 2 + ∑ k i µ i •

E (βˆ 2 ) = β 2 → sigue siendo insesgado

•

V(βˆ 2 ) = E (βˆ 2 − β 2 ) 2 = E(

∑ k µ )

= E(k 12 µ 12 + … + k 2n µ 2n + k 1 k 2 µ 1µ 2 …) = E( k 12 µ 12 ) + E( k 22 µ 22 ) + …… + E (k 2n µ 2n ) + 0 + ....0 = i

2

i

= k 12 E ( µ 12 ) + k 22 E(µ 22 ) + …… + k 2n E(µ 2n ) = ∑ k i2 σ 2i 123 123 123 σ 21

σ 22

σ 2n

2

 x i  2 ∑ x i2σ2i =∑ σi = 2 x ( ∑ x 2i ) 2  ∑ i  2 σ ˆ Antes teníamos que V(β 2 ) = , por lo que las varianzas de los estimadores x i2 cambian relajar el supuesto de homocedasticidad.

∑

Veamos que ocurre en el modelo general: Matricialmente:

 σ12   ω1          2 2 σ ω 2 0 2 0 2 2  = σ   = σ Ω E (µ i ) = E(µµ' ) =  • •     • •     2   0 0 σ ω n  n    β = ( X' X) −1 X' Y = ( X' X) −1 X' ( Xβ + µ ) = (X' X) −1 X' Xβ + ( X' X) −1 X' µ βˆ = β + ( X' X) − 1 X' µ

•

E(βˆ ) = β



Agosto 2004

160 V(βˆ ) = E[(βˆ − β)(βˆ − β)'] = E(( X' X) −1 X ' µµ' X (X ' X) −1 ) = = ( X' X) −1 X' E( µµ' ) X( X' X) −1 = ( X' X) −1 X' σ 2 Ω X(X' X) −1 = σ 2 ( X' X) −1 X' ΩX(X' X) −1 Por lo que:

• •

El estimador sigue siendo insesgado. Las varianzas deben ser corregidas para incorporar heterocedasticidad.

¿Qué ocurre si se estima por MICO sin tener en cuenta la heterocedasticidad?

 σ 2  −1  2  La varianza estimada con la fórmulas anterior  ∑ x i2 o σ ( X' X)  es un  

estimador sesgado de la varianza corregida. Será sobreestimada o subestimada, dependiendo de la naturaleza de la relación de σ 2i y Xi.

 ∑ e 2i   El sesgo surge de que el estimador de σ , σˆ =   n − 2  , deja de ser insesgado bajo   2

2

heterocedasticidad.

Esto implica que usar los procedimientos habituales de MICO puede provocar serios errores. Por eso se utiliza un método alternativo: Método de Mínimos Cuadrados Generalizados Se recomienda ver ejercicio 6.18 de la Guía.

6.2. MÉTODO DE MÍNIMOS CUADRADOS GENERALIZADOS Idea: Utilizar una técnica que presta menos atención a los residuos asociados con observaciones con alta varianza. Esto se hace asignando menos "peso" a esas observaciones, dado que éstas dan una indicación menos precisa del lugar donde pasa la verdadera recta de regresión.



Agosto 2004

161 Yi • • • • • •

•

•

•

•

•

Xi

Partamos del modelo simple: (1) Yi = β 1 + β 2 X i + µ i Otra forma de expresarlo es (2) Yi = β 1 X 0i + β 2 X i + µ i , donde X0i =1 para todo i.

Supongamos que se conoce σ 2i y se divide (2) por σi :

 X   X i  µ i   = β1  0i  + β 2   + σ σi σ σ  i   i  i ( 4) Y i* = β *1 X *01 + β *2 X *i + µ *i (3)

Yi

Calculemos ahora la varianza del término de error de la regresión en que los datos fueron transformados: 2

 µ i  1 σ 2i 2   Var (µ ) = E(µ ) = E  = 2 E(µ i ) = 2 = 1 σi  σ i  σ i * i

§

§

* 2 i

Este método implica que ahora el error es homocedástico, la varianza es 1. En este caso se cumplen todos los supuestos clásicos ⇒ es MELI. Aplicar MICO a variables transformadas es lo mismo que aplicar MCG.



Agosto 2004

162

Derivación de MCG en el caso simple Yi

σi

= βˆ 1*

X 01

σi

+ βˆ *2

Xi

σi

+

ei

σi

Yi = βˆ 1* X *01 + βˆ * 2 X*02 + e *i 1

Sea w i =

σ 2i 2

 e i  e 2i min ∑ e = min ∑   = min ∑ 2 = min ∑ ( w i e 2i )  σi  σ i  *2 i

= min

∑w

i

(Yi − βˆ 1* − βˆ *2 X i ) 2

∂∑ w i e i2 = 2 ∑ w i ( Yi − βˆ *1 − βˆ *2 X i )(−1) = 0 * ∂βˆ 1 ∂∑ w i e i2 = 2 ∑ w i ( Yi − βˆ *1 − βˆ *2 X i )(−1) = 0 * ∂βˆ 2

βˆ *i = Y * − β*2 X * βˆ *2 =

(

∑ w )(∑ w Y X ) − (∑ w X )(∑ w Y ) ( ∑ w )(∑ w X ) − (∑ w X ) i

i

i

i

i

i

2 1

i

i

i

i

2

i

i

Derivación de MCG en el caso múltiple. Y = Xβ + µ donde hay heterocedasticidad, E (µµ' ) = σ 2 Ω

Quisiéramos transformar el modelo y queremos que al transformar las variables se cumpla que el error sea homocedástico. Supongamos que existe una matriz T, que transforma los datos: TY = TXβ + Tµ = TX β + v

Requerimos que E(vv') = σ2 I, donde v = Tu Como Var v = E ( vv' ) = E (Tµµ' T ' ) = TE(µµ' ) T' = Tσ 2 Ω T ' = σ 2 T Ω T ' y se requiere T Ω T' = I , Luego,

Ω = T −1 ( T' ) −1



Agosto 2004

163

Ω −1 = T' T (*) Es decir que T, debe ser una matriz que satisfaga (*) Para obtener los estimadores MCG, aplicamos MICO al modelo transformado; TY = TX β + v

βˆ MCG = ((TX)' TX) −1 ( TX)' TY = (X' T' TX) −1 X' T ' TY = (X' Ω −1X) − 1 X' Ω −1 Y = ( X' Ω −1X) −1 X' Ω −1 (Xβ + µ) = (X' Ω −1X) −1 X' Ω −1 Xβ + ( X' Ω −1X) −1 X' Ω −1µ = = β + (X' Ω −1 X) −1 X' Ω −1 µ E (βˆ MCG ) = β −1 −1 V(βˆ MGB ) = E([(βˆ − β)(βˆ − β)'] = E (X' Ω −1X ) X' Ω −1µµ' Ω −1 X(X' Ω −1 X) =

= [(X' Ω −1 X) X' Ω −1E (µµ' )Ω −1X(X' Ω −1 X) ] = [(X' Ω −1 X) X' Ω −1σ 2 ΩΩ −1X(X' Ω −1 X) ] = −1 −1 −1 = σ 2 [(X' Ω −1X ) X' Ω −1 ΩΩ −1X(X' Ω −1 X) ] = σ 2 (X' Ω −1 X) +1

−1

−1

−1

Se puede demostrar que esta varianza cumple el teorema de Gauss Markov. El estimador de σ2 es: v' v vˆ = TY − TX βˆ MCG σˆ 2 = ˆ ˆ n − k (TY − TXβˆ MCG )' ( TY − TXβˆ MCG ) ( Y − Xβˆ MCG )' T' T (Y − Xβˆ MCG ) σˆ 2 = = n − k n − k

( Y − Xβˆ MCG )' Ω −1 ( Y − Xβˆ MCG ) = n − k Este método se conoce generalmente como mínimos cuadrados ponderados. Cuando existe heterocedasticidad, el método que verifica TM Gaus Markov es MCG y no MICO. var ( MCG ) < var ( MICO) C. H.

6.3. ¿CÓMO DETECTAR LA HETEROCEDASTICIDAD? La mayoría de los métodos para detectar la heterocedasticidad se basan en el análisis de los residuos. Esto se hace esperando que los ei sean buenos estimadores de µi, lo que se puede Economet ría E-250: Apuntes de Clase


Agosto 2004

164 cumplir si la muestra es relativamente grande.

•

Naturaleza del problema: hay casos en que desde el comienzo de la investigación conocemos que hay problemas.

•

Método gráfico: intentar detectar la presencia de un patrón sistemático en los residuos.

•

Prueba de Park Supone que σ 2i es función de una variable Xi

σ i2 = σ 2 X i β e v

i

Ln σ i2 = ln σ 2 + β ln X i + v i Dado que σ 2i es desconocida, se propone usar e 2i

ln e i2 = ln σ 2 + β ln X i + v i ln e i2 = α + β ln X i + v i

(i)

La idea es hacer un test: Si β

⇒ es significativo ⇒ heterocedasticidad ⇒ no significativo ⇒ homocedasticidad

Para hacerlo hay 2 etapas: 1) Aplicamos MICO a la regresión original (que queremos testear), calculamos ei 2) Corremos regresión (i) y hacemos test de hipótesis. Problemas: vi no satisface las propiedades para aplicar MICO

•

Prueba de Glesjer Es similar al método anterior pero se realiza testeando con diferentes formas funcionales:



Agosto 2004

165 ei = β 1 + β 2 X i + vi ei = β 1 + β2 X i + vi 1 ei = β1 + β2 + vi Xi 1 ei = β1 + β2 + vi Xi e i = β1 + β 2 X i + v i

Problema: El residuo tiene como propiedades: E(vi) ≠ 0, correlacionado y heterocedástico. Pero para nuestras grandes pueden ocuparse las 4 primeras formas. Ventaja: trata de estimar la verdadera forma de la heterocedasticidad. §

•

Goldfeld - Quant Yi = β 1 + β 2 X i + µ i

σ i2 = σ 2 X 2i Pasos : 1.

Ordenar las observaciones de acuerdo a Xi

2.

3.

Omitir observaciones centrales (c). Nos quedan 2 grupos de n −c observaciones cada uno. 2 Aplicar MICO a las dos submuestras y obtener SCR I y SCR II

4.

Calcular

λ=

SCR ii / g de l SCR i / g de l

si µ i ~ N y hom ocedástico λ ~ F n −c −2 k n −c− 2 k 2

,

2

Si λ > F → rec Homocedast icidad

Idea: Si existe heterocedasticidad del tipo supuesto, con la ordenación la varianza del término de error será mayor hacia el final de la muestra ⇒SCR II > SCR I ⇒ Si Economet ría E-250: Apuntes de Clase


Agosto 2004

166

λ> F ⇒ rechaza homocedasticidad.

•

Test de White. Es válida para n grande. Pasos: (1)

Aplicamos MICO a la regresión original ⇒ calculo ei.

(2)

Se hace la regresión de e 2i = f (Constante , X 2 , X 2 X 3 , X 22 , X 23 ) , es decir, e 2i = α 1 + α 2 X 2 + α 3 X 3 + α 4 X 2 X 3 + α 5 X 22 + α 6 X 23 + µ i

(3) Bajo la hipótesis nula de ausencia de heterocedasticidad (α 2=α 3=α 4=α 5 =α 6=0) asintóticamente el estadístico nR 2 ~ χ p2 − 1 donde p son la cantidad de parámetros del modelo (2) Idea: Mientras n crece, R 2 tenderá a cero bajo la hipótesis nula de homocedasticidad. El R 2 no tiende a cero, si la varianza del ei depende de las variables explicativas del modelo ⇒ en ese caso nR 2 > χ 2.

6.4

¿CÓMO SOLUCIONAR HETEROCEDATICIDAD?

Bajo heterocedasticidad MICO ya no es eficiente §

Se conoce σ 2i si se conoce σ 2i ⇒ estimo por MCG ⇒ transformo los datos de forma que el residuo sea homocedástico.

§

1)

Se desconoce σ 2i . Lo primero es estimar σ 2i , según la forma de la heterocedasticidad, será la forma de transformar los datos.

Supongo E (µ 2i ) = σ 2 X 2i La forma es dividir datos por Xi



Agosto 2004

167 Yi = β 1 + β 2 X i + µ i Yi β1 µ = +β2 + i Xi Xi Xi Yi 1 = β1 + β 2 + vi Xi Xi

 µ i    = 0 X  i 

E ( v i ) = E

2

2  µ i  1 2 2 2 Xi E ( v i ) = E  = 2 E(µ i ) = σ 2 = σ 2  Xi  X i  X i

2)

Supongo E (µ 2i ) = σ 2 X i Mejor transformación

β β µ Yi = 1 + 2 Xi + i Xi Xi Xi Xi Yi µ 1 1 = β1 + β 2 X i + i = β1 + β 2 Xi + v i Xi Xi Xi Xi

 µ i    X i  = 0  

E ( v i ) = E

 µ E ( v i ) = E i  X i

2

  µ 2i  1  = E  = E(µ i2 ) = σ 2 X i = σ 2   ( X i ) 2  Xi   X i

Ejemplo en caso general Supongamos un modelo de corte transversal Yt = α + βX t + µ t para t = 1....n ut homocedástico Pero solo tenemos acceso a datos agrupados en m grupos con ni observaciones en cada grupo i. Yi = α + βX i + µ i var(µ i ) =

σ2 ni



Agosto 2004

168

1 / n  2 2 0 σ Ω=σ  .   0

0 1/ n2 . .

n 1   −1 Ω =   

. 0  . .  . .   . 1/ n m 

n2

      n m 

T' T = Ω −1

 n1    T =     

n2 •


• •

        n m 


Agosto 2004

169

7. AUTOCOR R RE LACIÓN 7.1 INTRODUCCIÓN La heterocedasticidad es solo una de las formas en que se puede levantar el supuesto de E(µµ’) = σ2I. La segunda manera es suponer que los errores presenten estén correlacionados entre sí ⇒ E(µiµ j) ≠ 0 para i ≠ j Esto provocaría que la matriz de varianzas y covarianzas de los errores presentará términos distintos de 0 fuera de la diagonal principal:

 γ 0 γ 1  γ γ 0 1  γ • E (µµ' ) =  2    

γ 2 …

       •  γ 0 

•

donde γ s = E(µiµi-s)

A este fenómeno se le denomina autocorrelación y está presente fundamentalmente en estudios de series de tiempo, donde un shock en el período i, genera errores en los próximos períodos. En lo anterior, se está suponiendo que la covarianza entre dos errores depende sólo de la distancia temporal entre las observaciones. A su vez, como todos los términos de la diagonal principal se tiene el mismo valor, se está suponiendo homocedasticidad ⇒ γ 0 = E(µiµi-0)= E (µ 2i ) = γ 0 = σ 2µ En términos gráficos: ui

ui ei

x

x

x

x

x x

x x

x x x


x

x x x

x

x

t

x

x

x

x

x

x

x

t

x


Agosto 2004

170

7.2 CAUSAS MÁS FRECUENTES DE AUTOCORRELACIÓN Ciclos o tendencias en las variables, Es decir rachas de valores altos o bajos provocados por shocks o innovaciones no esperados que son difícilmente captados por las variables explicativas. Autocorrelación espacial, En datos de cross-section un shock aleatorio que afecta la actividad de una región puede causar actividad económica en regiones adyacentes (ej.: mal tiempo). También ocurre efecto vecindad o efecto demostración.

Influencia prolongada de shocks: En las series de tiempo, los shocks en general persisten por más de un período.

Inercia: Debido a la inercia o a fenómenos psicológicos, las acciones pasadas muchas veces tienen efecto en el presente. Si al modelo le falta incorporar dinámica presente en la realidad, a través de rezagos, los residuos tendrán patrones autocorrelacionados.

Mala especificación i) Omisión de una variable relevante La omisión de una variable relevante que es autocorrelacionada provocará un residuo autocorrelacionado. Si el modelo es Yi = β 1 + β 2 X 2 + β 3 X 3 + µ i pero estimamos Yi = β 1 + β 2 X 2 + v i Entonces, v i = µ i + β 3 X 3 Si X3 presenta autocorrelación, entonces, vi la presentará aunque ui no esté autocorrelacionado. Si esta es la razón para un patrón de este tipo, entonces lo correcto es corregir la mala especificación, incorporando X3 al modelo.



Agosto 2004

171

ii)

Forma funcional inadecuada.

f. funcional estimada

errores positivos o negativos

verdadera forma

Quiebre o cambio estructural Si se produjo un cambio estructural en la muestra, los residuos pueden presentar patrones sistemáticos antes y después del cambio estructural.

forma verdadera forma estimada

Entonces, es muy importante detectar la razón de patrones de comportamiento autocorrelacionados en los residuos, porque ello determinará la mejor forma de corregir este problema. En adelante, supondremos que la autocorrelación no está provocada por errores de especificación, ni de quiebre estructural, ni ausencia de rezagos, sino que por alguna razón distinta de estas, los residuos se encuentran correlacionados entre sí. Economet ría E-250: Apuntes de Clase


Agosto 2004

172

7.3 ALGUNAS DEFINICIONES Autocovarianza Definimos autocovarianza entre µi y µi-s como E (µ i , µ i− s ) = γ s para s=0, ±1, ±2... Si s = 0 ⇒ E( µ i , µ i− s ) = E(µ 2i ) = γ 0 = σ 2µ Entonces, podemos E( µµ' ) se puede expresar:

 γ 0 γ 1 γ 2 .   γ γ  1 0    = E (µµ' ) = . .   . .   γ 0  Coeficiente de Autocorrelación Definimos

r s =

⇒ r s =

Cov(µ i , µ i− s ) E( µ i ) 2 • E (µ i −s ) 2

=

E( µ i . µ i −s ) E( µ i .µ i− s ) γ s = = γ 0 γ 0 γ 0 • γ 0

γ s ⇒ γ s = γ 0 r s ⇒ γ s = σ µ2 r s γ 0

Si s=0, γ 0 = σ µ2 Luego, también podemos expresar E(µµ' ) :

  γ 0 γ 1 γ 2 .   σµ2 σ 2µ r 1 σ 2µ r 2 .  1 r 1 r 2 .     γ γ  σ 2 r σ 2  r 1  1 µ   1 0   µ1   2   E (µµ' ) =  . = . =σ .  . . .  µ     . . . . . 1       2     1 γ 0   σµ   E (µµ' ) = σ 2µ Ω Esta es la forma genérica de la matriz. Para distintos casos de autocorrelación tendremos distintas matrices de E(µµ'). Para encontrar cada forma en particular debemos calcular los γ i

EJEMPLO Encontremos E(µµ') para el caso más común de autocorrelación que es AUTOCORRELACION DE PRIMER ORDEN [AR(1)]. Economet ría E-250: Apuntes de Clase


Agosto 2004

173 Esta ocurre cuando el residuo en un período es proporcional al residuo en el período anterior más un residuo bien comportado⇒ µ i = ρ µ i−1 + ε i

µ i = ρ µ i −1 + ε i donde ε i ~ N ( 0, σ 2ε I) Calculo de γ 0

γ 0 = E(µ 2i ) = σ 2µ µ i = ρ µ i−1 + ε i = ρ(ρ µ i− 2 + ε i −1 ) + ε i = ρ 2 µ i− 2 + ρ ε i −1 + ε i = = ρ 2 ( ρ µ i− 3 + ε i −2 ) + ρ ε i−1 + ε i = ρ 3 µ i −3 + ρ 2 ε i− 2 + ρ ε i−1 + ε i = ..... = ε i + ρ ε i −1 + ρ 2 ε i− 2 + ρ 3 µ i− 3 ....... • E (µ i ) = E(ε i + ρ ε i−1 + ρ 2 ε i −2 + ρ 3 µ i −3 .......) = 0 E (µ i ) = 0

(i)

• E (µ 2i ) = E (ε i + ρε i −1 + ρ 2 ε i − 2 + … + )(ε i + ρε i −1 + ρ 2 ε i − 2 …)

= E [(ε 2i + ρ 2 ε 2i−1 + ρ 4 ε 2i− 2 + … + ρ ε i ε i−1 + ρ 3 ε i −1 ε i− 2 …] = σ 2ε + ρ 2 σ 2ε + ρ 4 σ 2ε + … + 0 + 0 = σ 2ε (1 + ρ 2 + ρ 4 + … ) El segundo término es la suma de una progresión geométrica .S.P.G. =

σ ε2 entonces, E (µ ) = 1− ρ2 2 i

1 1 − ρ2

, por lo que

(ii)

Por definición E (µ 2i ) = γ 0 = σ 2µ , por lo que (ii) implica:

σ 2ε γ 0 = σ µ = 1− ρ 2 2

(iii)

Calculo de γ 1

γ 1 = E(µ i , µ i−1 ) pero como:

µ i = ε i + ρ ε i −1 + ρ 2 ε i − 2 + ρ 3 µ i− 3 ..... y µ i−1 = ε i−1 + ρ ε i− 2 + ρ 2 ε

i− 3

+ ρ 3 µ i − 4 .....

γ 1 = E(µ i , µ i−1 ) = = E[(ε i + ρε i−1 + ρ 2 ε i− 2 + ..)(ε i−1 + ρε i− 2 + ρ 2 ε i −3 ..)] = E(ε i ε i −1 + ρε i ε i− 2 + .. + ρε 2i−1 + ρ 3 ε 2t− 2 + ρ 5 ε i2−3 + ..) = E (ε i ε i−1 ) + ρE( ε i ε i− 2 ) + .. + ρE(ε 2i−1 ) + ρ 3 E(ε 2t − 2 ) + ρ 5 E( ε i2−3 ) + .. = 0 + 0 + .. + ρ σ 2ε + ρ 3 σ 2ε + ρ 5 σ 2ε .. ρ σ 2ε 2 2 4 = ρ σ ε (1 + ρ + ρ + ……) = 1 − ρ2 Economet ría E-250: Apuntes de Clase


Agosto 2004

174

ρ σ ε2 γ 1 = 1 − ρ2

(iv)

Por inducción:

σ 2ε γ 0 = = σµ2 2 1− ρ σ 2ε ρ γ 1 = = ρ σ 2µ 2 1−ρ

M

σ ε2 ρ s s 2 γ s = = ρ σµ 1− ρ2

Entonces,

γ 0 γ 1 γ 2  γ γ  1 0 E (µµ' ) =  . .  . 

2  σ 2ε σ 2ε 2 σε ρ ρ  2 2 1 1 1− ρ 2 − ρ − ρ .     σ ε2 σ 2ε  ρ 1 − ρ 2 1 − ρ 2 = .   . .   . γ 0    

     =   .  σ 2ε  1 − ρ 2  .

1 ρ ρ 2 .  ρ 1  2   σ2 σε   = ε 2 Ω = σ 2µ Ω = . . 2 1− ρ   1− ρ . .    1 2 γ s s σµ Recordar: r s = 2 = ρ 2 = ρ s σµ σµ

Con autocorrelación el supuesto E(µµ') = I se cambia por E(µµ') = σ2 Ω. En el caso AR(1), Ω toma la forma que acabamos de derivar. En otros casos de autocorrelación, se debe ver que forma toma Ω. • AR ( 2) ⇒ µ t = ρ1µ t−1 + ρ 2 µ t −2 + ε t • MA (1) ⇒ µ t = ε t + θ ε t −1



Agosto 2004

175

7.4 PROPIEDADES DE LA ESTIMACIÓN MICO BAJO AUTOCORRELACIÓN 1. Estimando por MICO una regresión que presente autocorrelación en el residuo, obtendremos un estimador cercano a la verdadera línea poblacional. Estimando en repetidas muestras, el promedio del valor estimado estará sobre el verdadero valor, pero la alta varianza de las distintas estimaciones llevará a que la varianza del estimador sea mayor que la que obtendríamos con errores no correlacionados. §

βˆ = ( X' X) −1 X' Y seguirá siendo insesgado, pero la varianza estimada será mayor que la que podríamos obtener si ponderamos las observaciones (si aplicamos MCG)

§

e' e subestima la verdadera varianza σ2 y esto hace que la varianza estimada n − k ˆ (βˆ ) sea menor que la verdadera varianza. Por tanto, los test t para una muestra V 2

σˆ 2 =

[ ]

no son adecuados. §

El R 2 está sobreestimado.

2. Si se estima por MICO, pero se corrige la varianza asumiendo autocorrelación: βˆ = β + (X' X) −1 X' µ

V(βˆ ) = E[(βˆ − β)(βˆ − β)'] = E[(X' X) −1 X' µµ' X ( X' X) −1 ] = σ 2 ( X' X) −1 X' Ω X ( X' X) −1 Si utilizamos esta varianza el estimador obtenido tampoco será un estimador eficiente . 3. Método Mínimos Cuadrados Generalizados (MCG) Como vimos antes (heterocedasticidad), cuando no se cumple el supuesto clásico de E(µµ’)=I, el estimador eficiente es MCG. Este método consiste en realizar transformaciones a los datos de forma de conseguir un error que sea bien comportado. βˆ MCG = (X' Ω −1 X) −1 X' Ω −1 Y

V(βˆ MCG ) = σ 2 ( X' Ω −1 X) −1

donde Ω −1 = T' T

Para el caso AR(1), donde µ t = ρ µ t−1 + ε t



Agosto 2004

176

1 ρ ρ 2 .    1 ρ  σ ε2 σ 2ε  . = E (µµ' ) = Ω = σ 2µ Ω . 2 2 1− ρ   1− ρ . .    1 L 0 0 −ρ 1 − ρ (1 + ρ) − ρ L    −1 Ω = 0 − ρ (1 + ρ) − ρ  M  M O M   1

7.5 ¿CÓMO DETECTAR AUTOCORRELACIÓN? Método gráfico: el simple análisis de los residuos obtenidos puede confirmar la presencia de errores mal comportados. Estadístico de Durbin-Watson (1951) Consiste en el cálculo del coeficiente

∑ (e − e d= ∑e i

i −1

)2

2 i

Este estadístico es calculado con los residuos de la regresión MICO y es usado para testear autocorrelación de primer orden. El test es válido bajo las siguientes condiciones:

∑e

=0

1)

En la regresión hay constante ⇒

2) 3)

La matriz X es no estocástica Solo sirve para testear procesos AR(1).

4)

No es válido cuando la variable dependiente está rezagada.

i

Derivación:

∑ (e − e d= ∑e i

2 i

i −1

)2

∑e +∑e −2∑e e = ∑e 2 i


2 i −1

i

i−1

2 i


Agosto 2004

177

∑e ≅∑e 2 ∑ e − 2 ∑e e d≅ ∑e 2 i

como

2 i

i

2 i

2 i −1

i −1

 ∑ e 2i ∑ e i e i−1   ∑ e i e i−1   = 2 1 −  = 2  − 2 2  2   ∑ e i   ∑ e i   ∑ e i ↓ (*)

El término (*) corresponde a la estimación de ρˆ en un proceso r s = ρ s ⇒ r = ρ AR(1). Esto porque en AR(1) ⇒

ρ=

cov( e i , e i −1 ) γ 1 ⇒ ρˆ = VAR ( e i ) γ 0

ρˆ = ∑

( e i − e)(e i−1 − e ) = (e i − e ) 2

∑

∑e e ∑e i

i−1 2 i

 e e  ⇒ d = 2 1 − ∑ i 2i−1  = 2(1 − ρˆ )  e  ∑ i  Entonces,

  

d = 21 −

∑e e e

i i −1 2 i

  = 2(1 − ρˆ )  

La hipótesis nula del test es que no existe autocorrelación H0) No hay autocorrelación ≅ ρ = 0 ≅ d = 2 H1) Hay autocorrelación El estadístico d no tiene una distribución conocida. Por eso Durbin y Watson tabularon la distribución del test. Para cada valor de k y n (al 5% y al 1%) se obtienen dos valores críticos: du y dL que permiten establecer zonas en que se rechaza la hipótesis nula, zonas en que se acepta y zonas de indecisión



Agosto 2004

178 El criterio no decide dL

El criterio no decide

dU

2

4-d U

4-dL

No hay Autocorrelación Autocorrelación positiva

Autocorrelación negativa

Supongamos DW indica errores de autocorrelacionados que hacemos? Estimamos por MCG? Depende, esto puede deberse a una variable omitida, a una forma funcional incorrecta o a falta de dinámica en la especificación. Solo si se ha verificado que el error no se debe a ninguna de estas causas es necesario aplicar MCG. §

Test H de Durbin Sirve para testear autocorrelación cuando la variable dependiente rezagada se incluye entre las explicativas.

Yi = β1 + β 2 Yi −1 + β 2 Yi −2 + … + β r Yi −r + β r +1 X1 …… β r + k X k donde u i = ρµ i−1 + ε i H0) ρ = 0 H1) ρ ≠ 0

solo es válido para muestras grandes

h = ρˆ

n 1 − n [var (βˆ 2 )] n - tamaño muestral

ρˆ - estimación de ρ var βˆ 2 - varianza del coeficiente asociado a Yt-1. Bajo la hipótesis nula h ~ N (0, 1), por lo que: P [ -1,96 < h < 1,96 ] = 0,95 por lo que si h calculado (bajo alguna estimación de ρˆ ) es mayor en valor absoluto que 1,96 rechazo H0 al 5%. Características de la prueba: Economet ría E-250: Apuntes de Clase


Agosto 2004

179 1.

No importa cuantas veces está rezagada Yt, solo necesito la varianza del coeficiente asociado a Yt-1.

2.

La prueba no es válida si n var βˆ 2 > 1.

3. La prueba solo es válida si la muestra es grande. Test de Breusch - Godfrey (1978) Este test permite verificar autocorrelación de orden mayor que uno. El modelo general al que se aplica al test es: (*)

Yt = β 0 + β1 Y t−1 + β 2 Yt− 2 + … + β r Yt− r + β r +1 X 1 + … + β r + k X k + µ t donde r son los rezagos de la variable dependiente

La hipótesis nula es que no hay autocorrelación H0)

µ i ~ N (0, σ 2 I )

H1)

µi presenta errores mal comportados.

Pasos i)

Se realiza la regresión (*) por MICO y se extraen los residuos ⇒ ei.

ii)

Usando los residuos calculados en i) se realiza la siguiente regresión: ei = f(ei-1, ei-2, ........, ei-p, Yi-1, Yi-2 ..........Yi-r , X1 ........ Xk )

iii)

El estimador (n-p)R 2 bajo la hipótesis nula se distribuye χ2,p , con lo que si (n-p)R 2 > χ2,p (α ) se rechaza la hipótesis nula. Donde n es el tamaño de la muestra de la regresión principal.

Ejemplo de utilización de los test en Eviews. En E-Views podemos realizar fácilmente alguno de estos test. Para los datos del ejercicio 2.1.7 tenemos la siguiente salida: LS // Dependent Variable is Y Sample: 1 10 Included observations: 10 Variable Coefficient Std. Error t-Statistic Prob. C 3.600000 2.090177 1.722342 0.1233 X 0.750000 0.255738 2.932692 0.0189 R-squared 0.518092 Mean dependent var 9.600000 Adjusted R-squared 0.457854 S.D. dependent var 1.837873 Economet ría E-250: Apuntes de Clase


Agosto 2004

180 S.E. of regression Sum squared resid Log likelihood

1.353237 14.65000 -16.09866

Durbin-Watson stat

2.346416

Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic)

0.781855 0.842372 8.600683 0.018920

Corresponde al valor calculado del estadístico de DW. Este valor hay que contrastarlo con los valores de dU y dL de la tabla

k=2

(k’=1) n=10 ⇒ dU =1.32 , d L =0.879 El criterio no decide El criterio no decide

0.879

1.32

2

3.121

2.68

No hay Autocorrelación Autocorrelación positiva

Autocorrelación negativa

2.34

Por DW, no rechazo H0 (no rechazamos que ρ sea cero).

Breusch-Godfrey Serial Correlation LM Test: F-statistic

0.245626

Obs*R-squared

0.756792

Probability Probability

0.789711 0.684959

Test Equation: LS // Dependent Variable is RESID Date: 11/24/98 Time: 13:02 Variable Coefficient C -0.572430 X 0.076530

Std. Error 2.461777 0.304399

t-Statistic -0.232527 0.251415

Prob. 0.8239 0.8099

RESID(-1) RESID(-2)

0.448296 0.428825

-0.671642 -0.346841

0.5268

-0.301095 -0.148734

R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat

0.075679 -0.386481 1.502293 13.54130 -15.70518 2.006501


Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-stat isti c)


0.7406

-4.22E-16 1.275844 1.103159 1.224193 0.163751 0.916964

Agosto 2004

181 p=2, n=10 El estimador nR 2 bajo la hipótesis nula se distribuye χ2,p , con lo que si nR 2 > χ2,p (α ) se rechaza la hipótesis nula. χ 22 (0.05 ) =5.9 nR 2 =0.75 Por tanto no se rechaza la hipótesis nula (podíamos intuir este resultado por la falta de significancia de los coeficientes asociados a los residuos).

7.6

FORMAS DE CORREGIR POR AUTOCORRELACION

7.6.1 Conozco la forma de la autocorrelación y conozco ρ 7.6.1.1 AR(1) Sabemos que µ i = ρ µ i −1 + ε t y supongamos que conocemos ρ.

1 ρ ρ 2 .    ρ 1 2   σ ε2 σε . = E (µµ' ) = Ω = σ 2µ Ω . 2 2 1− ρ   1− ρ . .    1 L 0 0 −ρ 1  − ρ (1 + ρ) − ρ L    −1 Ω = 0 − ρ (1 + ρ) − ρ   M  M O M    1 Sabemos que la regresión debe ser con los datos transformados, de forma que el residuo sea bien comportado

Y = Xβ + µ

µ t = ρ µ t −1 + ε t

TY = T X β + Tµ = T X β + v Para que v sea bien comportado, se debe cumplir que T'T = Ω -1 Economet ría E-250: Apuntes de Clase


Agosto 2004

182 Entonces, T debe ser igual a:

   T=     

1 − ρ2

−ρ 0 M

0

0  0 L 0 − ρ 1 0 0  M O O 0 0 L − ρ 1 0 1

L L

por tanto

 1 − ρ 2 Y1     Y − ρY  1  2   Y − ρY  2 TY =  3  •  •   •    •    Yn − ρYn −1 

 1 − ρ 2 µ1    µ − ρµ  1  2  µ − ρµ  2 Tµ =  3 = •  •   •    •   µ n − ρµ n−1 

          

1− ρ2 

ε2 ε3 • • • •

εn

         

 1 − ρ 2 1 − ρ 2 X 12 ………… 1 − ρ 2 X 1k      1 − ρ X 22 − ρX12 ………… X 2k − ρX 1k    •   TX =   •     •   •   1 − ρ X n2 − ρX n−1, 2 ……… X nk − ρX n−1, k   Observación: Si partimos de: (1)

Yi = β 1 + β 2 X i2 + …… + β k X ik + µ i

donde µi = ρ µi-1 + ε i Entonces, para el rezago de (1) se cumple (2)

Yi−1 = β1 + β 2 X i −1, 2 + …… + β k X i −1, k + µ i −1



Agosto 2004

183 multiplicando (2) por ρ, (3)

ρYi−1 = ρβ1 + ρβ 2 X i −1, 2 + …… + β k ρ X i −1, k + ρµ i−1

Restando (1) - (3), tenemos: (4) Yi − ρYi−1 = β1 (1 − ρ) + β 2 ( X i2 − ρX i−1, 2 ) + …… + β k ( X ik − ρX i−1, k ) + µ i − ρµ i −1

↓ εi

Correr la regresión (4), es muy parecido a aplicar el procedimiento anterior, con la diferencia de la primera observación. Este último método es más utilizado, pero menos eficiente para corregir autocorrelación. 7.6.1.2 AR(2)

µ i = ρ1 µ i−1 + ρ 2 µ i− 2 + ε i §

Una alternativa es definir Ω , Ω -1, T y multiplicar TY = T X β + Tµ.

§

Otra forma es proceder como sigue, (5)

Yi = β 1 + β 2 X i2 + …… + β k X ik + µ i

Rezago (5) (6) Yi−1 = β1 + β 2 X i −1, 2 + …… + β k X i −1, k + µ i −1 Rezago (6) (7) Yi− 2 = β1 + β 2 X i−1, 2 + …… + β k X i− 2, k + µ i − 2 Multiplico (6) por ρ1 y (7) por ρ2 (8)

ρ1 Yi −1 = β 1ρ1 + β 2 ρ 1 X i −1,2 + …… + β k ρ1 X i−1,k + ρ1 µ i −1

(9)

ρ 2 Yi− 2 = β1ρ 2 + β 2 ρ 2 X i − 2,2 + …… + β k ρ 2 X i− 2, k + ρ 2 µ i − 2

Resto (5) - (8) - (9) nos queda, (10) Yi − ρ1 Yi−1 − ρ 2 Yi − 2 = β 1 (1 − ρ 1 − ρ 2 ) + β 2 ( X i 2 − ρ1 X i−1, 2 − ρ 2 X i − 2, 2 ) + + L + β k ( X ik − ρ1 X i−1,k − ρ 2 X i− 2,k ) + µ i − ρ1 µ i −1 − ρ 2 µ i− 2 donde el último término es ε i Economet ría E-250: Apuntes de Clase


Agosto 2004

184 Correr la regresión (10) dará un resultado aproximadamente igual.

Es decir que si conocemos la forma de la autocorrelación y los ρ, es fácil aplicar MCG y obtener los parámetros, pero generalmente no conocemos ρ, entonces primero hay que estimarlo y luego aplicar los métodos anteriores para calcular MCG.

7.6.2 . No conocemos ρ . Hay métodos para calcularlos 7.6.2.1 Método de posiciones extremas Como no conocemos ρ, podríamos partir de alguno de los dos casos extremos. Esto es suponer que ρ = 1 o ρ = - 1. §

Si ρ=1 la ecuación (4) nos queda, Yi − Y i−1 = β 2 ( X i 2 − X i −1 ) + …… + β k ( X ik − X i−1, k ) + ε i

∆Yi = β 2 ∆X i2 + …… + β k ∆X ik + ε i Es decir que hay que estimar con los datos expresados en primeras diferencias §

Si ρ=-1 la ecuación (4) nos queda, Yi + Yi−1 = 2β1 + β 2 ( X i 2 + X i −1, 2 ) + β 3 ( X i3 + X i−1,3 ) + … + ε i Yi + Yi−1  X + X i −1, 2   X i3 + X i −1, 3    = β 1 + β 2  i2 + β  3   + … + ε i 2 2 2     Es decir que hay que estimar con los datos expresados en promedios.

El problema de este método, es que si ρ≠1 o ρ≠-1 el remedio puede ser peor que la enfermedad. 7.6.2.2 Método basado en estadístico d de Durbin y Watson d ≅ 2 (1− ρˆ )

⇓

ρˆ ≅ 1 − d \ 2


→ esto solo es válido si n es grande


Agosto 2004

185 7.6.2.3

Procedimiento iterativo de Cochrane - Orcutt i.

Se estima el modelo por MICO y se obtienen los residuos ei

ii.

Estimamos por MICO la siguiente regresión:

iii.

e i = ρˆ e i −1 + v t con ρˆ estimado, corregir los datos y correr la ecuación (4) Yi − ρYi−1 = β1 (1 − ρ) + β 2 ( x i 2 − ρx i−1 ) + …… + β k ( x ik − ρx i−1,k ) + u i − ρu i −1

como no sabemos si ρˆ es buena estimación de ρ, volvemos a la regresión

iv.

original utilizando los coeficientes estimados en la iii etapa y obtenemos e *i . e *i = ρˆ e *i−1 + w t

v.

con esta estimación de ρˆˆ , se vuelve a repetir desde la etapa iii. El método es iterativo y se para cuando en dos corridas sucesivas los ρ estimados difieren poco. 7.6.2.4 Método de Durbin La ecuación (4) se puede escribir como: Yt = β1 (1 − ρ) + β 2 X 2t − ρβ 2 X t−1 + ρY t −1 + …… + ε t i)

Partir de esta ecuación regresando Yt en Xt, Xt-1, ..., Yt y utilizar el valor estimado del coeficiente de Yt-1 como estimación de ρ (el estimador es segado, pero consistente).

ii)

Luego de tener ρˆ , transformar los datos y correr la regresión (4).

7.6.2.5

Método de la malla - Hildreth y Lu.

Se define un conjunto de valores posibles de ρ (entre -1 y 1), donde los intervalos entre los distintos valores de ρ son de 0,1. Para cada ρˆ se corre la ecuación (4) y se computa la ∑ e 2i . Se elige el valor de ρˆ que minimice la suma de cuadrados residuales (maximice R 2). Economet ría E-250: Apuntes de Clase


Agosto 2004

186

8. ESP ECIF ICACION DE MODELOS 8.1 ATRIBUTOS DE UN BUEN MODELO Un modelo que está bien especificado tiene los siguientes atributos: Parsimonia: esto implica que hay que maximizar la explicación del fenómeno, maximizando la simplificación. Identificabilidad: dadas las observaciones los coeficientes estimados deben ser únicos. §

§

§

§

§

§

Bondad del Ajuste: R 2 alto, coeficientes correctos, etc. Cuidado con Data Mining: Uso indiscriminado de variables con la única finalidad de aumentar el R 2 . Ames y Reiter (1961) ⇒ en promedio el R 2 de una regresión entre una variable económica y su rezago es 0,7. Plausibilidad Teórica : Coeficientes con signos correctos, etc. Implica consistencia con el modelo teórico planteado.

Poder Predictivo: el R 2 es un indicador del ajuste dentro de muestra. Importa predecir fuera de muestra dentro y fuera del período. Estabilidad de la Ecuación Estimada: inexistencia de cambio estructural (test de Chow, CUSUM y CUSUM cuadrado)

8.2 TIPO DE ERRORES DE ESPECIFICACIÓN §

§

§

§

Omitir una variable relevante (variables omitidas) Inclusión de variables irrelevantes (variables intrusas) Forma funcional incorrecta Errores de medición.

8.3 CONSECUENCIAS DE LOS ERRORES DE ESPECIFICACIÓN. 8.3.1 Variables Omitidas 8.3.1.1. Introducción Supongamos que por alguna razón no es posible estimar el verdadero modelo y se estima uno alternativo: Verdadero Modelo ⇒ Yi = β1 + β2 X2i + β3X3i + µi Modelo estimado ⇒ Estimación sin X3 ⇒ Yi = β1 + β2X 2i + vi



Agosto 2004

(*) (**)

187 Expresando (*) y (**) en desvíos:

y i = β 2 x 2 i + β 3 x 3i + (µ i − µ ) y i = β 2 x 2 i + (v i − v i ) Al estimar βˆ 2 de la segunda ecuación:

βˆ 2

∑ x y = ∑ x (β x + β x + µ = ∑x ∑x β ∑ x x + ∑ (µ − µ ) x =β + ∑x 2i i 2 2i

3

2i

2i

2

3i

3 3i 2 2i

i

2

E (βˆ 2 ) = β 2 +

2i

i

− µ ) β 2 ∑ x 22i + β 3 ∑ x 2i x 3i + ∑ x 2i ( µ i − µ ) = 2

∑x

2i

2i

2 2i

β 3 ∑ x 3 i x 2i

∑x

2 2i

Entonces se dan los siguientes casos: §

Si x3 y x2 fueran ortogonales

∑x

3i

x 2i = 0 ⇒ Insesgamie nto

En los demás casos hay sesgo y este es una función de la relación o covarianza entre variable omitida y la incluida. Ejemplo: Estimamos la demanda por algún bien y se omite el precio de un sustituto. §

E (βˆ 2 ) = β2 + β 3

∑x x ∑x 2

3

2 2

donde β 2 = coeficiente del precio "del bien" ⇒ esperamos signo negativo

β 3 = coeficiente del precio del sustituto⇒ esperamos signo positivo

∑x x ∑x 2

2 2

3

> 0, porque existe cierto gra do de asociación entre var iables . ( No Causalidad )

Luego, al estimar sin el precio del sustituto, el coeficiente estimado queda sesgado y el sesgo es positivo. 8.3.1.2. Consecuencias §

§

§

Si X3 esta correlacionada con X2 ⇒ ambos estimadores son sesgados inconsistentes (es decir que el sesgo no desaparece para muestras grandes) Si X2 y X3 no están correlacionados ⇒ el estimador de la pendiente es insesgado, pero el del intercepto sesgado.

σˆ 2µ está mal estimado si omito variables



Agosto 2004

188

 e' e  E > σ µ2 → Sesgo   N − (k − r ) 

§

Esto porque e’e es mayor , mientras el efecto sobre el denominador es marginal. Como consecuencia del punto anterior la varianza de los estimadores es sesgada V(βˆ ) = σˆ µ2 ( X' X) −1

↓ mal estimada Intervalos de confianza y pruebas de hipótesis incorrectas ⇒ conclusiones erradas. 8.3.1.3. Test para detectar Variables Omitidas Bondad de ajuste y plausibilidad teórica §

§

R 2 , t, signos de los coeficientes §

Examen de los residuos: pueden presentar cierto patrón determinístico.

§

Prueba d de Durbin-Watson. Si existe correlación positiva en los errores ⇒ significa que estos no son aleatorios y que pueden estar asociados a alguna variable no incluida en el modelo. Otra forma de Usarlo: Se corre el modelo original. Se obtienen los residuos. -

§

§

Si se piensa que se excluye una variable explicativa relevante, ordenar los residuos según el orden ascendente de dicha variable. (e − e Se calcula d = ∑ ∑e i

i −1

)2

2 i

Se compara el d con el d de tabla (con los grados de libertad originales).

Prueba Breusch-Godfrey Prueba Reset de Ramsey -

Se corre la regresión original ⇒ se obtienen los Yî ⇒ se extrae el



Agosto 2004

189 R 2. -

Se vuelve a correr la regresión, introduciendo como variables explicativas formas funcionales de Yî por [ ejemplo Yî2 , Yî3 , etc.] ⇒ se obtiene R *2 .

-

H0) Modelo Bien Especificado. H1) Modelo Mal Especificado. ( R 2* − R 2 ) / Número de Variables Adicionale s F= (1 − R 2* ) / n − Número Variables Modelo Nuevo

-

Si F> Ftabla, rechazo H0 , por tanto rechazo que que modelo esté bien especificado.

8.3.2 Inclusión de una Variable Irrelevante (Variables Intrusas) Supongamos que Yi = β1 + β 2 X 2i + µ i sea el Modelo Verdadero pero se corre, Yi = α 1 + α 2 X 2i + α 3 X 3i + v i , donde X3i es una variable intrusa. Consecuencias i ) Estimadores insesgados y consistentes ii)

σˆ 2µ se computa correctamente  e ' e  2  ≅ σµ  n ( k s ) +  

E  variable

esto porque la caída en e’e no es muy grande, porque la

donde s es el NKO de Variables Intrusas. Hay que distinguir "computar" de la estimación que se encuentra.  e' e  sigue siendo Se "computa" correctamente porque el estimador que se usa  N − K  un estimador insesgado. Puede haber, sin embargo, un error de estimación (pequeño) por agregar una variable que no debía ir. iii) Intervalos y pruebas de hipótesis son válidos. iv) Pero la varianza estimada para los parámetros son más grandes que las del modelo original.



Agosto 2004

apuntes

Recommend Documents