INTRODUCCION A LA ECONOMETRIA
1.1
¿Que es la Econometría? Econometría?
Antes de comenzar a estudiar la econometría como área de estudio es preciso comprender que es lo que se entiende por econometría y los inicios de la misma. En pocas palabras, palabras, la econometría consiste en la aplicación estadística matemática a l a información económica para dar soporte empírico a los modelos construidos por la economía y de ese modo obtener resultados significativos. Por tanto, es plausible señalar que la econometría nos sirve para: (a) Probar teorías económicas, económicas, vale decir, se busca examinar examinar las relaciones relaciones que existen entre distintas variables explicativas y variables explicadas. Verbigracia, un fenómeno económico relevante generará teorías para explicar sus causas. (b) Pronosticar Pronosticar la economía, los econometristas econometristas al identificar relaciones relaciones entre variables en el tiempo, pueden predecir con diversos grados de exactitud los valores probables de éstas. (c) Diseñar políticas, políticas, se recomienda recomienda mediante mediante estudios las políticas políticas exactas para para obtener resultados deseables en la economía.
Ahora bien, es muy frecuente vincular la econometría con la economía como una relación unívoca y simbiótica porque la economía abastece y otorga a la econometría material para investigar, y la segunda devuelve investigaciones y proyecciones que son empleadas por la economía, lo que no quiere decir, que se necesitan mutuamente para existir, pero sí están altamente
correlacionadas.
De
hecho,
es
posible
encontrar
conceptos
como
microeconometría y macroeconometría como subgrupos dentro de la econometría, siendo la primera la encargada o enfocada en cuestiones propias de la microeconomía (i.e., poniendo énfasis en las relaciones de ingresos y gastos, la función de Cobb-Douglas, ahorro y gasto, etc.) y la segunda en cuestiones propias de la macroeconomía vista desde la econometría aplicada (i.e., utilizando modelos de series temporales, analizando regresiones espurias, series estacionarias, etc.).
Sin embargo, tanto las categorías de aplicaciones mencionadas, como las vinculaciones efectuadas con la economía no son excluyentes ya que la econometría se puede utilizar para realizar estudios que no necesariamente sean económicos. De este modo, es posible encontrar estudios sobre la delincuencia, la salud, el 1
comportamiento sexual, deportes, los negocios, las finanzas, ventas, etc. En definitiva, la econometría no es una herramienta con la que sólo tengamos que trabajar con índices económicos y series temporales, sino que es una herramienta que nos sirve para analizar distintos ámbitos que posteriormente se pueden utilizar no sólo para formar políticas públicas por un gobierno, también es dable la evaluación de las políticas públicas con distintas ecuaciones para dichos fines. Asimismo, es posible realizar estimaciones de ventas para algún negocio, proyectar las mismas ventas, explicar algunas relaciones que satisf satisfaga agan n al empres empresar ario io para para innova innovarr en la produc producció ción n del algún produc producto, to, etc. etc. Por lo tanto, la utilización de la econometría tanto en el sector público como en el s ector privado (si se desea analizar desde diferentes esferas por las regulaciones que puedan existir), por un lado, se transforma en un bagaje de alternativas para mejorar los índices de gobernab gobernabilidad ilidad y por el otro, otorga una ventaja para los negocios negocios y aumentar aumentar las ventas. Por ejemplo, para crear políticas adecuadas el gobierno precisa conocer la influencia de ciertas variables en la conducta de los ciudadanos. En el caso de la delincuencia es posible formular políticas que busquen disminuir los índices de delincuencia si se encuentra que estos estos aument aumentan an (o dismin disminuye uyen) n) por variabl variables es como como la educac educació ión, n, el desemp desempleo leo u otras otras variables que no son únicamente económicas. Luego, con la misma herramienta dentro de su gama de opciones se podrá evaluar el impacto de las políticas públicas que se hayan implementado (en este caso en el área de la delincuencia). Análogamente, si se desea utilizar en el ámbito de los negocios, se podría establecer una relación entre el salario de los ejecutivos de una empresa y las ventas junto con el rendimiento de las acciones de la empresa. Especificación que podría generar una nueva estrategia en ventas, si los ejecutivos lo encontraran pertinente. Y al igual que en el caso de la delincuencia, los ejecutivos podrían establecer un nuevo modelo para analizar el impacto de la estrategia que se hubiese formulado, o se podrían encontrar errores en las regresiones. En suma, un punto relevante para trabajar con la econometría es desprenderse del paradigma sobre sobre el área ocupación de la misma, es decir, dejar de pensar en la relación de la econometría con la economía como una relación absoluta. Si bien las distintas áreas de estudios que fueron mencionadas, son conocidas como economía del crimen, economía del deporte o economía de la salud, sus nombres solamente expresan una analogía con los supuestos básicos de la economía en relación al comportamiento del hombre, es decir, el 1
Si el alumno se interesa por las diversas áreas de investigación, podrá encontrar en la bibliografía complementaria una serie de documentos de investigación sobre diversos temas.
Sin embargo, tanto las categorías de aplicaciones mencionadas, como las vinculaciones efectuadas con la economía no son excluyentes ya que la econometría se puede utilizar para realizar estudios que no necesariamente sean económicos. De este modo, es posible encontrar estudios sobre la delincuencia, la salud, el 1
comportamiento sexual, deportes, los negocios, las finanzas, ventas, etc. En definitiva, la econometría no es una herramienta con la que sólo tengamos que trabajar con índices económicos y series temporales, sino que es una herramienta que nos sirve para analizar distintos ámbitos que posteriormente se pueden utilizar no sólo para formar políticas públicas por un gobierno, también es dable la evaluación de las políticas públicas con distintas ecuaciones para dichos fines. Asimismo, es posible realizar estimaciones de ventas para algún negocio, proyectar las mismas ventas, explicar algunas relaciones que satisf satisfaga agan n al empres empresar ario io para para innova innovarr en la produc producció ción n del algún produc producto, to, etc. etc. Por lo tanto, la utilización de la econometría tanto en el sector público como en el s ector privado (si se desea analizar desde diferentes esferas por las regulaciones que puedan existir), por un lado, se transforma en un bagaje de alternativas para mejorar los índices de gobernab gobernabilidad ilidad y por el otro, otorga una ventaja para los negocios negocios y aumentar aumentar las ventas. Por ejemplo, para crear políticas adecuadas el gobierno precisa conocer la influencia de ciertas variables en la conducta de los ciudadanos. En el caso de la delincuencia es posible formular políticas que busquen disminuir los índices de delincuencia si se encuentra que estos estos aument aumentan an (o dismin disminuye uyen) n) por variabl variables es como como la educac educació ión, n, el desemp desempleo leo u otras otras variables que no son únicamente económicas. Luego, con la misma herramienta dentro de su gama de opciones se podrá evaluar el impacto de las políticas públicas que se hayan implementado (en este caso en el área de la delincuencia). Análogamente, si se desea utilizar en el ámbito de los negocios, se podría establecer una relación entre el salario de los ejecutivos de una empresa y las ventas junto con el rendimiento de las acciones de la empresa. Especificación que podría generar una nueva estrategia en ventas, si los ejecutivos lo encontraran pertinente. Y al igual que en el caso de la delincuencia, los ejecutivos podrían establecer un nuevo modelo para analizar el impacto de la estrategia que se hubiese formulado, o se podrían encontrar errores en las regresiones. En suma, un punto relevante para trabajar con la econometría es desprenderse del paradigma sobre sobre el área ocupación de la misma, es decir, dejar de pensar en la relación de la econometría con la economía como una relación absoluta. Si bien las distintas áreas de estudios que fueron mencionadas, son conocidas como economía del crimen, economía del deporte o economía de la salud, sus nombres solamente expresan una analogía con los supuestos básicos de la economía en relación al comportamiento del hombre, es decir, el 1
Si el alumno se interesa por las diversas áreas de investigación, podrá encontrar en la bibliografía complementaria una serie de documentos de investigación sobre diversos temas.
supuesto de la racionalidad del hombre que busca siempre más a menos, pero no implica otra cosa. De esa manera, el investigador cuenta con un abanico de oportunidades para proyectos, ya que lo que busca la econometría en esencia es la utilización de modelos empíricos para rechazar (o aceptar) una hipótesis teórica, pensando evidentemente en que la dificultad está en la construcción del modelo como también en la recolección de datos suficientes para realizar una regresión. Por último, es menester señala que la econometría se ha transformado en un poderoso aliado, pero no implica ser una disciplina mesiánica que sirva para explicar y comprender todas las relaciones que intentemos realizar; además como se verá, la econometría no se supone como un determinismo, de ahí la importancia de la estadística.
1.2
Metodología de la Econometría
Para ilustrar los pasos que se siguen al elaborar un modelo econométrico que tenga consecuencias prácticas, utilizaremos los casos de la economía de la delincuencia y economía de las finanzas como ejemplos guías: 1.- Planteamiento de la teoría o hipótesis: Se esboza una teoría que implique la
utilización de variables que busquen encontrar una explicación hacia algún fenómeno o comportamiento particular del individuo. Por ejemplo, según Becker (1969) las personas se transforman en potenciales delincuentes al analizar el costo-beneficio de su contexto, tomando por consideración en el vector de beneficios los ingresos que recibiría por concepto de hurto (o robo), el placer (adrenalina o factores incuantificables), prestigio, y el tiempo (analizado desde el punto de vista del costo de oportunidad, es decir, cuanto dejo de ganar trabajando legalmente si comienzo a delinquir). Mientras que en el vector o grupo de costos, el sujeto tiene como variables el número de policías en las calles, la probabilidad de ser detenido, la cantidad de años en la cárcel en caso de ser detenido, y 2
variables sicológicas como la conciencia, moral o ser denostado por sus pares . Sin duda que que es posib posible le añadi añadirr un mayor mayor número número de variab variables les o factor factores es que que puedan puedan afectar afectar la decisión para delinquir en la teoría presentada, pero se considera innecesario indicar más. Un punto que se debe debatir en relación a la teoría planteada es que los delincuentes (a priori) no realizan cálculos de costo-beneficio cuando deciden delinquir, sino que los realizan al estar influenciados por una serie de factores socio-económicos y sociodemográficos. Por lo tanto, una vez que el investigador haya delineado distintas tesis y antít antítesi esiss y con con ellas ellas haya haya lograd logrado o compl compleme ementa ntarr algun algunas as teorí teorías, as, podemo podemoss decir decir que que el investigador está en posición de especificar un modelo que busque respaldar su teoría.
2
Para mayor interés sobre la economía de la delincuencia, se sugiere revisar la bibliografía complementaria.
Del mismo modo si pensamos en alguna otra relación, podemos llegar a similares conclusiones, es decir, podemos postular en el área de negocios que las ventas están en función de la publicidad que se haga del producto en el mercado como también de los ingresos per cápita de sus consumidores (luego de un estudio de mercado), podemos pensar en que las ventas pueden estar influenciadas de manera autorregresiva, o sea, por su valor rezagado, o por valores rezagados de variables cuantitativas. También es posible pensar en añadir variables dummy o cualitativas que indiquen categorías según el mes del año o el trimestre. Sin embargo, tal como en la delincuencia hay factores que no podemos determinar o que no se están vinculando de manera 2.- Especificación del modelo matemático:
Y = β1 + β2X donde: Y = Variable dependiente, explicada, endógena X = Variable independiente, explicativa, exógena β1 = Intersección o Intercepto β2 =Pendiente
Esta relación puede escribirse como una función: y = f (X1, X2) En el caso de la delincuencia, es decir, en la economía de la delincuencia, podríamos expresar la siguiente función: y = f (X1, X2, X3, X4, X5, X6) ó si se desea, de una forma más precisa ID = f (MJH, Det, Des, DI, NP, Esc)
La función muestra una relación entre ID = índice de la delincuencia (tasa de delincuencia) con MJH = tasa mujeres jefas de hogar; Det = detenciones; Des = tasa de desempleo; DI = distribución del ingreso; NP = número de policías (contingente) y Esc = tasa de escolaridad. Mientras que en el ejemplo de negocios podríamos expresarlo como sigue:
y = f (X1, X2, X3, X4) o también como: Ve = f (INPC, Pub, Ver, Pre) Donde la función muestra una relación entre Ve = Ventas (de un empresa) con INPC = Ingreso per cápita de los consumidores; Pub = publicidad; ver = ventas rezagadas; Pre = precios de los productos. ¿Es posible explicar de una forma determinista el índice de delincuencia o las ventas de un empresa? O dicho de otra manera ¿se pueden explicar en función de esas variables explicativas las variables regresadas exhaustivamente? Se puede pensar que existen muchas variables que no son medibles y que son del orden socio-mental y que pueden guardar relación con las ventas o con la delincuencia, por ello es que se especifica un modelo econométrico. 3.- Especificación del modelo econométrico: la especificación matemática es de interés
limitado para el econometrista, porque como se habrá leído, se supone que existe una relación exacta o determinista entre las variables endógena y exógena. Sin embargo, las relaciones entre las variables son inexactas. Para dar cabida a relaciones inexactas entre variables, el econometrista modificará la función matemática o determinística y escribirá el modelo de la siguiente manera: Y = β1 + β2X +µ
(1.1)
En el caso de (1.1), se puede apreciar µ, que es conocido como el término de perturbación o de error. Dicho término es una variable aleatoria o estocástica (i.e., que se pueden cometer errores) que tiene propiedades probabilísticas definidas. Para la comprensión del alumno, se entenderá µ como un término que puede representar todos aquellos factores que afectan a alguna variable endógena, pero que no son consideradas en el modelo de manera explícita.
Considerando nuestra relación matemática en relación al índice de delincuencia, ahora podemos expresarlo del siguiente modo:
Yrt = β1 + β2X2rt + β3δ3rt + β4ώ4rt + µrt
(1.2)
Sean: Y: La tasa de denuncias por robo (o índice de delincuencia) X: Un vector de variables sociodemográficas (e.g., mujeres jefas de hogar) δ: Un vector de variables socioeconómicas (e.g., tasa desempleo, distribución ingreso) ώ: Variable relacionado con los costos de delinquir (e.g., cantidad de policías,) Lo que se puede apreciar en (1.2) es que se ha agregado el término de perturbación estocástico puesto que como se mencionó anteriormente existen variables que pueden afectar el comportamiento delictivo de una persona y que no son medibles (variables de orden sicológica), o bien no se pueden recopilar por dificultad o simplemente no se ha pensado que puede tener alguna vinculación. Asimismo, para reunir las variables que se deseen utilizar el modelo expresa una simplificación al emplearse vectores que incluyen todas las variables que comparten ciertas características. El alumno debe apreciar que no se están utilizando variables dummy o cualitativas y que podrían ser agregadas (e.g., se podría agregar el estado civil, religión, etc.). Por último, como se verá más adelante, en cuanto a las variables explicativas: cantidad no implica calidad, vale decir, no por agregar más variables a un modelo econométrico éste será más preciso o más apreciado. En relación al caso de las v entas la especificación econométrica es similar. 4.- Obtención de información: Es evidente que para estimar el modelo econométrico
necesitamos obtener datos. Esta etapa que algunas veces es despreciada porque se considera y se supone que la recolección de información es fácil y segura, es una parte medular dentro de la elaboración del modelo. ¿Qué pasa si no puedo encontrar los datos de alguna variable que se consideró importante para explicar algún fenómeno? En el tema de la delincuencia, verbigracia en Chile no existen datos acerca de la tasa (o índice) de delincuencia, por lo que se utiliza frecuentemente en investigaciones la tasa de denuncias (que es un dato negro). Por consiguiente, a menudo este paso puede transformarse en una limitante para el modelo y también en algo engorroso por el tiempo que se necesita para recopilar información. 5.- Estimación del modelo econométrico: una vez se han recopilado los datos, se calculan
y encuentran los estimadores o parámetros. En el caso estudiado, sería el estimar β1 y β2 de la ecuación (1.1) . Así, conociendo los parámetros es posible conocer cuánto influye la variación de X sobre Y. Por ejemplo, si formulamos una relación sobre delincuencia:
Yi = β1 + β2Esc + β3Det + β4MJH + µ i Y lo que se estima es:
Yi = β1 + -1.84Esc + β30.020 + β467.91 + µ i
(1.3)
La estimación (1.3) nos permite realizar algunas afirmaciones sobre como algunas variables X escogidas afectan el comportamiento de Y. 6.- Prueba de hipótesis: suponiendo que el modelo ajustado es una aproximación
razonable de la realidad, se desarrollan criterios para encontrar si los valores estimados obtenidos en la ecuación concuerdan con las expectativas de la teoría. Tal confirmación o refutación de las teorías económicas con base en evidencia muestral está basada en lo conocido como inferencia estadística o prueba de hipótesis. Punto crucial ya que se analiza si las variables y el modelo construido es significante o no. 7.- Proyección: Si el modelo confirma la hipótesis o la teoría, se puede utilizar para
predecir o proyectar el valor futuro de la variable en cuestión. Es de gran interés para algunos centros de investigación pronosticar algún fenómeno en particular, por lo que etapa nos permite pronosticar o bien la media o un valor individual. 8.- Fines del modelo: Uso del modelo con fines políticos, es decir, fines de control para
poder realizar políticas públicas por un gobierno o la elección de políticas económicas. Si nuestro modelo es significante y podemos generar proyecciones, es plausible entonces 3
utilizarlo con fines de elaboración de política pública . Ahora bien, es posible resumir esta metodología de 8 pasos en sólo 4, a saber: A) Especificar B) Estimación C) Inferencia D) Proyección
3
Esta metodología no representa un modo ni tampoco es una guía para realizar una investigación académica, simplemente menciona los pasos básicos a seguir para “correr” un modelo y evaluar su impacto.
1.3 Referencias Bibliografía utilizada 1. Gujarati, Damodar. (2004) “Econometría”, Editorial McGraw-Hill, México D.F. 2. Schmidt, Stephen. (2005) “Econometría”, Editorial McGraw-Hill, México D.F. 3. Salvatore, D. y Reagle, D. (2004) “Estadística y econometría”, Editorial McGraw-Hill, Madrid. 4. Wooldridge, Jeffrey. (2005) “Introducción a la Econometría”, Editorial Thompson, Madrid.
Bibliografía complementaria Economía del Crimen 1. Becker, Gary. (1968), “Crime and Punishment: An Economic Approach”, Journal of Political Economy,
Vol.
76,
169-217.
http://www.ww.uni-
magdeburg.de/bizecon/material/becker.1968.pdf 2. Beyer, H. y Vergara, R. (2006) “Delincuencia en Chile: Determinantes y rol de las Políticas Públicas”. Concurso de Políticas Públicas de la Dirección de Asuntos Públicos de la Pontificia Universidad Católica de Chile. Agosto 2006. http://www.subdere.gov.cl/1510/articles69857_recurso_1.pdf 3. Núñez, J., J. Rivera, O. Molina, y X. Villavicencio (2003). “Determinantes Socioeconómicos y Demográficos del Crimen en Chile. Evidencia desde un Panel de Datos de las Regiones de Chile.”Estudios
de
Economía
30:
55-85.
http://www.econ.uchile.cl/public/Archivos/pub/001898cb-526c-41c7-a359-1844809fa80c.pdf 4. Levitt, Stephen. (2004), “Understanding Why Crime Fell in the 1990s: Four Factors That Explain the Decline and Six That Do Not.” Journal of Economic Perspectives, Vol. 18 N. 1, pp. 163-90. http://pricetheory.uchicago.edu/levitt/Papers/LevittUnderstandingWhyCrime2004.pdf
Economía del Deporte 1. Szymanski, Stefan. (2006) “Competitive Balance in Sports Leagues and the Paradox of Power”. International Association of sports Economists. Working paper Series. Vol. nº 18. http://www.holycross.edu/departments/economics/RePEc/spe/Szymanski_Paradox.pdf
2. Garcia, P. y Szymanski, S. (2006) “Goal! Profit maximization and Win Maximization in Football leagues”. International Association of Sports Economists. Working paper Series. Vol. nº 26. http://www.holycross.edu/departments/economics/RePEc/spe/GarciaSzymanski_Goal.pdf 3. Szymanski, Stefan. (2006) “On the Edge of Your Seat: Demand for Football on Televisión and the Urcertainty of Outcome Hypothesis”. International Association of Sports Economists. Working
Paper
Series.
Vol.
nº
31.
http://www.holycross.edu/departments/economics/RePEc/spe/Szymanski-etal_Initiative.pdf 4. Andreff, Wladimir. (2006) “New Perspectives in Sports Economics: A European View”. International Association of sports Economists. Working paper Series. Vol. nº 05. http://www.holycross.edu/departments/economics/RePEc/spe/Andreff_NewPerspectives.pdf
Economía de la Salud 1. Powell, Lisa. (2009) “Fast Food Costs and Adolescent Body Mass Index: Evidence from Panel Data”. Journal of Health Economics. Vol. 28 N. 5, pp. 963-970. (restringido) 2. Chen, Y. y Li, H (2009) “Mother’s Education and Child Health: Is there a Nurturing Effect?”. Journal of Health Economics. Vol. 28 N. 2, pp. 413-426. (restringido) 3. Moscone, F., Knapp, M, O. Tosetti. (2007) “Mental Health Expediture in England: A Spatial Panel Approach”. Journal of Health Economics. Vol. 26 N. 4, pp. 842-864. (restringido) 4. Chicaíza, L, García, M, J. Lozano. (2008) ”Bringing institutions into the health Economics”. Universidad
Nacional
de
Colombia.
Documentos
FCE.
http://www.fce.unal.edu.co/publicaciones/media/docs/DocChicaiza%20_EACP1.pdf
Economía de las Finanzas 1. Qi, Y., Roth, L, J. Wald. (2010) “Political Rights and the Cost of Debt”. Journal of Financial Economics. Vol. 95 N. 2, pp. 202-226. (restringido) 2. Hale, G. y Santos, J. (2009) “Do Banks Price Their Informational Monopoly?”. Journal of Financial Economics. Vol. 93 N. 2, pp. 185-206. (restringido)
“Para poder descargar documentos de investigación (como los restringidos) en revistas
electrónicas, deberá contactarse con su Secretaría de Estudios para obtener una clave ”.
2.-
2.1
ANALISIS DE REGRESION
Introducción
El análisis de regresión trata del estudio de la dependencia de la variable dependiente, respecto a una o más variables ( las llamadas variables explicativas o exógenas), con el propósito de estimar y/o predecir la media o valor poblacional de la variable dependiente, Y. ·
Relaciones Estadísticas v/s Relaciones determinísticas: En el análisis de regresión nos interesa lo que se conoce como dependencia estadística entre las variables, pero no la relación funcional o determinística propia de la física. En las relaciones estadísticas entre variables tratamos esencialmente con variables aleatorias o estocásticas, o sea, variables que tienen distribuciones de probabilidad. Por ejemplo, consideremos la dependencia del ejemplo que hemos señalado anteriormente en el capítulo anterior, a saber, el índice de denuncias (en relación a la delincuencia
obviamente).
Analizando la dependencia del índice de denuncias
respecto de variables como el ingreso, mujeres jefas de hogar, desempleo, educación, miedo o variables proxy o no cuantificables; es posible distinguir una dependencia de naturaleza estocástica. ¿Por qué? Debido a que las variables explicativas no nos permiten predecir de manera exacta el índice de denuncias dada la existencia de los errores involucrados en la medición de estas variables y en rezón de otra serie de factores (otras variables no consideradas o no incluidas en el modelo) que afectan colectivamente el índice de denuncias de delincuencia, pero que dada su naturaleza son difíciles de identificar individualmente. ·
Regresión v/s causalidad: una relación estadística sin importar que tan fuerte y sugestiva sea, nunca podrá establecer una conexión causal, esto es, una relación de causa-efecto. Para mayor claridad, una relación estadística no puede por si misma implicar en forma lógica una causalidad.
·
Regresión v/s correlación: es frecuente cometer un error con estos conceptos puesto que generalmente se piensa que describen lo mismo, sin embargo, son conceptos muy distintos.
El análisis de correlación tiene como objetivo medir la fuerza o grado de asociación entre variables (2 variables). Por ejemplo, se puede hablar de correlación entre el hábito de fumar y el cáncer al pulmón, las altas calificaciones en el colegio y las altas calificaciones en la universidad. En cambio, en la regresión se trata de estimar o predecir el valor promedio de una variable sobre la base de valores fijos de otras variables. Como se podrá observar, la diferencia sustancial entre ambos conceptos radica en la simetría de las variables, ya que en la correlación las variables son simétricas, vale decir, no hay diferencias entre explicativa y explicada. Por otro lado, en la regresión las variables son asimétricas, la variable endógena Y es aleatoria y la variable explicativa X tiene valores fijos. ·
Avanzando paulatinamente en el estudio de la econometría, el lector se podrá encontrar con distintos tipos de datos sobre los que se trabaja y con los que se formulan diversos modelos econométricos. Así, es posible mencionar 3 tipos de datos: a) Datos de corte transversal, se denotan con el subíndice i (e.g., Xi ).
Tabla 2.1 Estudiante
Calificación
Horas de estudio
1 2 3 4 5 6 7 8 9 10 11 12
100 70 65 40 90 20 85 72 48 67 59 35
16 15 16 10 13 8 14 13 9 12 10 8
b) Datos de serie de tiempo, se escriben con el subíndice t (e.g., Xt ). Tabla 2.2 Año
Tasa renuncia
Tasa de desempleo
1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992
1.3 1.2 1.4 1.4 1.5 1.9 2.6 2.3 2.5 2.7 2.1 1.8 2.2
6.2 7.8 5.8 5.7 5.0 4.0 3.2 3.6 3.3 3.3 5.6 6.8 5.6
c) Datos de panel (unión de datos de corte transversal y de serie de tiempo), al ser la unión de los tipos anteriores, estos datos se expresan como it (e.g., Xit ) REGION RM
REGION VIII
Tabla 2.3
Año
Tasa de denuncias
Detenciones
Año
Tasa de denuncias
Detenciones
1990 1992 1994 1996 1998 2000 2003 2006
658.5 775.6 926.6 1051.3 1027.4 1333.6 2027.4 2223.2
8546 10578 12259 14635 18279 26851 55723 44402
1990 1992 1994 1996 1998 2000 2003 2006
321.8 401.2 438.8 506.7 619.6 764.7 1246.6 1778.1
2120 2841 3485 4253 5470 7117 14326 9733
REGION VII
REGION V
Año
Tasa de denuncias
Detenciones
Año
Tasa de denuncias
Detenciones
1990 1992 1994 1996 1998 2000 2003 2006
284.6 300.2 354.3 425.0 572.0 769.3 1823.2 1721.4
987 1021 1174 1452 1901 2534 3189 3698
1990 1992 1994 1996 1998 2000 2003 2006
453.4 581.2 602.3 780.9 833.2 1046.6 1720.7 2102.4
2102 2950 2903 3722 4454 7818 12212 10787
2.2
Ideas básicas sobre regresión
Como se ha descrito anteriormente, el análisis de regresión se relaciona esencialmente con la estimación de la media (de la población) o valor promedio de la variable dependiente. No obstante, es posible que leyendo esa breve descripción no sea posible comprender, por tanto, para verlo más claramente se toma el ejemplo de una población de 60 familias que se dividen en 10 grupos de ingresos (de 80 a 260) y se analiza cómo cambia su gasto en consumo dado su ingreso. La información se resume en la siguiente tabla: Tabla 2.4
X Y
80
100
120
140
160
180
200
220
240
260
55
65
79
80
102
110
120
135
137
150
Gasto de consumo
60
70
84
93
107
115
136
137
145
152
familiar semanal Y
65
74
90
95
110
120
140
140
155
175
70
80
94
103
116
130
144
152
165
178
75
85
98
108
118
135
145
157
175
180
-
88
-
113
125
140
-
160
189
185
-
-
-
115
-
-
-
162
-
191
325
462
445
707
678
750
685
1043
966
1211
65
77
89
101
113
125
137
149
161
173
Total E (Y/X), medias condicionales de Y
De este modo, es posible vislumbrar 10 valores fijos de X y los correspondientes valores de Y para cada uno de los valores X. A pesar de la variabilidad del gasto en consumo para cada grupo de ingreso, en promedio el consumo semanal se incrementa en la misma medida que el ingreso. El siguiente gráfico muestra el promedio de cada grupo:
Gasto de consumo
200
E (Y/X)
familiar
150
100
50 80
100 120
140 160 180 200 220 240 260 Ingreso Semanal
A estos valores medios los conocemos como los valores esperados condicionales en vista de que dependen de los valores dados a la variable X. Se anota en forma simbólica como E (Y/X). Así, saber el nivel de ingreso nos permite predecir mejor el valor medio del gasto de consumo que si no supiéramos esa i nformación.
2.2.1 Concepto de Función de Regresión Poblacional (FRP) En el ejemplo dado cada media condicional E (Y/X i) es función de Xi, donde Xi es un valor dado de X. E (Y/Xi) = f (Xi)
función de regresión poblacional
Esta función denota únicamente que el valor esperado de la distribución de Y dada X i está relacionada funcionalmente con Xi. Es decir, nos dice cómo la media o respuesta promedio de Y varía con X. Ahora bien, es importante recalcar que la forma funcional de la FRP dependerá del estudio que se esté efectuando. Por tanto, si se supone que la relación entre X e Y es lineal se tiene la siguiente función lineal: E (Y/Xi) = β1 + β2Xi Donde β1 y β2 parámetros no conocidos pero fijos que se denominan coeficientes de regresión. A β1 se le conoce como el intercepto o intersección de la función en Y, mientras que β2 es conocido como la pendiente de regresión.
2.2.2 Linealidad Para el estudio de la econometría podemos hablar de linealidad tanto en las variables como en los parámetros. Para las variables: una función de regresión E (Y/X i) = β1 + β2Xi
2
no es una función lineal porque la variable explicativa X aparece elevada a una potencia. Lo lógico sobre linealidad en las variables sería esperar una regresión E (Y/X i) = β1 + β2Xi. En los parámetros: cuando la esperanza condicional de Y, E (Y/X i) es una función lineal en los parámetros, los βi (y no en las Xi). En cuanto a la variable explicativa, ésta puede ser lineal o no serlo, dependerá de la especificación de investigador o lo que postule la teoría. 3
Por ejemplo, el modelo: β1 + β2Xi , es un modelo de regresión lineal (en los parámetros). En definitiva, a lo largo de la econometría, el término de regresión lineal siempre significará una regresión que es lineal en los parámetros, los βi (vale decir, los parámetros elevados a la potencia de uno).
2.2.3 Especificación estocástica Se puede expresar la desviación de Yi individual alrededor de su valor esperado: µi = Yi - E (Y/Xi)
(2.1)
Yi = E (Y/Xi) + µi
(2.2)
Donde en (2.1), la desviación µi es una variable aleatoria que toma valores positivos o negativos. Se conoce como perturbación estocástica o término de er ror estocástico. Entonces, aludiendo al ejemplo del ingreso y el gasto semanal de una familia, se puede decir lo siguiente: 1) E (Y/Xi), representa simplemente la media del gasto de consumo de todas las familias con el mismo nivel de ingreso. Este es el componente determinístico, y 2) Mientras que µi, que es el componente aleatorio. Se puede decir que la perturbación estocástica representa todas las variables omitidas o ignoradas que puedan afectar a Y, pero que no están (o pueden no estar) incluidas en el modelo. Yi = E (Y/Xi) + µi Yi = β1 + β2Xi + µi
(2.3)
Si se aplica valor esperado a (2.3): E (Y/Xi) = E [E (Y/Xi)] + E (µi /Xi) E (Y/Xi) = E (Y/Xi) + E (µi /Xi) E (µi /Xi) = 0
(2.4)
2.2.4 Sobre la perturbación estocástica ¿Por qué no se introducen ciertas variables (no incluidas) en el modelo? ¿Por qué no se desarrolla un modelo con muchas variables que intenten explicar algún fenómeno interesante? La respuesta a estas preguntas tiene directa relación con el término de perturbación estocástica. El error estocástico puede englobar las siguientes situaciones: 1º Vaguedad de la teoría: Es posible que el investigador ignore la existencia de variables que afectan el comportamiento de Y, también puede suceder que no esté seguro sobre la variación que puede tener Y con la inclusión de una variable. En este sentido, podemos hablar de problemas de la teoría que no dejan bien especificado la relación entre X e Y (ver paso 1 en metodología de la econometría). 2º No se dispone de información cuantitativa de las variables explicativas: Se puede dar el caso en que el investigador no logre reunir los datos suficientes para satisfacer lo postulado en la teoría, por lo que tendrá que dejar variables de lado, que pasarán a formar parte del error estocástico (ver paso 4 en metodología de la econometría). 3º Aleatoriedad en el comportamiento de las personas: No se puede conocer determinísticamente el comportamiento de algún sujeto en relación a alguna actividad, es por esa razón que el término de perturbación estocástica incluye todas aquellas variables insospechadas e impensadas. En general, es difícil reflejar perfectamente la realidad a través de un modelo. No se le puede pedir a un Banco Central que reduzca la oferta de dinero en un 20%, manteniendo todos los demás factores constantes y ver qué sucede después. Siempre va a existir un acervo de variables aleatorias que van a afectar la variable endógena o fenómeno que se intenta explicar. Asimismo, es dable que no se pueda medir Y con exactitud y se manipulen variables proxy. Así, como muestra la ecuación (2.1), el proceso estimador no se ajustará perfectamente, tendiendo algunos puntos con valores mayores que Y, como también habrá otros puntos con valores más bajos.
2.3
Estimación: función de regresión muestral (FRM)
Concretamente la tarea de la FRM consiste en estimar la FRP con información muestral (por la dificultad de contar con alguna población o la imposibilidad misma de medirla). Debido a fluctuaciones muestrales pueden ser consideradas en el mejor de los casos sólo como una aproximación de la verdadera regresión poblacional (RP). La FRM se denota del siguiente modo:
i
=
1
X
+
2 i
Es posible notar
, símbolo
que se conoce como residuo
Yi =
1+
2Xi +
muestral, conceptualmente es
i
análogo a
µi y puede ser
considerado un estimado de .
Por tanto, el objetivo principal es estimar la FRP:
Yi =
Yi = β1 + β2Xi + µi
1
+
2Xi
+
i
En base en la FRM:
Yi = (2.5) (2.6) (2.7)
+
-
i
= Yi -
i
Yi = i
X+
1
i
i = Yi -
2 i
1+
i
Muestra que los residuos son 2X i
simplemente las diferencias entre los valores observados de y los valores estimados de Y.
Como se quiere obtener una regresión muestral lo más cercana posible de la real, se busca que la suma de los residuos sea la menor posible. Min = ∑
i
= ∑ (Yi -
i)
Pero al realizar esta sumatoria se le está dando el mismo peso a todos los errores. Además algunos pueden ser negativos y otros positivos, provocando que la suma sea muy pequeña incluso si existe una gran dispersión de los errores en torno a l valor observado. Recordar: El residual no es lo mismo que el término de perturbación estocástico, el
residual viene a ser la distancia entre el punto de datos y la línea estimada, el término de error es la distancia entre el punto de datos y la línea verdadera. Nunca conoceremos el valor del término de error porque tampoco conocemos
β1 y β2, el intercepto y la
pendiente. En general una línea estimada será me jor si produce residuales más pequeños, significará que está más cerca de los datos y que tenderá a la línea verdadera. Por tanto, lo que buscamos es escoger la línea estimada que produce los residuales más pequeños.
2.3.1 Estimación: Criterio de Mínimos cuadrados El principio de mínimos cuadrados consiste en seleccionara la línea estimada, escogiendo una pendiente y un intercepto (en el caso de una X), que tiene la suma más pequeña posible de los residuos cuadrados. Para ello, recordemos la ecuación (2.7) y elevarla al cuadrado: ∑
i
∑
i
2
= ∑ (Yi -
2 i)
2
= ∑ (Yi -
1
+
2 2 i)
X
(2.8)
Para calcular los estimadores (a)
(∑
i
2
)
2
)
= - 2 ∑(Yi -
1
1
-
y
2,
diferenciamos parcialmente derivando (2.8):
X = -2 ∑
2 i)
i
1
(b)
(∑ 2
i
= - 2 ∑(Yi -
1
-
X X = -2 ∑ iXi
2 i) i
Igualando a cero estas ecuaciones, se obtiene: (a) - 2 ∑ (Yi (b) - 2 ∑(Yi -
-
1
2Xi)
-
1
= 0
2Xi)Xi
=0
(a)
∑ (Yi -
1
-
2Xi)
(b)
∑ (Yi -
1
-
2Xi)Xi
/
-2
/
-2
= 0 =0
Aplicando método de los momentos: -1
(a)
n
(b)
n
Yi -
-1
1
i ( Yi
-
-
2Xi)
1
-
=0
2Xi)
=0
Reordenando (a): ∑Y =
;
∑X =
n
-
1
-
2Xi
=0
n
Por consiguiente: =
1
=
1
+
2
-
2
(2.9) -1
Ahora, aplicando (a) sobre (b) y dejando n : i
[ Yi - ( -
2
X ]=0
)-
2 i
Xi -
2 i
X2 = 0
Y - Xi +
2
i
(Yi - ) =
2
i
i
(Yi - ) =
2
i( i
i
(Yi - ) =
2
Xi - )2
i i
2
-
2
X- )
i
i
4
∑
2
- )(Yi - ) =
2
Xi - )2
= ∑xiyi
(2.10)
∑xi2 También se tiene por arreglo:
∑
2
(2.11)
= n ∑ XY - ∑X∑Y 2
n ∑X - (∑X)
2
Estos estimadores se conocen como estimadores de Mínimos cuadrados y p resentan algunas propiedades numéricas: i)
Los estimadores MCO están expresados en términos de las cantidades observables
ii) Son estimadores puntuales, proporcionan un solo valor del parámetro 5
poblacional .
2.3.2 Precisión de los estimadores
Si nos detenemos a observar las ecuaciones (2.9) y (2.10), notaremos que los mínimos cuadrados estimados son función de los datos muestrales, en consecuencia, son variables aleatorias que sus valores cambiarán en función de cada muestra, es decir, puesto que es probable que los datos cambien entre una muestra y otra, los valores estimados cambiarán. Por consiguiente, lo que se requiere es alguna medida de confiabilidad o precisión de los estimadores β1 y β2. Dicho de otra manera, se quiere saber algo sobre la variabilidad muestral de estos estimadores. En estadística, la precisión de un valor estimado es medida por su varianza, o su error estándar (standard error : se) que son las raíces cuadradas de las varianzas. Las varianzas y los errores estándar de los parámetros estimados dados en (2.9) y (2.10) o (2.11) pueden obtenerse de la siguiente manera: 2
Var (β2) = 1 * σ ∑xi
4
2
Recordar que a ∑x se conoce como x en desvío, y representa la sumatoria de los X i menos su promedio. Sucede lo mismo para ∑y. 5 Para mayor información, véase Damodar Gujarati, 2004.
2
Var (β2) = σ
∑xi
(2.12)
2
ee (β2) = σ
ee (β2) = Var(β2)
∑xi
(2.13)
2
(2.14) 6
Var(β1) = ∑X2 * σ2 n∑xi
2
ee (β1) = ∑X2 * σ2 n∑xi
ee(β1) = Var(β1)
(2.15)
2
Las notaciones Var y ee significan, varianza y errores estándar respectivamente, y donde 2
σ
es la varianza homocedástica del término de perturbación estocástica. Una vez
conocida la σ (valor constante), todos los valores son fáciles de calcular. No obstante, σ
2
2
es la varianza poblacional, es decir que no la c onocemos, por esa razón es que la misma σ
2
es estimada mediante la fórmula: 2
=∑
i
(2.16)
2
(n-k) Donde
2
2
es el estimador de MCO de la verdadera σ aunque desconocida y donde la
expresión (n-k) es conocida como el número de grados de libertad (g de l), también es posible apreciar que ∑
i
2
= SRC. Al ordenar la varianza homocedástica para el caso de la
regresión lineal, podemos expresarla como: 2
= SRC
(2.17)
(n-2)
2.4
Bondad de Ajuste 2
Se denota por R y dice que proporción de la variación en la variable dependiente está siendo explicada por la variable explicativa. Se encuentra entre 0 y 1. Entre más cercano a 2
1, mejor será el R . Para encontrar la bondad de ajuste, sabemos que: (2.18) 6
La varianza precisa el uso de la sumatoria de los valores totales y los valores en desvíos de X.
∑ (Yi - ) = ∑ ( ∑ yi = ∑ + ∑
- )+∑
i
i
i
7
Elevando (2.18) al cuadrado : 2
∑ (Yi - ) = ∑ ( 2
∑ yi = ∑
2
i
+∑
i
2
- ) +∑
i
(2.19)
2
2
Las magnitudes de (2.19) se definen como: STC = SEC + SRC
donde:
STC = Suma total de cuadrados SEC = Suma explicada de cuadrados SRC = Suma residual de cuadrados
De este modo, se puede demostrar que la variación total en la variable dependiente (y) puede ser expresada en términos de la variación explicada y la variación no explicada. Se 2
define como coeficiente de determinación R : 2
R = SEC
=
∑(
i
(2.20)
2
- )
2
STC
∑ (Yi - )
De manera análoga: 2
R = 1 - SRC = 1 - ∑ STC
2
i
2
(2.21) 2
∑ (Yi - )
2
El R o la cantidad de R que se conoce como el coeficiente de determinación, indica el porcentaje de la variación total de la variable dependiente que es explicada por la variable independiente y por lo tanto es una medida de la bondad del ajuste de los modelos econométricos. Dicho de otra manera, mide la proporción o el porcentaje de la variación total en Y explicada por el modelo de regresión. Por ejemplo, se si le presenta la siguiente regresión lineal simple: 7
Como podrá notar, en (2.12) se muestra Y en desvíos.
Salarioi = β1 + β2Educacióni + µi La regresión intenta analizar la relación entre salario y educación en una empresa, es decir, se esperaría que una persona (Xi) con un mayor nivel de educación dentro de la empresa debiese obtener un mejor salario. Luego de utilizar un paquete estadístico se obtienen los siguientes resultados: Salarioi = 7.85 + 3.15 Educacióni + µi (0.0012) (0.039) 2
R = 0.85 ¿Qué se puede decir al respecto de este modelo? La respuesta es sucinta, el modelo presenta un alto coeficiente de determinación lo que indica que la variable explicativa explica de buena forma la variación de la variable dependiente. Si el coeficiente fuese menor que 0.4, el modelo dejar de ser regular/bueno. Para entender la bondad de ajuste de una forma más precisa, Ballentine desarrolló una novedosa forma de enseñar la proporción en que Y es explicada por X. Este método gráfico es conocido como los diagramas de Ballentine.
(a)
(c)
(b)
(d)
2
Es posible apreciar las distintas proporciones en que X explica a Y, en el (a), R = 0, 2
mientras que en el lado contrario, la imagen (d) muestra un R = 1. Es importante saber propiedades sustanciales sobre el coeficiente de determinación o la bondad del ajuste del modelo: 2
1º El coeficiente es una cantidad no negativa, por tanto, si el cálculo de R entrega resultados negativos es porque algún error se ha cometido, ya sea en los números calculados anteriormente o en la fórmula. 2º Sus límites son 0
r
2
1. Un R de 1 significa un ajuste perfecto, es decir,
i
= Yi para
2
cada i. Un R de 0 significa que no hay relación alguna entre la variable explicativa X e Y.
2.5
Modelo Clásico de Regresión Lineal (MCRL) o Modelo Econométrico
1º El modelo de regresión es lineal en los parámetros: Yi = β1 + β2Xi + µi 2º Los valores de X son fijos en muestreo repetido. Más técnicamente X se supone no estocástica (ver ejemplo sobre ingresos y gasto semanal por familia). 3º El valor medio de la perturbación µ i es igual a cero. Esto es, el valor de la media condicional de µi es cero: E (µi/Xi) = 0 El alumno puede evaluar este punto revisando la ecuación (2.4).
4º Homocedasticidad: dado el valor de X, la varianza de µi, es la misma para todas las observaciones. Es decir, las varianzas condicionales de µi son idénticas, simbólicamente: 2
Var (µi/Xi) = E [µi – E (µi)/Xi] 2
Var (µi/Xi) = E (µi /Xi) Var (µi/Xi) = σ
2
2
2
E (µi ) = σ
(2.22)
2
Se establece que la varianza µi para cada Xi es algún número positivo constante igual a σ . 8
A contrario sensu, existen situaciones en la que la varianza es dispersa o heterocedástica . Var (µi/Xi) = σi
2
El subíndice indica que la varianza ya no es constante para cada observación.
5º
autocorrelación entre las perturbaciones. Dados dos valores cualesquiera de X, sean
Xi y X j (donde i
j), la correlación entre µi y µ j es cero:
Cov (µi , µ j/ Xi , X j) = E {[ µi – E (µi)]/ Xi} {[ µ j – E (µ j)]/ X j} Cov (µi , µ j/ Xi , X j) = E (µi/ Xi) (µ j/ X j) Cov (µi , µ j/ Xi , X j) = 0
6º El modelo tiene que estar correctamente especificado, esto implica que no existan errores con la inclusión de variables o la exclusión de variables por lo engorroso del proceso o por experimentar. Asimismo, supone una correcta especificación funcional del modelo. 7º No hay multicolinealidad perfecta, es decir, no hay relaciones lineales entre las 9
variables explicativas .
2.6
Propiedades de los estimadores MCO
Si se supone que µi
sigue la distribución normal, los estimadores MCO tienen las
propiedades que se mencionan a continuación: a) Son Insesgados: un estimador
es no sesgado si su valor esperado es igual a β, el
valor verdadero del parámetro que se estima. De lo contrario el parámetro será sesgado. Por consiguiente, el parámetro es insesgado si E ( ) = β. b) Tienen Varianza Mínima. Es decir, son estimadores Eficientes .
8 9
Véase el capítulo 6 Ibíd.
c) Son
consistentes .
A medida que el tamaño de la muestra aumenta
indefinidamente, los estimadores convergen hacia sus verdaderos valores poblacionales. Es decir, si conforme la muestra de datos crece arbitrariamente, la diferencia entre el valor estimado y el valor verdadero de β disminuye también arbitrariamente. De no ser así, los estimadores son inconsistentes ( véase el apéndice).
2.7 Ejercicios resueltos y propuestos
Ejercicios Resueltos: 1. Calcular los parámetros para poder establecer la ecuación de la regresión entre el Maíz (variable Y) y el Fertilizante (variable X): Tabla 2.5
Yi
Xi
(Yi - )
(Xi - )
40 44 46 48 52 58 60 68 74 80
6 10 12 14 16 18 22 24 26 32
-17 -13 -11 -9 -5 1 3 11 17 23
-12 -8 -6 -4 -2 0 4 6 8 14
∑Yi = 570 = 57
∑Xi = 180 = 18
∑y i = 0
∑ x i = 0
x iy i 204 104 66 36 10 0 12 66 136 322 ∑ x iy i = 956
2
x i 144 64 36 16 4 0 16 36 64 196 2 ∑ x i = 576
Paso 1.- Se debe calcular lo que esté en rojo, es decir, calcular los valores de las variables
en desvíos (y posteriormente las otras columnas) por lo que es necesario calcular en primer lugar los promedios tanto de la variable explicativa como explicada. Paso 2.- Se debe calcular β2, para ello tenemos: 2=
∑ x iy i 2
∑ x i
Recordando que:
2
= 956 576
1.66
2=
N ∑ XY - ∑X∑Y 2
2
N ∑X - (∑X) Se obtiene:
10 * 11216 – 570 * 180 10 *3816 - 32400
=
9560
1.66
5760
Paso 3.- Luego, reemplazando en:
1
=
-
2
1=
57 – (1.66) * (18) = 57 – 29.88 = 27.12
Paso 4.- Entonces, se obtiene la siguiente regresión estimada:
= 27.12 – 1.66Xi + µi 2. ¿Cuál es la función de expectativa condicional o función de regresión poblacional? Nos dice como la media o el promedio de la sub-población de Y responde a una variación de los valores fijos de la variables explicativas. 3. ¿Cuál es la diferencia entre la FRP y la FRM? ¿se trata de distintos nombres para la misma función? La diferencia entre la función de regresión poblacional y la muestral es muy importante, el segundo es un estimador del primero, en la mayoría de las situaciones nos encontramos con una muestra de observaciones obtenida desde la población y el investigador intenta aprender algo acerca de la población a partir de la muestra obtenida. 4. ¿Qué papel desempeña el término error estocástico µi en el análisis de regresión? ¿Cuál es la diferencia entre el término de error estocástico y el error residual? Un modelo de regresión nunca va a poder ser un completo reflejo de la realidad, es decir, no puede describir la realidad en su magnitud. 5. ¿Qué se quiere dar a entender como un modelo de regresión lineal?
Un modelo que es lineal es los parámetros, puede ser o no ser lineal en las variables. Se debe comprender que cuando hablamos de linealidad en econometría, siempre se estará haciendo referencia a los parámetros.
6. Determínese si los siguientes modelos son lineales en los parámetros, o en las variables, o en ambos ¿Cuáles de estos modelos son de regresión lineal?
Modelo
Tipo descriptivo
a) Yi = β1 + β2
+ µi
Recíproco
b) Yi = β1 + β2 ln Xi + µi
Semilogarítmico
c) ln Yi = β1 + β2Xi + µi
Semilogarítmico inverso
d) ln Yi = ln β1 + β2 ln Xi + µi
Logarítmico o doble logarítmico
e) ln Yi = β1 - β2
Logarítmico recíproco
+ µi
Para responder a esta pregunta, es necesario recordar lo que se comprende por regresión lineal. Cuando se habla de linealidad nos referimos a los parámetros y no a las variables explicativas o explicadas. Por tanto, entre los modelos presentados es posible señalar que los modelos (a), (b), (c) y (e) son modelos de regresión lineal. Mientras que el m odelo de la letra (d) no es lineal. Sin embargo si hacemos que α = ln β1, entonces el modelo también es lineal. 7. Los siguientes, ¡son modelos de regresión lineal? ¿Por qué razón? β1 + β2Xiµi
a) Yi = e b) Yi =
1 β1 + β2Xi + µi
1+e
c) ln Yi = β1 + β2
+ µi
d) Yi = β1 + (0.75 – β1)e
– β2(Xi -2)
+ µi
3
e) Yi = β1 + β2 Xi + µi
En (a) tomando el logaritmo natural, encontramos ln Yi = β1 + β2Xi + µi, donde el modelo se transforma a una regresión lineal. En el caso (b), la transformación se conoce como una transformación logit, moldeando el modelo (b) en un modelo de regresión lineal:
ln [(1 - Yi)/ Yi] = β1 + β2Xi + µi En relación al modelo presentado en (c) es posible vislumbrar que se trata de un modelo de regresión lineal ya que es lineal en los parámetros (no es lineal en los parámetros). En cambio, el modelo (d) es un modelo de regresión no lineal (en los parámetros). Lo mismo sucede con el modelo (e), es decir, es un modelo no lineal ya que la pendiente está elevada a una potencia.
8. ¿Qué se entiende por un modelo de regresión intrínsecamente lineal? Si en el ejercicio 6d), β2 valiera 0.8, ¿sería un modelo de regresión l ineal o no lineal?
Un modelo que puede ser lineal en los parámetros es llamado como modelo de regresión intrínsecamente lineal. Un caso de estos tipos de modelos es el (a) del ejercicio anterior, donde utilizando un poco de matemática se logra satisfacer la linealidad en los parámetros. Si en el modelo (d) del ejercicio anterior, la pendiente β2 fuera 0.8, el modelo -0.8(X-2)
se convertiría en una regresión lineal, dado que e
puede ser desarrollado fácilmente.
9. Se dispone de los siguientes datos anuales desde 1963 a 1972 sobre la cantidad de dinero Mt , y la renta nacional de un país Yt, en millones de unidades monetarias que se resume en: 2
∑Mt = 37.2
∑Mt = 147.18
∑MtYt= 295.95 2
∑Yt = 75.5
a)
∑Yt = 597.03
Especifique un modelo lineal que represente la teoría de que la cantidad de dinero determina la renta nacional del país.
Se nos solicita que se especifiquemos un modelo en donde la cantidad de dinero determina la renta nacional del país, por tanto podemos identificar la variable explicada y la explicativa: Yt = f (Mt) Es decir, postulamos que la renta nacional está en función de la cantidad de dinero, entonces, econométricamente: Yt =
1
+
2Mt
+ µt
b) Calcule las estimaciones de los parámetros a partir de la muestra inicial. ¿Cuál es la interpretación del término constante y de la pendiente de la re cta de regresión? En este caso, lo primero que debemos hacer es observar el enunciado y notar que n =10, lo que nos permite calcular los promedios de las variables, esto es: = 75.5/10 = 7.55 = 37.2/10 = 3.72 Analizando los datos que nos son entregados, se debe emplear la fórmula (2.11) para calcular la pendiente de la regresión: 2
= 10 * 295,95 - 37,2 * 75,5 2
10 * 147,18 - (37,2) 2
= 1.714
Ahora procedemos a calcular el intercepto, recordando (2.9): 1
= 7.55 – (1.714* 3.72)
1
= 1.18
Entonces, la regresión la podemos expresar como: Yt = 1.18 + 1.714Mt + µt c) Calcule la suma de cuadrados explicada, SCE, y la suma de cuadrados residual, SCR, de la regresión. Recordemos que STC = SEC + SRC Siendo STC: STC = ∑yi
2
2
2
= ∑ (Yi - )
Entonces, reemplazando los datos: 2
STC = 597.03 - [10 * ( 7.55) ] STC = 597.03 – [570.025] STC = 27.005
Siendo SEC:
2
∑Y – n( )
SEC = ∑
i
2
=∑(
i
2
- )
2
2
*∑xi
2
2
2
2
2
*∑X - n( )
Por tanto: 2
2
SEC = (1,714) * [147,18 – (10 * (3,72) ] SEC = 2,9377 * [8,8] SEC = 25,85
Luego, si ordenamos SRC = STC – SEC, tenemos: SRC = 27.005 – 25.85 SRC = 1.155 2
d) Calcule el R de la regresión. Interprete su significado. 2
2
R = SEC
R = 25.85
STC
27.005
2
R = 1 – SRC
2
R = 1 - 1.155 = 0.957
STC e)
= 0.957
27.005
Calcule e intérprete los errores estándar de los parámetros
En primera instancia necesitamos calcular la varianza homocedástica de µ: 2
2
=∑
∑
(n-k) 2
=1.155/(10-2) = 0.144
Reemplazando en (2.17) y (2.18) Var (
1)
= 147.18 * 0.144 10 * 8.8
Var ( ee (
1) 1)
= 0.24084
= 0.49075
2
= SRC
Var (
2)
= 0.144 8.8
Var ( ee (
2) 2)
= 0.01636
= 0.12792
10. Los siguientes datos corresponden a una estimación de los Ingresos por ventas de una empresa (Y) y el Número de vendedores (X), para el período Enero 2004 a Diciembre 2004. Ambos expresados en miles de pesos. 2
2
= 80. 3764
∑ X i = 471 ∑Xi = 69
∑XiYi = 3541 ∑Yi = 561
a) Calcular la ecuación estimada del modelo Por ecuación estimada entendemos calcular los estimadores de la regresión que en este caso, al tener una variable explicativa, tenemos que calcular solamente dos parámetros. Lo primero que debemos hacer es calcular la pendiente, sin embargo nos falta el número de observaciones. Si se observa detenidamente el enunciado, se podrá apreciar que se entrega (n = 12). Una vez con todos los datos suficientes, reemplazamos en (2.11): 2
= 12 * 3541 – 69 * 561 2
12 * 471 - (69)
2
= 4.245
Para calcular el intercepto se requiere contar con los promedios de las variables: = 561/12 = 46.75 = 69/12 = 5.75 Con la estimación de la pendiente y los promedios reemplazamos en (2.9): 1
= 46.75 – (4.245 * 5.75)
1
= 22.35