M´etodos Estad´ısticos III
Villa Cox/Sabando
Apuntes de Clase # 5 Fecha: II T´ermino-2012
1.
Distribuciones condicionadas (Caso Bivariante)
Condicionar y utilizar distribuciones condicionales juega un papel fundamental en la modelizaci´on econom´etrica. Vamos a considerar algunos resultados generales para una distribuci´on bivariante. (Todos estos resultados se pueden extender directamente el caso multivariante). En una distribuci´ on bivariante, hay una distribuci´ on condicional sobre y para cada valor de x. Las densidades condicionales son f (y|x) =
f (x, y) fx (x)
f (x|y) =
f (x, y) fy (y)
y
Se deduce que: Si x
e
y son independientes,
f (y|x) = fy (y)
y f (x|y) = fx (x)
La interpretaci´ on es que si las variables son independientes, las probabilidades de los sucesos relacionados con una variable no est´ an relacionadas con la otra. La definici´on de densidades condicionales tiene como implicaci´ on el siguiente resultado importante.
f (x, y)
= f (y|x)fx (x) = f (x|y)fy (y).
1.1.
Regresi´ on. La media condicional
Una media condicional es la media de la distribuci´on condicional y se define por Z yf (y|x)dy si y es continua, y E[y|x] = X yf (y|x) si y es discreta. y
A la funci´ on de media condicional E[y|x] se le denomina regresi´ on de y sobre x. Ejemplo 1.1.1 Regresi´ on en una distribuci´ on exponencial. Considera la distribuci´ on condicional. f (y|x) =
1 e−y/(α+βx) , α + βx
y > 0, 0 6 x 6 1.
N´ otese que la densidad condicional de y es una funci´on de x. La media condicional se puede obtener integrando por partes (o de manera m´as simple, utilizando los resultados de la funci´on gamma) o fij´ andose en que ´esta es una distribuci´on exponencial con λ = 1/(α + βx). La media de una distribuci´ on exponencial con par´ ametro λ es 1/λ. Por tanto, E[y|x] = α + βx.
A5-1
Una variable aleatoria siempre se puede escribir como
y
= E[y|x] + (y − E[y|x]) = E[y|x] + .
Ejemplo 1.1.2 Regresi´ on Poisson En su estudio de 1984, Hausman sugieren que la distribuci´on Poisson es un modelo razonable para la distribuci´on del n´ umero de patentes concedidas a las empresas en un determinado a˜ no (P): λP e−λ , P = 0, 1, 2, ... P! Sin embargo, se sabe que cuanto m´as se invierte en investigaci´on y desarrollo (R), mayor es, en promedio, el n´ umero de patentes recibidas. Esta interacci´on deber´ıa afectar a la distribuci´on de P . C´ omo se distribuye R entre las empresas es una cuesti´on colateral, que puede ser o no de inter´es. Pero en lo que estamos interesados es en c´omo interactuan R y el n´ umero medio de patentes. Como el valor medio de las patentes recibidas es λ, supongamos que la distribuci´on previo P es condicional en R y especificamos que λ = α + βR = E[P |R]. f (P ) =
Esperar´ıamos que β fuese positiva. Por tanto, (α + βR)P e−(α+βR) , P! que capta el efecto que busc´ abamos, Observar un gran n´ umero de patentes puede reflejar un valor alto del proceso Possion, o bien puede que se derive de un valor inusualmente alto de R. f (P |R) =
1.2.
Varianza condicional
La varianza condicional es la varianza de la distribuci´on condicional: V ar[y|x]
= E[(y − E[y|x])2 |x] Z = (y − E[y|x])2 f (y|x)dy,
si
y
es continua
y
o V ar[y|x] =
X
(y − E[y|x])2 f (y|x),
si
y
es discreta
y
El c´ alculo puede simplificarse utilizando V ar[y|x] = E[y 2 |x] − (E[y|x])2 . Ejemplo 1.2.1 Varianza condicional en un modelo Poisson La distribuci´on de Poisson ilustra una trampa que a veces se da en la especificaci´on de un modelo econom´etrico. En una distribuci´on Poisson, la media es igual a la varianza. No hemos descartado la posibilidad de que α + βR puede ser negativo para algunos valores de α y β. No s´olo es ´este un par´ametro en cualquier caso inv´alido para la distribuci´ on Poisson, sino que adem´ as, permite una varianza negativa. Esto es un error com´ un de especificaci´ on. A la varianza condicional se la denomina funci´ on ced´ astica y, como la regresi´on, es generalmente una funci´ on de x. Sin embargo, a diferencia de la funci´on de la media condicional, lo habitual es que la varianza condicional no var´ıe con x. Examinaremos un caso particular. Esto no implica, sin embargo, que V ar[y|x] sea igual a V ar[y], que, en general, no ser´a el caso. Implica, solamente, que la varianza condicional es una constante. El caso en que la varianza condicional no var´ıa con x se denomina homocedasticidad (varianza igual. o constante).
A5-2
1.3.
Relaciones entre momentos condicionales y marginales
En los siguientes teoremas se presentan algunos resultados u ´tiles sobre los momentos de una distribuci´ on condicional: Teorema 1.3.1 Ley de las esperanzas iteradas. E[y] = Ex [E[y|x]]. La notaci´ on Ex [·] indica la esperanza sobre valores de x. Ejemplo 1.3.1 Distribuci´ on mixta uniforme-exponencial. Supongamos que x se distribuye uniformemente entre 0 y 1. Entonces la distribuci´on marginal de x es f (x) = 1, y la distribuci´ on conjunta es f (x, y) = f (y|x)f (x) As´ı, ∞
Z
Z
1
y
E[y] = 0
0
1 e−y/(α+βx) dxdy α + βx
Pero E[y|x] = α + βx, de modo que
E[y]
=
Ex [E[y|x]]
=
E[α + βx]
=
α + βE[x].
Como x sigue una distribuci´ on uniforme enrtre 0 y 1, E[x] = 1/2. Por tanto, E[y] = α + β(1/2). En cualquier distribuci´ on bivariante
Cov[x, y]
= Cov[x, E[y|x]] Z = (x − E[x])E[y|x]fx (x)dx. x
Ejemplo 1.3.2 Covarianza y distribuci´ on mixta En continuaci´on del ejemplo anterior ∞
Z
Z
Cov[x, y] = 0
0
1
(x − 1/2)[y − (α + β/2)] −y/(α+βx) e dxdy, α + βx
que, en principio, puede calcularse directamente. Sin embargo,
Cov[x, y]
= Cov[x, E[y|x]] = Cov[x, α + βx] = βV ar[x] = β[1/12].
Los ejemplos anteriores proporcionan un resultado adicional para el caso especial en que la funci´ on de la media condicional es lineal en x. Teorema 1.3.2 Los momentos en una regresi´ on lineal. Si E[y|x] = α + βx entonces α = E[y] − βE[x] y β=
Cov[x, y] V ar[x]
El siguiente teorema tambi´en aparece de diversas formas en el an´alisis de regresi´on
A5-3
Teorema 1.3.3 Descomposici´ on de la varianza En una distribuci´on conjunta, V ar[y] = V arx [E[y|x]] + Ex [V ar[y|x]]. La notaci´ on V arx [·] indica la varianza sobre la distribuci´on de x. Esto indica que en una distribuci´ on bivariante, la varianza de y se descompone en la varianza de la funci´on de media condicional m´ as la varianza esperada alrededor de la media condicional. Ejemplo 1.3.3 Descomposici´ on de la varianza Como en el caso anterior, la integraci´on directa de la distribuci´on conjunta es dif´ıcil. Pero
V arx [E[y|x]]
= V ar[α + βx] = β 2 V ar[x] β2 , = 12
y como la varianza de la variable exponencial es 1/λ2 ,
Ex [V ar[y|x]]
= E[(α + βx)2 ] = α2 + β 2 E[x2 ] + 2αβE[x] = α2 + β 2 (1/3) + 2αβ(1/2).
La varianza marginal es la suma de las dos partes: V ar[y] = α(α + β) +
5β 2 . 12
Teorema 1.3.4 Varianza residual de una regresi´ on. En cualquier distribuci´on bivariante, Ex [V ar[y|x]] = V ar[y] − V arx [E[y|x]]. En promedio, condicional reduce la varianza de la variable sujeta al condicionamiento. Por ejemplo, si y es homoced´ astica, se cumple siempre que la varianza de las(s) distribuci´es(es) condicional(es) es mejor o igual a la varianza marginal de y. Teorema 1.3.5 Regresi´ on lineal y homocedasticidad En una distribuci´on bivariante, si E[y|x] = α + βx y si V ar[y|x] es una constante, entonces V ar[y|x] = V ar[y](1 − Corr2 [y, x]) = σ 2 (1 − ρ2xy ) Ejemplo 1.3.4 Varianza condicional en una regresi´ on Poisson En la relaci´on patentesinvestigaci´ on (I+D) del ejercicio 1.1.2, supongamos que R es una fracci´on constante del tama˜ no de la empresa, y que esta variable sigue una distribuci´on lognormal. As´ı, R tambi´en seguir´a una distribuci´ on lognormal. Supongamos que µ = 0 y σ = 1. Entonces E[R] =
√
e = 1,65 y
V ar[R] = 4,65
Supongamos tambi´en que α = 1 y β = 2. Entonces E[P |R]
=
1 + 2R
E[P ]
=
1 + 2E[R] = 4,30
V arR [E[P |R]]
=
4V ar[R] + 18,6
V ar[P |R]
=
1 + 2R
ER [var[P |R]]
=
4,30
V ar[P ]
=
18,6 + 4,30 = 22,9
N´ otese que V ar[P ] es apreciablemente mayor que E[Var[P—R]]. A5-4
1.4.
El an´ alisis de la varianza
El resultado de descomposici´ on de la varianza implica que en una distribuci´on bivariante, la variaci´ on de y surge por dos motivos: 1. Variaci´ on porque E[y|x] var´ıa con x: varianza de regresi´ on=V arx [E[y|x]]. 2. Variaci´ on proque, en cada distribuci´on condicional, y var´ıa alrededor de la media condicional: varianza residual=Ex [V ar[y|x]]. Por tanto, Var[y]=varianza de regresi´on + varianza residual Cuando analicemos una regresi´ on, habitualmente estaremos interesados en cu´al de las dos partes de la varianza total, V ar[y], es la mayor. Por ejemplo, en la relaci´on patentes-(I+D), ¿cu´al explica m´ as la varianza del n´ umero de patentes recibidas? ¿variaciones en la cantidad de I+D (varianza de regresi´ on) o la variaci´ on aleatoria en las patentes recibidas dentro de la distribuci´on Poisson (varianza residual)? Una medida natural es el cociente de regresi´ on . coeficiente de determinaci´ on= varianza varianza total
Ejemplo 1.4.1 An´ alsis de la varianza en un modelo Poisson Para la descomposici´on del ejemplo 1.3.4 coeficiente de determinaci´on= 18,6 22,9 = 0,812. Si E[y|x] = α + βx, entonces el coeficiente de determinaci´on COD=ρ2 , donde ρ2 es la correlaci´on al cuadrada entre x e y. Podemos concluir que el coeficiente de correlaci´on (al cuadrado), es una mediada de la proporci´ on de la varianza de y que se explica por la variaci´on de la media de y, dado x. En este sentido la correlaci´ on puede ser interpretada como una medida de asociaci´ on lineal entre dos variables.
2.
La distribuci´ on normal bivariante
Una distribuci´ on bivariante que cumple muchas de las caracter´ısticas descritas anteriormente es la normal bivariante. Esta distribuci´ on es la conjunta de dos variables normalmente distribuidas. La funci´ on de densidad es
f (x, y)
=
x
=
y
=
2 2 2 1 p e−1/2[(x +y −2ρx y )/(1−ρ )] 2 2πσx σy 1 − ρ x − µx σx y − µy σy
+
Los par´ ametros µx , σx , µy y σy son las medias y desviaciones t´ıpicas de las distribuciones marginales de x e y, respectivamente. El par´ ametro adicional ρ es la correlaci´on entre x e y. La covarianza es σxy = ρσx σy . La densidad est´ a definida s´ olo si ρ no es 1 o -1. Esto, a su vez, requiere que las dos variables no est´en relacionadas linealmente. Si x e y tienen una distribuci´on normal bivariante, que representamos por (x, y) ∼ N2 [µx , µy , σx , σy , ρ], A5-5
1. Las distribuciones marginales son normales fx (x) = N [µx , σx2 ], fy (y) = N [µy , σy2 ]. 2. Las distribuciones condicionales son normales:
f (y|x)
=
N [α + βx, σy2 (1 − ρ2 )]
α
=
β
=
µy − βµx σxy σx2
y lo mismo para f (x|y). 3. x e y son independientes si y s´ olo si ρ = 0. La densidad se descompone en el producto de las dos distribuciones marginales normales si ρ = 0. Dos aspectos a tener en cuenta sobre las distribuciones condicionales, adem´as de su normalidad, son sus funciones de regresi´ on lineales y sus varianzas condicionales constantes. La varianza condicional es menor que la varianza marginal.
2.1.
Distribuciones marginales y condicionales normales
Sea x1 cualquier subconjunto de las variables, inclusive el caso de una u ´nica variable, y sea x2 las restantes variables. Particionemos µ y Σ de la misma forma, de modo que µ1 Σ11 Σ12 µ= y Σ= µ2 Σ21 Σ22 Entonces, las distribuciones marginales son tambi´en normales, En particular, se cumple el siguiente teorema. Teorema 2.1.1 Distribuciones marginales y condicionales normales. Si [x1 , x2 ] siguen una distribuci´ on conjunta normal multivariante, entonces sus distribuciones marginales son µ1 , Σ11 ) x1 ∼ N (µ y µ2 , Σ22 ). x2 ∼ N (µ La distribuci´ on condicional de x1 dado x2 es normal, tambi´en: µ1,2 , Σ11,2 ) x1 |x2 ∼ N (µ donde µ1,2 = µ 1 + Σ 12 Σ−1 12 (x2 − µ2 ) Σ 11,2 = Σ 11 − Σ 12Σ −1 22 Σ 21 .
2.2.
Modelo cl´ asico de regresi´ on lineal
Un importante caso especial es que en la x1 es una sola variable y x2 es K variable, donde la distribuci´ on condicional en versi´ on multivariada es β = Σ−1 xx σxy donde σxy es el vector de covarianzas de y con x2 . Recordemos que cualquier variable aleatoria puede ser escrita como su media m´as la desviaci´ on de su media. Si aplicamos esto a la normal multivariada podemos obtener, y = E[y|x] + (y − E[y|x]) = α + β 0 x + ε donde β esta dada en la parte de arriba, α = µy − β 0 µx , ε tiene distribuci´on normal. Tenemos as´ı, en esta distribuci´ on multivariante, el cl´asico modelo de regresi´on lineal. A5-6
3.
El m´ etodo de los m´ınimos cuadrados
En la pr´ actica real, hay muchos problemas donde un conjunto de datos asociados en parejas dan una indicaci´ on de que la regresi´ on es lineal, donde no conocemos la distribuci´on conjunta de las variables aleatorias en consideraci´on pero, sin embargo, queremos estimar los coeficientes de regresi´ on α y β. Los problemas de esta clase usualmente se manejan por el m´ etodo de los m´ınimos cuadrados, un m´etodo de ajuste de curvas que a principios del siglo XIX sugiri´o el matem´atico franc´es Adrien Legendre. Para ilustrar esta t´ecnica, consideremos los datos siguientes sobre el n´ umero de horas que 10 personas estudiaron para una prueba de franc´es y sus puntuaciones en la prueba: Horas estudiadas
Puntuaci´ on en la prueba
x
y
4
31
9
58
10
65
14
73
4
37
7
44
12
60
22
91
1
21
17
84
Al hacer la gr´ afica de estos datos como se muestra en la figura, nos da la impresi´on de que una l´ınea recta proporciona un ajuste razonable bueno. Aunque los puntos no caen todos en la l´ınea recta, el patr´ on general sugiere que la puntuaci´on promedio de la prueba para un n´ umero dado de horas de estudio bien puede estar relacionado con el n´ umero de horas estudiadas mediante la ecuaci´on de la forma uY |x = α + βx.
Una vez que hemos decidido en un problema dado que la regresi´on es aproximadamente lineal, nos enfrentamos al problema de estimar los coeficiente α y β de los datos muestrales. En otras palabras, nos enfrentamos al problema de obtener estimaciones de α ˆ y βˆ tales que la l´ınea de ˆ regresi´ on estimada yˆ = α ˆ + βx provea, en alg´ un sentido, el mejor ajuste posible a los datos. Al denotar la desviaci´ on vertical de un punto de la l´ınea por ei , como se indica en la figura, el criterio de los m´ınimos cuadrados sobre el cual basaremos esta “bondad de ajuste” requiere que minimicemos la suma de los cuadrados de estas desviaciones. As´ı, se nos da un conjunto de datos asociados en A5-7
parejas {(xi , yi ); i = 1, 2, ..., n}, las estimaciones de m´ınimos cuadrados de los coeficientes de regresi´ on son los valores α ˆ y βˆ para los cuales la cantidad q=
n X
n X ˆ i )]2 [yi − (α ˆ + βx
e2i =
i=1
i=1
es un m´ınimo. Al diferenciar parcialmente con respecto α ˆ y βˆ y al igualar a cero estas derivadas parciales, obtenemos: 2 X ∂q ˆ i )] = 0 = (−2)[yi − (α ˆ + βx ∂α ˆ i=1 y 2
X ∂q ˆ i )] = 0 = (−2)xi [yi − (ˆ α + βx ∂ βˆ i=1
lo cual produce el sistema de ecuaciones normales. n X
= α ˆ n + βˆ
yi
i=1 n X
2 X
xi
i=1
xi yi
= α ˆ
i=1
2 X
xi + βˆ
i=1
2 X
x2i
i=1
Al resolver este sistema de ecuaciones mediante el uso de determinantes o del m´etodo de eliminaci´ on, encontramos que la estimaci´ on de m´ınimos cuadrados de β es es n βˆ =
X n
xi yi
−
X n
i=1
n
xi
X n yi
i=1
X n
x2i
−
i=1
i=1
X n
2 xi
i=1
Entonces podemos escribir la estimaci´ on de m´ınimos cuadrados de α como n n X X xi yi − βˆ ·
α ˆ=
i=1
i=1
n
al resolver la primera de las dos ecuaciones normales para α ˆ . Esta f´ormula para α ˆ tambi´en se puede escribir como α ˆ = y¯ − βˆ · x ¯ Para simplificar la f´ ormula para βˆ as´ı como algunas de las f´ormulas que encontraremos, introducimos la notaci´ on siguiente: n 2 n n X X 1 X 2 2 Sxx = (xi − x ¯) = xi − xi n i=1 i=1 i=1 Syy =
n X i=1
(yi − y¯)2 =
n 2 n X 1 X yi2 − yi n i=1 i=1
y Sxy =
n X n n n X X 1 X (xi − x ¯)(yi − y¯) = xi yi − xi yi n i=1 i=1 i=1 i=1
As´ı podemos escribir
A5-8
Teorema 3.0.1 Dados los datos muestrales {(xi , yi ); i = 1, 2 · · · , n}, los coeficientes de la l´ınea de ˆ son m´ınimos cuadrados yˆ = α ˆ + βx Sxy βˆ = Sxx y α ˆ = y¯ − βˆ · x ¯ Ejemplo 3.0.1 Con respecto a los datos de la tabla anterior, 1. Encuentre la ecuaci´ on de la l´ınea de m´ınimos cuadrados que aproxime la regresi´on de las puntuaciones de la prueba sobre el n´ umero de horas estudiadas; 2. Prediga la puntuaci´ on promedio de la prueba de una persona que estudi´o 14 horas para la prueba Soluci´ on
1. P Al omitir losPl´ımites de laPsuma en aras P de la simplicidad, de los datos obtenemos n = 10, x = 100, x2 = 1376 y = 564 y xy = 6945. As´ı Sxx = 1376 −
1 (100)2 = 376 10
y Sxy = 6945 −
1 (100)(564) = 1305 10
1305 564 100 As´ı, βˆ = = 3,471 y α ˆ= − 3,471 · = 21,69, y la ecuaci´on de la l´ınea de m´ınimos 376 10 10 cuadrados es y¯ = 21,69 + 3,471x 2. Al sustituir x = 14 en la ecuaci´ on obtenida en el inciso 1, obtenemos y¯ = 21,69 + 3,471(14) = 70,284 o y¯ = 70, redondeado a la unidad m´as cercana.
3.1.
Regresi´ on lineal m´ ultiple
Se pueden usar muchas f´ ormulas diferentes para expresar las relaciones entre m´as de dos variables, la m´ as ampliamente usada con las ecuaciones lineales de la forma: µY |x1 ,x2 ,···xk = β0 + β1 x1 + β2 x2 + · · · + βk xk Esto es parcialmente un asunto de conveniencia matem´atica y parcialmente causado por el hecho que muchas relaciones son realmente de esta forma o se pueden aproximar estrechamente por ecuaciones lineales. En la ecuaci´ on de arriba, Y es la variable aleatoria cuyos valores queremos predecir en t´erminos de los valores de x1 , x2 , · · · , xk y β0 , β1 , β2 , ..., βk , los coeficientes de regresi´ on m´ ultiple, son constantes num´ericas que se deben determinar a partir de los datos observados. Para ilustrarlo, considere la ecuaci´ on siguiente, que se obtuvo en un estudio de la demanda para diferentes carnes. yˆ = 3,489 − 0,090x1 + 0,064x2 + 0,019x3
A5-9
En este caso yˆ denota el consumo de carne de res y ternera inspeccionadas federalmente en millones de libras, x1 denota un precio compuesto de venta al menudeo de carne de res en centavos por libra, x2 denota un precio compuesto de venta al menudeo de carne de puerco en centavos por libra, y x3 denota el ingreso medido de acuerdo a ciertos ´ındices de n´omina. Como en la anterior secci´on donde s´ olo hab´ıa una variable independiente x, suelen estimarse los coeficientes de regresi´on m´ ultiple mediante el m´etodo de los m´ınimos cuadrados. Para n puntos de datos {(xi1 , xi2 , ..., xik , yi ); i = 1, 2, ...n} las estimaciones de m´ınimos cuadrados de las β son los valores βˆ0 , βˆ1 , βˆ2 , .., βˆk para los cuales la cantidad q=
n X
[yi − (βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik )]2
i=1
es un m´ınimo. En esta notaci´ on, xi1 es el i´esimo valor de la variable x1 , xi2 es el i´esimo valor de la ¯ y al igualar variable x2 , y as´ı respectivamente. As´ı, diferenciamos parcialmente con respecto a las β, estas derivadas parciales a cero, obtenemos ∂q ∂ βˆ0 ∂q ∂ βˆ1
=
n X (−2)[yi − (βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik )] = 0 i=1
n X = (−2)xi1 [yi − (βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik )] = 0 i=1 n X = (−2)xi2 [yi − (βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik )] = 0
∂q ∂ βˆ2 i=1 ... n X ∂q = (−2)xik [yi − (βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik )] = 0 ∂ βˆk i=1
y finalmente las k + 1 ecuaciones normales: X
y
X
x1 y
X
x2 y
X X X βˆ0 · n + βˆ1 · x1 + βˆ2 · x2 + · · · + βˆk · xk X X X X = βˆ0 · x1 + βˆ1 · x21 + βˆ2 · x1 x2 + · · · + βˆk · x1 xk X X X X = βˆ0 · x2 + +βˆ1 · x2 x1 + βˆ2 · x22 + · · · + βˆk · x2 xk =
... X
xk y
= βˆ0 ·
X
xk + +βˆ1 ·
X
xk x1 + βˆ2 ·
En este caso abreviamos nuestra notaci´on al escribir
n X i=1
X
xk x2 + · · · + βˆk ·
xi1 como
P
x1 ,
n X
X
x2k
xi1 xi2 como
P
x1 x2 ,
i=1
y as´ı sucesivamente. Ejemplo 3.1.1 Los datos siguientes muestran el n´ umero de rec´amaras, el n´ umero de ba˜ nos y los precios a los que se vendi´ o recientemente una muestra aleatoria de casas unifamiliares en cierto desarrollo habitacional grande:
A5-10
N´ umero de rec´ amaras x1 3 2 4 2 3 2 5 4
N´ umero de ba˜ nos x2 2 1 3 1 2 2 3 2
Precio (d´ olares) y 78800 74300 83800 74200 79700 74900 88400 82900
Use el m´etodo de m´ınimos cuadrados para encontrar una ecuaci´on lineal que nos permita predecir el precio promedio de venta de una casa unifamiliar en el desarrollo habitacional dado en t´erminos del n´ umero de rec´ amaras y el n´ umero de ba˜ nos. Soluci´ on P Las sustituir en las tres normales son n = 8,P x1 = P cantidades P que necesitamos P para P Pecuaciones P 2 2 25, x2 = 16, y = 637000, x1 = 87, x1 x2 = 55, x2 = 36, x1 y = 2031100 y x2 y = 1297700, y obtenemos 8βˆ0 + 25βˆ1 + 16βˆ2 2031100 = 25βˆ0 + 87βˆ1 + 55βˆ2 1297700 = 16βˆ0 + 55βˆ1 + 36βˆ2 637000
=
Podr´ıamos resolver estas ecuaciones por el m´etodos de eliminaci´on o por el m´etodo de los determinantes, pero en vista de los c´ alculos m´ as bien tediosos, se suele dejar este trabajo a las computadoras. As´ı, refir´ amonos a los resultados con valores de βˆ0 = 65191,7, βˆ1 = 4133,3 y βˆ2 = 758,3. Despu´es de redondear, la ecuaci´ on de m´ınimos cuadrados se vuelve yˆ = 65192 + 4133x1 + 758x2 y esto nos dice que (en el desarrollo habitacional dado y en el momento en que se hizo el estudio) cada rec´ amara extra a˜ nade en promedio $4133 y cada ba˜ no $758 al precio de venta de una casa. Ejemplo 3.1.2 Con base en el resultado obtenido en el ejemplo anterior, prediga el precio de venta de una casa con tres rec´ amaras con dos ba˜ nos en el desarrollo habitacional grande. Soluci´ on Al sustituir x1 = 3 y x2 = 2 en la ecuaci´on obtenido arriba, obtenemos yˆ = 65192 + 4133(3) + 758(2) = $79107
A5-11
3.2.
Regresi´ on lineal m´ ultiple (notaci´ on matricial)
El modelo que estamos usando en la regresi´on lineal m´ ultiple se presta de manera u ´nica a un tratamiento unificado en notaci´ on matricial. Esta notaci´on hace posible enunciar resultados generales en forma compacta y utilizar muchos resultados de la teor´ıa matricial con gran ventaja. Para expresar las ecuaciones normales en notaci´ on matricial, definamos las siguientes matrices:
1 1 X = 1 y1 y2 . Y = . . yn
x11 x21
xn1
· · · x1k · · · x2k . . xn2 · · · xnk ˆ β0 βˆ1 . y B= . . βˆk x12 x22
La primera X es una matriz de n × (k + 1) que consiste esencialmente de los valores de las x, donde se a˜ nade una columna 1 para dar cabida a los t´erminos constantes. Y es una matriz de n×1 (o vector columna) que consiste en los valores observados de Y , y B es una matriz (k + 1) × 1 (o vector columna) que consiste en las estimaciones de m´ınimos cuadrados de los coeficientes de regresi´on. Al usas estas matrices, podemos ahora escribir la siguiente soluci´on simb´olica de las ecuaciones normales Teorema 3.2.1 Las estimaciones de m´ınimos cuadrados para los coeficientes de regresi´on m´ ultiple est´ an dadas por B = (X0 X)−1 X0 Y donde X0 es la transpuesta de X y (X0 X)−1 es la inversa de X0 X. Demostraci´ on Primero determinamos X0 X, X0 XB y X0 Y, y obtenemos P P n ··· P P x12 P x2 x x x x ··· 1 1 2 P P 1 P 2 x x x x ··· 2 2 1 0 2 XX= . . P P P xk xk x1 xk x2 · · · P P ˆ β0 · n +βˆ1 · x1 +βˆ2 · x2 P P P βˆ0 · x1 +βˆ1 · x21 +βˆ2 · x1 x2 P P βˆ · x +βˆ · x x +βˆ · P x2 0 2 1 2 1 2 2 X0 XB = P P P βˆ0 · xk +βˆ1 · xk x1 +βˆ2 · xk x2 P Py P x1 y 0 x2 y XY= . P xk y
P P xk P x1 xk x2 xk
P
x2k
+··· +··· +··· . . +···
P +βˆk · xk P +βˆk · x1 xk P +βˆk · x2 xk +βˆk ·
P
x2k
Al identificar los elementos de X0 XB como las expresiones en el lado derecho de las ecuaciones normales y las de X0 Y como las expresiones en el lado izquierdo, podemos escribir X0 XB = X0 Y A5-12
Al multiplicar en el lado izquierdo por (X0 X)−1 , obtenemos (X0 X)−1 X0 XB = (X0 X)−1 X0 Y y finalmente B = (X0 X)−1 X0 Y puesto que (X0 X)−1 X0 X es igual a la matriz identidad I (k + 1) × (k + 1) y por definici´on IB=B. En este casos hemos supuesto que X0 X no tiene singularidad de manera que existe su inversa. Ejemplo 3.2.1 Con respecto al ejemplo de las casas unifamiliares en el desarrollo habitacional, use el teorema 3.2.1 para determinar las estimaciones de m´ınimos cuadrados de los coeficientes de regresi´ on m´ ultiple. Soluci´ onP P P 2 P P 2 Al sustituir x1 = 25, x2 = 16, x1 = 87, x1 x2 = 55, x2 = 36 y n = 8 en la expresi´on para X0 X de arriba, obtenemos 8 25 16 X0 X = 25 87 55 16 55 36 Entonces, la inversa de esta matriz se puede obtener mediante cualquiera de diversas t´ecnicas: al usar la que est´ a basada en los cofactores, encontramos que 107 −20 −17 1 −20 32 −40 (X0 X)−1 = 84 −17 −40 71 P P 0 0 donde 84 y = 637000, x1 y = P es el valor de |X X|, el determinante 0de X X. Al sustituir 2031100 y x2 y = 1297700 en la expresi´on para X Y, obtenemos entonces 637000 1 2031100 X0 Y = 84 1297700 y finalmente, 107 −20 −17 637000 1 −20 32 40 · 2031100 (X0 X)−1 X0 Y = 84 −17 −40 71 1297700 5476100 1 347200 = 84 63799 65191,7 = 4133,3 758,3 donde las βˆ est´ an redondeadas a un decimal. Advierta que los resultados obtenidos aqu´ı son id´enticos a los mostrados en el ejercicio anterior. Si se supone que para i = 1, 2, ..., n las Yi son variables aleatorias independientes que tienen distribuciones normales con las medias β0 + β1 xi1 + β2 xi2 + ... + βk xik y la desviaci´on est´andar com´ un σ. Con base en n puntos de datos (xi1 , xi2 , ..., xik , yi ) podemos entonces hacer toda clase de inferencias sobre los par´ametros de nuestro modelo, las β y σ, y juzgar los m´eritos de las estimaciones y las predicciones basadas en la ecuaci´on estimada de A5-13
regresi´ on simple. Las estimaciones de m´axima verosimilitud de las β son iguales a las estimaciones correspondientes de m´ınimos cuadrados, as´ı que est´an dadas por los elementos de la matriz columna (k + 1) × 1. B = (X0 X)−1 X0 Y La estimaci´ on de m´ axima verosimilitud de σ est´a dada por v u n u1 X σ ¯=t · [yi − (βˆ0 + βˆ1 xi1 + βˆ2 xi2 + ... + βˆk xik )]2 n i=1 donde βˆ son las estimaciones de m´ axima verosimilitud de las β, las mismas que tambi´en se pueden escribir como r Y0 Y − B0 X0 Y σ ˆ= n en notaci´ on matricial. Ejemplo 3.2.2 Use los resultados del ejemplo anterior para determinar el valor de σ ˆ Pn Soluci´ on Calculemos primero Y0 Y, lo cual es simplemente i=1 yi2 , as´ı obtenemos Y0 Y = =
788002 + 743002 + ... + 829002 50907080000
Entonces, al copiar B y X0 Y obtenemos 0
BX Y
=
1 5476100 84
=
50906394166
347200
63700
637000 2031100 1297700
y se sigue que r σ ˆ
= =
50907080000 − 50906394166 8 292,8
Por lo que se concluye que los resultados de las βˆi son combinaciones lineales de las n variables aleatorias independientes Yi de manera que las βˆi tienen distribuciones normales. Adem´as, son estimadores insesgados, esto es, E(βˆi ) = βi
para
i = 0, 1, ..., k
y sus varianzas est´ an dadas por V ar(βˆi ) = cij σ 2
para i = 0, 1, ..., k
En este caso cij es el elemento en el i´esimo rengl´on y la j´esima columna de la matriz (X0 X)−1 , con i y j que toman los valores de 0,1,...,k. ˆ2 nΣ nˆ σ2 Asi mismo, la distribuci´ on muestral de 2 , la variable aleatoria que corresponde a 2 , es la σ σ ˆ2 nΣ distribuci´ on ji.cuadrada con n − k − 1 grados de libertad y que 2 y βˆi son independientes para σ i = 0, 1, ..., k. Al combinar todos estos resultados, encontramos que la definici´on de la distribuci´on t nos lleva:
A5-14
Teorema 3.2.2 Bajo las suposiciones del an´alisis de regresi´on m´ ultiple normal, βˆ − βi ri para i = 0, 1, ..., k n|cii | σ ˆ· n−k−1 son los valores de variables aleatorias que tienen distribuci´on t con n − k − 1 grados de libertad. t=
Con base en este teorema, probemos ahora una hip´otesis acerca de uno de los coeficientes de regresi´ on m´ ultiple. Ejemplo 3.2.3 Con respecto al anterior ejemplo, pruebe la hip´otesis nula β1 = 3500 contra la hip´ otesis alternativa β1 > 3500 en el nivel 0,05 de significancia. Soluci´ on 1. H0 : β1 = 3500 H1 : β1 > 3500 2. Rechace la hip´ otesis nula si t > 2, 015, donde t se determina de acuerdo al anterior teorema y 2, 015 es e valor de t0,05,5 de acuerdo a la tabla de la distribuci´on T-student. 3. Al sustituir n = 8, βˆ1 = 4133,3 y c11 = 32/84 y σ ˆ = 292,8 de los ejemplos anteriores, obtenemos t=
4133,3 − 3500 4133, 3 − 3500 r = 2,77 = 228,6 8|32/84| 292,8 · 5
4. Puesto que t = 2,77 excede a 2,015, se debe rechazar la hip´otesis nula; concluimos que en promedio cada rec´ amara adicional a˜ nade m´as de $3500 al precio de venta de una cada tal.
A5-15