Ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo
Supongamos que estamos interesados en explicar los gastos (en miles de pesos) de las computadoras computadoras personales personales de un departamento departament o comercial a partir de su edad (en años) y del número de horas diarias que trabajan (horas/día). Se ha tomado una muestra de cinco computadoras personales y de las cuales se han obtenido los resultados siguientes:
Gastos Gastos Y (miles (miles de pesos pesos )
Antigüe Antigüedad dad X1 X1 ( años) años)
24.6 33.0 36.6 39.8 28.6
1 3 4 4 2
Horas Horas de trabajo trabajo X2 (horas/día) 11 13 13 14 12
Se quiere encontrar un modelo de regresión de la forma:
y = β 0 + β1 x1 + β 2 x2 + ε Si desarrollamos esta ecuación en odas las observaciones de la muestra, obtenemos el sistema de siguiente:
y 1 = β0 + β1 × 1 + β 2 × 11 + ε 1 y = β + β × 3 + β × 13 + ε 1 2 2 2 0 y 3 = β0 + β1 × 4 + β 2 × 13 + ε 3 y = β + β × 4 + β × 14 + ε 1 2 4 4 0 y 5 = β0 + β1 × 2 + β 2 × 12 + ε 5 Que podemos escribir matricialmente como
β + ε Y = X β ε Donde:
1
24.6 1 33.0 1 Y = 36.0 X = 1 39.8 1 28.0 1
1 3 4 4 2
ε 1 ε 11 2 β 0 13 ε = ε 3 13 β = β 1 ε 4 14 β 2 ε 5 12
es la parte correspondiente a la variación de Y que queda explicada por las variables X i i • ε término de los errores y que de alguna manera recoge el efecto ε es el término de aquellas variables que también afectan a Y ; las cuales no se encuentran incluidas en el modelo porque son desconocidas o porque no se tienen datos suyos • Xβ
Estimación del vector de parámetros β por Cuadrados Mínimos
A partir de las observaciones de la muestra se quiere encontrar una ecuación de regresión lineal múltiple estimada que predice la variable dependiente, Y , en función de las variables independientes observadas X j . Tal modelo tiene la forma
ˆ x +e ˆ i = βˆ o + βˆ 1 xi 1 + βˆ 2 xi 2 + ...... + β p ip i Donde: •
ˆ son las β las estimaciones de los parámetros del modelo j
es el valor valor estimado estimado por el modelo para yi yi Es la diferencia entre entre los valores observados y y los valores • ei = yi − ˆ estimados de de la variable dependiente. •
ˆ i y
El vector de los residuos se puede escribir en forma matricial como:
e = Y − X β β β βˆ Para construir el modelo de ajuste se tiene que minimizar la suma de cuadrados de los residuos.
Q( βˆ ) =
n
∑ i =1
n
2 i
e =
∑
2 ˆ y y − ( i i ) = eT e = ( Y − Xβˆ )T ( Y − Xβˆ )
i =1
2
Haciendo operaciones con los vectores y matrices ˆ Q( βˆ ) = Y T Y − βˆ T X T Y − Y T Xβˆ + βˆ T X T Xβ ˆ Q( βˆ ) = Y T Y − 2 βˆ T X T Y + βˆ T X T Xβ
ˆ e igualando a cero se obtiene el sistema de Derivando Q con respecto a β ecuaciones normales
(
ˆ = X T Y X ) β
T
ˆ se obtiene: Resolviendo para β −1 T ˆ β = ( X X ) X T Y
ˆ
El vector β es el vector de los estimadores mínimos cuadráticos de los parámetros del modelo. Recordemos que si en la ecuación matricial (
ˆ = X T Y X ) β se
T
efectúa la multiplicación, se obtiene el sistema de ecuaciones normales de la regresión
3
n n x i1 ∑ i =1 n ∑ xi 2 i=1 ⋯ n ∑ xik i=1
n
n
∑
∑
i =1 n
i =1 n
xi1
∑ x
2 i1
i =1
xi 2
∑ x x
i1 i 2
∑
∑
xi22
xi1 xi 2
i =1
⋯
n
⋯
ik i1
ik i 2
∑
xik
β ˆ0 e1 xik xi1 β ˆ e2 ∑ 1 i =1 n β ˆ = e3 2 x x ∑ ik i 2 ⋯ ⋯ i =1 ⋯ β ˆ e n k k 2 xik ∑ i =1 i =1 n
⋯ ⋯
i =1
∑ x x ∑ x x i =1
⋯
i =1 n
n
n
n
⋯ ⋯
i =1
Para nuestro ejemplo, tenemos:
24.6 1 33.0 1 Y = 36.0 X = 1 39.8 1 28.0 1
1 11
4 13 4 14 2 12 3 13
1 1 1 1 1 T X = 1 3 4 4 2 11 13 13 14 12
Entonces,
1 1 1 1 1 1 1 X T X = 1 3 4 4 2 1 11 13 13 14 12 1 1 Y la inversa de esta matriz será:
4
1 11
5 14 63 4 13 = 14 46 182 4 14 63 182 799 2 12 3 13
−1
( X X )− T
1
5 14 63 181.5 14 − 17.5 = 14 46 182 = 14 1. 3 − 1. 4 63 182 799 − 17.5 − 1.4 1.7
Por otro lado, se tiene:
24.6 1 1 1 1 1 33.0 162.6 X T Y = 1 3 4 4 2 36.6 = 486.4 11 13 13 14 12 39.8 2075.8 28.6 Así el vector de parámetros estimados de la regresión
ˆ = ( β
181.5 14 −17.5 162.6 −5 −1 T X ) X T Y = 14 1.3 −1.4 486.4 = 2.6 −17.5 −1.4 1.7 2075.8 2.4
La ecuación de regresión queda:
yˆ = −5 + 2.6 x1 + 2.4 x2 Interpretación de los parámetros
De la misma manera que en la regresión lineal, una vez obtenido el modelo de regresión lineal múltiple, es muy importante hacer una buena interpretación de los resultados obtenidos. De momento, sólo hemos obtenido los parámetros estimados del modelo de regresión: Para interpretarlos correctamente, debemos tener presente el contexto que estudiamos.
5
ˆ
1. Interpretación de β 0 Este parámetro representa la estimación del valor de Y cuando todas las X j toman valor cero. No siempre tiene una interpretación vinculada al contexto (geométrica, física, económica, etc.). Para que sea posible interpretarlo, necesitamos lo siguiente: a. Que sea realmente posible que las X j = 0. b. Que se tengan suficientes observaciones cerca de los valores X j = 0.
ˆ
2. Interpretación de β j Representa la estimación del incremento que experimenta la variable Y cuando X j aumenta su valor en una unidad y las demás variables se mantienen constantes. Ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo
Continuando con el ejemplo de las computadoras personales y a partir de los resultados obtenidos en el ajuste:
ˆ = −5 β 0 Nos indica los gastos en miles de pesos de una computadora personal con cero años de antigüedad y cero horas semanales de trabajo. Es evidente que en este caso no tiene ningún sentido.
β ˆ1 = 2.6 Nos indica el incremento de los gastos en miles de pesos por cada año de antigüedad de una computadora personal, sin tener en cuenta el número de horas diarias de uso. Así pues, por cada año que pase, tendremos 2,6 x 1.000 = 2600 computadora personal más en los gastos de mantenimiento de una computadora personal.
β ˆ2 = 2.4 Nos indica el incremento en los gastos en miles de pesos por cada hora diaria de uso sin tener en cuenta la antigüedad de la computadora personal. Tenemos que por cada hora de trabajo adicional, tendremos un incremento de 2,4 x 1.000 = 2.400 pesos en los gastos anuales de mantenimiento de una computadora personal.
6
La calidad del ajuste 1. Introducción
Una vez encontrado el modelo de regresión lineal múltiple a partir de los datos de una muestra, queremos utilizarlo para hacer inferencias a toda la población. Sin embargo, antes es necesario llevar a cabo una comprobación de la idoneidad del modelo obtenido. Ahora se debe calcular el coeficiente de determinación para la regresión múltiple como indicador de la calidad del ajuste. También se utilizan los gráficos de los residuos como una importante herramienta de diagnóstico del modelo Calidad del ajuste. El coeficiente de determinación
2
R
Si consideramos que la variabilidad del modelo puede dividirse en los componentes
SCT = SCR + SCE Variabilidad total muestral = variabilidad explicada + variabilidad no explicada De la misma manera que en la regresión lineal simple, también podemos definir ahora el coeficiente de determinación R 2 como la proporción de variabilidad explicada por el modelo con respecto a la variabilidad total, es decir: 2
R =
Variabilidad explicada por el modelo Variabilidad total de la muestra
Se puede expresar el coeficiente de determinación así:
2
R =
SCR SCT
= 1−
Las ecuaciones de las varianzas: 2 y
S =
1 n −1
n
∑ ( yi − y )2 = i =1
SCT n −1
7
SCE SCT
2 ˆ y
S =
2 e
S =
1 k
n
∑
2
yi − y ) = ( ˆ
i =1 n
1 n − k −1
SCR k
∑ ( yi − ˆ yi ) = i =1
1
2
n − k −1
n
∑
ei2 =
i =1
SCE
n − k −1
Donde SCT = Suma de Cuadrados Totales SCR = Suma de Cuadrados de la Regresión SCE = Suma de Cuadrados de los residuos Ya se demostró que:
SCT = SCR + SCE Para calcular las sumas de cuadrados, podemos utilizar el cálculo matricial. •
Suma de los cuadrados totales
Siendo D el vector de desviaciones de las y i con respecto a la media
:
d 1 y 1 − y d y − y 2 2 D = = ⋯ ⋯ d n y n − y Se puede escribir la suma de los cuadrados totales de la forma siguiente:
y1 − y y − y n 2 2 SCT = ∑ ( yi − y ) = D T D = [ y1 − y y2 − y ⋯ yn − y ] ⋯ i =1 y − y n
8
•
Suma de los cuadrados de la regresión:
A partir de los valores estimados
yˆ1 1 yˆ 1 2 = ⋯ ⋯ yˆ n 1
x11 x21
⋯ x12 x22 ⋯ ⋯ ⋯ ⋯ x1n x2 n
⋯
β ˆ 0 xk 1 β ˆ 1 xk 2 β ˆ ⋯ 2 ⋯ xkn ˆ β k
Se puede calcular el vector de las desviaciones de los valores estimados yˆ i con respecto a la media
w1 yˆ1 − y w yˆ − y 2 2 w= = ⋯ ⋯ ˆ wn yn − y de donde,
yˆ1 − y yˆ − y n 2 2 SCR= ∑ ( yˆ i − y ) = wT w = [ yˆ1 − y yˆ 2 − y ⋯ yˆ n − y ] ⋯ i =1 ˆ − y y n •
Suma de los cuadrados de los errores
A partir de los residuos:
9
e1 y1 − yˆ1 e y − yˆ 2 2 2 e= = ⋯ ⋯ ˆ e y y − n n n de donde,
n
SCE =
2 ˆ ( ) y − y ∑ i i = eT e = [ y1 − yˆ1 y2 − y2 i =1
y1 − yˆ1 y − yˆ 2 ⋯ yn − yˆ n ] 2 ⋯ ˆ y − y n n
Para el ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo
Se tiene que, y = 32.52 de manera que la suma de cuadrados totales vale:
− 7.92 0.48 n 2 SCT = ∑ ( yi − y ) = [− 7.92 0.48 4.08 7.28 − 3.98] 4.08 = 147.97 i =1 7 . 28 − 3.98 Los valores estimados por el modelo de regresión múltiple son:
yˆ 1 1 yˆ 1 2 ˆ = 1 yˆ 3 = X β ˆ y 4 1 yˆ 5 1
1 3 4 4 2
11
24 34 13 −5 13 2.6 = 36.6 ˆ 14 2.4 39 29 12 10
De manera que la suma de cuadrados de la regresión es:
− 8.52 1.48 n 2 SCR= ∑ ( yˆ i − y ) = [− 8.52 1.48 4.08 6.48 − 3.52] 4.08 = 145.81 i =1 6 . 48 − 3.52 La diferencia entre los valores observados y los valores estimados nos permite obtener los residuos:
y1 24.6 − 24 0.6 e1 y1 − ˆ e y − ˆ 33 − 34 −1 y2 2 2 e = e3 = y3 − ˆ y3 = 36.6 − 36.6 = 0 ˆ − e y y 39.8 − 39 0.8 4 4 4 e5 y5 − ˆ y5 28.6 − 29 −0.4 Por lo tanto
0.6 −1 n 2 T SCE = ∑ ( yi − yˆ i ) = e e = [0.6 − 1 0 0.8 − 0.4] 0 = 2.16 i =1 0 . 8 − 0.4 De esta manera el coeficiente de determinación es:
11
2
R =
SCR
=
145.81
= 0.985
SCT 147.97 SCE 2.16 2 = 1− = 1 − 0.015 = 0.985 R = 1 − SCT 147.97 Este resultado nos dice que el modelo de regresión múltiple obtenido explica el 98,5% de la variabilidad de los gastos de las computadoras personales. Dado que está muy cerca del 100%, por el momento se puede considerar como un buen modelo. El coeficiente de determinación ajustado
El coeficiente de determinación ajustado, R 2 , se define de la siguiente forma
2
R = 1 −
SCE / ( n − k − 1) SCT / ( n − 1)
Esta medida se utiliza para tener en cuenta el hecho de que las variables independientes irrelevantes provocan una pequeña reducción en la suma de los cuadrados de los residuos. Por lo tanto, el R 2 permite comparar de mejor manera los modelos de regresión lineal múltiple que tiene diferentes números de variables independientes El R 2 para el ejemplo será entonces:
2
= 1−
SCE / ( n − k − 1) SCT / ( n − 1)
= 1−
12
2.16 / 2 147.97 / 4
= 0,970804
Contrastación conjunta del modelo
Hemos visto cómo hay que hacer el contraste de hipótesis para ver si cada una de las variables X i, individualmente, contribuye a explicar la variable Y . Ahora queremos contrastar el modelo de forma global, teniendo en cuenta todas las variables X i que hemos utilizado para encontrarlo. Establecemos las hipótesis: • Hipótesis nula: H 0: β1 = β2 = ... = βK= 0. Nos indica que no existe relación lineal entre la variable Y y ninguna de las variables Xi . Hipótesis alternativa: H 1: al menos una βi ≠ 0 Calculamos el estadístico de contraste. Esta prueba se basa en un estadístico de contraste que es una observación de una distribución F cuando H 0 es cierta. Buscaremos una relación entre la variación explicada por el modelo de regresión múltiple y la no explicada por el mismo modelo. Si la proporción de variación explicada en relación con la no explicada es grande, entonces se confirmará la utilidad del modelo y no rechazaremos la hipótesis nula H 0. A partir de la descomposición de la suma de cuadrados totales según la suma de cuadrados de la regresión más la suma de los cuadrados de los errores: Bajo la hipótesis nula, H 0: β1 = β2 = ... = βK= 0. • SCR tiene una distribución χ2 con k grados de libertad. • SCE tiene una distribución χ2 con n – k - 1 grados de libertad. • SCR y SCE son independientes. El cociente de dos variables χ2 divididas por sus grados de libertad da una variable F de Snedecor con los grados de libertad correspondientes al numerador y denominador del cociente. Si la hipótesis nula es cierta y, por tanto, no existe ningún tipo de relación lineal entre Y y las variables X i, el estadístico tendrá un valor cercano a uno. Pero cuando existe cierta relación, la suma de los cuadrados de la regresión (numerador) aumenta y la suma de los cuadrados de los errores (denominador) disminuye, de manera que el valor del estadístico de contraste aumenta. Si este valor supera un valor crítico de la distribución F , entonces rechazamos la hipótesis nula. Así pues, podemos definir el estadístico de contraste:
13
F =
SCR / k SCE /(n − k − 1)
Es una observación de una distribución F de Snedecor con k y n – k - 1 grados de libertad. Si la hipótesis nula es cierta y, por tanto, no existe ningún tipo de relación lineal entre Y y las variables X i, el estadístico tendrá un valor cercano a uno. Pero cuando existe cierta relación, la suma de los cuadrados de la regresión (numerador) aumenta y la suma de los cuadrados de los errores (denominador) disminuye, de manera que el valor del estadístico de contraste aumenta. Si este valor supera un valor crítico de la distribución F , entonces rechazamos la hipótesis nula. Establecemos un criterio de decisión a partir de un nivel de significación : A partir de este valor crítico de la distribución F de Snedecor: • Si F > F α; k; n-k-1, rechazamos H 0; por tanto, el modelo explica significativamente la variable Y . Es decir, el modelo sí que contribuye con información a explicar la variable Y . • Si F < F α; k; n-k- 1, no rechazamos H 0; por tanto, el modelo no explica de forma significativa la variable Y. También podemos hacerlo a partir del p -valor: p = P (F α; k; n-k- 1 > f ). • Si p ≤ α , se rechaza la hipótesis nula H 0. • Si p > α, no se rechaza la hipótesis nula H 0. Los cálculos necesarios se pueden resumir en la tabla siguiente, conocida como TABLA DE ANÁLISIS DE VARAINZA Fuente de Suma de Grados de Variación cuadrados libertad
Cuadrados medios
x1,x2,….xk
SCR
k
CMR=SCR/k
e
SCE
n-k-1
CME=SCE/(n - k - 1)
y
SCT
n-1
Estadístico de prueba
CMR/CME
Es muy importante tener presente el hecho siguiente: que el modelo lineal explique de forma significativa la variable Y no implica que todas las variables sean explicativas; para saberlo, deberemos contrastarlas de una en una, tal como se ha explicado en el apartado anterior.
14
Ejemplo de los gastos de las computadoras personales según su antigüedad y las horas diarias de trabajo
Ahora realizaremos un contraste conjunto del modelo obtenido anteriormente para las computadoras personales. Tomaremos α = 0,05. 1. Establecemos las hipótesis nula y alternativa: • Hipótesis nula: H 0: β1 = β2 = 0. • Hipótesis alternativa: H 1: al menos una βi ≠ 0, i = 1, 2. 2. Calculamos el estadístico de contraste: Tenemos que: Fuente Suma de Grados de de Cuadrados medios cuadrados libertad Variación x1,x2 145,81 2 72,955 E 2,16 5 -2- 1 1,08 Y 147,97 5 -1
Estadístico de prueba 67,5509259
Establecemos un criterio de decisión a partir de un nivel de significación α = 0,05. Mirando las tablas de la distribución F de Snedecor, tenemos que el valor crítico para α = 0,05 y 2 grados de libertad en el numerador y 2 en el denominador es F 0,05;2;2 = 19,0. Puesto que 67,5 > 19,0, entonces rechazamos la hipótesis nula, de manera que el modelo en conjunto es bueno para explicar la variable Y . Con el p -valor tenemos que: p = P (F 0,05;2;2 > 67,5) = 0,0146 el cual es menor que 0,05; por tanto, rechazamos la hipótesis nula.
Inferencia en la regresión lineal múltiple 1. Introducción
Una vez estimado el modelo de regresión, interesa poder aplicarlo, hacer inferencia, a la población de la que se ha sacado la muestra. Ahora se determina los intervalos de confianza para los parámetros del modelo y se realizan contrastes de hipótesis para así poder detectar cuáles son las variables realmente significativas. Finalmente, se realizan la validación de los supuestos; en especial cómo se puede detectar y evitar el problema de la duplicación de información que surge 15
cuando se utilizan variables correlacionadas, conocido con el nombre de multicolinealidad . 2. Estimación de la varianza de los errores
Dada una muestra de observaciones, el modelo estará totalmente determinado una vez que se especifiquen los valores estimados de los coeficientes β0, β1,...,βk y se estime la varianza común de los errores σ2. Para determinar una estimación insesgada de esta última, se considera los residuos como estimaciones de los valores del término de error, entonces se puede estimar la varianza de este término a partir de la varianza de los residuos: 2 e
s =
1
n
∑ ( y − ˆ y ) n− k −1 i
i
i =1
2
=
SCE
n −k −1
Donde k es el número de variables independientes en el modelo de regresión. La raíz cuadrada de la varianza s e, se conoce también como error típico de la estimación ( Standard Error of Est. ) 3. Distribuciones probabilísticas de los parámetros de la regresión
Así, β0, β1,...,βk son unas variables aleatorias que habrá que estudiar para poder inferir nuestros resultados a la población de la que hemos extraído las muestras. Primero las caracterizaremos calculando sus valores esperados y las desviaciones estándar: a) Valor esperado de β ˆ j
( )
E βˆ = β j
para j = 1, ..., k . Se observa que los valores esperados de estos parámetros son iguales a los valores poblacionales de éstos. Aunque estos valores sean desconocidos, este resultado será de gran utilidad a la hora de hacer inferencia estadística. ˆ . Las varianzas de las β ˆ son los elementos de la diagonal b) Varianza de β −1
de la matriz σ 2 ( X T X ) , es decir: ˆ var ( β 0) ˆ var ( β 1 ) −1 σ 2 diag ( X T X ) = ⋯ ˆ var ( β k )
16
Ya se ha calculado la media y la varianza de los estimadores. Puesto que la variable Y se distribuye normalmente y las β ˆ son combinación lineal de las observaciones y j , se puede asegurar que las β ˆ se distribuirán normalmente: βˆ j ∼ N ( β j ,σ qij )
donde q jj es el elemento de la fila j y columna j de la matriz (X T X )-1. Dado que la varianza σ2 es desconocida, se utiliza el valor estimado a partir de los datos de la muestra, es decir e2 2 e
s =
n
1
∑ ( y − ˆ y ) n− k −1 i
i
2
=
i =1
SCE
n −k −1
De manera que: ˆ var ( β 0) ˆ var ( β 1 ) −1 2 T se diag ( X X ) = ⋯ ˆ var ( β k )
Así, las desviaciones estándar de los estimadores serán:
( )
ˆ , s β ˆ = var β j j
para
17
j = 1,2,...,k
Para el ejemplo de las computadoras personales
( X
T
X)
−1
181.5 14 −17.5 1.3 = 14 −1.4 −17.5 −1.4 1.7
La ecuación de regresión quedó:
yˆ = −5 + 2.6 x1 + 2.4 x 2 2 Además se =
SCE n − k −1
=
2.16 2
= 1.08
De esta manera:
( )
ˆ = 1.08 × 181.5 = 195,912 ⇒ s = 13.99 = 14 var β ˆ 0 β
( )
0
ˆ = 1.08 × 1.3 = 1.404 ⇒ s = 1.18 var β ˆ 1 β
( )
1
ˆ = 1.08 × 1.7 = 1.836 ⇒ s = 1.35 var β ˆ 2 β 2
Intervalos de confianza de los parámetros del modelo
En los modelos de regresión lineal múltiple resulta útil construir estimaciones de intervalos de confianza para los coeficientes de la regresión. Como hemos visto en el apartado anterior, los estimadores siguen distribuciones. Por tanto, se puede demostrar que la variable tipificada:
βˆ j − β j s β ˆ
j
sigue una distribución t de Student con n – k -1 grados de libertad. Puesto que:
18
βˆ j − β j P −tα / 2,n −k −1 ≤ ≤ tα / 2,n −k −1 = 1 − α s β ˆ j
Un intervalo de confianza con un nivel de confianza de 100(1 – α)% para el ˆ de la regresión viene dado por: coeficiente β j
ˆ ± t β ˆ α / 2,n −k −1 × sβ j
j
ˆ es el valor estimado del parámetro a partir de la muestra. donde β j Para el ejemplo: •
ˆ con un nivel de confianza del 95%. Intervalo de confianza para β 1 Observando la tabla de la distribución t de Student con n - k - 1 = 2 grados de libertad, el valor crítico correspondiente para α /2 = 0,025 es: t 0,025;2 = 4,3027. El intervalo de confianza será: [2,6 - 4,3027 · 1,18; 2,6 - 4,3027 · 1,18] = [-2,50; 7,70]
•
ˆ con un nivel de confianza del 95%. Intervalo de confianza para β 2 Ahora el intervalo de confianza será: [2,4 - 4,3027 · 1,35; 2,4 - 4,3027 · 1,35] = [-3,43; 8,23]
19
Contraste de hipótesis sobre los parámetros del modelo
Muchas veces es interesante hacer tests de hipótesis sobre los coeficientes de la regresión. Casi siempre nos interesará saber si un coeficiente es igual a cero, ya que esto querría decir que la variable X i correspondiente no figura en el modelo de regresión y, por tanto, no es una variable explicativa del comportamiento de la variable Y . Para hacer este contraste de hipótesis, seguimos el procedimiento que exponemos a continuación: 1) Establecemos las hipótesis. Para cada β j : • Hipótesis nula: H 0: β j = 0 (la variable X j no es explicativa). • Hipótesis alternativa: H 1: β j ≠ 0. En caso de que no rechacemos la hipótesis nula, esto querrá decir que la variable X j no es una variable explicativa y que, por tanto, podemos eliminarla del modelo. 2) Calculamos el estadístico de contraste: si la hipótesis nula es cierta ( β j = 0), entonces obtenemos el estadístico de contraste: ˆ β j t = s β ˆ j
que es una observación de una distribución t de Student con n - k - 1 grados de libertad. 3) Finalmente, a partir de un nivel de significación se establece el criterio de decisión. Para hacerlo, tenemos dos opciones: a) A partir del p- valor. b) A partir de los valores críticos t α/ 2;n-k-1 Para el ejemplo
Volvemos a nuestro ejemplo para hacer un contraste de hipótesis sobre los parámetros de la regresión y enterarnos de si las variables son explicativas de los gastos anuales de mantenimiento de los ordenadores o no. Utilizaremos un nivel de significación α = 0,05. • Contraste para β 1 1. Establecemos las hipótesis nula y alternativa: • Hipótesis nula: H 0: β 1 = 0 (la variable X 1 no es explicativa). • Hipótesis alternativa: H 1: β 1 ≠ 0. 2. Calculamos el estadístico de contraste:
20
t=
ˆ β 1 s β ˆ
1
=
2.6 1.18
= 2.20
3. Calculamos el p -valor correspondiente a este estadístico de contraste: p = 2 P (t n – k -1 > |t |) = 2 P (t 2 > 2,20 ) = 2 x 0,094 = 0,1598.
Dado que 0,1598 > 0,05, no rechazamos H 0. Por tanto, la variable X 1 no es una variable explicativa y, por tanto, podemos eliminarla del modelo. Contraste para β 2 1. Establecemos las hipótesis nula y alternativa: • Hipótesis nula: H 0: β 2 = 0 (la variable X 1 no es explicativa). • Hipótesis alternativa: H 1: β 2 ≠ 0.
ˆ β 2
2.3 t = = = 1.77 2. Calculamos el estadístico de contraste: s β ˆ 1.35 2
3. Calculamos el p- valor correspondiente a este estadístico de contraste: p = 2P (t n- k -1 > |t |) = 2P (t 2 > 1,77 ) = 2 x 0,1094 = 0,2188
Dado que 0,2188 > 0,05, no rechazamos H 0. Por tanto, la variable X 2 tampoco es una variable explicativa y, por tanto, podemos eliminarla del modelo. En este modelo de regresión lineal múltiple ninguna de las dos variables nos explica la variable “gasto en mantenimiento”. Llegamos a este punto, nos hacemos la pregunta siguiente: ¿cómo puede ser que el modelo en conjunto sea bueno para explicar la variable Y y, en cambio, el contraste por separado para cada una de las variables X 1 y X 2 nos haya dado que ninguna de las dos era explicativa de la variable Y ? A primera vista parece que sean resultados contradictorios. Esto se debe a la presencia de multicolinealidad en nuestro problema. Lo trataremos en el apartado siguiente. El problema de la multicolinealidad
En los problemas de regresión lineal múltiple esperamos encontrar dependencia entre la variable Y y las variables explicativas X 1, X 2, ..., X k . Pero en algunos problemas de regresión podemos tener también algún tipo de dependencia entre algunas de las variables X j . En este caso tenemos información redundante en el modelo.
21
El análisis de los residuos
De la misma manera que en la regresión lineal simple, los residuos del modelo de regresión lineal múltiple tienen un papel importante a la hora de determinar la adecuación del modelo. En el caso de regresión lineal múltiple es habitual construir dos tipos de gráficos: a) Gráfico de residuos frente a valores estimados : representamos en el eje de ordenadas los valores de los residuos y en el eje de abscisas, los valores estimados, de manera que la nube de puntos no debe tener ningún tipo de estructura y es cercano al eje de abscisas. b) Gráfico de residuos frente a variables explicativas : representamos sobre el eje de ordenadas los valores de los residuos y sobre el eje de abscisas, los valores observados de la variable explicativa. Tenemos un gráfico de este tipo para cada una de las variables explicativas. Siempre que el modelo sea correcto, ningún gráfico de residuos debe mostrar ningún tipo de estructura. Los residuos siempre deben estar distribuidos al azar alrededor del cero. Para el ejemplo
En el caso de las computadoras personales y sus gastos en mantenimiento, tenemos los gráficos de representación de los residuos siguientes: Los tres gráficos representan: Plot of Y 40 d 36 e v r e 32 s b o 28
24 24
28
32
36
40
predicted Residual Plot 1 0.6
l a u 0.2 d i s -0.2 e r
-0.6 -1 1
1.5
2
2.5
X1
22
3
3.5
4
Residual Plot 1 0.6
l a u 0.2 d i s -0.2 e r
-0.6 -1 11
11.5
12
12.5
13
13.5
14
X2
a) residuos frente a valores estimados por el modelo; b) residuos frente a valores de la variable X 1: horas diarias de trabajo; c) residuos frente a valores de la variable X 2: antigüedad en años. No observamos ningún tipo de estructura organizada de los residuos que nos haga pensar en una falta de linealidad del modelo. Tampoco observamos ningún dato atípico. El análisis de los residuos se realiza de igual manera que para un modelo de regresión lineal simple Adicionalmente para verificar la existencia de multicolinealidad, es conveniente calcular la matriz de correlaciones parciales. Para el ejemplo Correlation matrix for coefficient estimates ----------------------------------------------------------------------------CONSTANT X1 X2 CONSTANT 1.0000 0.9114 -0.9963 X1 0.9114 1.0000 -0.9417 X2 -0.9963 -0.9417 1.0000 -----------------------------------------------------------------------------
De hecho como se había sospechado, existe una alta correlación negativa entre X1 y X2 , igual -0.9417 Multiple Regression - Y Multiple Regression Analysis ----------------------------------------------------------------------------Dependent variable: Y ----------------------------------------------------------------------------Standard T Parameter Estimate Error Statistic P-Value ----------------------------------------------------------------------------CONSTANT -5.0 14.0007 -0.357125 0.7552 X1 2.6 1.18491 2.19427 0.1595 X2 2.4 1.35499 1.77123 0.2185 ----------------------------------------------------------------------------Analysis of Variance ----------------------------------------------------------------------------Source Sum of Squares Df Mean Square F-Ratio P-Value ----------------------------------------------------------------------------Model 145.808 2 72.904 67.50 0.0146 Residual 2.16 2 1.08 ----------------------------------------------------------------------------Total (Corr.) 147.968 4
23
R-squared = 98.5402 percent R-squared (adjusted for d.f.) = 97.0804 percent Standard Error of Est. = 1.03923 Mean absolute error = 0.56 Durbin-Watson statistic = 2.61111 (P = 0.3392) Lag 1 residual autocorrelation = -0.425926
The StatAdvisor --------------The output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 2 independent variables. The equation of the fitted model is Y = -5.0 + 2.6*X1 + 2.4*X2 Since the P-value in the ANOVA table is less than 0.05, there is a statistically significant relationship between the variables at the 95% confidence level. The R-Squared statistic indicates that the model as fitted explains 98.5402% of the variability in Y. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 97.0804%. The standard error of the estimate shows the standard deviation of the residuals to be 1.03923. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu. The mean absolute error (MAE) of 0.56 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the P-value is greater than 0.05, there is no indication of serial autocorrelation in the residuals. In determining whether the model can be simplified, notice that the highest P-value on the independent variables is 0.2185, belonging to X2. Since the P-value is greater or equal to 0.10, that term is not statistically significant at the 90% or higher confidence level. Consequently, you should consider removing X2 from the model.
Component+Residual Plot for Y t c e f f e t n e n o p m o c
5.9 3.9 1.9 -0.1 -2.1 -4.1 1
1.5
2
2.5
3
3.5
4
X1 95.0% confidence intervals for coefficient estimates ----------------------------------------------------------------------------Standard Parameter Estimate Error Lower Limit Upper Limit ----------------------------------------------------------------------------CONSTANT -5.0 14.0007 -65.2402 55.2402 X1 2.6 1.18491 -2.49823 7.69823 X2 2.4 1.35499 -3.43005 8.23005 -----------------------------------------------------------------------------
The StatAdvisor --------------This table shows 95.0% confidence intervals for the coefficients in
24
the model. Confidence intervals show how precisely the coefficients can be estimated given the amount of available data and the noise which is present.
Plot of Y 40 d 36 e v r e 32 s b o 28
24 24
28
32
36
40
predicted Correlation matrix for coefficient estimates ----------------------------------------------------------------------------CONSTANT X1 X2 CONSTANT 1.0000 0.9114 -0.9963 X1 0.9114 1.0000 -0.9417 X2 -0.9963 -0.9417 1.0000 -----------------------------------------------------------------------------
The StatAdvisor --------------This table shows estimated correlations between the coefficients in the fitted model. These correlations can be used to detect the presence of serious multicollinearity, i.e., correlation amongst the predictor variables. In this case, there is 1 correlation with absolute value greater than 0.5 (not including the constant term).
Residual Plot 1 0.6
l a u 0.2 d i s -0.2 e r
-0.6 -1 1
1.5
2
2.5
3
3.5
4
X1 Residual Plot 1 0.6
l a u 0.2 d i s -0.2 e r
-0.6 -1 11
11.5
12
12.5
X2
25
13
13.5
14
Residual Plot 1 0.6
l a u 0.2 d i s -0.2 e r
-0.6 -1 24
28
32
36
40
predicted Y Residual Plot
(X 1.E9) l 1 a u d i s e r d e z i t n e d u t S
0.6 0.2 -0.2 -0.6 -1 0
1
2
3
4
5
row number Plot of Y with Predicted Values 40 36 Y 32
28 24 1
1.5
2
2.5
X1 26
3
3.5
4