Tabla ANOVA y mejoramiento del modelo de regresión múltiple Tabla ANOVA para la regresión lineal múltiple SUMA DE G.L. CUADRADOS Variabilidad explicada por el modelo Variabilidad NO explicada por el modelo Suma Total de cuadrados
∑=̂ −̅ ∑= −̂
−− − 1 − − 1
ESTADISTICO DE PRUEBA
− −1− 1 − − 1
La tabla ANOVA sufre ligeros cambios con respecto a la regresión lineal simple. Ahora los grados de libertad de la suma de los cuadrados de los errores es , que representa el número de las l as variables independientes que contiene la regresión lineal múltiple.
√ √ − − 1
Coeficiente de correlación múltiple Coeficiente de determinación múltiple Error estándar de estimación múltiple Coeficiente ajustado de determinación
(j )
:
Cada nueva variable independiente que se incorpora al modelo de regresión r egresión hace que las predicciones sean más precisas, precisas, lo que a su vez reduce la variabilidad no explicada explicada por la regresión regresión (SCR) y aumenta la variabilidad explicada por la regresión (SCE). Por lo tanto, aumenta sólo debido al número total de variables independientes independientes y no porque la variable independiente agregada sea un buen factor de predicción de la variable dependiente. Para equilibrar el efecto del número de variables independientes independientes en el coeficiente de determinación múltiple, se emplea un coeficiente de determinación ajustado múltiple que se calcula con la fórmula
n 1 n k 1
2 Radj 1 1 R 2
En el análisis de regresión múltiple se tendrán dos alternativas para poder llegar a tener el mejor modelo posible: el análisis de la matriz de correlación y la prueba de significancia del modelo de regresión múltiple que consiste en efectuar la prueba F y la prueba t. A continuación, se explican estas dos herramientas estadísticas:
Matriz de correlación Antes de poder utilizar la ecuación de regresión múltiple para sus principales usos, estimación y pronósticos de valores de la variable variable dependiente, dependiente, es necesario necesario asegurarse de que se tiene tiene un modelo adecuado. La multicolinealidad, un problema que se debe evitar en los análisis de regresión, se da cuando las variables independientes están altamente correlacionadas. Por lo general se considera que un par de variables independientes son aceptables si su correlación está dentro del rango de . Para evaluar esto, conviene calcular al inicio del análisis un matriz de correlaciones para ver el índice de correlación que existe entre cada par de variables independientes.
−0.7 < < 0.7
Adicionalmente, la matriz de correlaciones sirve para elegir las variables que mejor se relacionan con la variable dependiente ya que, como se recordará, el coeficiente de correlación mide que tan estrecha es la relación entre 2 variables. En el ejemplo siguiente se analizan estos aspectos. La matriz de correlación se obtiene en Excel siguiendo los comandos
Datos Análisis de datos Coeficiente de correlación Ejemplo: Los siguientes son algunos datos representativos de las nueve principales compañías de 2011, del listado de las 500 empresas más importantes de México, que cada ano publica la revista Expansión. “
”
MX MX
607855.70
876694.50 540657.40 336037.20
150618
EU
335857.40
194807.60
122859.60
219767
MX
254417.30
841202.30 488545.50 352656.80
93254
MX
178260.00
515097.00 301397.00 213700.00
46523
MX
169701.80
223578.40
70565.30
153013.10
108572
EU
158692.00
55191.00
42073.00
13112.00
12000
MX ESP
136395.00 121910.00
112255.00 76014.00 36241.00 1114171.00 987910.00 126261.00
56332 34189
América Móvil Walmart de México CFE Cemex Fomento Económico Mexicano General Motors de México Grupo Alfa BBVA Bancomer
”
Ventas Activo pasivo Patrimonio Empleados (mdp) 1282064.30 1392715.30 1506498.70 -113783.40 147672
País
Empresa Pemex
“
71948.00
a) calcule la matriz de correlación para revisar la relación entre las ventas como variable dependiente y las restantes como variables independientes. Ventas
Activo
Pasivo
Patrimonio Empleados
Ventas
1
Activo
0.6617
1
Pasivo
0.7484
0.9544
1
Patrimonio
-0.3772
0.0217
-0.2777
1
Empleados
0.5210
0.1466
0.1148
0.0872
1
Analizando la matriz de correlación, se observa que la variable del activo está estrechamente correlacionada con el pasivo y puede provocar problemas de multicolinealidad. Pero puede asumirse que ambas aportan información similar a las ventas. También la correlación que rebasa el 0.7 es la correlación entre ventas y pasivo, pero el activo es la variable que esta menos correlacionada con las ventas . Por lo tanto, se decide eliminar la variable Activo. Una variable independiente o predictoras, cuando se les utiliza para hacer pronósticos sobre la variable dependiente, debe tener, preferentemente, una correlación fuerte con la variable dependiente. De la matriz de correlación, se identifica que la correlación entre ventas y patrimonio es de -0.3772, considerándose débil. Entonces se elige eliminar también la variable de patrimonio.
0.6617
Para realizar un segundo análisis, se considera la siguiente tabla
Empresa Pemex América Móvil Walmart de México CFE Cemex Fomento Económico Mexicano General Motors de México Grupo Alfa BBVA Bancomer Se recalcula la matriz de correlación
MX MX
Ventas pasivo Empleados (mdp) 1282064.30 1506498.70 147672 607855.70 540657.40 150618
EU
335857.40
71948.00
219767
MX MX
254417.30 178260.00
488545.50 301397.00
93254 46523
MX
169701.80
70565.30
108572
EU
158692.00
42073.00
12000
MX ESP
136395.00 121910.00
76014.00 987910.00
56332 34189
País
Ventas (mdp)
Ventas (mdp)
pasivo
Empleados
1
pasivo
0.7484
1
Empleados
0.5210
0.1148
1
Queda equilibrados los coeficientes de correlación.
La prueba de significancia del modelo Ejemplo: Salsberry Realty vende casas en la costa este de Estados Unidos. Una de las preguntas más frecuentes de los compradores potenciales es: si compramos esta casa, ¿cuánto gastaremos en calefacción durante el invierno? Al departamento de investigación de Salsberry se le pidió desarrollar algunas directrices respecto de los costos de calefacción de casas unifamiliares. Se considera que 3 variables se relacionan con dichos costos: 1) la temperatura externa diaria media, 2) el número de pulgadas de aislamiento en el ático y 3) los años de uso del calentador. Para el estudio, el departamento de investigación de Salsberry seleccionó una muestra aleatoria de 20 casas de venta reciente. Determinó el costo de calefacción de cada casa en enero pasado, así como la temperatura externa en enero en la región, el número de pulgadas de aislamiento del ático y los años de uso del calentador. La información muestral se reporta en la tabla. Casa
1 2 3 4 5 6 7 8 9 10 11 12
Costo de Temp externa Calefacción ($) media (°F)
250 360 165 43 92 200 355 290 230 120 73 205
35 29 36 60 65 30 10 7 21 55 54 48
Aislamiento del ático (in)
Antigüedad del calentador (años)
3 4 7 6 5 5 6 10 9 2 12 5
6 10 3 9 6 5 7 10 11 5 4 1
13 14 15 16 17 18 19 20
400 320 72 272 94 190 235 139
20 39 60 20 58 40 27 30
5 4 8 5 7 8 9 7
15 7 6 8 3 11 8 5
La información obtenida de Excel empleando las funciones de “Regresión”
Resumen Estadísticas de la regresión
Coef r múltiple
0.8968
Coef R 2 múltiple
0.8042
R 2 ajustado
0.7675
Error típico S
51.0486
Observaciones n
20
71220.47735 0.89676 √ √ 1212915. 71220.47735 0.80417 1212915. 1−1 −0.804171916 0.76745 71220.−1473 51.04855 √ −−1 √ 120−3
ANÁLISIS DE VARIANZA G.L.
Regresión Residuos Total
Numerador 3 Denominador 16 19
Intercepción Variable X 1 Variable X 2 Variable X 3
Suma de cuadrados
171220. 4 73 41695. 2 77 212915.750
Promedio de los cuadrados
Estadístico F
57073.491 2605.955
21.90
Coeficientes
Error típico
Estadístico t
Probabilidad
427.1938 -4.5827 -14.8309 6.1010
59.6014 0.7723 4.7544 4.0121
7.17 -5.93 -3.12 1.52
2.2376E-06 2.1004E-05 0.00660596 0.14786248
De la columna de coeficientes se obtiene el modelo de regresión múltiple
̂ 427.194 − 4.583 − 14.831 + 6.101 : 0 :al menos uno de los parametros es distinto de cero : 0
Para efectuar la prueba F (global) Se requiere de: 1. Las hipótesis de la prueba
Nota: Es importante identificar que, por el hecho de establecer la hipótesis nula como una igualdad, , el tipo de prueba es de dos extremos y eso define a dos puntos críticos, el del lado izquierdo es para una probabilidad de 0.025 y para el lado derecho es para una probabilidad de 0.975.
2. El estadístico de prueba F
.
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba Para obtener los puntos críticos se requiere de la tabla F de Fisher completa donde se requiere del nivel de significancia , los grados de libertad del numerador y los grados de libertad de denominador .
0.−05 − 1 16
3
4. La conclusión de la prueba Por ubicarse el estadístico de prueba en la región de rechazo (color rojo), la hipótesis nula se rechaza y la hipótesis alternativa se acepta. Esto implica que al menos uno de los parámetros es diferente de cero. Entonces es necesario aplicar la prueba t a cada uno de los coeficientes muestrales para identificar cuáles son igual a cero.
̂ 427.194 − 4.583 − 14.831 + 6.101 :: ≠ 00 :: ≠ 00 :: ≠ 00
Para efectuar la prueba t (individual) Se requiere de: 1. Las hipótesis de la prueba para este caso son tres, por tener tres variables independientes:
Nota: También, para esta prueba se establece la hipótesis nula como una igualdad, entonces el tipo de prueba es de dos extremos y eso define a dos puntos críticos. Al ser la distribución
simétrica, el valor obtenido de la tabla t de Student, se coloca en el lado positivo y negativo de la distribución. 2. El estadístico de prueba t, de cada uno de los coeficientes se obtienen de la columna “Estadístico t”
−0.4.75723827 −5.93 −4.14.75448309 −3.12 6.4.0112101 1.52
Para años de uso del calentador 3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba Para la temperatura
Para el aislamiento
−⁄ 0.05⁄ −⁄ −2.12 ⁄ 2.12
Para obtener los puntos críticos requiere del nivel de significancia Entonces y
y
se requiere de la tabla t de Student donde se , con grados de libertad de .
− − 1 16
4. La conclusión de las pruebas individuales Por ubicarse el estadístico de prueba para la temperatura y el aislamiento en la región de rechazo, las hipótesis nulas son rechazadas. Esto implica que estas dos variables si están correlacionadas con el costo de la calefacción. Por otro lado, la para la antigüedad del calefactor se acepta. Se concluye que la antigüedad del calentador no es un factor significativo del costo de la calefacción y puede ser retirada del análisis de regresión múltiple.
Para cuando se toma la decisión de retirar variables del modelo de regresión múltiple, se tiene que analizar los datos de nuevo para que por segunda vez se verifiquen las dos pruebas. Resumen Estadísticas de la regresión
Coef r múltiple Coef R 2 múltiple R 2 ajustado Error típico Observaciones
0.8808 0.7759 0.7495 52.9824 20
ANÁLISIS DE VARIANZA Regresión Residuos Total Intercepción Variable X 1
G.L.
Suma de cuadrados
Promedio de los cuadrados
2 17 19
165194.521 47721.229 212915.750
82597.261 2807.131
29.424
Coeficientes
Error típico
Estadístico t
Probabilidad
490.286 -5.150
44.410 0.702
11.040 -7.337
F
3.5634E-09 1.1606E-06
Variable X 2
-14.718
4.934
0.00835087
-2.983
De la columna de coeficientes se obtiene el modelo de regresión múltiple
̂ 490.286−5.15 − 14.718
Para efectuar la prueba F (global) Se requiere de: 1. Las hipótesis de la prueba
: 0 :al menos uno de los parametros es distinto de cero .
2. El estadístico de prueba F
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba Para obtener los puntos críticos se requiere de la tabla F de Fisher completa donde se requiere del nivel de significancia , los grados de libertad del numerador y los grados de libertad de denominador .
− 0.−105 17
2
4. La conclusión de la prueba Por ubicarse el estadístico de prueba en la región de rechazo (color rojo), la hipótesis nula se rechaza y la hipótesis alternativa se acepta. Esto implica que al menos uno de los parámetros es diferente de cero. Por lo tanto, es necesario aplicar la prueba t a cada uno de los coeficientes muestrales para identificar cuáles son igual a cero. Para efectuar la prueba t (individual) Se requiere de:
1. Las hipótesis de la prueba para este caso son dos, por tener dos variables independientes:
:: ≠ 00 :: ≠ 00 −0.5.70215 −7.337 −4.14.934718 −2.983
2. El estadístico de prueba t, de cada uno de los coeficientes se obtienen de la columna “Estadístico t”
Para la temperatura
Para el aislamiento
3. La grafica de la distribución donde se muestran los puntos críticos que delimitan las áreas de aceptación y rechazo, y la localización en el eje horizontal el estadístico de prueba
− ⁄ ⁄ 0. 0 5 −2.11 ⁄ 2.11 Para obtener los puntos críticos del nivel de significancia y
y se requiere de la tabla t de Student donde se requiere , con grados de libertad de . Entonces
− −1 17
−⁄
4. La conclusión de las pruebas individuales Por ubicarse el estadístico de prueba para la temperatura y el aislamiento en la región de rechazo (color rojo), las hipótesis nulas son rechazadas. Esto implica que se confirma que estas dos variables si están correlacionadas con el costo de la calefacción.
Actividad 4: Ejercicios propuestos 1. Con la siguiente captura de pantalla de regresión,
ANÁLISIS DE VARIANZA Regresión Residuos Total Intercepción Variable X 1 Variable X 2
G.L.
Suma de cuadrados
Promedio de los cuadrados
2 62 64
77.907 583.693 661.600
38.954 9.414
Coeficientes
Error típico
Estadístico t
84.998 2.391 -0.409
1.863 1.200 0.172
45.624 1.993 -2.380
F
4.138
Responda las siguientes preguntas: a) b) c) d)
Elabore la ecuación de regresión. Si es 4 y es 11, ¿cuál es el valor de la variable dependiente? ¿Cuál es el tamaño de la muestra? ¿Cuántas variables independientes hay? Realice una prueba de hipótesis global para verificar si alguno de los coeficientes de regresión del conjunto es diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su conclusión? e) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de significancia 0.05. ¿Qué variables consideraría eliminar? f) Formule una estrategia para eliminar variables independientes en este caso. 2. La siguiente captura de pantalla de regresión se obtuvo de un estudio de empresas de arquitectura. La variable dependiente es la cantidad total de honorarios, en millones de dólares.
ANÁLISIS DE VARIANZA Regresión Residuos Total Intercepción Variable X 1 Variable X 2 Variable X 3 Variable X 4 Variable X 5
G.L.
Suma de cuadrados
Promedio de los cuadrados
5 46 51
3710.00 2647.38 6357.38
742.00 57.55
Coeficientes
Error típico
Estadístico t
7.987 0.12242 -0.12166 -0.06281 0.52350 -0.06472
2.9670 0.0312 0.0535 0.0390 0.1420 0.0400
2.69 3.92 -2.27 -1.61 3.69 -1.62
F
12.89
es el número de arquitectos que trabajan en la compañía. es el número de ingenieros que trabajan en la compañía. es el número de años invertidos en proyectos de cuidado de la salud. es el número de estados en los que opera la empresa. es el porcentaje del trabajo de la empresa que se relaciona con el cuidado de la salud.
a) Establezca la ecuación de regresión. b) ¿Cuál es el tamaño de la muestra? ¿Cuántas variables independientes hay? c) Realice una prueba de hipótesis global para ver si alguno de los coeficientes de regresión del conjunto puede ser diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su conclusión? d) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de significancia 0.05. ¿Qué variables consideraría eliminar? e) Formule una estrategia para eliminar variables independientes en este caso. 3. Una red de computadoras móviles ad hoc consta de varias computadoras (nodos) que se mueven dentro de un área de la red. Con frecuencia los mensajes se envían de uno a otro nodo. Cuando el nodo receptor está fuera del alcance, se debe enviar el mensaje a un nodo cercano, que después lo envía hacia su destino a lo largo de una ruta de direccionamiento. Ésta se determina por medio de una rutina conocida como un protocolo de direccionamiento. El porcentaje de mensajes que se distribuye exitosamente se llama goodput (caudal útil), y lo afecta la velocidad promedio del nodo y la pausa en los nodos en cada destino. La tabla
presenta la velocidad de nodo promedio, el promedio de pausa y el goodput para 25 redes ad hoc móviles simuladas.
Velocidad Tiempo de Goodput (m/s) pausa (s) (%) 5 10 95.111 5 20 94.577 5 30 94.734 5 40 94.317 5 50 94.644 10 10 90.800 10 20 90.183 10 30 91.341 10 40 91.321 10 50 92.104 20 10 72.422 20 20 82.089 20 30 84.937
Velocidad Tiempo de (m/s) pausa (s) 20 40 20 50 30 10 30 20 30 30 30 40 30 50 40 10 40 20 40 30 40 40 40 50
Goodput (%) 87.800 89.941 62.963 76.126 84.855 87.694 90.556 55.298 78.262 84.624 87.078 90.101
a) Establezca la ecuación de regresión. b) Realice una prueba de hipótesis global para ver si alguno de los coeficientes de regresión del conjunto puede ser diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su conclusión? c) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de significancia 0.05. ¿Qué variables consideraría eliminar? 4. En un experimento para determinar los factores que afectan el ahorro de combustible en camiones se midió el consumo de combustible (mi/gal), el peso (toneladas ) y la lectura de odómetro (miles de millas ) en 15 camiones. El análisis de datos en Excel arrojo los resultados siguientes.
ANÁLISIS DE VARIANZA
Regresión Residuos Total
Intercepción Variable X 1 Variable X 2
G.L.
Suma de cuadrados
Promedio de los cuadrados
2 12 14
8.720 1.215 9.935
4.360 0.101
Coeficientes
Error típico
Estadístico t
8.241 -0.10826 -0.00393
0.2871 0.0119 0.0014
28.70 -9.07 -2.79
F
43.06
a) Establezca la ecuación de regresión b) Realice una prueba de hipótesis global para ver si alguno de los coeficientes de regresión del conjunto puede ser diferente de 0. Utilice el nivel de significancia 0.05. ¿Cuál es su conclusión? c) Realice una prueba de hipótesis por cada variable independiente. Utilice el nivel de significancia 0.05. ¿Cuál es su conclusión? d) ¿Qué tan factible es Pronosticar las millas por galón para un camión que pesa diez toneladas y tiene una lectura del odómetro de 50 000 millas?