Multicolinealidad en la regresión múltiple Definición y efecto de la multicolinealidad
Un ejemplo de multicolinealidad
588
En el análisis de regresión múltiple, los coeficientes de regresión regresión a menudo se vuelven menos menos confiables conforme aumenta el grado de correlación entre las variables independientes. Si
existe un alto nivel de correlación correlación entre algunas de las variables variables independientes, nos enfrentamos a un problema que los estadísticos llaman multicolinealidad. La multicolinealidad puede presentarse si deseamos estimar la recuperación de las ventas de una empresa y utilizamos tanto el número de vendedores empleados como sus salarios totales. Como los valores asociados con con estas dos variables independientes independientes tienen una correlación alta, necesitamos usar sólo un conjunto de ellos para realizar nuestra estimación. De hecho, al agregar una segunda vavariable que está correlacionada correlacionada con la primera, se distorsionan los valores de los coeficientes coeficientes de regresión. Sin embargo, embargo, a menudo podemos podemos predecir bien Y , incluso cuando cuando haya haya multicolinealidad. multicolinealidad. Consideremos un ejemplo donde existe multicolinealidad para ver cómo afecta a la regresión. Durante los 12 meses pasados, el gerente del restaurante Pizza Pizza Shack ha estado poniendo una serie de anuncios en el periódico local. Los anuncios se programan y pagan el mes anterior a que aparezcan.
Capítu Capítulo lo 13
Regres Regresión ión múltip múltiple le y mode modelad lado o
Tabla 13-4
X 1
X 2
Y
Mes
Número de anuncios publicados
Costo de anuncios publicados (cientos de dólares)
Venta total de pizzas (miles de dólares)
Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre Enero Febrero Marzo Abril
12 11 9 7 12 8 6 13 8 6 8 10
13.9 12.0 9.3 9.7 12.3 11.4 9.3 14.3 10.2 8.4 11.2 11.1
43.6 38.0 30.1 35.3 46.4 34.2 30.2 40.7 38.5 22.6 37.6 35.2
Datos de ventas y anuncios para el restaurante Pizza Shack
Dos regresiones simples
Cada anuncio contiene un cupón que permite llevarse dos pizzas pagando solamente la de mayor precio. El gerente recolectó los datos de la tabla 13-4 y le gustaría utilizarlos para predecir las ventas de pizzas. En las figuras 13-6 y 13-7, se dieron los resultados de Minitab para las regresiones respectivas de las ventas totales sobre el número de anuncios y sobre el costo. Para la regresión sobre el número de anuncios, tenemos que el valor t observado es 3.95. Con 10 grados de libertad y un nivel de significancia de 0.01, se encontró que el valor t crítico (tomado de la tabla 2 del apéndice) es 3.169. Como t t (o de manera equivalente, como p es menor que 0.01), concluimos que el número de anuncios es una variable explicativa altamente significativa de las ventas totales. Note también que r 2 61.0%, de modo que el número de anuncios explica aproximadamente el 61% de la variación en las ventas de pizzas. Para la regresión sobre el costo de los anuncios, el valor t observado es 4.54, de modo que el costo de los anuncios es una variable explicativa de las ventas totales todavía más significativa que el número de anuncios (para los que el valor t observado fue sólo 3.95). En esta regresión, r 2 67.3%, así que el costo de los anuncios explica aproximadamente el 67% de la variación de las ventas de pizzas. Como ambas variables explicativas son altamente significativas por sí mismas, intentamos utilizar ambas en una regresión múltiple. El resultado se presenta en la figura 13-8. La regresión múltiple es altamente significativa como un todo, ya que la p de ANOVA es 0.006.
o
Uso de ambas variables explicativas en una regresión múltiple
Figura 13-6 Regresión de las ventas sobre el número de anuncios con Minitab
c
Análisis de regresión La ecuación de regresión es VENTAS = 16.9 + 2.08 ANUNCIOS Pronosticador Constante ANUNCIOS
Coef 16.937 2.0832
s = 4.206
DesvEst 4.982 0.5271
Cociente-t 3.40 3.95
p 0.007 0.003
MC 276.31 17.69
F 15.62
R-sq = 61.0%
Análisis de varianza FUENTE Regresión Error Total
GL 1 10 11
SC 276.31 176.88 453.19
13.4
Inferencias sobre parámetros de población
p 0.003
589
Figura 13-7 Regresión de las ventas sobre el costo de los anuncios con Minitab
Análisis de regresión La ecuación de regresión es VENTAS = 4.17 + 2.87 COSTO Pronosticador Constante ANUNCIOS s = 3.849
Coef 4.173 2.8725
DesvEst 7.109 0.6330
Cociente-t 0.59 4.54
p 0.570 0.000
SC 305.04 148.15 453.19
MC 305.04 14.81
F 20.59
R-sq = 67.3%
Análisis de varianza FUENTE Regresión Error Total
GL 1 10 11
p 0.000
El coeficiente de determinación múltiple es R2 68.4%, de manera que las dos variables juntas explican alrededor del 68% de la variación de las ventas totales. Sin embargo, si observamos los valores p para las variables individuales de la regresión múltiple, vemos que, incluso al nivel 0.1, ninguna de las variables es una variable explicativa significativa.
Pérdida de significancia individual
¿Qué sucedió? En la regresión simple, cada variable es altamente significativa, y en la regresión múltiple lo son de manera colectiva, pero no en forma individual.
Correlación entre dos variables explicativas
Ambas variables explican lo mismo
FIGURA 13-8 Regresión de Minitab para ventas sobre el número y el costo de los anuncios
Esta aparente contradicción se explica cuando observamos que el número de anuncios tiene una correlación alta con el costo de los mismos. De hecho, la correlación entre estas dos variables es r 0.8949, de modo que tenemos un problema de multicolinealidad en los datos. Podríamos preguntarnos por qué estas dos variables no están perfectamente correlacionadas. La razón es que el costo de un anuncio varía ligeramente, dependiendo del lugar que ocupa en el periódico. Por ejemplo, el domingo, los anuncios colocados en la sección de televisión cuestan más que los de la sección de noticias, y el administrador de Pizza Shack ha colocado anuncios en cada una de estas secciones en diferentes ocasiones. Como X 1 y X 2 tienen una relación estrecha, en efecto, cada una explica la misma parte de la variabilidad de Y . Ésta es la razón por la que obtenemos r 2 61.0% en la primera regresión simple, r 2 67.3% en la segunda regresión simple, y una r 2 de sólo 68.4% en la regresión múltiple. Agre Análisis de regresión La ecuación de regresión es VENTAS = 6.58 + 0.62 ANUNCIOS + 2.14 COSTO Pronosticador Constante ANUNCIOS COSTO s = 3.989
Coef 6.584 0.625 2.139
DesvEst 8.542 1.120 1.479
Cociente-t 0.77 0.56 1.45
p 0.461 0.591 0.180
SC 309.99 143.20 453.19
MC 154.99 15.91
F 9.74
R-sq = 68.4%
Análisis de varianza FUENTE Regresión Error Total
590
Capítulo 13
GL 2 9 11
Regresión múltiple y modelado
p 0.006
Las contribuciones individuales no pueden separarse
gar el número de anuncios como segunda variable explicativa, además del costo de los anuncios, explica nada más alrededor del 1% adicional de la variación de las ventas totales. En este punto, es justo preguntarse: ¿qué variable realmente explica la variación de las ventas totales en la regresión múltiple? La respuesta es que ambas la explican, pero no podemos separar sus contribuciones individuales, debido a que están altamente correlacionadas entre sí. En consecuencia, sus coeficientes en la regresión múltiple tienen errores estándar altos, valores t calculados relativamente bajos y valores prob | t | relativamente altos.
¿De qué manera nos afecta esta multicolinealidad? Todavía podemos hacer predicciones relativamente precisas cuando se encuentra presente: note que para la regresión múltiple (la salida se da en la figura 13-8), el error estándar de la estimación, que determina el ancho de los intervalos de confianza para las predicciones es 3.989 , mientras que para la regresión simple con el costo de los anuncios como variable explicativa (salida en la figura 13-7), tenemos s 3.849. Lo que no podemos hacer es predecir con mucha precisión cómo cambiarán las ventas si aumentamos en uno el número de anuncios. La regresión múltiple dice que b1 0.625 (esto es, cada anuncio aumenta las ventas totales de pizzas alrededor de $625), pero el error estándar de este coeficiente es 1.12 (es decir, aproximadamente $1,120). e
Sugerencia: el concepto de hacer inferencias respecto a una regresión múltiple es justo lo mismo que se hizo en el SUPOSICIONES capítulo 12, cuando hicimos inferencias respecto a una recta de regresión, excepto que ahora se emplean dos o más variables independientes. Advertencia: la multicolinealidad es un problema que debe manejarse en la regresión múltiple y es necesario desarrollar una comprensión con sentido común. Recuerde que todavía puede hacer predicciones precisas cuando está presente. Pero recuerde también que no puede decir con mucha precisión SUGERENCIAS Y
cuánto cambiará la variable dependiente si “manipula” las variables independientes. Entonces, el objetivo debe ser minimizar la multicolinealidad. Sugerencia: la mejor regresión múltiple es la que explica la relación entre los datos al señalar la responsabilidad de la mayor proporción de la variación en la variable dependiente, con el menor número de variables independientes. Advertencia: no es una buena idea incluir demasiadas variables independientes sólo porque cuenta con una computadora y un paquete de software para estadística.