ANALISIS DE REGRESION MULTIPLE
Prueba Global y prueba individual
Problema 1
Las tiendas de Fran’s Convenience Marts están localizados en el área metropolitana de Erie, Pensylvania. A Fran, la dueña le gustaría expandirse a otras comunidades del noroeste de Pensylvania y al suroeste de Nueva York, tales como Jamestown, Corry, Meadville y Warren. Como parte de su presentación al banco local, le gustaría entender mejor los factores que hacen que una tienda en particular sea lucrativa. La propietaria debe hacer todo el trabajo sola así que no podrá analizar todos sus establecimientos. Selecciona una muestra aleatoria de 15 tiendas y de cada una registra el promedio de las ventas diarias (Y), la superficie (área), el número de cajones de establecimiento, y el ingreso económico medio de las familias en esa región. La información de la muestra se presenta a continuación:
Tienda en la muestra
Ventas diarias
Área de la tienda
Cajones de estacionamiento
Ingresos (miles de dólares)
1
1840
532
6
44
2
1746
478
4
51
3
1812
530
7
45
4
1806
508
7
46
5
1792
514
5
44
6
1825
556
6
46
7
1811
541
4
49
8
1803
513
6
52
9
1830
532
5
46
10
1827
537
5
46
11
1764
499
3
48
12
1825
510
8
47
13
1763
490
4
48
14
1846
516
8
45
15
1815
482
7
43
a) Determine la ecuación de regresión.
b) ¿Cuál es el valor de R 2? Haga un comentario acerca de este valor. c) Realice una prueba de hipótesis global para determinar si alguna de las variables independientes es diferente de cero. Sea α =0.05 d) Realice pruebas individuales de hipótesis para determinar si se pueden suprimir variables independientes.
Solución
Determinamos la solución mediante el paquete de Minitab.
Análisis de regresión: Ventas diari vs. Area de la t; Cajones de e; ...
La ecuación de regresión es Ventas diarias = 1481 + 0.731 Area de la tienda + 9.99 Cajones de estacionamiento - 2.31 Ingresos (miles de dólares)
Predictor Constante Area de la tienda Cajones de estacionamiento Ingresos (miles de dolares)
S = 13.4243
Coef 1480.7 0.7315 9.991 -2.308
R-cuad. = 83.5%
SE Coef 126.3 0.1633 2.600 1.595
T 11.72 4.48 3.84 -1.45
P 0.000 0.001 0.003 0.176
R-cuad.(ajustado) = 79.0%
Análisis de varianza Fuente Regresión Error residual Total
GL 3 11 14
SC 10057.7 1982.3 12040.0
CM 3352.6 180.2
F 18.60
P 0.000
Solución a
Sea:
Variable dependiente Y = Ventas diarias Variables independientes X1 = Area de la tienda
X2 = cajones de estacionamiento
X3 = Ingresos
La ecuación de regresión será: Y = 1481 + 0.731 X 1 + 9.99 X 2 – 2.31 X 3 Solución b
=
=
10057.7 12040
= 0.835
= 0.835 Por lo tanto el 83.5% de la variación de las ventas diarias será explicada por la regresión.
Solución c
1) : = = = 0
:
2) = 0.05 3)
4)
F (α, k, n-k-1) F (0.05, 3, 11)
5)
= 18.60
∈ → ℎ
Por lo tanto no todos los coeficientes de regresión son iguales a cero.
Solución d
1) : = 0, = 0, = 0
: ≠ 0, ≠ 0, ≠ 0
2) = 0.05 3)
4)
t (α, n-k-1) t (0.05, 11)
5)
=
−
=
=
=
0.731 − 0 0.1633
9.99 − 0 2.6
= 3.84
−2.308 − 0 1.595
= 4.48
= −1.45
∈ → ℎ
∈ → ℎ
∈ → ℎ
Por lo tanto la variable Ingresos no es un predictor significativo de las ventas diarias por lo que se podría eliminar del análisis.
Problema 2
El gerente de ventas del distrito de un importante fabricante de automóviles está estudiando las ventas. Específicamente le gustaría determinar qué factores afectan el número de autos vendidos en una agencia. Para investigar, selecciona aleatoriamente 12 agencias. De ellas obtiene el numero de vehículos vendidos el ultimo mes, los minutos de publicidad radiofónicas comprados en dicho periodo, el numero de vendedores de tiempo completo empleados en la agencia, y si esta se localiza en la ciudad o no. La información es la siguiente.
Automóviles vendidos el mes pasado
Anuncios
Fuerza de ventas
Ciudad
127
18
10
1
138
15
15
0
159
22
14
1
144
23
12
1
139
17
12
0
128
16
12
1
161
25
14
1
180
26
17
1
102
15
7
0
163
24
16
1
106
18
10
0
149
25
11
1
a) Determine la ecuación de regresión. ¿Cuántos autos esperarían que se vendieran
en una agencia con 20 vendedores, que compra 15 minutos de publicidad y se localiza en una ciudad? b) Realice una prueba de hipótesis global para determinar si alguna de las variables independientes es diferente de cero. Sea α =0.05 c) Realice pruebas individuales de hipótesis para determinar si se pueden suprimir variables independientes.
Solución
Determinamos la solución mediante el paquete de Minitab.
Análisis de regresión: Automóviles vs. Anuncios; Fuerza de ve; Ciudad La ecuación de regresión es Automóviles vendidos el mes pas = 31.1 + 2.15 Anuncios + 5.01 Fuerza de ventas + 5.67 Ciudad
Predictor Constante Anuncios Fuerza de ventas Ciudad
S = 7.24780
Coef 31.13 2.1516 5.0140 5.665
SE Coef 13.40 0.8049 0.9105 6.332
R-cuad. = 92.9%
T 2.32 2.67 5.51 0.89
P 0.049 0.028 0.001 0.397
R-cuad.(ajustado) = 90.2%
Análisis de varianza Fuente Regresión Error residual Total
GL 3 8 11
SC 5504.4 420.2 5924.7
CM 1834.8 52.5
F 34.93
P 0.000
Solución a
Sea:
Variable dependiente Y = Automóviles vendidos el mes pasado Variables independientes X1 = Anuncios
X2 = Fuerza de ventas
X3 = Ciudad
La ecuación de regresión será: Y = 31.1 + 2.15 X 1 + 5.01 X2 +5.67 X3 Para: X1 = 15
X2 = 20
X3 = 1
Y = 31.1 + 2.15 (15) + 5.01 (20) +5.67 (1) Y = 169.22
Solución b
1) : = = = 0
:
2) = 0.05 3)
4)
F (α, k, n-k-1) F (0.05, 3, 8)
5) = 34.93
∈ → ℎ
Por lo tanto no todos los coeficientes de regresión s on iguales a cero.
Solución c
1) : = 0, = 0, = 0
: ≠ 0, ≠ 0, ≠ 0
2) = 0.05 3)
4)
t (α, n-k-1) t (0.05, 8)
5)
=
=
−
2.15 − 0 0.8049
= 2.67
∈ → ℎ
=
=
5.01 − 0 0.9105 5.67 − 0 6.332
= 5.51
∈ → ℎ
= 0.89
∈ → ℎ
Por lo tanto la variable Ciudad no es un predictor significativo de l os automóviles vendidos el mes pasado por lo que se podría eliminar del análisis.
Contribución de una variable explicatoria
Problema 1
El administrador de un nuevo programa legal en el Seagate Technical College desea estimar el promedio de calificaciones en dicho programa. Consideró que la puntuación en expresión oral en Examen de Aptitud Académica Superior SAT y las calificaciones de matemáticas en el SAT serían buenos predictores en el GPA legal. Los datos se muestran a continuación
Estudiante
SAT verbal
SAT matemáticas
GPA legal
1
480
410
3.21
2
290
270
1.68
3
420
410
3.58
4
500
600
3.92
5
500
490
3
6
430
460
2.82
7
320
490
1.65
8
530
480
2.3
9
469
440
2.33
Determinar si las contribuciones de las variables explicatorias mejoran o no el modelo
Solución
Determinamos la solución mediante el paquete de Minitab.
Análisis de regresión general: GPA legal versus SAT verbal; SAT matematicas Ecuación de regresión GPA legal
=
-0.148891 + 0.00485046 SAT verbal + 0.00166026 SAT matematicas
Coeficientes
Término Constante SAT verbal SAT matematicas
Coef -0.148891 0.004850 0.001660
EE del coef. 1.47677 0.00378 0.00355
T -0.10082 1.28319 0.46745
P 0.923 0.247 0.657
Resumen del modelo S = 0.710569 PRESS = 8.66336
R-cuad. = 40.17% R-cuad.(pred.) = -71.11%
R-cuad.(ajustado) = 20.22%
Análisis de varianza Fuente Regresión SAT verbal SAT matematicas Error Total
Sea:
GL 2 1 1 6 8
SC Sec. 2.03364 1.92331 0.11033 3.02945 5.06309
SC Ajust. 2.03364 0.83137 0.11033 3.02945
CM Ajust. 1.01682 0.83137 0.11033 0.50491
F 2.01386 1.64658 0.21851
P 0.214213 0.246757 0.656674
Variable dependiente Y = GPA legal Variables independientes X1 = SAT verbal
X2 = SAT matematicas
Contribución de la variable X1
1) :
:
2) = 0.05 3)
4)
F (α, 1, n-k-1) F (0.05, 1, 6)
5) = 1.646
∈ → ℎ
Por lo tanto la variable X 1 no mejora el modelo en forma significativa una vez incluida la variable X2
Contribución de la variable X2
1) :
: 2) = 0.05 3)
4)
F (α, 1, n-k-1) F (0.05, 1, 6)
5)
= 0.218
∈ → ℎ
Por lo tanto la variable X 2 no mejora el modelo en forma significativa una vez incluida la variable X1
Problema 2
El señor Mike Wide es presidente del sindicato de profesores del Distrito escolar de Otsego. Como preparación para las futuras negociaciones, a Mike le gustaría investigar la estructura de los sueldos del personal docente en el distrito. Considera que existen dos factores que afectan el salario de un profesor: los años de experiencia y una calificación
de la efectividad en la enseñanza, asignada por el director. Una muestra aleatoria de 20 profesores dio como resultado los datos siguientes:
Sueldo
(miles de dolares)
Años de experiencia
Calificación del director
21.1
8
35
23.6
5
43
19.3
2
51
33
15
60
28.6
11
73
35
14
80
32
9
76
26.8
7
54
38.6
22
55
21.7
3
90
15.7
1
30
20.6
5
44
41.8
23
84
36.7
17
76
28.4
12
68
23.6
14
25
31.8
8
90
20.7
4
62
22.8
2
80
32.8
8
72
Determinar si las contribuciones de las variables explicatorias mejoran o no el modelo
Solución
Determinamos la solución mediante el paquete de Minitab. Análisis de regresión general: Sueldo
versus Años de expe; Calificacion
Ecuación de regresión Sueldo
(miles de dolares)
=
10.1157 + 0.892648 Años de experiencia + 0.14638 Calificacion del director
Coeficientes
Término Constante Años de experiencia Calificacion del director
Coef 10.1157 0.8926 0.1464
EE del coef. 1.84221 0.08502 0.02771
T 5.4911 10.4994 5.2830
P 0.000 0.000 0.000
Resumen del modelo S = 2.34011 PRESS = 128.457
R-cuad. = 90.64% R-cuad.(pred.) = 87.08%
R-cuad.(ajustado) = 89.54%
Análisis de varianza Fuente Regresión Años de experiencia Calificacion del director Error Total
Sea:
GL 2 1 1 17 19
SC Sec. 901.468 748.631 152.837 93.094 994.562
SC Ajust. 901.468 603.672 152.837 93.094
CM Ajust. 450.734 603.672 152.837 5.476
F 82.309 110.238 27.910
Variable dependiente Y = Sueldo Variables independientes X1 = Años de experiencia
X2 = Calificación del director
Contribución de la variable X1
1) :
: 2) = 0.05 3)
4)
F (α, 1, n-k-1) F (0.05, 1, 17)
5)
= 110.238
∈ → ℎ
Por lo tanto la variable X 1 si mejora el modelo en forma significativa una vez incluida la variable X2
Contribución de la variable X2
1) :
:
2) = 0.05 3)
4)
F (α, 1, n-k-1) F (0.05, 1, 17)
5)
= 27.910
∈ → ℎ
Por lo tanto la variable X 2 si mejora el modelo en forma significativa una vez incluida la variable X1
Análisis Residual Problema 1
Muchas regiones a lo largo de las costas de Carolina del Norte y Carolina del sur han experimentado un crecimiento de la población en los últimos 10 años. Se espera que el crecimiento continue en los próximos 10 años. Esto ha dado como resultado que muchas de las grandes cadenas de tiendas de abarrotes construyan nuevas tiendas en la región. El director de una de estas tiendas esta estudiando la posibilidad de abrir mas tiendas en esta región. El considera que existen dos facores principales que indican la cantidad que las familias gastan en alimentos. El primero es su ingreso y el otro el numero de personas en su familia. El director obtiene la siguiente información.
Familia
Alimento
Ingreso
Tamaño
1
5.04
73.98
4
2
4.08
54.9
2
3
5.76
94.14
4
4
3.48
52.02
1
5
4.2
65.7
2
6
4.8
53.64
4
7
4.32
79.74
3
8
5.04
68.58
4
9
6.12
165.6
5
10
3.24
64.8
1
11
4.8
138.42
3
12
3.24
125.82
1
13
6.6
77.58
7
14
4.92
171.36
2
15
6.6
82.08
9
Realizar el análisis residual que permita mejorar el modelo del sistema
Solución
Determinamos la solución del análisis residual en Minitab
Familia
RESIDT
HI
COOK
1
0.2527
0.0841
0.0021
2
0.4128
0.1555
0.0112
3
2.1145
0.0710
0.0883
4
0.0425
0.2196
0.0002
5
0.5458
0.1256
0.0151
6
-0.0359
0.1344
0.0001
7
-0.5654
0.0756
0.0092
8
0.3460
0.0938
0.0045
9
0.4501
0.3472
0.0385
10
-0.8771
0.1822
0.0583
11
-0.3028
0.1702
0.0068
12
-2.4227
0.2063
0.3617
13
0.8822
0.2496
0.0879
14
0.8060
0.3870
0.1408
15
-2.9542
0.4978
1.7542
1) Elementos de la matriz sombrero Hi
>
2×(+1)
=
2×(2+1) 15
= 0.4
> 0.4 Por lo tanto = 0.4978 es un candidato a ser eliminado
2) Residuales de t student
| | > (0.05,11 ) = 1.796 > 1.796 < −1.796 Por lo tanto = 2.1145 , = −2.422 = −2.9542 son candidatos a ser eliminados. 3) > (0.50,4,11)
> 0.8932 Por lo tanto = 1.7542
Problema 2
Se realiza un estudio dirigido al gasto familiar. Se desea conocer la relación que afecte el gasto de alimentación mensual de una familia con el ingreso mensual, los componentes de la familia y el ahorro familiar conseguido.
Gastos en alimentos
Ingreso Mensual
Integrantes de familia
Ahorro mensual
5000
10000
6
500
6000
45000
9
2000
2000
11000
5
1000
3000
12000
6
500
1500
10500
3
1000
5000
10000
6
2000
6000
24000
6
2000
3000
6000
3
1800
6000
45000
6
1500
5000
45500
5
3000
Realizar el análisis residual que permita mejorar el modelo del sistema Solución
Determinamos la solución del análisis residual en Minitab
RESIDT
HI
COOK
1.561
0.316
0.227
-1.432
0.581
0.604
-1.368
0.162
0.079
-0.616
0.311
0.048
-0.743
0.406
0.102
0.342
0.513
0.036
0.998
0.176
0.053
0.287
0.414
0.017
1.481
0.533
0.522
-0.476
0.590
0.094
1) Elementos de la matriz sombrero Hi
>
2×(+1)
=
2×(3+1) 10
= 0.8
> 0.8 Por lo tanto
2) Residuales de t student
| | > (0.05,6) = 1.943 > 1.943 < −1.943 Por lo tanto ninguno es candidato a ser eliminado
3) > (0.50,4,11 ) > 0.8932 Por lo tanto ninguno es candidato a ser eliminado
Prueba de hipótesis para el modelo curvilíneo
Problema 1
Se tiene los datos de precio y ventas de un determinado producto realizar la prueba de hipótesis del efecto lineal y efecto curvilíneo.
ventas
Precio 1
Precio 2
142
0.79
0.6241
151
0.79
0.6241
163
0.79
0.6241
168
0.79
0.6241
176
0.79
0.6241
91
0.99
0.9801
100
0.99
0.9801
107
0.99
0.9801
115
0.99
0.9801
126
0.99
0.9801
77
1.19
1.4161
86
1.19
1.4161
95
1.19
1.4161
100
1.19
1.4161
106
1.19
1.4161
Solución
Determinamos la solución de la regresión en Minitab.
Análisis de regresión: ventas vs. Precio 1; Precio 2 La ecuación de regresión es ventas = 730 - 1089 Precio 1 + 465 Precio 2
Predictor Constante Precio 1 Precio 2
Coef 729.9 -1088.7 465.0
S = 12.8699
SE Coef 169.3 349.5 176.2
R-cuad. = 86.2%
T 4.31 -3.11 2.64
P 0.001 0.009 0.022
R-cuad.(ajustado) = 83.9%
Análisis de varianza Fuente Regresión Error residual Total
GL 2 12 14
SC 12442.8 1987.6 14430.4
CM 6221.4 165.6
F 37.56
P 0.000
Prueba Global
1) : = 0, = 0
:
2) = 0.05 3)
4)
F (α, k, n-k-1) F (0.05, 2, 12)
5)
= 37.56
∈ → ℎ
Prueba Individual
Efecto Lineal
1) : = 0
: ≠ 0
2) = 0.05 3)
4)
T (α, n-k-1) T (0.05, 12)
5)
=
=
−
−1088.7 − 0 349.5
= −3.11
∈ → ℎ
Por lo tanto la inclusión del efecto lineal si mejora en forma significativa el modelo
Efecto curvilíneo
1) : = 0 : ≠ 0
2) = 0.05 3) 4)
T (α, n-k-1) T (0.05, 12)
5)
=
=
−
465−0 176.2
= 2.64
∈ → ℎ
Por lo tanto la inclusión del efecto curvilineo si mejora en forma significativa el modelo
Problema 2
La demanda de un tipo de impresoras ha cambiado debido a una rápida variación en el precio. Se ha observado la demanda unitarios
en una amplia región geográfica y los precios
(en unidades de diez mil pesetas). Los resultados son los de la tabla adjunta.
Y
X1
X2
360
8.8
77.44
305
8.8
77.44
230
8.8
77.44
242
8.8
77.44
180
9.9
98.01
172
9.9
98.01
121
9.9
98.01
83
9.9
98.01
122
14.8
219.04
91
14.8
219.04
105
14.8
219.04
Solución
Determinamos la solución de la regresión en Minitab.
Análisis de regresión: Y vs. X 1; X 2 La ecuación de regresión es Y = 3266 - 523 X 1 + 20.9 X 2
Predictor Constante X 1 X 2
Coef 3265.8 -522.6 20.885
S = 46.9158
SE Coef 773.9 136.2 5.694
T 4.22 -3.84 3.67
R-cuad. = 79.1%
P 0.003 0.005 0.006
R-cuad.(ajustado) = 73.8%
Análisis de varianza Fuente Regresión Error residual Total
GL 2 8 10
SC 66537 17609 84146
CM 33268 2201
F 15.11
P 0.002
Prueba Global
1) : = 0, = 0
:
2) = 0.05 3)
4)
F (α, k, n-k-1) F (0.05, 2, 8)
5)
= 15.11
Prueba Individual
Efecto Lineal
1) : = 0 : ≠ 0
2) = 0.05
∈ → ℎ
3) 4)
T (α, n-k-1) T (0.05, 8)
5)
=
=
−
−522.6 − 0 136.2
= −3.84
∈ → ℎ
Por lo tanto la inclusión del efecto lineal si mejora en forma significativa el modelo
Efecto curvilíneo
1) : = 0 : ≠ 0
2) = 0.05
3)
4)
T (α, n-k-1) T (0.05, 8)
5)
=
=
−
20.885 − 0 5.694
= 3.67
∈ → ℎ
Por lo tanto la inclusión del efecto curvilineo si mejora en forma significativa el modelo.