Universidad Nacional Tecnológica de Lima Sur
Estadística y Diseño Experimental Regresión lineal múltiple
Mg. Myrna Manco C.
Es posible estudiar a las unidades estadísticas atendiendo a la variación simultánea de dos o más características.
Objetivo: Reconocer si hay relación entre las variables Medir el grado de relación Estimar un modelo de relación Verificar la bondad de ajuste del modelo
2
Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión.
100
90
Peso (Kg)
80 70 60
50 40 30 140
150
160
170
180
190
Estatura (cm) 3
200
100
80
Fuerte relación directa.
90 80
Cierta relación inversa
70 60
70
50
60
40 30
50
20
40
10
30
0
140
150
160
170
180
190
200
140
150
160
170
180
190
200
• relación lineal directa. relación lineal inversa o negativa 110
330 280
Incorrelación
100
90
230
80
180
70
130
60 50
80
Y
40
30 140
150
160
170
180
190
200
30 -8
-6
-4
-2
0
2
4
6
8
X
No existe correlación lineal 4
La covarianza entre dos variables, Sxy, nos indica si la posible relación entre dos variables es directa o inversa. ◦ Directa: Sxy >0 ◦ Inversa: Sxy <0 ◦ Incorreladas: Sxy =0
1 S xy ( xi x )( yi y ) n i
El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no, pero no nos dice nada sobre el grado de relación entre las variables.
5
r
S xy SxSy
Es adimensional Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal, siempre que no existan observaciones anómalas.
Relación inversa perfecta
Variables incorrelacionadas
Relación directa perfecta
6
Se hace un estudio para determinar la relación entre el tiempo de vida (años) y la eficiencia de las máquinas (%) de una fábrica. Los datos se dan en la siguiente tabla:
Tiempo de vida Eficiencia
2 4 11 9 4 6 7 8 90 65 25 40 80 60 35 50
a) Representar los datos en un diagrama de dispersión. b) Calcule el coeficiente de correlación entre las dos variables. Interprete. 7
Regresión .. predicción de una medida basándonos en el conocimiento de otra. ◦ Ejemplos: ◦ Tiempo de asistencia a la escuela del hijo en función al número de años de escolarización de la madre. ◦ Calificación obtenida en una materia según el número de horas de estudio semanal. ◦ Tiempo de ejecución de un programa en función de la velocidad del procesador. ◦ Predecir la tasa de desempleo según la edad. 8
¿Es posible descubrir una relación? RELACIÓN FUNCIONAL Y=f (X1, X2, … , Xn) Ejemplo: La relación que existe entre el tiempo (Y) que tarda un móvil en recorrer una distancia (X) a velocidad constante (v) Y=X/v NO EXISTE NINGUNA RELACIÓN Ejemplo: La relación que existe entre el dinero (Y) que gana una persona adulta mensualmente y su altura (X) RELACIÓN ESTOCÁSTICA Y = f(X) + error f es una función de un tipo determinado (desconocida) el error es aleatorio, pequeño, y no depende de X
9
El análisis de regresión sirve para predecir una medida en función de otra medida (o varias).
X = Variable independiente regresora predictora explicativa
Y = Variable dependiente respuesta predicha explicada
XY (X1, X2, … , Xn) Y
10
Dado dos variables
buscamos encontrar una función de X muy
Y=0 + 1X+ que nos permita aproximar Y mediante
◦ Y (dependiente) ◦ X (independiente)
simple (lineal) ◦ Ŷ = b0 + b1X
b0 (ordenada en el origen, constante) b1 (pendiente de la recta)
Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. A la cantidad ◦ e=Y-Ŷ se le denomina residuo o error residual.
11
El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: ◦ Buscar b0, b1 de tal manera que se minimice la cantidad Σi ei2 Se comprueba que para lograr dicho resultado basta con elegir:
SY b1 r SX
b0 y b1 x
Se obtiene además unas ventajas “de regalo” ◦ El error residual medio es nulo ◦ La varianza del error residual es mínima para dicha estimación. Traducido: En término medio no nos equivocamos. Cualquier otra estimación que no cometa error en término medio, si es de tipo lineal, será peor por presentar mayor variabilidad con respecto al error medio (que es cero). 12
Lo adecuado del modelo depende de la relación entre: ◦ la dispersión marginal de Y ◦ La dispersión de Y condicionada aX
360
y
380
400
420
r= 0.415 r^2 = 0.172
340
◦ La distribución de Y, para valores fijados de X, se denomina distribución condicionada.
320
150
160
170
180
190
◦ La distribución de Y, independientemente del valor de X, se denomina distribución marginal.
370
380
390
r= 0.984 r^2 = 0.969
360
Si la dispersión se reduce notablemente, el modelo de regresión será adecuado.
350
y
Es decir, fijando valores de X, vemos cómo se distribuye Y
150
160
170
180
190
13
Imaginemos un diagrama de dispersión, y vamos a tratar de comprender en primer lugar qué es el error residual, su relación con la varianza de Y, y de ahí, cómo medir la bondad de un ajuste.
14
En primer lugar olvidemos que existe la variable X. Veamos cuál es la variabilidad en el eje Y.
Y
La franja sombreada indica la zona donde varían los valores de Y. Proyección sobre el eje Y = olvidar X
15
Fijémonos ahora en los errores de predicción (líneas verticales). Los proyectamos sobre el eje Y.
Y
Se observa que los errores de predicción, residuos, están menos dispersos que la variable Y original. Cuanto menos dispersos sean los residuos, mejor será la bondad del ajuste.
16
Resumiendo:
Y
• La dispersión del error residual será una fracción de la dispersión original de Y •Cuanto menor sea la dispersión del error residual mejor será el ajuste de regresión.
Eso hace que definamos como medida de bondad de un ajuste de regresión, o coeficiente de determinación a:
S R 1 S 2
2 e 2 Y
S S 2 e
17
2 Y
La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2
R2 es una cantidad adimensional que sólo puede tomar valores en [0, 1]
Cuando un ajuste es bueno, R2 será cercano a uno.
Cuando un ajuste es malo R2 será cercano a cero.
A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.
R2 puede ser pesado de calcular en modelos de regresión general, pero en el modelo lineal simple, la expresión es de lo más sencilla: R2=r2 18
Se pueden considerar otros tipos de modelos, en función del aspecto que presente el diagrama de dispersión (regresión no lineal)
Incluso se puede considerar el que una variable dependa de varias (regresión múltiple).
¿recta o parábola?
140
150
160
170
180
190
200
170
180
190
200
¿recta o cúbica?
140
150
160
19
4. Para una zapatería se obtiene la siguiente ecuación de regresión estimada en la que se relacionan las ventas con la inversión en inventario y los gastos en publicidad.
yˆ 25 10 X 1 8 X 2
Donde x1 :inversión en inventario (en miles de $) x2 : gasto en publicidad (en miles de $) y : ventas (en miles de $) a. Estime las ventas si la inversión en inventario es de $15 000 y el presupuesto para publicidad es de $10 000. b. Interprete b1 y b2 en esta ecuación de
regresión estimada.
El dueño de Showtime Movie Theater, Inc., desea estimar el ingreso bruto semanal en función de los gastos en publicidad. A continuación se presentan los datos históricos de 8 semanas. a. Obtenga una ecuación de regresión estimada en la que el monto gastado en publicidad en televisión sea la variable independiente. b. Obtenga una ecuación de regresión estimada en la que los montos gastados en publicidad en televisión y en periódicos sean las variables independientes. c. ¿Es el coeficiente correspondiente a los gastos de publicidad en televisión de la ecuación de regresión estimada del inciso a) igual al del inciso b)? Interprete este coeficiente en cada caso.
EJEMPLO. El dueño de una distribuidora de automóviles realizó un estudio, para determinar las relaciones en un mes determinado, entre el número de automóviles vendidos en el mes por su distribuidora con el número de comerciales de un minuto sobre su distribuidora televisado localmente en ese mes. Durante el período de 6 meses anotó los resultados que se muestran en la siguiente tabla .
Una compañía de bienes raíces residenciales en una ciudad grande desea predecir los costos mensuales de rentas para departamentos, basado en el tamaño de los mismos definidos por los pies cuadrados de espacios. Selecciona una muestra.
12.1 Se llevó a cabo un conjunto de ensayos experimentales con un horno para determinar una forma de predecir el tiempo de cocción, y, a diferentes niveles de ancho del horno, x1, y a diferentes temperaturas, x2. Se registraron los siguientes datos:
Estime la ecuación de regresión lineal múltiple.
12.5 Se cree que la energía eléctrica que una planta química consume cada mes se relaciona con la temperatura ambiental promedio, x1, el número de días del mes, x2, la pureza promedio del producto, x3, y las toneladas fabricadas del producto, x4. Se dispone de datos históricos del año anterior, los cuales se presentan en la siguiente tabla.