Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I 5. ANÁLISIS DE REGRESIÓN REGRESIÓ N Y CORRELACIÓN REGRESIÓN LINEAL En el campo de la estadística, administración, educación, ingeniería, entre otras frecuentemente se trata de saber si existe relación entre dos variables, en caso de existir cual es esa relación. El objetivo del capitulo es contestar estas inquietudes y analizar si existe relación lineal entre dos variables, cuantificar la intensidad de la relación, realizar un ajuste por medio de las estimaciones matemáticas y posteriormente utilizar el modelo para predecir una variable (dependiente). Al rel relaci aciona onarr dos dos varia variabl bles es se se tien tiene e que que defi definir nir una varia variable ble inde indepen pendi dient ente e y una una depen dependi dien ente te.. La variable independiente se representa con la letra x , que expresa la causa de un fenómeno en una relación entre las variables, esta se mide o se controla para predecir la variable dependiente representada por la letra y que expresa la consecuencia del fenómeno. Por ejemplo en la los gastos de publicidad (variable independiente) se puede medir o controlar con la finalidad de observar el incremento en ventas (variable dependiente). Por lo tanto los gastos por publicidad se denominan variable x y a la venta como variable y, en muchas ocasiones la definición de las variables puede ser x o y , dependerá de la formulación de la pregunta. Por ejemplo en el caso de la estatura y peso, si nosotros indicamos que la estatura esta en función del peso, en este caso la estatura es la variable dependiente y el peso es variable independiente, pero si nosotros formulamos que el peso esta en función de la estatura, en este caso las dos variables se cambian, es decir el peso será la variable dependiente y la estatura como la variable independiente. Sin embargo se obtendrán resultados distintos de los análisis de regresión regresión de acuerdo a la decisión que se halla tomado. A cont contin inua uaci ción ón se se pres presen enta tan n algu alguno noss diag diagra rama mass de dis dispe pers rsió ión n que que indi indica can n las las rela relaci cion ones es ent entre re las variables independientes ( x ), si no existe un cambio definido x ) y las variables dependientes (y ), en los valores de y , conforme aumentan los valores de x se se dice que no existe relación entre las variables x y y y . En cambio, si al aumentar x existe existe una modificación definida en los valores de y , entonces se dice que si existe relación entre las variables. En esta situación cuando y incrementa existe una relación positiva y cuando decrece existe una relación negativa. 41
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Diagramas de dispersión y correlación
Correlación positiva
Sin correlación
Correlación negativa
Correlación positiva perfecta
AJUSTE E INTERPRETACIÓN La ecuación que describe la forma en que el valor medio de y se relaciona con x se llama ecuación de regresión y es posible estimar con la siguiente formula: ŷ b0 b1 x
En donde b0 es la ordenada al origen b1 es la pendiente y y es el valor estimado de y para determinado valor de x. Estos valores se pueden estimar con la siguiente formula: b1
xi yi ( xi yi) / n 2
2 xi ( x i ) / n
b0 y b1 x ŷ
Donde: x i = valor de la variable independiente para la i-ésima posición yi = valor de la variable dependiente para la i-ésima posición x = valor medio de la variable independiente y = valor medio de la variable dependiente
n = cantidad total de observaciones Por ejemplo a continuación se presenta un cuadro que muestra las ventas en millones de cajas y los gastos de publicidad en millones de dólares para siete marcas principales de refresco: Marca Coca-Cola Classic Pepsi-Cola Diet –Coke Sprite
Gastos de publicidad Millones de dólares 131.3 92.4 60.4 55.7
Ventas de cajas en millones 1929.2 1384.6 811.4 541.5 42
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Mirinda 40.2 Manzanita-Sol 29.0 7-Up 11.6 Primero determinaremos algunos cálculos para poder estimar la ecuación
536.9 535.6 219.5 de regresión por el
método de mínimos cuadrados: Marca Coca-Cola Classic Pepsi-Cola Diet –Coke Sprite Mirinda Manzanita-Sol 7-Up
x i yi
yi
xi
131.3 92.4 60.4 55.7 40.2 29 11.6 420.6
2
xi
1929.2 253303.96 17239.69 1384.6 127937.04 8537.76 811.4 49008.56 3648.16 541.5 30161.55 3102.49 536.9 21583.38 1616.04 535.6 15532.4 841 219.5 2546.2 134.56 5958.7 500073.09 35119.7
Sustituimos los valores en la formula b1
xi yi ( xi yi) / n 2
2 xi ( x i ) / n
=
500073.09 (420.6)(5958.7) / 7 2
35119.7 (420 .6) / 7
=142040.344/9847.649 = 14.424
b0 y b1 x ŷ = 851.243 –14.424(60.086) = -15.433
sustituimos los valores en el modelo de la ecuación de regresión lineal ŷ = -15.433 + 14.424 x
Ahora si queremos predecir las ventas para la marca de Manzanita-Sol si requiere invertir la cantidad de 70 millones de dólares en publicidad, únicamente sustituimos los 70 millones de dólares en la ecuación de la siguiente forma: ŷ = -15.433 + 14.424(70) = 994.275 de millones de cajas de refresco
5.1 COEFICIENTE DE DETERMINACIÓN. El coeficiente de determinación nos sirve para contestar la pregunta ¿Qué tan bien se ajustan dos variables?, Es decir en el caso de la inversión de los costos de publicidad y las ventas generadas por la publicidad, se genero la ecuación de regresión ŷ = -15.433+14.424 x , entonces lo que hacemos es
calcular la suma de cuadrados del error, esta se obtiene al sustituir los valores de los costos de
43
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I inversión en la ecuación de regresión y el resultado se eleva al cuadrado, posteriormente se suman todos los valores y a esto se le llama suma de cuadrados del error (SCE) SCE = ∑(yi – ŷi)2
El valor de la suma del error es una medida del error que se comete al usar la ecuación de regresión lineal para calcular los valores de la variable dependiente de la muestra, en este caso las ventas de las cajas de refresco. A continuación se presenta el valor de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas: Cálculos de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas de refrescos. Publicidad (miles Venta de cajas de dólares) (en millones) Coca-Cola Classic 131.3 1929.2 Pepsi-Cola 92.4 1384.6 Diet –Coke 60.4 811.4 Sprite 55.7 541.5 Mirinda 40.2 536.9 Manzanita-Sol 29.0 535.6 7-Up 11.6 219.5 Marcas de refresco
ŷ = -15.433+14.424 x
1878.42225 1317.3371 855.776046 787.984267 564.415633 402.869265 151.895444
(yi – ŷi)2
yi – ŷi 50.7777521 67.2629038 -44.376046 -246.484267 -27.515633 132.730735 67.6045556
2578.3801 4524.29822 1969.23346 60754.4938 757.110062 17617.4479 4570.37594 92771.3394
Ahora calculamos la suma total de cuadrados y esto con la finalidad de conocer el valor del error que sé incurrido al usar y para estimar las ventas. A la suma de cuadrados se representa por SCT y su formula es la siguiente: SCT = ∑(yi – y )2 Esta formula es de gran utilidad ya que nos sirve para observar o conocer la forma en que se agrupan los valores en torno a la recta y . A continuación se presentan los cálculos de la suma de cuadrados totales para el ejemplo de costos de publicidad y las ventas de refresco: Calculo de la Suma de Cuadrados Totales (SCT), para el caso de los costos de inversión y la venta de refrescos.
.
Marcas de refresco Publicidad (miles de dólares) Venta de cajas (en millones) yi – y Coca-Cola Classic 131.3 1929.2 1077.957 Pepsi-Cola 92.4 1384.6 533.357 Diet –Coke 60.4 811.4 -39.843
(yi – y )2 1161991.29 284469.689 1587.46465
44
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Sprite Mirinda Manzanita-Sol 7-Up
55.7 40.2 29 11.6
541.5 536.9 535.6 219.5
-309.743 -314.343 -315.643 -631.743
95940.726 98811.5216 99630.5034 399099.218 2141530.42
Ahora que ya tenemos calculado los valores de la suma de cuadrados totales (SCT) y la suma de cuadrados del error (SCE), se puede calcular la suma de cuadrados de la regresión (SCR), que cuantifica la desviación de los valores calculados por la ecuación ( ŷ) de los valores de y , su formula es la siguiente: SCR = ∑( ŷi – y )2 En nuestro caso la suma de cuadrados de la regresión es la siguiente: SCR = SCT – SCE = 2141530.42 – 92771.3394 = 2048759.0806 Por lo tanto la relación de estos valores es la siguiente SCT = SCR + SCE. Por lo tanto una vez que se calculan los valores de SCT, SCR y SCE, podemos calcular la bondad de ajuste para la ecuación de regresión. Esta ecuación tendría un ajuste perfecto si cada valor de la variable dependiente y i se encontrará sobre la línea estimada de la regresión. Para esta situación y i - ŷi serían igual a cero para cada observación y esto provocaría una SCE = 0, y como consecuencia la suma de cuadrados totales (SCT) sería igual a la suma de cuadrados de la regresión, esto quiere decir que la relación entre las variables es perfecta, ya que cualquier valor dividido por el mismo valor es igual uno. Esto indica que si la suma de cuadrados del error aumenta disminuye la bondad de ajuste entre las variables. La relación entre la Suma de Cuadrados de la Regresión y la Suma de Cuadrados Totales (SCT) se le llama coeficiente de determinación y se representa con la letra r 2, su formula es la siguiente: r 2 =SCR / SCT El valor del coeficiente de determinación asume los valores entre cero y uno, cuando se encuentra cercano al valor de uno se dice que el ajuste es bueno. Para nuestro caso el valor del coeficiente de determinación es el siguiente: 45
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I r 2 =SCR / SCT = 2048759.0806 / 2141530.42 = 0.9567 Sí el valor de coeficiente de determinación lo expresamos en porcentaje, nos indica el porcentaje de la suma total de cuadrados que se pueden explicar aplicando la ecuación de regresión. Para nuestro ejemplo podemos concluir que se puede aplicar el 95.67% de la suma total de cuadrados con al ecuación de regresión ŷ = -15.433 + 14.424 x para predecir las ventas. Es decir la inversión de la publicidad afecta un 95.67% en la venta de refrescos. Grafico de dispersión de datos, recta de la regresión lineal y desviaciones respecto a la línea de regresión y a la línea promedio de la variable dependiente, para el caso de gastos de publicidad y ventas de refresco. 2500 s a j a 2000 c e d s e 1500 n o l l i m n 1000 e s o c s e r 500 f e r e d a t 0 n e V 0
y1 -ŷ 1 y1 - y ŷ 1 - y
20
40
60
80
100
120
140
-500
Gastos de publicidad e n millone s de dóla res
5.2 COEFICIENTE DE CORRELACIÓN El coeficiente de correlación se representa con la letra r y es una medida descriptiva de la intensidad de relación de la asociación lineal entre dos variables, x y y . El valor del coeficiente 46
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I de correlación siempre está entre los valores de –1 y +1, el valor de +1 indica una relación positiva perfecta entre las variables x y y . Esto es, todos los puntos de datos están en una línea recta con pendiente positiva. El valor de –1 indica que las variables x y y , tienen una relación lineal perfecta, y que todos los puntos de datos están en una recta con pendiente negativa. Mientras que los valores del coeficiente de correlación cercanos al valor del cero indican que no existe relación lineal entre las variables. Las formulas para su cálculo son las siguientes: Formula del producto de Pearson r xy
sxy sx s y
Donde: r xy = Coeficiente de correlación de la muestra sxy = Covarianza de la muestra = (xi x)(yi y) / n 1 sx = Desviación estándar muestral de la variable x sy = Desviación estándar muestral de la variable y Formula alterna r xy =
xi yi ( xi yi) / n 2
2
2
2 xi ( xi ) / n yi ( yi ) / n
Pero si ya se ha hecho el análisis de regresión y se ha calculado el coeficiente de determinación r 2, el coeficiente de correlación se puede calcular como a continuación se muestra: r xy = coeficiente de determinación =
2
r
Para el caso de las variables de los costos de publicidad y la venta de refrescos, el valor de coeficiente de correlación es el siguiente = 0.9567 =0.9781. Concluimos que el valor del coeficiente de correlación de la muestra r xy = + 0.9781, donde nos indica que existe una fuerte asociación lineal positiva entre los costos de inversión de publicidad y las ventas de refrescos.
47
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I 5.3 REGRESIÓN MÚLTIPLE En este capitulo analizaremos el estudio del análisis de regresión en una situación en el que intervienen dos o más variables independientes conocido como análisis de regresión múltiple, en donde nos permite considerar más factores en comparación con el análisis de regresión simple. LA ECUACIÓN DE REGRESIÓN MÚLTIPLE El análisis de regresión múltiple es el estudio en donde una variable dependiente ( y ), se relaciona con dos o más variable independientes. En donde la ecuación de regresión describe la forma en que el valor medio se relaciona con x 1, x 2, x 3,..., x p. Ecuación estimada de regresión múltiple: ŷ = b0 + b1 x 1+ b2 x 2+ x ... + b p p
Donde: b0 = Es el valor del origen de la recta (ordenada del origen)
bi = Pendientes x i = Variable independientes p
= Número de variables independientes
Para estimar los valores de la ecuación se requiere del empleo del álgebra de matrices. Por lo que generalmente se utilizan programas de computo para hacer este tipo de cálculos, sin embargo, es posible su estimación, por medio de ecuaciones normales cuando se trata de pocas variables independientes en esta ocasión tomaremos un ejemplo cuando se trate de dos variables independientes: Σyi = nb0 + (Σx1i)b1 + (Σx2)b2------------------------------(a) Σx1i yi = (Σx1i)b0 + (Σ x12i ) b1 + (Σx1i x2i)b2-------------------(b) Σx2i yi= (Σx2i)b0 + (Σx1i X2i) b1 + (Σ x 22i )b2-------------------(c)
48
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Estos valores se pueden determinar a partir de datos de una muestra y calcular los estadísticos, posibilitando el uso de ecuación: ŷ = b0 + b1 x 1+ b2 x 2 Ahora veremos un ejercicio de aplicación. Por ejemplo se sabe que los despidos y el desempleo han afectado a muchos trabajadores actualmente, un estudio realizado en Estados Unidos de América en abril de 1988, se encontraron datos de variables que pueden afectar la cantidad de semanas que un obrero de manufactura está desempleado. La variable dependiente es la cantidad de semanas que un obrero a estado desempleado. En el estudio se emplearon las variables independientes: la edad del trabajador (x1) y su antigüedad en el empleo (x 2). A continuación se presentan los datos: Semanas que duro sin empleo(y i) Edad del empleado despedido(x 1i) 94 73 57 56 50 44 27 25 14 8
62 44 42 36 35 28 27 27 24 21
Estudios realizados en años(x 2i) 13 13 14 15 18 18 15 19 17 19
Posteriormente hacemos el caculo de los coeficientes para las ecuaciones normales: yi
x1i
2
x2i
2
x1i
x1i x2i
x 2i
x1i yi
x2i yi
94 73 57 56 50 44 27 25 14 8
62 44 42 36 35 28 27 27 24 21
13 13 14 15 18 18 15 19 17 19
3844 1936 1764 1296 1225 784 729 729 576 441
169 169 196 225 324 324 225 361 289 361
806 572 588 540 630 504 405 513 408 399
5828 3212 2394 2016 1750 1232 729 675 336 168
1222 949 798 840 900 792 405 475 238 152
∑448
∑346
∑161
∑13324
∑2643
∑5365
∑18340
∑6771
49
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Sustituyendo los valores de las sumatorias de las tablas en las ecuaciones normales se obtienen las siguientes ecuaciones: 448 = 18340 = 6771 =
10 b0 346 b0 161 b0
+ 346 b1 + 13324 b1 + 5365 b1
+ 161 b2 + 5365 b2 + 2643 b2
..................................... (a) ..................................... (b) ..................................... (c)
Si multiplicamos la ecuación (a) por 34.6 y le restamos a la ecuación (b), podemos eliminar b0 y obtener una ecuación que contenga únicamente los coeficientes b 1 y b2: 18340.0 = -15500.8 = 2839.2 =
+346 b 0 - 346 b0 0
+ 13324.0 b1 - 11971.6 b1 1352.4 b 1
+ 5365.0 b2 - 5570.6 b2 -205.6 b2
..................................... (b) ..................................... (a*34.6) ..................................... (d)
Si multiplicamos la ecuación (a) por 16.1 y el resultado le restamos a la ecuación (c). Esta operación origina una segunda ecuación donde sólo intervienen los coeficientes b1 y b2: 6771.0 = -7212. 8 = - 441.8 =
+161 b0 - 161 b0 0
+ 5365 b1 - 5570.6 b1 - 205.6 b 1
+ 2643 b2 - 2592.1 b2 + 50.9 b2
..................................... (c) ..................................... (a*16.1) ..................................... (e)
Con las ecuaciones (d) y (e) podemos despejar b1 y b 2 simultáneamente. Multiplicando la ecuación (e) por -205.6/50.9 y el resultado obtenido se le resta a la ecuación (d), y obtenemos una ecuación que solo contiene el coeficiente b 1. 2839.1 = -1784. 56 = 1054.54 =
0 0 0
1352.4 b 1 - 830.48 b 1 521.92 b 1
0
-205.6 b2 + 205.6 b2
................................... (d) ................................... (e*-205.6/50.9) .................................... (f)
Despejamos a b1 de la ecuación (f) y obtenemos el valor del coeficiente b 1. b1 = 1054.54 / 521.92 = 2.0205 Sustituimos a b1 en la ecuación (e) y despejamos b2: - 441.8 - 441.8 - 26.385 -0.518369
= = = =
- 205.6 (2.0205) - 415.415 50.9 b2 b2
+ 50.9 b 2 + 50.9 b 2
.................................................. (e)
Ahora podemos sustituir los valores de b 1 y b2 en la ecuación (a) para determinar b 0 . 448 = 448 = 448 = -167.62559 = -16.762559 =
10 b0 10 b0 10 b0 10 b 0 b0
+ 346 b1 + 346(2.0205) + 699.093 + 615.63559
+ 161 b2 + 161(-0.518369) - 83.45741
.............................. (a)
Finalmente obtenemos la ecuación de regresión múltiple para el caso del tiempo que tardan los obreros en manufactura para emplearse de nuevo, según su edad y los años de estudio: ŷ = -16. 7625 + 2.0205x 1 - 0.5184x 2
50
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Interpretación: b1 = 2.0205 semanas estimadas que dura el desempleo en manufactura por cada año que aumenta la edad del desempleado, cuando los estudios realizados de los desempleados sean iguales. De manera similar, con b2= -0.518369 indica la cantidad de semanas sin empleo que se reduce al aumentar un año de estudio, cuando la edad de los desempleados es igual.
5.5 Tendencias no lineales En las exposiciones anteriores se presentaron una serie de de tiempos cuyo crecimiento o decremento se aproximaba en una línea recta, sin embrago cuando se presente un decremento o incremento e forma curvilínea tal como se muestra a continuación:
Cuando se presente un diagrama de esta naturaleza se recomienda que la serie de datos se transformen en logaritmos base 10 y se utilice la regresión lineal simple, quedando la siguiente ecuación de regresión logarítmica: Log Ŷ=log b0 + logb1(X). Una vez que se estima la variable dependiente se obtiene antilogaritmo del producto. Por ejemplo a continuación se presentan datos de importación en miles de pesos de 1996 a 1998 Año (x) 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 Importación 3.0 4.2 5.7 8.3 11.5 16.0 22.4 31.0 44.6 60.1 84.3 118.6 163.9 (y)
Primero se establece el código para cada año, posteriormente se transforma la variable dependiente en logaritmos en este caso la importación, tal como se muestra a continuación: Código(x) Log I (y)
1
2
3
4
5
6
7
8
9
10
11
12
13
0.47 712
0.62 325
0.75 587
0.91 908
1.06 07
1.20 412
1.35 025
1.49 136
1.64 933
1.77 887
1.92 583
2.07 408
2.21 458
51
Instituto Tecnológico Superior P’urhé pecha Ingeniería Industrial Estadística Inferencial I Posteriormente se hacen los cálculos normales para estimar la ecuación de regresión lineal con las variables transformadas. Para nuestro caso se tendrían los siguientes: X 1 2 3 4 5 6 7 8 9 10 11 12 13 91 Y 0.47712 0.62325 0.75587 0.91908 1.0607 1.20412 1.35025 1.49136 1.64933 1.77887 1.92583 2.07408 2.21458 17.5245 X Y 0.47712 1.2465 2.26762 3.67631 5.30349 7.22472 9.45174 11.9309 14.844 17.7887 21.1841 24.889 28.7895 149.074 X2 1 4 9 16 25 36 49 64 81 100 121 144 169 819
B1 = XY-(∑Y(∑X)/n)/ ∑X2-((∑X)2/n) y B0= (∑Y/n) - B1 (∑X/n) B1= 149.074 -(∑17.5245(91)/13)/ 819 -((91)2/13)=0.145069 y B0= (17.5245/13) - B1 (∑X/n)= 0.332549 El modelo de la ecuación de regresión es Ŷ=0.222549 + 0.145069(X). Para calcular las importaciones de 2003 se sustituye X en código para este caso es 18 en la ecuación y quedaría de la siguiente forma: Ŷ=0.222549 + 0.145069 (18)= 2.94379 y finalmente para estimar las importaciones se determina el antilogaritmo de 2.94379, esto es 102.94379 el cual es de 878.6 miles de pesos, es decir, $ 878 600.
52