ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
REGRESIÓN Y CORRELACIÓN LINEAL AUTOR: Sistemas.
Camilo H. Cohecha Torres. Licenciado en Matemáticas. Ingeniero de
TEMA: Regresión y correlación lineal. LOGROS: Determinar y aplicar el modelo de regresión lineal en la predicción de valores. Aplicar la regresión lineal para el pronóstico en series de tiempo. Usar Excel en el modelo de regresión y correlación lineal. CONDUCTA DE ENTRADA: 1. Dada la función f(x) = 8 – 5 x a. Identificar la pendiente. b. Identificar el intercepto con el eje y. c. Realizar la gráfica. 2. a. b. c.
Realizar un gráfico de una función lineal condiciones: Pendiente positiva. Pendiente negativa. Pendiente igual a cero.
para cada una de las siguientes
CRITERIOS DE EVALUACIÓN: En la parte final de la guía encuentras una serie de ejercicios, los cuales se evalúan por parte del docente junto con la temática, a la semana siguiente de la realización de esta en una estructura similar a la presentada.
TIEMPO DE EJECUCIÓN: La guía se realiza en una sesión de clase. En la siguiente clase entregará al docente los ejercicios propuestos y en la clase de la semana siguiente el docente la evalúa.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
TEMATICA: REGRESIÓN Y CORRELACIÓN LINEAL Si se dispone de dos series de datos emparejadas, con frecuencia se desea conocer si ambas variables están relacionadas o si son independientes. Por ejemplo, ¿en qué medida, un aumento de los gastos en publicidad hace aumentar las ventas de un determinado producto? ó ¿será que existe alguna relación entre la talla y el peso de una persona? A continuación, representaremos la relación entre dos variables mediante una gráfica llamada diagrama de dispersión, luego, estableceremos un modelo matemático para estimar el valor de una variable basándonos en el valor de otra, en lo que llamaremos análisis de regresión y finalmente estudiaremos el grado de relación existente entre las variables en lo que llamaremos análisis de correlación. La relación existente entre dos variables puede ser lineal, cuadrática, exponencial, logarítmica, etc. En este documento vamos a centrarnos en la posible relación lineal entre dos variables.
DIAGRAMA DE DISPERSIÓN
En un plano cartesiano se representan tantos puntos como pares de observaciones se tengan, correspondiendo cada punto a un par de observaciones; a esta representación gráfica se le denomina indistintamente diagrama de esparcimiento o nube de puntos. RECTA DE REGRESIÓN Se llama así a la recta que atraviesa la nube de puntos y que mejor se ajusta a ellos. El modelo matemático que describe una relación lineal cuando se estima el valor de Y en función de x esta dada así, Y = bx + c ó Y = 1x + 0, o Y = Bx + A. (Esta última notación es la empleada en las calculadoras CASIO) Donde: Y es la variable que se va a estimar en función de otra variable (x) que se supone conocida. Se le denomina también como variable dependiente, explicada o predictando. x es la variable cuyo valor supuestamente se conoce, se le denomina variable independiente, predictor o explicativa. ¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
b = 1 es la pendiente o sea la que determina el ángulo de inclinación de la recta. Denominada coeficiente angular, cuantificando la cantidad que aumenta o decrece Y por cada unidad que aumente o disminuya la variable independiente x. El coeficiente angular puede representarse así: b>0
b < 0
b=0
EJEMPLOS:
Si b es positivo indica que la recta es ascendente. Si b es negativo la recta será descendente y si b es igual a cero será una paralela al eje horizontal. c = 0, corresponde al coeficiente de posición. Es el valor donde la recta intercepta al eje Y. Puede ser mayor, menor o igual a 0. Se debe encontrar la línea que represente al conjunto de puntos, para lograr esto se deben determinar los coeficientes de regresión muestrales (Coeficiente angular y de posición) que son estimadores de los parámetros o coeficientes de regresión poblacional. Los valores de b y c corresponden a aquellos que hacen que los Yi sean lo más cercanos posibles a los valores observados yi, para determinarlos lo más indicado es aplicar el método de los mínimos cuadrados. CRITERIO DE LOS MÍNIMOS CUADRADOS: En el método de los mínimos cuadrados se emplean los datos de la muestra para determinar los valores de b y c que minimizan la suma de los cuadrados de las desviaciones entre los valores observados de la variable dependiente yi, y los valores estimados de la variable dependiente, Yi. Este criterio se puede expresar así: Mín ( yi – Yi)2
Siendo yi = valor observado de la variable dependiente para la i-ésima observación. Yi = valor estimado de la variable dependiente para la i-ésima observación. ¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
Aplicando el cálculo diferencial se puede demostrar que los valores de b y c que minimizan la anterior expresión se pueden determinar con las siguientes ecuaciones:
b
x y i
i
x y i
i
n
xi 2 2 xi n
c y bx
El valor de b, se puede obtener mediante otras fórmulas, la consulta de las cuales se deja como ejercicio.
PREDICCIÓN: Uno de los fines al obtener la ecuación de regresión es el poder emplearla para predecir el valor de y para determinado valor de x. Se debe tener precaución al aplicar la ecuación de regresión para hacer predicciones fuera del intervalo de valores de la variable independiente, porque fuera de él no se puede asegurar que sea válida la misma relación. En el análisis de correlación, se determina el grado de relación que puede haber entre dos variables. Este grado de correlación lo obtenemos mediante el cálculo del Coeficiente de correlación. COEFICIENTE DE CORRELACIÓN: Denominado coeficiente de correlación lineal de Pearson y simbolizado por r o R, es una medida de interdependencia de dos variables aleatorias, y su valor oscila entre –1 y +1. Su cálculo se puede realizar mediante la aplicación de la siguiente fórmula:
r
m xy sx s y
Donde: ¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
m xy cov arianza sx sy
x2 i
n
y2 i
n
x
xy x y n
2
y
2
El valor de r se aproxima a +1 cuando la correlación tiende a ser lineal directa (mayores valores de x, significan mayores valores de y) y se aproxima a –1 cuando la relación tiende a ser lineal inversa. Si no hay correlación de ningún tipo entre dos variables aleatorias, entonces tampoco habrá correlación lineal, por lo que r = 0. Sin embargo el que ocurra que r= 0, sólo nos dice que no hay correlación lineal, pero puede que la haya de otro tipo. El siguiente diagrama resume el análisis del coeficiente de correlación entre dos variables: Correlación negativa moderada
Correlación negativa perfecta
–1
Ninguna correlación
Correlación positiva moderada
Correlación positiva perfecta
0
0.5
1
– 0.5 Correlación negativa fuerte
Correlación negativa débil
Correlación positiva débil
Correlación positiva fuerte
COEFICIENTE DE DETERMINACIÓN: Denominamos coeficiente de determinación R2 como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variación de Y que se explica a través del modelo lineal que se ha estimado, es decir a través del comportamiento de X. A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
También se puede entender este coeficiente de determinación como el porcentaje de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y es igual al cuadrado del coeficiente de correlación (r).
R2 = r2 Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de puntos. También se le denomina bondad del ajuste. 1 - R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos. EJEMPLO: Los siguientes datos fueron recopilados por un gerente de ventas y corresponden a los años de experiencia y las ventas anuales de 5 de sus empleados: Años de experiencia 6 12 15 21 24 Ventas anuales ($ 3 68 83 11 12 millones) 8 3 8 Tomamos los años de experiencia como variable independiente. A continuación se presentan los cálculos necesarios para determinar la ecuación de regresión con cuadrados mínimos.
xi
vendedor i
1 2 3 4 5 Totales
6 12 15 21 24 78
yi
38 68 83 113 128 430
x i yi
228 816 1245 2373 3072 7734
xi2
36 144 225 441 576 1422
Yi2
1444 4624 6889 12769 16384 42110
Aplicando la fórmula:
b
x y i
i
x y i
i
n
xi 2 2 xi n
Se obtiene ¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
b
(78)(430 ) 5 (78) 2 1422 5
7734
b = 5. El cálculo de la ordenada al origen (c) es el siguiente:
x
x
y
y
i
n
n
i
78 15.6 5
430 86 5
c y bx = 86 – 5(15.6) = 8. Por lo anterior, la función estimada de regresión, deducida con el método de los mínimos cuadrados, es Y = 5X + 8
La pendiente de la función de regresión (b = 5) es positiva, lo cual implica que al aumentar los años de experiencia, las ventas también aumentan. De hecho, en este ejemplo, posemos llegar a la conclusión que las ventas aumenten en $ 5 millones por cada año de experiencia. Si quisiéramos predecir el valor de las ventas anuales para un empleado que tiene 20 años de experiencia, el resultado sería: Y = 5(20) + 8 = 108
En consecuencia, predeciríamos ventas anuales de 108 millones de pesos para este empleado. A continuación, se analizará si el modelo desarrollado si es el adecuado para estimar y predecir.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
Para hallar el coeficiente de correlación, se determinará primero la covarianza:
xy x y
m xy cov arianza
n
7734 (15.6)(86) 205.2 5
mxy cov arianza
Se hallan las desviaciones típicas:
sx
x2 i
n
y2
x
2
1422 (15.6) 2 41.04 5
42110 (86) 2 1026 n 5 Luego el coeficiente de correlación es sy
r
i
m xy sx s y
y
2
205 .2 41.04 1026
1
En este caso se tiene que las dos variables x (años de experiencia) y y (Ventas anuales) una relación lineal positiva perfecta. Esto es, todos los puntos de datos están en una recta con pendiente positiva (5). El coeficiente de determinación en este caso también es igual a 1. Expresándolo de manera porcentual se tiene el 100%, lo cual significa que el 100% de la variación en las ventas se puede explicar con la relación lineal entre la experiencia y las ventas.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
USO DE LA CALCULADORA EN LA REGRESIÓN LINEAL Si se dispone de una calculadora casio fx-3500p ó fx-3600p se pueden ejecutar los siguientes pasos, los cuales se van explicando tomando como modelo el ejemplo resuelto: 1.
Oprimir las teclas mode 2 y en la pantalla debe aparecer LR (Regresión Lineal).
2.
Con las teclas INV AC se borra la información que puede haber de trabajos anteriores. Para constatar el borrado, oprimir las teclas KOUT 3 y debe aparecer 0 en la pantalla. Si aparece otro número se repite el procedimiento.
3.
Se introduce la información con la tecla [(... para la variable X, y con RUN para la variable Y. Teniendo en cuenta que primero es X1, luego [(..., a continuación Y1 RUN. Luego X2 [(... , Y2 RUN, y así sucesivamente. No debe haber equivocación al introducir los datos.
4.
Introducida la información se comprueba, en parte, si la operación fue realizada correctamente oprimiendo KOUT 3, debe aparecer el número de parejas introducidas, en este caso 5.
5.
Con la tecla KOUT y las teclas (1, 2, 3, 4, 5, 6) se obtiene lo que aparece en negrilla debajo de cada una de las teclas, así: KOUT 1 = xi2 = 1422. KOUT 2 = xi = 78. KOUT 3 = n = 5. KOUT 4 = yi2 = 42110. KOUT 5 = yi = 430. KOUT 6 = xi yi = 7734.
6.
Con la tecla INV y las teclas del 1 al 9 se obtiene lo que aparece señalado en rojo o anaranjado debajo de cada tecla.
INV 1 = media de X = 15.6 INV 2 = nx = nS x = 6.41 (6.406246951). Corresponde a la desviación típica, elevando al cuadrado se obtiene la varianza Sx2 = 41.04 INV 3 = n-1x = n-1S x = 7.16 (7.162401832) INV 4 = media de Y = 86 INV 5 = ny = nS y = 32.03 (32.03123476). La varianza Sy2= 1026 INV 6 = n-1y = n-1S y = 35.81 (35.81200916).
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
El coeficiente de posición c se obtiene con INV 7 siendo igual a 8 y el coeficiente angular b con INV 8 igual a 5, con lo cual se tiene la función estimada de regresión Y = 5x + 8. El coeficiente de correlación se obtiene con INV 9 siendo igual a 1.
APLICACIÓN DE EXCEL EN LA REGRESIÓN LINEAL
Excel dispone de funciones que permiten trabajar con coeficientes correlación, regresión y otros conceptos sobre variables multidimensionales.
Para ver las funciones de la categoría Estadística, se hace clic sobre el icono insertar función, fx, de la barra de fórmulas (o se elige la opción Insetar función del menu Insertar), en la opción categoría de la función se elige Estadísticas, presentándose todas las funciones de dicha categoría en el cuadro Nombre de la función.
Para el ejemplo que venimos trabajando:
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
1 2 3 4 5 6
A
B
xi
yi
6 12 15 21 24
38 68 83 113 128
Si en el cuadro Nombre de la función hacemos clic sobre una función, por ejemplo la función COEF.DE.CORREL, se obtiene el siguiente cuadro. Una vez completados los argumentos (Variables X e Y) se obtiene el resultado en la parte inferior. Al pulsar Aceptar, la fórmula y su resultado se insertan en la celda activa de la hoja de cálculo.
A continuación, se presenta una relación de las funciones de Excel para correlación y regresión, acompañada de los resultados para el ejemplo que venimos trabajando para las variables X e Y de la hoja de cálculo cuyos valores ocupan los rangos A2:A6 y B2:B6. Para algunas funciones se presenta la caja correspondiente.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
FUNCIÓN
VALOR QUE DEVUELVE
COVAR(X;Y)
Devuelve la covarianza de x e y definida por COEF.DECORREL(X; Devuelve el coeficiente de correlación de Y) x e y. ¡Toma el camino de los mejores, toma el camino de los Libertadores!
RESULTADO EN EL EJEMPLO 205.2 1
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
COEFICIENTE.R2(Y; Da el coeficnete de determinación de y en X) x. PENDIENTE(Y;X) Da la pendiente de la línea de regresión de y sobre x. (Coeficiente angular) INTERSECCION.EJE( Da la ordenada en el origen de la línea de Y;X) regresión de y sobre x. (Coeficiente de posición) PRONOSTICO(x; Halla la predicción según la línea de Y;X) regresión de y sobre x para el valor k de la variable independiente.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
1 5 8 Si x=20 entonces y = 108
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
EJERCICIOS: A continuación se presentan cinco observaciones de dos variables, X y Y.
1.
xi yi a. b. c. d. e.
2 24
4 30
7 31
9 36
11 40
Trace un diagrama de dispersión de datos. ¿Que indica el diagrama trazado en el inciso a acerca de la relación entre las dos variables? Trate de aproximar la relación entre x y y.trazando una recta que pase por los datos. Forme la ecuación estimada de regresión calculando los valores de b y c. Aplique la ecuación estimada de regresión para predecir el valor de y cuando x = 6.
2. Se ha realizado una observación a cinco familias respecto a el número de integrantes (x) y sus gastos mensuales (y) en agua en miles de pesos: xi yi
2 30
5 42
7 55
8 75
10 97
a. Hallar la recta de regresión. b. ¿Cuanto se espera que gaste una familia si esta constituida por 6 personas? c. Hallar el coeficiente de correlación y concluir. d. Hallar el coeficiente de determinación y concluir. 3. Se dispone de 7 parejas de datos para los cuales se sabe: n
= 7 x = 420,6 y = 5958,7 x y = 500073,09 x 2 = 35119,7 y 2 = 7213831,23
a. Hallar la recta de regresión. b. Hallar el coeficiente de correlación y concluir. c. Hallar el coeficiente de determinación y concluir. 4. En el semestre inmediatamente anterior el profesor de Estadística registro los puntajes obtenidos por sus estudiantes en una prueba inicial (de conocimientos elementales) y la nota definitiva en la materia en dicho semestre. Los resultados fueron los siguientes
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
Estudiante
1
2
3
4
5
6
7
8
9
Puntaje Prueba inicial
3 9 3 5
4 3 3 7
2 1 2 9
4 7 4 2
2
2 5 3 1
3 2 3 3
3
4
3 2
3 6
Definitiva a. b. c. d.
2 9
1 0 1 5 2 5
Elabore el diagrama de dispersión. Obtenga la ecuación de la recta de regresión. Si un estudiante obtuvo en la prueba inicial 45, ¿cuál sería la nota definitiva que se espera obtenga al final del semestre? Si un estudiante obtuvo en definitiva 4.0, ¿qué edad puntaje habría obtenido en la prueba inicial?
5. Nota: Use Excel o una calculadora para resolver el siguiente problema: Una compañía que fabrica partes para maquinaria quiere desarrollar un modelo para estimar el número de horas - trabajador requeridas para corridas de producción de lotes de diversos tamaños. Se selecciona una muestra aleatoria de 18 corridas de producción (2 para cada tamaño de lote de 10, 20, 30, 40, 50, 60, 70, 80 y 90) y se obtienen los siguientes resultados:
a. b. c. d. e. f.
TAMAÑO DEL LOTE
HORAS – TRABAJADOR
TAMAÑO DEL LOTE
HORAS – TRABAJADOR
10 10 20 20 30 30 40 40 50
30 40 50 55 73 67 87 95 108
50 60 60 70 70 80 80 90 90
112 128 135 148 160 170 162 180 190
Grafique el diagrama de dispersión. Suponga una relación lineal y utilice al método de mínimos cuadrados para encontrar los coeficientes de regresión A y B. Interprete el significado de la ordenada A y la pendiente B en este problema. Pronostique el número promedio de horas – trabajador requeridas para una corrida de producción con un tamaño de lote de 45. ¿Por qué no es adecuado predecir el número promedio de horas – trabajador para una corrida de producción de un lote de tamaño 100? Explique. Suponga que las horas – trabajador para el lote de tamaño 60 son 117 y 119. Resuelva los incisos a. y d. con estos valores y compare los resultados.
¡Toma el camino de los mejores, toma el camino de los Libertadores!
ESTADISTICA
FUNDACIÓN UNIVERSITARIA LOS LIBERTADORES
BIBLIOGRAFIA: ANDERSON, David. SWEENEY, Dennis. WILLIAMS, Thomas. Estadística para administración y economía. México: Thomson, séptima edición. 1999. BERENSON Mark. LEVINE David. KREHBIEL Timothy. Estadística para administración. México: Prentice Hall, Segunda edición. 2000. CHAO LINCOLN. Estadística para ciencias administrativas. Bogotá: Mc Graw Hill, tercera edición. 1993.
MARTINEZ Bencardino Ciro. Estadística y Muestreo. Bogotá: Ecoe ediciones, décima edición. 2000. SPIEGEK, Murray R. Teoría y problemas de Estadística. Bogotá: Mc Graw Hill. MASSON y LIND. Estadística para administración y economía. Alfaomega.
PORTUS, Lincoyan. Curso práctico de estadística. Ed. Mc Graw Hill. FREUND, John. Estadística Elemental. Ed Prentice Hall. WALPONE y MYERS. Probabilidad y estadística. Ed. Mc Graw Hill.
¡Toma el camino de los mejores, toma el camino de los Libertadores!