1
INSTITUTO TECNOLÓGICO SUPERIOR DE ÁLVARADO – Campus Campus Medellín
INGENIERÍA INDUSTRIAL Materia: ESTADÍSTICA INFERENCIAL 2
Semestre Grupo 4er. Semestre
ÚNICO
Sistema: SEMIESCOLARIZADO
Tema: REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE
Producto Académico: “INVESTIGACIÓN”
Presenta: EDGAR PALAYOT LÓPEZ
Docente: ING. XÓCHITL DEL CARMEN ROMERO HIPÓLITO
ME D E L L ÍN D E B R A V O, VE V E R 27 de abri abrill 2017
2
ÍNDICE INTRODUCCIÓN……………………………………………………………………......3 1. REGRESIÓN LINEAL SIMPLE………………………………………………………4 1.1 Modelo y Finalidad de la regresión lineal simple……………………………………..4 1.2 Ecuación Lineal Simple……………………………………………………………....5 1.2.1 Método de mínimos cuadrados……………………………………………………..6 1.3 Diagrama de dispersión……………………………………………………………….9
2. REGRESIÓN LINEAL MÚLTIPLE…………………………………………………10 2.1 Modelo y aplicaciones de la regresión lineal múltiple………………………………10 2.1.1 Estimación de los coeficientes por el método de mínimos cuadrados…………….11
2.2 Regresión lineal matricial…………………………………………………………...12 2.2.1 Correlación múltiple………………………………………………………………13 2.3 Error típico de la estimación…………………………………………………………14 CONCLUSIÓN…………………………………………………………………………15 BIBLIOGRAFÍA………………………………………………………………………..16
3
INTRODUCCIÓN En esta investigación, se tocaran los temas de regresión lineal simple y múltiple, que son, su formulación y más específicamente su funcionamiento. En forma más específica el análisis de correlación y regresión comprende el análisis de los datos muestrales para saber qué es y cómo se relacionan entre si dos o más variables en una población. El análisis de correlación produce un número que resume el grado de la fuerza de relación entre dos variables; y el análisis de regresión da lugar a una ecuación matemática que describe dicha relación. La técnica de regresión lineal simple está indicada cuando se pretende explicar una variable respuesta cuantitativa en función de una variable explicativa cuantitativa también llamada variable independiente, variable regresora o variable predictora. Por ejemplo, se podría intentar explicar el peso en función de la altura. El modelo intentaría aproximar la variable respuesta mediante una función lineal de la variable explicativa. A partir de la presente investigación, se pretende mostrar la aplicación práctica de la regresión y correlación lineal simple y múltiple en la industria. Ya que la aplicación de las técnicas estadísticas contribuyen a la optimización de los procesos.
4
1. REGRESIÓN LINEAL SIMPLE 1.1. Modelo y finalidad de la regresión lineal simple La finalidad de una ecuación de regresión es estimar los valores de una variable con base en los valores conocidos de la otra. Otra forma de emplear una ecuación de regresión es para explicar los valores de una variable en términos de otra. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una. Las suposiciones que se realizan al aplicar las técnicas de regresión lineal son:
El modelo propuesto es lineal (es decir existe relación entre la variable explicativa y la variable explicada, y esta relación es lineal).
Es decir se asume que:
Variable respuesta = βo + variable explicativa. Β1+ ε
Siendo β0 el término independiente (constante) β1 el coeficiente de regresión de la variable explicativa (pendiente) y ε es una variable aleatoria que se llama error residual.
La variable explicativa se ha medido sin error.
El valor esperado de e del modelo es cero.
La varianza de e (y por lo tanto de la variable respuesta) es constante.
Los ε son independientes entre sí.
Si se desean realizar contrastes de hipótesis sobre los parámetros (coeficientes) o
sobre el modelo, también es necesario que la distribución de ε sea normal.
Para estudiar la validez del modelo es necesario confirmar estas hipótesis mediante el estudio de los residuos (valores observados - valores predichos): normalidad, tendencias, etc.
5 Cuando no se cumplen los criterios de aplicación es necesario realizar transformaciones a las variables, o bien para obtener una relación lineal o bien para homogeneizar la varianza. La regresión lineal simple comprende el intento de desarrollar una línea recta o ecuación matemática lineal que describa la relación entre dos variables. La regresión puede ser utilizada de diversas formas. Se emplean en situaciones en la que las dos variables miden aproximadamente lo mismo, pero en las que una variable es relativamente costosa, o por el contrario, es poco interesante trabajar con ella, mientras que con la otra v ariable no ocurre lo mismo. (Rojo, 2007, págs. 4 - 5)
1.2. Ecuación Lineal Simple Dos características importantes de una ecuación lineal:
La independencia de la recta
La localización de la recta en algún punto.
Una ecuación lineal tiene la forma:
Donde: Y´ se lee Y prima, es el valor pronosticado de la variable Y para un valor seleccionado de X.
a es la ordenada de la intersección con el eje Y, es decir, el valor estimado de Y cuando X = 0. Dicho de otra forma, corresponde al valor estimado de Y, donde la recta de regresión cruza el eje Y, cuando X = 0.
B es la pendiente de la recta, o el cambio promedio en Y´ por unidad de cambio (incremento o decremento) en la variable independiente X.
x es cualquier valor seleccionado de la variable independiente.
6 Con esta expresión se hace referencia al proceso matemático que sirve para ajustar una línea recta a través de un conjunto de datos variables asentados en una gráfica de dispersión. Dicha línea se conoce como línea de regresión simple. El primer paso es recoger datos experimentales correspondientes a n individuos con información de dos variables cuantitativas: una de ellas se considera variable explicativa (Variable x) y la otra se considera variable respuesta (Variable y). El modelo que se asume es:
y = βo + x β 1 + ε
Los coeficientes βo y β1 se estiman por b0 y por b1 a través del método de mínimos cuadrados.
1.2.1. Método de mínimos cuadrados Es el procedimiento más utilizado por adaptar una recta aun conjunto de punto se le que conoce como método de mínimos cuadrados. La recta resultante presenta 2 característica importantes:
Es nula la suma de desviaciones verticales en los puntos a partir de la recta
Es mínima la suma de los cuadrados de dichas desviaciones
Para un valor dado de X, por ejemplo, X1, habrá una diferencia entre el valor Y1 y el correspondiente valor de la curva C. Esta diferencia se denota por D1, que se conoce como desviación, error o residuo.
7 De todas las curvas de aproximación a una serie de datos puntuales la curva que tiene la propiedad de que: D21 + D22 + ... + D2 N Se conoce como Mejor curva de ajuste
La suma de cuadrados de desviación se le llama suma de cuadrados por falla (SCF). Esta suma de cuadrados proporciona la medida de que tan bien se ajusta la línea al conjunto completo de puntos. Si la SCF es cero, implica que los puntos caen exactamente sobre la línea. Por el contrario entre más grande es SCF respecto de cero, menor es el ajuste. La recta que tenga una suma de cuadrados menor para un conjunto de puntos, que cualquier otra línea recta es la línea recta llamada línea de regresión de los mínimos cuadrados. Las ecuaciones normales son un conjunto de ecuaciones cuya solución produce un valor único para la pendiente B y la ordenada a asociada con los datos variables. Obteniéndose así: El problema que se plantea es entonces el de cómo calcular las cantidades a y b a partir de un conjunto de n observaciones: (X1, Y1)
8 (X2, Y2)
………. (XN, YN)
De forma que se minimice el error. Las etapas en que se divide el proceso que se va a desarrollar son de forma esquemática, las que siguen:
1.- Dadas dos variables X, Y, sobre las que se define: Se mide el error que se comete al aproximar Y mediante calculando la suma de las diferencias entre los valores reales y los aproximados al cuadrado (para que sean positivas y no se compensen los errores):
2. Una aproximación Ȳ = a + bx de Y, se define a partir de dos cantidades a y b. Se va a calcular aquellas que minimizan la función
3. Posteriormente se encontraran las fórmulas para el cálculo directo de a y b que sirvan para cualquier problema.
Ordenada al origen:
9
Pendiente a la recta:
1.3. Diagrama de dispersión La correlación, método por el cual se relacionan dos variables se pude graficar con un diagrama de dispersión de puntos, a la cual muchos autores le llaman nubes de puntos, encuadrado dentro de un gráfico de coordenadas X Y en la cual se pude trazar una recta y cuyos puntos más cercanos de una recta hablaran de una correlación más fuerte, a esta recta se le denomina recta de regresión, que puede ser positiva o negativa, la primera contundencia a aumentar y la segunda en descenso o decreciente. También se puede describir un diagrama de dispersión en coordenadas cartesianas valores, en donde la nube de puntos representa los pares de valores.
Gráficos de recta de regresión
10
(Gòmez, 2012, págs. 5 - 10)
2. REGRESIÓN LINEAL MÚLTIPLE 2.1. Modelo y aplicaciones de la regresión lineal múltiple En la mayor parte de los problemas que se generan en la industria en que se aplica el análisis de regresión, se requiere más de una variable independiente en el modelo de regresión. La complejidad de la mayoría de los mecanismos científicos es tal que, con objeto de estar en condiciones de pronosticar una respuesta, se necesita un modelo de regresión múltiple. La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente, pero hay dos o más de tipo independiente. En esta operación se desarrolla una ecuación la cual se puede utilizar para predecir valore de y, respecto a valores dados de la
11 diferencia de variables independientes adicionales a través de incrementar la capacidad predicativa sobre la de la regresión lineal simple. Aunque hay muchos problemas en los cuales una variable puede predecirse con bastante exactitud en términos de otra, parece razonable que las predicciones deban mejorar si adicionalmente se considera información relevante.
2.1.1 Estimación de los coeficientes por el método de mínimos cuadrados En el caso de la regresión múltiple la ecuación se amplía y puede tener más variables independientes adicionales. Esto puede ampliarse a cualquier número (k) de variables independientes, siendo la ecuación general de regresión múltiple:
Donde: X1, XK son las variables independientes.
a es la intersección con el eje Y. Es la ordenada del punto de intersección con el eje Y. B1 es la variación neta en Y por cada unidad de variación en X1 manteniendo X2 constante. Se denomina coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión.
BK es el cambio neto en Y para cada cambio unitario en Xk manteniendo X1 constante. También se le conoce como coeficiente de regresión parcial, coeficiente de regresión neta, o simplemente coeficiente de regresión.
12 Se pueden aplicar técnicas de mínimos cuadrados similares para estimar los coeficientes cuando los modelos lineales involucran potencias y productos de las variables independientes.
La solución de este conjunto de ecuaciones de las estimaciones únicas produce los coeficientes b0, b1, b2,...bK.
2.2 Regresión lineal matricial Este modelo representa n ecuaciones que describen cómo se generan los valores de respuesta. Con la notación matricial, se pueden escribir las ecuaciones.
Dada la complejidad de las matrices, de acuerdo al número de variables independientes, es conveniente resolverlas a través de un software.
13
2.2.1 Correlación múltiple El grado de relación existente entre tres o más variables se llama correlación múltiple. Los principios fundamentales implicados en los problemas de correlación múltiple son análogos a los de la correlación simple tratada con anterioridad. Como se observó en la parte de regresión lineal múltiple, existe una ecuación de regresión para estimar una variable dependiente, a partir de variables independientes. También, como observamos en la parte de regresión lineal múltiple, análogamente a como existen las rectas de regresión de mínimos cuadrados de aproximación a una serie de N datos puntuales (X, Y) en un diagrama de dispersión de dos dimensiones, existen los planos de regresión de mínimos cuadrados que se ajustan a una serie de N datos puntuales (X1, X2, X3) en un diagrama de dispersión de tres dimensiones. La base del cálculo de la correlación múltiple se basa en la teoría de la regresión múltiple, ya sea por mínimos cuadrados o matricialmente, de acuerdo a nuestra p arte de regresión lineal múltiple.
PLANOS DE REGRESIÓN Y COEFICIENTES DE CORRELACIÓN: Vamos a suponer una ecuación de regresión para el caso de tres variables, como a continuación se indica: X1 = b1.23 + b12.3 X2 + b13.2 X3 Esta ecuación se llama ecuación de regresión lineal de X1 sobre X2 y X3; con b1.23, b12.3, y b13.2 los coeficientes de regresión parcial de acuerdo a la teoría de regresión múltiple. Como observamos, tenemos una variable dependiente X1 y dos variables independientes X2 y X3. Tomando como referencia esta ecuación, si los coeficientes de
14 correlación lineal entre las variables X1 y X2, X1 y X3, X2 y X3 se calculan como en la parte de correlación lineal simple y se denotan, respectivamente, por r12, r13, r23 (también llamados coeficientes de correlación de orden cero), el plano de regresión de mínimos cuadrados tiene la ecuación:
2.3 Error típico de la estimación Tomando como base la teoría de la regresión lineal simple como una generalización de esta definimos al error de la siguiente manera:
Donde X1 est. Indica los valores de X1 estimados en la recta de regresión. En términos de los coeficientes de correlación r12, r13, y r23, el error típico de la estimación puede calculares por medio de:
(Baíllo, 2013, págs. 10 - 14)
15
CONCLUSIÓN Con toda esta información, podemos concluir que, el análisis de regresión y correlación lineal constituyen métodos que se emplean para conocer las relaciones y significación entre series de datos. Lo anterior, es de suma importancia p ara la industria ya que es aquí en donde se presentan variables de respuesta e independientes las cuales interactúan para originar las características de un proceso en particular y por ende; analizar, predecir valores de la variable dependiente y examinar el grado de fuerza con que se relacionan dichas variables. La regresión lineal simple y la regresión múltiple, analiza la relación de dos o más variables continuas, cuando analiza dos variables a esta se él conoce como variable bivariantes que pueden corresponder a variables cualitativas. La finalidad de una ecuación de regresión es la de estimar los valores de un a variable con base en los valores conocidos de la otra. Del mismo modo, una ecuación de regresión explica los valores de una variable en términos de otra. Es decir, se puede intuir una relación de causa y efecto entre dos o más variables. El análisis de regresión únicamente indica qué relación matemática podría haber, de existir una.
16
BIBLIOGRAFÍA
Baíllo, A. (02 de Diciembre de 2013). https://www.uam.es. Obtenido de https://www.uam.es/personal_pdi/ciencias/abaillo/AmbEst/Tema4.pdf
Gòmez, J. V. (11 de Enero de 2012). ttps://docs.google.com/. Obtenido de https://docs.google.com/viewer?a=v&pid=sites&srcid=ZGVmYXVsdGRvbWFp bnxjYWx2YXJpb3NwZWNpYWwyMDEyfGd4OjQxZmUxNjE4ZTAxYzNmM DE
Rojo, J. M. (22 de Febrero de 2007). http://humanidades.cchs.csic.es/. Obtenido de http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal _multiple_3.pdf