PROBABILIDAD Y ESTADÍSTICA REGRESIÓN LINEAL SIMPLE
INTEGRANTES:
CÓDIGOS:
Jordy Bravo Cristian Álvarez Kevin Catota
926 854 898
NIVEL: Cuarto “A”
DOCENTE: Dr. Jorge Tuapanta
Riobamba – Ecuador
REGRESION LINEAL SIMPLE
1. INTRODUCCIÓN Constantemente en la práctica de la investigación estadística nos encontramos en situaciones que requieren el análisis de más de una variable estadística. Es decir, que existen variables que de alguna manera están relacionados entre sí, por lo que es posible que una de las variables pueda relacionarse matemáticamente en función de otra u otras variables. Por ejemplo, te has preguntado si alguna vez ¿existe una relación entre la estatura y el peso?, ¿están relacionadas la edad y la resistencia física?, ¿influye la temperatura en el índice de criminalidad? Así también, un profesor puede estar interesado en conocer de qué manera se puede predecir el rendimiento en Probabilidad y Estadística basándose en el puntaje obtenido en una prueba de aptitud en dicha asignatura. En todos éstos ejemplos, debemos analizar los datos valiéndonos de la correlación y la regresión lineales para obtener información acerca de los problemas planteados. El objetivo de este artículo es puntualizar de manera práctica una de las técnicas estadístic as comúnmente utilizadas en es el análisis de la relación o dependencia entre variables: la regresión lineal simple, la cual es más conveniente que otros métodos. El análisis de regresión lineal es una técnica estadística utilizada para estudiar la relación entre variables. Se adapta a una amplia variedad de situaciones. En la investigación social, el análisis de regresión se utiliza para predecir un amplio rango de fenómenos, desde medidas económicas hasta diferentes aspectos del comportamiento humano. En física se utiliza para caracterizar la relación entre variables o para calibrar medidas. Además, tiene múltiples aplicaciones en las diferentes áreas científicas.
2. MODELO DE REGRESIÓN LINEAL SIMPLE
Un modelo de regresión se define como un procedimiento mediante el cual se trata de determinar si existe o no relación de dependencia entre dos o más variables. Es decir, conociendo los valores de una variable independiente, se trata de estimar los valores, de una o más variables dependientes. La regresión lineal simple es útil para encontrar la fuerza o magnitud de cómo se relacionan dos variables: una independiente, que se representa con una X, y otra dependiente, que se identifica con una Y; sin embargo, la regresión lineal simple se distingue de otras pruebas, pues con ella puede estimarse o predecirse el valor de la variable de respuesta a partir de un valor dado a la variable explicativa. Para asociar estas dos variables se propone una línea recta, de ahí el nombre de regresión lineal. Dicha recta se expone en un plano y su grado de inclinación representa la pendiente, y una inclinación muy destacada indica grandes cambios en la variable dependiente.
2.1.
Definición del modelo de regresión lineal simple
Con frecuencia, nos encontramos en Ingeniería con modelos en los que el comportamiento de una variable, , se puede explicar a través de una variable ; lo que representamos mediante:
Si consideramos que la relación escribir así:
() , que liga
con , es lineal, entonces
()
se puede
Ya que las relaciones del tipo anterior raramente son exactas, sino que más bien son aproximaciones en las que se han omitido muchas variables de importancia secundaria, debemos incluir un término de perturbación aleatoria, , que refleja todos los factores – distintos de -que influyen sobre la variable endógena, pero que ninguno nin guno de ellos es relevante individualmente. individualmente. Con ello, la relación quedaría de la siguiente forma:
El modelo de regresión simple es:
() 0
Donde los parámetros y son constantes desconocidas y aleatoria de error, que se supone está normalmente distribuida con desconocida.
> 0
(,) < 0
es una variable y varianza
La inclusión del término aleatorio de error permite que quede o por encima de la línea de regresión verdadera (cuando ) o por debajo (cuando ). Los puntos ,… , provenientes de observaciones independientes se dispersarán entonces en torno a la línea de regresión verdadera ( f igura 1.1. ), como se ilustra en la figura
(, )
(, )
x1, ( x
Línea de regresión verdadera
1)
0
¡1
¨ ª
¡2 x2, ( x
2) x
x1
x2
Figura 1. Puntos correspondientes a observaciones del modelo de regresión lineal simple.
2.2.
Estimación de los parámetros del modelo
(, ) (, )
Supongamos que se tiene disponible una muestra de datos compuesta de pares observados , … , … , , con la cual los parámetros de modelo y la línea de regr esión pueden ser estimados. De acuerdo con el modelo, los puntos observados estarán distribuidos en torno a la línea de regresión verdadera de una manera aleatoria. Debemos encontrar entonces de entre todas las rectas la que mejor se ajuste a los datos observados, es decir, buscamos aquellos valores de y que hagan mínimos los errores de estimación. La línea de mejor ajuste es entonces la que tiene la suma más pequeña posible de desviaciones al cuadrado. De ahí que al método de estimación se le llame método de mínimos cuadrados.
(, )
() (, ) (, ) (,,) [= ()] (,,)
La desviación vertical del punto
con respecto a la línea
, es
la altura del punto - altura de la línea
La suma de las desviaciones verticales al cuadrado de los la línea es entonces:
, … , … ,
,a
Las estimaciones puntuales y , se denotan por y llamadas estimaciones . La de mínimos cuadrados, son aquellos valores que reducen al mínimo a línea de regresión estimada o línea de mínimos cuadrados es entonces la línea cuya ecuación es .
̂
Es notorio que, si el conjunto de n es grande, entonces el ajuste del modelo no será bueno. Es decir que al tener unos residuos pequeños decimos que la señal tiene un buen ajuste. Otra relación interesante es la siguiente: = = + + +
Cuyo uso da como resultado la aclaración de la diferencia entre los residuos por la recta un modelo ajustado ̂ = = + , y los errores del modelo conceptual por por la recta que refleja el modelo, dada por µ | = + β
Figura 2. Comparación de con el residuo
La estimación de los mínimos cuadrados del coeficiente de pendiente de regresión verdadera es:
Las fórmulas de cálculo para el numerador y denominador de
∑ ∑ ∑
de la línea
son:
∑ 2 (∑)
La estimación de los mínimos cuadrados de la intersección regresión verdadera es:
de la línea de
∑ ∑ Ejemplo 1. Los siguientes estadísticos resumidos se obtuvieron con un estudio que utilizó
≥0 ∑ ∑ 15 1425 10. 6 8 ∑ 139037.25 ∑ 987.645 ∑ 7.8518
análisis de regresión para investigar la relación entre la deflexión y la temperatura superficial del pavimento en varios lugares de una carretera estatal. He aquí temperatura (°F) y factor de ajuste por deflexión ( ):
Calcule
,
y la ecuación de la línea de regresión estimada.
Solución:
)(987. ) 15(15)( 987. 6 45) 45 (1425)(10. 6 8) 404. 3 25 (15)( 15)(139139 037.25)5 ) (1425) 54 933.75 0.00736023 10.68(0.00736023)(1425) 1.4112 15 1.4120.007360
Finalmente, la ecuación de la línea de regresión estimada será:
2.3.
Inferencias que conciernen a los coeficientes de regresión
Además de tan solo estimar la relación lineal entre y para fines f ines de predicción, el experimentador podría estar interesado en hacer ciertas inferencias acerca de pendiente y la intersección. Debe estarse dispuesto a hacer la suposición adicional de que cada tiene distribución normal, con la finalidad de permitir la prueba de hipótesis y la construcción de intervalos de confianza sobre y .
1, 2 , … ,
Interval Interv alo o de c onfianza para para
εi
∝
Un intervalo de confianza de 100(1 – α) 100% para el parámetro α en la recta de regresión y |x = α + βx es
∑ ∑ s s = = α t⁄ √ nSxx nSxx < α < αt⁄ √ nSxx nSxx
Intervalo de confianza para β
Un intervalo de confianza de 100(1 – α) 100% para el parámetro β en la recta de confianza para regresión y |x = α + βx es: es :
P rueba de de hipótes hipótes is s obre la pendiente pendiente Para probar la hipótesis nula H 0 de que β = β 0, contra una alternativa posible, utilizamos de nuevo la distribución t con n − 2 grados de libertad, con la finalidad de establecer una región crítica y después basar nuestra decisión sobre el valor de
⁄√ :: ≠ 00
Una prueba t importante importante sobre la pendiente es la prueba de hipótesis
Ejemplo 2. Encuentre un intervalo de confianza de 95% para β y α, en la recta de regresión μY|x = α + βx, con base en los datos de contaminación de la siguiente tabla 11.1: Tabla 11.1: Medidas de componentes electrónicos y demanda de energía calorífica Demanda de Demanda de Comp. Electr. Energía calorífica Y Comp. Electr. Energía calorífica Y X (%) (%) X (%) (%) 3 7 11 15 18 27
5 11 21 16 16 28
36 37 38 39 39 39
34 6 38 37 36 45
29 30 30 31 31 32 33 33 34 36 36
27 25 35 30 40 32 34 32 34 37 38
40 41 42 42 43 44 45 46 47 50
39 41 40 44 37 44 46 46 49 51
Primero hallamos las sumatorias:
= 110 11044
= 112 11244
= 41,355 = 41.086 ) 33)(41. 41. 3 55) 55 (1104)(1124) (33)( (33)( 33)(41.41.086)86) 1104 .
1124(0903642)(1104) . 33 (∑ (∑ ) ∑ ∑ (∑ (∑ ) ( ) 1104) 1104 1104)(33)(1124 1124)) 41.08686 33 4141..355 355 (1104 ( ) 1124) 1124 41.086 33 4152 4152.. 18 3752. 3752.0909 3713.88 0 9) 2 3713.88(0.903643)(3752. 10.4299 31 3.2295 ≈2. 0 45 . )(3. ) 45452. 3. 2 295) 295 (2. 0 45)(3. 2 295) 0.903643 (2.0√ 45)( <<0. 9 03643 452.18 452.18 √ 452. .<<.
En base a lo hallado podemos hallar
Ahora hallamos hallamos
Por lo tanto, s:
Se sabe que 95% para es:
Además, para hallar hallar α
para 3 grados de libertad. Asi, un intervalo de confianza de
∑ ∑ = = ⁄ < < ⁄ 45 ()(3.3.)(4152. 2295) 295)√ 41.41.) 086 <<3.829633 (2.045)(3. 2 295) 41. 4 1. 0 86 √ 3.829633 (2.045)( (33)(4152.18) (33)(4152. 33)( 33 4152.18)8 .<<. 2.4.
El coeficiente de determinación
La cantidad, R 2, se denomina coeficiente de determinación y es una medida de la proporción de la variabilidad explicada por el modelo ajustado. El enfoque del análisis de varianza utiliza la suma cuadrática de los errores
SSE (y y ) i i= y de la suma total de los cuadrados corregida
SST (y y ) i i=
SSE SSE0SSTSST SSE. SSE.
Esta última representa la variación en los valores de respuesta que idealmente serían explicados con el modelo. El valor es la variación variac ión debida al error, o variación no explicada. Resulta claro que sí , toda variación queda explicada. La cantidad que representa la variación explicada es R2 es el
Coeficiente de determinación:
Cabe recalcar que si el ajuste es perfecto, todos los residuos son cero, y así R 2 = 1, pero si es tan sólo un poco menor que , R2 ≈ 0 o deficiente.
SSE
SST
Figura 3. Gráficas que ilustran un ajuste muy bueno y otro deficiente.
2.5.
El coeficiente de correlación
El análisis de correlación intenta medir la intensidad de las relaciones entre dos variables por medio de un solo número denominado coeficiente de correlación.
1
La constante “ ” se denomina coeficiente de correlación de la p oblación, y juega un papel importante en muchos problemas de análisis de datos bivariados. El valor de es 0 cuando β = 0, que resulta cuando en esencia no existe regresión lineal. Los valores de = ±1 sólo ocurren cuando =0, en cuyo caso se tiene una relación lineal perfecta entre las dos variables. Así, un valor de igual a +1 implica una relación lineal perfecta con pendiente positiva, en tanto que un valor de igual a −1 resulta de una relación lineal perfecta con pendiente negativa. Entonces, Entonce s, podría decirse que los estimadores muéstrales de ρ con magnitud cercana a la unidad implican una buena correlación o asociación lineal entre X y Y; mientras que valores cerca de cero indican poca o ninguna correlación.
Coeficiente de correlación
La medida de la asociación lineal entre dos variables X y Y se estima por medio del coeficiente de correlación maestral r, donde
2.6.
Predicción del intervalo
Hay otra manera de construir un modelo de regresión lineal. Mediante predecir valores de respuesta para uno o más valores de la variable independiente. Este tema se centra en los errores asociados con la predicción.
̂ ̂
La ecuación es la utilizada para par a predecir o estimar la respuesta media µ | para = , donde dicho valor no necesariamente es uno de los valores preestablecidos, o puede emplearse para pronosticar un solo valor de la variable , cuando = .
Se puede construir un intervalo de confianza para µ | . Se puede usar el estimador puntual para estimar µ | = + . Entonces la distribución maestral de es normal con media:
| () ( ) y la varianza:
+ +(− ̅) [1 ( ̅)]
Por lo que es posible construir un intervalo de confianza de (1 − α)100% sobre la respuesta media µ | mediante:
1(|̅)
Intervalo de confianza para µ |
es:
Un intervalo de confianza de (1 − α)100% para la respuesta m edia µ |
̂ 1 (0)2 < | ̂ 1 (0)2 > | Utilizamos el modelo de regresión lineal para:
Determinar la relación de dependencia que tiene una variable respecto a otra. Ajustar la distribución distribució n de frecuencias frecue ncias de una línea, es decir, determinar la forma de la línea de regresión. Predecir un dato desconocido de una variable partiendo de los datos conocidos conocidos de otra variable.
E jercicios jercici os de repa repas o 1. Se realizó un estudio para analizar el efecto de la temperatura ambiente, x , sobre la energía eléctrica consumida por una planta química, y . Se mantuvieron constantes otros factores y se recabaron los datos a partir de una planta piloto experimental. a) Grafique los datos. b) Estime la pendiente y la intersección en un modelo de regresión lineal simple. c) Pronostique el consumo de energía para una temperatura ambiente de 65 F. ◦
y (BTU) x (º F) 250 27 285 45 320 72 295 58 265 31 298 60 267 34 321 74 2. Las siguientes son las calificaciones de un grupo de 10 estudiantes de la asignatura de Probabilidad y Estadística en un examen parcial ( x ) y en el examen final ( y ): ): x
77
50
71
72
81
94
96
99
67
79
y
82
66
78
34
47
85
99
99
68
45
a) Estime la recta de regresión lineal. b) Calcule la calificación final de un estudiante que obtuvo 85% en el examen parcial.
3. El empuje de un motor ( y ) es función de la temperatura de escape ( x ) en F, cuando otras variables de importancia se mantienen constantes. Considere los siguientes datos. ◦
y 4300 4650 3200 3150 4950 4010 3810 4500 3008
x 1760 1652 1485 1390 1820 1665 1550 1700 1270
a) Grafique los datos. b) A juste una recta de regresión simple a los datos y grafíquela a través de ellos.
4. Dado el conjunto de datos: x 2 15 30 10 20 45 25
y 7 50 100 40 70 50 80
a) Grafique los datos. b) Ajuste una recta de regresión “por el origen”. c) Grafique la recta de regresión sobre la gráfica de los datos. d) Dé una fórmula general (en términos de las y i y la pendiente b) para el estimador de 2 σ . e) Para este caso, dé una fórmula para f) Grafique los límites de confianza de 95% para la respuesta media sobre la gráfica alrededor de la recta de regresión.
(̂);1,2,…,.
V.- BIBLIOGRAFÍA BIBLIOGRAFÍA
Devore, J. L. (2008). Probabilidad y estadística para ingenierías y ciencias . Cengage Learning Editores. Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2007). Probabilidad y estadística para ingeniería y ciencias. ciencias . Pearson Educación. Miller, I., & Freund, J. E. (1963). Probabilidad y estadística para ingenieros. ingenieros . Reverte.