Regresión y Correlación
ESTADÍSTICA I
TAREA 5 ANÁLISIS DE REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE . 1.
Se tomó una muestra para analizar cuál es la relación entre la edad (en meses) y el peso (en kilogramos) de niños en edad pre escolar, en donde se obtuvo los siguientes resultados.
a)
Hallar la edad promedio de la muestra y sus medidas de dispersión. X = Edad (meses) Y = Peso (kg)
I.
Media aritmética:
51 II.
Varianza:
1122 57809− 1,258.884 57809−57.222 587 57809− 22 22−122 21 21 21 27.9 27.952 5233 ≅ 28 III.
Desviación Estándar:
√27.952380955.28700113≅5.3 45.72 ≤̅ ≤56.28 3.8 años
4.7 años
I nterpre nterpr etaci tación ón: La edad promedio de los niños de preescolar se encuentra entre 3.8 años y 4.7 años.
IV.
Coeficiente de Variación:
. ×100%10.39215686 ≅10.4%
CV
I nterpre nterpr etaci tación ón: La muestra es homogénea
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
1
Regresión y Correlación
b)
ESTADÍSTICA I
Hallar el peso promedio de la muestra y sus medidas de dispersión.
I.
Media aritmética
308 22 14 II.
Varianza
308 308 4505− 94.864 4505−4312 193 4505− 22−122 21 22 21 21 9.19047619 9.19047619≅9 III.
Desviación Estándar
√ 9.9.1904 190476 7619 19 3.0315 031579 7981 8188 ≅ 3 11.969≤ ≤17.031 IV.
Coeficiente de Variación
143 ×100%21.428571413≅21% I nter nter pr etaci tación: ón: La muestra es homogénea
c)
Estime un modelo según una relación lineal entre la edad y el peso de los niños, interprete el coeficiente de regresión.
+ + 2216002 16002 −1122 −1122308 308 352044−345576 6468 . 22 22 2257809 57809 − 1122 1122 1271798−1258884 12914 ≅0.5 1122 308 −0.5(1122)14−0.5 308 − 51 14−25.5−. 22 22 22 22 )14−0.551 − −11.5 11.5 + 0.5 0.5 × I nter nter pr etaci tación: ón: El coeficiente de regresión b=0.5 nos indica que por cada mes que pasa, el peso en promedio aumenta en 500 gramos
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
2
Regresión y Correlación
d)
ESTADÍSTICA I
Estimar cuanto será el peso para u=n niño de 58 meses de edad.
−11.5+0.558 −11.5+29 17.5 . e)
Estimar que edad aproximada tiene un niño que pesa 12.5 Kg.
12.5+11.5 48 ≅ 4 ñ +11.5 0.5 0.5 f)
Hallar la varianza residual de la regresión.
∑ ∑ 2 − ∑− −2 −11.5 × 308 − 0.5 × 16002 2.3 4505− 20 g)
Determinar el coeficiente de correlación, interprete.
16002−225114 √ 57809−2251 4 505−2214 0.87 Existe una relación correlación positiva fuerte h)
Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan el peso de los niños.
0.87 ×100%76.3% I nterpretación: La variabilidad del peso de los niños es explicado en un 76.3% por la variabilidad en su edad. Otros factores que determinan el peso de los niños en edad preescolar es la alimentación, (número de comidas por día), altura, ingreso económico de los padres.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
3
Regresión y Correlación
2.
ESTADÍSTICA I
En la comunidades A y B se realizó un estudio para determinar si la agilidad mental de los niños esta en relación directa con su edad. Se escogieron 10 niños de cada comunidad y se les aplico un test para medir su agilidad mental con los siguientes resultados. Comunidad A
Comunidad B
.
.
.
COMUNIDAD A a)
Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la edad y la agilidad mental de los niños, interprete el coeficiente de regresión.
+∗ /
Dónde:
− ∑ ∑ 101888−80225 2.75 ∑ ∑ − ∑ 10675−80 ∑ 225 −2.75 80 0.5 ∑ − 10 10 I nterpretación: El coeficiente de regresión indica que si la edad aumenta en un año, en promedio la agilidad mental aumenta en 2.75 IQ. b)
Estimar cuanto será la agilidad mental de un niño de 7 años de edad.
a+ b edad x 7 ; entonces / 0.5+2.757. / Si la edad
c)
Hallar la varianza residual de la regresión.
Sy ∑Y
− a∑Y − b∑XY
n−2
5549−0.5225−2.751888 30.4375 10−2
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
4
Regresión y Correlación
d)
ESTADÍSTICA I
Determinar el coeficiente de correlación, interprete.
∑XY−nXY r ∑ X −nX ∗ ∑ Y −nY 1888−10∗ 822.5 r 672−108 ∗ 5549−1022.5 0.7052 I nterpretación: Existe una correlación positiva fuerte e)
Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan la agilidad mental de los niños.
∗100% 0.7052 ∗100%49.73% I nterpretación: La variabilidad de la agilidad mental es explicado en un 49.73% por la variabilidad en la edad. Otros factores que determinan la agilidad mental son: la alimentación, motivación, interés, etc.
COMUNIDAD B a)
Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la edad y la agilidad mental de los niños, interprete el coeficiente de regresión.
+∗ /
Dónde:
− ∑ ∑ 101835−85209 . ∑ ∑ − ∑ 10747 −85 ∑ 209 −2.39 85 . ∑ − 10 10 I nterpretación: El coeficiente de regresión indica, que si la edad aumenta en un año, en promedio la agilidad mental aumenta en 2.39 IQ. b)
Estimar cuanto será la agilidad mental de un niño de 7años de edad.
a+ b edad x 7 ; entonces / 0.585+2.397 . / Si la edad
c)
Hallar la varianza residual de la regresión.
Sy ∑Y
− a∑Y − b∑XY
n−2
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
5
Regresión y Correlación
ESTADÍSTICA I
Sy 4783−0.585209−2.391835 . 10−2 d)
Determinar el coeficiente de correlación, interprete.
∑XY−nXY r ∑ X −nX ∗ ∑ Y −nY 1835−108.520.9 r 747−108.5 ∗ 4783−1020.9 . I nterpretación: Existe una correlación positiva fuerte e)
Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan la agilidad mental de los niños.
∗100% 0.58 ∗100%33.64% I nterpretación: La variabilidad de la agilidad mental es explicado en un 33.64% por la variabilidad en la edad. Otros factores que determinan la agilidad mental son: la alimentación, motivación, interés, etc.
3.
Se desea saber si hay relación entre el tiempo que le dedican al estudio fuera de horas de clase y el rendimiento académico en un determinado curso, dando los siguientes resultados:
180 6141 a)
40
457 1035.92 2430.7
Hallar el tiempo promedio de estudio fuera de clases y sus medidas de dispersión
X: TIEMPO (horas) I.
Promedio:
II.
Varianza:
̅ 180 40 . ∑
−∑
− 1
III.
180 401035. 9 2 − . 4039
Desviación Estándar:
. 2.09≤̅ ≤6.91 I nterpretación: El tiempo promedio se encuentra comprendido entre 2.09 horas y 6.91 horas
IV.
Coeficiente de Variación:
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
6
Regresión y Correlación
CV =
b)
ESTADÍSTICA I
×100% . 53,56 % ̅ .
(La muestra no es homogénea)
Hallar el rendimiento académico promedio y sus medidas de dispersión.
Y: RENDIMIENTO ACADÉMICO (puntos) I.
Promedio:
II.
457 11.43 40 Varianza: −∑ 406141 − 457 ∑ − 1 4039 23.58
III.
Desviación Estándar:
4.86 6.57≤ ≤ 16.29 ≅ 7 ≤ ≤ 16 I nterpretación: El rendimiento académico promedio está comprendido entre los 7 puntos y 16 puntos.
IV.
Coeficiente de variación: CV =
c)
×100% . 42.52 % .
(La muestra no es homogénea)
Estime un modelo según una relación lineal entre horas de estudio fuera de clase y su rendimiento académico , interprete el coeficiente de regresión
+∗ℎ − ̅ 2430.7−404.511.43 1.65 ∑ ∑ − ̅ 1035.92−40 4.5 A = 11.43 – (1.65) (4.5) = 4
4+1.65ℎ I nterpretación: Por cada hora que se estudia fuera de clases se logra un incremento promedio respecto al rendimiento académico en 1.65. d)
Estimar cuanto será el rendimiento académico para un alumno que estudia 3.5 horas
+∗ℎ ̂ 4+1.653.5 > 9.78 ≅ 10 e)
Estimar cuantas horas de estudio un alumno que obtuvo una nota de 14 puntos
144+1.65ℎ Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
7
Regresión y Correlación
ESTADÍSTICA I
̂ 141.65−4 6.06 ≅ 6 ℎ f)
Hallar la varianza residual de la regresión
=
∑ − ∑ − ∑ 6141−4457−165 2430.7 7.96 −2 38
Sxy = 2.82 => El modelo es confiable g)
Determinar el coeficiente de correlación, interprete
− ̅ 373.3 0.82 ∑ − ∑ ̅ ∗ ∑ − 454.7 I nterpretación: Existe una correlación positiva fuerte h)
Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan el rendimiento académico.
∗100 % > 0.82 ∗100% >67.24% I nterpretación: La variabilidad de la variable respuesta es explicado por el coeficiente de determinación el cual es 67.24%, otros f actores que determinan la variabilidad del rendimiento académico son: alimentación, salud, materiales didácticos, estilos de aprendizaje, etc.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
8
Regresión y Correlación
4.
ESTADÍSTICA I
Los siguientes datos corresponden a las notas obtenidas en dos exámenes parciales aplicados a ocho alumnos. Primer examen
8
13
14
7
10
11
13
9
Segundo examen
10
12
11
9
14
13
11
8
a)
Realizar el diagrama de dispersión para estos datos y analizar. Gráfica de dispersión de primer examen vs. segundo examen 14 13 12
n e
m 11 a x e r
e 10 mi r p
9 8 7 8
9
10
11
12
13
14
segundo examen
I nterpretación: Del diagrama de dispersión se observa que no existe relación entre las dos variables estudiadas.
b)
Hallar la ecuación de regresión lineal considerando como variable dependiente al segundo examen.
Análisis de regresión: Segundo examen vs. Primer examen La ecuación de regresión es:
7.294 + 0.3488∗ Primer examen c)
Determinar si el modelo es confiable.
: 0 : ≠ 0
Hipótesis nula Hipótesis alterna
Regla de decisión: (Análisis de varianza)
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
9
Regresión y Correlación
ESTADÍSTICA I
> 0.05 ℎ < 0.05 ℎ
Análisis de Varianza Fuente GL SC MC F P Regresión 1 5.5804 5.58038 1.49 0.268 Error 6 22.4196 3.73660 Total 7 28.0000
I nterpretación: El modelo no es confiable. d)
Determinar el coeficiente de correlación, interprete.
Correlación: Primer examen, Segundo examen Correlación de Personas de Primer examen y Segundo examen = 0.446
I nterpretación: El tipo de correlación entre las variables es positiva débil, dado que el coeficiente de correlación es 0.446.
e)
Hallar el coeficiente de determinación, interprete. Indicar a su criterio que otros factores determinan las notas obtenidas en el segundo examen. S = 1.93303 R-cuad. = 19.9% R-cuad. (Ajustado) = 6.6%
I nterpretación: La variabilidad de la variable respuesta es explicado por el coeficiente de determinación el cual es 19.9%, otros factores que determinan la variabilidad son: horas asistidas a clases, horas que se dedican al estudio fuera de clase, desempeño del docente, etc.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
10
Regresión y Correlación
5.
ESTADÍSTICA I
Las pruebas acerca del consumo de combustible de un vehículo que viaja a diferentes velocidades produjeron los siguientes resultados. Velocidad 20 30 40 50 60 Consumo 18.3 18.8 19.1 19.6 19.8
70 20
80 20.6
90 21
a) Realizar el diagrama de dispersión para estos datos y analizar la tendencia. Gráfica de línea ajustada Consumo = 1 7.63 + 0.03667 Velocidad S R-cuad. R-c uad.(aj ust ado)
21.0
0.1 1 0554 98.7% 9 8.5 %
20.5
20.0 o m u s 19.5 n o C 19.0
18.5
18.0 20
30
40
50
60
70
80
90
Velocidad
Del diagrama de dispersión se observa una tendencia lineal creciente, es decir; a mayor velocidad mayor consumo
b) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste entre la velocidad y el consumo, interprete el coeficiente de regresión. Análisis de regresión: Consumo vs. Velocidad La ecuación de regresión es: Consumo = 17.63 + 0.03667 Velocidad
I nterpretación: El coeficiente de regresión
0.036 indica que por cada kilómetro
recorrido se consume en promedio 0.036 galones de combustible
c)
Estimar cuanto será el consumo de combustible si el auto va a una velocidad de 75 k/h. Consumo = 17.63 + 0.03667 * 75 =20.33 galones
d) Estimar cuanto será la velocidad del auto si ha consumido 25 galones de combustible.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
11
Regresión y Correlación
ESTADÍSTICA I
Consumo = 17.63 + 0.03667 * Velocidad
−17.63 25 −17.63 204.72 /ℎ Velocidad Consumo 0.036 0.036 e)
Hallar consumo de combustible promedio y su desviación estándar. Estadísticos descriptivos: Velocidad, Consumo Variable Consumo
f)
Media 19.650
Desv.Est. 0.904
Varianza 0.817
CoefVar 4.60
Hallar la velocidad promedio y su desviación estándar. Estadísticos descriptivos: Velocidad, Consumo Variable Media Velocidad 55.00
Desv.Est. Varianza CoefVar 24.49 600.00 44.54
g) Determinar si el modelo es confiable. Hipótesis:
: 0 ℎ : ≠ 0 ℎ Regla de decisión: (Análisis de varianza)
> 005 ℎ < 005 ℎ
Análisis de Varianza Fuente GL SC MC F P Regresión 1 5.64667 5.64667 462.00 0.000 Error 6 0.07333 0.01222 Total 7 5.72000
I nterpretación: Como P = 0000 < 0.05 entonces se rechaza la hipótesis nula, es decir: el modelo es confiable
h) Determinar el coeficiente de correlación, interprete. Correlación: Velocidad, Consumo Correlación de Pearson de Velocidad y Consumo: r = 0.994 Valor p = 0.000
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
12
Regresión y Correlación
ESTADÍSTICA I
I nterpretación: Existe una correlación positiva fuerte
i)
Hallar el coeficiente de determinación, interprete. E indicar a su criterio que otros factores determinan el consumo de combustible. S = 0.110554 R-cuad. = 98.7% R-cuad.(ajustado) = 98.5%
I nterpretación: La variabilidad de la variable respuesta en este caso el consumo de combustible es explicado por el coeficiente de determinación el cual es 98.7%, otros factores que determinan la variabilidad del consumo de combustible son: Tiempo de uso del vehículo, carga del vehículo, etc.
6.
Sea Y la producción (en millones ) de un determinado articulo fabricado por una compañía durante los años 1999 al 2008 como se observa en el siguiente cuadro: Años 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 Producción 92.2 92.3 80 89.1 83.5 68.9 69.2 67.1 58.3 61.2 a)
Realizar un diagrama de dispersión y analizar la tendencia.
Gráfica de dispersión de Producción vs. Años 95 90 85 n ó i c c u d o r P
80 75 70 65 60 2006
2008
2010
2012
2014
2016
Años
I nterpretación: Existe una tendencia lineal negativa entre las dos variables X (Años), Y (Producción). También se le conoce como relación i nversa o tendencia decreciente
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
13
Regresión y Correlación
b)
ESTADÍSTICA I
Encontrar la recta de regresión que estime la producción en función del tiempo.
Gráfica de línea ajustada Producción = 8071 - 3,975 Años 95
S R-cuad. R-cuad.(ajustado)
90
4,69844 88,1 % 86,6%
85
n 80 ó i c c
u 75 d or P
70 65 60 2006
2008
2010
2012
2014
2016
Años
La ecuación de regresión es:
8071−3.975∗ñ I nterpretación: El coeficiente de regresión b = -3.975, indica que por cada año trabajado en la compañía la producción desciende en promedio 3.9 Millones de unidades c)
Estimar la producción de artículos para el año 2009.
8071−3.975∗ñ Reemplazando: Producción = 8071 - 3.975 (2017) = 53.425
I nterpretación: Para el año 2017 la producción artículos será de 53.425 millones.
d)
Determinar el coeficiente de correlación, interprete.
Correlación: Años; Producción Correlación de Pearson de Años y Producción = -0,938 Valor p = 0,000
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
14
Regresión y Correlación
ESTADÍSTICA I
I nterpretación: Existe una correlación negativa fuerte
e)
Hallar el coeficiente de determinación, interprete. S = 4.69844
R-cuad. = 88.1%
R-cuad.(ajustado) = 86.6%
I nterpretación: El coeficiente de determinación es de 88.1%, la variabilidad del modelo de regresión nos explica en un 88.1%.con respecto a la producción en función al tiempo.
7.
Se sabe que la producción de algodón de un país, expresada en millones de toneladas, fueron:
Años 2007 2008 2009 2010 2011 2012 2013 2014 2015 Producción 8 10 12 15 15 18 19 23 30 a)
Realizar un diagrama de dispersión y analizar la tendencia.
Gráfica de dispersión de Produccion vs. Años 30
25
n o i c c u d o r P
20
15
10
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
Años
I nterpretación: Existe una tendencia lineal positiva entre las dos variables X (Años), Y (Producción), también se le conoce como relación directa o tendencia creciente
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
15
Regresión y Correlación
b)
ESTADÍSTICA I
Encontrar la recta de regresión que estime la producción en función del tiempo.
Gráfica de línea ajustada Producci ón = - 481 0 + 2.400 Años S R-cuad. R- cu ad.(aj ust ad o)
30
1 .94202 92.9% 9 1 .9 %
25
n ói
c 20 c u d or
P 15
10
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
Años
Análisis de regresión: Producción vs. Años La ecuación de regresión es:
−4810+2.4 ñ I nterpretación: El coeficiente de regresión
2.4 indica que por cada año trabajado la
producción aumenta en promedio 2.4 millones de toneladas de algodón
c)
Determinar si el modelo es confiable.
: 0 : ≠ 0
Hipótesis nula Hipótesis alterna
Regla de decisión: (Análisis de varianza)
> 005 ℎ < 005 ℎ
Análisis de Varianza:
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
16
Regresión y Correlación
ESTADÍSTICA I
Fuente GL SC MC F P Regresión 1 345.6 345.600 91.64 0.000 Error 7 26.4 3.771 Total 8 372.0
I nterpretación: Como P = 0.000 < 0.05 entonces se rechaza la hipótesis nula, es decir: el modelo es confiable
d)
Estimar la producción de algodón para los tres años siguientes.
Año = 2016:
−4810+2.4 ñ −4810+2.4∗2016 28.4
Año = 2017:
−4810+2.4 ñ −4810+2.4∗2017 30.8
Año = 2018:
−4810+2.4 ñ −4810+2.4∗2018 33.2 f)
Determinar el coeficiente de correlación, interprete.
Correlación: Años, Producción Correlación de Pearson de Años y Producción = 0.964 Valor p = 0.000
I nterpretación: Existe una correlación positiva fuerte e)
Hallar el coeficiente de determinación, interprete.
S = 1.94202 R-cuad. = 92.9% R-cuad.(ajustado) = 91.9%
I nterpretación: La variabilidad de la producción es explicado por el coeficiente de determinación el cual es 92.9%. Otros factores que determinan la producción
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
17
Regresión y Correlación
8.
ESTADÍSTICA I
El auditor del sistema educativo público ha estudiado los registros del inventario para averiguar si el inventario actual de libros de texto es típico. Las siguientes existencias corresponden a los 5 años anteriores.
Año
2012 2013 2014 2015 2016
Inventario 4620 4910 5490 5730 5990
a)
Realizar un diagrama de dispersión y analizar la tendencia.
Gráfica de dispersión de Inventario vs. Años 6000
5750
5500 o i r a t n e v n I
5250
5000
4750
4500 2012
2013
2014
2015
2016
Años
I nterpretación: Existe una tendencia lineal positiva entre las dos variables X (Años), Y (Inventario), también se le conoce como relación directa o tendencia creciente
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
18
Regresión y Correlación
b)
ESTADÍSTICA I
Encontrar la recta de regresión que estime el inventario en función del tiempo.
Análisis de regresión: Inventario vs. Años Gráfica de línea ajustada Inventario = - 71 1 636 + 356,0 Años 6250
S R-cuad. R-cuad.(ajustado)
6000
1 04,435 97,5% 96,6%
5750
oi
r 5500 at n e
v 5250 nI
5000 4750 4500 2012
2013
2014
2015
2016
Años
La ecuación de regresión es:
−711636+356∗ñ I nterpretación: El coeficiente de regresión
356 indica
que por cada año transcurrido el inventario de los libros asciende en promedio 356 libros. c)
Determinar si el modelo es confiable
: 0 : ≠ 0
Hipótesis nula Hipótesis alterna
Regla de decisión: (Análisis de varianza)
> 005 ℎ < 005 ℎ
Análisis de Varianza Fuente
GL
SC
MC
F
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
P
19
Regresión y Correlación Regresión Error Total
1 3 4
ESTADÍSTICA I 1267360 32720 1300080
1267360 10907
116,20
0,002
I nterpretación: Como P = 0.002 < 0.05 entonces se rechaza la hipótesis nula, es decir: el modelo es confiable
d)
Estimar el inventario para el año 2009.
−711636+356∗ñ Estimando se tiene:
Inventario = - 711636 + 356.0 (2017) = 6060
I nterpretación: Se registrara 6060 libros de texto para el año 2017. e)
Determinar el coeficiente de correlación, interprete.
Correlación: Años; Inventario Correlación de Pearson de Años y Inventario = 0,987 Valor p = 0,002
I nterpretación: El tipo de Correlación entre las variables es positiva fuerte f)
Hallar el coeficiente de determinación, interprete. S = 104,435 R-cuad. = 97,5% R-cuad. (ajustado) = 96,6%
I nterpretación: La variabilidad del modelo de regresión lineal simple se explicara en un 97.5% con respecto al inventario de libros con el transcurrir de los años.
Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia
20