DD118 – ESTADÍSTICA BÁSICA
CASO PRÁCTICO En 2012, Angeliki Xifara del Architectural Science group, Welsh School of Architecture, Cardiff University, UK y Athanasios Tsanas del Oxford Centre for Industrial and Applied Mathematics (OCIAM), Mathematical Institute, University of Oxford, Oxford, UK presentaron un estudio sobre el efecto de la estimación de la eficiencia energética en edificios sobre la base de análisis estadístico y herramientas de aprendizaje máquina (Tsanas & Xifara, 2012). Se analizaron 12 tipologías diferentes de edificios, las cuales diferían en relación al área acristalada, la distribución del área acristalada y la orientación entre otros parámetros. En total se analizaron 768 muestras, de las cuales se evaluaron 8 variables (X1, X2, X3, X4, X5, X6, X7, X8) con el objetivo de predecir las cargas térmicas necesarias para calentar y enfriar el recinto (Y1, Y2). Ver archivo ENB2012_data.xlsx Referencia bibliográfica: [1]
Tsanas, A., & Xifara, A. (2012). Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools. Energy and Buildings, 49, 560-567. Obtenido de de http://people.maths.ox.ac.uk/tsanas/Preprints/ENB2012.pdf
1
CASO PRÁCTICO
Instrucciones para el desarrollo de la actividad Realice un análisis estadístico descriptivo completo de las variables independientes. ó
Media
0.76
671.71
318.5
176.6
5.25
3.5
0.23
2.81
Mediana
0.75
673.75
318.5
183.75
5.25
3.5
0.25
3
Moda
0.98
514.5
294
220.5
7
2
0.1
1
Varianza
0.011174
7,749,061
1,900,792
2,037,307
30,625
1.25
0.017725
2,402,344
Desviación estándar
0.105777
8,808,612
4,362,648
4,516,595
175,114
1,118,763
0.133221
155,096
Coeficiente de variación
14%
13
14
26
33
32
57
55
Máximo
0.98
808.5
416.5
220.5
7
5
0.4
5
Mìnimo Amplitud
0.62
514.5
245
110.25
3.5
2
0
0
0.36
294
171.5
110.25
3.5
3
0.4
5
Matriz de Covarianza X1
X2
X3
X4
X5
X6
X7
X8
X1
0.0112
-9.23
-0.9392
-4.1454
0.1531
0
0
0
X2
-9.23
7749.0608
7749.0908
3499.3741
-132.1979
0
0
0
X3
-0.9392
750.3125
1900.7917
-575.2396
21.4375
0
0
0
X4
-4.1454
3499.3741
-575.2396
2037.3069
-76.8177
0
0
0
X5
0.1531
-132.1979
21.4375
-76.8177
-3.0625
0
0
0
X6
0
0
0
0
0
1.25
0
0
X7
0
0
0
0
0
0
0.0177
0.04439
X8
0
0
0
0
0
0
0.0439
2.4023
Matriz de Correlaciones X1
X2
X3
X4
X6
X5
X8
X7
X1
1
-0.9919
-0.2038
-0.8688
0.8277
0
0
0
X2
-0.9919
1
0.1955
0.8581
-0.8581
0
0
0
X3
-0.2038
0.1955
1
-0.2923
0.281
0
0
0
X4
-0.8688
0.8807
-0.2923
1
-0.9725
0
0
0
X5
0.8277
- 0.8581
0.281
-76.8177
1
0
0
0
X6
0
0
0
0
0
1
0
0
X7
0
0
0
0
0
0
1
0.213
X8
0
0
0
0
0
0
0.213
1
Desarrolle un modelo de Regresión Lineal Simple que permita predecir la carga térmica de calentamiento (Y1) en función del análisis individual de cada una de las 8 variables analizadas. ¿Cuál variable describe mejor la carga térmica de calentamiento? ¿Qué porcentaje de la variabilidad es capaz de explicar el modelo? Regresión Lineal Y1 = a + bxi Descripción
Media Mediana Moda varianza Desviación estándar Coeficiente de variación Máximo mínimo Amplitud
X1
X2
X3
0.7641667 671.70833 0.75 673.75 0.98 514.5 0.1117431 7749.0607 0.1057748 88.086116 0.138422 0.1311345 0.98 0.62 0.36
X4
X5
X6
318.5 176.60417 5.25 318.5 183.75 5.25 294 220.5 7 1900.791667 2037.3069 3.0625 4362648144 45.16595 1.7511404
X7
X8
Y1
3.5 0.234375 2.8125 22.31 3.5 0.25 3 18.95 2 0.1 1 15.16 1.25 0.0177225 2.4023438 101.67965 1.118762 0.1332206 1.5509597 10.083633
0.136974824 0.2557468 0.3335506 0.3196465 0.5684077 0.5514523
808.5 514.5 294
416.5 245 171.5
220.5 110.25 110.25
Y2
7 3.5 3.5
5 2 3
0.4 0 0.4
24.59 22.08 21.33 90.38514 9.50711
0.452035 0.3866603
5 0 5
43.1 6.01 37.09
48.03 10.13 37.13
Matriz de Covarianza X1
X2
X3
X4
X5
Y1
0.6632962
-584.1799
200.3253984
-392.2526323
15.695208
Y2
0.6375001
-563.2321
177.0364258
-3701342817
14.903574
X6 -0.029163
X7
X8
0.362255
1.3654924
0.151888 0.2626427
0.744515
Ecuaciones de la regresión lineal de Y1 con variables independientes Y1=a+bX1
Y1+a+bX2
a) b)
-2305301406
72.94539474
59.35905261
-0.075387184
a+bXi
Y1=-23.05+59.36X1
Y1=72.94-0.075X2
Coeficiente de determinación
0.3408
R²
0.5838-
Y1=a+bX3 Y1=a+bX4
Y1=a+bX5
-11.25968133 56.309657 0.105390508
Y1=a+bX6 Y1=a+bX7
-4.598875
-0.192535
22.38885104 17.5171046
5.124965774
Y1=- Y1=56.31-
Y1=a+bX8 20.7085012
-0.023330208 20.4379683 0.568400068
Y1=-
Y1=22.39-
Y1=17.51+ Y1=20.71+0.
11.26+0.1X3
0.19X4
4.6+5.12X5
0.02X6
20.43X7
57X8
0
0
0
0
0
0.0404
0
0.007
0.001
0.0019
0.0504
0.0002
0.201
0.0056
Desarrolle un modelo de Regresión Lineal que permita predecir la carga térmica de enfriamiento (Y2) en función del análisis individual de cada una de las 8 variables analizadas. ¿Cuál variable describe mejor la carga térmica de enfriamiento? ¿Qué porcentaje de la variabilidad es capaz de explicar el modelo? Regresión Lineal Y2 = a + bxi Descripción Media Mediana Moda varianza Desviació n estándar
Coeficie nte de variación
X1
X2 671.7083333 673.75 514.5 7,749.06 88.08611606
0.76416667 0.75 0.98 0.011174306 0.105777476 0.138421997
Máximo mínimo Amplitud
0.98 0.62 0.36
X3
318.5 318.5 294 1,900.79 43.62648144
X4 X5 176.6041667 5.25 183.75 5.25 220.5 7 2,037,306,858 3.0625 45.16595022 1.751140437
0.136974824
0.255746798 0.333550559
808.5 514.5 294
416.5 245 171.5
220.5 110.25 110.25
7 3.5 3.5
X6
3.5 3.5 2 1.25 1.118762587
X7 X8 Y1 Y2 0.234375 28 22.31 24.95 0.25 3 18.95 22.08 0.1 1 15.16 21.08 0.01772461 2.40234375 101.67965 90.38514 0.13322056 1.550959664 10.083633 9.50711
0.319646453 0.56840774 0.551452325 5 2 3
0.4 0 0.4
0.452035 0.3866603
5 0 5
43.1 6.01 37.09
48.03 10.9 37.13
Matrices de las Covarianzas X1 Y1 Y2
0.663296191 0.637500087
Y1=a+Bx1
a) b) a+bXi Coeficiente de determinación R
X2 -5.841798662 - 5.632321376
Y1+a+bX2
X3 200.3253984 177.0364258
Y1=a+bX3
X4 X5 -392.2526323 15.69520768 - 370.1342817 14.90357422
Y1=a+bX4
-19.00835515
73.41015734
5.07677495
56.6728909
57.05053291
-0.072683923
0.093138259 Y2=-
-0.181678219
Y2=-19,00+57,05X1
Y2=73,41-0,07X2
5,08+0,09X3
Y2=56,67-0,18X4
Y1=a+bX5 -0.9612239
X6 X7 X8 -0.02916276 0.362255 1.36549235 0.151888021 0.26264274 0.744514974
Y1=a+bX6
Y1=a+bX7
Y1=a+bX8
24.16247396 21.1147985 23.71613313
4.8664732 0.121510417 14.81797 0.309911924 Y2=Y2=24,16+0,12X Y2=21,11+ Y2=168,63+6 0,96+4,87X5 6
0.3984
0
0
0
0.0029
0.63119372
0.000804158
0.00103046
-0.002010045
0.53841519
14,82X7 0
0.0269
8,7X8 0
0.001344363 0.16394255 0.003428793
Investigue la posibilidad de desarrollar un modelo de regresión lineal múltiple (teniendo en cuenta el efecto de más de una variable independiente a la vez) para la predicción de las cargas térmicas de calentamiento y enfriamiento. Estadística de Regresión
R Múltiple R-Cuadrado R-Cuadrado ajustado
0.992861609 0.985774174 0.980083843 1.700097719
Error estándar Observaciones
8
ANOVA GL Regresión residuo total
7
Coeficientes Intersección Y1 Y2
Error estándar
SQ 21,001.42 514.4516611 1015.875
Stat t
MQ 500.71167 2.89023355
Valor-P
95% POR DEBAJO
F F Significado 173.23672 0
95% POR ARRIBA
Menores a mayores a 95% 95%
-3.53177954
1.806991246
-1.95450838
0.10804473 -8.176798421
1.113239326 -8.1767984 1.113239326
0.579434911
0.153953298
3.76370575
0.013107458 0.183685361
0.975184461 0.18368536 0.975184461
0.447859255
0.162757622
2.751694513
0.0402292 0.029477469
0.866241041 0.02947747 0.866241041
Calcule los intervalos de confianza al 95% para la media de la carga térmica de calentamiento y la carga térmica de enfriamiento. El Intervalo de confianza de la carga térmica de calentamiento es [21,63; 22.98] Intervalo de Confianza n_X média_y1 DP_Y1 Error_Y1 Limite inferior_Y1 Limite superior_Y2
768 22.3072 9.50711 0.6722382 21.63481 22.97958
Z0,975
El Intervalo de confianza de la carga térmica de enfriamiento es (23,87; 25,3).
N_Y Média_y1 DP_Y1 Error_Y2 Limite inferior_Y1 Limite superior_Y2
768 24.587776 10.08363 0.713156 23.8746 25.30092
1.96
0.343058
0.672394
Determine, para un nivel de significación del 5%, si existen diferencias entre la carga térmica de calentamiento (Y1) y la carga térmica de enfriamiento (Y2). Diferencia entre Y1 y Y2
n_X média_X1 DP_X1 N_Y Média_y1 DP-Y1 Z0,975 Diferencia media Error común
768 22.3072 9.50711 768 24.58776 10.08363 1.96 -2.28057 1.731387
Inferior
-0.54918
IC diferencia Superior
-4.01195
El Intervalo de confianza de la diferencia entre la carga térmica de calefacción y la carga térmica de enfriamiento sería (-0,55; -4,01). Ese intervalo no contiene el valor 0, existe una diferencia entre las dos variables.