Vicente D. Estruch Fuster Valentín Gregori Gregori Almanzor Sapena Piera
LECCIONES DE ESTADÍSTICA
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
EDITORIAL UNIVERSITAT POLITÈCNICA DE VALÈNCIA Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Primera edición edición ,, 2010 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
© de la presente edición: Editorial Universitat Politècnica Poli tècnica de València www.editorial.upv.es Distribución:
[email protected] [email protected] Tel. 96 387 70 12
© Vicente D. Estruch Fuster Valentín Gregori Gregori Almanzor Sapena Piera
ISBN : ISBN : 978-84-8363-59 978-84-8363-599-5 9-5 Ref. editorial: Queda prohibida la reproducción, distribución, comercialización, transformación, y en general, cualquier otra forma de explotación, por cualquier procedimiento, de todo o parte de los contenidos de esta obra sin autorización expresa y por escrito de sus autores.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Primera edición edición ,, 2010 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
© de la presente edición: Editorial Universitat Politècnica Poli tècnica de València www.editorial.upv.es Distribución:
[email protected] [email protected] Tel. 96 387 70 12
© Vicente D. Estruch Fuster Valentín Gregori Gregori Almanzor Sapena Piera
ISBN : ISBN : 978-84-8363-59 978-84-8363-599-5 9-5 Ref. editorial: Queda prohibida la reproducción, distribución, comercialización, transformación, y en general, cualquier otra forma de explotación, por cualquier procedimiento, de todo o parte de los contenidos de esta obra sin autorización expresa y por escrito de sus autores.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Sumario ´ Indice de notaciones
9
Pr´ ologo
11
1
13
Estad´ ıstica Descriptiva
1.1 Rep Repres resen entac taci´ i´ on de vari riaabl bles es es esta tad d´ıs ısti tica cass . . . . . . . . . . . . . 13
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
1.1. 1. 1.11
Pob obla laci ci´ o´n y variable estad´ıs ısttica . . . . . . . . . . . . . . 13
1.1.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.3
Tablas de frecuencias . . . . . . . . . . . . . . . . . . . . 14
1.1.4
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.5
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.6 1.1 .6
Repres Rep resen entac tacion iones es gr´ aficas . . . . . . . . . . . . . . . . . 15
1.2 Medida Medidass de cen centra traliz lizaci aci´ o´n y de dispersi´on on on de una variable estad´ıstica cuantitativa . . . . . . . . . . . . . . . . . . . . . . . .19 1.2. 1. 2.11
Medi Me dida dass de pos posic ici´ i´ on central . . . . . . . . . . . . . . . . 19
1.2.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.3
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2 .2.4 .4
Prop Pr opie ieda dade dess de la me medi diaa ari ritm tm´´etic e ticaa . . . . . . . . . . . . 21
1.2.5
Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2.6
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2.7
La media ponderada . . . . . . . . . . . . . . . . . . . . 23
1.2.8
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
1.2.9
Otras medias . . . . . . . . . . . . . . . . . . . . . . . . 25
1.2.10 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 1.2.111 Medidas 1.2.1 Medidas de dispers dispersi´ i´ on de una variabl on variablee estad´ e stad´ıstica ıst ica cuantitativa . . . . . . . . . . . . . . . . . . . . . . . . . 26 Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
4
1. 3 1. 4 1.55 1. 1. 6 2
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Sumario
1.2.12 Ejemplo . . . . . . . . . . . . . . 1.2.13 Nota . . . . . . . . . . . . . . . . 1.2.14 Estad´ısticos robustos . . . . . . . 1.2.15 Ejemplo . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . Ejercicios propuestos . . . . . . . . . . . Prooyec Pr ectto: Med Medid idas as de as asim imet etrr´ıa y fo form rmaa 1.5.1 Ejemplo . . . . . . . . . . . . . . Pro roy yecto: Dia Diagrama Box-and-whis isk ker . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
28 29 30 30 32 43 48 49 52
Distribuciones bidimensionales
53
2. 1
53 53 54 54 55 56 56 58 58 61 61 61 62 63 65 65 66
2.22 2.
2.33 2.
2. 4 2. 5 2. 6
Distribuciones bidimensionales . . . . . . . . . . . . . . . . . . 2.1 .1.1 .1 Vari riaabl blee es esta tad d´ıs ısti tica ca bid idim imeens nsio iona nall . . . . . . . . . . . . 2.1. 2. 1.22 Re Repr pres esen enta taci ci´ o´n gr´afica on afica de una distribuci´on on bidime bidimension nsional al 2.1.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.4 2.1 .4 Med Medida idass de cen centra traliz lizaci aci´ o´n y dispersi´on . . . . . . . . . . on 2.1.5 Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.6 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.7 Frecuencias marginales . . . . . . . . . . . . . . . . . . . 2.1.8 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . Regr Re gres esi´ i´ on y correlaci´ on on . . . . . . . . . . . . . . . . . . . . . . . 2.2.1 L´ıneas de regresi´ on . . . . . . . . . . . . . . . . . . . . . 2.2.2 Rectas de regresi´on . . . . . . . . . . . . . . . . . . . . . 2.2.3 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.4 Calculo a´lculo abreviado de las rectas de regresi´on . . . . . . . 2.2.5 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2.6 2.2 .6 El coefi coeficie cient ntee de cor correl relaci aci´ o´n lineal . . . . . . . . . . . . 2.2.7 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . .
Regres Regr esi´ i´ on polin´omica . . . . . . . . . . . . . . . . . . . . . . . . 67 on 2.3. 2. 3.11 Re Regr gres esi´ i´ on parab´olica . . . . . . . . . . . . . . . . . . . . 67 on 2.3.2 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 2.3.33 Re 2.3. Regr gres esi´ i´ on polin´ on omica general Ejercicios resueltos . . . . . . . . . . Ejercicios propuestos . . . . . . . . . Proyecto: Ot Otras funciones de aj aju uste
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
69 71 82 85
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
5
Sumario
3
Probabilidad
3. 1
87
Espacios Probabil´ısticos . . . . . . . . . . . . . . . . . . . . . . 87 3.1.1
Experimentos aleatorios . . . . . . . . . . . . . . . . . . 87
3.1.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.1.3 3.1.4
Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 ´ lgebra de sucesos . . . . . . . . . . . . . . . . . . . . . 88 A
3.1.5
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.6
Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.7
Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.8
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.1.9 3.1 .9
Propie Pro piedad dades es de una fun funci´ ci´ on probabilidad . . . . . . . . 90
atica de Kolmogorov . . . . . . . . . . . . . . . . . 91 3.1.10 Axiom´atica
3.1.11 Probabilidad de Laplace . . . . . . . . . . . . . . . . . . 91 3.1.12 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 3.1 .1.1 .133 Pr Prue ueba bass re repe peti tida das. s. Esp Espac acio io pr prod odu uct ctoo . . . . . . . . . . . 92 3.1.14 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
3.1.15 Probabilidad suma . . . . . . . . . . . . . . . . . . . . . 93 3.1.16 Probabilidad compuesta . . . . . . . . . . . . . . . . . . 93 3.1.17 Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.1.18 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 3.1.19 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.1.20 3.1 .20 Dia Diagra gramas mas de de a´rbol . . . . . . . . . . . . . . . . . . . . 95 3.1.21 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 3.22 3.
3. 3
Prob Pr obab abil ilid idad ad co cond ndic icio iona nada da.. Teo Teore rema ma de Ba Bay yes . . . . . . . . . . 97 3.2.1
Probabilidad condicionada . . . . . . . . . . . . . . . . . 97
3.2.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.2.3
Probabilidad total . . . . . . . . . . . . . . . . . . . . . 99
3.2.4
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.2.5
Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . 101
3.2.6
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.2.7
Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
3.2 .2..8
Probabili lid dad geom´etri ricca . . . . . . . . . . . . . . . . . . 10 102
3.2.9
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 103
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
6
4
Sumario
3.4
Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . 119
3.5
Proyecto: An´ alisis de tests para diagnosis . . . . . . . . . . . . 123
Variables aleatorias
4.1
125
Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . 125 4.1.1
Variables aleatorias discretas . . . . . . . . . . . . . . . 125
4.1.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.1.3
Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.1.4
Funci´on de distribuci´on de una variable aleatoria discreta..126
4.1.5
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
4.1.6
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
4.1.7
Propiedades de la funci´ on de distribuci´on F de una variable aleatoria discreta X . . . . . . . . . . . . . . . . . 129
4.1.8
Elecci´ on de la funci´on de probabilidad . . . . . . . . . . 129
4.1.9
Esperanza de una variable aleatoria discreta . . . . . . . 130
4.1.10 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 4.1.11 Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
4.1.12 Varianza de una variable aleatoria discreta . . . . . . . 131 4.1.13 Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 4.1.14 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 4.1.15 Momentos ordinarios y momentos centrales . . . . . . . 132 4.2
Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . 133 4.2.1
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
4.2.2
Esperanza y varianza de una variable aleatoria continua 135
4.2.3
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.2.4
Algunas propiedades . . . . . . . . . . . . . . . . . . . . 136
4.2.5
Distribuci´ o n de una variable . . . . . . . . . . . . . . . . 137
4.3
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 138
4.4
Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . 153
4.5 Proyecto: Distribuciones multivariantes . . . . . . . . . . . . . 158 4.6 Proyecto: Procesos estoc´ asticos . . . . . . . . . . . . . . . . . . 162 4.6.1 5
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
Distribuciones discretas
5.1
165
La distribuci´ on binomial . . . . . . . . . . . . . . . . . . . . . . 165
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
7
Sumario
5.2
5.1.1
Distribuci´ on binomial . . . . . . . . . . . . . . . . . . . 165
5.1.2
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
5.1.3
Gr´ afica de una distribuci´o n binomial . . . . . . . . . . . 167
5.1.4
Par´ ametros fundamentales de la distribuci´on binomial . 167
5.1.5
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
5.1.6
Ajuste de una distribuci´ on binomial a una distribuci´on de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 168
5.1.7
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
La distribuci´ o n de Poisson . . . . . . . . . . . . . . . . . . . . . 169 5.2.1
Preliminares . . . . . . . . . . . . . . . . . . . . . . . . 169
5.2.2
La distribuci´ o n de Poisson . . . . . . . . . . . . . . . . . 170
5.2.3
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
5.2.4
Ajuste de una distribuci´ on de Poisson a una binomial . 171
5.3
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 173
5.4
Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . 183
5.5 Proyecto: La distribuci´ on Binomial Negativa y la Geom´etrica . 186 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
6
Distribuciones continuas
6.1
La distribuci´ on uniforme . . . . . . . . . . . . . . . . . . . . . . 187 6.1.1
6.2
6.3
Distribuci´ on uniforme . . . . . . . . . . . . . . . . . . . 187
La distribuci´ on normal . . . . . . . . . . . . . . . . . . . . . . . 189 6.2.1
Distribuci´ on normal . . . . . . . . . . . . . . . . . . . . 189
6.2.2
La distribuci´ on normal est´andar . . . . . . . . . . . . . 190
6.2.3
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
6.2.4
Ajuste de una distribuci´ on normal a una distribuci´on de frecuencias . . . . . . . . . . . . . . . . . . . . . . . . 194
6.2.5
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
6.2.6
Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
6.2.7
Ajuste de una distribuci´ on normal a una distribuci´on binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.2.8
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
6.2.9
Ajuste de una distribuci´ on normal a una de Poisson . . 199
La distribuci´ o n Exponencial . . . . . . . . . . . . . . . . . . . . 199 6.3.1
6.4
187
Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 200
Ejercicios resueltos . . . . . . . . . . . . . . . . . . . . . . . . . 202
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
8
Sumario
6.5 Ejercicios propuestos . . . . . . . . . . . . . . . . . . . . . . . . 220 6.6 Proyecto: La distribuci´ on Gamma . . . . . . . . . . . . . . . . 224 7
Distribuciones muestrales
7.1
Introducci´ on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
7.2
Error muestral . . . . . . . . . . . . . . . . . . 7.2.1 Precisi´ on y fiabilidad de un estad´ıstico . 7.2.2 Ejemplo . . . . . . . . . . . . . . . . . . 7.2.3 Errores muestrales de sesgo y aleatorios Media y varianza de medias y sumas muestrales
7.3
7.4
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
227
7.5
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. 228 . 229 . 229 . 230 . 230
7.3.1 Poblaciones infinitas o muy grandes . . . . . . . . . . . 230 7.3.2 Poblaciones finitas . . . . . . . . . . . . . . . . . . . . . 231 Muestras de poblaciones normales . . . . . . . . . . . . . . . . 232 ¯ y de la suma S , 7.4.1 Distribuci´ on de la media muestral X con σ 2 conocida . . . . . . . . . . . . . . . . . . . . . . 232 7.4.2 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 ¯, con σ 2 desconocida..232 7.4.3 Distribuci´ on de la media muestral X
7.6
Teorema central del l´ımite y consecuencias 7.5.1 Consecuencias . . . . . . . . . . . 7.5.2 Ejemplo . . . . . . . . . . . . . . . 7.5.3 Diferencia entre medias muestrales Inferencia Estad´ıstica . . . . . . . . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
233 233 234 234 234
7.7 7.8
7.6.1 Estimaci´ on de par´a m e t r o s . . . . . . . . . 7.6.2 Estimaci´ on puntual . . . . . . . . . . . . . 7.6.3 Estimaci´ on por intervalos . . . . . . . . . 7.6.4 Ejemplo . . . . . . . . . . . . . . . . . . . 7.6.5 Ejemplo . . . . . . . . . . . . . . . . . . . Ejercicios resueltos . . . . . . . . . . . . . . . . . Ejercicios propuestos . . . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . 235 . . . . 235 . . . . 236 . . . . 238 . . . . 239 . . . . 241 . . . . 246
7.9 Proyecto: Estimaci´ on de una proporci´on . . . . . . . . . . . . . 248 Bibliograf´ıa
251
´ Indice de materias
253
Tablas estad´ ısticas
257
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
´ Indice de notaciones
B(n, p) E (X )
∅
N
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
N (µ, σ) µ Ω P λ (k) σxy σ σ2 var(X ) x
∈ ⊂ ∩ ∪
−
A B A p˙ i.e. V mn RV mn n C m m n n!
d
X = D d
≈
distribuci´ on binomial esperanza de una variable aleatoria X suceso imposible (conjunto vac´ıo) conjunto de los n´ umeros naturales distribuci´ on normal esperanza de una variable aleatoria suceso seguro (conjunto referencial), espacio muestral probabilidad de Poisson covarianza desviaci´on t´ıpica varianza varianza de la variable aleatoria X media de xi s´ımbolo de pertenencia s´ımbolo de inclusi´on s´ımbolo de intersecci´on s´ımbolo de uni´on diferencia de conjuntos suceso contrario (conjunto complementario) m´ ultiplo de p id est (expresi´ on latina y se lee “es decir”) Variaciones de m elementos de orden n Variaciones con repetici´on de m elementos de orden n Combinaciones de m elementos de orden n n n´umero combinatorio equivalente a C m
factorial de n La variable aleatoria X sigue una distribuci´on D
X D
La variable aleatoria X sigue aproximadamente una distribuci´ on D
Ri.j
Ejercicio Resuelto j del Cap´ıtulo i
Pi.j
Ejercicio Propuesto j del Cap´ıtulo i
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Pr´ ologo
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
La Universidad Espa˜ nola emprende una etapa in´edita con el denominado Plan Bolonia. En el nuevo plan el tiempo del que dispone el profesorado para la impartici´ on de la docencia matem´ atica se ha reducido dr´ asticamente. De esta manera la cl´asica clase magistral del siglo anterior se vuelve, en ocasiones, menos expositiva y m´as orientadora hacia la b´usqueda de conocimientos en los que el universitario deber´a involucrarse de una manera m´as activa. El presente libro es un texto elemental sobre Estad´ıstica concebido para los alumnos de Ingenier´ıa que se graduar´ an en estos nuevos planes aunque b´asicamente el contenido corresponde al curso que los autores han impartido en la Escuela Polit´ ecnica Superior de Gandia (EPSG) en anteriores cursos acad´ emicos. El poco tiempo de que se dispone para su impartici´ on queda patente, en cierta manera, en la ausencia de demostraciones, en su sentido m´ as estricto (el cap´ıtulo tres podr´ıa considerarse una excepci´on), pues ´estas s´olo aparecen como tales en la resoluci´on de algunos ejercicios de car´acter te´orico, que se encuentran al final de cada cap´ıtulo. Ello permite una lectura fluida del texto. No obstante lo dicho en el p´arrafo anterior, y aun usando terminolog´ıa sencilla, la redacci´on matem´atica del texto es rigurosa en su exposici´on. Si en alg´ un momento, por motivos que entendemos pedag´ogicos, hemos relajado el rigor, ´este habitualmente se ve compensado con la aparici´on de un ep´ıgrafe en letra peque˜ na (cuya lectura puede omitirse sin perjuicio de comprender el resto del texto), que pone ´enfasis en el aspecto matem´ atico cuyo rigor hab´ıa sido diluido, a conciencia. Perm´ıtasenos afirmar que, modestamente, es en la exposici´on did´actica en donde los autores se han esmerado, y esperamos haberlo conseguido. En efecto, adem´as de las detalladas argumentaciones del contenido a lo largo del texto, ´estas van acompa˜ nadas de un buen n´umero de ejemplos y tablas dise˜ nadas para c´alculos y gr´aficos. Al final de cada cap´ıtulo se ofrece una lista de ejercicios con una resoluci´on detallada de cada uno y despu´es se proponen otros que motiven al estudioso. Cada cap´ıtulo acaba con la descripci´ on de
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
12
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Pr´ ologo
alg´ un “Proyecto” que es una extensi´on o aplicaci´on de la teor´ıa del texto. Concretando el programa desarrollado, los 7 cap´ıtulos seleccionados, por este orden, han sido: Estad´ıstica descriptiva, distribuciones bidimensionales, probabilidad, variables aleatorias, distribuciones discretas, distribuciones continuas y distribuciones muestrales. Para la comprensi´ on del texto, adem´ as de un conocimiento elemen´ tal del c´alculo, y de conceptos matem´aticos b´asicos, se requieren del Algebra conocimientos de combinatoria elemental que se usan en el c´alculo de probabilidades y en el estudio de la distribuci´on binomial. Del An´alisis Matem´ atico se necesita un conocimiento b´asico de la integral definida de Riemann, y tambi´en de la derivada, para el tratamiento de las variables aleatorias continuas. Para variables aleatorias discretas se han demostrado algunos resultados que han sido extendidos, de manera natural, para variables aleatorias continuas aunque, como se pone de manifiesto en su momento, las pruebas en este u ´ ltimo caso requieren de conocimientos m´as profundos sobre la integral de Riemann. Otros aspectos interesantes, como el c´alculo del ´area que encierra la campana de Gauss, o la obtenci´on del sistema normal de ecuaciones de las rectas de regresi´on, se sugiere desde estas l´ıneas que deben ser considerados como ejercicios en alg´ un curso de An´alisis Matem´ atico. Los autores agradecer´an cualquier sugerencia tendente a mejorar el presente texto en ediciones sucesivas. Deseamos mostrar nuestro agradecimiento a los restantes profesores (M. Alamar, F. J. Boigues, J. Pastor, B. Roig y A. Vidal) de la Unidad Docente en la EPSG del Departamento de Matem´atica Aplicada de la Universidad Polit´ecnica de Valencia, por sus indicaciones en la preparaci´ on del texto. Los autores
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Cap´ıtulo 1
Estad´ıstica Descriptiva
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Se podr´ıa entender la Estad´ıstica como la ciencia que tiene por objeto etodos estad´ısticos se aplican a datos generalmente el estudio de datos. Los m´ num´ ericos que proceden de observaciones efectuadas sobre alguna caracter´ıstica de un colectivo o sobre resultados de una experimentaci´on. La Estad´ıstica Descriptiva, de la que nos ocuparemos en el texto b´asicamente, es el primer paso del estudio del conjunto de datos y se limita a la obtenci´o n de gr´aficos y par´ametros representativos de la serie de datos. La extrapolaci´ on de conclusiones de los datos obtenidos de una parte de un colectivo a todo el colectivo constituye la t´ecnica de la Inferencia Estad´ıstica que se ver´a someramente en el ´ultimo cap´ıtulo.
1.1 1.1.1
Representaci´ on de variables estad´ısticas Poblaci´ on y variable estad´ıstica
acPoblaci´ on es un conjunto de elementos (individuos ) con alg´ un car´ ter com´ un. Muestra es un subconjunto representativo de dicha poblaci´on.
Nosotros, salvo alg´ un caso aislado, siempre consideraremos poblaciones finitas. En Estad´ıstica se consideran dos tipos de caracteres (que se explican por su denominaci´on): cualitativos y cuantitativos . Al car´ acter objeto de estudio se le denomina variable estad´ıstica (cualitativa o cuantitativa), y ´esta divide la poblaci´ on, de manera natural, en clases (subconjuntos disjuntos) al considerar los diversos atributos de la variable, que a su vez pueden dar lugar a subclases.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
14 1.1.2
Estad´ ıstica Descriptiva
Ejemplo
En un aula determinada, los alumnos constituyen la poblaci´on, el sexo y el lugar de nacimiento son variables cualitativas, mientras que el peso y la talla de cada alumno son cuantitativas. Si escogemos al azar dos filas de alumnos, ´estos constituyen una muestra. La poblaci´on puede quedar dividida en dos clases: la de los chicos y la de las chicas. A su vez, cada clase puede dar lugar a subclases atendiendo a los diversos pesos, por ejemplo. 1.1.3
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Tablas de frecuencias
Frecuencia (absoluta) de una clase es el n´umero de elementos de la clase. Frecuencia relativa de una clase es el cociente entre la frecuencia absoluta y el n´ umero de elementos de la poblaci´on (supuesto ´este finito). La recopilaci´ on de los datos de una variable se efectua disponi´endolos en “tablas de frecuencias”, que se denominan distribuciones unidimensionales o bidimensionales seg´ un que intervenga una o dos variables. Por brevedad, denominamos tabla a una tabla de frecuencias en donde al menos aparecen x i y las frecuencias absolutas f i correspondientes. Los N valores num´ericos xi que puede tomar una variable se denominan serie estad´ıstica , serie de datos (o de n´ umeros) o con otras expresiones alusivas similares seg´un los autores. En el caso de una variable cuantitativa, que haya sido ordenada, se denomina frecuencia absoluta acumulada a la suma de las frecuencias absolutas de un determinado valor de la variable y de todos los anteriores. De manera similar se define el concepto de frecuencia relativa acumulada . El lector reconocer´ a algunas propiedades sencillas de estos conceptos observando el siguiente ejemplo. 1.1.4
Ejemplo
Las calificaciones en la asignatura de F´ısica obtenidas por 20 alumnos de una determinada clase, siguiendo el listado, son las siguientes: 6, 4, 5, 8, 7, 3, 4, 5, 5, 10, 9, 7, 8, 2, 9, 3, 10, 4, 7, 4. Aqu´ı la poblaci´ on es la clase de 20 alumnos, la variable estad´ıstica, “calificaci´on en F´ısica”, es cuantitativa, y sus valores num´ericos xi son los n´ umeros del 2 al 10. A partir de ahora cuando recurramos al signo de sumatorio omitiremos el recorrido de los sub´ındices de ´este si no hay posibilidad de confusi´ on. La recopilaci´ on de los datos de este ejemplo da lugar a la siguiente tabla de frecuencias, de interpretaci´on obvia, y en donde dejamos constancia de la notaci´on que se emplear´a en este cap´ıtulo, al referirnos a las diversas frecuencias.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
15
Representacio ´n de variables estad´ ısticas
N´ umero de puntos xi 2 3 4 5 6 7 8 9 10
Frecuencia absoluta f i 1 2 4 3 1 3 2 2 2 f i = 20
Frecuencia relativa hi 0.05 0.10 0.20 0.15 0.05 0.15 0.10 0.10 0.10 hi = 1
Frecuencia absoluta acumulada F i 1 3 7 10 11 14 16 18 20
Frecuencia relativa acumulada H i 0.05 0.15 0.35 0.50 0.55 0.70 0.80 0.90 1.00
En ocasiones, cuando la variable estad´ıstica puede tomar cualquier valor real de un intervalo, interesa agrupar los valores que toma dicha variable cuantitativa en intervalos, por lo general de igual amplitud, que suelen denominarse clases , y a los puntos medios de los intervalos se les denomina marcas de clase . 1.1.5 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Ejemplo
La siguiente tabla muestra las tallas agrupadas de 200 j´ovenes. Intervalo [1.50, 1.70[ [1.70, 1.80[ [1.80, 1.90[ [1.90, 2.00[
Marcas de clase 1.60 1.75 1.85 1.95
f i 70 60 50 20 f i = 200
hi 0.35 0.30 0.25 0.10 hi = 1
F i 70 130 180 200
H i 0.35 0.65 0.90 1.00
Obs´ervese que, en este caso, no todos los intervalos tienen la misma amplitud, pero s´ı son de la misma forma (cerrados por la izquierda y abiertos por la derecha), a efectos de uniformizar criterios. 1.1.6
Representaciones gr´ aficas
Las conclusiones a las que se puede llegar del estudio de una variable pueden ser m´as f´aciles, en ocasiones, a trav´es de representaciones gr´ aficas de los datos que se poseen sobre la variable estad´ıstica. Las m´as utilizadas son: (1) Diagrama de barras: Son rect´angulos de igual base, generalmente dispuestos en posici´on vertical, en donde la altura de cada uno es proporcional a la frecuencia de la clase que representa.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
16
Estad´ıstica Descriptiva
Los dos siguientes diagramas de barras son los que corresponden a las frecuencias absolutas y absolutas acumuladas, respectivamente, del Ejemplo 1.1.4
Diagrama de barras de frecuencias absolutas
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Diagrama de barras de frecuencias absolutas acumuladas
El pictograma es una variante del diagrama de barras donde se sustituye el rect´ angulo por un dibujo alusorio a la variable estad´ıstica, objeto de estudio. El siguiente pictograma representea la distribuci´on, por sexos, de los que accedieron a portales de internet de informaci´on general en los a˜ nos 2008 y 2009, en un cierto pa´ıs miembro del G20.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Representacio ´n de variables estad´ ısticas
17
(2) Gr´ afico de sectores: Son representaciones en sectores que dividen, generalmente, a un c´ırculo de manera que el a´rea (o a´ngulo) de cada sector es proporcional a la frecuencia (absoluta o relativa) de la clase que representa.
Imaginemos que en una reuni´on de 720 personas se observa que 360 tienen el pelo negro, 180 de color rubio, 60 de color blanco, y 120 sin determinar (otros). El correspondiente diagrama por sectores ser´ıa el adjunto.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
En el caso de variables cuantitativas se pueden, adem´as de los anteriores gr´ aficos, considerar los siguientes: (3) Pol´ıgono de frecuencias : En ´estos las ordenadas de las frecuencias absolutas se unen mediante una l´ınea poligonal. De manera an´aloga se dibujan los pol´ıgonos de frecuencias absolutas (o relativas) acumuladas. El siguiente pol´ıgono de frecuencias absolutas es el que corresponde al Ejemplo 1.1.4
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
18
Estad´ıstica Descriptiva
Para el caso de valores agrupados se puede utilizar el histograma. (4) Histograma: Representaci´on gr´afica formada por rect´ angulos cuyas ´areas son proporcionales a las respectivas frecuencias de los intervalos considerados. En el caso de que la amplitud de los intervalos sea constante este diagrama se convierte, como es f´acil de verificar, en un diagrama de barras.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
El histograma adjunto corresponde al Ejemplo 1.1.5. Obs´ ervese que el ´area que corresponde a las 70 tallas del intervalo [1.50, 1.70[ coincide con la suma de las ´areas que corresponden a 50 y 20 tallas de los intervalos [1.80, 1.90[ y [1.90, 2.00[, respectivamente. Tambi´en el ´area que corresponde a las 60 tallas del intervalo [1.70, 1.80[ es el triple del ´area que corresponde a las 20 tallas del intervalo [1.90, 2.00[. Como caso especial tenemos el cartograma que hace uso de distintos sombreados sobre un mapa para distinguir las variables estad´ısticas. El siguiente cartograma representa la incidencia de muerte s´ubita tras un infarto agudo de miocardio (tasa anual por cada 100000 habitantes).
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Medidas de centralizaci´ on y de dispersi´ on de una variable estad´ıstica cuantitativa
1.2
19
Medidas de centralizacio ´n y de dispersio ´n de una variable estad´ıstica cuantitativa
En cuanto sigue de este cap´ıtulo supondremos que disponemos de una variable estad´ıstica cuantitativa X , en una poblaci´o n de N elementos, que toma los valores x1 , x2 , . . . , xN . Ahora bien, es bastante usual que alguno de los valores que toma X est´e repetido, de manera que s´ olo haya r distintos, y que para simplificar la notaci´ on supondremos que, ordenados de menor a mayor, son x1 , x2 , . . . , xr . Por otra parte cuando N es grande es casi imprescindible que se den las frecuencias absolutas f i correspondientes r
a xi (i = 1, 2, . . . , r), de manera que
f i = N . A continuaci´ on, y por cri-
i=1
terios de sencillez, para referirnos a los valores que toma X , usaremos unas veces la notaci´on exhaustiva x1 , x2 , , xN , y en otras haremos menci´on a la frecuencia f i de cada xi sin explicitar el recorrido del sub´ındice.
···
1.2.1
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Medidas de posici´ on central
Se denominan valores centrales de la variable X a ciertos valores, de c´alculo sencillo, que representan, de alguna forma, a todos los x i . Veamos los m´ as representativos. Se denomina moda (y se denota M o ) de un conjunto de valores de una variable estad´ıstica X a aquel valor o car´acter que posee mayor frecuencia absoluta. Puede existir, obviamente, m´as de una moda. Como valor central es, en ocasiones, muy poco representativo, aunque de c´alculo muy sencillo. En el caso de valores agrupados se puede hablar de intervalo modal, o bien, elegir el representante de clase del intervalo modal. (Obs´ ervese que hablar de la moda tiene tambi´en sentido cuando X es una variable cualitativa). Supongamos ahora que hemos ordenado todos los N valores que ha tomado la variable X de manera creciente. Si N es impar se denomina mediana (y se denota M e ) al valor que ocupa la posici´on central, y si N es par se toma como mediana la semisuma de los dos valores centrales. En el caso de que la variable X tomara valores agrupados el c´alculo de la mediana se obtiene mediante una simple interpolaci´on lineal. La ventaja de utilizar la mediana como valor central estriba en que no se deja influenciar por valores extremos, pero tiene el inconveniente de que no tiene en cuenta los valores de la variable. Cuando N es grande, si est´an dispuestos los valores de X como hemos indicado en el c´alculo de la mediana, y sin entrar en detalles, supongamos que podemos dividir ´estos en cuatro partes iguales. Entonces se pueden considerar
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
20
Estad´ ıstica Descriptiva
los denominados cuartiles Q1 , Q2 , y Q3 de manera que la primera cuarta a comprendida entre parte de los valores es inferiror a Q1 , otra cuarta parte est´ Q1 y el segundo cuartil Q2 , que como es evidente no es sino la mediana, otra cuarta parte entre la mediana y Q3 , y la u ´ ltima cuarta parte es superior a Q3 . De manera m´ as precisa, si N es par, entonces Q1 es la mediana de los N primeros 2 valores y Q3 es la mediana de los N valores superiores. Si N es 2 impar prescindiremos del valor central y entonces calcularemos Q1 y Q 3 como en el caso anterior. De modo id´entico se definen los deciles o percentiles si el conjunto ordenado de los valores que toma X se divide en 10 ´o 100 partes, respectivamente. La media aritm´ etica (que denotaremos x) de un conjunto de valores de una variable estad´ıstica cuantitativa X es la suma de los N valores que toma la variable dividido por N . Si se conocen las frecuencias f i de los valores xi , se puede simplificar el c´alculo anterior y obtener la media aritm´ etica mediante la expresi´on x = . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
f i xi N
(1.1)
Obs´ervese que el peso de cada xi para el c´alculo de x es su frecuencia absoluta. En el caso de valores agrupados para el c´alculo de la media se utilizan las marcas de clase. 1.2.2
Ejemplo
En la tabla de frecuencias correspondiente al Ejemplo 1.1.4 de las notas de F´ısica, la moda es el 4, pues se repite 4 veces, la mediana es el 5.5, pues las posiciones 10 y 11, cuando se ordenan las notas de manera creciente (v´ease la tabla de frecuencias absolutas acumuladas), las ocupan las calificaciones 5 y 6, respectivamente, y la media aritm´etica es:
x =
1.2.3
·
·
·
·
·
·
·
·
·
1 2 + 2 3 + 4 4 + 3 5 + 1 6 + 3 7 + 2 8 + 2 9 + 2 10 =6 20 Ejemplo
Veamos la moda , mediana y media de la siguiente tabla de frecuencias correspondiente a la talla (en metros) de 99 alumnos. Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
edidas de centralizaci´ on y de dispersi´ on de una variable estad´ ıstica cuantitativa
Intervalo [1.55, 1.65[ [1.65, 1.75[ [1.75, 1.85[ [1.85, 1.95[
Marcas de clase 1.60 1.70 1.80 1.90
f i 15 55 25 4 f i = 99
21
F i 15 70 95 99
En la columna de las frecuencias absolutas f i se observa que el intervalo modal es el [1.65, 1.75[. La media aritm´etica la calcularemos a trav´es de las correspondientes marcas de clase: x =
·
·
·
·
15 1.60 + 55 1.70 + 25 1.80 + 4 1.90 99
≈ 1.72
La mediana es el elemento que, tras ordenarse las tallas de manera creciente, ocupa la posici´o n 50, y que, como se observa en la columna de frecuencias acumuladas F i , se encuentra en el intervalo mediano [1.65, 1.75[ ocupando la posici´on 35 dentro de ´este. Entonces podemos establecer la proporci´on de que si a los 55 alumnos de este intervalo les corresponde una amplitud de 0.10 (al distribuirse de menor a mayor), al alumno que est´a en la posici´on 35 le corresponde 0.10 35 0.06 55 As´ı pues (ver gr´ afico inferior) la mediana es 1.65 + 0.06 = 1.71
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
· ≈
1.2.4
Propiedades de la media aritm´ etica
Sea xi una serie de n´ umeros. Se denomina desviaci´ on de un valor xi respecto de la media aritm´etica, a la diferencia di = x i x. Se tienen entonces
−
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
22
Estad´ ıstica Descriptiva
las siguientes propiedades: 1. La suma de los productos de las desviaciones de los valores xi por sus frecuencias f i es cero, i.e. f i di = 0. (Ver ejercicio R1.1)
2. Sea P un n´ umero real cualquiera. Denominemos Di a la desviaci´on de xi respecto a P , i.e. Di = x i P . Se tiene entonces (ver ejercicio R1.2) que la diferencia entre la media aritm´etica y P es la media aritm´etica de las desviaciones de los valores de la variable respecto a P , es decir:
−
x
− P =
f i Di N
(1.2)
Como consecuencia de ello se obtiene un nuevo m´ etodo para obtener de manera sencilla, en algunos casos, la media x (ver Ejercicio R1.9), pues se tiene f i Di x = P + = P + D (1.3) N
donde D denota la media de la serie de n´umeros Di .
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
3. La suma de los productos de los cuadrados de las desviaciones por las frecuencias respectivas es m´ınima cuando P es x, i.e.,
2
f i Di
≥
f i d2i
Las ventajas del uso de la media aritm´etica radican en su sencillo c´ alculo y que depende de todos los valores. Como inconveniente est´a el hecho que de su conocimiento no se desprenda si los valores xi est´an lejos o cerca de ella. 1.2.5
Nota
La propiedad 2 de la secci´on anterior admite la siguiente generalizaci´on: Si zi es una serie de n´umeros obtenida de otra serie xi de manera que zi = ax i + b, donde a, b R entonces
∈
z = ax + b 1.2.6
(1.4)
Ejemplo
Consideremos la serie de n´ umeros siguiente: 3,5,7. Sea ahora la serie zi = 2xi + 1, es decir zi est´a formada por 7, 11, 15. Se tiene que: Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Medidas de centralizaci´ on y de dispersi´ on de una variable estad´ıstica cuantitativa
3+5+7 =5 3 Obs´ervese que se satisface (1.4). x =
1.2.7
y
z=
23
7 + 11 + 15 = 11 3
La media ponderada
Imaginemos un accionista que adquiere acciones de una empresa en tres momentos como se indica a continuaci´on. 200 acciones a 25 euros, 300 a 24 euros y 500 a 20 euros. La intenci´on del accionista es vender conjuntamente las acciones sin perder dinero. La media de los tres precios de las acciones es (25+24+20)/3 = 23, pero obviamente esto es irrelevante pues lo que interesa conocer es el precio medio de la acci´on que seg´ un (1.1) vale x =
·
·
·
200 25 + 300 24 + 500 20 = 22.20 euros 1000
Por lo tanto el accionista deber´a vender las acciones al menos a 22.20 euros.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Obs´ervese que para el c´alculo de x se ha tenido en cuenta las cantidades de acciones obtenidas para cada precio, o sea, se han ponderado los precios a trav´es de sus frecuencias absolutas. As´ı, las acciones de 20 euros han tenido un mayor peso en el c´alculo de x pues su coeficiente, 500, es mayor que el de las otras dos acciones. Este ejemplo admite la siguiente generalizaci´on. Se denomina media ponderada de los valores num´ ericos x1 , . . . , xr con pesos w1 , . . . , wr , respectivamente, (con wi 0) a
≥
x =
w1 x1 +
··· + w x
r r
W
(1.5)
r
siendo W =
wi > 0.
i=1
Obs´ervese que tambi´en se puede escribir x = y que si llamamos pi =
wi x1 + W
·
··· + wW · x r
r
wi se verifica W
pi =
wi 1 = W W
wi =
W =1 W
Si reescribimos entonces el c´alculo anterior de x en la forma: Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
24
Estad´ ıstica Descriptiva
200 300 500 25 + 24 + 20 1000 1000 1000 esto nos sugiere otra manera de definir la media ponderada como sigue. Se denomina media ponderada de los valores num´ericos x1 , . . . , xr con pesos p1 , . . . , pr , respectivamente, donde 0 p i < 1 y p1 + + pr = 1, a
·
x =
·
·
≤
···
r
x =
pi xi
(1.6)
i=1
Ambas expresiones (1.5) y (1.6) son equivalentes. El enunciado de un problema debe sugerir cu´al resulta m´ as c´omoda de utilizar. Puede darse el caso de que alg´un valor de xi se repita con pesos distintos. En tal caso una tabla de frecuencias con sus respectivos pesos facilita los c´alculos para la obtenci´on de x (v´ease Ejercicio R1.15). 1.2.8
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Ejemplo
El profesor, a comienzos del curso, advierte a sus alumnos que realizar´an 4 ejercicios de la asignatura de manera que cada ejercicio punt´ua (pondera) doble que el anterior. Las calificaciones obtenidas por un alumno, en este orden, son 2, 4, 5 y 6. Veamos la calificaci´ on final del alumno con dos razonamientos distintos: (a) Decir que la calificaci´ on b de un ejercicio punt´ u a el doble que la calificaci´ on a de otro ejercicio debe de interpretarse como si hubiera 3 calificaciones: a,b,b. Entonces, seg´ un el enunciado podemos considerar que nuestro alumno ha obtenido un dos, dos cuatros, cuatro cincos y ocho seises, por lo que su calilficaci´on media final resulta x =
·
·
·
·
1 2+2 4+4 5+8 6 78 = = 5.2 15 15
Obs´ervese que para el c´alculo de x se ha utilizado la expresi´on (1.5). En efecto, el profesor en realidad hab´ıa decidido que los pesos wi de las calificaciones x1 , x2 , x3 y x4 de cada alumno fueran 1,2,4 y 8, respectivamente. (b) Por el enunciado, si p1 es el peso de 2 entonces los pesos pi de 4, 5 y 6 son, respectivamente, p 2 = 2 p1 , p3 = 2 p2 = 4 p1 , p4 = 2 p3 = 8 p1 . Como se ha de verificar que p1 + p2 + p3 + p4 = 1, entonces p1 + 2 p1 + 4 p1 + 8 p1 = 15 p1 = 1
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
25
Medidas de centralizaci´ on y de dispersi´ on de una variable estad´ıstica cuantitativa
1 2 4 8 , p2 = , p3 = , p4 = . 15 15 15 15 As´ı, la calificaci´on final seg´ un (1.6) es y por tanto p1 =
x = 1.2.9
1 2 4 8 78 2+ 4+ 5+ 6= = 5.2 15 15 15 15 15
·
·
·
·
Otras medias
Cuando todos los valores de xi son positivos se pueden definir otras medias como las siguientes: (1) La media geom´ etrica:
G =
√ x ··· x
N
1
N
=
N
1 xf 1
f r r
··· x
Para entender el significado de esta media consideraremos el siguiente ejemplo: Supongamos que se desea calcular el peso p de un objeto mediante una balanza desequilibrada (obs´ervese la figura).
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Podemos proceder de la siguiente manera: En primer lugar disponemos el objeto en una parte de la balanza y obtenemos su peso p1 . A continuaci´on disponemos el objeto en la otra parte de la balanza y obtenemos el peso p2 .
·
·
·
·
Seg´ un la ley de la palanca, se tiene l1 p = l 2 p2 y l1 p1 = l 2 p. p p2 Por tanto, = , de donde se obtiene p2 = p 1 p2 y, en consecuencia, p1 p p = p1 p2 .
√ ·
·
Es decir, el peso del objeto resulta la media geom´etrica de las dos pesadas. Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
26
Estad´ ıstica Descriptiva
(2) La media arm´ onica:
(3) La media cuadr´ atica:
H =
N 1 + x1
M =
···
1 + xN
=
N f i xi
f i x2i N
Las cuatro medias quedan ordenadas con arreglo a su magnitud, del siguente modo: H G x M (1.7)
≤ ≤ ≤
Al objeto de entender el significado de la media arm´onica consideraremos el siguiente ejemplo. 1.2.10
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Ejemplo
Supongamos que hemos recorrido el trayecto Alicante-Valencia a raz´on de 90 Km/h y el regreso Valencia-Alicante a 110 Km/h. Vamos a calcular la velocidad media en el trayecto de ida y vuelta. La media aritm´etica para x1 = 90 y x2 = 100 dar´ıa como respuesta 90 + 110 = 100 Km/h, que ser´ıa un resultado err´ oneo. 2 En efecto, el tiempo invertido en recorrer la distancia D entre ambas D D ciudades ser´ıa a la ida y a la vuelta. La velocidad media en la ida y 90 110 vuelta ser´a pues: velocidad =
espacio 2D 2 = = = 99 Km/h 1 1 D D tiempo + + 90 110 90 110
que es precisamente la media arm´onica de las dos velocidades. Otra aplicaci´ on puede verse en el ejercicio P1.11. A partir de ahora por media entenderemos la media aritm´etica. 1.2.11
Medidas de dispersi´ on de una variable estad´ıstica cuantitativa
El conocimiento de cualquiera de los valores de centralizaci´on estudiados en el ep´ıgrafe anterior no es suficiente para saber si los valores xi , que toma una variable estad´ıstica cuantitativa X , est´an pr´oximos o alejados de ´estos. Para saber cu´an agrupados est´an los valores alrededor de un valor medio se definen las medidas de dispersi´ on. Las m´as importantes, que veremos a
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Medidas de centralizaci´ on y de dispersi´ on de una variable estad´ıstica cuantitativa
27
continuaci´on, son: el recorrido, la desviaci´on media, la varianza y la desviaci´on t´ıpica. Cuanto mayores sean estas medidas de dispersi´on, tanto mayor es la dispersi´on de los valores respecto de la media y, en consecuencia, menor la representatividad de los valores centrales. Para un conjunto de valores xi de una variable estad´ıstica cuantitativa se denomina: (1) Recorrido a la diferencia entre el mayor y el menor de dichos valores. (2) Desviaci´ on media (que denotaremos d m ) a la media aritm´etica de los valores absolutos de las desviaciones respecto de la media, as´ı pues dm =
| − x|
f i xi N
(3) Varianza , que denotaremos σ 2 , a la media aritm´etica de los cuadrados de las desviaciones de esos valores respecto a la media, as´ı pues 2
σ = . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
f i (xi x)2 N
−
(1.8)
Se puede demostrar que σ 2 verifica la expresi´on (v´ease Ejercicio R1.3) 2
σ =
f i x2i N
2
−x
(1.9)
Si designamos por P un n´ umero real cualquiera y D i = x i se puede demostrar que (v´ease Ejercicio R1.4) σ2 =
f i Di2 N
− f i Di N
− P entonces
2
(1.10)
f i Di no es m´ as que la media aritm´etica de las desviaN ciones Di , entonces teniendo en cuenta (1.9) podemos concluir que (1.10) expresa el hecho de que: la varianza de los valores x1 , x2 , . . . , xN , coincide con la de las desviaciones D1 , D2 , . . . , DN . y puesto que
Obs´ervese que para el c´alculo de la varianza por este u ´ ltimo procedimiento no necesitamos conocer la media aritm´etica. (4) Desviaci´ on t´ıpica o est´ andar , que denotaremos σ, es la ra´ız cuadrada positiva de la varianza.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
28
Estad´ ıstica Descriptiva
La desviaci´on t´ıpica tiene en cuenta todos los valores que toma la variable estad´ıstica X y es de significado sencillo ya que es de igual naturaleza que los datos utilizados. En particular es interesante en las distribuciones normales, que veremos m´as adelante, en las que la curva representativa de las frecuencias tiene la forma de campana . As´ı se consideran valores pr´oximos a la media los del intervalo [x σ, x + σ], y medianamente pr´oximos los del intervalo [x 2σ, x + 2σ]. Los valores que quedan fuera de este ´ultimo intervalo se consideran extraordinarios.
−
−
Para el c´alculo de las medidas de dispersi´on en el caso de valores agrupados se utilizan las marcas de clase de cada intervalo.
1.2.12
Ejemplo
La distribuci´on en frecuencias de las tallas aproximadas (en metros) de 150 adolescentes son las siguientes: . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Talla
Frecuencia
1.60 1.62 1.64 1.66 1.68 1.70 1.72 1.74 1.76 1.78 1.80
1 3 7 20 30 34 26 16 9 2 2
Disp´ onganse los c´alculos y h´allese la media, la desviaci´ on media, la varianza y la desviaci´on t´ıpica de dicha distribuci´on, usando sus definiciones.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Medidas de centralizaci´ on y de dispersi´ on de una variable estad´ıstica cuantitativa
xi 1.60 1.62 1.64 1.66 1.68 1.70 1.72 1.74 1.76 1.78 1.80
P
=
f i
1 3 7 19 30 34 26 16 10 2 2 150
f i xi 1.60 4.86 11.48 31.54 50.40 57.80 44.72 27.84 17.60 3.56 3.60 255
xi − x −0.10 −0.08 −0.06 −0.04 −0.02 0.00 0.02 0.04 0.06 0.08 0.10
(xi − x)2 0.0100 0.0064 0.0036 0.0016 0.0004 0.0000 0.0004 0.0016 0.0036 0.0064 0.0100
|xi − x| 0.10 0.08 0.06 0.04 0.02 0.00 0.02 0.04 0.06 0.08 0.10
f i |(xi − x)| 0.10 0.24 0.42 0.76 0.60 0.00 0.52 0.64 0.60 0.16 0.20 4.24
29
f i (xi − x)2 0.0100 0.0192 0.0252 0.0304 0.0120 0.0000 0.0104 0.2560 0.0360 0.0128 0.0200 0.2016
El recorrido de la variable estad´ıstica es 1.80-1.60=0.20 La media es x =
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
f i xi 255 = = 1.70 f i 150
La desviaci´on media dm =
2
La varianza es σ =
| −
f i (xi x)2 0.2016 = f i 150
−
Finalmente, la desviaci´on t´ıpica es σ =
1.2.13
|
f i (xi x) 4.24 = f i 150
≈ 0.0283
≈ 0.0013
0.2016 150
≈ 0.0367
Nota
Tambi´ en se utilizan como medida de dispersi´on los llamados momentos centrales, que se definen como la media aritm´ etica de las potencias sucesivas de las desviaciones respecto de la media aritm´etica. As´ı se define momento de orden n (n ∈ N) como: P f i (xi − x)n µn = N
En particular, el momento µ1 de orden 1 es cero, como vimos anteriormente, y el de orden 2 es la varianza: P f i (xi − x)2 µ2 = = σ 2 N
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
30 1.2.14
Estad´ıstica Descriptiva
Estad´ısticos robustos
Cualquier funci´ on definida en una serie num´erica estad´ıstica se denomina estad´ıstico . La moda de una serie estad´ıstica es un indicador de posici´on central que puede denominarse robusto porque resulta poco influida por la existencia de algunos valores extremos, digamos anormales, y que en ocasiones provienen de errores en la medici´on o lectura. Su uso es recomendable cuando se trata de variaciones muy discontinuas en una serie. La media puede no resultar un indicador adecuado de medida central en aquellas series asim´etricas o con valores extremos. Como consecuencia en dichas series tampoco la desviaci´on t´ıpica ser´ a un par´ametro adecuado de dispersi´on, pues su c´alculo se basa en desviaciones respecto a la media. En estos casos se utiliza el intervalo intercuart´ılico Q3 Q1 .
−
1.2.15
Ejemplo
Se considera la serie estad´ıstica xi , ordenada de manera creciente, siguiente 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8, 9, 12, 15, 20 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Al transcribir los datos se reemplaza por error 20 por 0 dando lugar a x una nueva serie yi . Vamos a calcular la media, x, la mediana, M e, cuartiles primero y tercero, Qx1 y Qx3 y desviaci´on t´ıpica, σx , de la serie xi , y sus hom´ ologos, con notaci´on adecuada, de la serie yi . Disponemos la tabla de frecuencias de la serie x i con las columnas adecuadas para utilizar la f´ormula (1.9) para el c´alculo de σx2 , y de esa manera es innecesario realizar la tabla de la serie yi , pues en la pr´actica s´olo hay que suprimir la fila que corresponde a xi = 20. xi 4 5 6 7 8 9 12 15 20
=
f i f i xi x2i 6 24 16 4 20 25 3 18 36 2 14 49 1 8 64 1 9 81 1 12 144 1 15 225 1 20 400 20
140
f i x2i 96 100 108 98 64 81 144 225 400 1316
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Medidas de centralizaci´ on y de dispersi´ on de una variable estad´ıstica cuantitativa
31
140 = 7. 20
Atendiendo a la tabla x =
5+6 x M e= = 5.5 pues 5 y 6 son los valores centrales de las serie 2 ordenada xi , que corresponden a las posiciones 10 y 11, respectivamente. El cuartil Q x1 es la mediana de los 10 primero datos de la serie x i , y por 4+4 tanto Qx1 = = 4. 2 An´ alogamente, Qx3 es la mediana de los 10 ´ultimos datos de la serie y 7+8 resulta Qx3 = = 7.5. As´ı, el intervalo intercuart´ılico para la serie xi es 2 3.5. f i xi 1316 Se tiene que σx2 = x2 = 72 = 16.8 y por tanto 20 N
−
σx =
−
√
16.8
≈ 4.1
En cuanto a la serie yi es evidente que y =
120 = 6. 20
Como la serie yi queda de la forma 0, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 8, 9, 12, 15 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
5+5 4+4 7+7 x ahora se tiene M e= = 5, Qy1 = = 4, Qy3 = = 7. As´ı, el 2 2 2 intervalo intercuart´ılico para la serie yi es 3. 916 Por otra parte σy2 = 62 = 9.8, y por tanto σy = 9.8 3.1. 20 Obs´ervese que y se ha desviado en una unidad respecto a x, mientras y que M e s´ olo se ha desviado media unidad. Por otra parte σy se ha desviado pr´ acticamente una unidad respecto a σx , y la diferencia Qy3 Qy1 = 3, s´olo se ha desviado media unidad de Qx3 Qx1 = 3.5. As´ı pues en nuestro caso la mediana y el intervalo intercuart´ılico de la serie xi se han comportado de manera m´as robusta frente a la media y x desviaci´ on t´ıpica, respectivamente, pues M e y Qx3 Qx1 se han visto menos y afectados que M e y Qy3 Qy1 , respectivamente, frente al error causado.
√ ≈
−
−
−
−
−
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
32
Estad´ ıstica Descriptiva
1.3
Ejercicios resueltos
R1.1 Demu´ estrese que la suma de los productos de las desviaciones de los valores xi de una variable X , respecto a la media x, por las frecuencias respectivas f i , es nula. Soluci´ on:
f i xi y denotemos di = x i x N f i di = f i (xi x) = f i xi
Sea x = Se tiene
−
−
−x
− xN = 0
f i = N x
R1.2 Sea P un n´ umero real cualquiera. Demu´estrese la expresi´ on (1.3), i.e. que la diferencia entre la media y P , es la media de las desviaciones Di = x i P , de los valores de la variable respecto a P .
−
Soluci´ on:
x
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
− P =
N
− 1 N
xi
i=1
1 P = N
N
xi
i=1
−
1 1 N P = N N
N
(xi
i=1
− P )
Si hacemos intervenir las frecuencias absolutas f i , la anterior expresi´on se escribe en la forma: f i Di x P = N
−
2
R1.3 Demostrar la expresi´on (1.9) σ = Soluci´ on: 2
σ = =
f i x2i N
−2 x
f i x2i N
f i (xi x)2 = N
−
2
−x
f i (x2i
f i xi f i + x2 = N N
2
− 2xx + x ) = i
N
f i x2i N
2
− 2x
2
+x =
f i x2i N
2
−x
R1.4 Con la terminolog´ıa del Ejercicio R1.2, demostrar la expresi´ on (1.10)
σ2 =
2
f i Di N
− f i Di N
2
Soluci´ on: 2
σ = =
f i (xi x)2 = N
f i (xi
−
2
− P )
f i [(xi
2
− P ) − (x − P )]
=
N
2
+ (x − P ) − 2(x − P )(x − P ) N
i
=
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
33
Ejercicios resueltos
=
f i Di2 N
+ (x
2
− P ) − 2(x − P )
−
f i (xi P ) N
Teniendo ahora en cuenta el Ejercicio R1.2, esta ´ultima expresi´on vale:
f i Di2 N
2
− (x − P )
=
f i Di2 N
2
− f i Di N
R1.5 Una antena ha registrado 15 se˜ nales que se han clasificado en 4 grupos: A,B,C y D. Los datos obtenidos son los siguientes: B D D
A B D
A D C
D A D
A D A
(a) Constr´ uyase la tabla de distribuci´on de frecuencias que corresponda. (b) ¿Cu´ al es la moda? Soluci´ on:
(a) La tabla de frecuencias resulta . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
=
xi f i hi A 5 13 2 B 2 15 1 C 1 15 7 D 7 15 15 1
(b) Puesto que el grupo D de se˜ nales es el de mayor frecuencia absoluta, se tiene que Mo = D. R1.6 La calificaci´ on final de una alumno en una asignatura ha sido 5. Para obtenerla se han tenido en cuenta las calificaciones de dos parciales, que han sido 3 y 4, que ponderan igual, y la calificaci´on de un ejercicio final que pondera el 60% de la calificaci´on final. ¿Cu´ al ha sido la calificaci´on del ejercicio final? Soluci´ on: El enunciado sugiere el uso de (1.6).
Si denominamos x al valor de la calificaci´on del ejercicio final, seg´ un la condici´ on el enunciado, la media ponderada satisface:
·
·
·
5 = p 1 3 + p2 4 + 0.6 x Como p1 + p2 + 0.6 = 1 y p1 = p2 entonces p1 = p2 = 0.2 y en consecuencia 5 = 0.2 3 + 0.2 4 + 0.6 x de lo que se deduce x = 6.
·
·
·
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
34
Estad´ ıstica Descriptiva
R1.7 Durante cuatro a˜ nos se ha adquirido un producto a distintos precios por unidad: el primer a˜ no a 10 euros, el segundo a˜no a 12 euros, el tercer a˜no a 14 euros y el cuarto a˜no a 15 euros. Calcular el coste medio de dicho producto durante los cuatro a˜ nos en los 2 supuestos siguientes: (a) Que el n´ umero de unidades adquiridas al a˜ no es constante. (b) Que la cantidad de dinero gastado al a˜ no es constante. Soluci´ on:
(a) Supongamos que se adquieren k unidades del producto en cada a˜ no. Entonces se tiene x =
10k + 12k + 14k + 15k = 12.75 euros 4k
(b) Supongamos que se han adquirido k1 , k2 , k3 y k4 unidades en el primer, segundo, tercer y cuarto a˜no, respectivamente. Entonces se tiene que 10k1 = 12k2 = 14k3 = 15k4 de donde se obtiene . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
k2 = k3 = k4 =
5k1 6 5k1 7 2k1 3
En consecuencia la media pedida resulta x =
=
=
10k1 + 12k2 + 14k3 + 15k4 = k1 + k2 + k3 + k4 5k1 5k1 2k1 10k1 + 12 + 14 + 15 6 7 3 = 5k1 5k1 2k1 k1 + + + 6 7 3 10k1 + 10k1 + 10k1 + 10k1 40 42 = 135k1 135 42
· ≈ 12.44 euros
Otra forma de resolver este apartado es la siguiente. Sea D el dinero gastado cada a˜ no. Entonces el n´ umero de unidades adquiriD D D D das en los a˜nos sucesivos es , , , . Por tanto el coste 10 12 14 15 medio es:
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
35
Ejercicios resueltos
H =
D 10
4D D D + 12 + 14 +
D 15
=
1 10
+
1 12
4 +
1 14
+
1 15
= 12.44
Obs´ervese que H es la media arm´onica de 10, 12, 14 y 15. R1.8 Real´ıcense los diagramas de barras (de frecuencias absolutas y acumuladas) para las marcas de clase del Ejemplo 1.1.5.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
R1.9 Disp´ onganse adecuadamente las columnas del Ejemplo 1.2.12 de las 150 tallas para obtener la media y la varianza a trav´ es de las desviaciones Di respecto a P=1.72.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
36
Estad´ıstica Descriptiva
Soluci´ on:
xi 1.60 1.62 1.64 1.66 1.68 1.70 1.72 1.74 1.76 1.78 1.80
f i
− − − − − −
1 3 7 19 30 34 26 16 10 2 2
=
−
Di = x i P 0.12 0.10 0.08 0.06 0.04 0.02 0.00 0.02 0.04 0.06 0.08
·
f i Di 0.12 0.30 0.56 1.14 1.20 0.68 0.00 0.32 0.40 0.12 0.16
− − − − − −
150
Di2 0.0144 0.0100 0.0064 0.0360 0.0016 0.0004 0.0000 0.0004 0.0016 0.0036 0.0064
f i Di2 0.0144 0.0300 0.0448 0.0684 0.0480 0.0136 0.0000 0.0064 0.0160 0.0072 0.0128
·
-3
0.2616
11
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
x = P +
i=1
11
i=1
σ2 =
·
f i Di = 1.72 +
N
− 11
f i Di2
·
N
·
f i Di
i=1
N
−3 = 1.72 − 0.02 = 1.70 150
2
0.2616 = 150
2
− − ≈ 3 150
0.0013
R1.10 H´allese la moda, media, desviaci´on media y desviaci´on t´ıpica de las tallas del Ejemplo 1.1.5 Soluci´ on:
Tomamos como valores xi de la variable, las marcas de clase. xi 1.60 1.75 1.85 1.95
P
=
f i
70 60 50 20 200
f i · xi 112.0 105.0 92.5 39.0 348.5
xi − x −0.1425 0.0075 0.1075 0.2075
(xi − x)2 0.0203 0.0001 0.0116 0.0431
f i (xi − x)2 1.4214 0.0034 0.5778 0.8611 2.8638
|xi − x| 0.1425 0.0075 0.1075 0.2075
f i |xi − x| 9.975 0.450 5.375 4.150 19.95
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
37
Ejercicios resueltos
M o = 1.6
· | − | · − ·
xi f i 348.5 = = 1.7425 N 200 xi x f i 19.95 = = 0.0998 N 200 (xi x)2 f i 2.86375 = = 0.0143 200 N
x
=
dm
=
σ2
=
σ
= 0.1197
R1.11 Consid´ erense de nuevo las tallas del Ejemplo 1.1.5. (a) Verif´ıquese que la suma de las desviaciones respecto a la media es 0. (b) H´ allese σ 2 a trav´es de la expresi´on (1.9). (c) H´ allese σ 2 a trav´es de (1.10) tomando P = 1.75. Soluci´ on:
Dispondremos sendas tablas adecuadas para los c´alculos a realizar. . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
xi 1.60 1.75 1.85 1.95
f i 70 60 50 20
−
−
−
200
=
−
xi x f i (xi x) 0.1425 9.975 0.0075 0.450 0.1075 5.375 0.2075 4.150 0
x2i 2.5600 3.0625 3.4225 3.8025
f i x2i 179.200 183.750 171.125 76.050 610.125
(a) Obs´ ervese que la cuarta columna suma 0. (b) Utilizamos ahora la expresi´ on (1.9) y el valor de x calculado en el ejercicio anterior se tiene: 610.125 f i x2i σ = x2 = 1.74252 = 0.0143 N 200 (c) La nueva tabla adecuada con las desviaciones es la que sigue 2
· −
−
−
xi Di = x i 1.75 1.60 0.15 1.75 0.00 1.85 0.10 1.95 0.20
−
=
·
f i Di 10.5 0.0 5.0 4.0
−
-1.5
Di2 0.0225 0.0000 0.0100 0.0400
f i Di2 1.5750 0.0000 0.5000 0.8000
·
2.8750
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
38
Estad´ıstica Descriptiva
Utilizando, finalmente, la expresi´on (1.10):
2
σ =
·
2
f i Di N
· − f i Di N
2
2.875 = 200
2
− − 1.5 200
= 0.0143
R1.12 Calc´ ulese la media y varianza de la siguiente serie estad´ıstica a trav´es de sus marcas de clase agrup´andolas primero en intervalos de amplitud igual a 5 y despu´ es en intervalos de amplitud 10. 49 48 43 42 49 41 42 43 43 44 44 51 53 54 51 59 58 57 56 54 51 54 53 64 62 64 63 62 61 62 68 68 67 66 69 Soluci´ on: En primer lugar dispondremos la tabla de frecuencias resul-
tante agrupando los valores en intervalos de amplitud 5.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Intervalo Marcas de clase (xi ) [40,45[ 42.5 [45,50[ 47.5 [50,55[ 52.5 [55,60[ 57.5 [60,65[ 62.5 [65,70[ 67.5
=
f i
xi f i
8 340 3 142.5 8 420 4 230 7 437.5 5 337.5 35 1907.5
x2i
x2i f i
1806.25 2256.25 2756.25 3306.25 3906.25 4556.25
14450 6768.75 22050 13225 27343.75 22781.25 106618.75
Atendiendo a los valores de la tabla se tiene 1907.5 = 54.5 35 106618.75 = 54.52 = 76 35
x = σ2
−
Dispondremos ahora la tabla de frecuencias resultante agrupando los valores en intervalos de amplitud 10.
=
Intervalo Marcas de f i xi f i x2i x2i f i clase (xi ) [40,50[ 45 11 495 2025 22275 [50,60[ 55 12 660 3025 36300 [60,70[ 65 12 780 4225 50700 35 1935 109275
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
39
Ejercicios resueltos
Atendiendo a los valores de la tabla se tiene 1935 55.28 35 109275 = 55.282 35
≈
x = σ2
−
≈ 65.63
R1.13 Dada la siguiente tabla de frecuencias, calc´ulense la media aritm´etica x, geom´etrica G, arm´ onica H y cuadr´atica M y compru´ebese que estos valores verifican el orden que se indica en (1.7). xi f i 2 2 4 4 8 2 Soluci´ on:
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Para el c´ alculo de x, G, H y M dispondremos los c´alculos en la siguiente tabla xi f i x2i f i xi f i x2i xf ii 2 2 4 4 8 1 4 4 16 16 64 1 8 2 64 16 128 14 8 36 200 94
Se tiene entonces que 36 x = = 4.5 8 H =
G = 8 2 2
+
4 4
M =
+
2 8
=
√ 8
8 9 4
2
2
4
2
·4 ·8
=
√ 8
216 = 4
32 = = 3. 5 9
200 10 = =5 8 2
y efectivamente se verifica
≤ ≤ x ≤ M
H G
R1.14 Calc´ ulese la media aritm´etica y la varianza de la siguiente tabla de frecuencias tomando P = 1000 y utilizando las expresiones (1.3) y (1.10). Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
40
Estad´ ıstica Descriptiva
xi f i 998 5 999 8 1000 4 1001 3 1002 5 Soluci´ on:
Si disponemos los datos necesarios en una tabla, eligiendo P = 1000, tendremos xi Di = x i 998 2 999 1 1000 0 1001 1 1002 2
− −
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
−P
f i f i Di Di2 f i Di2 5 10 4 20 8 8 1 8 4 0 0 0 3 3 1 3 5 10 4 20 25 5 51
− − −
=
de donde se obtiene
=
·
−
f i Di 5 = 1000 + = 1000 0.2 = 999.8 N 25 f i Di2 f i Di 2 51 5 2 = = N N 25 25 51 1 50 = =2 25 25 25
x = P + σ2 =
·
· −
− − −
−
R1.15 Una empresa asocia a su cuenta de resultados el siguiente n´umero a cada uno de los meses del a˜no natural Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic 10 10 10 10 12 12 12 9 9 10 12 10 H´ allese la media de esos n´umeros bajo los siguientes supuestos (a) Ignorando la diferencia de d´ıas entre los distintos meses, i.e. todos ponderan igual. (b) Asignando a cada mes un peso pi equivalente a su fracci´on de d´ıas respecto al a˜ no.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
41
Ejercicios resueltos
(c) Asignando a cada mes el peso wi que es su n´umero de d´ıas.
∈
(d) Atribuyendo un peso igual pi [0, 1[ a cada uno de los 8 primeros meses y una d´ecima m´as a cada uno de los 4 ´ultimos. (e) Atribuyendo los siguientes pesos wi ordenadamente por meses: 0, 1, 2, 0, 1, 2, 0, 1, 2, 0, 1, 2 Soluci´ on:
(a) La media x est´a sujeta como ´unica ponderaci´on a las frecuencias absolutas y por tanto x =
·
·
·
2 9 + 6 10 + 4 12 = 10.5 12
no d´ıas mes (b) El peso pi de cada mes es y evidentemente 365 As´ı pues, en este caso la media seg´ un (1.6) resulta
pi = 1.
31 28 31 30 31 30 10 + 10 + 10 + 10 + 12 + 12 + 365 365 365 365 365 365 31 31 30 31 30 31 + 12 + 9+ 9+ 10 + 12 + 10 = 365 365 365 365 365 365 3833 = 10.504 365
x = . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
· ·
· ·
· ·
·
·
·
·
·
·
≈
Para realizar los c´alculos nos podr´ıa haber sido de ayuda la siguiente tabla de frecuencias absolutas f i con sus pesos pi respectivos. xi
meses de 28 d´ıas meses de 30 d´ıas meses de 31 d´ıas pi = 28/365 pi = 30/365 pi = 31/365 f i f i f i 9 1 1 10 1 1 4 12 2 2 Seg´ un la tabla hubi´ eramos calculado 30 31 28 30 31 · 365 · 9 + 1 · 365 · 9 + 1 · 365 · 10 + 1 · 365 · 10 + 4 · 365 · 10 + 30 31 3833 · · ≈ 10.504 2· 12 + 2 · 12 = 365 365 365
x = 1 +
que coincide con el resultado anterior. Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
42
Estad´ ıstica Descriptiva
(c) Atendiendo al enunciado, si el lector escribe seg´ un (1.5) la media buscada en la forma x =
·
·
·
31 10 + 28 10 + 31 10 + 365
··· + 31 · 10
observar´a que coincide con el apartado (b). (d) Seg´ un el enunciado si p es el peso de cada uno de los 8 primeros meses entonces p + 0.1 es el de los u ´ ltimos 4 meses. Se habr´ a de verificar entonces 8 p + 4( p + 0.1) = 1 de lo que se deduce que ´ ltimos meses es p = 0.05. As´ı pues el peso de cada uno de los u 0.15. La tabla de frecuencias absolutas f i con sus pesos p i respectivos es la siguiente No de meses con No de meses con pi = 0.05 pi = 0.15 f i f i 9 1 1 10 4 2 12 3 1 xi
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
y usando (1.6) se tiene
· · · · · · 2 · 0.15 · 10 + 3 · 0.05 · 12 + 1 · 0.15 · 12 = 10.4
x = 1 0.05 9 + 1 0.15 9 + 4 0.05 10 + +
(e) Seg´ un el enunciado podemos establecer para la soluci´on la siguiente tabla de frecuencias absolutas f i con sus pesos wi respectivos No de meses con No de meses con No de meses con wi = 0 wi = 1 wi = 2 f i f i f i 9 1 1 10 3 1 2 12 1 2 1 xi
y utilizando (1.5) se tiene x = =
1 1 9 + 1 2 9 + 1 1 10 + 2 2 10 + 2 1 12 + 1 2 12 = 12 125 = 10.416 12
· ·
· ·
· ·
· ·
· ·
· ·
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
43
Ejercicios propuestos
1.4
Ejercicios propuestos
P1.1 En una clase de 20 alumnos se ha preguntado el n´umero de asignaturas suspendiada en el primer semestre, y se han obtenido los siguientes resultados: 3, 3, 3, 2, 2, 2, 3, 3, 2, 4, 4, 2, 4, 4, 3, 2, 3, 4, 4, 1 Constr´ uyase la tabla de distribuci´on de frecuencias que corresponda y diversos tipos de diagramas. P1.2 En un estudio sobre la fiabilidad de un nuevo tipo de termostatos, se ha realizado una prueba con 50 de ellos. Se hab´ıan programado todos para que se activaran a la misma temperatura (5.5o C), se han obtenido los siguientes resultados donde cada valor indica la temperatura real a la que cada termostato se ha activado (se han subrayadao los valores mayor y menor):
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
4.4 4.4 5.8 4.4 3.6 4.1 4.3 4.0 6.0 4.0
4.2 5.1 4.4 2.8 4.6 4.3 4.0 4.8 5.0 3.9
3.4 4.4 4.4 4.3 4.3 4.2 3.7 4.6 4.7 4.4
5.3 5.2 5.7 5.0 4.3 4.0 5.7 6.0 4.3 4.3
3.9 4.0 4.6 4.3 4.4 4.4 4.2 3.9 4.9 4.8
Agr´ upense los datos en intervalos adecuados y constr´uyase la tabla de frecuencias que corresponda. P1.3 Para estudiar el precio de mercado de un determinado componente electr´ onico, en euros, se ha tomado una muestra en 30 tiendas y se han obtenido los siguientes valores 116, 146, 136, 119, 106, 118, 118, 156, 143, 122, 116, 139, 127, 106, 145, 129, 120, 122, 130, 114, 146, 133, 124, 141, 133, 131, 144, 146, 133, 141. (a) Calc´ ulese la media aritm´etica, la mediana y la desviaci´ on t´ıpica. (b) Compru´ ebese que si se agrupan los datos en una tabla con intervalos de clase, [100,110[, [110,120[, [120,130[, [130,140[, [140,150[ y [150,160[, los resultado que se obtienen a partir de la tabla para la media y desviaci´on t´ıpica de las marcas de clase no coinciden con los obtenidos en el apartado (a).
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
44
Estad´ ıstica Descriptiva
(c) Dib´ ujese el diagrama de barras de las frecuencias absolutas y absolutas acumuladas, para los datos agrupados en clases.
P1.4 Calc´ ulese la media aritm´ etica de los valores 2,6,5,9 y 2. (a) Compru´ebese que, si a cada uno de los valores se le suman 4 unidades, se obtiene otra serie con distinta media pero id´ entica varianza. (b) ¿Qu´e relaci´ on existe entre las medias de la serie original y la modificada? (c) Si ahora se multiplica cada valor de la serie original por 2 y se suman 3 unidades, ¿qu´e relaci´on existe entre las medias y las varianzas de la serie original y la modificada? P1.5 Se ha medido la velocidad de un coche a lo largo de un viaje de 4 horas. Los resultados han sido los que se muestran en la siguiente tabla: . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Km/h Menos de 40 Entre 40 y 50 Entre 50 y 60 Entre 60 y 70 Entre 70 y 80 Entre 80 y 90 Entre 90 y 100 Entre 100 y 120 Entre 120 y 150
minutos 10 20 35 40 50 40 30 10 5
Calc´ ulese la velocidad media y la desviaci´on t´ıpica, teniendo en cuenta las marcas de clase. Real´ıcese el diagrama de barras de las frecuencias absolutas y absolutas acumuladas para las marcas de clase. P1.6 Se ha analizado el funcionamiento de 15 circuitos electr´ onicos en condiciones extremas y se ha registrado la duraci´on en horas en que cada circuito funcion´o correctamente, como muestra la siguiente tabla:
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
45
Ejercicios propuestos
Circuito A B C D E F G H
Duraci´ on 31 14 19 17 34 25 17 35
Circuito I J K L M N O
Duraci´ on 22 20 32 19 27 11 23
Calc´ ulese la media, mediana, desviaci´on media, cuartiles, intervalo intercuart´ılico, recorrido, varianza y desviaci´ on t´ıpica de la duraci´on. P1.7 En una peque˜ na empresa se paga a los 5 trabajadores 1100 euros mensuales, los dos encargados cobran 1500 euros/mes y el gerente cobra 6500 euros/mes. (a) Calc´ ulese la media, moda, mediana y desviaci´on t´ıpica del sueldo mensual que se cobra en esta empresa. (b) Val´ orese el significado de los resultados obtenidos. . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
P1.8 En una comunidad aut´ onoma existen 3 grandes plantas de fabricaci´on de componentes electr´ onicos. La primera dispone de 542 trabajadores con salario mensual medio de 1080 euros. En la segunda planta trabajan 843 empleados con sueldo mensual medio de 860 euros. Finalmente, el sueldo mensual medio de los 1538 trabajadores de la tercera planta es de 815 euros. Calc´ ulese el sueldo mensual medio y la desviaci´on t´ıpica. P1.9 Para la calificaci´ on final de una asignatura se tienen en cuenta los 3 parciales por igual y la nota del ejercicio global. Un alumno ha obtenido en los parciales las calificaciones: 7, 8 y 9. ¿Cu´ anto ha de ponderar el ejercicio global para que obteniendo un 9 en dicho ejercicio la calificaci´on final sea 8.5? P1.10 Un alumno ha realizado 3 ejercicios en una asignatura. La calificaci´ on final ha sido de 6.4. Sabemos que el tercer ejercicio ponderaba un 60% de la asignatura y que el primero y segundo ponderan lo mismo. ¿Cu´al ha sido la calificaci´on del tercer ejercicio si la media del primer y segundo ejercicio es 5.5? P1.11 Una tienda ha vendido cierto n´ umero de unidades de un producto A en el primer trimestre del a˜ no y cada mes ha ingresado 5000 euros como importe de las ventas de dicho producto. El precio medio de cada
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
46
Estad´ıstica Descriptiva
unidad ha sido de 3 euros el primer mes, 2,50 euros el segundo y 2 euros el tercero. H´ allese el precio medio en que se ha vendido cada unidad. P1.12 Sea x i una serie de datos estad´ısticos de media x y varianza σ x2 y sea y i una nueva serie de manera que y i = ax i + b, donde a, b R. Designemos por y y σy2 la media y varianza, respectivamente, de yi . Demu´estrese que
∈
(a) y = ax + b (b) σy2 = a 2 σx2 P1.13 Supongamos que en una poblaci´on de N elementos, los valores cuantitativos de una variable estad´ıstica est´an agrupados en intervalos de clase de la forma [Li−1 , Li [ y denotemos por f i y F i las frecuencias absoluta y absoluta acumulada de la variable en dichos intervalo, respectivamente. Demu´estrese que una expresi´on adecuada para el c´alculo de los cuartiles Qr (r = 1, 2, 3) viene dada por Qr = L i−1 + . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Li
−L− i
1
f i
(
r N 4
· − F − ) i
1
donde [Li−1 , Li [ es el intervalo de clase donde queda localizado el cuartil rN Qr , i.e. F i−1 < F i . 4 Obs´ervese que Q2 es la mediana, y para su c´alculo algunos autores prefieren utilizar la expresi´on
≤
Me = L i−1 +
Li
−L− i
f i
1
N ( + 0.5) 2
− F − i
1
que se corresponde m´as con el concepto de b´ usqueda del valor central (v´ease el Ejemplo 1.2.3). P1.14 Se ha realizado un estudio de la duraci´ on xi en meses de un m´odulo de 50 bombillas y ha sido, por intervalos, el que ofrece la tabla adjunta con sus correspondientes frecuencias f i . xi f i [0, 6[ 1 [6, 12[ 1 [12, 18[ 4 [18, 24[ 8 [24, 30[ 16 [30, 36[ 20
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Ejercicios propuestos
47
(a) H´ allense las marcas de clase. Constr´uyase una tabla de frecuencias que incluye las frecuencias acumulada y las columnas que faciliten el c´alculo de la media, desviaci´on media y varianza, atendiendo a las marcas de clase. (b) H´ allese la media, mediana, cuartiles Q1 y Q3 , la moda Mo, intervalo intercuart´ılico, recorrido, desviaci´ on media y desviaci´ on t´ıpica de los datos, atendiendo a las marcas de clase. (c) H´ allese el intevalo modal, la Mediana y los cuartiles Q1 y Q3 atendiendo a su distribuci´ o n agrupada. H´ allese el intervalo intercuart´ılico. P1.15 En el estudio del ejercicio anterior se ha a˜nadido 3 nuevas bombillas que se encuentran en los intervalos [18, 24[, [24, 30[ y [30, 36[, constando ahora la serie de 53 datos. Cont´ estese a los 3 apartados del ejercicio anterior (a), (b) y (c). (d) Comp´ arense las diferencias entre medias y entre medianas. (e) Asimismo comp´ arense las diferencias entre los intervalos intercuart´ılicos y las desviaciones t´ıpicas. . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
48
1.5
Estad´ ıstica Descriptiva
Proyecto: Medidas de asimetr´ıa y forma
Las medidas de asimetr´ıa y de forma, tambi´ en llamadas medidas de distribuci´ on, nos permiten identificar la forma en que se separan o aglomeran los valores de una serie de n´umeros de acuerdo a su representaci´on gr´ afica. Estas medidas tienen un significado geom´ etrico relacionado con la forma del histograma.
Medidas de asimetr´ıa Las medidas de asimetr´ıa muestran si en la distribuci´ on hay concentraci´on de datos en un extremo, superior o inferior. Consideremos los valores x1 , x2 , . . . , xn , no agrupados, correspondientes a una variable estad´ıstica X . En las distribuciones sim´etricas, la media, la mediana y la moda coinciden y la distribuci´on de los valores se separa de la simetr´ıa en la medida que la media, la mediana y la moda difieren entre s´ı. Por ello, la m´ as com´ un de las medidas de asimetr´ıa, As,p1 , se basa en la diferencia entre la moda y la media, dado que esta u ´ ltima es la medida m´as sensible a los valores extremos. As,p1 = . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
x ¯
− M
o
σ
Cuando la moda no se puede obtener claramente, se puede recurrir a la comparaci´ on de la media con la mediana As,p2 = 3
x ¯
− M
e
σ
Las medidas de asimetr´ıa anteriores se conocen como el primer y el segundo coeficiente de Pearson , respectivamente, y su valor es cero en el caso de simetr´ıa. Si la distribuci´on es asim´ etrica hacia la derecha, la media ser´a mayor que la moda y, por tanto, As,p1 > 0 mientras que si la distribuci´on es asim´etrica hacia la izquierda, la media ser´a menor que la moda y, por tanto, As,p1 < 0. An´ alogamente, para el segundo coeficiente de Pearson, un valor negativo indica asimetr´ıa a la izquierda y un valor positivo, asimetr´ıa a la derecha. Llamaremos coeficiente de asimetr´ıa de Fisher (As ) al cociente µ3 1 As = 3 = 3 σ σ
N j =1 (xj
3
− x)
N
,
donde µ3 es el momento (central) de orden 3 definido en la Nota 1.2.13. Puede demostrarse que el coeficiente de asimetr´ıa puede calcularse a partir de la siguiente expresi´on equivalente 1 As = 3 σ
N j =1
N
N
3
xj
−
3¯ x x2j + 2¯ x3 N j=1
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
49
Proyecto: Medidas de asimetr´ıa y forma
Si la variable X toma los valores distintos x1 , x2 , . . . , xI , con frecuencias absolutas ordinarias, f 1 , f 2 , . . . , fI , respectivamente, el coeficiente de asimetr´ıa viene dado por 1 As = 3 σ Se puede observar que
I
j =1
f j 3 x N j
− 3¯x
I
j =1
f j 2 xj + 2¯ x3 N
(a) Si As = 0, la distribuci´on es sim´etrica. (b) Si As < 0 (asimetr´ıa negativa), la distribuci´ on est´ a desviada a la izquierda, es decir existe m´as cantidad de valores a la izquierda de la media o bien la cola de la izquierda ´es m´as larga que la de la derecha. (c) Si As > 0 (asimetr´ıa positiva), la distribuci´on est´ a desviada a la derecha, es decir existe m´as cantidad de valores a la derecha de la media o bien la cola de la derecha ´es m´as larga que la de la izquierda.
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
1.5.1
Ejemplo
Consideremos la siguiente tabla de distribuci´on de frecuencias correspondiente a la serie num´erica xi . xi 1 2 3 4 5 6
f i 10 4 14 8 6 8
hi 0.20 0.08 0.28 0.16 0.12 0.16
F i 10 14 28 36 42 50
H i 0.20 0.28 0.56 0.72 0.84 1.00
A partir de la tabla anterior, construimos la siguiente: Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
50
Estad´ıstica Descriptiva
xi 1 2 3 4 5 6
=
f i 10 4 14 8 6 8 50
x2i f i x2i 1 10 4 16 9 126 16 128 25 150 36 288 718
f i xi 10 8 42 32 30 48 170
x3i f i x3i 1 10 8 32 27 378 64 512 125 750 216 1728 3410
La media es 10 + 4 2 + 14 3 + 8 4 + 6 5 + 8 6 170 x = = = 3.4 50 50
·
·
·
·
·
y la desviaci´ on t´ıpica σ =
− 718 50
170 50
2
√
=
2.80 = 1.67 .
Por otra parte I
1 3410 f j x3j = = 68.2 , N j =1 50
por lo tanto, el coeficiente de asimetr´ıa es . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
As =
1 (68.2 1.63
− 3 · 3.4 · 718 + 2 · 3.4 50
3
= 0.336) =
0.336 = 0.072 . 4.66
Medidas de apuntamiento o curtosis Las medidas de apuntamiento , tambi´en llamadas de curtosis, determinan la concentraci´on de valores alrededor de la media aritm´etica. Si se han realizado N observaciones, x1 , x2 , . . ., xN , de una variable estad´ıstica, X , llamaremos coeficiente de curtosis1 (γ ) a N 1 (xj ¯ x)4 µ4 γ = 4 3= 4 3 σ j =1 N σ
−
−
−
urtica y el histograma corresSi γ > 0, la distribuci´on se denomina leptoc´ pondiente est´a menos aplastado (m´ as puntiagudo) que la gr´afica correspondiente a una distribuci´on te´orica denominada normal (que se estudiar´a en el cap´ıtulo 6), que corresponde a la siguiente funci´on x)2 −(x−¯ 1 2 f (x) = e 2σ . σ 2π
√
1
PN
x)4 (x −¯
j = µσ44 . En una disEn libros cl´ asicos se defin´ ıa curtosis como σ14 j =1 N tribuci´ on normal, este valor ser´ ıa 3. La sustracci´ o n del 3 al final de la f´ ormula que damos se explica como una correcci´ on que se hace a la curtosis cl´ asica de una distribuci´ on normal para que ´ esta sea igual a cero.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
51
Proyecto: Medidas de asimetr´ıa y forma
y esto se traduce en mayor concentraci´on alrededor de la media. Si, por lo contrario, γ < 0, la distribuci´on se denomina platic´ urtica y el histograma correspondiente est´ a m´ afica, correspondiente a la distribuci´on noras aplastado (achatado) que la gr´ mal, lo cual significa menor concentraci´ o n alrededor de la media. Por u ´ ltimo, si el histograma est´ a aplastado de forma semejante a la gr´ afica correspondiente a la urtica y, en este caso, se distribuci´ on normal, se dice que la distribuci´o n es mesoc´ cumple que γ = 0.
Podemos obtener otra medida de apuntalamiento o curtosis basada en los cuartiles y percentiles, que se denomina coeficiente de curtosis percent´ılico γ p = 0.5 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Q3 P 90
−Q − P
1
10
donde P i son los percentiles. Para la distribuci´on de referencia, normal, γ p toma el valor 0.263 y las distribuciones se definen como leptoc´ urtica si γ p > 0.263 y platic´ urtica si γ p < 0.263.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
52
1.6
Estad´ ıstica Descriptiva
Proyecto: Diagrama Box-and-whisker Box-and-whisker se traduce literalmente del ingl´ es como Ca ja-y-bigote. Mu-
chos paquetes extad´ısticos generan este diagrama que contiene bastante informaci´ on sobre la distribuci´on de datos de car´acter cuantitativo correspondientes a una variable estad´ıstica continua. Veamos un ejemplo de diagrama de Box-and-wisker y su significado. En la siguiente tabla se detalla el n´umero de p´ıxeles estropeados observados en una muestra de 11 monitores LCD: 3, 4, 6, 17, 36, 58, 74, 76, 80, 123, 230 El diagrama de Box-and-whisker correspondiente ser´ıa:
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
La caja (de color gris) comprende los valores que se extienden entre el primer cuartil Q1 (6), y el tercer cuartil, Q3 (80). La l´ınea vertical del interior corresponde a la mediana (58) y la cruz corresponde a la media (62.0833). La distancia entre la mediana y la media aritm´etica es un indicador de asimetr´ıa. Los bigotes se extienden desde el m´ınimo (3) y el m´aximo (123) de los valores de la tabla, teniendo en cuenta que se dejan fuera (cuadrado peque˜ no) los valores que difieren del cuartil m´as pr´ oximo m´ as de 1.5 veces el rango intercuart´ılico, cuyo valor en el ejemplo es 80 - 6 = 74. Como 1.5 74 = 111 < 230 - 80 = 150, el valor 230 queda aislado, por lo tanto el diagrama de Box-and-wisker permite detectar y representar datos at´ıpicos u an´ omalos.
·
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
Cap´ıtulo 2
Distribuciones bidimensionales 2.1 2.1.1 . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Distribuciones bidimensionales Variable estad´ıstica bidimensional
Hasta ahora hemos estudiado variables estad´ısticas o aleatorias atendiendo a un s´olo car´ acter. Nos ocuparemos ahora de estudiar para cada elemento de un colectivo finito Ω = a1 , a2 , . . . , aN un par de caracteres (x, y) (variables estad´ısticas bidimensionales) que supondremos siempre cuantitativos, por lo que no hay inconveniente alguno en considerar que se tratan de dos variables aleatorias discretas, resultantes de un experimento (fen´omeno) aleatorio, que da lugar a lo que denominaremos una distribuci´ on (estad´ ıstica) bidimensional . En el estudio de una distribuci´on bidimensional pueden suceder tres casos:
{
}
1. Que los dos fen´omenos que se estudian est´en ´ıntimamente ligados uno a otro, en cuyo caso se suele encontrar una expresi´on matem´atica que rige el experimento, por ejemplo la presi´ on P y el volumen V de un gas a temperatura constante, pues se verifica que P V es constante (ley de Boyle-Mariotte). En tal caso se dice que entre las variables x e y existe una dependencia funcional. 2. Que ambos fen´ omenos sean totalmente independientes uno de otro, por ejemplo el n´ umero de letras del nombre de una persona y su edad. 3. Que entre los dos fen´omenos considerados haya una relaci´o n m´as o
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
54
Distribuciones bidimensionales
menos fuerte. Por ejemplo, la talla y el peso de las personas. En tal on entre las variables x e y. caso se dice que existe correlaci´
En este cap´ıtulo estudiaremos si entre dos variables estad´ısticas existe relaci´ on y veremos con cierto detalle el grado de dicha relaci´on en un caso que es muy frecuente en la pr´actica: la regresi´ on lineal.
2.1.2
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
Representaci´ on gr´ afica de una distribuci´ on bidemensional
Para proceder al estudio estad´ıstico de una variable bidimensional (X, Y ) que en N observaciones ha tomado los distintos valores (xi , yi ), i = 1, 2, . . . , m se elaborar´a, en primer lugar, con los datos recogidos, una tabla de doble entrada. Despu´ es, se puede representar la variable bidimensional por un diagrama de barras, mediante un diagrama de ejes cartesianos tridimensional O X Y Z , levantando desde el punto (xi , yi , 0) del “plano del suelo” (z = 0) una paralela al eje OZ de altura igual a su frecuencia absoluta (o relativa). No obstante, el sistema de representaci´on gr´afica m´as usado es el diagrama de dispersi´ on o nube de puntos, que consiste en un sistema cartesiano de ejes XY , tal que en cada (xi , yi ) se dibuja un punto (o una mancha proporcional a la frecuencia absoluta), ya que en muchas ocasiones, de su simple observaci´on se obtiene una idea bastante exacta de la relaci´on entre las variables x e y.
2.1.3
Ejemplo
Supongamos que las siguientes nubes de puntos corresponden a diversas distribuciones bidimensionales.
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
55
Distribuciones bidimensionales
De su observaci´on podemos sacar las siguientes conclusiones para el par de variables estad´ısticas que cada caso representa: . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
(a) Dependencia funcional (parab´olica) (b) Dependencia funcional (lineal) (c) Existe correlaci´ on lineal fuerte (d) Existe correlaci´ on lineal d´ebil (e) Son variables independientes 2.1.4
Medidas de centralizaci´ on y dispersi´ on
Dada una distribuci´on de frecuencias bidimensional correspondiente a una variable (X, Y ) que ha tomado los N valores (x1 , y1 ), (x2 , y2 ), . . . , (xN , yN ) (puede que se repitan) sabemos calcular la media, la varianza y la desviaci´on t´ıpica de cada una de las dos variables: N
··· + x
x1 + x2 + x = N
N
=
N
xi
i=1
N
··· + y
y1 + y2 + y= N
N
=
yi
i=1
N
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
56
Distribuciones bidimensionales
N
σx2 =
(xi
i=1
N
2
− x)
σy2 =
N
N
σx =
i=1
(yi
i=1
2
− y)
N
N
(xi
2
− x)
σy =
N
(yi
i=1
2
− y)
N
Se denomina covarianza de la distribuci´on bidimensional al n´ umero real N
σxy =
(xi
i=1
− x)(y − y) i
N
(2.1)
y es f´acil demostrar que N
σxy = . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
xi yi
i=1
N
−x y
(2.2)
Finalmente, se denomina coeficiente de correlaci´ on lineal entre las variables x e y, al n´ umero real r=
σxy σx σy
(2.3)
cuyo significado se explicar´a en la secci´on 2.2.6. 2.1.5
Nota
En el caso de valores agrupados se recurre, como es habitual, a las marcas de clase para poder calcular los anteriores par´ametros de la distribuci´on. 2.1.6
Ejemplo
Consideremos las notas x e y de Matem´aticas y de F´ısica, respectivamente, que han obtenido 10 alumnos, como muestra la siguiente tabla de frecuencias: x 3 4 6 8 8 6 4 5 4 7 y 3 4 4 7 8 7 3 5 3 6
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
57
Distribuciones bidimensionales
En primer lugar observemos, a continuaci´ on, el correspondiente diagrama de dispersi´on que ya nos sugiere la existencia de alguna relaci´on entre ambas variables.
Las media de x e y son: . d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
x = y =
3 + 4+ 6 +8 + 8+ 6 + 4+ 5 +4 + 7 = 5.5 10 3 + 4+ 4 +7 + 8+ 7 + 3+ 5 +3 + 6 =5 10
Para preparar los c´ alculos de las medidas de dispersi´on ampliaremos la tabla de frecuencias con las columnas que aparecen en la tabla adjunta:
− −
− − −
=
−
−
xi yi xi x yi y (xi 3 3 2.5 2 4 4 1.5 1 6 4 0.5 1 8 7 2.5 2 8 8 2.5 3 6 7 0.5 2 4 3 1.5 2 5 5 0.5 0 4 3 1.5 2 7 6 1.5 1 55 50
− − − − −
− x)(y − y) i
5 1.5 0.5 5 7.5 1 3 0 3 1.5 27
−
(xi x)2 (yi y)2 6.25 4 2.25 1 0.25 1 6.25 4 6.25 9 0.25 4 2.25 4 0.25 0 2.25 4 2.25 1 28.5 32
−
−
Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.
58
Distribuciones bidimensionales
En consecuencia, se tiene que: σx2 =
28.5 = 2.85 10
σy2 =
27 = 2.7 10
r=
σxy = 2.1.7
32 = 3.2 10
√ 2.852.7· √ 3.2 ≈ 0.89
Frecuencias marginales
Cuando el n´ umero N de datos es muy grande, puede suceder que la variable bidimensional (X, Y ) tome muchos valores repetidos. Supongamos en lo que sigue que los N valores que toma la variable (X, Y ) son (xi , y j ), i = 1, 2, . . . , r, j = 1, 2, . . . , s. En tal caso, es conveniente disponer la tabla de frecuencias de manera que aparezca la frecuencia absoluta f ij de cada s
(xi , y j ), donde obviamente
r
f ij = N . Esta tabla se denomina tabla de
j =1 i=1
correlaci´ on . Para el c´ alculo de valores centrales y de dispersi´on, es interesante considerar la frecuencia de cada xi correspondiente a la totalidad de valores (xi , y j ), j = 1, 2, . . . , s, que se denomina frecuencia marginal de x i , s
. d e v r e s e r s t h g i r l l A . a i c n e l a V e d a c i n c é t i l o P d a d i s r e v i n U a l e d l a i r o t i d E . 1 1 0 2 © t h g i r y p o C
y cuyo valor denotaremos f i· =
f ij
j =1 r
An´ alogamente, la frecuencia marginal de cada y j es f · j =
f ij
i=1
Las expresiones de los valores centrales y de dispersi´on quedan de la siguiente forma: s
r
x =
i=1
xi f i· y=
N
σx2 =
(xi
i=1
2
− x) f · i
σy2 =
N s
σxy = 2.1.8
j =1
y j f · j
N
s
r
(y j
j =1
2
− y) f ·
j
N
r
(xi
j =1 i=1
− x)(y − y)f j
ij
N
Ejemplo
Consideremos las notas x e y de F´ısica y Qu´ımica, respectivamente, que han obtenido 20 alumnos, que muestra la siguiente tabla de frecuencias: Estruch, Fuster, Vicente Domingo, et al. Lecciones de estadística, Editorial de la Universidad Politécnica de Valencia, 2011. ProQuest Ebook Central, http://ebookcentral.proquest.com/lib/upilotosp/detail.action?docID=3205284.
Created from upilotosp on 2017-11-19 07:53:49.