UNIDADES I, II Y III
MODULO DE ESTADISTICA DESCRIPTIVA INGENIERIA INDUSTRIAL Y DE SISTEMAS
Mg. Aníbal José Verbel Castellar
1/2015
Introducción Estadística: Desde épocas prehistóricas el hombre se ha enfrentado a diversos fenómenos de orden económico, político, social, cultural, ambiental, biológico, etc. y a medida que el mundo es absorbido por la tecnología y las comunicaciones, aparecen cantidades de datos que al ser analizados pueden revelar explicaciones de lo que ha sucedido, sucede o pueda suceder respecto a un fenómeno cualquiera. Es ahí donde entra la estadística a aportar sus herramientas, reglas y métodos que permitan ordenar, cuantificar y analizar dichos fenómenos. En general el término estadística tiene tres acepciones gramaticales claramente definidas: 1.
La definición más común es un procedimiento de recolección de datos numéricos ordenados y clasificados bajo un criterio determinado. Esta definición se refiere a datos asociados con producción, ventas, cotizaciones bursátiles, demografías, características de poblaciones: vivienda, educación, empleo, costo de vida, pobreza, actividad económica etc.
2.
Una segunda acepción, es la ciencia que, utilizando como instrumento las matemáticas y el cálculo de probabilidades, estudia las leyes de comportamiento de aquellos fenómenos que no están sometidos a las leyes físicas y con base en ellas predice e infiere resultados. En este caso se la denomina Estadística Matemática.
3.
Finalmente, significa técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales.
Cabe anotar que la estadística se aplica en cualquier área del conocimiento: Computación, ingenierías (todas), finanzas, medicina, sociología, biología, astronomía, periodismo, sicología, odontología, genética y pruebas de ADN, contaduría, economía, seguridad social, etc. Tarea: Investigue una aplicación o ejemplo de la estadística en cada una de las áreas mencionadas. Terminología usada frecuentemente en estadística: Población: En estadística el concepto de población se refiere al conjunto universo o colección completa de los elementos o resultados de la información buscada. Los elementos, pueden ser de cualquier índole: personas, animales, objetos, características, etc. Es importante anotar que los elementos también se conocen en estadística como objetos, observaciones o individuos. Una población puede ser finita o infinita:
Población finita: Aquella donde el número de elementos que la conforman es relativamente pequeño, “fácil de contar”. Algunos expertos consideran que una población es finita cuando alcanza un máximo de 10000 elementos. Ejemplos: El numero de hospitales de una ciudad, el número de escuelas de secundaria, el número de estaciones de gasolina, el número de alumnos en un colegio, etc. Población infinita: Aquella donde el número de elementos que la conforman es grande, “no es fácil de contar”. Ejemplos: El numero de habitantes en una ciudad, la cantidad de cervezas producidas por una empresa en una semana, el numero de aspirinas producidas por Bayer en un día, el numero de bacterias en un lago rio o manantial de agua, etc. El tamaño de la población se representara por la letra mayúscula N Muestra: Una muestra es un subconjunto o una parte representativa de una población. El tamaño de la muestra se representara por la letra minúscula n Datos u observaciones son números o denominaciones que se pueden asignar a un individuo o elemento de una población Parámetro: Es cualquier característica medible de una población. Ejemplo, el promedio del peso en kilogramos de todos los estudiantes de la universidad. Estadística: Una estadística, es cualquier característica medible de una muestra. Ejemplo el promedio del peso en kilogramos de una muestra de 100 estudiantes de la USB. Censo: Es la enumeración completa de una población
ESCALAS DE MEDICIÓN 1.
NOMINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarles un valor a los hombres y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos establecer que uno es mayor que el otro. Otro ejemplo es de los números asignados a los futbolistas en un partido. El 9 no significa que sea más que el 4, (Un delantero no es más que un defensa y viceversa, simplemente son jugadores diferentes), los números telefónicos, la raza, la religión (un cristiano no es mayor que un católico), el estado civil (un casado no es menor que un soltero), son ejemplos de este tipo de escala
2.
ORDINAL
Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de educación: 1.
Primaria
2.
Secundaria
3.
Profesional
4.
Especialista
5.
Magister
6.
Doctor
Como puede verse, se puede establecer que una persona con título de Postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o medible.
3.
INTERVALO
Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados. En los puntajes del icfes la distancia entre un puntaje de 45 y 50 equivale a la distancia entre un puntaje de 90 y uno de 95, lo que no se puede decir es que un puntaje de 80 equivale a afirmar que el alumno sabe el doble de lo que sabe un alumno con un puntaje de 40.
4.
RAZÓN
Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento).
Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida. Ej. El salario, si A gana 500.000 y B gana 1000.000, entonces podemos decir perfectamente que B gana el doble de A. Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no.
5.
DICOTOMICA
Es aquella escala que presenta tan solo dos opciones para medir la variable, siendo esta variable de tipo cualitativo ò cuantitativo dependiendo de la información ò resultado que se busque. Por ejemplo:
Variable: Hábitos de fumar Escala de medición: Fuma y No fuma
Variable: Condición de calidad de un producto Escala de medición: Conforme y no conforme (bueno y defectuoso)
Es frecuente convertir una característica medible en una variable dicotómica, por ejemplo el peso al nacer de los neonatos se clasifica así: BPN (Bajo Peso al Nacer): Cuando el peso es ≤2500 gramos Peso normal PN: Cuando el peso es > 2500 gramos En este caso BPN=0 Cuando el peso es ≤2500 gramos BPN= 1 Cuando el peso es > 2500 gramos
6.
CRONOLOGICA
Es un tipo de escala cuantitativa continua, se la utiliza para estudiar algunos fenómenos en función del tiempo, algunos autores la tratan como si fuera una escala de variable independiente, permite conocer un determinado fenómeno a través del tiempo, es decir permite un seguimiento temporalizado (en el pasado, en el presente ò en el futuro). De uso frecuente en series de tiempo. Ejemplos:
El comportamiento de la demanda durante semanas, meses, trimestres, semestres, años.
Seguimiento del efecto de una droga en un paciente con una enfermedad específica, o de un tratamiento terapéutico, durante semanas, meses o años.
TIPOS DE DATOS: Existen dos tipos de datos: Categóricos o cualitativos y numéricos o cuantitativos. Categóricos o cualitativos: Son aquellos datos cuyas características no son medibles, representan atributos o cualidades, por ejemplo el sexo, la raza, la nacionalidad, el estado civil etc. Numéricos o cuantitativos: Son aquellos cuyas características son medibles, producen respuestas numéricas, por ejemplo: la edad, la estatura, la temperatura, el diámetro de un buje, etc. Los datos numéricos a su vez se clasifican en dos tipos: Discretos y continuos: Discretos: Aquellos que se producen a partir de un conteo, por ejemplo el número de municipios del departamento del Atlántico, el número de hijos por familia, el número de autos en un parqueadero, etc. Puede observarse que este tipo de conteo produce un número entero. Continuos: Aquellos que se producen a partir de un proceso de medición, donde la característica que se mide puede tomar cualquier valor en un intervalo, por ejemplo, la estatura de los estudiantes de la universidad, la presión diastólica de un grupo de personas, el tiempo que usted tarda de su casa a la universidad, etc. Puede observarse que para cada uno de los ejemplos mencionados, necesariamente los valores se encuentran en un intervalo dado, por ejemplo la estatura estará por decir algo entre 1 metro y 2.5 metros, al menos que haya un súper enano de 5 cms. y un gigante de tres metros. Variables latentes: El paisaje, el grado de inteligencia
UNIDAD II ORGANIZACIÓN, TABULACION Y GRAFICOS DE UN CONJUNTO DE DATOS. Cuando se tiene un conjunto de datos tomados de un trabajo de campo o de una investigación, es necesario organizarlos de tal manera que se puedan interpretar y analizar sus tendencias y finalmente generar conclusiones.
El análisis descriptivo de datos se puede clasificar de la siguiente manera:
Individuales Distribución de frecuencias TABLAS
Agrupados Agrupados con dos criterios Asociación
> 2 criterios Matriz de datos
2.1 Distribución de frecuencia para datos individuales. Ejemplo de distribución de frecuencias individuales: los siguientes datos corresponden a una muestra de 50 trabajadores y el número de hijos.
2 4 1 1 4
3 2 2 2 3
5 1 2 5 2
X(N° de hijos) 0 1 2 3 4 5 Totales
4 0 3 2 3
3 2 3 4 2
ni 3 5 20 9 10 3 50
2 2 4 2 5
Ni 3 8 28 37 47 50
3 2 3 4 0
2 2 2 2 4
fi(%) 6 10 40 18 20 6 100
0 4 1 4 3
2 2 2 4 1
Fi(%) 6 16 56 74 94 100
20
Operarios 10
9 5
3
1 0
1
2
2
3
3
4
4
5
N° de hijos 3
5
6
Ejercicio: Los siguientes datos corresponden a La cantidad de DSH (Deshechos Solidos Hospitalarios) en toneladas por año en toneladas por nivel de edificio y salas especializadas.
NIVELES 1º nivel 2º nivel 3º nivel 4º nivel 5º nivel 6º nivel Maternid ad Pediatría Totales
Elabore un gráfico de barras, de tortas etc..
Toneladas/a ño 18 42 11,5 8,5 7 9,5 1 5,5 103
Toneladas/año1º nivel 2º nivel 3º nivel 1% 5% 9% 17% 7% 8% 11% 41%
4º nivel 5º nivel 6º nivel Maternidad Pediatria
Toneladas/año 120
103
100 80 60 40 20 0
Toneladas/año
42 18
11.5 8.5 7 9.5 1 5.5
2.2 Distribución de frecuencia para datos agrupados.
2.2.1
Ejemplo 1 de distribución de frecuencias para datos agrupados cuando la
variable de estudio es discreta.
Con el fin de estudiar la densidad de la población estudiantil infantil en el sector rural del Departamento de Sucre, se obtuvo una muestra de 150 escuelas. Los resultados del número de estudiantes por escuela se muestran a continuación: 101 102 106 106 107 108 112 114 114 116 116 121 121 125 125 126 130 132 139 150
151 152 153 153 155 156 156 159 160 160 163 166 170 170 172 173 173 173 174 180
1. 2. 3.
Defina la variable aleatoria De qué tipo es Elabore una tabla de frecuencias
1.
V.A. Nº de estudiantes
2.
Tipo: Discreta
3.
Tabla de frecuencias:
181 181 187 189 191 194 195 196 199 200 201 201 202 202 202 202 202 203 204 204
204 205 205 206 206 208 209 210 212 214 217 217 218 218 218 220 220 220 220 220
222 223 224 224 225 226 226 226 227 228 228 229 229 229 230 231 231 231 232 232
233 234 234 234 236 237 240 241 242 242 244 245 246 246 246 247 247 248 248 250
250 253 271 272 280 283 285 285 286 306 310 310 315 315 318 321 325 335 338 343
a) Ordenar los datos b) Numero de intervalos o clases k: Una buena guía para el cálculo de k es aplicar la regla de Sturges: K=1+3.33log n Otras expresiones como guía para calcular k son las siguientes:
359 365 368 372 378 383 388 389 395 400
k=
ln n ln 2
k =√ n La norma ISO 9001 recomienda el usar como guía la siguiente tabla para determinar el número de intervalos: N° de datos 40 a 80 81 a 150 151 a 250 251 o mas
N° de intervalos 5a7 7 a 10 10 a 12 12 a 20
Para este curso usaremos la regla de Sturges: k= 1+3.33log 150= 8.24≈8 Amplitud A: Es el ancho de cada intervalo. Se calcula como el cociente entre el rango R y el número de intervalos k, donde: R=Xmaximo-Xminimo, en este caso, Xmax = 400 y Xmin = 101, es decir R=299 Luego A = R/k = 299/8 = 37.375≈37 Seleccionamos 8 intervalos:
1 2 3 4 5 6 7 8
LI--LS 101--138 139--176 177--214 215--252 253--290 291--328 329--366 367--404 Totales
Xi 119,5 157,5 195,5 233,5 271,5 309,5 347,5 385,5
ni 18 21 31 51 8 8 5 8 150
Ni 18 39 70 121 129 137 142 150
fi (%) 12 14 20,67 34 5,33 5,33 3,33 5,33 100
Fi(%) 12 26 46,67 80,67 86 91,33 94,67 100
Se observa que más del 50% de las escuelas están por encima de los 214 alumnos. Xi: se conoce como marcas de clase y se obtiene sumando los límites de cada intervalo y dividiendo entre dos. Este valor refleja el promedio de cada intervalo.
ni : Se conoce como frecuencias absolutas, es el número de observaciones o individuos en cada intervalo. Ni: Se conoce como frecuencias absolutas acumuladas. fi: Se conoce como frecuencia relativa, se obtiene de la relación entre la frecuencia absoluta y el número total de datos, es decir, es la misma columna de la frecuencia absoluta pero expresada en porcentaje Fi: Es la misma frecuencia absoluta acumulada pero expresada en porcentaje, se conoce como frecuencia relativa acumulada. Interpretación de la fila N° 4: Interprete cada uno de los valores correspondiente al intervalo 4 Ejercicio en clase: Con el fin de implementar un plan de manejo de residuos sólidos en el Hospital San Juan de Dios de la ciudad de Villavicencio, se tomó una muestra de la cantidad de bolsas rojas producidas durante 140 días. Los resultados se muestran a continuación:
5 5 6 7 7 7 7 7 7 8 8 8 9 9 9 10 10 11 11 11
12 12 13 13 13 15 15 16 16 16 17 17 17 17 17 18 18 19 19 20
21 21 22 22 23 23 23 23 23 24 24 24 24 25 25 25 26 26 26 26
26 27 28 28 28 29 29 30 30 30 31 31 31 31 32 32 32 32 32 33
33 34 34 34 34 35 36 36 36 36 37 37 37 37 37 37 38 38 38 38
38 38 39 39 39 40 41 41 41 41 41 42 42 42 44 44 44 45 45 46
46 46 46 47 47 47 47 47 47 47 48 48 48 48 49 49 49 49 50 50
a) Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuencias b) Interprete los datos de una fila cualquiera.
2.2.2
Ejemplo 2 de distribución de frecuencias para datos agrupados cuando la variable de estudio es continua.
Los siguientes datos corresponden a una muestra de los pesos en kilogramos de 80 sacos de café bajo recolección manual, tomadas de un emporio cafetero. 91 83,4 83,5 88,5 90,4 91,8 96,1 91 90,8 90,9 83,8 87,9 89,9 91,2 93,7
88,7 88,9 89 88,6 90,4 92,2 98,8 88,3 90,1 91,6 94,4 88,2 90 91,2 94,2
90,5 90,6 90,7 88,6 90,4 92,2 100,3 88,3 90,3 91,6 95 88,3 90,1 91,5 94,2
92,2 92,3 92,6 92,7 92,7 92,7 93 88,5 90,3 91,8 95,6 83,3 91 89,2 89,3
89,3 89,6 89,7 83,9 84 84,1 89,8 91,1 93,3 83,6 84,2 89,8 91,1 93,3 93,2
Elabore una tabla de frecuencias
Ordenar los datos de menor a mayor 83,3 83,4
88,7 88,9
90,5 90,6
92,2 92,3
87,8 89,9 91,1 93,4 83,7
83,5 83,6 83,7 83,8 83,9 84 84,1 84,2 87,8 87,9
89 89,2 89,3 89,3 89,6 89,7 89,8 89,8 89,9 89,9
90,7 90,8 90,9 91 91 91 91,1 91,1 91,1 91,2
92,6 92,7 92,7 92,7 93 93,2 93,3 93,3 93,4 93,7
88,2 88,3 88,3 88,3 88,5 88,5 88,6 88,6
90 90,1 90,1 90,3 90,3 90,4 90,4 90,4
91,2 91,5 91,6 91,6 91,8 91,8 92,2 92,2
94,2 94,2 94,4 95 95,6 96,1 98,8 100,3
Con la regla de Sturges: k= 1+3.33log 80= 7.337≈7 Amplitud A: Se calcula como el cociente entre el rango R y el numero de intervalos k, donde
R=Xmaximo-Xminimo, en este caso, Xmax = 100.3 y Xmin = 83.3, es decir R=17 Luego A=17/7=2.428571429, A=2 o A=3 Para que el cociente R/k=3 es necesario modificar R o k o ambos. Asi si R=18 y k=6 se obtiene: A=18/6=3 Otras opciones son: A=21/7=3, A=20/5=4, etc. pero la más razonable es 18/6 = 3. Aumentar o disminuir el valor de k en una unidad no afecta el propósito de agrupación, es por ello que al modificar R y k debe hacerse de una manera razonable. Determinar el Xmin y el Xmax. La asignación del valor mínimo para el primer intervalo se hace buscando la comodidad para la interpretación de la tabla y de los gráficos. Así por ejemplo el valor mínimo es 83.3, el cual como tiene una cifra decimal se puede aproximar por debajo: a 83. Tenga mucho cuidado en no redondear este primer valor por encima, comete un error, cual es?
Finalmente estamos ya en disposición de armar la tabla de frecuencias con k=6, R=18, Xmin=83 Intervalos xi 1 83 – 86 84.5 2 86 – 89 87.5 3 89 – 92 90.5 4 92 – 95 93.5 5 95 – 98 96.5 6 98 – 101 99.5 Totales Límite inferior y superior de cada intervalo:
ni 10 13 35 18 2 2 80
Ni 10 23 58 76 78 80
fi (%) 12.5 16.25 43.75 22.5 2.5 2.5 100%
Fi (%) 12.5 28.75 72.5 95 97.5 100
El intervalo pude expresarse de una de las dos formas siguientes: 1. 2.
Abierto a la izquierda y cerrado a la derecha ( ] ; LI < X ≤ LS Cerrado a la izquierda y abierto a la derecha [ ) ; LI ≤ X < LS
Para este modulo se usara la primera forma Tenga en cuenta que cada dato debe quedar exactamente en un intervalo, no en dos al mismo tiempo, por ejemplo el 89 está solo en el intervalo 2. El 95 estará en el intervalo 4
Interpretación y análisis: Análisis e interpretación de la fila Nº 4: Xi = 93.5, significa que “hay 18 sacos con un peso promedio de 93.5 Kg.”. ni = 18, “ hay 18 sacos cuyos pesos oscilan entre 92 y 95 kilogramos” Ni = 76, “hay 76 sacos cuyo peso máximo es de 95 kilogramos” o “hay 76 sacos cuyos pesos oscilan entre 83 y 95 kilogramos” fi = 22.5%, “hay un 22.5% de los sacos cuyo peso están entre 92 y 95 kilogramos” Fi = 95%, “El 95% (76/80) de los sacos tienen un peso máximo de 95 kilogramos” Nota: Existen diversos procedimientos que a la larga todos confluyen a lo mismo: Obtener el agrupamiento de los datos. GRAFICOS Los siguientes gráficos son los más usados cuando de datos numéricos se trata:
a)
Histograma de frecuencias absolutas: En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta ni
b) Polígono de frecuencias absolutas: En el eje X se ubican las marcas de clase y en el eje Y la frecuencia absoluta ni c)
Histograma de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta acumulada Ni
d) Polígono de frecuencias absolutas acumuladas: En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta acumulada Ni e)
Curva de frecuencias absolutas: Es una línea continua del polígono de frecuencias absolutas
f)
Diagrama de tallos y hojas: Este diagrama propuesto por el estadístico John Tukey ofrece una forma novedosa de presentar toda la información de los n datos, de manera que se puede apreciar el comportamiento mucho mas real que una tabla de frecuencias. Un Tallo es el primer digito o parte del numeral, mientras que una hoja está formada por el o los dígitos restantes. Por ejemplo el numero
456
4
| 56
↑
↑
se
puede
descomponer
de
Tallo Hoja, o también: 45
|6
↑
↑
Tallo
Hoja
Para nuestro ejercicio:
Histograma de frecuencias absolutas
Frec. abs.
40 30 20 10 0 83
86
89
92
95
Intervalos
98
101
dos
formas:
Poligono de frecuencias absolutas
F r ec. abs.
40 30 20 10 0 83
86
89
92
95
98
101
Marcas de clase
F rec. abs.acum .
Histograma de frec. abs.acumuladas 80 60 40 20 0 83
86
89
92
95
98
101
Intervalos
Frec. abs.acum.
Poligono de frec. abs.acum. 80 60 40 20 0 83
86
89
92
95
Intervalos
98
101
Curva de frec abs. 0,12 0,1 0,08 0,06 0,04 0,02 0 83
86
89
92
95
Marcas de clase
Diagrama de tallos y hojas: 83
3 4 5 6 7 8 9
84
0 1 2
87
8 9
98
101
88
2 3 5 5 6 6 7 9
89
0 2 3 3 6 7 8 8 9 9
90
0 1 1 3 3 4 4 4 5 6 7 8 9
91
0 0 0 1 1 1 2 2 5 6 6 8 8
92
2 2 2 3 6 7 7 7
93
0 2 3 3 4 7
94
2 2 4 7
95
6
96
1
98
8
100 3 Se observa que hay una gran concentración de observaciones entre 88 y 93 kilogramos. Ejemplo de tabla de asociación con dos criterios: La siguiente tabla muestra exposición:
el número de personas expuestas a un determinado riesgo y los años de
Años de trabajo 0--3 4--7 8--11 11--15 15--18 18--21 21--24 Totales
Expuestos 1 4 15 7 8 10 5 50
No expuestos 25 15 20 18 26 22 24 150
POBLACION ESTIMADA PARA EL AÑO 2000 1 Grupos de Edad
Hombres
Mujeres
TOTAL
Menores de 1 año
500.428
480.232
980.660
1Fuentes de información1 DANE. Proyecciones de población Censo de 1993. Modificadas por Oficina EpidemiologíaMinsalud.
0-4
1.940.686
1.862.363
3.803.049
5-14
4.619.174
4.447.671
9.066.845
15-44
10.226.708
10.457.260
20.683.968
45-59
2.327.119
2.558.979
4.886.098
60 y más
1.300.408
1.600.358
2.900.766
TOTAL
20.914.523
21.406.863
42.321.386
Ejercicio en clase: Se tomó una muestra aleatoria del diámetro (en m.m) de 200 bujes de bronce en una empresa metalmecánica. Los resultados fueron: 5,001 5,002 5,005 5,007 5,007 5,009 5,010 5,012 5,015 5,018 5,019 5,026 5,028 5,029 5,036 5,037 5,045 5,051 5,061 5,062
c)
5,063 5,064 5,065 5,066 5,067 5,069 5,070 5,070 5,070 5,071 5,072 5,074 5,080 5,086 5,089 5,089 5,090 5,092 5,095 5,100
5,101 5,104 5,105 5,106 5,106 5,109 5,111 5,117 5,121 5,121 5,124 5,125 5,127 5,130 5,131 5,133 5,143 5,146 5,148 5,151
5,151 5,153 5,154 5,157 5,161 5,162 5,165 5,167 5,171 5,171 5,174 5,176 5,177 5,190 5,195 5,197 5,208 5,208 5,209 5,209
5,216 5,222 5,225 5,225 5,226 5,232 5,232 5,236 5,237 5,239 5,246 5,249 5,250 5,250 5,252 5,254 5,256 5,259 5,262 5,265
5,265 5,266 5,270 5,270 5,277 5,277 5,282 5,282 5,283 5,286 5,287 5,288 5,290 5,295 5,299 5,306 5,306 5,309 5,310 5,311
5,316 5,318 5,319 5,324 5,330 5,330 5,331 5,335 5,336 5,338 5,341 5,346 5,346 5,348 5,351 5,363 5,363 5,369 5,369 5,375
5,382 5,384 5,391 5,393 5,393 5,396 5,398 5,398 5,398 5,401 5,410 5,412 5,412 5,416 5,418 5,423 5,423 5,425 5,425 5,440
5,443 5,444 5,448 5,449 5,450 5,459 5,460 5,461 5,461 5,464 5,464 5,465 5,466 5,468 5,471 5,474 5,475 5,477 5,479 5,479
5,483 5,485 5,486 5,491 5,494 5,495 5,497 5,498 5,502 5,503 5,512 5,512 5,519 5,519 5,519 5,537 5,540 5,545 5,546 5,555
Defina la variable aleatoria, de que tipo es, elabore una tabla de frecuencias
d) Interprete los datos de una fila cualquiera. e)
Elabore todos los gráficos Ejercicio para entregar. Los siguientes datos corresponden al consumo de agua en litros/min. de una muestra de 129 casas
4,6 12,3 7,1 7 4 9,2 6,7 6,9 11,5 5,1 3,8 11,2 10,5 14,3 8 8,8 6,4 5,1 5,6 9,6
a)
7,5 7,5 6,2 5,8 2,3 3,4 10,4 9,8 6,6 3,7 6,4 6 8,3 6,5 7,6 9,3 9,2 7,3 5 6,3
13,8 6,2 5,4 4,8 7,5 6 6,9 10,8 7,5 6,6 5 3,3 7,6 3,9 11,9 2,2 15 7,2 6,1 15,3
18,9 7,2 5,4 5,5 4,3 9 12,7 11,3 7,4 5 3,5 8,2 8,4 7,3 10,3 11,9 6 5,6 9,5 9,3
10,4 9,7 5,1 6,7 10,2 6,2 8,4 7 4,8 5,6 10,5 14,6 10,8 15,5 7,5 6,4 3,4 5,5 6,6 5,9
15 9,6 7,8 7 6,9 4,1 3,6 11,9 3,7 5,7 6,8 11,3 9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6
4,5 6,2 8,3 3,2 4,9 5 6 8,2 6,3
Defina la variable aleatoria, de que tipo es, Elabore una tabla de frecuencias
b) Elabore todos los gráficos c)
Interprete los datos de la fila 4
d) Cuantas casas consumen un volumen máximo de 14 L / m e)
Cuantas casas consumen un volumen máximo de 6,5 L / m (Interpole)
f)
Media, mediana moda mg ma, var, desv, rango
g) Percentiles 10,25,,75,90 interprete h) Coef de asimetría y de curtosis
2. Si tienes una muestra de 500000 datos para agrupar cuantos intervalos de clase serían necesarios. Pueden concebirse investigaciones en donde una muestra tenga 500000 o más datos? Dé ejemplos. 3. Se conocía la tabla de distribución de los salarios por semana en dólares de 50 obreros de una empresa, desafortunadamente solo queda de ella lo siguiente: LI ≤ Xi ≤ LS 165 -
Xi
ni 5 7
Ni
27 8 40
fi * 100 (%)
Fi *100(%)
-1005 Totales
4
a) Complete la tabla b) Una vez llene la tabla, interprete la información dada en la fila 4. 4.
Se tomó una muestra sobre el consumo semanal de arroz en libra por familia en 44 hogares y los
resultados fueron.
3 4 4 4 4 4 5 5 5 5 6 6 7 7 7 7 7
8 8 8 9 9 9 9 10 10 10 10 11 11 11 12 12 13
13 13 14 14 14 14 14 15 15 16 16 16 16 16 16 16 16
16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21
21 21 21 22 22 22 23 23 23 23 24 24 24 24 25 25 25
Construya una tabla de frecuencias para estos datos y responda las siguientes preguntas: a)
Cuáles datos representan el 25% menor de la muestra?
b)
Cuántas familias consumen 7 libras o menos semanalmente?
c)
Qué porcentaje de las familias consumen más de 9 libras por semana?
d)
La mitad de la gente consume menos de ____ libras por semana?
e)
Qué tipo de distribución (modelo de curva) siguen estos datos?
4.
Para comprobar la eficacia de las maquinas de llenado de bolsas de leche las cuales tienen un contenido nominal de 946 mililitros. Para ello se realiza un muestreo de 80 bolsas elegidas al azar. Los resultados se muestran en la siguiente tabla: 953 945 972 945 985 973 955 950 949 941
966 966 937 946 954 935 959 939 948 958
948 937 955 927 958 955 947 941 952 931
928 937 975 970 959 971 940 936 948 957
940 933 965 973 934 937 946 952 935 941
941 933 960 968 959 956 963 973 949 942
965 962 940 962 963 943 950 938 938 945
963 967 969 981 950 970 933 960 934 927
a) Construya una tabla de distribución de frecuencias y responda las siguientes preguntas: Qué porcentaje de bolsas tuvo un exceso de 946 ml? Construir el histograma y el polígono de frecuencias absolutas. Construir el polígono de frecuencias acumuladas u ojiva Que tipo de curva de frecuencias siguen estos datos?
7.
Con el fin de conocer la tendencia de consumo de las marcas de aceite para tracto mulas se realizó una encuesta a 100 conductores y los resultados fueron los siguientes:
MARCA BEG HAVOLIN E RIMULA SHELL ESSO OTRAS
Nº CONDUCTORE S 15 20 60 3 4 8
Defina la variable aleatoria. Por EXCEL elabore diez tipos de grafico. En los dos ejercicios siguientes (7 y 8) determine: a)
La variable aleatoria y de qué tipo es.
b) Cuál es la población y cuál es la muestra. c)
Construya una tabla de frecuencias e interprete la fila 4
d) Construya todos los gráficos correspondientes e)
Calcule la media , la mediana y la desviación estándar
f)
Determine el rango intercuartil y el rango interdecil
g) Calcule e interprete el percentil 35 y el percentil 80 h) Por encima de que valor se encuentra el 70 % de los valores mas altos i)
Por debajo de que valor se encuentra el 70 % de los valores mas pequeños
7. El Departamento de Seguridad Industrial de la compañía X inició un estudio para conocer el índice decontaminación que producen los gramos de ceniza de carbón bituminoso que se extrae de la mina A. Se tomaron 60 observaciones y los resultados fueron:
8.
23.1
25.1
21.6
28.7
21.5
9.4
23.4
22.6
22.7
20.1
13.5
21.5
18.9
18.5
24.1
18.4
31.2
21.3
16.1
16.8
26.2
19.6
28.5
17.2.
30.5
14.6
14.6
25.2
16.7
13.5
28.5
23.8
9.4
18.0
27.2
15.1
22.7
16.6
29.6
26.8
23.4
23.2
26.7
11.6
21.8
26.2
8.5
21.2
31.0
11.6
11.3
28.7
27.5
20.6
22.9
31.4
23.0
12.5
22.6
19.6
Con el fin de controlar el diámetro medio de los cojinetes que se producen en una empresa metalmecánica, el departamento de control de calidad tomó 60 muestras extraídas al azar Los diámetros están en pulgadas y los resultados fueron:
0.738 0.728
0.737 0.736
0.743 0.736
0.740 0.735
0.741 0.733
0.735 0.742
0.745
0.730
0.742
0.740
0.738
0.725
0.743
0.732
0.732
0.730
0.734
0.738
0.735
0.729
0.735
0.727
0.732
0.736
0.732
0.737
0.731
0.746
0.735
0.729
0.731
0.741
0.734
0.737
0.744
0.738
0.736
0.734
0.727
0.735
0.740
0.734
0.733
0.726
0.736
0.732
0.741
0.732
0.739
0.739
0.730
0.735
0.733
0.735
9. En una empresa de producción de pinturas de aceite se presentó un problema: "los clientes se quejaban del grado de impurezas en los galones de aceite" El departamento de control de calidad decidió tomar 80 muestras (u 80 galones) y la cantidad de impurezas en gramos por galón fueron los siguientes: 29.5 27.3 40.5 22.9 23.8 31.6 32.7 35.1 39.5 37.2
a)
45.538 32.0 20.4 45.8 30.6 35.4 45.1 31.6 23.0 45.2
38.8 42.6 28.5 31.5 25.5 31.7 31.6 21.1 42.2 30.7
39.0 44.5 21.5 32.1 41.2 35.2 37.1 31.3 34.2 33.3
27.5 26.9 28.8 31.8 35.5 28.7 34.4 34.2 41.6 44.5
32.3 45.6 36.7 23.9 39.6 30.5 46.0 25.5 31.7 27.2
42.6 36.7 36.6 29.5 31.7 2104 40.2 36.6 30.6 41.2
35.5 38.8 43.2 39.6 26.1 43.1 31.1 28.8 34.6 30.5
La variable aleatoria y de qué tipo es.
b) Cuál es la población y cuál es la muestra. c)
Construya una tabla de frecuencias e interprete la fila 4
d) Construya todos los gráficos correspondientes e)
Utilice el polígono de frecuencias acumuladas y determine (por interpolación) cuantos galones aproximadamente tienen un contenido por debajo de los 33.5 gramos de impurezas.
f)
Calcule la media , la mediana y la desviación estándar
g) Determine el rango intercuartil y el rango interdecil h) Calcule e interprete el percentil 35 y el percentil 80 i)
Por encima de que valor se encuentra el 70 % de los valores mas altos
j)
Por debajo de que valor se encuentra el 70 % de los valores mas pequeños
UNIDAD III
MEDICION DE DATOS
1. MEDIDAS DE TENDENCIA CENTRAL 2.
MEDIDAS DE DISPERSION
3.
MEDIDAS DE FORMA
4.
MEDIDAS DE LOCALIZACION
1.
MEDIDAS DE TENDENCIA CENTRAL
Propósito de las medidas de tendencia central: Supóngase que Pedro obtiene 32 puntos en una prueba de lectura. La calificación por sí misma tiene muy poco significado a menos que usted conozca cuál es el total de puntos que obtiene una persona promedio al participar en esa prueba, cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones. Es decir que para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos. Las medidas de tendencia central, sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba. Digamos por ejemplo que la calificación promedio en la prueba es de 20 puntos, de ser así podemos decir que la calificación de Pedro se ubica notablemente sobre el promedio por lo tanto le fue muy bien. Pero si la calificación promedio fue de 60 puntos, entonces la conclusión sería muy diferente, dado que se ubicaría muy por debajo del promedio de la clase. En resumen, el propósito de las medidas de tendencia central son: Mostrar en qué lugar se ubica la persona promedio o típica del grupo. Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico. Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos.
Enumeración de las medidas de tendencia central. Las medidas de tendencia central más comunes son: 1.1 La media aritmética: Comúnmente conocida como media o promedio.
Para diferenciar datos muestrales de datos poblacionales, la media aritmética se representa con un símbolo para cada uno de ellos: si trabajamos con la población, este indicador será μ; en el caso de que estemos trabajando con una muestra, el símbolo será
X´
Media poblacional: N
μ=
1 ∑X N i=1 i
Para la muestra: n
1 X´ = ∑ X i n i=1
1.2 La media aritmética ponderada Cuando los datos tienen un peso o porcentaje diferente de la unidad, entonces a cada dato hay que asignarle su respectivo peso, el ejemplo más común es el de la nota promedio final de una asignatura: 4.1 en el 25% 1.1 en el 35% 3.5 en el 40% Calcule el promedio R/2.75
1.3
La Mediana Me: Es el dato que está en la posición central de la serie, en este ejemplo: 1.4 La Moda MO: Es aquel dato que más se repite en la serie.
Otras medidas de tendencia central de menor uso son:
1.5 La Media Geométrica
n
G=√ X 1 . X 2 … … … … … … . X n
1.6
La media Armónica Es la inversa de la media aritmética de las xis invertidas:
n 1
∑X
i
Los siguientes datos corresponden al peso en Kg de una muestra de 9 personas 80, 70, 65, 75, 71,75, 68, 69,75 Calcule media, mediana, moda, media geométrica, media armónica.
2.
MEDIDAS DE DISPERSIÓN: Estas medidas son muy útiles en estadística ya que proporcionan una medición de la variabilidad de los datos alrededor de la media, es decir que tan regados o dispersos están los datos con respecto a la media, que tan homogéneos o compactos están los datos. Las medidas más comunes de dispersión son:
2.1 El Rango: 2.2 La Varianza
R= Xmax - Xmin
Para la población:
N
1 2 σ = ∑ ( X i−μ ) N i =1 2
2
σ=
N ∑ X 2i −( ∑ X i )
2
N2
Para la muestra: n
2 1 S= X i− X´ ) ( ∑ n−1 i=1 2
n ∑ X 2i −( ∑ X i ) S= n (n−1) 2
2.3 La Desviación Estándar o Desviación Típica Es la raíz cuadrada de la varianza: Para la población: σ Para la muestra: S
2
2.4 Coeficiente de variación: Es una medida para diagnosticar la homogeneidad de los datos.
S CV = ∗100 X´
Empíricamente, se considera que si el CV
Es menor que el 15% el grupo de datos es homogéneo
15% < CV ≤ 30% Homogeneidad moderada
CV > 30% Hay indicios de no homogeneidad
2.5
FRACCIÓN DE MUESTREO
Fracción de muestreo: Es el porcentaje que representa la muestra sobre el total de la población (n/N) *100. 2.6 COEFICIENTE DE ELEVACIÓN: Es el número de veces que el tamaño de la población contiene al tamaño de la muestra (N/n). Cálculo aproximado y rápido de la varianza Cuando los datos siguen una distribución normal, (es decir los datos giran alrededor del promedio), una forma de diagnosticar rápidamente el valor de la varianza es: Rango=6S, de aquí: S=R/6
Ejemplo Los siguientes datos corresponden al llenado de tres maquinas en la empresa industrial COOLECHERA de leche saborizada en empaque de bolsas de 250 cc. Maq. 1
Maq. 2
Maq. 3
253,921
241,582
250,562
252,737
242,684
244,039
247,741
243,876
258,582
243,375
35,456
244,508
246,965
250,114
251,109
243,089
232,618
254,782
252,151
247,59
249,155
244,049
252,354
250,902
244,555
56,456
247,375
260,236
246,303
242,79
255,823
222,456
241,24
252.,224
210,231
246,965
245,397
257,707
256,807
256,565
242.,563
247,886
247,419
249,912
253,94
249,012
109,563
243,46
246,681
258,316
256,192
257,847
258,524
255,222
246,312
245,88
245,628
245,487
150,456
249,258
248,718
252,147
237,561
249,692
254,727
245,52
241,718
246,1
245,928
248,471
253,857
245,952
241,121
236,83
248,476
244,064
235,224
249,289
253,887
95,321
252,086
254,071
240,288
241,348
253,921
241,582
265,27
251,873
242,191
241,489
252,379
20,568
250,341
255,878
256,35
251,287
252,878
112,567
248,397
254,043
252,632
250,978
248,449
259,057
252,761
246,526
250,969
254,266
255,066
350,456
253,71
256,671
256,205
251,392
252,548
252,551
251,179
257,596
321,741
251,981
257,191
252,157
253,879
248,627
249,927
247,703
250,816
65,891
251,694
249,61
251,172
245,111
247,764
250,221
252,652
251,545
246,699
250,188
249,809
289,655
252,397
246,753
250,865
247,172
247,904
15,568
248,428
253,124
249,739
247,519
248,401
130,896
251,055
253,837
248,448
245,242
Calcule la media, rango y la desviación estándar para cada máquina. Que puede usted concluir al comparar los tres resultados?
3.
MEDIDAS DE FORMA DE LA CURVA DE FRECUENCIAS
Cuando la curva de frecuencias absolutas tiene forma de campana, se puede medir que tan achatada es y que tan puntiaguda es. Las medidas que proporcionan información al respecto se conocen como medidas de forma, las cuales se clasifican en medidas de asimetría y medidas de curtosis 3.1 MEDIDAS DE ASIMETRIA: Estas medidas evalúan la forma HORIZONTAL de la curva de frecuencias.
3.1.1
A p=
Coeficiente de asimetría de Pearson: Ap
3 ( X´ −M e ) S X´ es la media, M e es la mediana y S es la desviación estándar.
Donde
Interpretación: Si Ap
0 la curva puede considerarse simétrica
Si Ap < 0 la curva es sesgada o asimétrica a la izquierda Si Ap > 0 la curva es sesgada o asimétrica a la derecha.
3.1.2
Coeficiente de asimetría de Fisher:
3 1 ∑ ( X i − X´ ) g1 = 3 n S
Interpretación: Si g1 > 0 la curva es asimétrica o sesgada a la derecha Si g1 < 0 la curva es asimétrica o sesgada a la izquierda. Si g1 = 0 la curva es simétrica o normal Gráficamente se tiene que:
Ap>0: Curva sesgada a la derecha o asimétrica a la derecha
Ap < 0: Curva sesgada a la izquierda o asimétrica a la izquierda
Ap≈0: Curva simétrica
3.2 MEDIDAS DE APUNTAMIENTO: Estas medidas coeficiente evalúan la forma VERTICAL de la curva de frecuencias, es decir, mide cuan 'puntiaguda' es una distribución respecto de un estándar. Este estándar es una forma acampanada denominada 'normal', y corresponde a una curva de gran importancia en estadística. 3.2.1 Medidas basadas en percentiles.
k=
Q 3−Q 1 2 ( P90−P10 )
Interpretación: Si k < 0,263 la distribución es platicúrtica Si k ≈ 0,263 la distribución es normal o mesocúrtica Si k > 0,263 la distribución es leptocúrtica
3.2.2 Coeficiente de curtosis de Fisher:
n
1 g2= 4 S
4
∑ ( X i− X´ ) −3 n
Interpretación: Si g2 > 0 entonces la curva es leptocurtica (una curva puntiaguda) Si g2 < 0 entonces la curva es platicurtica (una curva aplanada) Si g2 = 0, entonces la curva es mesocurtica, simétrica o normal Las siguientes figuras muestran gráficamente los tres tipos de curvas de acuerdo a la definición anterior:
Leptocurtica
Platicurtica
Mesocurtica o simétrica.
Calcule para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes de curtosis y asimetría e interprételos, compare con la forma de la curva obtenida en el grafico curva de frecuencias y obtenga conclusiones. Para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes son: COEFICIENTE DE ASIMETRIA = -0,53036 COEFICIENTE DE CURTOSIS = 1,73416 Interpretación: 1. Dado que Ap <0 entonces la curva de frecuencias es levemente sesgada o asimétrica a la izquierda 2. Dado que K>0 entonces la curva de frecuencias es levemente leptocurtica
4.
MEDIDAS DE LOCALIZACION
Para determinar la localización o ubicación de cualquier dato en una serie de valores, es necesario, inicialmente organizar los datos para aplicarle algunas técnicas y formulas que permitan ubicarlos. Por ejemplo la serie 2, 4, 8, 10,12 a simple vista el 8 ocupa la mitad de la serie. El 2 ocupa la primera posición y el 12 la ultima. Si dividimos la serie en 5 partes entonces la 5a ava parte la ocupa el 2. Las dos 5a avas partes la ocupa el 4, la cuarta ava parte la ocupa el 10. Cuando se disponen de muchos datos, se aplica ciertos términos y formulas para ubicar esos datos, los cuales se estudiaran a continuación: DECIL: Dp
Se habla de decil cuando la serie se divide en 10 partes, así pues p = 1,2,…….10 donde: D1 = primer decil D2 = segundo decil… etc. D10 = será el último numero de la serie o decimo decil.
QUARTIL: Qp Se habla de cuartil cuando la serie se divide en 4 partes, asi pues p = 1, 2,3 y 4 donde Q1 = primer cuartil Q2 = segundo cuartil Q3 = tercer cuartil Q 4 = cuarto cuartil o ultimo de la serie.
PERCENTIL: Xp Cuando la serie se divide en 100 partes, se habla de percentiles así pues p = 1, 2,3…..100 donde X7 = percentil de orden 7 o séptimo percentil X20 = percentil de orden 20 o vigésimo percentil X91 = percentil de orden 91 Si se analiza con detenimiento la relación entre percentiles deciles y cuartiles se puede por ejemplo decir que: X50 = Me = Q2 X25 = Q1 X90 = D9;
X70 = D7;
X75 = Q3
Cualquier percentil de orden p esta dado por:
np −N a 100 X p =LI + A nx
(
)
donde: Li: Limite inferior del intervalo que contiene el percentil P A: Es la amplitud np: Porcentaje del número total de datos Na: Frecuencia acumulada anterior a la del intervalo que contiene al percentil p nx: Frecuencia absoluta del intervalo que contiene a Xp RANGO INTERCUARTIL: (Q) Es una medida de dispersión entre el primer y tercer cuartil, o sea: Q = Q3 – Q1 RANGO INTERDECIL: D Es también una medida de dispersión entre el primer y noveno decil, o sea: D = D9 – D1 Estas medidas de desviación son importantes porque tienden a excluir los valores extremos, dando Como resultado una buena medida de dispersión, es decir estos rangos no son afectados por la presencia de datos con los valores externos.
Ejercicio: La siguiente tabla muestra los tiempos de operación de un puesto de trabajo constituido por un operario y una maquina donde se elabora el corte y doblado de un maletín de cuero, en una muestra de 100 observaciones de medidas en minutos.
Xi
ni
Ni
fi
Fi
fi*100%
Fi*100%
5.7 - 6.1
5.9
5
5
0.05
0.05
5
5
6.1 - 6.5
6.3
18
23
0.18
0.23
18
23
6.5 - 6.9
6.7
42
65
0.42
0.65
42
65
6.9 - 7.3
7.1
20
85
0.20
0.85
20
85
Li X1 LS
7.3 - 7.7
7.5
10
95
0.10
0.95
10
95
7.7 - 8.1
7.9
5
100
0.05
1.00
5
100
a)
Por encima de que valor se encuentra el 30% de los valores más altos
b) Por debajo de que valor se encuentra el 60% de los valores mas pequeños c)
Determine el valor que ocupa la posición 38, 72 y 92
d) Determine el rango intercuartil, el interdecil e interprete su resultados
a) X38 es el percentil 38 el calculado es el siguiente:
A nP / 100 N a nx X38 = Li + P = 38; n = 100
nP 100 x38 38 100 100 El 38 está contenido en Ni = 65, de aquí se deduce que: Li = 6.5 (INTERVALO Nº 3) A = 0.4 Na = 23 nx = 42
0.4(38 23) 6.64 42 X38 = 6.5 +
Luego el 6.64 ocupa aproximadamente la posición Nº 38 en la serie
De igual forma para la posición 72
A(nP / 100 N a ) nx X72 = Li +
nP 100 * 72 72 100 100 P = 72; n = 100 El 72 está contenido en Ni = 85, luego Li = 6.9 (INTERVALO Nº 4) A = 0.4, Na = 65; nx = 20
0.4(72 65) 7.04 20 X38 = 6.9 +
b)
Rango INTERCUARTIL: Q3 – Q1
A(nP / 100 N a ) nx Q3 = X75
Li +
nP 100 * 75 75 100 100 P = 75; n = 100 Li = 6.9
Na= 65
0.4(75 65) 20 nx = 20
X75 = Q3 = 6.9 +
Q3 = 7.1; y Q1 = 6.21
Luego Q3 – Q1 = 7.1 – 6.21 = 0.89
Es decir la variación entre la primera cuarta parte y la tercera cuarta parte de los datos es de 0.89 minutos. Ahora se calcula el rango interdecil y el resultado debe ser mayor que 0.89 por qué? RANGO INTERDECIL = D9 – D1 D9 = X90
nP (1009(90) 90 100 100 P = 90 El 90 está en Ni = 95
Li =73
Na = 85
nx = 10
0.4(90 85) 7.5 10 X90 = 7.3 + D10 = X10
nP (100)(10) 10 100 100 P = 10 El 10 está contenido en Ni = 23
Li = 6.1 Na= 5; nx = 18
0.4(10 5) 6.2 18 X10 = 6.1 + Luego D9 – D10 = 7.5 – 6.2 = 1.3 Establezca que tipo de Asimetría y Curtosis tiene la curva de frecuencias utilizando los índices g 1 y g2. Confronte estos resultados con la grafica Curva de frecuencias. Obtenga conclusiones.