c c
@ Introducción @ Generalidades, aplicaciones de la estadística, origen @ Población y muestras @ Tipos de datos @ Escalas de Medición
@ Tablas de frecuencias @ Diagramas de frecuencias @ Polígonos de frecuencias @ Diagramas de tallos y hojas @ Curvas de frecuencias
u PARA DATOS AGRUPADOS @ Medidas de tendencia central @ Medidas de dispersión @ Medidas de forma @ Medidas de posición PARA DATOS AGRUPADOS @ Medidas de tendencia central @ Medidas de dispersión @ Medidas de forma de la curva @ Medidas de Medidas de posición
@ Introducción @ Variaciones @ Permutaciones @ Combinaciones
c @ Introducción, conceptos @ Probabilidad clásica o Laplaciana @ Axiomas de probabilidad @ Probabilidad axiomática @ Eventos excluyentes y no excluyentes @ Independencia @ Probabilidad condicional @ Teorema de Bayes
c c @ Concepto de variable aleatoria como una función @ Función de probabilidad @ Función de Distribución @ Esperanza @ Varianza
@ Distribución Uniforme @ Distribución Binomial @ Distribución Geométrica @ Distribución Binomial Negativa @ Distribución Hipergeometrica @ Distribución Poisson @ Distribución Multinomial
!!" #$#! Desde épocas prehistóricas el hombre se ha enfrentado a diversos fenómenos de orden económico, político, social, cultural, ambiental, biológico, etc. y a medida que el mundo es absorbido por la tecnología y las comunicaciones, aparecen cantidades de datos que al ser analizados pueden revelar explicaciones de lo que ha sucedido, sucede o pueda suceder respecto a un fenómeno cualquiera. Es ahí donde entra la estadística a aportar sus herramientas, reglas y métodos que permitan ordenar, cuantificar y analizar dichos fenómenos. En general el término estadística tiene tres acepciones gramaticales claramente definidasu 1. La definición más común es un procedimiento de recolección de datos numéricos ordenados y clasificados bajo un criterio determinado. Esta definición se refiere a datos asociados con producción, ventas, cotizaciones bursátiles, demografías, características de poblacionesu vivienda, educación, empleo, costo de vida, pobreza, actividad económica etc. 2. Una segunda acepción, es la ciencia que, utilizando como instrumento las matemáticas y el cálculo de probabilidades, estudia las leyes de comportamiento de aquellos fenómenos que no están sometidos a las leyes físicas y con base en ellas predice e infiere resultados. En este caso se la denomina Estadística Matemática. 3. Finalmente, significa técnica o método científico usado para recolectar, organizar, resumir, presentar, analizar, interpretar, generalizar y contrastar los resultados de las observaciones de los fenómenos reales. Cabe anotar que la estadística se aplica en cualquier área del conocimientou Computación, ingenierías (todas), finanzas, medicina, sociología, biología, astronomía, periodismo, sicología, odontología, genética y pruebas de ADN, contaduría, economía, seguridad social, etc. Tareau Investigue una aplicación o ejemplo de la estadística en cada una de las áreas mencionadas. Terminología usada frecuentemente en estadísticau 1. c%&!"u En estadística el concepto de población se refiere al conjunto universo o colección completa de los elementos o resultados de la información buscada. Los elementos, pueden ser de cualquier índoleu personas, animales, objetos, características, etc. Es importante anotar que los elementos también se conocen en estadística como objetos, observaciones o individuos. Una población puede ser finita o infinitau 1.1 c%&!"'u Aquella donde el número de elementos que la conforman es relativamente pequeño, ³fácil de contar´. Algunos expertos consideran que una población es finita cuando alcanza un máximo de 10000 elementos. Ejemplosu El numero de hospitales de una ciudad, el número de escuelas de secundaria, el número de estaciones de gasolina, el número de alumnos en un colegio, etc. 1.2 c%&!" 'u Aquella donde el número de elementos que la conforman es grande, ³no es fácil de contar´. Ejemplosu El numero de habitantes en una ciudad, la cantidad de cervezas producidas por una empresa en una semana, el numero de aspirinas producidas por Bayer en un día, el numero de bacterias en un lago rio o manantial de agua, etc. El tamaño de la población se representara por la letra mayúscula N 2. (# Una muestra es un subconjunto o una parte representativa de una población. El tamaño de la muestra se representara por la letra minúscula n 3. # %#()!(# son números o denominaciones que se pueden asignar a un individuo o elemento de una población 4. c*+(u Es cualquier característica medible de una población. Ejemplo, el promedio del peso en kilogramos de todos los estudiantes de la universidad.
X. #$#! Una estadística, es cualquier característica medible de una muestra. Ejemplo el promedio del peso en kilogramos de los estudiantes de quinto semestre 6. (# Es la enumeración completa de una población c u Existen dos tipos de datosu Categóricos o cualitativos y numéricos o cuantitativos. 1. (,"!# ! &)# -) #!(#.u Son aquellos datos cuyas características no son medibles, representan atributos o cualidades, por ejemplo el sexo, la raza, la nacionalidad, el estado civil etc. 2. +/!# ! )# -) ! #.u Son aquellos cuyas características son medibles, producen respuestas numéricas, por ejemplou la edad, la estatura, la temperatura, el diámetro de un buje, etc. Los datos numéricos a su vez se clasifican en dos tiposu Discretos y continuosu 2.1 #!(#u Aquellos que se producen a partir de un conteo, por ejemplo el número de municipios del departamento del Atlántico, el número de hijos por familia, el número de autos en un parqueadero, etc. Puede observarse que este tipo de conteo produce un número entero. 2.2 #u Aquellos que se producen a partir de un proceso de medición, donde la característica que se mide puede tomar cualquier valor en u intervalo, por ejemplo, la estatura de los estudiantes de la universidad, la presión diastólica de los ciclistas de la vuelta a Colombia, el tiempo que usted tarda de su casa a la universidad, etc. Puede observarse que para cada uno de los ejemplos mencionados, necesariamente los valores se encuentran en un intervalo dado, por ejemplo la estatura estará por decir algo entre 1 metro y 2.X metros, al menos que haya un super enano de X cms. y un gigante de tres metros. Los datos también se pueden clasificar según la escala de medición o el procedimiento que los genero´. Cuatro son los tipos de escala que se utilizan en estadísticau Nominal, ordinal, de intervalo y de razón. 1. #()(&+&u Escala nominal para datos numéricos (va continuas): En esta escala, los números no representan cantidades ni mediciones, solo nombres. Ej. El numero asignado a las camisetas de un equipo de futbol, los números telefónicos, etc. Escala nominal para datos categóricos (va discretas)u Ej. El numero X representa el estado civil, el numero 3 representa la raza, el numero X0 representa la religión, el 0 sexo femenino, el 1 sexo masculino etc. 2. #()(&&u Una escala ordinal asigna varios niveles de manera ordenada a un atributo que se esté midiendo, tal que refleje niveles de perfeccionamiento alcanzados. Ej. El grado de secundariau primero, segundo, hasta undécimo, la evaluación de un niño en la escuela, Iu insuficiente, Au aceptable, Bu bueno, Eu excelente., rangos académicosu 1u Doctor, 2u Magister, 3u Licenciado, 2u Técnico, 1u Bachiller, etc. 3. #()(&(()& En esta escala la distancia que hay entre los valores es importante, por ejemplo en los puntajes del icfes un puntaje de X0 es superior a uno de 4X, además puede decirse que el puntaje de X0 es X puntos más alto, una temperatura de 60 grados (Celsius) es 30 grados más caliente que una de 30, pero no puede afirmarse que 60 es el doble de caliente que 30. 4. #()(&(0"!!((u Los datos medidos en una escala de intervalo con un punto inicial cero que se interprete como ³ninguno´, se llaman datos de razón, ello permite determinar cuánto es mayor una medida que otra. Ej. El salario, si A gana X00.000 y B gana 1000.000, entonces podemos decir perfectamente que B gana el doble de A, el peso de una persona, la estatura, etc. Tareau Proponga dos ejemplos de cada escala y justifique porque pertenecen a ellas.
Cuando se tiene un conjunto de datos tomados de un trabajo de campo o de una investigación, es necesario organizarlos de tal manera que se puedan interpretar y analizar sus tendencias y finalmente generar conclusiones. A partir de un ejemplo se inicia esta unidad, construyendo paso por paso lo que se conoce como tabla de frecuencias. Ejemplou Los siguientes datos corresponden a una muestra de los pesos en kilogramos de 80 cajas de banano tipo exportación, tomadas en una empresa bananera del Magdalena.
83,3 83,4 83,X 83,6 83,7 83,8 83,9 84 84,1 84,2 87,8 87,9 88,2 88,3 88,3 88,3 88,X 88,X 88,6 88,6
88,7 88,9 89 89,2 89,3 89,3 89,6 89,7 89,8 89,8 89,9 89,9 90 90,1 90,1 90,3 90,3 90,4 90,4 90,4
90,X 90,6 90,7 90,8 90,9 91 91 91 91,1 91,1 91,1 91,2 91,2 91,X 91,6 91,6 91,8 91,8 92,2 92,2
92,2 92,3 92,6 92,7 92,7 92,7 93 93,2 93,3 93,3 93,4 93,7 94,2 94,2 94,4 94,7 9X,6 96,1 98,8 100,3
Tabla de frecuenciasu El primer paso es ordenar los datos de menor a mayor como puede verse. Numero de intervalos o clasesu Se trata de agrupar los 80 datos en intervalos o clases, tal que se nos facilite el trabajo de interpretación y tendencias. Cada intervalo tendrá una amplitud, un límite inferior y uno superior, se sugiere que la amplitud sea igual para todos los intervalos, (no siempre es así). Mientras menos intervalos será más fácil el trabajo, pero cuidado, se corre el riesgo de perder información. +((()u Debido a que no existe un acuerdo entre los estadísticos para el número de intervalos, se sugiere usar entre X y 20 intervalos, como guía se sugiere la regla de Sturges que es la que usaremos en este cursou
k=1+3.33logn Para este ejemplo k=1+3.33log80=7.337§7 +2& Se calcula como el cociente entre el rango R y el numero de intervalos k, donde R=Xmaximo-Xminimo, en este caso, Xmax = 100.3 y Xmin = 83.3, es decir R=17 Luego A=17/7=2.428X71429 Qué pasaría si se construye la tabla de frecuencia con 7 intervalos y una amplitud de 2.428X71429, veamosu Límite inferior y superior de cada intervalo Intervalos 83.3 - 8X.728X7143 8X.728X7143 - 88.1X714286 88.1X714286 - 90,X8X7143 90,X8X7143 - 93,01428X7 93,01428X7 - 9X,4428X71 9X,4428X71 - 97,8714286 97,8714286 - 100,3000000 Como puede verse la cantidad de decimales no permite trabajar con comodidad la agrupación, para ello se proponeu Convertir si es posible la amplitud en un numero entero, modificando el numero de intervalos k o el rango R, o ambos a la vez, teniendo en cuenta que el rango R = 17 nunca debe disminuirse, ya que al disminuir R quedarían datos por fuera. Veamosu A=17 / 7, si hacemos R=18 y k=6 resultau
Otras opciones sonu A=21/7=3, A=20/X=4, etc. pero la mas razonable es 18/6 = 3. Aumentar o disminuir el valor de k en una unidad no afecta el propósito de agrupación, es por ello que al modificar R y k debe hacerse de una manera razonable. Determinar el Xmin y el Xmax. Dado que el rango se aumento en una unidad, ese uno debe repartirse entre el Xmin y el Xmax, no siempre en partes iguales sino que debe hacerse buscando la manera más cómoda de agrupamiento. El siguiente grafico muestra la repartición del unou 83.3 83
R=17 R=18
100.3 ___101
Es decir 0.3 a la izquierda y 0.7 a la derecha, 0.3+0.7=1.0, a su vez se cumple que 101-83=18, obteniéndose un numero entero para cada lado, lo cual permite mayor facilidad en el manejo de los datos. Si se reparte el uno en partes iguales el Xmin seria de 82.8 y el Xmax de 100.8, a su vez se cumple que 100.8-82.8=18 que como puede verse es mas recomendable el procedimiento anterior.
Finalmente estamos ya en disposición de armar la tabla de frecuencias con k=6, R=18, Xmin=83 y Xmax=101
1 2 3 4 X 6
Intervalos 83 ± 86 86 ± 89 89 ± 92 92 ± 9X 9X ± 98 98 ± 101 &(#
xi 84.X 87.X 90.X 93.X 96.X 99.X
ni 10 13 3X 18 2 2 34
Ni 10 23 X8 76 78 80
f i (%) 12.X 16.2X 43.7X 22.X 2.X 2.X 5446
Fi (%) 12.X 28.7X 72.X 9X 97.X 100
Tenga en cuenta que cada dato debe quedar exactamente en un intervalo, no en dos al mismo tiempo, por ejemplo el 89 está solo en el intervalo 2. Xiu se conoce como marcas de clase y se obtiene sumando los límites de cada intervalo y dividiendo entre dos. Este valor refleja el promedio de cada intervalo. ni u Se conoce como frecuencias absolutas, es el numero de observaciones o individuos en cada intervalo. Niu Se conoce como frecuencias absolutas acumuladas. f iu Se conoce como frecuencia relativa, se obtiene de la relación entre la frecuencia absoluta y el número total de datos, es decir, es la misma columna de la frecuencia absoluta pero expresada en porcentaje Fiu Es la misma frecuencia absoluta acumulada pero expresada en porcentaje, se conoce como frecuencia relativa acumulada.
(2(!"7*&##u nálisis e interpretación de la fila Nº 4: Xi = 93.X, significa que ³el promedio de los datos que se encuentran en ese intervalo es de 93.X kilogramos´. ni = 18, ³ hay 18 cajas cuyos pesos oscilan entre 92 y 9X kilogramos´ Ni = 76, ³hay 76 cajas cuyo peso máximo es de 9X kilogramos´ o ³hay 76 cajas cuyos pesos oscilan entre 83 y 9X kilogramos´ f i = 22.X%, ³hay un 22.X% de las cajas cuyos pesos están entre 92 y 9X kilogramos´ Fi = 9X%, ³El 9X% (76/80) de las cajas tienen un peso máximo de 9X kilogramos´ Notau Existen diversos procedimientos que a la larga todos confluyen a lo mismou Obtener el agrupamiento de los datos. Los siguientes gráficos son los más usados cuando de datos numéricos se tratau a) ÿistograma de frecuencias absolutasu En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta ni b) Polígono de frecuencias absolutasu En el eje X se ubican las marcas de clase y en el eje Y la frecuencia absoluta ni
c) ÿistograma de frecuencias absolutas acumuladasu En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta acumulada Ni d) Polígono de frecuencias absolutas acumuladasu En el eje X se ubican los intervalos y en el eje Y la frecuencia absoluta acumulada Ni e) Curva de frecuencias absolutasu Es una línea continua del polígono de frecuencias absolutas f)
Diagrama de tallos y hojasu Este diagrama propuesto por el estadístico John Tukey ofrece una forma novedosa de presentar toda la información de los n datos, de manera que se puede apreciar el comportamiento mucho mas real que una tabla de frecuencias. Un Tallo es el primer digito o parte del numeral, mientras que una hoja esta formada por el o los dígitos restantes. Por ejemplo el numero 4X6 se puede descomponer de dos formasu 4 | X6 Ĺ
Ĺ
Tallo Hoja, o tambiénu 4X
|6
Ĺ
Ĺ
Tallo
Hoja
Para nuestro ejerciciou
Histograma de frecuencias absolutas Histograma de frec. abs.acumuladas
4
rec. abs.acum.
rec. abs.
6 4
6
X
6
X
ntervalos
ntervalos
Poligono de frecuencias absolutas Poligono de frec. abs.acum.
4
rec. abs.acum.
rec. abs.
6 4
6
X
arcas de clase
6
X
ntervalos
urva de rec abs.
83
86
89
92
9X
98
101
arcas de clase
,+(&̕# 83
3 4 X 6 7 8 9
84
0 1 2
87
8 9
88
2 3 X X 6 6 7 9
89
0 2 3 3 6 7 8 8 9 9
90
0 1 1 3 3 4 4 4 X 6 7 8 9
91
0 0 0 1 1 1 2 2 X 6 6 8 8
92
2 2 2 3 6 7 7 7
93
0 2 3 3 4 7
94
2 2 4 7
9X
6
96
1
98
8
100 3
Se observa que hay una gran concentración de observaciones entre 88 y 93 kilogramos.
9(!!# 1. Los siguientes datos corresponden al consumo de agua en litros/min. de una muestra de 129 casas 4,6 12,3 7,1 7 4 9,2 6,7 6,9 11,X X,1 3,8 11,2 10,X 14,3 8 8,8 6,4 X,1 X,6 9,6
7,X 7,X 6,2 X,8 2,3 3,4 10,4 9,8 6,6 3,7 6,4 6 8,3 6,X 7,6 9,3 9,2 7,3 X 6,3
13,8 6,2 X,4 4,8 7,X 6 6,9 10,8 7,X 6,6 X 3,3 7,6 3,9 11,9 2,2 1X 7,2 6,1 1X,3
18,9 7,2 X,4 X,X 4,3 9 12,7 11,3 7,4 X 3,X 8,2 8,4 7,3 10,3 11,9 6 X,6 9,X 9,3
10,4 9,7 X,1 6,7 10,2 6,2 8,4 7 4,8 X,6 10,X 14,6 10,8 1X,X 7,X 6,4 3,4 X,X 6,6 X,9
1X 9,6 7,8 7 6,9 4,1 3,6 11,9 3,7 X,7 6,8 11,3 9,3 9,6 10,4 9,3 6,9 9,8 9,1 10,6
4,X 6,2 8,3 3,2 4,9 X 6 8,2 6,3
a) Elabore una tabla de frecuencias b) Elabore todos los gráficos c) Interprete los datos de la fila 4 d) Cuantas casas consumen un volumen máximo de 7,8 L / m :. Si tienes una muestra de X00000 datos para agrupar cuantos intervalos de clase serían necesarios. Pueden concebirse investigaciones en donde una muestra tenga X00000 o más datos? Dé ejemplos. ;. Se conocía la tabla de distribución de los salarios en dólares de X0 obreros de una empresa, desafortunadamente solo queda de ella lo siguienteu LI Xi LS 16X -
Xi.
ni
Ni
f i * 100 (%)
Fi *100(%)
X 7 27 8 40 - 100X
4
Totales a) Complete la tabla b)
Construya todos los gráficos correspondientes
<. Se tomó una muestra sobre el consumo semanal de arroz en libra por familia en 44 hogares y los resultados fueron.
12
X
8
6
9
X
6
7
0
3
X
0
1
4
3
7
6
7
6
X
4
X
4
X
2
X
9
1
7
8
3
10
7
X
6
X
2
3
3
4
1
12
1
11
Construya una tabla de frecuencias para estos datos y responda las siguientes preguntasu a) b) c) d) e)
Cuáles datos representan el 2X% menor de la muestra? Cuántas familias consumen 7 libras o menos semanalmente? Qué porcentaje de las familias consumen más de 9 libras por semana? Podemos decir que la mitad de la gente consume menos de 6 libras por semana? Qué tipo de distribución (modelo de curva) siguen estos datos?
X. Para comprobar la eficacia de las maquinas de llenado de bolsas de leche las cuales tienen un contenido nominal de 946 mililitros. Para ello se realiza un muestreo de 80 bolsas elegidas al azar. Los resultados se muestran en la siguiente tablau 9X3
966
948
928
940
941
96X
963
94X
966
937
937
933
933
962
967
972
937
9XX
97X
96X
960
940
969
94X
946
927
970
973
968
962
981
98X
9X4
9X8
9X9
934
9X9
963
9X0
973
93X
9XX
971
937
9X6
943
970
9XX
9X9
947
940
946
963
9X0
933
9X0
939
941
936
9X2
973
938
960
949
948
9X2
948
93X
949
938
934
941
9X8
931
9X7
941
942
94X
927
a) Construya una tabla de distribución de frecuencias para estos datos y responda las siguientes preguntasu Qué porcentaje de bolsas tuvo un exceso de 946 ml? Construir el histograma y el polígono de frecuencias absolutas. Construir el polígono de frecuencias acumuladas u ojiva Que tipo de curva de frecuencias siguen estos datos? . Con el fin de conocer la tendencia de consumo de las marcas de aceite para tracto mulas se realizó una encuesta a 100 conductores y los resultados fueron los siguientesu Marca N° de conductores BEG«««««...1X HAVOLINE««..20
RIMULA««.«..60 HDX«««««..3 OKS«««««...4 Otras««««..«8 Defina la variable aleatoria, la población, la muestra, diseñe una tabla de frecuencias, construya un gráfico de barras, de tortas o sectores, consulte y elabore diagramas pictóricos o pictogramas. En los dos ejercicios siguientes (7 y 8) determineu a) b) c) d) e) f) g) h) i)
La variable aleatoria y de qué tipo es. Cuál es la población y cuál es la muestra. Construya una tabla de frecuencias e interprete la fila 4 Construya todos los gráficos correspondientes Calcule la media , la mediana y la desviación estándar Determine el rango intercuartil y el rango interdecil Calcule e interprete el percentil 3X y el percentil 80 Por encima de que valor se encuentra el 70 % de los valores mas altos Por debajo de que valor se encuentra el 70 % de los valores mas pequeños
. El Departamento de Seguridad Industrial de la compañía X inició un estudio para conocer el índice de contaminación que producen los gramos de ceniza de carbón bituminoso que se extrae de la mina A. Se tomaron 60 observaciones y los resultados fueronu 23.1
2X.1
21.6
28.7
21.X
9.4
23.4
22.6
22.7
20.1
13.X
21.X
18.9
18.X
24.1
18.4
31.2
21.3
16.1
16.8
26.2
19.6
28.X
17.2.
30.X
14.6
14.6
2X.2
16.7
13.X
28.X
23.8
9.4
18.0
27.2
1X.1
22.7
16.6
29.6
26.8
23.4
23.2
26.7
11.6
21.8
26.2
8.X
21.2
31.0
11.6
11.3
28.7
27.X
20.6
22.9
31.4
23.0
12.X
22.6
19.6
3. Con el fin de controlar el diámetro medio de los cojinetes que se producen en una empresa metalmecánica, el departamento de control de calidad tomó 60 muestras extraídas al azar Los diámetros están en pulgadas y los resultados fueronu 0.738 0.728
0.737 0.736
0.743 0.736
0.740 0.73X
0.741 0.733
0.73X 0.742
0.74X
0.730
0.742
0.740
0.738
0.72X
0.743
0.732
0.732
0.730
0.734
0.738
0.73X
0.729
0.73X
0.727
0.732
0.736
0.732
0.737
0.731
0.746
0.73X
0.729
0.731
0.741
0.734
0.737
0.744
0.738
0.736
0.734
0.727
0.73X
0.740
0.734
0.733
0.726
0.736
0.732
0.741
0.732
0.739
0.739
0.730
0.73X
0.733
0.73X
´ En una empresa de producción de pinturas de aceite se presentó un problemau "los clientes se quejaban del grado de impurezas en los galones de aceite" El departamento de control de calidad decidió tomar 80 muestras (u 80 galones) y la cantidad de impurezas en gramos por galón fueron los siguientesu 29.X 27.3 40.X 22.9 23.8 31.6 32.7 3X.1 39.X 37.2
4X.X38 32.0 20.4 4X.8 30.6 3X.4 4X.1 31.6 23.0 4X.2
38.8 42.6 28.X 31.X 2X.X 31.7 31.6 21.1 42.2 30.7
39.0 44.X 21.X 32.1 41.2 3X.2 37.1 31.3 34.2 33.3
27.X 26.9 28.8 31.8 3X.X 28.7 34.4 34.2 41.6 44.X
32.3 4X.6 36.7 23.9 39.6 30.X 46.0 2X.X 31.7 27.2
42.6 36.7 36.6 29.X 31.7 2104 40.2 36.6 30.6 41.2
3X.X 38.8 43.2 39.6 26.1 43.1 31.1 28.8 34.6 30.X
La variable aleatoria y de qué tipo es. Cuál es la población y cuál es la muestra. Construya una tabla de frecuencias e interprete la fila 4 Construya todos los gráficos correspondientes Utilice el polígono de frecuencias acumuladas y determine (por interpolación) cuantos galones aproximadamente tienen un contenido por debajo de los 33.X gramos de impurezas. f) Calcule la media , la mediana y la desviación estándar g) Determine el rango intercuartil y el rango interdecil h) Calcule e interprete el percentil 3X y el percentil 80 i) Por encima de que valor se encuentra el 70 % de los valores mas altos j) Por debajo de que valor se encuentra el 70 % de los valores mas pequeños a) b) c) d) e)
&&((!&#( (#&)(&# +(&(#(&(9(!!X-#(&(!8(. Aquí están ordenados de menor a mayoru 9X3
966
948
928
940
941
96X
963
94X
966
937
937
933
933
962
967
972
937
9XX
97X
96X
960
940
969
94X
946
927
970
973
968
962
981
98X
9X4
9X8
9X9
934
9X9
963
9X0
973
93X
9XX
971
937
9X6
943
970
9XX
9X9
947
940
946
963
9X0
933
9X0
939
941
936
9X2
973
938
960
949
948
9X2
948
93X
949
938
934
941
9X8
931
9X7
941
942
94X
927
((, 2#(+*=+<& +# (,&#(9(!!#; 37´ 9(!! 2*,:´&#
UNIDAD III MEDICION DE DATOS
c 5 : c ; 5 c2"#(&#+(#(((!!(& Supóngase que Pedro obtiene 32 puntos en una prueba de lectura. La calificación por sí misma tiene muy poco significado a menos que usted conozca cuál es el total de puntos que obtiene una persona promedio al participar en esa prueba, cuál es la calificación menor y mayor que se obtiene, y cuán variadas son esas calificaciones. Es decir que para que una calificación tenga significado hay que contar con elementos de referencia generalmente relacionados con ciertos criterios estadísticos. Las medidas de tendencia central, sirven como puntos de referencia para interpretar las calificaciones que se obtienen en una prueba. Digamos por ejemplo que la calificación promedio en la prueba que hizo Pedro fue de 20 puntos. De ser así podemos decir que la calificación de Pedro se ubica notablemente sobre el promedio. Pero si la calificación promedio fue de 60 puntos, entonces la conclusión sería muy diferente, dado que se ubicaría muy por debajo del promedio de la clase. En resumen, el propósito de las medidas de tendencia central sonu Mostrar en qué lugar se ubica la persona promedio o típica del grupo. Sirve como un método para comparar o interpretar cualquier puntaje en relación con el puntaje central o típico. Sirve como un método para comparar el puntaje obtenido por una misma persona en dos diferentes ocasiones. Sirve como un método para comparar los resultados medios obtenidos por dos o más grupos. +(!"(&#+(#(((!!(& Las medidas de tendencia central más comunes sonu 55 +(+/!u Comúnmente conocida como media o promedio. Para diferenciar datos muestrales de datos poblacionales, la media aritmética se representa con un símbolo para cada uno de ellosu si trabajamos con la población, este indicador será ȝ; en el caso de que estemos trabajando con una muestra, el símbolo será
o también,
Para la muestrau
o también,
Ejemplou Obtenga la media de los siguientes pesos de 9 personas (en Kg)
80, 70, 6X, 7X, 71,7X, 68, 69,7X R/ 72 kg. 5: +(+/!2( Cuando los datos tienen un peso o porcentaje diferente de la unidad, entonces a cada dato hay que asignarle su respectivo peso , el ejemplo mas común es el de la nota promedio final de una asignaturau 3.0 en el 2X% 4.0 en el 3X% 3.X en el 40% Calcule el promedio R/3.XX 5; (( u Es el dato que está en la posición central de la serie, en este ejemplou 6X, 68, 69, 70, 71,7X, 7X, 7X,80 5< Es aquel dato que más se repite en la serie, en este ejemplo, MO = 7X kg Otras medidas de tendencia central de menor uso sonu 5X ((+/!
5 +(+"! Es la inversa de la media aritmética de las xis invertidasu
Para este ejemplo, verifique queu G = 71,869
y MA = 71,739
: c Estas medidas son muy útiles en estadística ya que proporcionan una medición de la variabilidad de los datos alrededor de la media, es decir que tan regados o dispersos están los datos con respecto a la media, que tan homogéneos o compactos están los datos. Las medidas más comunes de dispersión sonu :5 & ,u R= Xmax - Xmin :: La Varianza Para la poblaciónu
, o tambiénu
Para la muestrau
, o tambiénu
:; (#)!"#* (#)!"$2! Es la raíz cuadrada de la varianzau Para la población> Para la muestrau Para este ejemplou S2 = 21.2X y S= 4.609
c 5 : c ; < 1. 55 (+/!
ku Nº de intervalos ni = frecuencias absolutas xi = Marcas de clase Calcule la media para el ejercicio de las cajas de banano 5: (
Liu Limite inferior del intervalo que contiene la mediana u Frecuencia absoluta del intervalo que contiene la mediana = Frecuencia absoluta acumulada anterior a la del intervalo que contiene la mediana Para este ejemplou n/2=40 Ahora se busca en la columna Ni el primer valor que contiene a 40 que es X8, el cual corresponde al intervalo 3; luego el intervalo que contiene la mediana es el tercero, (89 - 92). Luego LI=89 A=3 =23 = 3X Reemplazando se obtieneu
= 90.4X7 kg.
5;
LIu Limite inferior del intervalo modal
1u Diferencia entre la frecuencia absoluta del intervalo modal y la frecuencia absoluta del intervalo anterior 2u Diferencia entre la frecuencia del intervalo modal y la frecuencia absoluta del intervalo siguiente u Es la Amplitud Para este ejemplou El intervalo modal es aquel de mayor frecuencia absoluta, en este caso, el tercero, pues ni = 3X LI=89 A1 = 3X-13= 22 A2 = 3X-18= 17 Reemplazandou
= 90.69 kg. : c :5)0
, o también
niu frecuencias absolutas Xiu Marcas de clase ku Nº de intervalos nu Tamaño de la muestra o numero de datos :; (#)!"(#* Calcule la varianza y la desviación estándar para el ejercicio de las cajas de banano
; ;5 La asimetría de una distribución se refiere a la forma geométrica de la curva de frecuencias. Una de esas curvas más interesantes en estadística es la curva simétrica en forma de campana, llamada curva normal, ya que la mayoría de los experimentos estadísticos se compartan aproximados a esta curva. En la práctica, las curvas de frecuencias presentan asimetría ya sea a la derecha o a la izquierda. Una medida de la asimetría de la curva o que tan deformada está la curva (con respecto a la curva normal) es el coeficiente denotado por g1 y definido comou Cuando los datos no están agrupadosu
Cuando los datos están agrupados en una tabla de frecuenciasu
ni u frecuencias absolutas Xi u Marcas de clase ku Nº de intervalos Su La desviación estándar Interpretaciónu Si g1 > 0 la curva es asimétrica o sesgada a la derecha Si g1 < 0 la curva es asimétrica o sesgada a la izquierda. Si g1 = 0 la curva es simétrica o normal Gráficamenteu
,5?4
Curva Sesgada a la derecha
,5@4 Curva Sesgada a la izquierda
Curva Simétrica,5A4
Otro coeficiente de frecuente aplicación esu
?
es la media,
·
; donde
es la mediana y S es la desviación estándar.
Entoncesu Si Ap Å 0 la curva puede considerarse simétrica Si Ap < 0 la curva es sesgada o asimétrica a la izquierda Si Ap > 0 la curva es sesgada o asimétrica a la derecha.
;: Este coeficiente mide la forma VERTICAL de la curva de frecuencias. El !('!(((! ## mide que tan puntiaguda es la curva de frecuencias con respecto a la llamada curva normal o simétrica. El coeficiente de curtosis está definido poru Cuando los datos no están agrupados:
-3 Cuando los datos están agrupados en una tabla de frecuencias
±3 ni u frecuencias absolutas Xiu Marcas de clase ku Nº de intervalos Su La desviación estándar
Interpretaciónu Si g2 > 0 entonces la curva es leptocurtica (una curva puntiaguda) Si g2 < 0 entonces la curva es platicurtica (una curva aplanada) Si g2 = 0, entonces la curva es mesocurtica, simétrica o normal Las siguientes figuras muestran gráficamente los tres tipos de curvas de acuerdo a la definición anterioru
Leptocúrtica
Platicúrtica
Mesocúrtica
Calcule para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes de curtosis y asimetría e interprételos, compare con la forma de la curva obtenida en el grafico curva de frecuencias y obtenga conclusiones. Para el ejercicio de LOS PESOS DE LAS CAJAS los coeficientes sonu COEFICIENTE DE ASIMETRIA = -0,X3036 COEFICIENTE DE CURTOSIS = 1,73416 Interpretaciónu 1. Dado que Ap <0 entonces la curva de frecuencias es levemente sesgada o asimétrica a la izquierda 2. Dado que K>0 en tonos la curva de frecuencias es levemente leptocurtica
< Para determinar la localización o ubicación de cualquier dato en una serie de valores, es necesario, inicialmente organizar los datos para aplicarle algunas técnicas y formulas que permitan ubicarlos. Por ejemplo la serie 2, 4, 8, 10,12 a simple vista el 8 ocupa la mitad de la serie. El 2 ocupa la primera posición y el 12 la ultima. Si dividimos la serie en X partes entonces la Xa ava parte la ocupa el 2. Las dos Xa avas partes la ocupa el 4, la cuarta ava parte la ocupa el 10. Cuando se disponen de muchos datos, se aplica ciertos términos y formulas para ubicar esos datos, los cuales se estudiaran a continuaciónu 2 Se habla de decil cuando la serie se divide en 10 partes, así pues p = 1,2,««.10 dondeu D1 = primer decil D2 = segundo decil« etc. D10 = será el ultimo numero de la serie o decimo decil. B B2 Se habla de cuartel cuando la serie se divide en 4 partes, asi pues p = 1, 2,3 y 4 donde Q1 = primer cuartil Q2 = segundo cuartil Q3 = tercer cuartil Q 4 = cuarto cuartil o ultimo de la serie. c C2 Cuando la serie se divide en 100 partes, se habla de percentiles así pues p = 1, 2,3«..100 donde X7 = percentil de orden 7 o séptimo percentil X20 = percentil de orden 20 o vigésimo percentil X91 = percentil de orden 91 Si se analiza con detenimiento la relación entre percentiles deciles y cuartiles se puede por ejemplo decir queu XX0 = Me = Q2 X2X = Q1 X90 = D9; X70 = D7; X7X = Q3 Cualquier percentil de orden p esta dado poru
, dondeu Liu Limite inferior del intervalo que contiene el percentil P Au Es la amplitud npu Porcentaje del número total de datos Nau Frecuencia acumulada anterior a la del intervalo que contiene a Xp nxu Frecuencia absoluta del intervalo que contiene a Xp
-B. Es una medida de dispersión entre el primer y tercer cuartil, o seau Q = Q3 ± Q1 Es también una medida de dispersión entre el primer y noveno decil, o seau D = D9 ± D1
Estas medidas de desviación son importantes porque tienden a excluir los valores extremos, dando Como resultado una buena medida de dispersión, es decir estos rangos no son afectados por la presencia de datos con los valores externos. Ejerciciou La siguiente tabla muestra los tiempos de operación de un puesto de trabajo constituido por un operario y una maquina donde se elabora el corte y doblado de un maletín de cuero, en una muestra de 100 observaciones de medidas en minutos.
Xi
ni
Ni
fi
Fi
fi*100%
Fi*100%
X.7 - 6.1
X.9
X
X
0.0X
0.0X
X
X
6.1 - 6.X
6.3
18
23
0.18
0.23
18
23
6.X - 6.9
6.7
42
6X
0.42
0.6X
42
6X
6.9 - 7.3
7.1
20
8X
0.20
0.8X
20
8X
7.3 - 7.7
7.X
10
9X
0.10
0.9X
10
9X
7.7 - 8.1
7.9
X
100
0.0X
1.00
X
100
Li À X1 LS
a) Determine el valor que ocupa la posición 38, 72 y 92 b) Determine el rango intercuartil, el interdecil e interprete su resultados . X38 es el percentil 38 el calculado es el siguienteu
X38 = Li +
i - º
P = 38; n = 100
- º ® ® El 38 está contenido en Ni = 6X, de aquí se deduce queu Li = 6.X (INTERVALO Nº 3) A = 0.4 Na = 23 nx = 42 X38 = 6.X +
) ® oo
Luego el 6.64 ocupa aproximadamente la posición Nº 38 en la serie
De igual forma para la posición 72
X72 = Li +
-
P = 72; n = 100 -
®
- º
-
)
®
El 72 está contenido en Ni = 8X, luego Li = 6.9 (INTERVALO Nº 4) A = 0.4, Na = 6X; nx = 20 X38 = 6.9 + %.
o) ®
, B;DB5
Q3 = X7X
Li +
P = 7X; n = 100 Li = 6.9
nx = 20
- º
)
- ® ® -
Na= 6X
X7X = Q3 = 6.9 +
o)
Q3 = 7.1; y Q1 = 6.21 Luego Q3 ± Q1 = 7.1 ± 6.21 = 0.89
Es decir la variación entre la primera cuarta parte y la tercera cuarta parte de los datos es de 0.89 minutos. Ahora se calcula el rango interdecil y el resultado debe ser mayor que 0.89 por qué? = D9 ± D1 D9 = X90 P = 90
- ´´ ) ® ®´ -
El 90 está en Ni = 9X X90 = 7.3 + D10 = X10
Li =73
´ ) ® -
Na = 8X
nx = 10
P = 10
-
®
)- ) -
El 10 está contenido en Ni = 23 X10 = 6.1 +
®-
Li = 6.1 Na= X; nx = 18
- ) ® o -
Luego D9 ± D10 = 7.X ± 6.2 = 1.3 !. Establezca que tipo de Asimetría y Curtosis tiene la curva de frecuencias utilizando los índices g1 y g2. Confronte estos resultados con la grafica Curva de frecuencias. Obtenga conclusiones