ESTADISTICA DESCRIPTIVA
Docente: LEONEL DELGADO ERASO Especialista en Estadística
UNIVERSIDAD DE NARIÑO DEPARTAMENTO DE MATEMATICAS Y ESTADISTICA PASTO, 2014
CONTENIDO
ESTADISTICA DESCRIPTIVA.
Conceptos generales sobre estadística Distribuciones de frecuencias. Medidas de tendencia central. Medidas de dispersión. Gráficos Estadísticos Probabilidad.
PRIMERA UNIDAD CONCEPTOS GENERALES
DEFINICION DE ESTADISTICA La estadística es una ciencia que estudia los métodos, normas, reglas, leyes para la recolección, organización y análisis de datos, para sacar conclusiones válidas y tomar decisiones acertadas. POBLACION: Es el conjunto universal, el conjunto de referencia, el cual está conformado por todos los elementos que tienen la característica de estudio. Una población puede ser finita, (de tamaño N) o infinita. MUESTRA: Es un subconjunto de la población. Es una parte de la población, la cual debe cumplir con dos requisitos fundamentales: ser aleatoria y representativa. La primera hace referencia a que sus elementos deben seleccionarse al azar, y la segunda hace referencia al tamaño de la muestra. DATO: Es la medida de la observación.
VARIABLES ESTADISTICAS. Una variable estadística es una característica la cual al ser observada en diferentes individuos nos genera resultados distintos.
Las variables estadísticas pueden clasificarse en: CUANTITAVAS y CUALITATIVAS. Las variables CUANTITATIVAS se clasifican en: Continúas y Discretas. Las variables CUALITATIVAS se clasifican en: Nominales y Ordinales.
Las variables CUANTITATIVAS son aquellas que las podemos medir mediante un número. Las variables cuantitativas continúas son aquellas, que pueden tomar cualquier valor entre dos valores, o más fácilmente, aquellas que admiten decimales, por ejemplo, El salario de una persona, las utilidades diarias de un negocio, la puntuaciones en un examen, el cociente intelectual, etc.
Las variables cuantitativas discretas son aquellas que admiten, únicamente valores enteros, por ejemplo, el número de personas que habita en una casa, el número de estudiante en un curso de economía, la cantidad de familias que tienen acceso directo a internet, la cantidad de microempresa en una región, etc.
Las variables CUALITATIVAS son aquellas que representan, una propiedad, un atributo. Las variables cualitativas nominales presentan modalidades no numéricas y no se las puede ordenar, como por ejemplos: el color del cabello de una persona, el color de automóvil que prefiere una mujer, el estado civil de una persona, etc,. Las variables cualitativas ordinales son aquellas que además de representar una propiedad, las podemos ordenar. Es decir podemos determinar cuál va de primero, segundo, tercero,…., como por ejemplo: El nivel educativo de una persona, ( sin estudio, primarios, secundarios, tecnólogo, pregrado o universitarios, especialista, master, Doctor, PD). Otra variable ordinal, puede ser la apreciación de cierta marca de computadores por un usuario: mala, regular, buena, excelente. El premio que adquiere un deportista en los olímpicos: Bronce, plata, oro.
SUMATORIA Y PRODUCTORIA (opcional)
SUMATORIA( ). En las fórmulas que utilizamos para obtener varios resultados en estadística usamos las letras griegas. El símbolo, , el cual se lee “sumatoria” se utiliza para simplificar una suma de términos. Esta letra griega “sigma “ se acompaña con un valor inicial de la variable y un límite superior hasta donde toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, , significa que los términos que se obtienen al remplazar el valor de la variable se suman del primero hasta el último, en el caso de que la suma termine.
En general la sumatoria, se simboliza y define, así:
∑
En algunos casos el límite superior de la sumatoria es infinito,
∑
, y se obtiene una serie, así:
Ejercicio. Desarrollar y simplificar las siguientes sumatorias: )
)
∑
)
Solución. )
)
)
∑
∑
∑
∑
∑
PRODUCTORIA ( ). El símbolo , , el cual se lee “productoria”, se utiliza para simplificar un producto de términos. Esta letra griega “pi” se acompaña con un valor inicial de la variable y un límite superior hasta donde toma el valor la variable, este valor va cambiando de uno en uno. El símbolo, , significa que los términos que se obtienen al remplazar el valor de la variable se multiplican del primero hasta el último.
En general la productoria, se simboliza y define, así: ∏
Ejercicio. Desarrollar y simplificar las siguientes productorias: ) ∏
) ∏
Solución. )
∏
) ∏
SEGUNDA UNIDAD DISTRIBUCIONES DE FRECUENCIAS
Distribuciones de frecuencias para variable cuantitativa discreta y variables cualitativas Si tenemos una variable cuantitativa discreta o una variable cualitativa, la podemos resumir en una tabla que recibe el nombre de distribuciones de frecuencias. Para ellos revisemos las siguientes definiciones: Frecuencias absolutas. Las frecuencias absolutas es el número de veces que se repite un dato. Las simbolizaremos con la letra “efe” minúscula: La suma de las frecuencias absolutas es igual al número de datos ( ). +
+
+ …… +
∑
Observe que hemos tomado un subíndice , debido a que los valores que toma la variable, por lo general son menores que el número de datos ( ) Para determinar las frecuencias absolutas se utiliza el conteo o recuento. Se escriben los valores ordenados de la variable sin repetirlos. Luego se hace una marca frente a cada valor tantas veces el dato se encuentre en la lista de datos, se recomienda hacer grupos de cinco marcas. Para explicarlo más claramente, consideremos los siguientes datos los cuales podrían corresponder al número de hijos de 17 familia observadas: 2, 5, 4, 0, 2, 0, 2, 4, 2, 0, 5, 2,4,2, 0, 2, 2 El conteo o recuento se realizaría así: 0
IIII
= 4
2
IIII III
=8
4
III
=3
5
II
=2
Por lo tanto, las frecuencias absolutas son 4, 8, 3, 2, respectivamente.
Las Frecuencias Absolutas Acumuladas Las frecuencias absolutas acumuladas se obtienen mediante sumas sucesivas de las frecuencias absolutas. Las simbolizaremos con la letra “EFE” MAYUSCULA:
…………………………………
Observe que la última frecuencia absoluta acumulada es igual al número de datos.
Frecuencias relativas. Las frecuencias relativas se calculan dividiendo cada frecuencia absoluta ( ), entre el número de datos ( ). Generalmente se las expresa en porcentaje para su fácil interpretación. Se denotan y definen así:
La suma de las frecuencias relativas es igual a 1 o al 100%. ∑
1 = 100%.
Las Frecuencias Relativas Acumuladas. Las frecuencias relativas acumuladas se calculan dividiendo cada frecuencia absoluta acumulada ( ), entre el número de datos ( ). Generalmente se las expresa en porcentaje para su fácil interpretación. Se denotan y definen así:
Otra forma de calcular las frecuencias relativas acumuladas es mediante las sumas sucesivas de las frecuencias relativas.
………………………………… 1
100%
Observe que la última frecuencia relativa es el 100% o uno.
Con cada valor calculado procedemos a construir la distribución de frecuencias, la cual es una tabla que contiene: la variable de estudio, las frecuencias absolutas, las frecuencias relativas, las frecuencias absolutas acumuladas y frecuencias relativas acumuladas. La forma general de una distribución de frecuencias es la siguiente.
. .
. .
. .
TOTAL
donde, : Variable de estudio : Frecuencias absolutas. : Frecuencias absolutas acumuladas. : Frecuencias relativas. : Frecuencias relativas acumuladas.
. .
1=100%
. .
Ejemplo: Las pesquera más grande del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores. El gerente para hacer ajustes en el presupuesto de la empresa determina el número de hijos de los trabajadores que estén estudiando y obtiene los siguientes resultados: 2, 3, 1, 0, 3, 2, 0, 1, 3, 2, 3, 4, 3, 1, 1, 2, 3, 2, 4, 1, 0, 0, 1, 2, 3, 2, 1, 0, 3, 4, 2, 3, 3, 3, 4, 2, 1, 1, 0, 2 Construir una distribución de frecuencias.
Solución: La variable es el número de hijos de los empleados de la pesquera los cuales estén actualmente estudiando, esta variable es cuantitativa discreta y toma valores de 0, 1, 2, 3, 4. El conteo se indica a continuación. # de hijos 0 1 2 3 4
Conteo IIII I =6 IIII IIII =9 IIII IIII = 10 IIII IIII I = 11 IIII =4
Aplicando las definiciones y las fórmulas respectivas se obtiene la siguiente distribución de frecuencias.
# de hijos 0 1 2 3 4 TOTAL
# de empleados 6 9 10 11 4 40
6 15 25 36 40
15% 22,5% 25% 27,5% 10% 100%
15% 37,5% 62,5% 90% 100%
Analizando los resultados del tercer renglón tenemos que: 10 empleados de la pesquera, equivalentes al 25% del total, tienen 2 hijos estudiando. 25 empleados de la pesquera, equivalentes al 62,5% del total, tienen 2 o menos de dos hijos estudiando.
Distribuciones de frecuencias para una variable cuantitativa continua. Si tenemos una variable cuantitativa continua, generalmente los datos repetidos van hacer muy pocos, y al calcular sus frecuencias absolutas estas, tomarán valores de 1 o 2, en su gran mayoría. En estos casos para analizar este tipo de variables se recomienda agruparla en intervalos, clases o categorías. Por ejemplo, al clasificar a los habitantes de una región por su edad, podríamos hacer grupos de bebes (edades hasta el año y medio), de niños (edades hasta los 10 o 12 años), de adolescentes (edades hasta los 18 o 21 años), jóvenes (edades hasta los 25 o 30 años), adultos (edades hasta los 50 años), mayores (edades hasta los 60 años), tercera edad (edades después de los 60). Para construir una distribución de frecuencias para este tipo de variables, consideremos las siguientes definiciones: Rango o recorrido. Es la diferencia entre el valor máximo de los datos y el valor mínimo. = Número de intervalos, clase o categorías: A pesar de ser un criterio del investigador el de elegir con cuántos intervalos va a trabajar, la regla de Sturges, propuesta por Herbert Sturges, sugiere una fórmula para determinar cuántos intervalos, clases o categorías se debe utilizar. ( ), (La aproximación se la hace sin decimales y por exceso) Nota: Los intervalos que se forman se consideran semi-abiertos por derecha, es decir tienen la forma: [ ), este intervalo contiene todos los valores comprendidos entre y , incluyendo a y excluyendo a . Algunos autores definen de manera diferente los intervalos, por ejemplo, al considerarlo cerrado, es decir de la forma, [a,b] al siguiente intervalo se debe iniciar por lo menos 1 milésima más grande que b. Amplitud del intervalo. ( ). Es la distancia que hay entre el límite superior y el límite inferior de cada intervalo. No necesariamente todos los intervalos deben tener la misma amplitud. Se aconseja usar la siguiente fórmula , (La aproximación se la hace por exceso. Se puede usar decimales). Construcción de los intervalos El límite inferior ( ), del primer intervalo es el valor mínimo de los datos, y el límite superior del primer intervalo ( ), se obtiene sumando al valor mínimo la amplitud. Este límite superior será el límite inferior del segundo intervalo, de aquí en adelante el proceso se repite hasta formar el último intervalo.
Supongamos que deseamos trabajar con 5 intervalos de amplitud 4 y que el valor mínimo de los datos es de 23. Los intervalos se forman así: Primer intervalo
[23 , 23+ 4) = [23 , 27)
Segundo intervalo [27 , 27+ 4) = [27 , 31) Tercer intervalo
[31 , 31+ 4) = [31 , 35)
Cuarto intervalo
[35 , 35+ 4) = [35 , 39)
Quinto intervalo
[39 , 39+ 4) = [39 , 43)
Conteo o recuento: Construidos los intervalos empezamos a ubicar cada dato en uno de ellos, haciendo una marca frente al intervalo que lo contenga. Se recomienda hacer grupos de cinco marcas. Para explicarlo más claramente, consideremos los intervalos anteriores y los siguientes datos: 25, 40, 33, 31, 41, 28, 36, 42, …. El conteo o recuento comenzaría así: (por facilidad utilizamos una línea como marca) [23 , 27)
I
[27 , 31)
I
[31 , 35)
II
[35 , 39)
I
[39 , 43)
III
Observemos que el dato 31 se ubicó en el tercer intervalo y NO en el segundo, debido a que el segundo intervalo contiene los datos mayores o iguales a 27 y menores que 31. Esto debido a que los intervalos son de la forma [a,b).
Marcas de clase: Son los puntos medios de cada intervalo y se calculan promediando el límite inferior y el límite superior de cada intervalo.
Determinados los anteriores valores procedemos a construir la distribución de frecuencias, la cual es una tabla que contiene: la variable, las marcas de clase, las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.
. .
. .
. .
. .
. . =
TOTAL
. .
. .
1=100%
donde, : Límite inferior de cada intervalo : Límite superior de cada intervalo. : Marca de clase o punto medio de cada intervalo. : Frecuencias absolutas. : Frecuencias absolutas acumuladas. : Frecuencias relativas. : Frecuencias relativas acumuladas.
Nota: Si la variable es cuantitativa discreta y toma muchos valores, también la podríamos organizar utilizando intervalos.
Ejemplo. La más grande pesquera del Puerto de Tumaco, tiene en su nómina a 40 empleados. Por leyes del gobierno toda empresa debe dar un subsidio de educación a cada hijo de los trabajadores, como se mencionó y analizó en el problema anterior. Suponga ahora que la empresa crea un programa nutricional para sus empleados. La variable más importante es el peso de los trabajadores (medidos en kilogramos). Los especialistas en nutrición recogieron los siguientes datos 60, 70, 78, 80, 66, 59, 86, 88, 97, 68, 46, 61, 76, 45, 77, 70, 62, 73, 64, 72, 102, 74, 75, 82, 89, 66, 52, 90, 84, 57, 76, 87, 62, 73, 93, 69, 55, 75, 94, 54. Construir una distribución de frecuencias.
Solución: La variable de interés es el peso de los empleados, la cual es una variable cuantitativa continua, por lo tanto calculemos: Rango. En la serie de datos podemos observar que el peso mínimo es 45 Kg. y el peso máximo es de 102 Kg., entonces =
102 – 45
57
Número de intervalos. Aplicando la regla de Sturges, tenemos ( )
(
)
6,286799…
La amplitud de cada intervalo es 8,142857…
8,2
Los intervalos y el conteo o recuento se indican en la siguiente tabla. Recuerde que el límite inferior del primer intervalo es 45 y su límite superior se obtiene sumándole la amplitud de 8,2. Una manera de observar rápidamente el conteo es ordenando los datos, así. 45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77, 78, 80, 82, 84, 86, 87, 88, 89, 90, 93, 94, 97, 102. Peso (Kg) 45 53,2 53,2 61,4 61,4 69,6 69,6 77,8 77,8 86 86 94,2 94,2 102,4
Conteo III =3 IIII I =6 IIII II =7 IIII IIII I = 11 IIII =4 IIII II =7 II =2
Con las definiciones y fórmulas correspondientes construimos la siguiente distribución de frecuencias
Peso(kg.)
Marcas de clase # empleados
45 53,2 53,2 61,4 61,4 69,6 69,6 77,8 77,8 86 86 94,2 94,2 102,4 TOTAL
49,1 57,3 65,5 73,7 81,9 90,1 98,3
3 6 7 11 4 7 2 40
3 7,5% 7,5% 9 15% 22,5% 16 17,5% 40% 27 27,5% 67,5% 31 10% 77,5% 38 17,5% 95% 40 5% 100% 100%
El análisis de los resultados en la tabla se hace tal como se indican para el tercer renglón, así: 7 de los empleados de la pesquera, equivalentes al 17,5% tienen pesos entre los 61,4 Kg. y 69,6 Kg. Podríamos decir que el peso promedio de estos siete trabajadores es aproximadamente de 65,5 Kg. 16 de los empleados de la pesquera, equivalentes al 40% tienen pesos entre los 45 Kg. y 69,6 Kg.
Estos resultados los podríamos observar gráficamente en un HISTOGRAMA, o en un POLIGONO DE FRECUENCIAS, los cuales se definen en la sesión de Gráficos Estadísticos. Poígono de Frecuencias para PESO 30
25
25
20
20
p o rce n ta je
porcentaje
Histograma 30
15 10
15 10 5
5
0
0 45
55
65
75 peso
85
95
105
45
55
65
75 85 peso
95
105
TERCERA UNIDAD MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE POSICION
MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central son valores que en una serie ordenada de datos “tienden” a ubicarse en el centro. También, se las conoce con el nombre de promedios. Entre ellas tenemos: La media aritmética o promedio aritmético. La media aritmética ponderada. La media geométrica. La mediana. La moda.
Media Aritmética o Promedio Aritmético. Es el cociente entre la suma de los datos y el número de datos( ). Una ventaja de este promedio es que considera la información de todos los datos, y una desventaja es que es muy sensible a valores extremos. ∑
∑(
, )
para datos NO agrupados ,
para datos agrupados.
Nota: De ahora en adelante los datos NO agrupados serán aquellos que se vienen dados en una lista de datos. Los datos Agrupados son los que vienen dados en una distribución de frecuencias.
Ejemplo. Un clientes de un local que vende accesorios para computador: una USB en 20.000 pesos, un mouse en 12.000 pesos, un protector de pantalla 9.000 pesos y un teclado en 17.000 pesos. El precio promedio de los cuatro productos es de 14.500. Se calcula así: ∑
14.500
Ejemplo. El dueño del local del ejemplo anterior registró la cantidad de los productos de las ventas del día de hoy. En la siguiente tabla se resume los precios de cada artículo y las cantidades vendidas de cada producto. Producto USB Mouse Protector de pantalla Teclado
Precio Cantidad 20.000 4 12.000 12 9.000 9 17.000 15
Cuál es precio promedio de los productos que se vendieron en dicho local el día de hoy?
Solución: Se observa que la variable de interés es el precio de los productos, por tanto, el precio promedio se calcula así: ∑(
)
14.000 Otra forma de calcularla es desarrollando las operaciones en una tabla, así:
∑(
)
Producto
Precio
USB Mouse Protector de pantalla Teclado TOTAL
20.000 12.000 9.000 17.000
Cantidad 4 12 9 15 = 40
80.000 144.000 81.000 255.000 560.000
14.000
Media aritmética ponderada Se la utiliza cuando los datos tienen diferente importancia. Se denota y define así: ∑( ∑
)
; donde las
son las importancias de cada dato.
Ejemplo. La alcaldía de Pasto tiene una vacante para el cargo de director del área contable. Como requisitos se exige: entrevista, examen de conocimientos y puntaje de la hoja de vida. Además, se conoce que la entrevista se ponderará con un 10%, el examen de conocimientos con un 70% y la hoja de vida con un 20%. El mínimo aprobatorio es de 60 puntos en una escala de 0 a 100 puntos, el aspirante que obtenga el más alto puntaje será el seleccionado, si se presentaron Roberto, Luis, José, Ana y Rosa y obtuvieron los puntajes que se muestran en la siguiente tabla. ¿Quién fue el seleccionado?. Aspirante Conocimientos Hoja de vida Entrevista Roberto 68 72 80 Luis 75 64 78 José 67 71 78 Ana 72 69 73 Rosa 73 65 88
Solución: Como cada prueba tiene diferente importancia “ponderación o peso”, no podemos aplicar la media aritmética o promedio aritmético para calcular el puntaje de cada aspirante. Aquí debemos utilizar la media aritmética ponderada . Para calcular el puntaje promedio ponderado que obtuvo Roberto debemos calcularlo así: ∑(
)
70 puntos.
∑
En la tabla se muestran los puntajes promedios ponderados (
), para los demás aspirantes.
Incorrecto
Correcto
Nombre Conocimientos Hoja de vida Entrevista aspirante (70%) (20%) (10%) Roberto 68 72 80 70 73,3 Luis 75 64 78 73,1 72,3 José 67 71 78 68,9 72 Ana 72 69 73 71,5 71,3 Rosa 73 65 88 72,9 75,3
Por lo tanto, Luis es el seleccionado para el cargo director del área contable en la alcaldía de Pasto, con un puntaje promedio de 73,1 puntos. Observemos que calculado la media aritmética ( ), Rosa sería la seleccionada con un puntaje de 75,3 puntos, cometiendo el error de darle una ponderación de 33,3% a la entrevista y a las otras dos pruebas; cambiando así las reglas de selección.
Media Geométrica. Se la utiliza cuando los datos crecen en progresión geométrica, es decir, los datos aumentan rápidamente. Las fórmulas de cálculo son las siguientes: √(
)
√∏( ),
)
√(
para datos NO agrupados
√∏(
) ,
para datos agrupados
Los productos dentro de la raíz suelen ser muy grandes, una forma de trabajar con valores pequeños es utilizando los logaritmos en base 10, así: .
∑
.
∑(
/,
para datos NO agrupados )
/,
para datos agrupados
Ejemplo: Calcular la media geométrica de los siguientes datos: 2, 56, 198, 9.650,
Solución: √(
)
√(
)
√
120,95
Usando logaritmos en base 10 se calcularía así: .
∑
/
.
. /
/ .
/
(
)
Mediana La mediana de una serie de datos ordenados es el valor que se encuentra en el centro de los datos. Otra forma es, un valor mayor al 50% de los datos y es menor que el otro 50%. La mediana se la utiliza cuando existe un valor extremo o dato atípico, en inglés “outlier”. El lugar donde se encuentra la mediana se obtiene así:
Mediana para datos No agrupados: Si el número de datos es impar, la mediana es el valor que se encuentra en el centro de la serie ordenada. Si el número de datos es par, el valor de la mediana se encuentra promediando los dos valores centrales.
Ejemplo: En internet publican los precios de cinco planes turísticos: 35, 37, 29, 31, 60 dólares. Calcular la mediana. Solución: La serie de datos ordenados es: 29, 31, 35, 37, 60. El lugar de la mediana es
3. Esto indica que el tercer dato es la mediana. Es
decir, la mediana es 35. La interpretación de la mediana es: El 50% de los planes turísticos cuestan menos de 35 dólares y el otro 50% cuesta igual o más de 35 dólares.
Ejemplo: Los pesos de los instrumentos de seis científicos que inspeccionaron al Volcán Galeras son: 4530, 4510, 6000, 4700, 4600, 4490 gramos. Calcular y analizar la mediana. Solución: La serie de datos ordenados es: 4490, 4510, 4530, 4600, 4700, 6000. El lugar de la mediana es
3,5. Esto indica que la mediana se encuentra entre
el tercer dato y el cuarto. Es decir, la mediana es
4565. Esto significa que el
50% de los instrumentos vulcanológicos pesa menos de 4565 gramos y el otro 50% pesa más de 4565 gramos.
Mediana para datos agrupados:(variable cuantitativa discreta) Se calcula el lugar de la mediana, y haciendo lectura en las frecuencias absolutas acumuladas , se selecciona la inmediatamente mayor o igual al lugar de la mediana y se determina donde se encuentra la mediana. Haciendo lectura en la columna de la variable y la fila donde se encuentra la mediana se encuentra el valor de la mediana. Ejemplo: 80 familias viajaron al puerto de Tumaco por una semana. El organizador y guía pregunto ¿cuántas personas por familia están de acuerdo que la dieta para esa semana sea a base de mariscos?. Los resultados se resumen en la siguiente tabla.
0 1 2 3 7
donde,
10 24 30 12 4
: Número de personas que respondieron afirmativamente : Número de familias.
Calcular y analizar la mediana.
Solución: Antes de calcular la mediana complementemos la tabla con las frecuencias absolutas acumuladas, como se observa en la siguiente tabla.
0 1 2 3 7
10 24 30 12 4 80
10 34 64 76 80
Para determinar el lugar de la mediana aplicamos la fórmula: , lo cual indica que la mediana se encuentra entre el dato de lugar 40 y el dato de lugar 41. El valor de las frecuencias absoluta acumuladas ( ), inmediatamente mayor a 40,5 es 64 (ver tabla anterior), el cual se encuentra en el tercer renglón. Por tanto el dato que ocupa el lugar 40 es 2 y el dato que ocupa el dato de lugar 41 es 2, promediando los dos valores se obtiene que la mediana es 2. La interpretación es: En el 50% de las familias, ninguna, una o máximo 2 personas si desean la dieta a base de mariscos; y en el otro 50% de las familias, 2 o más de dos personas prefieren la dieta a base de mariscos.
Mediana para datos agrupados:(variable cuantitativa continua) La mediana en datos agrupados con intervalos se calcula así: Se calcula el lugar de la mediana, y haciendo lectura en las frecuencias absolutas acumuladas se selecciona la inmediatamente mayor o igual al lugar de la mediana y se determina la clase o intervalo donde se encuentra la mediana (llamada clase mediana). Luego se aplica la siguiente fórmula. .
+[
/
]
: Límite inferior de la clase mediana (intervalo donde se encuentra la mediana). : Frecuencia absoluta acumulada anterior a la clase mediana. : Frecuencia absoluta de la clase mediana. : Amplitud de la clase mediana. (Diferencia entre el límite superior y límite inferior de cada intervalo)
Ejemplo: A un grupo de personas seleccionadas aleatoriamente se les preguntó ¿cuántos salarios mínimos invertirían en tecnología en el año?. La información se resume en la siguiente tabla. Salarios mínimos que se invertirían en tecnología Número de personas 1-3 5 3-5 7 5-7 12 7-9 2 Calcular y analizar la mediana.
Solución: Complementado la tabla, con las frecuencias absolutas acumuladas tenemos Salarios mínimos que se invertirían en tecnología Número de personas 1-3 5 5 3-5 7 12 5-7 12 24 7-9 2 26 26
El lugar de la mediana es 13,5. Este valor indica que la mediana se encuentra entre la persona de lugar 13 y la persona de lugar 14. El valor de la frecuencia absoluta acumulada inmediatamente mayor o igual a 13,5 es 24. Por lo tanto la mediana se encuentra en el intervalo ubicado en el tercer renglón, el cual corresponde a la clase mediana y se obtiene que 5 12 12 7 5
2
Remplazando en la fórmula se obtiene +[
.
/
]
.
5 +[
/
]
(
+0
)
1
5,17
5,2 sm.
Es decir, la mediana es 5,2 salarios mínimos. Lo cual significa que el 50% de las personas invertirían anualmente en tecnología 5,2 salarios mínimos, y el otro 50% de las personas invertirían más de 5,2 salarios mínimos anualmente en tecnología.
La moda o modo. La moda o modo se define como el dato de mayor frecuencia o el dato que más se repite. Si una serie de datos tiene una moda se dice que es unimodal, si tiene dos modas se dice que es bimodal y si tiene más de dos modas se dice que es multimodal. Ejemplo. La moda de los datos: 3, 6, 2, 2, 5, 6, 2, 7, 2, 4, 5, 2, 2 es frecuencia.
, el cual es el dato de mayor
Ejemplo. Una aerolínea está planeando descuentos para los hijos de sus clientes. Se realizó un estudio a un grupo de 40 clientes, en el cual la variable de interés fue el número de hijos por cliente. Se obtuvo la siguiente información Número de hijos número de clientes 0 5 1 10 2 15 3 8 4 2 Calcular la moda
Solución. La moda es , ya que es el número de hijos que se repite con mayor frecuencia, en este caso se presenta en 15 clientes.
Moda en datos agrupados (Variable cuantitativa continua) Para determinar el lugar de la moda en datos agrupados (Variable cuantitativa continua), basta con observar la mayor frecuencia absoluta. El intervalo correspondiente se llama clase modal. La moda se calcula de la siguiente manera: +.
/
: Límite inferior de la clase modal (intervalo donde se encuentra la moda). : Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta anterior. : Diferencia entre la frecuencia absoluta de la clase modal y la frecuencia absoluta siguiente. : Amplitud de la clase modal. (Diferencia entre el límite superior y límite inferior de la clase modal)
Ejemplo. Una empresa de turismo tiene en su nómina 60 empleados, clasificados por edad, como lo indica la siguiente tabla. Edad 20 25 30 35 40
25 30 35 40 45
# de empleados 5 12 18 15 10
Calcular y analizar la moda.
Solución: La mayor frecuencia es 18 y corresponde al tercer renglón. Este intervalo recibe el nombre de clase modal, en el cual se tiene que: 30 18 – 12 = 6 18 – 15 = 3 35-30 = 5
Remplazando en la fórmula de la moda tenemos: +.
/
+.
/
+. /
33,3 años.
Lo cual indica que la edad que más se repite entre los empleados de la empresa de turismo es de 33,3 años.
Nota: Se debe aclarar que en la construcción de datos agrupados con intervalos se pierde información, esto implica que si tuviéramos la lista de datos posiblemente la edad que más se repite podría ser otro valor, puesto que si los 18 empleados de la clase modal todos tienen edades diferentes y los 5 empleados del primer intervalo tiene la misma edad, entonces la moda cambiaría.
LAS MEDIDAS DE POSICION Ya hemos realizado una exploración de los datos, analizando los valores centrales, ahora nos interesa analizar los datos en cualquier posición de una serie ordenada, para ello estudiaremos las medidas de posición. Entre las medidas de posición tenemos: Los cuartiles, los deciles y los percentiles.
Cuartiles (
)
Son tres valores ( 1, 2, 3) que dividen al rango o recorrido en cuatro partes iguales, cada una de ellas equivalente al 25%.
El lugar de cada cuartil se calcula con la siguiente fórmula. (
)
El cuartil se calcula así:
.
+[
/
]
donde, : Límite inferior de la clase cuartil (Intervalo donde se encuentra el cuartil ). : Frecuencia absoluta acumulada anterior a la clase cuartil : Frecuencia absoluta de la clase cuartil : Amplitud de la clase cuartil (Diferencia entre el límite superior y límite inferior de cada intervalo)
Como las fórmulas son muy similares a las de la mediana se procede y analiza de manera equivalente.
Deciles (
)
Son nueve valores ( 1, 2, 3, 4, 5, 6, 7, 8, 9.) que dividen al rango o recorrido en diez partes iguales, cada una de ellas equivalente al 10%.
El lugar de cada decil se calcula con la siguiente fórmula. (
El decil
)
se calcula asi: .
+[
/
]
: Límite inferior de la clase decil (Intervalo donde se encuentra el decil ). : Frecuencia absoluta acumulada anterior a la clase decil : Frecuencia absoluta de la clase decil : Amplitud de la clase decil (Diferencia entre el límite superior y límite inferior de cada intervalo)
Como las fórmulas son muy similares a la mediana y los curtiles, se procede y analiza de manera equivalente. Percentiles Son noventa y nueve valores ( 1, 2, 3, … , 99) que dividen al rango o recorrido en cien partes iguales, cada una de ellas equivalente al 1%. El lugar de cada percentil se calcula con la siguiente fórmula: (
El percentil
)
se calcula así: .
+[
/
]
donde, : Límite inferior de la clase percentil (Intervalo donde se encuentra el percentil ). : Frecuencia absoluta acumulada anterior a la clase percentil : Frecuencia absoluta de la clase percentil : Amplitud de la clase percentil (Diferencia entre el límite superior y límite inferior de cada intervalo)
Como las fórmulas son muy similares a la mediana, los cuartiles y los deciles, se procede y analiza de manera equivalente. Ejemplo: Se realizó un estudio en el cual se preguntaba de las utilidades mensuales que tenían 45 empresas catalogadas como las más grandes del país. Por convenio con las empresas no se debe publicar sus nombres ni mucho menos directamente el valor informado, por lo tanto se construyó una distribución de frecuencias con intervalos. Los resultados se muestran en la siguiente tabla. Utilidad mensual (millones de pesos) # de empresas 2 5 8 11 14
5 8 11 14 17
4 10 15 13 3 45
4 14 29 42 45
Calcular y analizar
.
Solución. Cálculo del cuartil 3. (Equivalente al 75% de los datos). Lugar del cuartil (
)
(
)
34,5. Esto indica que el
se encuentra entre el dato
de lugar 34 y el dato de lugar 35. Además, la frecuencia absoluta acumulada inmediatamente mayor a 34,5 es 42, correspondiente al cuarto intervalo.
Utilidad mensual (millones de pesos) # de empresas 2 5 8 11 14
5 8 11 14 17
4 10 15 13 3 45
4 14 29 42 45
Por lo tanto 11 29 13 14 – 11
3
Remplazando en la fórmula tenemos, .
+[
/
]
.
+[
/
] *3
12,096154
Esto significa que el 75% de las empresas más grandes del país, tienen utilidades mensuales inferiores a 12´096.154 pesos y el 25% de las empresas más grandes del país tienen utilidades mensuales superiores a 12´096.154.
Cálculo del decil 4. (Equivalente al 40% de los datos). Lugar del decil (
)
(
)
18,4. Esto indica que el
se encuentra entre el dato
de lugar 18 y el dato de lugar 19. Además, la frecuencia absoluta acumulada inmediatamente mayor a 18,4 es 29, correspondiente al tercer intervalo. Utilidad mensual (millones de pesos) # de empresas 2 5 8 11 14
5 8 11 14 17
4 10 15 13 3 45
4 14 29 42 45
Por lo tanto 8 14 15 11 – 8
3
Remplazando en la fórmula tenemos, .
+[
/
.
]
+[
/
] *3
8,8
Esto significa que el 40% de las empresas más grandes del país, tienen utilidades mensuales inferiores a 8´800.000 pesos y el 60% de las empresas tienen utilidades mensuales superiores a 8´800.000.
Cálculo del percentil 29. (Equivalente al 29% de los datos). Lugar del percentil 29 (
)
(
)
13,34. Esto indica que el
se encuentra entre el
dato de lugar 13 y el dato de lugar 14. Además, la frecuencia absoluta acumulada inmediatamente mayor a 13,34 es 14, correspondiente al segundo intervalo.
Utilidad mensual (millones de pesos) # de empresas 2 5 8 11 14
5 8 11 14 17
4 10 15 13 3 45
4 14 29 42 45
Por lo tanto 5 4 10 8–5
3
Remplazando en la fórmula tenemos, .
+[
/
.
]
+[
/
] *3
7,715
Esto significa que el 29% de las empresas más grandes del país, tienen utilidades mensuales inferiores a 7´715.000 pesos y el 71% de las empresas tienen utilidades superiores a 7´715.000.
RANGO PERCENTIL ( ) En el ejemplo anterior nos podríamos preguntar ¿Qué porcentaje de las empresas tienen utilidades inferior a 10´500.000 pesos mensuales?. Estas preguntas se resuelven calculando el rango percentil , mediante la siguiente fórmula, que se obtiene al despejar de la fórmula de los percentiles. 0.
/
1
: Percentil , este valor se ubica en los intervalos y me determina la clase rango percentil : Límite inferior de la clase rango percentil. : Frecuencia absoluta acumulada anterior a la clase rango percentil. : Frecuencia absoluta de la clase rango percentil. : Amplitud de la clase rango percentil. (Diferencia entre el límite superior y límite inferior de la clase rango percentil)
Ejemplo: Resolvamos la pregunta: ¿Qué porcentaje de las empresas más grandes del país tienen utilidades inferior a 10´500.000 pesos mensuales?. Solución. Según la información del problema los 10´500.000 pesos, equivalentes a 10,5 millones de pesos, corresponde a 10,5; el cual se encuentra en el tercer renglón de la tabla. Utilidad mensual (millones de pesos) # de empresas 2 5 8 11 14
5 8 11 14 17
4 10 15 13 3 45
4 14 29 42 45
De donde se tiene que: 10,5 8 14 15 11 – 8 = 3
Remplazando en la fórmula del rango percentil se tiene 0. ,
/ -
1
0.
/
1
0. /
1
58,9%
Es decir, que el 58,9% de las empresas más grandes del país tienen unas utilidades inferiores a 10´500.000 pesos mensuales y el 41,1% de las empresas tienen utilidades superiores a 10´500.000 pesos mensuales.
CUARTA UNIDAD LAS MEDIDAS DE DISPERSION, VARIACION o DESVIACION Las medidas de tendencia central, NO indican que característica tienen los datos en cuanto a si son parecidos, (homogéneos o tienen poca variabilidad) o si son muy distintos (heterogéneos o tienen variabilidad considerable). Las medidas de dispersión son las que me indican que tanta variabilidad tienen los datos. Las medias de dispersión, variación o desviación que estudiaremos serán: El rango o recorrido, la desviación media, la varianza, la desviación estándar y el coeficiente de variación. El rango o recorrido Es la diferencia entre el valor máximo de los datos y el valor mínimo.
Si el rango es muy grande y tenemos muy pocos datos, se puede decir, que los datos tienen mucha variabilidad. Pero si el rango es pequeño y tenemos muchos datos, estos tienen poca variabilidad o son homogéneos. Aunque esta medida es muy fácil de calcular su interpretación es muy subjetiva, además, únicamente utiliza los valores extremos y no considera los otros datos.
Desviaciones con respecto a la media. Estas no son medidas de dispersión, pero se las utiliza para las calcular la desviación media y la varianza las cuales las estudiaremos a continuación. Las desviaciones respecto a la media es la diferencia entre cada dato y la media aritmética de los ), indican que tan distante se encuentra cada dato con datos, se pueden simbolizar como: ( respecto a la media aritmética. Si la diferencia es negativa el dato se encuentra a la izquierda de la media y si es positiva el dato se encuentra a la derecha de la media, si es cero el dato es igual a la media. Una propiedad de las desviaciones respecto a la media es que la suma de todas ellas es igual a cero, es decir, ∑( ∑,(
) )
0, -
para datos NO agrupados 0,
para datos agrupados
Ejemplo: Calcular las desviaciones respecto a la media de los siguientes datos: 6, 4, 3, 7, 2. Solución: La media aritmética de los cinco datos es, ∑
4,4
En la siguiente tabla se calculan las desviaciones respecto a la media y se comprueba la propiedad.
6 4 3 7 2 TOTAL
6 – 4,4 = +1,6 4 – 4,4 = - 0,4 3 – 4,4 = - 1,4 7 – 4,4 = +2,6 2 – 4,4 = - 2,4 ∑( ) 0
Desviación media La desviación media es el promedio de los valores absolutos de las desviaciones respecto a la media aritmética. Dicho de otra manera, es el cociente entre la suma de los valores absolutos de las desviaciones respecto a la media y el número de datos. Las fórmulas correspondientes son: ∑|
∑,|
|
|
|
-
|
|
|
|
|
|
|
|
|
|
|
|
|
,
para datos NO agrupados.
|
|
,
para datos agrupados.
Ejemplo: Calcular la desviación media de los siguientes datos: 6, 4, 3, 7, 2. Solución: La media aritmética de los cinco datos es, ∑
4,4
En la siguiente tabla se calculan las desviaciones respecto a la media, sus valores absolutos y los totales.
6 4 3 7 2
|
| 1,6 0,4 1,4 2,6 2,4 | = 8,4
|
|
6 – 4,4 = +1,6 4 – 4,4 = - 0,4 3 – 4,4 = - 1,4 7 – 4,4 = +2,6 2 – 4,4 = - 2,4 ∑( ) 0 ∑| ∑|
De la tabla se obtiene que:
|
1,68.
Otra manera de calcularla es ∑|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| |
|
1,68. Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media aritmética es de 1,68 unidades. Es decir, que en promedio, los datos se separan de la media en 1,68 unidades. Además, podríamos asegurar que en distribuciones normales (estas distribuciones se estudiarán en las unidades de probabilidad), que la mayoría de los datos se encuentran entre
VARIANZA Se podría definir la varianza como un promedio de los cuadrados de las desviaciones respecto a la media, o como el cociente entre la suma de los cuadrados de las desviaciones respecto a la media y el número de datos. Las unidades de la variable de estudio quedan elevadas al cuadrado y carecen de significado real, por tanto, la varianza no tiene interpretación. La varianza es el medio para calcular la desviación estándar. Las fórmulas respectivas para el cálculo de la varianza son: Varianza corregida ∑(
∑[(
)
)
]
(
)
(
)
(
)
(
(
)
)
(
(
)
)
,
para datos NO agrupados. (
)
, para datos agrupados.
La varianza corregida es la más utilizada para calcular la varianza de una muestra. Se divide entre , porque se está estimando un parámetro que es la media poblacional.
Varianza SIN corregir ∑(
)
∑[(
)
̂ ̂
(
]
)
(
(
)
)
(
(
)
)
(
(
)
,
para datos NO agrupados
)
(
)
, para datos agrupados
DESVIACION ESTANDAR o TÍPICA La desviación estándar o desviación típica es la raíz cuadrada positiva de la varianza. Las unidades de la desviación estándar son las mismas de la variable de estudio, y por este hecho tiene interpretación. Nos indica cuánto pueden alejarse los datos respecto a la media aritmética, dicho de otra manera, la desviación estándar es una medida del grado de dispersión de los datos con respecto al valor promedio. Esta medida es más estable que el rango o recorrido y toma en consideración el valor de cada dato.
Desviación estándar corregida √
√
√
∑(
√
√
√
∑,(
)
,
)
para datos NO agrupados
-
,
para datos agrupados
Desviación estándar SIN corregir ̂
√̂
√
√
∑(
̂
√̂
√
√
∑,(
)
)
, para datos NO agrupados.
-
, para datos agrupados.
COEFICIENTE DE VARIACION El coeficiente de variación es una medida de dispersión y se define como el cociente entre la desviación estándar y la media aritmética. Este carece de unidades y por tanto se puede expresar en porcentaje. Su fórmula de cálculo es:
El indica que tan dispersos se encuentran los datos con respecto a la media aritmética. Este es más preciso que la desviación estándar. El Coeficiente de variación mide la dispersión en términos de porcentaje, señala qué tan grande es la magnitud de la desviación estándar respecto al promedio del conjunto de datos que se examina. Si el es menor o igual al 20% se dice que el promedio es representativo, o que los datos son homogéneos
Si el
es mayor al 20%, el promedio NO es representativo, o que los datos NO son homogéneos
Otra interpretación muy similar a la anterior se muestra en la siguiente tabla
Interpretación Menos del 11% Muy homogéneos 11% al 16% Homogéneos 16% al 26% Heterogéneos Más del 26% Muy heterogéneos Ejemplo. De los siguientes datos calcular la media, la desviación media, la varianza, la desviación estándar y el coeficiente de variación. 168, 170, 196, 180, 173. Solución. Calculemos la media aritmética ∑
177,4
Calculemos la desviación media ∑| |
| |
| |
|
| |
| |
|
| | |
|
| |
|
|
= 8,48
Este valor indica que la distancia promedio a cada uno de los datos con respecto a la media aritmética es de 8,48. Es decir, que en promedio, los datos se separan de la media en 8,48 unidades.
Calculemos la Varianza (corregida) ∑( (
)
)
(
(
) )
(
(
) )
(
)
(
( )
)
(
)
128,8 Este valor no tiene análisis, es el proceso para calcular la desviación estándar.
Calculemos la desviación estándar (corregida) √
√
√
∑(
)
√
11,35
Nos indica que los datos pueden alejarse de la media aritmética 11,35 unidades o que los datos se encuentran desviados con respecto del promedio en 11,35 unidades.
Calculemos el coeficiente de variación. 0,063979..
6,4%
Este valor es menor que el 20%, concluimos que los datos son homogéneos. Según la tabla de análisis del , el 6,4% es menor de 11% y se concluye que los datos son muy homogéneos.
Ejemplo. Un campesino del municipio del Encano, Nariño (Lugar donde se encuentra uno de los sitios más turísticos de Nariño, La Laguna de la Cocha o Lago Guamuez), tiene en uno de sus criaderos truchas arco iris, a las cuales las alimenta con un producto extraído de vísceras de las mismas truchas sacrificadas, dicho alimento es rico en proteínas. Para el control de peso y tamaño ha instalado una tecnología única en el Departamento de Nariño, en el cual con un software especial obtiene automáticamente el peso y tamaño de cada una de ellas. El anterior fin de semana, tomo mediciones sobre el peso (en gramos) de las truchas de este criadero y obtuvo los siguientes resultados.
Peso(gr.)
# truchas
175 185 185 195 195 205 205 215 215 225 225 235 235 240 TOTAL
9 30 57 103 26 15 10 250
Calcular y analizar el peso promedio de las truchas, la varianza, la desviación estándar y el coeficiente de variación. Solución: Para empezar hacer los cálculos necesitamos determinar las marcas de clase ( ) . Luego realizando las operaciones indicadas y las sumatorias que aparecen en las fórmulas obtenemos la siguiente tabla.
Peso(gr.)
# truchas (
175 185 185 195 195 205 205 215 215 225 225 235 235 245 TOTAL
9 30 57 103 26 15 10 250
180 1.620 190 5.700 200 11.400 210 21.630 220 5.720 230 3.450 240 2.400 51.920
-27,68 -17,68 -7,68 2,32 12,32 22,32 32,32
) 766,1824 312,5824 58,9824 5,3824 151,7824 498,1824 1.044,5824
(
) 6.895,6416 9.377,472 3.361,9968 554,3872 3.946,3424 7.472,736 10.445,824 42.054,4
Nota: Esta tabla se construye fácilmente en la hoja electrónica, usando las operaciones como fórmulas de Excel.
Calculemos la media aritmética ∑
207,68
Esto significa que el peso promedio de las 250 truchas que hay en el criadero es de 207,68 gramos.
Calculemos la Varianza (corregida) ∑(
)
168,89
Este valor no tiene análisis porque las unidades de este valor son gramos al cuadrado.
Calculemos la desviación estándar (corregida) √
√
√
∑(
)
√
12,9957…
13
Nos indica que los pesos de las truchas pueden alejarse del peso promedio 13 gramos, o que los pesos de las truchas se encuentran desviados con respecto del peso promedio en 13 gramos. Nota: Si el peso de las truchas se distribuyen normalmente (consultar distribución normal) se puede afirmar que aproximadamente un 68,26% de las truchas tiene pesos entre 207,68 – 13 y 207.68 + 13, es decir, hay un gran porcentaje de truchas cuyos pesos se encuentran entre 194,68 gramos y 220,68 gramos.
Calculemos el coeficiente de variación. 0,0626
6,26%
Este valor es menor que el 20%, concluimos que los pesos de las truchas arco iris del criadero son homogéneos, es decir, los pesos de las 250 truchas del criadero tienen poca variabilidad. Según la tabla de análisis del , el 6,26% es menor de 11% y se concluye que los pesos de las truchas son muy homogéneos.
COEFICIENTE DE SIMETRIA Y CURTOSIS (opcional) COEFICIENTE DE SIMETRIA (
).
Es el cociente entre el tercer momento central (
) y el cubo de la desviación estándar.
El tercer momento central se define y calcula, así: ∑(
̅)
La interpretación del coeficiente de simetría se hace de la siguiente manera: Si , la distribución es simétrica. Otra manera de llegar a la misma conclusión es observando que la media aritmética, la mediana y la moda coincidan, ( ̅ ). Gráficamente se tendría:
Si , la distribución es asimétrica a la izquierda o de sesgo negativo. Otra manera de llegar a la misma conclusión es observando que la media aritmética es menor que la mediana y menor la moda, (̅ ). Gráficamente se tendría:
Si , la distribución es asimétrica a la derecha o de sesgo positivo. Otra manera de llegar a la misma conclusión es observando que la moda es menor que la mediana y menor media ̅). Gráficamente se tendría: aritmética, (
COEFICIENTE DE CURTOSIS O APUNTAMIENTO (
).
Es el cociente entre el cuarto momento central (
) y la desviación estándar elevada a la cuatro.
El cuarto momento central se define y calcula, así:
∑(
̅)
La interpretación del coeficiente de curtosis o apuntamiento se hace de la siguiente manera: Si
, la distribución es normal o mesocúrtica.
Si
, la distribución es achatada o platicúrtica.
Si
, la distribución es apuntada o leptocúrtica.
QUINTA UNIDAD GRAFICOS ESTADISTICOS
Una manera de representar la información es mediante los gráficos estadísticos. Estos ayudan de manera rápida a revisar la descripción de los datos. Los gráficos más comunes son: El gráfico o diagrama de barras (horizontales, verticales o en componentes) El gráfico o diagrama de líneas o trazos. El gráfico o diagrama de sectores, circular, de torta o de pastel. Los Pictogramas. El diagrama de Cajas y Bigotes. El Histograma. El polígono de frecuencias Las ojivas o polígono de frecuencias acumuladas.
Hay otros gráficos que se utilizan según la disciplina, tales como los cartogramas que se utilizan en las ciencias sociales, la curva de Lorenz que explica el Coeficiente de Gini, el cual lo utilizan los economistas. EXCEL, STATGRAPHICS y SPSS, en la galería de gráficos presenta una gran variedad de gráficos e incluso en 3D. Otros paquetes estadísticos presentan gráficos especiales como las caras de Chernoff y estrellas utilizados para análisis de datos multivariados. Cada tipo de gráfico está destinado para una labor específica. Con la práctica y de acuerdo a tus necesidades determinarás cual utilizar según tus datos.
El gráfico o diagrama de barras (horizontales, verticales o en componentes) Es un gráfico que utiliza rectángulos horizontales o verticales llamados barras. El ancho de cada barra es arbitrario, pero se debe tener en cuenta que ninguna de ellas se debe cruzarse o “solaparse” con otra. El alto de cada barra depende de las frecuencias de los datos. Generalmente los valores de las variables se ubican en el eje X, y las frecuencias en el eje Y (gráfico vertical). Cuando se van a analizar dos o más variables el gráfico recibe el nombre de gráfico de barras en componentes, también se pueden comparar la misma variable en dos periodos distintos con este tipo de gráficas.
Ejemplo: Se registró en el primer semestre del año 2011, la cantidad de USB que se vendieron en un local donde se comercializa accesorios para PC, estos registros se realizaron en cada uno de los meses. La información se observa en la siguiente tabla.
Mes enero febrero marzo abril mayo junio
Cantidad de USB vendidas(miles) 25 12 38 94 12 28
Construir un diagrama de barras. Solución. El gráfico de barras verticales es el siguiente. (Si queremos las barras horizontales, ubicamos los meses en el eje Y, y la cantidad de USB vendidas en el eje X).
Cantidad de USB vendidas 100 80 60 40 20 0
94
25
38 12
12
28
Ejemplo: Se registró en el primer semestre de los años 2011 y 2012, la cantidad de USB que se vendieron en el mismo local del ejemplo anterior, estos registros se realizaron en cada uno de los meses. La información se presenta en la siguiente tabla.
Mes enero febrero marzo abril mayo junio
Cantidad de USB vendidas 2011 Cantidad de USB vendidas 2012 25 75 12 64 38 50 94 84 12 20 28 52
Construir un diagrama de barras en componentes
Solución. El gráfico de barras en componentes es el siguiente. Observa que si tenemos dos variables en cada valor del eje X, se grafican dos barras. Si se tienen tres componentes se deberán graficar tres barras, etc.
100 90 80 70 60 50 40 30 20 10 0
El gráfico o diagrama de líneas o trazos. Es un gráfico que para trazarlo se ubican puntos en el plano cartesiano y luego se los une mediante segmentos de recta, llamados trazos. Ejemplos. Veamos la información de los dos ejemplos anteriores en un diagrama de líneas.
Cantidad de USB vendidas 2011 100 80 60 40 20
0 enero
febrero
marzo
abril
mayo
junio
100 80 60 40 20 0 enero
febrero
marzo
abril
mayo
junio
El gráfico o diagrama de sectores, circular, de torta o de pastel. Se utiliza cuando la unidad se puede subdividir. La información la podemos representar en un círculo en el cual se muestra la proporción o porcentaje equivalente a cada parte. Para determinar dicho porcentaje hacemos corresponder el total al 100% y mediante regla de tres simple directa determinamos el porcentaje que equivale cada parte. 100% ?
De forma similar haciendo corresponde el total a 360º del círculo y aplicando regla de tres simple directa determinamos cuántos grados le corresponde a cada parte.
360º ?
Ejemplo. La facultad de Economía de una universidad está compuesta por: estudiantes, docente, administrativos y servicios generales. Si las cantidades de personas en cada estamento son las que aparecen en la siguiente tabla, representemos esta información mediante un diagrama circular. Estamentos Cantidad Estudiantes 800 Administrativos 100 Docente 340 Servicios Generales 80 TOTAL 1320 Solución. Calculando los porcentajes y los grados para cada estamento, y poder trazar el gráfico sin usar herramientas informáticas tenemos los siguientes resultados.
Estamentos Estudiantes Administrativos Docente Servicios Generales TOTAL
Cantidad 800 100 340 80 1320
Porcentajes 60,6% 7,6% 25,8% 6,1% 100%
Grados 218 27 93 22 360
Grados Acumulados 218 245 338 360
El diagrama circular es el siguiente, presentado en tres dimensiones
Personal Fac. Economía Estudiantes 6% Administrativos 26% 61%
Docente Servicios Generales
8%
Los Pictogramas. Es una manera de representar la información, mediante objetos o figuras. A cada figura completa se le asigna un valor al inicio del gráfico. Esta debe explicarse por sí sola. El siguiente gráfico es un pictograma que representa la cantidad de turistas que visitaron la Laguna de la Cocha (Lago Gaumez, Nariño) los primeros cuatro meses del año.
= 5.000 turistas
Enero: Febrero: Marzo: Abril:
…………………………..……....15.000 turistas ……………………………………………..10.000 turistas ……..25.000 turistas …………………………………………………………..…5.000 turistas
Si se necesitará graficar 13.000 turistas en el mes de febrero se graficaría 2 figuras de un turista completas y una parte de otra.
El diagrama de Cajas y Bigotes. Este gráfico se utiliza para analizar variabilidad de los datos y simetría, además me determina datos atípicos “outlier”. NOTA. Para comprender los términos usados en este gráfico, remitirse a la sesión de medidas de posición. En una serie ordenada de datos o en datos agrupados podemos calcular los tres cuartiles los cuales dividen al rango en cuatro partes iguales. Se aclara que el segundo cuartil es igual a la mediana. Calculados estos valores construimos una caja entre el cuartil 1 ( ) y el cuartil 3 ( ), con un ancho arbitrario, en medio de la caja se ubica el segundo cuartil ( ) o mediana. Luego se encuentran dos valores y de la siguiente forma: ( (
) )
En el medio del ancho de la caja se traza una segmento de recta hasta llegar a y otro segmento de recta al otro lado de la caja hasta llegar a . Estos segmentos de recta reciben el nombre de bigotes. Ejemplo. Construir un diagrama de cajas y bigote para representar los siguientes datos: 45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77. Solución: El lugar de un cuartil viene dado por: (
)
, el cual representa la posición del cuartil
Entonces tenemos (
)
(
)
(
)
(
)
(
)
(
)
7, el séptimo dato es el cuartil 1,
59
14, el dato de lugar 14 es el cuartil 1,
66
21, el dato de lugar 21 es el cuartil 1,
73
Nota: Si los lugares de los cuartiles no son exactos, se promedian los dos valores o más correctamente se interpolan para encontrar el valor del cuartil. Por ejemplo si el lugar del cuartil 1 fuera 7,25 indicaría que este cuartil se encuentra entre el dato de lugar siete y el dato de lugar 8, lo cual indica que el cuartil 1, se calcularía promediando así: (59+60)/2 = 59,5. Pero si
interpolamos se calcularía así: 59+0,25*(60-59) = 59,25. Podemos observar que el último resultado es el más correcto. Ahora calculemos los bigotes, ( (
) )
59 – 1,5*(73 – 59) = 38 73 + 1,5*(73-59) = 94
Como los bigotes sobrepasan al valor mínimo (45) y al valor máximo (77) de los datos, los bigotes toman estos valores: 45 y 77. Esto significa que no existen valores atípicos. El gráfico aproximado es el siguiente
45, 46, 52, 54, 55, 57, 59, 60, 61, 62, 62, 64, 66, 66, 68, 69, 70, 70, 72, 73, 73, 74, 75, 75, 76, 76, 77 Observe que los datos no se encuentran a una distancia real, por tanto la gráfica se distorsiona.
Los gráficos a escala se observan así: Gráfico de Caja y Bigotes Gráfico de Caja y Bigotes Intervalos de confianza del 95% para la mediana: [61,1104, 70,8896]
45
55
65
75
85
peso_kg
45
55
65
75
85
peso_kg
El Histograma. Es un diagrama de barra. Se lo utiliza para representar la información de una distribución de frecuencias con intervalos, clases o categorías. Para graficarlo se ubican en el eje X, los intervalos, los cuales corresponden al ancho de cada barra, en el eje Y, ubicamos las frecuencias absolutas o las frecuencias relativas.
El polígono de frecuencias (absolutas o relativas). Es un diagrama de líneas. Se lo utiliza para representar la información de una distribución de frecuencias con intervalos, clases o categorías.
Para graficarlo se ubican en el eje X las marcas de clase, en el eje Y ubicamos las frecuencias absolutas o las frecuencias relativas, luego unimos los puntos con segmentos de recta. Para el ejemplo de los dos gráficos anteriores revisemos la siguiente información, y observemos el gráfico, en los cuales se han ubicado las frecuencias relativas en el eje Y. (Si se trabaja con las frecuencias absolutas se obtiene un gráfico equivalente).
Peso(kg.)
# empleados
45 53,2 53,2 61,4 61,4 69,6 69,6 77,8 77,8 86 86 94,2 94,2 102,4 TOTAL
3 6 7 11 4 7 2 40
8% 15% 18% 28% 10% 18% 5% 100%
Histograma Poígono de Frecuencias para PESO
30 30 25
20 p o rce n ta je
p o rce n ta je
25
15 10 5
20 15 10 5
0
0
45
55
65
75 85 peso
95
105
45
55
65
75 85 peso
95
105
Las ojivas o polígono de frecuencias acumuladas (absolutas o relativas).
Es un diagrama de líneas o trazos. Se lo utiliza para representar la información de una distribución de frecuencias con intervalos, clases o categorías utilizando las frecuencias absolutas acumuladas o las frecuencias relativas acumuladas. Para graficarlo se marcan puntos en el plano cartesiano, ubicando en el eje X, los límites superiores de cada intervalo ( ), en el eje Y, ubicamos las frecuencias absolutas acumuladas ( ), o las frecuencias relativas acumuladas ( ) , luego unimos los puntos con segmentos de recta.
Tracemos la ojiva o polígono de frecuencias absolutas acumuladas ( ), para la siguiente distribución de frecuencias.
45 53,2 61,4 69,6 77,8 86 94,2
53,2. 61,4. 69,6. 77,8. 86. 94,2. 102,4.
3 6 7 11 4 7 2
3 9 16 27 31 38 40
Ojiva 50 40
38 31
30
27
20
16 9
10 0
40
0 45
3 53,2.
61,4.
69,6.
77,8.
86.
94,2. 102,4.
SEXTA UNIDAD PROBABILIDAD
La probabilidad comienza cuando los matemáticos Fermat y Pascal, analizan los juegos de azar en sentido matemático. Por tal razón muchos de los ejemplos que presentaré se referirán a dados, monedas, cartas y se alternará con ejemplos de aplicación a otras situaciones.
PRINCIPIO FUNDAMENTAL DEL CONTEO (p.f.c) Si un evento o suceso puede ocurrir de maneras diferentes, un evento o suceso puede ocurrir de maneras diferentes, un evento o suceso puede ocurrir de maneras diferentes, y así sucesivamente, un evento o suceso puede ocurrir de maneras diferentes, entonces, todos los eventos en conjunto pueden ocurrir de
De cuántas maneras diferentes pueden caer tres monedas?.
Definamos los eventos de la siguiente manera: , este evento o suceso puede ocurrir de dos, diferentes: *
, maneras
+ , este evento o suceso puede ocurrir de dos,
diferentes: *
+
diferentes: *
+
, este evento o suceso puede ocurrir de dos,
, maneras
, maneras
Por lo tanto, por el (p.f.c), las tres monedas pueden caer de:
Nota: Si se lanzan 10 monedas, estas pueden caer de
maneras diferentes.
De cuántas manera diferentes pueden caer dos dados?.
Definamos los eventos de la siguiente manera: , este evento o suceso puede ocurrir de seis, diferentes: *
+
diferentes: *
+
, este evento o suceso puede ocurrir de seis,
, maneras
, maneras
Por lo tanto, por el (p.f.c), los dos dados pueden caer de:
Para verificar este resultado, supongamos que en el primer dado se obtiene el uno, entonces el otro dado puede caer de las seis formas diferentes, pero si el primer dado se fija en dos, tres, cuatro cinco o seis, el otro dado puede cambiar en las seis formas, obteniéndose las 36 maneras diferentes. Veámoslo de la siguiente manera: Los posibles resultados de lanzar dos dados serian: (
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
De cuántas manera diferentes pueden caer un dado y una moneda?.
Definamos los eventos de la siguiente manera: diferentes: *
, este evento o suceso puede ocurrir de seis, + , este evento o suceso puede ocurrir de dos,
diferentes: *
, maneras
, maneras
+
Por lo tanto, por el (p.f.c), el dado y la moneda pueden caer de:
Cuántas placas de automóvil es posible formar en Colombia?. (Observación: Cada placa de automóvil tiene tres letras y tres números y admite repetición de letras y números. Las letras ch, rr, ll, ñ, no se consideran, es decir, solamente se cuenta con 26 letra del alfabeto y los 10 dígitos del 0 al 9)
Definamos los eventos de la siguiente manera: , este evento o suceso puede ocurrir de 26,
maneras diferentes. , este evento o suceso puede ocurrir
de 26,
maneras diferentes. , este evento o suceso puede ocurrir de
26,
maneras diferentes. , este evento o suceso puede ocurrir de
10,
maneras diferentes. , este evento o suceso puede ocurrir de
10,
maneras diferentes.
10,
maneras diferentes.
, este evento o suceso puede ocurrir de
Por lo tanto, por el (p.f.c), el número total de placas que se pueden formar es de:
Ejercicios 1.) Cuántos números mayores que cien y menores que mil se pueden formar con los dígitos: 3, 5, 6, 8 a.) Con repetición de dígitos? b.) Sin repetición de dígitos? 2.) Repetir el numeral anterior con los dígitos 0, 3, 6, 8. 3.) Cuantos números telefónicos se pueden formar con el indicativo 733, 723 y 730 en la actualidad en la ciudad de Pasto?. 4.) De cuántas maneras diferentes pueden salir las balotas del baloto. (el baloto consta de 45 balotas numeradas del 01 hasta 45, todas del mismo tamaño y peso. Cuando juega el baloto salen aleatoriamente 6 de ellas). 5.) Cuantos números de lotería de cuatro dígitos y dos en la serie es posible formar?.
TIPOS DE AGRUPACIONES (opcional) Entre los tipos de agrupaciones tenemos: Las Combinaciones (
)
Las Variaciones o Permutaciones (
)
Las variaciones con elementos idénticos. .
LAS COMBINACIONES (
/
)
Llamaremos COMBINACIONES a las diferentes agrupaciones que podemos formar tomando de los elementos dados, de tal manera que cada agrupación sea diferente en por lo menos un elemento, SIN IMPORTAR EL ORDEN DE UBICACIÓN. El total de combinaciones que podemos formar con simboliza y calcula así: . /
donde,
(
) (
(
)
LAS VARIACIONES o PERMUTACIONES (
elementos tomadolos de
en , se
)
, se llama Número Factorial.
)
Llamaremos VARIACIONES a las diferentes agrupaciones que podemos formar tomando de los elementos dados, de tal manera que cada agrupación sea diferente en por lo menos un elemento, O EN EL ORDEN DE UBICACIÓN (“si importa el orden”). El total de variaciones que podemos formar con calcula así:
elementos tomadolos de
(
)
en , se simboliza y
VARIACIONES CON ELEMENTOS IDÉNTICOS. .
/
Si en una variación, de los elementos dados tenemos una cantidad: que son idénticos, que son idénticos, son idénticos, etc., el número de variaciones que podemos formar , se simbolizan y calculan así:
Ejemplo 1. De un grupo de 10 profesionales que conforman una cooperativa quieren nombran la junta directiva compuesta por: Presidente, Tesorero y fiscal. De cuántas maneras diferentes se puede nombrar la junta directiva?. Solución: Supongamos que los nombres de los profesionales son: Una de las posibles juntas directiva podría estar formada por:
Pero si cambiamos de cargo a las personas de la siguiente manera:
obtenemos otra junta directiva, a pesar de ser las mismas personas, pero con diferentes cargos, por lo tanto se trata de una VARIACION. (“si importa el orden”). Por lo tanto, si
obtenemos: (
)
(
)
que corresponde a la cantidad de juntas directivas diferentes que es posible formar con los 10 profesionales.
Ejemplo 2. Cuántos comités de investigación podemos formar con 8 ingenieros y 7 economistas, si cada comité debe tener 5 profesionales?.
Solución. Como el problema no específico la cantidad de cada tipo de profesionales que debe contener cada comité, entonces de los 15 profesionales se deben escoger 5 de ellos para conformar cada comité y NO importa el orden como se los seleccione, por lo tanto es una combinación, donde , entonces
(
)
(
)
(
)
es la cantidad de comités de investigación que se pueden formar con los 15 profesionales.
Ejemplo 3. Cuantos números mayores que 100 y menores que mil se pueden formar con los dígitos: 3, 5, 6, 8, si repetición de dígitos en un mismo número?. Solución: Los números mayores de cien y menores de mil tienen tres dígitos. Si formamos un número, por ejemplo el 356 y cambiamos el orden del tres y cinco obtenemos el 536, muy diferente al anterior, es decir, importa el orden, entonces es una variación con , por lo tanto
(
)
(
)
es la cantidad de números que podemos formar.
Para verificar este resultado hagamos un listado de ellos:
No #
1 356
2 358
3 365
4 368
5 385
6 386
7 536
8 538
9 563
10 568
11 583
12 586
No #
13 635
14 638
15 653
16 658
17 683
18 685
19 835
20 836
21 853
22 856
23 863
24 865
DEFINICIONES DE PROBABILIDAD Antes de definir probabilidad definimos los siguientes conceptos. ESPACIO MUESTRAL ( ), Es el conjunto de referencia o conjunto universal, compuesto por todos los casos posibles que puede ocurrir un experimento. El número de elementos del espacio muestral lo simbolizaremos con la letra . SECESO o EVENTO ( ), Es un subconjunto del espacio muestral. El número de elementos del suceso o evento “ ” lo simbolizaremos con la letra y representan el número de casos favorables. DEFINICION CLASICA DE PROBABILIDAD. También llamada definición teórica de probabilidad. La probabilidad de que ocurra un suceso o evento “ “ es el cociente entre el número de casos favorables ( ) y el número de casos pasibles ( ). Esto se simboliza así: ( ) Observación: Como nos podemos dar cuenta la fórmula es muy simple y sencilla de aplicar, pero cuando nos presentan situaciones complejas donde se deban calcular y entonces se complica, porque antes de aplicarla se deben usar las técnicas de contar. DEFINICION FRECUENCIAL DE PROBABILIDAD. También llamada definición experimental. La probabilidad de que ocurra un suceso o evento “ “ es el cociente entre el número de veces que se repite un resultado ( ) y el número de veces que se realiza el experimento ( ). Esto se simboliza así: ( )
Esta definición, es la que hace posible que cuando se realice en forma infinita un experimento, la probabilidad se aproxima a la probabilidad teórica o clásica.
Notas: Si ( ) . La probabilidad de obtener un número 8 en el lanzamiento de un dado es cero, es decir, obtener 8 es suceso imposible. Si ( ) . La probabilidad de obtener un número menor que 7 en el lanzamiento de un dado es siempre seguro, con probabilidad de 100% = 1. La probabilidad de que ocurra cualquier evento, siempre va estar entre cero y uno (lo que es equivalente entre 0% y 100%).
¿Cuál es la probabilidad de obtener un número múltiplo de 3 en el lanzamiento de un dado?
Este problema no tiene mucha dificultad y usted podría decir la respuesta de inmediato. Realicemos el procedimiento. Experimento: Lanzar un dado Espacio muestral:
= {1,2,3,4,5,6,}, entonces
= 6, # de casos posibles.
Evento o suceso : “obtener múltiplos de 3” ={3,6}, entonces
= 2, # de casos favorables.
Por lo tanto, ( ) Este resultado se podría explicar considerando que si usted es el que apuesta que va a salir un múltiplo de 3 cuando se lanza un dado, solamente tendría el chance de ganar en aproximadamente 33 veces de 100 lanzamientos. Lo anterior se cumple en teoría, porque si para comprobarlo usted lanza cien veces un dado y hace anotación de los resultado que obtiene y luego cuenta los múltiplos de 3, la cantidad que obtendrá no será muy cercana a 33. Puesto que el 33% se alcanza cuando el experimento se hace en forma infinita.
¿Cuál es la probabilidad de obtener una suma de cinco puntos en el lanzamiento de un par de dados?
Este problema tiene más dificultad que el punto anterior y usted podría también decir la respuesta de inmediato. Realicemos el procedimiento. Experimento: Lanzar un par de dados
Espacio muestral:
es:
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
(
)(
)(
)(
)(
)(
)
entonces = 36. # de casos posibles. Pero recuerde que aplicando el principio fundamental del conteo se determinó que las formas posibles de caer dos dados se calculan así: 6x6=36. Evento o suceso : “obtener una suma de 5 puntos” ={(1,4), (2,3), (3,2), (4,1)}, entonces de casos favorables. Por lo tanto, ( )
= 4, #
¿Un caja contiene 7 camisas y 5 pantalones, si se seleccionan aleatoriamente una prenda, cuál es la probabilidad de que la prenda seleccionada sea un pantalón?.
Experimento: Seleccionar una prenda de vestir Espacio muestral:
= {7 camisas, 5 pantalones}, entonces
= 12, # de casos posibles.
Evento o suceso : “seleccionar un pantalón” ={5 pantalones}, entonces favorables.
= 5, # de casos
Por lo tanto, ( )
Ejercicios. 1.) Cuál es la probabilidad de ganarse el baloto, comprando una combinación?. 2.) De una lotería de cuatro dígitos en el número y dos dígitos en la serie usted compra un número, ¿cuál es la probabilidad de ganársela?. 3.) De una baraja de 52 cartas (diamantes, corazones, picas, tréboles) se extrae una carta en forma aleatoria, ¿cuál es la probabilidad de que la carta extraída sea un as o una 7?. 4.) Cuatro jugadores lanzan un par de dados y observan la suma de puntos. El primero apuesta a que el resultado será una suma de 8 puntos, el segundo una suma de 4 puntos, el tercero una suma de 7 puntos y el cuarto una suma de 11 puntos. ¿Cuál es la probabilidad de ganar de cada uno de ellos y quién tiene mayor probabilidad de ganar?.