DOCENTE: Mg. Sc. Ing. EDGAR ALCÁNTARA TRUJILLO
Niveles de medición (tipos de variables)
V. Nominal
• • • • •
Sexo Nacionalidad Estado civil Diagnóstico psiquiátrico ¿Recibió terapia?
V. Intervalar (escala)
V. Ordinal
• •
• •
Puesto en una carrera Orden de mérito Escala en la universidad Nivel educativo
• • • • • •
Edad Salario Temperatura Número de hijos Coeficiente Intelectual Talla y peso
De análisis o de Comparación Razón =
Proporción =
Entre las razones más usadas en estadísticas vitales y sanitarias, se encuentran: Razón e índice de natalidad mortalidad. Razón e índice de mortinatalidad Indice de fertilidad.. • Otros: Habitantes/Km2. Médicos/Habitante. Kilómetros/Hora etc.
Entre los porcentajes más usados se encuentran: PORCENTAJE DE CAMBIO Porcentaje de aumento. Porcentaje de disminución. PORCENTAJE DE ERROR Se obtiene dividiendo la diferencia del valor aproximado y el exacto entre el valor exacto, multiplicado por 100.
Tasas
Las tasas tienen su mayor utilidad en el campo de las estadísticas vitales, las cuales están relacionadas con problemas de población, como nacimientos (natalidad), muertes (mortalidad) y muchos otros fenómenos de tipo social. Para comprender una tasa, debemos conocer: • El período de tiempo (anual, trimestral, etc) • El # de nacimientos, muertes, casamientos, etc. (Para el numerador) • El total de la población (para el denominador) • Las unidades por cada 100, por cada 1000, etc.
ESTADÍGRAFOS, ESTADÍSTICOS, O ESTIMADORES Son cifras descriptivas dadas en función de la muestra que nos permite tener una visión completa del fenómeno. Existen cuatro tipos: De posición: Posición que ocupa la distribución de frecuencia respecto al valor de la variable. De dispersión: Nos indica qué tan dispersos están los datos alrededor de su valor promedio. De concentración: Indica el grado de concentración o de desigualdad de una distribución. De forma: Indican la forma de la curva o polígono.
ESTADÍGRAFOS DE POSICIÓN ESTADÍGRAFOS DE TENDENCIA CENTRAL
Brinda información sobre el centro de la distribución. Estos son: Media Aritmética (Media). Media Geométrica. Media Armónica. Moda. Mediana.
ESTADÍGRAFOS DE LOCALIZACIÓN
Senalan la localización de los valores más frecuentes o de valores externos. Estos son: Cuantiles (describe el comportamiento de la muestra): - Deciles - Cuartiles - Percentiles.
Aron, Aron y Coups (2013)
Aron, Aron y Coups (2013)
Es el valor observado más común en una distribución
Aron, Aron y Coups (2013)
Definimos la mediana de los datos como aquel valor que deja el 50% de los datos por encima y el 50% de los datos por debajo de dicho valor, una vez ordenados los datos de menor a mayor.
Si ordenamos todas las observaciones de menor a mayor, el valor central es la mediana
Aron, Aron y Coups (2013)
Aron, Aron y Coups (2013)
ESTADÍGRAFOS DE DISPERSIÓN Indican qué tan dispersos están los datos alrededor de su valor promedio. Son: Varianza. Desviación típica (estándar). Coeficiente de Variación.
ESTADÍGRAFOS DE CONCENTRACIÓN Indican el grado de concentración o de desigualdad de una distribución.
Aron, Aron y Coups (2013)
DISPERSIÓN / VARIABILIDAD
En función a la media
𝑌 = ¿?
S = ¿?
Aron, Aron y Coups (2013)
Aron, Aron y Coups (2013)
Gonick y Smith (1993)
ESTADÍGRAFOS DE FORMA Indican la forma de la curva o polígono. Pueden ser: Curvas de polígonos (frecuencias porcentuales, ojiva menor que, ojiva mayor o igual que). Simetría o asimetría. Apuntamiento o Curtosis (forma más o menos aplastada o alargada en la punta, y están en función de los deciles).
Distribución Normal Estándar (Campana de Gauss)
ASIMETRÍA
Coeficientes de asimetría
CURTOSIS
Coeficientes de Curtosis
FRECUENCIA ABSOLUTA (fi): Número de datos que resulta del conteo en la categoría respectiva. FRECUENCIA RELATIVA (hi): Se define en cada categoría por: hi = fi/n. Su sumatoria es igual a la unidad. FRECUENCIA PORCENTAJE (pi): Es igual a la frecuencia relativa multiplicada por 100%. Su sumatoria es igual a 100.
Si “n” valores de una variable discreta “x” observados en una muestra de una población, tienen (k ≤ n) valores distintos, x1, x2, …, xk, que se repiten respectivamente f1, f2, …, fk veces, entonces, la organización o agrupación de estos “n” datos originan la distribución de frecuencias.
GRAFICA DE LA DISTRIBUCION DE VARIABLE DISCRETA: La representación de una distribución de frecuencias de variable discreta puede mostrarse a través de barras, líneas verticales (bastones), etc.
DISTRIBUCION DE FRECUENCIAS DE VARIABLE DISCRETA Valores de la Frecuencias Frecuencias Frecuencias Variable Absolutas Relativas Porcentajes pi X fi hi
x1 x2 … xk TOTAL
f1 f2 … fk N
h1 h2 … hk 1.00
p1 p2 … pk 100
Ante la pregunta del número de hijos por familia, una muestra de 20 hogares marcó las siguientes respuestas: 2, 1, 2, 4, 1, 3, 2, 3, 2, 0 3, 2, 1, 3, 2, 3, 3, 1, 2, 4
Obtenga la distribución de frecuencias de los datos y luego grafique.
SOLUCIÓN :
SOLUCIÓN: No. HIJOS FRECUENCIA FREC. REL. 0 1 0.05 1 4 0.20 2 7 0.35 3 6 0.30 4 2 0.10 TOTAL = 20 1.00
FREC. % 5.00% 20.00% 35.00% 30.00% 10.00% 100.00%
Esta distribución se aplica cuando la variable estadística cuantitativa es continua o cuando el numero de valores distintos de una variable discreta es muy grande. La amplitud (A) de los intervalos, se obtiene dividiendo el rango (R) de valores de los datos entre “k” intervalos y determinando el numero de datos que contiene cada intervalo.
DISTRIBUCION DE FRECUENCIAS POR INTERVALOS O CLASES Intervalos Conteo Ii
I1 I2 … Ik TOTAL
///… ///… … ///…
Frecuencias Absolutas fi
Frecuencias Relativas hi
Frecuencias Porcentuales pi
f1 f2 … fk N
h1 h2 … hk 1.00
p1 p2 … pk 100
Para construir la distribución de frecuencias por intervalos hay varios procedimientos, pero se recomienda: ◦ Elegir no menos de 4 ni más de 20 intervalos. Con menos de 4 se puede omitir características, con más de 20 se pueden complicar innecesariamente los cálculos. (Todos los intervalos deben tener la misma amplitud. La amplitud debe ser entero en lo posible).
◦ El número de intervalos elegidos, debe originar una distribución de frecuencias mono modal. Es decir, una distribución cuyas frecuencias van aumentando progresivamente hasta una frecuencia máxima y luego van disminuyendo también progresivamente.
1.
Determinar el rango (R) de los datos que se definen:
R = Xmax – Xmin 2.
3.
Donde: Xmax= dato máximo, Xmin= dato mínimo Determinar el numero de intervalos, k, la regla de Sturges nos da un valor aproximado: k = 1 + 3,3 log (n), n ≥ 10 redondeando el numero obtenido al entero inmediato mayor. Determinar la amplitud A del intervalo: , kA ≥ R.
R A k
4.
Determinar los extremos de los intervalos de la siguiente manera:
I1 = [Xmin , Xmin + A> I2 = [Xmin + A, Xmin + 2A> I3 = [Xmin + 2A, Xmin + 3A> … Ik = [Xmin + (k – 1)A, Xmin + kA>
por lo que podemos considerar:
Xmax = Xmin + kA
MARCA DE CLASE: La marca de clase o marca de intervalo : Ii = [Li , Ui> es el número” yi” que se define como el punto medio del intervalo.
Li U i yi 2 La marca de clase es el valor representativo de todos los datos contenidos en el intervalo.
GRAFICO DE LA DISTRIBUCION DE INTERVALOS:
◦ HISTOGRAMA: Es una gráfica básica que consiste en barras rectangulares. Representa a las frecuencias absolutas, relativas o porcentaje. Se usan, generalmente, las marcas de clase. ◦ POLIGONO DE FRECUENCIAS: Es una gráfica que se obtiene uniendo con segmentos de recta los puntos determinados por la abcisa (marca de clase) y la ordenada (frecuencia respectiva) ◦ CURVA DE FRECUENCIAS: La curva de frecuencias es una gráfica “avanzada” de una distribución de frecuencias, que se obtiene del polígono de frecuencias “suavizando” sus puntos angulosos.
DISTRIBUCIONES SIMETRICAS:
DISTRIBUCION ASIMETRICA
DISTRIBUCION MULTIMODAL
FRECUENCIA ABSOLUTA ACUMULADA (Fi) Suma consecutiva de las frecuencias absolutas (fi) FRECUENCIA RELATIVA ACUMULADA (Hi) Suma consecutiva de las frecuencias relativas (hi) FRECUENCIA PORCENTUAL ACUMULADA (Pi %) Suma consecutiva de las frecuencias porcentuales (pi)
Los salarios quincenales, en dólares, recopilados en una muestra de 45 empleados son: 63 82 36 49 56 64 59 35 78 43 51 70 57 62 43 68 62 26 64 72 52 51 62 60 71 61 55 59 60 67 57 67 61 67 51 81 50 64 76 44 73 56 62 63 60 Desarrolle la distribución de frecuencias de los datos.
INTRODUCCION:
Las medidas de tendencia central, denominadas también promedios, ubican el centro de los datos, como la media aritmética (la media geométrica, la media armónica), la mediana y la moda.
LA MEDIANA (Me)
Es el valor mediano (dato) de una serie valores observados, que separa a la serie datos ordenados (en forma creciente decreciente) en dos partes de igual numero datos.
de de o de
La mediana depende del numero de orden de los datos y no de los valores de estos datos.
MEDIANA DE DATOS NO AGRUPADOS
Para hallar la mediana de “n” valores no agrupados de una variable cuantitativa es:
1. Se ordenan los datos en forma creciente. 2. Luego se ubica el valor central “Me”. Si “n” es impar, la mediana es el dato ordenado del centro. Pero si “n” es par, la “Me” es la semisuma de los dos valores ordenados centrales. Ejm: Calcule la Me para las siguientes series de datos: a) 120, 3, 14, 1, 99, 7, 30, 2000, 16 b) 30, 77, 3, 300, 36, 11, 10000, 29
a)
Ordenando los 9 datos tenemos: 1, 3, 7, 14, 16, 30, 99, 120, 2000 La Me es el quinto dato ordenado que separa a la serie en 2 grupos de 4 datos cada uno. Esto es: Me = 16
Ordenando los 8 datos tenemos: 3, 11, 29, 30, 36, 77, 300, 10000 La “Me” en este caso puede ser cualquier numero situado entre 30 y 36, ya que este separa a los datos en grupos de 4 cada uno. Pero se conviene:
30 36 Me 33 2
MEDIANA DE DATOS AGRUPADOS:
a) Si los valores de una variable discreta se agrupa en una distribución de frecuencias de la forma “dato ↔ frecuencia”, el calculo de la “Me” se hace siguiendo el método de datos no agrupados. Como los datos ya están ordenados, solo bastara ubicar su centro. Ejm: xi
F. Absolutas fi
0
1
1
4
Ubicando la Mediana será:
2
7
Me = 2
3
6
4
2
Numero de Hijos
b)
Para valores de una variable continua o de una distribución de frecuencias por intervalos, la mediana se determina aproximadamente por interpolación de manera que la mitad inferior (50%) de los datos agrupados sean menores o iguales que la mediana.
1.
2.
Se ubica el intervalo que contiene a la mediana en la mitad inferior del total de las frecuencias: 0,5 x n, (50% del total de las frecuencias de cualquier tipo). La mediana Me ϵ [Li, Ui[ y esta dada por: Me=Li+a donde, “a” se obtiene por interpolación (semejanza de triángulos ABE y ACD), esto es:
a f i A fi Luego:
y
f i a xA fi
f i Me Li ( x A) fi
Ii
fi
Fi
[26, 34[
1
1
[34, 42[
2
3
[42, 50[
4
7
[50, 58[
10
17
[58, 66[
16
33
[66, 74[
8
41
[74, 82]
4
45
45
Ii
fi
Fi
[26, 34[
1
1
[34, 42[
2
3
[42, 50[
4
7
[50, 58[
10
17
[58, 66[
16
33
[66, 74[
8
41
[74, 82]
4
45
n/2=22.5
45
Para n=45, la menor frecuencia absoluta que supera a: (n/2= 22.5) es 33, el que está comprendido en el intervalo de clase [58, 66>
Fi 22.5 17 5.5 A 66 58 8 Li 58
Me Li (
Fi 5,5 xA) 58 x8 60,75 fi 16
1)
2)
3) 4)
La mediana, solo depende del número de datos ordenados y no del valor de los datos. Por lo tanto no es sesgada por algún valor aislado grande o pequeño. La mediana puede ser calculada para distribuciones de frecuencia con intervalos de diferente amplitud, siempre que se pueda determinar el limite inferior Li del intervalo que contiene a la Me. La “Me” puede ser calculada para variables con valores en escala ordinal. La suma de las diferencias (en valor absoluto) de “n” datos con respecto a su mediana es minima. En caso de datos n sin agrupar es:
x c minimo; i 1
i
si c es la mediana de los xi
Cinco amigos quienes viven en lugares separados, a lo largo de la carretera central, tal como se observa en la figura; desean reunirse de manera urgente. Cuál de estos puntos deben elegir para este encuentro de manera que el costo total del transporte sea mínimo, si el costo de cada transporte es proporcional al recorrido.
Si A es el origen, entonces, las coordenadas de A, B, C, D, y E son respectivamente: x1= 0, x2= 20, x3= 35, x4=41 y x5=51 Sea K el punto de reunión. Dado que el costo es proporcional al recorrido, podemos elegir sin perdida de generalidad la proporcionalidad igual a 1, entonces: 5
Costo total de transporte xi K i 1
Este costo es mínimo, si K es la mediana de los 5 valores: 0, 20, 35, 41, 51, esto es si K = 35. Luego deben reunirse en el lugar C, a 35 km de A.
De una serie de datos es el valor “Mo” que se define como el dato que ocurre con mayor frecuencia. La moda no siempre existe y si existe, no siempre es única. La moda es el promedio menos importante debido a su ambigüedad. MODA EN DATOS NO AGRUPADOS: Ejm: Determine la moda de los siguientes datos:
a) 7, 9, 7, 8, 7, 4, 7, 13 , 7 b) 5, 3, 4, 5, 7, 3, 5, 6, 3 c) 31, 11, 12, 19
a) b) c)
Mo = 7. Esta serie de datos es unimodal Tenemos: Mo1 = 3 y Mo2 = 5. Esta serie de datos es bimodal. “Mo” no existe. También se dice que cada uno de los datos es una moda.
Para calcular la “Mo” de “n” datos organizados por intervalos: 1) Se determina el intervalo que contiene a la “Mo”. Este intervalo modal [Li, Ui], debe ser el único con la mayor frecuencia, tiene amplitud A, frecuencia absoluta fi y sus frecuencias vecinas antes y después son fi-1 y fi+1 respectivamente. 2) Luego se aplica la formula: d1 Mo Li x A d1 d 2
Donde: Li = limite inferior del intervalo modal; d1 f1 f i 1 d 2 f1 f i 1 A Amplitud del inervalo mod al.
Ii
fi
Fi
[26, 34[
1
1
[34, 42[
2
3
[42, 50[
4
7
[50, 58[
10
17
[58, 66[
16
33
[66, 74[
8
41
[74, 82]
4
45
45
Se observa que la mayor frecuencia es 16 Por lo tanto, la moda “Mo” ϵ [58, 66[ Además: Li = 58; Ui = 66 d1 = 16 – 10 = 6 d2 = 16 – 8= 8 = 8 A = 66-58 = 8 Luego la “Mo” de la distribución es:
Ii
fi
Fi
[26, 34[
1
1
[34, 42[
2
3
[42, 50[
4
7
[50, 58[
10
17
[58, 66[
16
33
[66, 74[
8
41
[74, 82]
4
45
d1 6 Mo Li x A 58 x8 68 d1 d 2
Mo 61,429
45
X
Es el valor numérico que se obtiene dividiendo la suma total de los valores observados de una variable entre el numero de observaciones. CALCULO DE LA MEDIA ARITMETICA MEDIA ARITMETICA DE DATOS NO AGRUPADOS: La Media aritmética de n valores x1, x2, x3, …, xn de la variable cuantitativa X, observados en una muestra es: n
Suma total X # de datos
x i 1
i
n
Ejemplo: Calcular la media aritmética de los 20 datos siguientes: 2, 1, 2, 4, 1, 3, 2, 3, 2, 0, 3, 2, 1, 3, 2, 3, 3, 2, 4, 1
Aplicando la formula: n
Suma total X # de datos
x i 1
n
Tenemos: 20
x
i
44 X 2.20 20 20 i 1
X 2,20
i
a) DATOS AGRUPADOS DE VARIABLE DISCRETA: Si n valores de una variable discreta X se clasifican en k valores distintos x1, x2, …, xk con frecuencias absolutas respectivas f1, f2, …,fk, entonces la media aritmética es:
k
Suma total X # de datos
f *x i 1
i
n
i
Ejemplo: Calcule la media aritmética de la distribución de frecuencias siguientes:
Numero de Hijos xi
F. Absolutas fi
0
1
1
4
2
7
3
6
4
2
Tenemos: Numero de Hijos xi
F. Absolutas fi
fi*xi
0
1
0
1
4
4
2
7
14
3
6
18
4
2
8
TOTAL
20
44
La media aritmética será: 5
Suma total X # de datos
f *x i 1
i
i
20
X 2,2
44 2.20 20
b)
DATOS AGRUPADOS POR INTERVALOS: Si n valores de una variable cuantitativa X estan organizados en una frecuencia de k intervalos, donde: y1, y2, …, yk son las marcas de clase y f1, f2, …, fk son las frecuencias abs. resp.
Entonces la media aritmética es: k
Suma total X # de datos
f *y i 1
i
n
i
Ejemplo: Calcule la media aritmética de la distribución de frecuencias por intervalos siguientes: Ii [26, 34[ [34, 42[ [42, 50[ [50, 58[ [58, 66[ [66, 74[ [74, 82]
fi 1 2 4 10 16 8 4 45
Tenemos: Ii
yi
fi
fi*yi
[26, 34[
30
1
30
[34, 42[
38
2
76
[42, 50[
46
4
184
[50, 58[
54
10
540
[58, 66[
62
16
992
[66, 74[
70
8
560
[74, 82]
78
4
312
45
2694
La media aritmética será: 7
Suma total X # de datos
f *y i 1
i
45
i
2694 45
X 59,867
a)
La suma total de n valores cuya media es x es igual a nx. En efecto, para n datos no agrupados y agrupados respectivamente, se tiene: n
x i 1
b)
i
n x;
k
fx i 1
i i
nx
Si a la variable X se le hace la transformación lineal Y = aX + b, es decir si a cada uno de los n valores xi de X es transformado en el valor: yi = axi + b de Y, siendo a y b constantes, entonces, a media de los yi es: n valores
y ax b
c)
La suma algebraica de las desviaciones de n datos xi con respecto a su media x es igual a cero. Se tiene para datos no agrupados y agrupados:
n
i 1
d)
( xi x ) 0 ;
f i 1
i
* ( xi x ) 0
La suma de los cuadrados de las desviaciones de n datos con respecto a su media es minima. n
.
k
(x i 1
c) minima, 2
i
si c x
La media ponderada se obtiene por la siguiente relación: k
( w1 * x1 ) ( w2 * x2 ) ... ( wk * xk ) X w1 w2 ... wk
(w * x ) i
i 1
i
k
w i 1
i
Ejemplo: Un alumno en el semestre anterior ha obtenido 11 en el curso A de 5 créditos, 13 en el curso B de 4 créditos, y 16 en el curso C de 3 créditos, entonces su promedio de notas (ponderado por los créditos) es: SOLUCION:
X
(11* 5) (13 * 4) (16 * 3) 155 12,92 5 43 12
EJEMPLO: Los sueldos del mes de Enero de 200 empleados de una empresa tienen una media de 230 (nuevos soles por 10). a) Si el 60% de los empleados son hombres (el resto son mujeres) y tienen un sueldo promedio de 250, ¿Cuánto es el sueldo medio de las mujeres en enero? b) Si para el mes de julio, se propone un aumento general que consiste de un aumento variable del 30% a cada sueldo de enero mas una bonificación de 30, ¿Cuánto dinero adicional necesitara la empresa para pagar los sueldos incrementados?
1)
Si la distribución de los datos es simétrica, entonces, la media, la mediana y la moda tienen el mismo valor (fig 2.2 a). Esto es: X Me Mo
2)
Si la distribución es asimétrica de cola a la derecha, entonces, la moda es menor que la mediana y esta a su vez es menor que la media (fig. 2.2 b). Es decir: Mo Me X
3)
Si la distribución es asimétrica e cola a la izquierda, entonces, la relación es (fig. 2.2 c): X Me Mo
4.
Para distribuciones unimodales y de marcada asimetría, se tiene la siguientes relación empírica:
X Mo 3 * ( X Me) 5.
Los tres promedios pueden calcularse también para distribuciones de frecuencias con intervalos de diferente longitud, siempre que puedan determinarse o las marcas de clase (para la media) o de limite inferior Li del intervalo (para la mediana y la moda).
La media geométrica de n valores positivos x1, x2, …, xn es:
X n x1 * x2 * ... * xn Por ejemplo, la media geométrica de los valores 3, 9, 27 es igual a:
xG 3 3 * 9 * 27 9
La media geométrica se aplica para promediar: razones (a/b), índices (a/b en %), proporciones [a/(a+b)], tasa de cambio [(a-b)/b], que varían con el tiempo, etc.
Ejemplo 1: Si la producción de un bien ha experimentado un crecimiento del 30% del primero al segundo año y un incremento del 35% del segundo al tercer año y un decrecimiento del 15% del tercer al cuarto año. a) Calcule la tasa promedio de cambio y el porcentaje promedio de crecimiento de la producción de los tres últimos años. b) Calcule la producción del quinto año, si la del primer año fue 100.
Ejemplo 2: Supongamos que la población de una ciudad aumento de 10000 a 12600 en el periodo comprendido del año 2000 al año 2004 como se indica en el cuadro. Calcule la tasa promedio y el porcentaje promedio del crecimiento de la población.
La media armónica de n valores no nulos x1, x2, …, xn es un numero real, dado por: Xh
n n
1 i 1 xi
Por ejemplo la media armónica de 6, 4, y 3 es 4.
La media armónica se aplica para promediar datos cuyas unidades de medición son cocientes de unidades de medición de dos variables, por ejm. Datos expresados en km/hora. Siendo una formula practica la sgte: Total de mediciones de variable 1 xh Total de mediciones de variable 2
NOTA: La media armónica es siempre menor que la media geométrica, esta a su vez es menor que la media aritmética.
XH XG X Ejemplo 1: Una persona manejando su automóvil recorre los primeros 10 km a 60 km por hora y los siguientes 10 km a 70 km por hora, calcule la velocidad promedio.
Ejemplo 2: Una empresa de transporte gasta S/.400 en latas de aceite que cuestan S/. 10 la docena; S/. 500 en latas que cuestan S/.12,50 la docena; S/. 600 mas en latas que cuestan S/. 20 la docena y S/. 300 en otras que cuestan S/. 25 la docena. Calcule el costo promedio por docena de las latas de aceite.