UNIDAD 3
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
OBJETIVOS ESPECÍFICOS Al finalizar la unidad el alumno podrá: a) Determina Determinarr las característic características as que describen describen un conjunto conjunto de datos estadísticos. b) Aplicar Aplicar las medidas de posición, posición, dispersión, dispersión, asimetría asimetría y curtosis curtosis en problemas estadísticos de naturaleza económica.
TEMAS 3.1 Medidas de tendencia tendencia central: media media aritmética, mediana, mediana, moda, comparación compar ación de la media, la mediana y la moda moda así como como la media geométrica. 3.2 Medidas de dispersión: amplitud amplitud total, desviación media, media, desviación típica o estándar y dispersión relativa. 3.3 Asimetría. 3.4 Curtosis.
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Como se ha comentado en la Unidad 2, los cuadros y las gráficas gráficas son de gran ayuda para obtener mayor información de grandes cantidades de datos, que de otra forma pueden parecer confusos e inteligibles y por esa vía podemos percibir algunas de sus características que no necesariamente son visibles cuando están desorganizados. Sin embargo, un método aún más radical para condensar conjuntos de datos es el cálculo de medidas aritméticas de resumen, diseñadas para expresar las características más notables de los conjuntos de datos en la forma más compacta. Estas medidas aritméticas de variables cuantitativas pueden ser de tres tipos: medidas de tendencia central, medidas de dispersión y medidas de forma.
3.1 MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central se utilizan para representar a una serie de datos agrupados o no agrupados, a través de un solo valor alrededor del cual tienden a agruparse las observaciones y permiten ubicar lo que en algún sentido pudiera llamarse el "centro" de un conjunto de datos.
MEDIA ARITMÉTICA Es el promedio de los valores de las observaciones. Si los datos no están agrupados, su valor se obtiene sumando los valores de la serie y dividiéndolos entre el número de términos. En el caso de los datos agrupados su valor se obtiene multiplicando el punto medio de cada clase por su frecuencia y dicho resultado se divide entre el número de observaciones.
—
2
—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Como se ha comentado en la Unidad 2, los cuadros y las gráficas gráficas son de gran ayuda para obtener mayor información de grandes cantidades de datos, que de otra forma pueden parecer confusos e inteligibles y por esa vía podemos percibir algunas de sus características que no necesariamente son visibles cuando están desorganizados. Sin embargo, un método aún más radical para condensar conjuntos de datos es el cálculo de medidas aritméticas de resumen, diseñadas para expresar las características más notables de los conjuntos de datos en la forma más compacta. Estas medidas aritméticas de variables cuantitativas pueden ser de tres tipos: medidas de tendencia central, medidas de dispersión y medidas de forma.
3.1 MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central se utilizan para representar a una serie de datos agrupados o no agrupados, a través de un solo valor alrededor del cual tienden a agruparse las observaciones y permiten ubicar lo que en algún sentido pudiera llamarse el "centro" de un conjunto de datos.
MEDIA ARITMÉTICA Es el promedio de los valores de las observaciones. Si los datos no están agrupados, su valor se obtiene sumando los valores de la serie y dividiéndolos entre el número de términos. En el caso de los datos agrupados su valor se obtiene multiplicando el punto medio de cada clase por su frecuencia y dicho resultado se divide entre el número de observaciones.
—
2
—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Esta medida de posición tiene la ventaja de ser la más conocida y la que más se utiliza, utiliza, además, es fácil de calcular. Sin embargo tiene la desventaja de que los valores extremos influyen en su cálculo, por lo que el resultado puede ser una medida distorsionada que no represente adecuadamente al conjunto de los datos.
Datos no agrupados
Datos agrupados n
N
∑ x
∑ f x x
i i
i
Población µ
=
i 1 =
µ
N
=
i
=
1
N n
∑ f x x
n
∑ x
Muestra
x
i =
=
i i
i
x
1
=
i
=
n
1
n
Ejemplo: Tomemos nuevamente la serie de número de aciertos en un examen aplicado a 80 estudiantes cuyos resultados fueron los siguientes: 68
84
75
82
68
90
62
88
76
93
73
79
88
73
60
93
71
59
85
75
61
65
75
87
74
62
95
78
63
72
66
78
82
75
94
77
69
74
68
60
96
78
89
61
75
95
60
79
83
71
79
62
67
97
78
85
76
65
71
75
65
80
73
57
88
78
62
76
53
74
86
67
73
81
72
63
76
75
85
77
—
3
—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
La suma de los 80 resultados de los exámenes es y si este valor lo dividimos entre el número de términos obtenemos: 80
∑ x
i
µ
=
i 1 =
=
N
6020 /80
=
75.25
En el caso de los datos agrupados, partimos de la tabla de frecuencias calculada con anterioridad en la cual se había obtenido el punto medio o marca para cada una de las clases, si multiplicamos estas dos últimas columnas, obtenemos:
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
Punto medio o Frecuencia marca de clase f i xi 3 56 15 63 15 70 25 77 10 84 8 91 4 98 80
f i xi 168 945 1050 1925 840 728 392 6048
De donde: 7
∑ f i xi i
=
=
6048
1
Y dividiendo entre el número de observaciones tenemos que:
—
4
—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
n
∑ f x
i i
µ
=
i 1 =
6048 /80
=
N
=
75.60
se observa que los valores de la media aritmética de datos agrupados difiere ligeramente de los datos no agrupados, pero es una buena aproximación.
MEDIA PONDERADA Cuando se desea otorgar pesos diferentes a una serie de datos de acuerdo a su importancia desigual, la media se obtiene sumando los productos de los valores observados y sus pesos respectivos, dividida entre la suma de estos últimos. n
∑ ( w x ) i
x
i =
i
1 n
=
∑w
i
i
Ejemplo:
1
=
En una materia dada, se asignan diferentes pesos a los elementos que forman parte de la evaluación: 20 por ciento a la resolución de ejercicios, 40 por ciento a los exámenes parciales y 40 por ciento al examen final. Si las calificaciones obtenidas por un determinado estudiante fueran:
a s o n i p s E l a v o d n a S a n e l E
—
5
—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Elemento
Calificación
Peso
Actividades Exámenes par-
90
10
80
40
Examen final
70
50
La calificación final sería el promedio ponderado de los elementos anteriormente descritos:
x =
10(90) + 40(80) + 50(70) 10
+
40 + 50
=
7600 100
=
76
resultado muy diferente del que se hubiera obtenido con la media aritmética de las calificaciones: 90 x =
+
80
+
3
70
240 =
=
8
3
MEDIANA Es el valor que divide en dos partes iguales un arreglo ordenado. Si el número de valores es impar, la mediana es el valor medio del arreglo, si el número de valores es par, la mediana será el promedio de los dos valores centrales. En el caso de datos agrupados, se ubica el intervalo en el que está la mediana, esto es, el intervalo en el que se encuentra la observación u observaciones (en el caso en que sea un número par) que son el
—
6
—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
centro del arreglo de datos ordenado. Una vez ubicada la clase de la mediana, el valor se obtiene a través de interpolación, utilizando la siguiente fórmula:
La mediana es un valor fácil de calcular y no se ve distorsionada por valores extremos, aunque hay que reconocer que no es tan conocida como la media aritmética, además de que para calcularla hay que ordenar los datos en forma ascendente. Una desventaja importante es que no se puede manipular algebraicamente, esto es, no es posible llegar a la mediana de un grupo de datos a partir de la mediana de los subgrupos.
Ejemplo: Nuevamente, utilizando los datos de los exámenes a 80 estudiantes, buscaríamos la mediana, esto es, el valor que divide en dos partes el arreglo ordenado. Lo primero que habría que hacer es organizar las observaciones en orden ascendente y ubicar el valor central:
a s o n i p s E l a v o d n a S a n e l E
—
7
—
UNIDAD 3 —
53 57 59 60 60 60 61 61 62 62
62 62 63 63 65 65 65 66 67 67
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
68 68 68 69 71 71 71 72 72 73
73 73 73 74 74 74 75 75 75 75
75 75 75 76 76 76 76 77 77 78
78 78 78 78 79 79 79 80 81 82
82 83 84 85 85 85 86 87 88 88
88 89 90 93 93 94 95 95 96 97
dado que el número de observaciones es par se tienen dos valores centrales de los que hay que obtener el promedio. En este caso ambos son iguales a 75 por lo que : Mediana = 75 En el caso de los datos agrupados, acudimos al cuadro de distribución de frecuencias:
Intervalos de clase
Frecuencia
53-59 60-66 67-73 74-80 81-87 88-94 95-101
3 15 15 25 10 8 4
Total
80
—
8
Frecuencia acumulada 3 18 33 58
a s o n i p s E l a v o d n a S a n e l E
—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
En este caso particular, en el que se tienen 80 observaciones, la mediana estará en el intervalo donde se ubique la observación número 40, por lo que acumulando las frecuencias encontramos que ésta es la que incluye los valores 74-80, por lo que, sustituyendo:
L1 = límite inferior de clase = 74 n = número total de observaciones = 80
∑ f = suma de frecuencias de clases inferiores = 33 f med = frecuencia de clase de la mediana = 25 c = tamaño del intervalo de clase de la mediana = 6 80 2
Mediana = 74 +
- 33 6 = 75.68
25
a s o n i p s E l a v o d n a S a n e l E
—
9
—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
CUARTILES, DECILES Y PERCENTILES Estas medidas estadísticas son valores bajo los cuales se encuentra una proporción específica de un conjunto de datos. Cuando esa proporción representa un porcentaje de los datos, entonces se denomina percentil y dentro de éstos los más conocidos son los cuartiles y deciles.
• Cuartiles:
dividen
los
datos
observados
en
cuatro
porciones, en cada una de ellas se ubica el 25% de los datos.
• Deciles: dividen los datos observados en diez porciones, en cada una de ellas se ubica el 10% de los datos.
• Percentiles:
dividen los datos en 100 porciones, en cada
una de ellas se ubica el 1% de los datos.
Como el cuartil divide a la distribución en cuatro partes, esto es, en cada uno de ellos se encuentra el 25% de los datos, por lo que existen tres cuartiles: el primer cuartil Q1 nos marca la
—
10—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
primera cuarta parte de los datos, el segundo cuartil Q2, divide a la distribución en dos partes y el tercero, Q3, nos divide la tercera de la última cuarta parte de los datos. Por otro lado, tenemos nueve deciles D1, D2, D3, ….., D9 , entre cada uno de ellos se encuentra el 10% de los datos y 99 percentiles, P1, P2, P3,…., P99. que delimitan entre ellos al 1% de los datos. El segundo cuartil, el quinto decil y el cincuentavo percentil, corresponden a la mediana. Mediana
=
Q2
=
D5
=
P50
MODA Es el valor que ocurre con mayor frecuencia en una serie de datos, puede no existir y tampoco ser único. Una distribución con una sola moda se conoce como unimodal. En el caso de datos agrupados la moda se calcula por interpolación, después de ubicar la clase modal:
C
C=
Tamaño del intervalo modal
a s o n i p s E l a v o d n a S a n e l E
—
11—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Ejemplo: Si
observamos
los
datos
de
nuestro
ejemplo
anterior,
encontramos que el valor que ocurre con mayor frecuencia es 75, por lo que la moda de datos no agrupados es: Moda = 75 Para los datos agrupados:
Intervalos de clase
Frecuencia
53-59
3
60-66
15
67-73
15
74-80
25
81-87
10
88-94
8
95-101
4
Total
80
* 6=76.4
—
12—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Para ilustrar mejor el uso e interpretación de las medidas de tendencia central hasta ahora analizadas, veamos a manera de ejemplo los hábitos de lectura de los mexicanos. Información disponible nos indica que los mexicanos de 12 años y más leen en promedio 2.9 libros al año. Antes que lamentar la pobreza de los resultados, habría que preguntarse cuánto oculta y cuánto revela esta información. De entrada, convendría decir que el promedio dice muy poco del comportamiento lector de la población. Si en un conjunto de 10 personas una de ellas lee 100 libros y el resto ninguno, el promedio del grupo sería 10, pero ese promedio no sería una medida para describir el comportamiento de los lectores que no leen ninguno. Con mucha más razón podría decirse algo similar de un conjunto que abarca más de 60 millones de personas. Por lo tanto, podríamos acudir a otras dos medidas estadísticas, que tal vez sean más reveladoras: la mediana y la moda. La mediana, como ya se ha visto, es el valor que separa por la mitad las observaciones ordenadas de menor a mayor, de tal forma que 50% de éstas son menores que la mediana y otro 50% son mayores; en tanto que la moda es el valor de la variable que más veces se repite, es decir, aquel cuya frecuencia absoluta es mayor. De acuerdo con la información mencionada, la mediana nacional es 1 y la moda es 0. Es decir, el 50% de la población lee más de un libro al año, mientras que el otro 50% lee menos y el número más repetido por los encuestado fue 0. Al analizar en conjunto estas tres medidas, podremos tener un panorama más completo de la variable que estamos estudiando.
—
13—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
RANGO MEDIO Es el valor promedio de las medidas mayor y menor de un conjunto de datos
Ejemplo: En nuestro ejemplo el límite inferior de los datos, esto es, el de menor valor, es 53 y el mayor, el límite superior, es 97 por lo que:
Rango =
53 + 97 2
= 101.5
MEDIA GEOMÉTRICA Para datos no agrupados, se define como la raíz n-ésima del producto de n valores, donde n es el número de observaciones. En el caso de datos agrupados, cada marca de clase de los intervalos de frecuencias se eleva al valor de su frecuencia, se multiplican los términos entre sí y al resultado se le obtiene la raíz n-ésima.
Datos no agrupados
Datos agrupados
a s o n i p s E l a v o d n a S a n e l E
—
14—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
La media geométrica es un valor calculado y a diferencia de la mediana y la moda en su resultado intervienen todos los valores de la serie. Los valores extremos le afectan menos que a la media aritmética y para cualquier serie de datos su valor será inferior al de la media aritmética. Se utiliza particularmente en el cálculo de números índice y en general cuando se quieren promediar tasas de crecimiento. Como desventajas puede mencionarse que no es una medida muy conocida y que su cálculo se dificulta si no se cuenta con una computadora. Adicionalmente habría que tomar en cuenta que no es posible obtenerla cuando en la serie aparecen números negativos o cero.
En nuestro ejemplo, calculamos la media geométrica de los datos no agrupados:
Para los datos agrupados elevamos cada una de las marcas de clase a la frecuencia correspondiente:
a s o n i p s E l a v o d n a S a n e l E
—
15—
UNIDAD 3 —
Intervalos de clase 53-59 60-66 67-73 74-80 81-87 88-94 95-101
Total
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Frecuencia Punto medio o marca de clase f i x 3 56 15 63 15 70 25 77 10 84 8 91 4 98 80
175,616 9.77481E+26 4.74756E+27 1.45301E+47 1.74901E+19 4.70253E+15 92,236,816
8.9834E+149
Nota: en la última columna del cuadro anterior, las cantidades aparecen en notación exponencial, ya ue se trata de números muy grandes. La expresión significa que habrí a que recorrer el
unto decimal a la
Multiplicamos entre sí cada uno de los resultados, a continuación a dicho producto le calculamos la raíz 80:
a s o n i p s E l a v o d n a S a n e l E
—
16—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
3.2 MEDIDAS DE DISPERSIÓN En el análisis estadístico es importante conocer qué tanto varían las observaciones alrededor de un valor central. Esta variabilidad puede medirse de dos maneras: como distancia entre observaciones seleccionadas o bien como desviaciones promedio de las observaciones individuales respecto a un valor central. De los primeros valores mencionados, los más usuales son el
rango y el rango interfractil.
RANGO Es la diferencia entre las medidas mayor y menor de un conjunto de datos. Para datos agrupados y no agrupados se calcula:
Este valor es muy fácil de calcular y depende únicamente de dos de sus elementos: el mayor y el menor, sin embargo, no toma en cuenta los elementos que están entre esos dos valores, por lo que la información que nos proporciona es muy limitada.
Ejemplo: Retomando nuestro conjunto de los exámenes aplicados a 80 estudiantes, donde se contabilizaron el número de aciertos, los datos en orden ascendente eran:
—
17—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
53 57 59 60 60 60 61 61 62 62
62 62 63 63 65 65 65 66 67 67
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
68 68 68 69 71 71 71 72 72 73
73 73 73 74 74 74 75 75 75 75
75 75 75 76 76 76 76 77 77 78
78 78 78 78 79 79 79 80 81 82
82 83 84 85 85 85 86 87 88 88
88 89 90 93 93 94 95 95 96 97
Por lo que el rango de esta distribución es:
RANGO INTERFRACTIL Es la diferencia entre dos fractiles, ya sean éstos cuartiles o deciles. En el caso de los primeros el rango intercuartil sería: Q
=
Q3 − Q1 2
DESVIACIÓN MEDIA Es la media aritmética de todas las diferencias absolutas entre cada observación individual y la media aritmética del conjunto de datos, aunque también puede calcularse utilizando la mediana. Para los datos agrupados se calcula: a s o n i p s E l a v o d n a S a n e l E
—
18—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Datos no agrupados
Datos agrupados
Población
n
∑ f i | xi − x | Dm
Muestra
f i
=
xi
=
x n
=
=
=
i 1 =
n frecuencia de la clase i
punto medio de la clase i media muestral total de observaciones
Ejemplo: En el caso de los datos no agrupados, tomamos el valor ya calculado de la media aritmética de nuestro ejemplo, obtenemos las diferencias absolutas y dividimos entre el número de términos:
y si quisiéramos utilizar la mediana, su cálculo sería: a s o n i p s E l a v o d n a S a n e l E
—
19—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Para los datos agrupados tendríamos:
Punto medio o marca de clase
Intervalos Frecuencia de clase f i 53-59 60-66 67-73 74-80 81-87 88-94 95-101 Total
3 15 15 25 10 8 4 80
56 63 70 77 84 91 98
Dm
19.6 12.6 5.6 1.4 8.4 15.4 22.4
663.6 =
7
=
58.8 189 84 35 84 123.2 89.6 663.6
8.295
DESVIACIÓN ESTÁNDAR Es la raíz cuadrada de la media aritmética de las desviaciones, elevadas al cuadrado, de cada uno de los valores respecto a la media. En esta medida intervienen todos los valores de la serie y pone especial énfasis en los valores extremos, ya que su diferencia con relación a la media se eleva al cuadrado. De la fórmula podemos deducir que la desviación estándar será siempre
un
valor
positivo
—
y
20—
mientras
los
valores
estén
a s o n i p s E l a v o d n a S a n e l E
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
UNIDAD 3 —
distribuidos a una mayor distancia de la media, mayor será su valor. En cambio si todos los valores fueran iguales, la desviación estándar tendría un valor cero.
Datos no agrupa-
Datos agrupados
2
N
∑ ( x − µ ) Población
σ
=
∑ f ( x − µ ) i
i 1 =
N
σ
=
N
2
∑ f ( x − x ) i
s
i 1 =
n
i
1
n
i
s
=
=
∑ ( x − x)
Muestra
i
2
n
2
N
i
−1
=
i
=
i
1
n −1
En nuestro ejemplo, la desviación estándar de datos no agrupados, elevamos al cuadrado las diferencias con respecto a la media. La serie anterior se divide entre el número de términos y finalmente se obtiene la raíz cuadrada.
2
80
∑ ( x − 75.25) i
σ
=
i 1 =
8503 =
80
80
En el caso de los datos agrupados:
—
21—
=
106.2875
=
10.31
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Punto medio IntervaFrecuencia o marca de los x i clase f i de clase xi
− µ
( xi − µ )
2
f i ( xi − µ )2
53-59
3
56
-19.6
384.16
1152.48
60-66
15
63
-12.6
158.76
2381.4
67-73
15
70
-5.6
31.36
470.4
74-80
25
77
1.4
1.96
49
81-87
10
84
8.4
70.56
705.6
88-94
8
91
15.4
237.16
1897.28
95-101
4
98
22.4
501.76
2007.04
Total
80
8663.2
De donde: 8663.2 σ
=
=
7
14.07
VARIANZA Es el cuadrado de la desviación estándar.
Población
Muestra
σ
s
—
22—
2
2
=
=
(σ )
(s)
2
2
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
DISTRIBUCIÓN NORMAL La llamada curva normal, es la expresión gráfica de una distribución normal, que es una distribución de frecuencias que se caracteriza por:
• • •
La media = mediana = moda. Es simétrica alrededor de este valor central. Sus extremos se extienden en forma indefinida en ambas direcciones y se aproximan pero nunca tocan al eje horizontal.
En una distribución normal de frecuencias, puede estimarse el porcentaje de los valores que están a
±1, ±2 y ±3 desviaciones
estándar desde la media:
% de datos en el intervalo
Intervalo [ µ − σ
,
68.3%
µ + σ ]
[ µ − 2σ , µ + 2σ ]
95.4%
[ µ − 3σ , µ + 3σ ]
99.7%
Lo que gráficamente puede representarse como:
a s o n i p s E l a v o d n a S a n e l E
—
23—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
a s o n i p s E l a v o d n a S a n e l E
—
24—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Ejemplo: Supongamos
que
se
realiza
un
nuevo
examen
a
1,000
estudiantes y que el número de aciertos que obtuvieron se expresa en la siguiente tabla de frecuencias:
Intervalo
Marca de clase
Frecuencia
60-69 70-79 80-89 90-99 100-109 110-119 120-129 130-139 140-149
64.5 74.5 84.5 94.5 104.5 114.5 124.5 134.5 144.5
26 56 145 230 235 182 82 31 13
Total
1000
Al graficar la información anterior observamos que el histograma de frecuencias tiene una forma simétrica parecida al de una distribución normal, si se calculan la media aritmética, moda y mediana se llega a los siguientes resultados:
cuyos valores son bastante cercanos, lo que nos permite establecer que una buena aproximación de esta distribución de —
25—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
frecuencias puede ser la curva normal y dado que la desviación estándar de nuestros datos es: σ
=
16.237
% de datos en el intervalo
Intervalo
68.3% 95.4% 99.7%
TEOREMA DE CHEVYSHEV Como se vio anteriormente, a través de la desviación estándar es posible obtener información sobre la forma en que se distribuyen las observaciones alrededor de un valor central cuando se trata de una distribución normal. Pero también esta desviación estándar puede ayudarnos en ese mismo sentido cuando los datos no se distribuyen normalmente, para ello acudimos al teorema de Chevyshev, el que establece que cualquiera que sea la forma de la distribución de frecuencia de una población, podemos esperar que la proporción de observaciones que caen dentro de k desviaciones estándar de la media, será al menos:
Estas predicciones son más conservadoras, aplicando este teorema, se espera que la dispersión de los datos con relación a la media en términos de desviaciones estándar sea el siguiente:
—
26—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
Valor de k 1
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
% de datos en el intervalo
Intervalo [ µ − σ
,
0%
µ + σ ]
2
[ µ − 2σ , µ + 2σ ]
75%
3
[ µ − 3σ , µ + 3σ ]
89%
4
[ µ − 4σ ,
94%
µ + 4σ ]
a s o n i p s E l a v o d n a S a n e l E
—
27—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
COEFICIENTE DE VARIACIÓN Hasta ahora las medidas de dispersión estudiadas han sido medidas absolutas y por lo tanto no necesariamente podrían compararse cuando las distribuciones se expresaban en unidades diferentes. Adicionalmente, en el caso de la desviación estándar habría que relacionarla con el tamaño del promedio utilizado para su cálculo. Surge así el llamado coeficiente de variación, conocido a veces como variación relativa, que es la razón entre la desviación estándar y la media aritmética y nos indica el porcentaje de datos que están ubicados alrededor de la media a una distancia de una desviación estándar.
Población
CV
Muestra
CV
σ =
µ
s =
x
Utilizando los datos del ejemplo anterior, tenemos que: CV
16.237
σ =
=
µ
101.49
=
0.16* 100
=
16%
Este resultado significa que el 16% de las observaciones están ubicadas a una distancia de la media aritmética equivalente a una desviación estándar.
—
28—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
3.3 ASIMETRÍA La forma de una distribución de frecuencias se puede describir por su simetría o falta de ella (asimetría) y por su agudeza (curtosis). El grado de asimetría, es el grado de distorsión de una distribución de frecuencias desde la simetría horizontal, cuando se tiene una distribución unimodal, se pueden presentar tres casos:
Asimetría cero
media
= mediana =
Asimetría positiva
media
> mediana >
Asimetría negativa
moda
> mediana >
a s o n i p s E l a v o d n a S a n e l E
—
29—
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
COEFICIENTE DE PEARSON Es la medida de asimetría más conocida, es la razón de la diferencia de la media y la moda entre la desviación estándar.
Sk
=
µ −
mo
σ
Población
µ
mo σ
media de la población
=
=
=
moda
de la población
desviación estándar de la población
Muestra
De acuerdo al valor del coeficiente, tenemos que:
Simetría
Sk
=
0
Sesgo negativo
Sk < 0
Sesgo positivo
Sk > 0
CURTOSIS Es el grado de agudeza de una curva de distribución de frecuencias y su cálculo es:
—
30—
a s o n i p s E l a v o d n a S a n e l E
UNIDAD 3 —
DESCRIPCIÓN DE UNA DISTRIBUCIÓN
Datos no agrupados
Datos agrupados
Población
Muestra
De acuerdo al valor del coeficiente, las curvas tienen diferentes denominaciones:
Mesocúrticas
k
=3
Leptocúrticas
k
>3
son más agudas
Platocúrticas
k
<3
son más planas a s o n i p s E l a v o d n a S a n e l E
—
31—