UNIVERSIDAD NACIONAL DEL ALTIPLANO PUNO FACULTAD DE INGENIERIA GEOLOGICA Y METALURGICA ESCUELA PROFESIONAL DE INGENIERIA GEOLOGICA
CURSO DE GEOESTADISTICA I TEMA 6: MEDIDAS DE DISPERSION Por: Ing. MSc. Roger Gonzales Aliaga
Puno, Marzo del 2012
MEDIDAS DE DISPERSION 1. 2. 3. 4.
Rango o recorrido Varianza Desviación estándar Coeficiente de variación
MEDIDAS DE DISPERSION Que es la dispersión? La dispersión se refiere a la extensión de los datos, es decir al grado en que las observaciones se distribuyen (o se separan). La descripción de un conjunto de datos no es completa citando solamente las medidas de tendencia central (media, mediana y moda). También es importante analizar las medidas de dispersión que nos permiten determinar el grado en que los datos numéricos tienden a extenderse alrededor de un valor medio. Cuando la medida de dispersión es alta con respecto a la escala en que se mide la variable, entonces, los datos no se encuentran tan cercanos unos a otros. Si la medida de dispersión es baja entonces los datos están cercanos. Las principales medidas de dispersión son: el rango o recorrido de la variable, la varianza y la desviación estándar. Son medidas que determinan en que forma se desvían o se dispersan los datos de una muestra o población con respecto a una medida de tendencia central (generalmente es con respecto a la media aritmética). Las medidas de tendencia central proporcionan una descripción incompleta de una distribución de datos. Puede haber dos distribuciones que tengan iguales uno o varios promedios y ser completamente diferentes.
1. RANGO O RECORRIDO Es la medida de dispersión más fácil de calcular. Para datos finitos o sin agrupar, el rango se define como la diferencia entre el valor más alto (Xmax.) y el mas bajo (Xmin) en un conjunto de datos. Rango para datos no agrupados; R = Xmáx - Xmín Ejemplo: Se tienen los resultados geoquímicos de cinco muestras con contenido de Au en g/tn en una veta de cuarzo: 18,23, 27,34 y 25. Para calcular el rango, se tiene que: R = 34 -18 = 16 g/tn Con datos agrupados no se saben los valores máximos y mínimos. Si no hay intervalos de clases abiertos podemos aproximar el rango mediante el uso de los limites de clases. Se aproxima el rango tomando el limite superior de la última clase menos el limite inferior de la primera clase. Rango para datos agrupados; R= (limite superior de la clase n – limite inferior de la clase n) Cuanto más grande es el rango, mayor será la dispersión de los datos de una distribución. Es adecuada para medir la variación de pequeños conjuntos de datos.
1. RANGO O RECORRIDO Ejemplo: Si se toman los datos de la tabla de distribución de frecuencias siguiente, que pertenece a una mina de Cu en %, el resultado del rango será: Clases 7.420 – 21.835
Xi
fi
14.628 10 0.33
21.835 – 36.250 29.043
4
0.13
36.250 – 50.665 43.458
5
0.17
50.665 – 65.080 57.873
3
0.10
65.080 – 79.495 72.288
3
0.10
79.495 – 93.910 86.703
5
0.17
Total
XXX
30 1.00
R= (limite superior de la clase – limite inferior de la clase ) R= (93.910 – 7.420) = 86.49 %
fr
2. VARIANZA Es la media aritmética de los cuadrados de las desviaciones. Se denota por S2. Este valor cuantifica el grado de dispersión o separación de los valores de la distribución con respecto a la media aritmética. A mayor dispersión mayor valor de la varianza, a menor dispersión menor valor de la varianza. La idea de dispersión se relaciona con la mayor o menor concentración de los datos en torno a un valor central, generalmente la media aritmética. - Para datos no agrupados: antes de aplicar la formula se calcula la media aritmética y luego se utiliza la siguiente formula .
2. VARIANZA En el siguiente ejemplo calcular la varianza
2. VARIANZA -Para datos agrupados: la varianza se basa en las diferencias entre la media aritmética y cada una de las puntuaciones. Es el promedio de los cuadrados de las distancias de las observaciones a partir de la media (su valor nunca será negativo). Cuando se tiene los datos en una tabla de frecuencia, el calculo de la varianza se hace a través de la siguientes fórmulas.
La fórmula del cálculo dependerá si la distribución es de datos originales o agrupados, así como de si se trabaja con poblaciones (se usa en el denominador N) o con una muestra (se usa “n-1”).
2. VARIANZA En la siguiente tabla de frecuencias hallar la varianza
3. DESVIACION ESTANDAR Las desviación estándar se designa por la letra S y se define como la raíz cuadrada de la varianza. de manera simplificada se utiliza la siguiente formula La desviación estándar es mas usada que la varianza. Una de sus utilidades es medir la concentración de los datos respecto a la media aritmética. Para distribuciones normales. Expresa la cantidad de variabilidad promedio en una distribución, ella nos permite determinar cómo se distribuyen los valores en relación con la media; su fórmula es indistinta para distribuciones de datos originales o agrupados. Si teníamos 37,75 como resultado de la varianza en el ejemplo anterior, entonces la desviación estándar será: S = √37,75; S = 6,14
4. COEFICIENTE DE VARIACION Las medidas de dispersión que se han estudiado anteriormente son medidas absolutas y se expresan en las mismas unidades con las que se mide la variable. Si se necesita comparar dos o más grupos de datos medidos con diferentes unidades, por lo general, no es posible la comparación utilizando la dispersión absoluta. Por ejemplo, una serie de precios en dólares con una serie de precios en soles. En algunos casos se utiliza la dispersión relativa, que viene dado por:
Esta medida hace referencia a la variabilidad relativa y relaciona la media con la desviación estándar. También nos indica el porcentaje de variación que existe con respecto al valor promedio de la distribución. Su fórmula es igual para datos agrupados y no agrupados. Si en el caso particular de usar la desviación estándar (S) como dispersión absoluta y la media aritmética ( X ), recibe el nombre de coeficiente de variación y su formula es la siguiente:
4. COEFICIENTE DE VARIACION Este coeficiente permite comparar la variabilidad de diferentes muestras en una misma variable ó la variabilidad existente entre variables diferentes. Una investigación experimental en el campo geológico que tenga un CV menor al 10 %, muestra que en el experimento hubo un muy buen control del error experimental entre las diferentes repeticiones, sin embargo en procesos productivos industriales éste valor de variabilidad en una variables de salida, sería muy alto, en general se aceptan valores muy pequeños, inferiores al 1%.
5. EJEMPLO TIPO Al medir las alturas de los perros en el vecindario (en milímetros):
Las alturas (de los hombros) son: 600mm, 470mm, 170mm, 430mm y 300mm. Entonces hay que calcular la media para datos no agrupados, la varianza y la desviación estándar.
5. EJEMPLO TIPO RESPUESTA 600 + 470 + 170 + 430 + 300 Media =
1970 =
5
= 394 5
Entonces la altura media de los perros es 394 mm y vamos dibujar esto en el grafico.
Como vemos la línea de color verde es la media grafica de las estaturas de los perros
5. EJEMPLO TIPO Ahora calculamos la diferencia de altura con la media
Para calcular la varianza (datos no agrupados) se toma cada diferencia y se elévala al cuadrado; y luego se obtiene la media: 2062 + 762 + (-224)2 + 362 + (-94)2 Varianza: σ2 =
= 5
Entonces la varianza es 21, 704
108,520 = 21,704 5
5. EJEMPLO TIPO Para calcular la desviación estándar, sabemos que es la raíz de la varianza, así que: Desviación estándar: σ = √21,704 = 147 Entonces la desviación estándar es útil por que nos ayuda a diferenciar las alturas que están distancia menos de la desviación estándar (147 mm) con respecto a la media.
5. EJEMPLO TIPO Así que usando la desviación estándar tenemos una manera "estándar" de saber qué es normal, o extra grande o extra pequeño. Los Rottweilers son perros grandes. Y los Dachsunds son un poco menudos. ¿por qué al cuadrado la varianza y por que la raíz de la varianza? Elevar cada diferencia al cuadrado hace que todos los números sean positivos (para evitar que los números negativos reduzcan la varianza) Y también hacen que las diferencias grandes se destaquen. Por ejemplo 1002=10,000 es mucho más grande que 502=2,500. Pero elevarlas al cuadrado hace que la respuesta sea muy grande, así que lo deshacemos (con la raíz cuadrada) y así la desviación estándar es mucho más útil.