ANÁLISIS EXPLORATORIO EXPLORA TORIO DE
DATOS Prospección y Estimación de Reservas Mineras (PERM)
Heber Hernández Guerra
[email protected] /
[email protected] 2018
Clase II
Contenido Semestral: 1. 2. 3.
Intr Introd oduc ucci ción ón a la la Ca Catedr tedraa Méto Método doss de Expl Explor orac ació ión n Tem Tempr pran anaa (Lecturabibliográfica) Méto Método doss de Explo Explora raci ción ón Ava Avanz nzad adaa -Pros -Prospe pecc cció ión n (Lecturabibliográfica)
5. 6. 7. 8. 9. 10. 11. 12.
Anális Análisis is Explor Explorato atorio rio de Datos Datos (Cutti (Cutting ng Grade Grades, s, Composit Compositaci ación, ón, Tran Transf sform ormaci acione ones) s) Mode Modela lami mien entto Ge Geológ ológic ico o Análi Análisi siss Estruc Estructu tura rall (Geoe (Geoest stadí adíst stic icaa - Vario ariogr graf afía ía)) Métodos Métodos de Estima Estimación ción Tradici radicional onal (Geomé (Geométric tricos) os) Méto Método doss de Estim Estimac ación ión Geo Geoes esta tadí díst stic icos os (Kri (Krige geag agee S., S., Krig Krigea eage ge O.) O.) Métodos Métodos de de Catego Categoriz rizaci ación ón de Recu Recurs rsos os Valorización alorización Económic Económicaa de Bloques Bloques (Método (Método de utilidad) utilidad) Optimizaci Optimización ón de bloques Lerch Lerch & Grossman Grossman para Minería Minería a Cielo Cielo Abierto Abierto
Contenido Semestral: 1. 2. 3.
Intr Introd oduc ucci ción ón a la la Ca Catedr tedraa Méto Método doss de Expl Explor orac ació ión n Tem Tempr pran anaa (Lecturabibliográfica) Méto Método doss de Explo Explora raci ción ón Ava Avanz nzad adaa -Pros -Prospe pecc cció ión n (Lecturabibliográfica)
5. 6. 7. 8. 9. 10. 11. 12.
Anális Análisis is Explor Explorato atorio rio de Datos Datos (Cutti (Cutting ng Grade Grades, s, Composit Compositaci ación, ón, Tran Transf sform ormaci acione ones) s) Mode Modela lami mien entto Ge Geológ ológic ico o Análi Análisi siss Estruc Estructu tura rall (Geoe (Geoest stadí adíst stic icaa - Vario ariogr graf afía ía)) Métodos Métodos de Estima Estimación ción Tradici radicional onal (Geomé (Geométric tricos) os) Méto Método doss de Estim Estimac ación ión Geo Geoes esta tadí díst stic icos os (Kri (Krige geag agee S., S., Krig Krigea eage ge O.) O.) Métodos Métodos de de Catego Categoriz rizaci ación ón de Recu Recurs rsos os Valorización alorización Económic Económicaa de Bloques Bloques (Método (Método de utilidad) utilidad) Optimizaci Optimización ón de bloques Lerch Lerch & Grossman Grossman para Minería Minería a Cielo Cielo Abierto Abierto
Material bibliográfico y foro de debate: https://www.facebook.com/groups/geoestadistica/
Acrónimo AED = EDA (Inglés) El análisis exploratorio de datos definido por John W. Tukey (E.D.A.: Exploratory data analysis) es, básicamente, el tratamiento estadístico al que se someten las muestras recogidas durante un proceso de investigación en cualquier campo científico.
Estadística Descriptiva El campo de la estadística tiene que ver con la RECOPILACIÓN,
PRESENTACIÓN, ANÁLISIS Y USO para tomar DE DATOS DECISIONES Y RESOLVER PROBLEMAS. La estadística descriptiva se divide en 2 grupos; métodos
Estadísticos & gráficos a estudiar en esta unidad: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11.
Media aritmética (tendencia central) Media ponderada (tendencia central) Mediana (tendencia central) Moda (tendencia central) Rango (variabilidad o dispersión) Varianza (variabilidad o dispersión) Desviación estándar (variabilidad o dispersión) Coeficiente de variación (variabilidad o dispersión) Curtosis (forma) Coeficiente de asimetría (forma) Covarianza (dispersión bi variable)
1.
Tallo y hojas
2.
Histograma univariable
3.
Histograma bivariable
4.
Polígono de frecuencias
5.
Lineal
6.
Circular
7.
Dispersión
Media aritmética: En matemáticas y estadística, la media aritmética, también llamada promedio o media, de un conjunto finito de números es el valor característico de una serie de datos cuantitativos, objeto de estudio que parte del principio de la esperanza matemática o valor esperado, se obtiene a partir de la suma de todos sus valores dividida entre el número de sumandos. Cuando el conjunto es una muestra aleatoria recibe el nombre de media muestral siendo uno de los principales estadísticos muestrales.
Media para datos agrupados:
Punto medio = Marca de clase = (LS - LI) / 2 + LI
Media para datos agrupados:
Media ponderada: •
La media ponderada nos permite calcular un promedio que toma en cuenta la importancia de cada valor con respecto al total.
Mediana: La mediana corresponde al punto donde la muestra se divide en dos partes iguales.
Mediana para datos agrupados:
Ejemplo mediana datos agrupados:
Ejemplo mediana datos agrupados: Ubicación de la mediana: ((n/2) + (n+1)/2) 2
11 + 11.5 2
n = 22 F=9
= 11.25
Ejemplo mediana datos agrupados:
(22+1)/2 – (9+1) 7
x 3 + 10 = 10.6 (mediana de los datos agrupados)
n = 22 F=9 Fm = 7 W=3 Lm = 10
Moda: La MODA es la observación que se presenta con mayor frecuencia en la muestra. En caso de existir 2 observaciones con la misma frecuencia, se llama “BIMODAL”.
Ejemplo: Errores de medición de pozos por día.
Moda para datos agrupados:
Ejemplo moda para datos agrupados:
Cuartiles: Cuando se divide un conjunto ordenado de datos en cuatro partes iguales, los puntos de división se conocen como “CUARTILES”. ▪
El primer cuartil (q1) es un valor que tiene aproximadamente la cuarta parte (25%) de las observaciones por debajo de el.
▪
El segundo cuartil (q2) corresponde al valor de la mediana.
▪
El tercer cuartil (q3), tiene aproximadamente las tres cuartas partes (75%) de las observaciones por debajo de el.
Medidas de Variabilidad Los estadísticos de tendencia central o posición nos indican donde se sitúa un grupo de puntuaciones. Los de variabilidad o dispersión nos indican si esas puntuaciones o valores están próximas entre sí o si por el contrario están muy dispersas. Por ejemplo: Muestra 1: 130, 150, 145, 158, 165, 140 Muestra 2: 90, 128, 205, 140, 165, 160 Ambas muestras tienen la misma media “ 148”, sin embargo se observa que la variabilidad es mayor en la muestra 2:
¿Qué curva posee mayor dispersión?
Rango de la muestra: Rango = Max(Xi) – Min(Xi)
Varianza y Desviación Estándar para una muestra Las medidas mas importantes de variabilidad son la “varianza” y “desviación estándar”.
Varianza y Desviación Estándar para una población
Localización de las observaciones alrededor de la media para una distribución de frecuencias con forma de campana
Varianza y Desviación Estándar para datos agrupados
Varianza y Desviación Estándar para datos agrupados
Ejemplo varianza datos agrupados (muestra)
21
Ejemplo desv. estandar datos agrupados (muestra)
Coeficiente de Variación:
θ = S = Desviación Estándar
Curtosis:
Curtosis para datos agrupados:
Método gráfico: Diagrama de tallo y hoja El diagrama "tallo y hojas" permite obtener simultáneamente una distribución de frecuencias de la variable y su representación gráfica. Para construirlo basta separar en cada dato el último dígito de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Ejemplo:
Distribución de frecuencia e La distribución de frecuencia ofrece un resumen mas compacto de los datos que el diagrama de tallo y hoja.
Distribución de frecuencia e Para su construcción primero se divide el rango de los datos en intervalos , los cuales se conocen como “intervalos de clase”. Las clases deben tener el mismo ancho. Para seleccionar el Nº de clases:
Nº de clases = √ n ; donde n = numero de observaciones
Distribución de frecuencia e Tabla: Edades de trabajadores en empresa 25
30
32
25
24
33
29
25
34
25
36
25
27
29
25
29
25
26
25
40
34
25
36
36
23
31
34
27
27
27
26
28
25
31
39
28
Categoría
Intervalos
Nº de observaciones: 36 = n Valor mínimo: 23 años Valor máximo: 40 años Rango: 17 Nº de clases: √n = √36 = 6
Ancho de clase = rango / nº de clases Frecuencia
Frec. Relativa
Frec. R. Acum
A
23
25
12
0.33
0.33
B
26
28
8
0.22
0.56 0.72
C
29
31
6
0.17
D
32
34
5
0.14
0.86
E
35
37
3
0.08
0.94
Ancho de clase = 3 Frecuencia Relativa = Frecuencia /n
Distribución de frecuencia e HISTOGRAMA DE EDADES 14
12
10
a i c n e u c e r F
8
6
4
2
Otras formas de histograma:
Grafico Polígono de Frecuencia
Utilidad de la frecuencia acumulada:
Caso de aplicación práctica: El presente taller tiene por objetivo que el estudiante repase y practique las principales herramientas estadísticas aplicadas.
▪
▪
▪
Aplicación: Influencia de las muestras sobre los cálculos de medias, varianza e histogramas. Se desea hacer un estudio sobre un sitio que en el pasado tuvo residuos mineros, el principal contaminante que queda en el terreno es un leve porcentaje de ácido remanente. Se ha decidido hace una primera campaña de muestreado en cuadros de 10 x 10 metros.
Caso de aplicación práctica:
Clase 1: 0 5 Clase 2: 5 10 Clase 3: 10 Clase 9: 40 -45 –
–
…
Caso de aplicación práctica:
Caso de aplicación práctica:
Caso de aplicación práctica:
Caso de aplicación práctica: ▪
Calcule para una malla de 20 x 20 (con todos los datos) , analice que sucede con las medias de cada panel , grafique y compare los histogramas con los anteriores .
Caso de aplicación práctica: Efecto Información Si usted debe tomar la decisión sobre el terreno a partir de la campaña 3, considerando como datos reales la campaña numero 4 con soporte 20 x20. Conteste: 1.
Parcelas estimadas contaminadas y en la realidad están contaminadas
2.
Parcelas estimadas no contaminadas y en la realidad están no contaminadas
3.
Parcelas estimadas contaminadas y en la realidad están no contaminadas
4.
Parcelas estimadas no contaminadas y en la realidad están contaminadas