Ayudantía/Laboratorio 2 EDA y Variograma MIN 235 – Geoestadística Rodrigo Estay Huidobro
[email protected]
Distribución Normal •
•
Propiedades: –
Completamente Completamente definida por su media y varianza varianza
–
Tiene una descripción matemática matemática concisa
–
Favorable Favorable para enfoques teóricos de estimación
Función de densidad de probabilidad:
Distribución Normal •
•
Propiedades: –
Completamente Completamente definida por su media y varianza varianza
–
Tiene una descripción matemática matemática concisa
–
Favorable Favorable para enfoques teóricos de estimación
Función de densidad de probabilidad:
Distribución Normal Intervalos de confianza
P[z1 ≤ z ≤ z2] = 1 - α
= /
Distribución Normal
Distribución Lognormal •
•
Una población es lognormal si los logaritmos de los datos están distribuidos como una normal Propiedades: –
•
En Ciencias de la Tierra es común encontrar variables cuya distribución es cercana a una lognormal
–
Relación con la distribución normal la hace fácil de utilizar
–
También es favorable para enfoques teóricos de estimación
–
Valores muy altos pueden ser “comparables” con valores muy chicos
Función de densidad de probabilidad:
Distribución Lognormal
Ejemplo (número de muestras) Se quiere saber el valor promedio de la concentración de un cierto mineral en una sector escondido de la cordillera, para lo cual se. Se requiere saber cuantas muestras deben ser tomadas en terreno, para que la estimación tenga un error máximo de 5 gramos/ton, y la desviación típica observada en esa área en la cordillera en estudio es de 12 gramos/ton. Calculara para un nivel de confianza de 90%, 95% y 99%
Ejemplo (solución) 144 = =1,645 x 25 =15,58≈16 100 x (1-α) = 90 , con α = 0,1 con probabilidad α/2 = 0,05
144 = =1,96 x 25 22,13≈22
100 x (1-α) = 95 , con α = 0,05 con probabilidad α/2 = 0,025
144 = =2,58 x 25 38,34≈38 100 x (1-α) = 99 , con α = 0,01 con probabilidad α/2 = 0,005
Ejemplo (continuación) Supongamos que trabajando con el error de 3 gramos/tonelada, al 90% de confianza se hacen 44 muestras, se va a terreno y se obtiene una media 325 gramos/tonelada, con una desviación típica muestral de 14.2 gramos/tonelada. ¿Cuál es el error de la estimación?
Ejemplo (solución)
14,2 = = 1,645 x 44 = 3,52 / La desviación típica muestral ha resultado superior a la poblacional, (12 gramos/tonelada). Entonces nos quedamos con la muestral
14,2 = =1,645 x 3 = 61 Para obtener una medición la cual tenga un error real de 3 g/ton, se necesita un número de 61 muestras > a las 44 muestras antes calculadas.
Último de muestreo… Lo anterior se realizó considerando una población infinita (o el muestreo es muy pequeño, pero significativa, comparado con la población) El mismo análisis se puede realizar considerando una población finita
− = − 1 2 2 = − 1 + 2 2
Estudio exploratorio de datos (EDA) Presentación de los datos • Estudiar (mediante herramientas estadísticas simples) la cantidad, calidad y ubicación de los datos disponibles para analizar una variable regionalizada
• Definir la(s) zona(s) de estudio • Anticipar dificultades o problemas que puedan surgir en la fase de estimación local o de simulación.
Estudio exploratorio de datos (EDA) Tabla de frecuencia e histograma Dan una representación de la distribución experimental de los datos:
tabla de frecuencia – histograma frecuencia acumulada – histograma acumulado o función de distribución curvas de tonelaje – ley, ley promedio – ley... Utilidad
ver la distribución de valores (rango, forma, asimetría) detectar valores atípicos (outliers) detectar bi o multi-modalidades (mezcla de varias poblaciones?) Recordar que los histogramas y las curvas de tonelaje – ley dependen del soporte (es, decir, el volumen) de la medición.
Histograma
Histograma acumulado
Curva tonelaje - ley
Curva ley promedio - ley
Estudio exploratorio de datos (EDA) Estadísticas básicas medidas de posición media cuantiles / percentiles: mediana, cuartiles, quintiles, deciles mínimo, máximo moda
medidas de dispersión varianza, desviación estándar coeficiente de variación rango rango intercuartil
medidas de forma coeficiente de asimetría (skewness), coeficiente de aplanamiento (kurtosis)
Estudio exploratorio de datos (EDA) Valores atípicos Suelen plantear problemas en el estudio estadístico / geoestadístico
introducen variabilidad y complican el estudio variográfico conducen a zonas amplias con valores estimados muy altos Nunca se debe eliminar un valor “atípico” sin razón (falla en el protocolo de medición, en la transcripción del dato, valor ausente codificado como -99, etc.).
Además, ningún test estadístico puede probar si un valor es “aberrante” o no A menudo, los valores atípicos son aquellos de mayor interés (evaluación de recurso, concentración de contaminantes)
Estudio exploratorio de datos (EDA) Desagrupamiento Consiste en ponderar los datos al momento de calcular su histograma, tomando en cuenta el grado de aislamiento de cada dato. Método de los polígonos de influencia
Se pondera cada dato proporcionalmente a su volumen de influencia en el campo.
Estudio exploratorio de datos (EDA) Desagrupamiento Método de las celdas
Se divide la zona muestreada en celdas de mismo volumen. Cada celda tiene el mismo ponderador, el cual se reparte entre las muestras contenidas en esta celda.
Comentarios
Los algoritmos de desagrupamiento presentados son útiles cuando la malla de muestreo no es regular (en especial, cuando se tiene un muestreo preferencial )
• Pro: consideran criterios geométricos al ponderar los datos en función de su grado de aislamiento: mientras más aislado, mayor ponderación
• Contra: no toman en cuenta la continuidad espacial de los valores, aunque idealmente este factor también debería ser tomado en consideración.
Estudio exploratorio de datos (EDA) Scatterplot Visualiza los valores de una variable en función de otra
ver la relación par a par de ambas variables o “correlación” detectar valores aberrantes
Estudio exploratorio de datos (EDA) Coeficiente de correlación El coeficiente de correlación lineal es un índice entre –1 y 1 de la “similitud” entre dos variables. Es sensible a la presencia de valores aberrantes y no detecta relaciones no lineales. Cuando existen más de dos variables, se puede construir una matriz de correlación : en la intersección de la fila i con la columna j , se coloca el valor del coeficiente de correlación entre las variables nºi y nº j . -------------------------------------------------------------------| VARIABLE | Cd
| Co
| Cr
| Cu
| Ni
| Pb
| Zn
|
-------------------------------------------------------------------| Cd
|
1.00|
0.26|
0.58|
0.15|
0.49|
0.22|
0.62|
| Co
|
0.26|
1.00|
0.48|
0.19|
0.74|
0.16|
0.44|
| Cr
|
0.58|
0.48|
1.00|
0.21|
0.71|
0.26|
0.61|
| Cu
|
0.15|
0.19|
0.21|
1.00|
0.22|
0.82|
0.66|
| Ni
|
0.49|
0.74|
0.71|
0.22|
1.00|
0.27|
0.59|
| Pb
|
0.22|
0.16|
0.26|
0.82|
0.27|
1.00|
0.67|
| Zn
|
0.62|
0.44|
0.61|
0.66|
0.59|
0.67|
1.00|
--------------------------------------------------------------------
Estudio exploratorio de datos (EDA) Coeficiente de correlación •
Muy sensible a valores aberrantes
•
El coeficiente de correlación cambia incluso de signo
Correlación con valor aberrante
Correlación sin valor aberrante Y
Y
= 0,73 = -0,68 X
X
Estudio exploratorio de datos (EDA) Q-q plot
•
•
•
•
Gráfico Q-Q: para comparar dos distribuciones F1 y F2 cuantil a cuantil. No se utiliza para comparar la relación par a par que hay entre las variables. Escoger una serie de valores de probabilidad pk, k = 1, 2, …, K Graficar q1(pk) versus q2(pk), k = 1,
2, …, K
Estudio exploratorio de datos (EDA) Q-q plot •
•
•
•
Si todos los puntos caen en una línea de 45o, las dos distribuciones son exactamente iguales Si la línea está desplazada de los 45 o, las dos distribuciones tienen la misma forma pero diferentes medias Si la inclinación de la línea no es 45 o, las dos distribuciones tienen diferentes varianzas Si hay un carácter no lineal en el grafico Q-Q, las distribuciones tienen diferentes formas en el histograma
Estudio exploratorio de datos (EDA) Q-q plot Q-q plot de una distribución normal o lognormal con la distribución de las muestras
Estudio exploratorio de datos (EDA) Q-q plot Son útiles para chequear la presencia de dos poblaciones que debe confirmarse con información geológica
Estudio exploratorio de datos (EDA) Q-q plot Son útiles para chequear la presencia de dos poblaciones que debe confirmarse con información geológica
Variograma experimental El variograma teórico para una distancia vectorial h se define como:
(h) =
1 2
var[Z(x h) - Z(x)] =
1 2
E{[ Z(x h) - Z(x)]2 }
Denotemos como {xa, a = 1... n} los sitios con datos. El variograma experimental se escribe, reemplazando la esperanza matemática por la media experimental correspondiente:
(h) =
1
ˆ
2 | N(h) |
2 [ z ( ) z ( )] x x a b
N ( h )
con N(h) = { (a,b) tal que xa - xb = h } | N(h) | = cardinal de N(h)
Ejemplo Sabemos que para una combinación lineal de datos, la varianza podemos escribirla en función de la correlación como:
( ) = ( − )
Demostrar que si
= 0 entonces
( ) = − ( − )
Variogramas Tolerancias Cuando la malla de muestreo es irregular, se suele definir parámetros de tolerancia , tanto en la longitud del vector h como en su orientación:
Variogramas Tolerancias Parámetros a especificar para calcular un variograma experimental
• dirección de interés: acimut, inclinación • distancias de interés: paso, número de pasos • tolerancia en la dirección: tolerancia angular, anchos de banda • tolerancia en las distancias
Variogramas Cálculo de variogramas experimentales •
Especificación de dirección (irregular):
Y axis (North)
Bandwidth Azimuth
Azimuth tolerance X axis (East)
Variogramas Cálculo de variogramas experimentales
Ejemplo: Comienzo con una separación (#4)
...
Variogramas Cálculo de variogramas experimentales
...
Variogramas Cálculo de variogramas experimentales
Sin correlación ) h (
a m a r g o i r a V
... Distancia de separación ( h)
Variabilidad En aumento
Variogramas Influencia del paso
Variogramas Influencia de la tolerancia en la distancia