FIC
Hidrología Estadística y Probabilística
Ing. Walter La Madrid, M.Sc.
[email protected]
La planeación y el diseño de obras hidráulicas están relacionados con eventos hidrológicos futuros, cuyo tiempo de ocurrencia o magnitud no pueden predecirse, ya que no están gobernados por leyes físicas o químicas conocida, sino por las leyes de azar. Es por ello que la probabilidad y la estadística juegan un papel muy importante para pronosticar eventos hidrológicos. Debido a que en hidrología se cuenta con periodos muy cortos de precipitaciones para poder estimar la lluvia de diseño de una avenida, se requiere buscar entre las distintas funciones de distribución de probabilidad teóricas la que se ajuste mejor a los datos medidos, y usar esta función para poder extrapolar los eventos de diseño, ya sea por medios gráficos o por medio de la obtención de los parámetros de su función de distribución.
DISTRIBUCIONES DE PROBABILIDAD Funciones que mejor se ajustan al comportamiento de las variables hidrológicas. Una variable aleatoria es aquella que toma un conjunto de valores numéricos asociados a los resultados de nuestra búsqueda que produce un proceso aleatorio. Una distribución de probabilidad es una lista del total de valores que puede tomar una variable aleatoria con una probabilidad asociada. Existen dos tipos de distribuciones de probabilidad, las distribuciones de probabilidad discretas y las distribuciones de probabilidad continuas.
Distribuciones Continuas Las distribuciones de probabilidad continuas son aquellas en las que la variable aleatoria puede asumir un número infinito de valores, que son resultado de una medición. Por ejemplo, el valor de la temperatura media del aire en intervalos dados de tiempo. Por supuesto que las variables aleatorias continuas dependen de la exactitud del instrumento de medición en este caso del termómetro.
Población y muestra: Población, es el conjunto total de individuos o sucesos que queremos estudiar. A veces disponemos de medidas de toda la población estudiada, pero generalmente, esto sería muy difícil (medir la estatura de todos los peruanos) imposible (estudiando el caudal de un río tendríamos que medir los caudales de todos los años pasados y futuros). En estos casos debemos conformarnos con medir una parte de la población (una muestra). En cualquier caso, consideramos los datos disponibles y con ellos intentamos extraer estimaciones válidas para toda la población. Muestra, es una pequeña parte de la población elegida adecuadamente para que sea representativa del total de la población. Si se midiera la estatura de los alumnos de Hidrología para conocer la estatura media del curso, ellos serían toda la población estudiada. Pero si, a partir de ellos, se quisiera extraer conclusiones sobre la estatura de toda la juventud peruana, mis alumnos serían solamente una muestra representativa de la población estudiada.
Distribución Normal
1.
Conocida como campana de Gauss-Laplace. Tiene media, moda y mediana iguales y se localizan en el centro de la distribución.
2.
La distribución de probabilidad normal es simétrica alrededor de su media. La mitad del área bajo la curva está antes del punto central y la otra mitad después.
3.
El área total bajo la curva es igual a 1.
Distribución Normal Misma media y distintas desviaciones estándar
Distintas medias y desviación estándar
misma
Distintas medias y distintas desviaciones estándar
Distribución Normal F x
1 e 2
2 1 x 2
• Distribución Normal Estandarizada
Modelo “Normal” • Es un modelo matemático que describe la probabilidad de variables continuas en una Población. • La “Normal” (=campana de Gauss):
N (μ,σ)
– Media esperanza (μ) en torno a la que se centran los datos. Frecuencia
– Desviación típica (σ): dispersión de los datos. – Frecuencia densidad: mientras más a la izquierda/derecha de la media, menos frecuencia. – Es muy frecuente en la naturaleza. • • • • •
Altura de humanos Peso de gatos Resistencia del hormigón Élitros (=alas) de insectos Capa de óxido de un microchip
– Definición: N (μ,σ) – Modelo matemático (con fórmula).
σ
μ
x N (0,1) / n 10
Modelo “Normal” (cont) puede calcular la probabilidad (o el %) de datos que queda a la derecha/izquierda de μ.
N (μ,σ)
Frecuencia
Se
68% 95% 99%
68% de los datos: (μ –1σ, μ +1σ) 95% de los datos: (μ –2σ, μ +2σ) 99% de los datos: (μ –3σ, μ +3σ)
11
Variable aleatoria discreta Se dice que una variable aleatoria X es discreta cuando sus valores se restringen a un conjunto enumerable finito o infinito. Ejemplo: Número de días de lluvias ocurridas en los meses de un año cualquiera. Variable aleatoria continua Se dice que una variable aleatoria X es continua, cuando sus valores se encuentran en un rango continuo y puede ser representado por cualquier número entero o decimal. Ejemplo: El caudal diario registrado en una estación de aforo. Distribuciones El comportamiento de una variable aleatoria se describe mediante su ley de probabilidades, que, a su vez, se puede caracterizar de varias maneras. La más común es mediante la distribución de probabilidades de la variable aleatoria. Notación: X ⇒ variable aleatoria de la función x ⇒ valor particular que toma la variable aleatoria f(x) ⇒ función de densidad de probabilidad (función de probabilidad, distribución de probabilidad de x) F(x) ⇒ función acumulada (función de distribución acumulada)
DISTRIBICIONES DE PROBABILIDAD CONTINUA
Trabajando con caudales o precipitaciones el número de datos puede ser de 30 ó 40, o a veces menos, y no son suficientes para agruparlos en intervalos (caudales entre 5 y 10, entre 10 y 15, etc.). Pero sí podemos realizar un gráfico acumulado como el anterior con los datos individuales. Veamos como ejemplo 21 precipitaciones anuales en Corral del Medio. A la izquierda de la tabla aparecen en orden cronológico. A la derecha se han clasificado de mayor a menor, y en la última columna se refleja el porcentaje de datos que supera ese valor.
Por ejemplo, para n=4, n/N=4/21*100=19 %. Quiere decir que el 19% de los datos es igual o menor que 896 mm.
En el gráfico podríamos leer directamente la probabilidad de que la precipitación sea <1300 mm, o, a la inversa, qué valor de precipitación no se supera el 30% de los años.
DISTRIBUCIONES SIMÉTRICAS Y ASIMÉTRICAS Si en la Fig. N° 1 hiciéramos los intervalos más pequeños, y aumentáramos el número de valores medidos, el gráfico continuaría con esa forma de campana, pero se iría suavizando hasta ser una curva continua.
Lo mismo sucedería con la curva en forma de S de la fig. 2. Así obtendríamos las dos curvas que aparecen en la Fig. 4 Gauss encontró la ecuación de estas curvas. La ecuación de la curva en forma de campana se llama función de densidad y la de forma de S función de distribución. Nosotros vamos a trabajar con la segunda.
MUESTRA
fr
f(x)
POBLACION
xi
xi
FUNCIÓN DE FRECUENCIA RELATIVA
FUNCIÓN DENSIDAD DE PROBABILIDADES F (x )
FUNCIÓN DE FRECUENCIA ACUMULADA
FUNCIÓN DISTRIBUCION DE PROBABILIDADES
Distribución Normal • Descubierta en 1733 por el francés Moiure, descrita también por Laplace y Gauss (sinónimo de la forma gráfica de esta distribución). • Importancia práctica de esta distribución teórica: – Muchos fenómenos distribuidos suficientemente Normal – Distribución de promedios. – Distribución de errores.
Características D. Normal • Área bajo la curva entre 2 puntos representa probabilidad que ocurra un hecho entre esos dos puntos • Su dominio va de menos infinito a más infinito; • Es simétrica con respecto a su media; • Tiene dos colas y es asintótica al eje x por ambos lados; • El valor del área debajo de toda la curva es igual a 1; • El centro de la curva está representado por la media poblacional (). • Para cualquier curva normal, el área de - a + es igual a 0.6827; de -2 a +2 de 0,9545 y de -3 a +3 de 0,9973; • Distribución muestreal de varios estadísticos, como `x es normal e independiente de distribución de la población.
D. Normal Tipificada (estandarizada) • Distribución especial que representa a todas las variables aleatorias normales y que es la distribución de otra variable normal llamada Z:
Z=
x -
• = NORMALIZACION ( x; media; desv_estándar) • Z se la conoce como variable aleatoria estandarizada. • Esta función se caracteriza por tener media igual a cero y desviación tipificada igual a uno : N(0,1) • Representa a todas las distribuciones Normales. Igual densidad de probabilidad, si medimos desviaciones de media en base a . • Valores obtenidos de tabla Normal válidos para todas las distribuciones Normal de media = y varianza =2.
Muchas variables naturales se ajustan a la distribución simétrica estudiada por Gauss, pero no todas. En ocasiones no hay la misma proporción de pequeños que de grandes, eso dará lugar a una distribución asimétrica. Por ejemplo, si representáramos los ingresos de la población de una ciudad, seguro que la campana no sería simétrica: la riqueza se distribuye con menor equidad que la estatura, y mientras que la proporción de altos y bajos es similar, no así la de ricos y pobres (hay pocos ricos y muchos pobres). Quizá la campana correspondiente tendría una forma similar a la figura 5. Fig. 5.- Distribución asimétrica en la que los valores más frecuentes (pico de la curva) son más bajos que la media, (esta curva corresponde a la ecuación de Gumbel)
Los matemáticos han determinado las ecuaciones de muchas de estas campanas asimétricas (Gumbel, Pearson III, etc.).
En otras ocasiones, los valores no se ajustan a la distribución de Gauss, pero sus logaritmos sí, se denomina entonces log-normal (LN,LN2, y LN3), la distribución de Gauss se llama “normal”).
En Hidrología, las precipitaciones o caudales anuales suelen ajustarse a la distribución simétrica de Gauss, pero los valores máximos, no: si consideramos el día más caudaloso o el más lluvioso de cada año de una serie larga de años (eso es necesario para estudiar la previsión de avenidas), no se ajustarán a Gauss, sino probablemente a la campana asimétrica descrita por Gumbel o alguna similar.
PROBABILIDAD, PERIODO DE RETORNO Y RIESGO DE FALLA A lo largo de los temas anteriores se ha estado utilizando indistintamente probabilidad (por ejemplo: un 2% de los años) y expresiones como “cada 50 años”. Es evidente que si un suceso se presenta (por término medio) cada 10 años, su probabilidad es de 0,10 (10%). Análoga e inversamente, si la probabilidad de que algo suceda es de 0,04 (4%), ello quiere decir que, en promedio, sucederá 4 veces en 100 años, o sea: una vez cada 25 años. Estos conceptos se relacionan mediante la expresión:
En Hidrología se utiliza más el periodo de retorno que la probabilidad. Así, se habla de la crecida de 50 años en lugar de referirse a la crecida con probabilidad 0,02 o de la precipitación con retorno de 100 años en vez de la precipitación con probabilidad 0,01. Supongamos que hemos calculado un cierto caudal que corresponde al retorno de 50 años. La probabilidad de que se produzca el año próximo será de 0,02 (=1/50); y la probabilidad de que se produzca el siguiente año será de 0,02 y así cada año. Necesitamos conocer la probabilidad de que se alcance ese caudal en los próximos n años:
Vamos a denominar a la última expresión obtenida arriba el riesgo de falla (R), es decir: la probabilidad de que sí se produzca alguna vez un suceso de periodo de retorno T a lo largo de un periodo de n años:
Ejemplo: Se va a construir un canal cuya vida útil es de 75 años. Si el caudal supera el valor correspondiente al periodo de retorno de 100 años, se desbordará. Calcular la probabilidad de que se produzca un desbordamiento en alguno de los próximos 75 años
Por tanto, existe un 52,9% de probabilidad de que el caudal de retorno 100 años se alcance en alguno de los próximos 75 años
Ajuste de Distribución Normal datos años rio Guaporé de 1940 a 1995
Subestima!
DISTRIBUCIÓN DE GUMBEL
= - Ln(-Ln(1 – 1/TR)) X=Q
DISTRIBUCIÓN DE GUMBEL
Distribución Exponencial Consideraciones: • Proceso de eventos aleatorios (los parámetros no cambian con el tiempo). • No es posible tener mas de un evento en cualquier instante.
• Descripción de un proceso Poisson. • La v.a. t representa el tiempo entre tormentas. Función de Densidad:
La media es: La varianza es:
f (t ) e t ,
t0
E (t ) 1 /
2 (t ) 1/ 2
La función de distribución acumulada es: t
F (t ) e t d 1 e t 0
Ejemplo: Distribución exponencial En un año en un sitio determinado ocurren 110 tormentas independientes con una duración promedio (todas) de 5.3 h. El intervalo entre tormentas es:
t
= 1/ λ λ = 1/74.3 = 0.0135 h-1
8760 110 5.3 74.3h 110
a) Cuál es la probabilidad de que pasen al menos 4 días (96 h) entre tormentas? P(t 96) =1- F(96)
96
F (96) e t dt 1 e t 0
P(t 96) 1 1 e t e 0.0135*96 0.27
b) Cual es la probabilidad de que el tiempo entre dos tormentas sea exactamente 12 horas? P(t = 12)= 0 intervalo es cero.
la probabilidad que una V.A continua valga cero en un
c) Cual es la probabilidad que la separación entre 2 tormentas sea menor o igual que 12 h?
Distribución Log Normal En general, cuando la variable aleatoria X es el producto de un gran número
de otras variables aleatorias, la distribución de los logaritmos de X puede aproximarse a la Normal, ya que los logaritmos de X son la suma de los logaritmos de los factores contribuyentes.
Si se tiene una variable aleatoria X y ln X = Y, se ajusta a una distribución Normal, se dice que la variable aleatoria X es log normalmente distribuida. • Función de Distribución de Probabilidad
Asumiendo Y = loga (X)
2 1 1 y - μy f(x) = exp 2 2 σ y x 2π σ y
Parámetros y Factor de frecuencia • Media (Parámetro de escala) • Desviación estandar (Parámetro de forma) Estimación de parámetros: Método de los momentos 1 N ˆ Y loga ( X i ) N i1
ln X T = y + K y
12
1 N 2 log ( X ) ˆY a i ˆY N i1
K es la misma de la distribución normal
Si se quiere trabajar con la variable no transformada en el campo logarítmico se tiene que: ln 1 + Cv 2 2 1/2 expK T ln 1 + Cv - - 1 2 K= Cv
-1
K T = Fu 1
1
F u 1
1 Tr
Es el inverso de la función de distribución Normal estandarizada acumulada y Cv es el coeficiente de variación
1 T
• Intervalos de confianza : Nivel de confianza o significancia ST: Error estándar
ln X T u1- 2 S T
Y ST = N
1/2
2 K = 1 + T 2
Ejemplo: Distribución Log Normal La media y desviación estándar de los Qmax anuales de la estación del río Nare son: μ=94.35 m3/s y σ=22.45 m3/s μY=4.52 y σY=0.2337 Hallar el QTR=100 si los Qmax tienen una distribución Log Normal.
K=2.326 QY Tr=100=4.52+2.326*0.237 QTr=100=159 m3/s Intervalos de Confianza: Ln(QTR=100) μ95ST
Es un intervalo de dos colas, con una probabilidad en cada una de 5%
δ=1.92 ST=0.075 4.94 QY 5.14
Y ST = N
2 K T = 1 + 2
5.0711.6*0.075 139159 170 m3/s
1/2
Distribución Gamma (2 Parámetros) Una de las mas usadas en Hidrología.
• • • • •
Crecientes máximas anuales Caudales mínimos Volúmenes de flujo anuales y estacionales Valores de precipitaciones extremas Volúmenes de lluvia de corta duración
Tiene 2 ó 3 parámetros (Pearson Tipo III).
-1
1 x -x f(x) = e | | ( )
Parámetros y Factor de frecuencia • (Parámetro de escala) • > 0 (Parámetro de forma) • () es la función Gamma completa
() = z-1 e-z dz 0
Estimación de parámetros: Método de los momentos
= 2
2
=
1 ˆ= ˆ v2 C ˆ ˆ ˆ 2
3
4
5
1 3 1 2 2 K K T + (K t 1) ˆ + (K T 6K T ) ˆ (K T 1) ˆ + K T ˆ ˆ 6 3 6 6 6 36
Distribución Gamma (3 Parámetros) • Función de distribución de probabilidad β -1
1 x - xo x - xo f(x) = exp | α | Γ(β) α α • Función de densidad acumulada
1 P ( X x) ( )
X x x0 e
0
x x0
• Parámetros y , parámetros de escala y forma respectivamente. xo parámetro de localización.
() = z-1 e-z dz 0
1
dx
Parámetros e Intervalos de confianza (Función Gamma) • Estimación de Parámetros Parámetros:: Método de los momentos
2 ˆ= ˆ
2
ˆ = ˆ ˆ 2
ˆ ˆ0 = ˆ ˆ X
Que tan cercano puede estar el estimado al verdadero valor desconocido de la población: Conocer con cierta certeza. Franja grande: mucha incertidumbre.
X T u1 2 S T : Nivel de confianza o nivel de probabilidad ST: Error estándar
ST = N
Tabla Factor de frecuencia Pearson tipo III
Valores de para la Distribución Gamma ó Pearson tipo III
Ejemplo: Distribución Gamma Hallar el QTR=100. Si la distribución de los caudales de la estación de Nare es Gamma. μ = 94.35 m3/s y σ = 22.45 m3/s, γ = 0.845 μY = 4.52 y σY = 0.2337, Y = 0.0069 De tabla:
K = 2.32 QTR=100 = 94.35 + 2.32*22.45 = 146.4
Intervalos de confianza:
XT u1 2 ST
De tabla δ=4.7, N= 36 datos.
ST N De tabla 95=1.6
ST = 17.6 146,4 1.6*17.6 146.4 28.16 m3/s
Distribución Log Pearson Tipo III • Función de distribución de probabilidad 1 ln(x) - y o f x (x) = x ()
-1
ln(x) - y o -
e
• Parámetros y , parámetros de escala y forma y yo parámetro de localización • Estimación de Parámetros Método de los momentos
2 ˆ ˆ y
2
ˆ y ˆ= ˆy 2
ˆ y0 ˆ ˆ ˆy
• Factor de Frecuencia Frecuencia::
Y T = ln X T = ˆy + K ˆy • Intervalos de Confianza Confianza:: Que tan cercano puede estar el estimado al verdadero valor desconocido de la población: Conocer con cierta certeza. Franja grande: mucha incertidumbre.
X T u1- 2 S T : Nivel de confianza o nivel de probabilidad ST: Error estándar
y ˆ ST = N
ln XT 1 / 2ST
Conclusión • Distribuciones para variables continuas – – – – –
Uniforme Normal, Lognormal Gamma Pearson III, Log-Pearson III Dist. Valores Extremos I y II
• Cuál usar? TODAS y elegir la que mejor se AJUSTE a los datos de una distribución de probabilidad.
Pruebas de Bondad de Ajuste Para determinar que tan adecuado es el ajuste de los datos a una distribución de probabilidades se han propuesto una serie de pruebas estadísticas que determinan si es adecuado el ajuste. Una de las bases fundamentales del control estadístico de la calidad es la inferencia estadística. Por ello, la determinación del tipo de distribución correspondiente a un conjunto de datos
provenientes del estudio es absolutamente necesario.
La
prueba de bondad de ajuste permite probar el ajuste de datos a una distribución de probabilidad teórica sujeto a un error o
nivel de confianza.
Pruebas de Bondad de Ajuste Para la prueba de hipótesis utilizaremos dos estadísticos: El Chi-cuadrado y la prueba de Kolmogorov-Smirnov
Chi-Cuadrado 2 χ = • • • •
Σ
(fo – fe)2 fe
En donde: fo =Frecuencia observada de datos discretos fe =Frecuencia esperada de la distribución teórica Los grados de libertad se emplea (k-1) y luego se resta un grado adicional de libertad para cada parámetro de población que tenga que ser estimado de los datos de la muestra
Test de Kolmogorov-Smirnov Es un simple método no paramétrico para probar si hay una diferencia significativa entre una distribución observada y una distribución teórica de frecuencia. Para la aplicación del test señalado, es necesario determinar la frecuencia observada acumulada. Para la frecuencia observada en el caso especial de Gumbel, se ordena la información de menor a mayor y se aplica:
donde: Fn (x): frecuencia observada acumulada. n: N° total de orden N: N° total de datos. En el caso de la frecuencia teórica acumulada, ésta se determina a través de la función de Gumbel.
Una vez determinadas ambas frecuencias, se obtiene el supremo de las diferencias entre ambas, en la i-ésima posición de orden, que se denomina D.
El coeficiente de determinación señala qué proporción de la variación total de las frecuencias observadas, es explicada por las frecuencias teóricas acumuladas. EJEMPLO PRACTICO
Ajuste a Gumbel: Se desea conocer la ley de distribución de las precipitaciones máximas en 24 horas, de la estación Monte Patria provincia de Limarí. Para ello, se dispone de los siguientes datos.
De lo expuesto, se deduce que se cuenta con una información de doce años, y además que los montos denotan una extrema variabilidad. En relación al primer aspecto, es un denominador común en muchas estaciones del país, la carencia de series hidrológicas consistentes, por lo cual es difícil soslayarlo.
En cuanto a la variabilidad, es preciso destacar que las zonas áridas se caracterizan por presentar este elemento como característica de la distribución y cantidad de las precipitaciones. No obstante lo anterior, y como se tiende a estimar valores máximos, se puede obviar este último aspecto considerando las dos o tres precipitaciones máximas anuales, para con esta nueva serie de datos elegir un número mayor de años a considerar. Luego, el enfrentamiento de este problema es resorte del criterio que el ingeniero utilice para tomar la decisión, y la cual sólo podrá ser calificada a la luz de los antecedentes que cada situación denote. Así, para el caso en cuestión, se trabajará con la información de precipitación máxima anual en 24 horas, toda vez que se trata de un ejercicio metodológico.
De lo expuesto, se deduce que se cuenta con una información de doce años, y además que las cantidades denotan una extrema variabilidad. Por otra parte, aplicando la expresión n/N+1, se obtiene la frecuencia observada acumulada, la cual se expresa en la columna (2) del cuadro N° 2. Asimismo, reemplazando en la ecuación (1) los valores de x, se obtienen las frecuencias teóricas acumuladas, las cuales constituyen la columna (3) del cuadro N° 2. Aplicación de Kolmogorov-Smirnov. Con la información del cuadro N° 2, se busca el Sup |Fn(x)i − F(x)i| = D.
En este caso, corresponde a D = 0.073 en el tercer valor del cuadro mencionado. Con un 95% de confiabilidad y n = 12, se obtiene un valor de tabla Dt = 0.375. Luego D < Dt, por consiguiente se acepta con 95% de seguridad que el ajuste es bueno. Aplicación del Coeficiente de determinación (R2):
Utilizando la ecuación descrita en 3.2., y las columnas 2 y 3 del cuadro N° 2, queda: R2 = 0,988 Luego se considera que el modelo elegido, explica en un 98,8% las variaciones de las frecuencias observadas, lo cual es muy bueno.
nivel de significancia a = 0.05
Utilidad Práctica del Ajuste a Gumbel: Una vez que se ha validado el ajuste a la función de Gumbel, resta definir la utilidad que esto puede determinar. En este marco, si de la ecuación,
Luego, se puede deducir del cuadro anterior, que existe un 1% de probabilidad, de que sean superados los 118.44 mm. en 24 horas de precipitación, y lo cual corresponde a un evento centenario; en otras palabras, existe un 99% de probabilidades de que el año 1985, la precipitación en 24 horas sea menor o igual a 118.44 mm. Similar análisis, puede realizarse para todos los períodos de retorno involucrados. No obstante lo anterior, se recomienda que los períodos de retorno considerados, no incluyan un número mayor de información que el doble o el triple como máximo, de la longitud de la serie de datos en estudio. En este caso, como la información base corresponde a 12 años, se recomienda no exceder de 24 años o un máximo de 36 años, dado que la serie estadística no presenta una longitud adecuada. Por ello, se recomienda el valor de T = 30, como intermedio de lo señalado precedentemente; el considerar mayor número de años no posee sentido desde el punto de vista estadístico.
En Tabla 4.3 se muestra un resumen de la prueba Kolmogorov – Smirnov según el orden de preferencia indicado por cada prueba, dando 1 a la "mejor" y 5 a la "peor“ Tabla 4.3 Resumen de la prueba Kolmogorov – Smirnov FUNCIÓN KOLMOGOROV D Normal 5 0.1585 Log Normal 4 0.1316 Pearson III 2 0.1150 Log Pearson III 3 0.1176 Gumbel 1 0.1124 Adaptado: “Fundamentos de Hidrología de superficie”, Aparicio (1992), pág. 280 La función de distribución con el menor valor de D es la Gumbel (tabla 4.3) por lo que, según esta prueba, esta función sería la preferible.
FIC
GRACIAS POR SU ATENCIÓN
Walter La Madrid
[email protected]