07/09/2014
PROBABILIDAD Y ESTADISTICA EN HIDROLOGÍA
C.L.V.P. - 2014
Un proceso probabilístico en hidrología consiste en un conjunto de variables al azar; es decir, variables (eventos) que toman valores en una secuencia a través del tiempo (horas, días, meses, años). Estos eventos pueden ser muestreados en forma discreta o continua.
C.L.V.P. - 2014
C.L.V.P. 2014
1
07/09/2014
En hidrología, se trabaja con eventos naturales irrepetibles registrados en periodos de tiempo corto, a diferencia de otras ciencias que trabajan con registros que se pueden reproducir por experimentación.
C.L.V.P. - 2014
DATOS HIDROMETEREOLÓGICOS Existen ste varios a os ttipos pos de datos usados en e la a hidrología: d o og a Datos históricos de eventos naturales registrados cronológicamente en forma discreta ó continua. Son series de tiempo producto de observaciones y que se pierden si no se registran en el momento de su ocurrencia. A este tipo pertenecen la gran mayoría de los datos hidrológicos e hidrometeorológicos. Levantamiento de datos hidrológicos en áreas, como por ejemplo l profundidad f d d d y calidad l d d de d aguas subterráneas, b á infiltración o sedimentación en ríos. Son datos de campo que se toman esporádicamente y no necesariamente, en forma secuencial. C.L.V.P. - 2014
C.L.V.P. 2014
2
07/09/2014
DATOS HIDROMETEREOLÓGICOS
Medidas en laboratorio, como lo son conductividades hidráulicas o calidad de aguas. Registro simultáneo de un evento (lluvia-caudal) en dos localidades geográficas diferentes, durante un determinado período de tiempo (generalmente 4 ó 5 años) usados para transferir información ó correlacionar datos con propósitos diversos, como l d ó d lo son análisis de caudales.
C.L.V.P. - 2014
DATOS HIDROMETEREOLÓGICOS Calidad homogeneidad y consistencia de los datos Calidad, Los datos hidrológicos deben ser independientes, homogéneos y lo más representativos posible de la población. En la recolección de datos de lluvias en una cuenca, por ejemplo, las estaciones deberán ser localizadas en sitios estratégicos cuya cobertura total deberá representar la misma. Las fuentes de los errores en datos hidrológicos observados pueden ser: en el sensor (error del registro del dato in situ),en la transmisión del dato, en el registro en la estación de recepción, en el procesamiento y análisis de los datos. C.L.V.P. - 2014
C.L.V.P. 2014
3
07/09/2014
DATOS HIDROMETEREOLÓGICOS Calidad, homogeneidad y consistencia de los datos Dentro de los errores, se consideran errores al azar y errores sistemáticos. Los primeros están siempre en los datos, generalmente se distribuyen alrededor del verdadero valor y la desviación estándar se usa para determinar la magnitud de los desvíos. Los segundos crean inconsistencias o diferencias en un sólo sentido en relación all valor medio que deben ser l ó l d d b detectadas y corregidas. Existen diversas técnicas, como las curvas de masa doble para corregir inconsistencias.
C.L.V.P. - 2014
DATOS HIDROMETEREOLÓGICOS Calidad homogeneidad y consistencia de los datos Calidad, Otro tipo de datos a tener en cuenta son los no homogéneos o datos afectados por algún efecto, no necesariamente hidrológico que repentinamente cambia la tendencia normal de una serie de registros. La no homogeneidad puede ser producida por un efecto antrópico, fácilmente detectable e incluso pronosticado, como lo es una presa en un río, la cual produce hacia aguas abajo descargas no homogéneas que no pueden ser consideradas conjuntamente con los caudales vírgenes del río aguas arriba del embalse. C.L.V.P. - 2014
C.L.V.P. 2014
4
07/09/2014
DATOS HIDROMETEREOLÓGICOS
Variables aleatorias Una variable aleatoria X(t) tiene una cierta distribución probabilística. Esa distribución determina la posibilidad de que una determinada observación X, de la variable, caiga dentro de un rango especificado de X. Sí, por ejemplo la precipitación media de enero, en un lugar, es de podría d 50 mm, la l distribución d b ó probabilística b b lí d í establecer bl que pueda estar en el rango entre 40 y 60 milímetros.
C.L.V.P. - 2014
DATOS HIDROMETEREOLÓGICOS Series de Tiempo Una serie de tiempo se define, en hidrología, como la magnitud de un evento observado en forma discreta a intervalos de tiempo, dt, promediados en ese intervalo o registrados en forma continua en un tiempo, t, por ejemplo caudales medios, diarios, promedio de caudales instantáneos a través de un intervalo discreto de 1 día, o caudales instantáneos registrados en forma continua durante todos los instantes de cada día.
C.L.V.P. - 2014
C.L.V.P. 2014
5
07/09/2014
PARÁMETROS ESTADÍSTICOS Medidas de tendencia hacia un valor central de la serie Promedio aritmético o media aritmética (µ) es el primer momento alrededor del origen. Aunque da información sobre la muestra, este parámetro no caracteriza completamente a una variable aleatoria. Si la muestra es pequeña y contiene valores extremos (altos o bajos) el promedio no será un parámetro real en relación con la población. Se calcula mediante la expresión:
C.L.V.P. - 2014
PARÁMETROS ESTADÍSTICOS
Medidas de tendencia hacia un valor central de la serie Promedio geométrico: expresión:
se
calcula
con
la
siguiente
_
x g n x1 * x2 * x3 * ...xn C.L.V.P. - 2014
C.L.V.P. 2014
6
07/09/2014
PARÁMETROS ESTADÍSTICOS
Mediana (M): es el valor de la variable que deja con igual probabilidad de ocurrencia (0.50) los valores abajo y arriba de ella, por lo tanto, la mediana resulta atractiva, en el caso de series que se apartan de la normal. Moda: es el valor mayor frecuencia.
de
la
variable
que
ocurre
con
C.L.V.P. - 2014
PARÁMETROS ESTADÍSTICOS
En hidrología se tienen frecuentemente muestras de distintos tamaños N1, N2, N3... NR y se necesita obtener el promedio ponderado de todas ellas, así: k
_
xp
N * x i
i 1
i
k
N i 1
i
C.L.V.P. - 2014
C.L.V.P. 2014
7
07/09/2014
PARÁMETROS ESTADÍSTICOS Medidas de Dispersión Las medidas de dispersión miden como los valores de una variable se dispersan alrededor del valor central o media aritmética de la serie; es decir, representan una distribución alrededor de un valor medio. Desviación media (σM): Es la media aritmética del valor absoluto de los errores. Se calcula con la siguiente p expresión: N
M
i 1
_
xi x N
C.L.V.P. - 2014
PARÁMETROS ESTADÍSTICOS Desviación estándar (σ): Es el parámetro de dispersión más usado en hidrología, se llama también desviación cuadrática. Es la raíz cuadrada de la varianza y tiene las unidades de X. _ xi x i 1 N 1 N
2
C.L.V.P. - 2014
C.L.V.P. 2014
8
07/09/2014
PARÁMETROS ESTADÍSTICOS La varianza: es el cuadrado de la desviación estándar (σ2 ) y es el segundo momento alrededor de la media. Sus unidades son el cuadrado de las unidades de la variable. En general, es i di d que indica i di t cerca de d la l media di está tá ell valor l un indicador cuanto de la variable. Si teóricamente todos los valores fueran igual a la media, la varianza sería cero. La ecuación de la varianza se puede también expresar desarrollando el trinomio cuadrado perfecto del numerador. _ xi x 2 i 1 N 1 N
2
C.L.V.P. - 2014
PARÁMETROS ESTADÍSTICOS
Covarianza. Cuando se analiza la varianza de dos (X, Y) ó más variables (X, Y, Z). En el caso de dos variables, la covarianza es la media aritmética del producto de los errores de X, e Y, y se expresa mediante la siguiente ecuación:
1 Cv X , Y N
_ _ xi x * yi y i 1 N
C.L.V.P. - 2014
C.L.V.P. 2014
9
07/09/2014
PARÁMETROS ESTADÍSTICOS
Coeficiente de variación: es el cociente entre la desviación estándar y el promedio, X . Es adimensional.
Cv
_
x
C.L.V.P. - 2014
PARÁMETROS ESTADÍSTICOS El coeficiente de asimetría (g): Es el tercer momento media Describe la distribución de los datos alrededor de la media. alrededor de media. Es una medida de la simetría. Una distribución simétrica tiene un coeficiente de asimetría igual a cero cuando los datos se distribuyen alrededor de la media; negativo cuando la distribución de los datos tiene mayor sesgo a la izquierda y positivo cuando tiene mayor sesgo a la derecha, según como se desvíe hacia valores bajos o altos con relación a la media. Es un parámetro muy usado en estudios regionales, se calcula con la expresión:
C.L.V.P. - 2014
C.L.V.P. 2014
3
_ N * xi x i 1 g N 1* N 2* 3 N
10
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES DISCRETAS
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN BINOMIAL La distribución discreta binomial de probabilidad se aplica a poblaciones que sólo tienen dos eventos discretos y complementarios. Una condición esencial para esta aplicación es la independencia de eventos sucesivos (observaciones o experimentos) y las probabilidades constantes p y q de cada ensayo b bld d d d individual. Esta condición se debe verificar con los datos a utilizar.
C.L.V.P. - 2014
C.L.V.P. 2014
11
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN BINOMIAL La función de probabilidad acumulada es:
n P( x ) * p x * q n x x C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN BINOMIAL D d Donde: x es el número de veces que ocurre el evento. P(x) es la probabilidad de ocurrencia x = 0, 1, 2 .... etc. n es el tamaño de la muestra (número de observaciones independientes o casos posibles). m es el número de eventos q es la probabilidad de no excedencia, dada por: q=1-p p es la probabilidad de excedencia, calculada mediante la expresión:
p C.L.V.P. - 2014
C.L.V.P. 2014
n m
12
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN BINOMIAL n es el número combinatorio de n valores tomados de x, se x evalúa así:
n n! x x!n x ! C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN BINOMIAL _
El valor esperado (promedio): La varianza:
2 n* p*q
El coeficiente de asimetría:
g
El coeficiente de kurtosis:
1 6 * p * q 3 k n* p*q
C.L.V.P. - 2014
C.L.V.P. 2014
x n* p
q p n* p*q
13
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN DE POISSON Un caso interesante se presenta cuando el tamaño de la muestra, n, es muy grande y tiende a infinito, mientras que la probabilidad, p, muy pequeña y tendiente a cero, pero su producto, m, es un número positivo, entonces se tiene la función de densidad de probabilidad discreta de Poisson:
p( x )
m xem x!
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE POISSON _
El valor esperado (promedio):
xm
La varianza:
2 m
Ell coeficiente de f d asimetría: í
g
1 m
C.L.V.P. - 2014
C.L.V.P. 2014
14
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES CONTINUAS Las distribuciones continuas se caracterizan porque F(x) es absolutamente continua. Por consiguiente F(x) tiene como derivada:
F ´(x ) f ( x) La función de distribución de probabilidad es F(x) x
F ( x)
f ( x)dx
ó
f ( x)
dF ( x) dx
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES CONTINUAS La derivada f(x) se denomina función de densidad de probabilidad y los valores de x para los cuales f(x) > 0 son el dominio de la variable aleatoria x.
C.L.V.P. - 2014
C.L.V.P. 2014
15
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES CONTINUAS En el cálculo de probabilidades de eventos mayores, la variable x, puede representarse por el promedio x, más un incremento dx, de ese valor medio:
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN DE VARIABLES CONTINUAS La magnitud de dx depende de la dispersión característica de la distribución de x, del intervalo de recurrencia y otros parámetros estadísticos. Es posible entonces representar a dx como el producto de la desviación estándar y de un factor de frecuencia k, así: _
x x k *
ó
x k *
C.L.V.P. - 2014
C.L.V.P. 2014
16
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES CONTINUAS Di idi d por ell valor l di para generalizar li l d haciéndola h ié d l Dividiendo medio ell resultado adimensional es:
x _
1 k *
x
_
ó
x
x
1 k *
Pero coeficiente de variación de x, es:
Cv
_
ó
Cv
x
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN DE VARIABLES CONTINUAS Luego, se obtiene la ecuación general del análisis de frecuencia propuesta por Chow (1964):
x _
x
1 k * Cv
x
1 k * Cv
C.L.V.P. - 2014
C.L.V.P. 2014
17
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES CONTINUAS
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN DE VARIABLES CONTINUAS Establecido a priori, priori un valor de grado de confianza, confianza (80%, (80% 82%, 82% 85% Establecido, ó 95%), para cada uno corresponderá un nivel de significancia. OMM (1982) sugiere tomar como aceptable un grado de confianza del 80%. El factor más significativo que afecta esta banda, es el grado de confianza que se desee establecer. Se usa frecuentemente el 95%, pero valores entre 70% y 95% son comunes en el diseño hidrológico. • El tamaño de la muestra con la que se computó la curva de frecuencia, afecta el ancho de la banda. A mayor tamaño de muestra, disminuye el intervalo. • La probabilidad de excedencia afecta la amplitud del intervalo; el intervalo es menor para valores promedios y se hace mayor en las puntas (probabilidades mayores y menores). • El coeficiente de asimetría afecta el intervalo de confianza. La asimetría afecta el error estándar, por lo tanto el ancho de la banda aumenta con el aumento del valor absoluto de la asimetría. C.L.V.P. - 2014
C.L.V.P. 2014
18
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN NORMAL La distribución normal (Gaussiana) surge del teorema del límite del valor central, el cual establece que una variable aleatoria x está normalmente distribuida con el promedio µ y la desviación estándar σ. La función de distribución de probabilidad (frecuencia acumulada) proporciona la probabilidad de que X sea menor o igual a x así: x x 2 1 dx F ( X x) * exp 2 * 2 2 *
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN NORMAL
C.L.V.P. - 2014
C.L.V.P. 2014
Distribución típica normal
19
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN NORMAL La función de densidad de probabilidad, está dada por: x 2 1 f ( x) * exp 2 2 * 2
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS También se la denomina función de Galton (estudiada por Galton en 1875). Es una distribución donde la variable x se reemplaza por su logaritmo (ln x), siendo en este caso su rango sólo de valores positivos de (x > 0), lo cual en la hidrología es una ventaja sobre la normal. La función de densidad de probabilidad es:
1 y 2 1 y exp * f x x * * 2 2 y y C.L.V.P. - 2014
C.L.V.P. 2014
20
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS Donde y es el logaritmo natural de x: y = ln (x) σy es la desviación estándar de y. µy es el promedio de y se calcula así:
y
ln( x) N
_
y
N es el número de datos de la muestra.
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS Los parámetros estadísticos de x Chow (1954) se calculan con las siguientes expresiones: El valor esperado (promedio):
x exp y
Mediana:
y2 2
M x exp y y2 exp 2 Mx
x
C.L.V.P. - 2014
C.L.V.P. 2014
21
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS Desviación estándar:
* exp y2 12 1
El coeficiente de asimetría:
g 3 * Cv Cv3 El coeficiente de variación:
1
C.L.V.P. - 2014
Cv exp y2 1 2
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOGNORMAL DE DOS PARÁMETROS El factor de frecuencia, k , se puede calcular con la ecuación siguiente (Chow, 1964)
k
e
2 *k y y y 2
e 1 y2
1
1 2
_ y y ky
y
C.L.V.P. - 2014
C.L.V.P. 2014
_
y y k y * y
22
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN LOGNORMAL DE TRES PARÁMETROS La distribución log normal se puede generalizar para casos en que el límite inferior de la misma no sea cero, en este caso se introduce un tercer parámetro que lo sustituya (xβ). La función de densidad de probabilidad toma la forma:
ln x y f ( x) exp 2 *2y x * y * 2 1
2
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOGNORMAL DE TRES PARÁMETROS Donde β es el límite inferior, x la variable. Si el límite inferior, β, se conoce a priori, la variable x, se reemplaza por (x-β) y se procede como en la lognormal de dos parámetros. Cuando el límite inferior no se conoce, este se determina por los métodos de estimación de parámetros. La distribución lognormal se usa corrientemente en hidrología para variables como precipitación, caudal y otras medidas desde base cero, cero cuyo límite superior es desconocido. La práctica hidrológica ha definido que la distribución lognormal se ajusta bien para numerosas variables asimétricas que se toman encima de un valor de base (series de duración parcial). C.L.V.P. - 2014
C.L.V.P. 2014
23
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIONES TIPO PEARSON E t f i d probabilidad b bilid d se ajustan j t bi i Estas funciones de bien a varias distribuciones, la ecuación general que define la distribución acumulada (Chow, 1964) es:
a x dx F ( x) exp 2 b0 b1 * x b2 * x
Donde y b2 son constantes que se deben D d a, b0, b0 b1 t t d b determinar experimentalmente. En hidrología se usan distribuciones pertenecientes a esta familia de funciones, es decir, son casos especiales de la general. C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN GAMMA DE UN PARÁMETRO La función de densidad de probabilidad es:
f ( x)
1 * x 1 Exp x 0 x *
f(x) = 0
֜ para
x<0
Donde α es el parámetro de forma. Si α no es entero, el producto Γ se obtiene de tablas que se encuentran en la literatura Si es entero y positivo, el producto se evalúa mediante la expresión:
C.L.V.P. - 2014
C.L.V.P. 2014
1!
24
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN GAMMA DE UN PARÁMETRO Los parámetros (Yevjevich 1972) Promedio:
estadísticos
de
_
x ;
Varianza:
la
distribución
son:
0 x
2
Coeficiente de asimetría:
g
2
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN GAMMA DE UN PARÁMETRO La función de distribución gamma de un parámetro converge para valores elevados de hacia la distribución normal ( > 30) y se puede integrar para valores enteros de
C.L.V.P. - 2014
C.L.V.P. 2014
25
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS La función de densidad de probabilidad de esta distribución, se obtiene sustituyendo en la ecuación de la distribución Gama de un parámetro, x por x/β, así:
f ( x)
x 1 * x 1 Exp
f ( x) 0
para
0 x
para
x*0
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD
DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS Donde es el parámetro de forma ( > 0) y β el parámetro de escala (β > 0). El producto: Γ se evalúa mediante la siguiente expresión:
1!
C.L.V.P. - 2014
C.L.V.P. 2014
26
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS Los parámetros estadísticos para x son: Promedio:
* Varianza:
2 * 2 Coeficiente de asimetría:
g C.L.V.P. - 2014
2
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN GAMMA DE DOS PARÁMETROS
Función de densidad de probabilidad de dos parámetros (Yevjevich,1972) para =2 y tres valores de β C.L.V.P. - 2014
C.L.V.P. 2014
27
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN PEARSON III (GAMMA Á PARÁMETROS) (KENDALL, 1969)
DE
TRES
La función densidad es:
P0 * x E
exp P0 x E
1
f ( x) para x ≥ E
Donde: Γβ es la función g gamma de β β, Po, y E son los parámetros de la distribución. Se calculan mediante las expresiones:
p0 C.L.V.P. - 2014
x
2 g
2
_
E x x *
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOG PEARSON III Es la distribución Pearson III, pero usada con los logaritmos de los valores de la muestra. Es una distribución muy usada en Estados Unidos y recomendada por el USWRC (1976). A diferencia de las ecuaciones de lognormal que usan logaritmos naturales, esta distribución usan los logaritmos en base 10 (log). La función de densidad de probabilidad es:
Po y E
1
f ( x)
* exp P0 * y E x
Donde y = log x; para log x >= E C.L.V.P. - 2014
C.L.V.P. 2014
28
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOG PEARSON III β, Po, y E son los parámetros de la distribución. Se calculan di t las l expresiones: i mediante
P0
y
2 g* y
2
_
E y y * Siendo: β Γ la función gamma de β , σy la desviación estándar de y, g el coeficiente de asimetría de y. C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOG PEARSON III El USWRC (1976) recomienda esta distribución para definir series Últimamente sido bastante cuestionada anuales crecidas. a ua es de c ec das Ú t a e te ha a s do basta te cuest o ada esta metodología, aunque conviene tenerla presente en el diseño hidrológico. Para calcular el coeficiente de frecuencia, k, de la distribución LogPearson III (para caudales máximos anuales), la ecuación recomendada (USWRC, 1976) es: _
Log (Q) x x * k
Donde:
x es la media de los logaritmos decimales de x. g x es la desviación estándar de los logaritmos decimales de x
los
k es el factor de frecuencia que es función del coeficiente de asimetría de los logaritmos decimales de caudales máximos medios diarios anuales y de la probabilidad de excedencia Log(Q) es el logaritmo decimal del caudal Q en m3/s
C.L.V.P. - 2014
C.L.V.P. 2014
29
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD DISTRIBUCIÓN LOG PEARSON III El cálculo del coeficiente de frecuencia, para una muestra de n valores, se realiza mediante el uso de los siguientes parámetros estadísticos: Promedio:
_
x
Desviación estándar:
log( x) N
x C fi i t d Coeficiente de asimetría: i t í
_
log( x) x
2
( N 1)
N log( x) x
3
g
N 1N 2 x 3
Si se trabaja con asimetría g=0, la distribución log Pearson III es igual a log-normal. C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución General de Valores Extremos (GEV) Las tres formas de distribución de valores extremos son casos especiales de la distribución general de valores extremos (Jenkinson, 1955). La función de distribución acumulada es: 1 k x F ( x ) exp 1 k *
Donde k, k μ y son parámetros a determinar. determinar Luego: Si k = 0, es la distribución tipo I (Gumbel). Si k < 0, es la distribución tipo II (Frechet). Si k > 0, es la distribución tipo III (Weibull). C.L.V.P. - 2014
C.L.V.P. 2014
30
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) L función f ió de d distribución di t ib ió acumulada l d es: (Yevjevich, (Y j i h La 1972)
F ( X x ) exp exp * x
Donde es el parámetro de forma y β el parámetro de localización (valor central). Haciendo uso de una variable reducida, y:
y * x La función de distribución queda:
C.L.V.P. - 2014
F ( X x ) exp exp y e e
y
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) Cuando x o y tienden a +∞ ó a -∞ ∞, F(x) tiende a 0 ó a 1, respectivamente. Los valores de y β, están vinculados a la media (μ) y a la desviación estándard (σ) por valores constantes o variables según sea el tamaño de la muestra. Conocidos μ y σ los valores de y β son:
0.45 *
1.281
La asimetría es constante: (g=1.139)
C.L.V.P. - 2014
C.L.V.P. 2014
31
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) frecuencia k, k de la Para calcular el coeficiente de frecuencia, distribución Gumbel tipo I (valores extremos), partiendo de la ecuación de densidad de probabilidad de Gumbel, (Chow, 1964) lo expresa como:
k
T 6 * ln ln R TR 1
Donde γ es la constante de Euler igual a 0.57721 (Kreyszic, 1964). TR es el tiempo de recurrencia o período de retorno en años.
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) Despejando el período de retorno, TR , se tiene:
TR
1 * k 1 exp exp 6
x
que: Pero se sabe q
_
1 k * Cv
x _
Cuando:
xx
1 1 Cv * k
C.L.V.P. - 2014
C.L.V.P. 2014
32
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) Luego, en la ecuación anterior, cuando k = 0, TR = 2.33 años que es el tiempo de retorno que el U. S. Geological Survey toma para la creciente anual (U. S. Geological Survey, 1960). Desde el punto de vista del diseño hidrológico se trabaja con tablas de valores de k, Para ello se debe definir la “variable reducida” (Linsley et al., 1975). La distribución de probabilidad de una variable que puede ser igualada o excedida es:
P( x) 1 e e
y
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) Donde y es la variable reducida. El valor de y se relaciona con los datos por la siguiente ecuación (Chow et al., 1994) _ y yn x x x n
Donde: x es el p promedio de la serie de datos. σx es la desviación estándar de x. σn, yn son funciones de la longitud del registro (ver tabla siguiente). C.L.V.P. - 2014
C.L.V.P. 2014
33
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel)
Valores de yn y σn en función de la longitud del registro, N, en años.
yn
n
20
0 52 0,52
1 06 1,06
30
0,54
1,11
40
0,54
1,14
50
0,55
1,16
60
0,55
1,17
70
0,55
1,19
80
0,56
1,19
90
0,56
1,20
100
0,56
1,21
150
0,56
1,23
200
0,57
1,24
∞
0,57
1,28
N (años)
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) l d la l variable i bl reducida d id se encuentra t l El valor de con la siguiente ecuación:
T y ln ln R TR 1 La tabla de valores de k, se calcula así: se obtiene primero los valores de y para diferentes períodos de retorno, (TR) mediante la ecuación anterior. Luego, con la longitud del registro, N (en años), se obtienen en la tabla anterior, yn, σn y los valores de k que figuran en la Tabla siguiente.
C.L.V.P. - 2014
C.L.V.P. 2014
34
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo I (Gumbel) Valores de k para la distribución Gumbel de valores extremos Tipo I (Adaptada de Linsley et al, 1975). TR (años)
Probabilidad ocurrencia
Variable reducida y
Longitud del registro, N (años) 20
30
40
50
100
200
∞
1.58
0.63
0.000
-0.492
-0.482
-0.476
-0.473
-0.464
-0.459
-0.450
2.00
0.50
0.367
-0.417
-0.152
-0.155
-0.156
-0.160
-0.162
-0.164
2.33
0.43
0.579
0.052
0.038
0.031
0.026
0.016
0.010
0.001
5
0.20
1.500
0.919
0.866
0.838
0.820
0.779
0.755
0.719
10
0.10
2.250
1.62
1.54
1.50
1.47
1.40
1.36
1.30
20
0.05
2.970
2.30
2.19
2.13
2.09
2.00
1.94
1.87
50
0.02
3.902
3.18
3.03
2.94
2.89
2.77
2.70
2.59
100
0.01
4.600
3.84
3.65
3.55
3.49
3.35
3.27
3.14
200
0.005
5.296
4.49
4.28
4.16
4.09
3.93
3.83
3.68
400
0.0025
6.000
5.15
4.91
4.78
4.56
4.51
4.40
4.23
500
0.002
6.01
5.36
5.10
4.97
4.87
4.66
4.54
4.40
0.001
6.91
6.03
5.73
5.58
5.48
5.25
5.11
4.95
1000
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo II (Cauchy o Frechet) Cuando el límite inferior es cero (0 < x < ∞) y tomando los logaritmos de x, se tiene una distribución de uso práctico, que es un caso especial de Frechet (Log Gumbel).
s F ( X x) exp exp y t Donde:
y ln( x),
s ln( ),
t ln( )
C.L.V.P. - 2014
C.L.V.P. 2014
35
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD
Distribución Tipo II (Cauchy o Frechet) La distribución, se ajusta con el uso de un factor de frecuencia k, que es igual al que se usa para Gumbel, estableciendo el límite inferior cero. Se usa al igual que Gumbel para valores extremos. No deben usarse para series de duración parcial, parcial sino sólo para anuales. anuales
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo III (Weibull) (Chow, 1964) Cuando existe un límite probabilidad acumulada es:
superior
la
x E F ( X x ) exp E
ecuación
de
k
Donde: x ≤ E, en el rango de -∞ < x < E k es el factor de frecuencia , k > 0. E es calculado mediante la siguiente expresión: θ es el mayor valor esperado de E
E
k
C.L.V.P. - 2014
C.L.V.P. 2014
36
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Distribución Tipo III (Weibull) (Chow, 1964) Esta distribución se usa para análisis de frecuencia de caudales bajos (sequías). Los análisis de caudales bajos resultan importantes en el aprovechamiento, regulación de ríos y estudio de descargas de contaminantes. A diferencia del estudio de frecuencia de crecidas, donde se usan caudales instantáneos, en caudales bajos es conveniente establecer promedios de 1 semana o 1 mes ó una estación según se especifique. O sea, se hace referencia a caudales bajos de duración D días para cada año Para este se recomiendan la ñ hidrológico. hid ló i P t análisis, áli i i d l distribución Log-Pearson III y Weibull donde en lugar de usar la probabilidad de excedencia se usa la de no excedencia. Esto es importante porque el evento de tiempo de retorno de x años (TR) es el valor que no debe ser excedido. C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución de Wakeby Esta distribución fue introducida en los análisis de los valores de caudales máximos por Houghton. Como define Houghton en su trabajo, esta distribución es una distribución “parent” (madre u origen de las otras). Es una distribución de 5 parámetros que supera a las tradicionales de dos o tres parámetros, de modo que se muestra más flexible sobretodo en relación con la p q de la cola derecha y de la izquierda de la separación distribución.
C.L.V.P. - 2014
C.L.V.P. 2014
37
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Di t ib ió de d Wakeby W k b Distribución La función inversa de distribución de probabilidad es:
x a * 1 F c * 1 F e b
d
Donde F es la variable uniforme (0, 1), F = F(x), a, b, c y d son siempre positivas y e a veces es positiva. i ii ii (Houghton, 1978).
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Distribución de Wakeby Esta distribución fue introducida en los análisis de los valores de caudales máximos por Houghton. Como define Houghton en su trabajo, esta distribución es una distribución “parent” (madre u origen de las otras). Es una distribución de 5 parámetros que supera a las tradicionales de dos o tres parámetros, de modo que se muestra más flexible sobretodo en relación con la p q de la cola derecha y de la izquierda de la separación distribución.
C.L.V.P. - 2014
C.L.V.P. 2014
38
07/09/2014
DISTRIBUCIONES DE PROBABILIDAD Aplicaciones frecuentes en diseño hidrológico Las funciones de distribución de variables aleatorias tienen una fuerte aplicación en diseño hidrológico. Una distribución de probabilidad es una función que representa la probabilidad de ocurrencia de una variable aleatoria. Esto significa que el ajuste de los datos de una muestra de una variable hidrológica permite describir en forma compacta, la función y sus parámetros, explicando mediante ellos, el comportamiento a esperar de la variable hidrológica. Si una variable hidrológica x se obtiene por medio de una muestra de una población, el procedimiento común en estadística, es primero seleccionar la función de distribución que mejor ajuste. Esta selección se hace mediante la experiencia adquirida en el tratamiento de la misma variable, variable en otros lugares o situaciones conocidas (caudales de los ríos, lluvias en un lugar) o también por consideraciones físicas (régimen hidrológico, condiciones meteorológicas) o simplemente por ensayo y error. Actualmente, esto es posible con el uso de la computación y los programas existentes que permiten hacerlo con facilidad y rapidez. El segundo paso, es estimar los parámetros de esa distribución por métodos de ajuste para finalmente calcular los límites de confianza y realizar las pruebas de bondad de ese ajuste.
C.L.V.P. - 2014
DISTRIBUCIONES DE PROBABILIDAD Resumen de las Funciones de Distribución de Probabilidad más usadas en Hidrología Tipo de Distribución
Utilización
Observaciones
Binomial
Variables discretas
Eventos si – no
Poisson
Variables discretas
Si al probabilidad es pequeña y el número de eventos N N, grande
Normal (Gauss)
Variable continua
Records extensos de lluvia y cuadales medios de largos intervalos (1 año, 2 años, 5 años, 10 años)
Log-Normal de 2 parámetros y de 3 parámetros
Variable continua
Precipitación, caudales anuales. Series de duración parcial
Gamma de 2 parámetros
Variable continua
Frecuencia de caudales y lluvias. Generación de hidrogramas sintéticos
Tipo I (Gumbel)
Valores extremos
Valores extremos de caudales
Tipo II (Frechet)
Valores extremos, limite inferior cero
Log – Gumbel en un caso especial de tipo II.
Tipo III (Weibull)
Existe un limite superior (E)
Valores mínimos de caudales o lluvias
General de Valores Extremos (GEV)
Incluye los Tipo I, II y III
Determinación del tipo de distribución más conveniente
Wakeby
Es de uso general
Explica el “Efecto de Separación”
Semilogaritmica
Series de duración parcial
Variable continua
Caudales y lluvias máximas anuales.
Exponencial C.L.V.P. - 2014
Log-Pearson III
C.L.V.P. 2014
39
07/09/2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS
Después que los datos han sido ordenados y depurados el principal objetivo de la inferencia estadística es la estimación de los parámetros de la función de distribución de probabilidad. Cuanto más confiable sea la estimación de los parámetros en la muestra, mejor y más confiable será la información q que se p puede extraer del análisis estadístico. Si los datos son buenos a mayor número de ellos más cercano se estará de la verdadera distribución.
C.L.V.P. - 2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS
Los métodos de ajuste son de dos clases: analíticos y gráficos. El cálculo analítico con resultado analíticográfico es incluido en los software actuales. En general el cálculo de parámetros para ajuste de la curva de distribución se hace por tres métodos analíticos: el método de los momentos; el método de mínimos cuadrados y método de máxima verosimilitud. é á
C.L.V.P. - 2014
C.L.V.P. 2014
40
07/09/2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS
Métodos Analíticos Los métodos descritos a continuación, son los ajustes analíticos de un conjunto de datos a una curva de distribución de probabilidad.
C.L.V.P. - 2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS
Método de los Momentos Por este método introducido por Pearson, se establecen relaciones entre los N parámetros de la distribución seleccionada y los n primeros momentos de la muestra. Así para cada parámetro , β, ..n tendrá una ecuación:
f1 i , i 1.... f 2 j , j 1.... .... N f N k , k 1.... C.L.V.P. - 2014
C.L.V.P. 2014
41
07/09/2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de los mínimos cuadrados E t es un método ét d muy usado d en hidrología, hid l í no sólo ól para ajustar j t Este funciones de distribución, sino también curvas de caudales en ríos (relación h/Q), ecuaciones de regresión de correlaciones entre estaciones de caudales, ajuste de curvas de intensidad–duración– frecuencia de lluvias, etc. Por este método se calcula una línea de regresión (en lo posible recta) para ajustar los datos graficados. La línea que se obtiene puede no representar exactamente la distribución teórica, pero, en general puede producir un ajuste igual o mejor que el método de los momentos. Basado en este método Chow (1951) propuso un método general de ajuste de análisis de frecuencias hidrológicas, mediante un factor de frecuencia. El ajuste de una distribución se puede hacer, ya sea a una de las conocidas distribuciones de frecuencia de probabilidad o a cualquier otra curva empírica que la observación del gráfico de los valores de la variable pueda sugerir. En el caso de una función: C.L.V.P. - 2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de los mínimos cuadrados En el caso de una función:
y f ( x; , , ...) Los datos deben ser ajustados mediante la mejor estimación de los parámetros , β, . El método minimiza la suma de los desvíos al cuadrado de los valores observados y los calculados,, así: N
N
2
S yi y yi f xi ; , ,..., 1
2
1
C.L.V.P. - 2014
C.L.V.P. 2014
42
07/09/2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de los mínimos cuadrados Donde: xi e yi son las coordenadas de los datos observados y N el número de datos (tamaño de la muestra). La línea dada por la función f(x, , β, ...) debe también ser minimizada y por lo tanto, todas las primeras derivadas parciales con respecto a , β , deben ser cero: Por lo tanto: N
yi y i 1
N
yi y
2
;
2
i 1
0;
...
C.L.V.P. - 2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de los mínimos cuadrados d d b De estas derivadas se obtienen n ecuaciones para encontrar n parámetros. Como, en general se trata de ajustar a una recta de la forma:
y *x
O en forma logarítmica, si es el caso, los parámetros y β se encuentran como: N
x y i
i 1
N
x i 1
_
C.L.V.P. - 2014
C.L.V.P. 2014
_
i
2 i
_
N * x* y _2
N *x
_
y x
43
07/09/2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de los mínimos cuadrados Para el caso de una ecuación cuadrática de la forma:
y * x * x2 Se plantean tres ecuaciones para determinar los tres parámetros a, b, c: N
N
N
yi * N * xi * xi2 i 1
i 1
N
x *y i 1
C.L.V.P. - 2014
i
i
i 1
N
N
N
* xi * xi2 * xi3 i 1
i 1
i 1
N
N
N
N
i 1
i 1
i 1
i 1
xi2 * yi * xi2 * xi3 * xi4
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de Máxima Verosimilitud Por este método se determinan los valores de los parámetros en forma de obtener la función de verosimilitud. Si se tiene una función de densidad de probabilidad f(x; ; β ...) de una variable continua x con los parámetros , β... a ser estimados, el producto infinito o función de verosimilitud de una muestra de N valores de una variable continua x es: N
L f ( xi ; , ...) i 1
C.L.V.P. - 2014
C.L.V.P. 2014
44
07/09/2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de Máxima Verosimilitud Si la variable es discreta y la función de probabilidad acumulada es: Pi (x; , β) la función de verosimilitud es el producto: N
L1 Pi ( xi ; , ...) i 1
Como uno alcanza su máximo valor, para ciertos valores p g ; luego g la ecuación es: de ,, β, β,...,, se aplican logaritmos; N
N
i 1
i 1
LnL ln f xi ; , ... ln f xi ; , ... C.L.V.P. - 2014
AJUSTE DE LA DISTRIBUCIÓN. ESTIMACIÓN DE PARÁMETROS Método de Máxima Verosimilitud De sus derivadas parciales en , β,...igualadas a cero, se obtienen las funciones de máxima verosimilitud que serán tantas ecuaciones como parámetros a determinar:
ln( L) 0;
ln( L) 0;
...
El método da mejores resultados para muestras grandes En este caso, provee la mejor estimación de los parámetros, aunque su aplicación práctica resulta la más compleja que otros métodos. C.L.V.P. - 2014
C.L.V.P. 2014
45
07/09/2014
TEST DE BONDAD DE AJUSTE Una curva de frecuencia desarrollada a través de una muestra de datos, se supone que es la mejor estimación de la curva de frecuencia de la población. La aplicación de los test de bondad de ajuste a determinadas distribuciones, puede ayudar a seleccionar aquella que mejor represente a la distribución de frecuencia de la población. Si bien, se han mencionado criterios generales, obtenidos de la experiencia hidrológica para seleccionar una determinada distribución de frecuencia, no existen verdaderos acuerdos en este sentido y lo cierto es, como lo establece el USWRC (1982), “ninguna distribución es la mejor para todos los criterios, luego el juicio del hidrólogo resulta fundamental”. C.L.V.P. - 2014
TEST DE BONDAD DE AJUSTE Test de Ji-cuadrado (2) Este método se usa tanto p para verificar distribuciones de probabilidad, ya sean distribuciones continuas con grupos de datos expresados como frecuencia absolutas de intervalos de clase o como frecuencias absolutas en distribuciones discretas. Es un método para métrico que se evalúa mediante la expresión:
( f i n * pi ) 2 n * p i 1 i N
2
En esta ecuación n es el número de intervalos de clase para variables discretas o el número de eventos para variables continuas, fi son las frecuencias absolutas observadas de cada evento (o de cada intervalo de clase) y pi es la probabilidad de los eventos (o de los intervalos) calculados con la ecuación a verificar C.L.V.P. - 2014 p(x, α, β, γ...).
C.L.V.P. 2014
46
07/09/2014
TEST DE BONDAD DE AJUSTE Test de Kolmogorov-Smirnov (K-S) Kolmogorov-Smirnov (K-S) El método Kolmogorov Smirnov (K S) se usa cuando no se verifican parámetros de una distribución previa y se trabaja con una distribución acumulada. En este método se determina la máxima desviación entre la posición de graficación experimental (Pxi) la distribución acumulada teórica (F(x)). Si se tiene una muestra de n datos x1, x2, x3....xn en orden ascendente o descendente y sus posiciones de graficación dadas por P(xi) = m/n+1, se obtiene el gráfico de una preseleccionada distribución empírica. Luego, F(x) el verdadero valor de la distribución teórica la máxima diferencia se define como:
D0 maxF ( x ) P ( xi )
Donde Do, es el valor de la máxima desviación entre la curva experimental y la teórica. En algunos casos, este valor puede corresponder a la cola de la distribución donde el ajuste no es tan necesario. C.L.V.P. - 2014
C.L.V.P. 2014
47