Paola Ortiz
Cuenca, Enero 7 de 2015
1
Contenido INTRODUCCIÓN......................................................................................................................... 2 OBJETIVOS ................................................................................................................................ 3 MARCO TEÓRICO....................................................................................................................... 3 1.
Distribuciones de probabilidad ........................................................................................ 3 1.1. Parámetros estadísticos: .............................................................................................. 3 1.1.1.
Media : ............................................................................................................. 4
1.1.2.
Varianza ²: ........................................................................................................ 4
1.1.3.
Desviación estándar ............................................................................................ 4
1.1.4.
Coeficiente de variación....................................................................................... 4
1.1.5.
Coeficiente de asimetría : ................................................................................... 4
2.
Análisis de frecuencia ..................................................................................................... 5
3.
Ajuste de distribuciones ¿Cómo elegir una distribución?................................................... 5
4.
Conceptos importantes................................................................................................... 6
5.
-
Período de retorno ..................................................................................................... 6
-
Probabilidad de excedencia......................................................................................... 6 Métodos de ajuste a distribuciones ................................................................................. 6
Método del Plotting Position .............................................................................................. 6 6.
Pruebas de ajuste ........................................................................................................... 7 6.1. Prueba Smirnov Kolmogorov ........................................................................................ 7 6.2. Prueba Chi Cuadrado ................................................................................................... 7
7.
DISTRIBUCIONES SIMÉTRICAS Y ASIMÉTRICAS .................................................................. 8 7.1.
Distribución General de Valores Extremos ................................................................ 8
7.2.
Distribución de Gumbel o extrema tipo I .................................................................. 8
7.3.
Distribución de Frechet ........................................................................................... 9
APLICACIONES..........................................................................................................................10 Aplicación Distribución de Gumbel .....................................................................................10 CONCLUSIONES........................................................................................................................12 RECOMENDACIONES ................................................................................................................12 BIBLIOGRAFÍA ..........................................................................................................................13
1
INTRODUCCIÓN
Para hacer investigación aplicada a variables, es necesario conocer cómo se distribuyen los datos de una muestra en su universo. Algunos estudios producen resultados con una distribución no normal (forma de campana); en estos casos se deben utilizar técnicas no paramétricas. Para extraer conclusiones del comportamiento de una variable a partir de series de datos, es necesario disponer de series históricas de valores de la variable; cuanto mayor sea la serie de datos, mayor será la fiabilidad de las deducciones extraídas. En esta etapa de un análisis estadísitico, evaluar la probabilidad de que se presente en el futuro un valor mayor o menor a otro y evaluar qué valor se superará en un periodo dado de tiempo, son los principales objetivos. Hay variables naturales que se ajustan a distribuciones simétricas de probabilidad y otras que no. Las que no se ajustan a distribuciones simétricas registran una proporción desuniforme de valores pequeños y grandes, por lo tanto, se distribuyen asimétricamente en función de otra variable cuya relación se está estudiando. Las distribuciones de probabilidad pueden estimar con alta fiabilidad la ocurrencia de un evento pero se debe recalcar que no todas son adecuadas para todos los fenómenos. Los eventos que contiene este trabajo, tienen una serie de datos que sí pueden asumir parámetros de variable como media y varianza y un tipo de distribución. Específicamente, se analizarán dos distribuciones: la de Gumbel y Frechet.
2
OBJETIVOS -
Establecer las funciones de distribución de probabilidad que mejor ajustan a una distribución determinada de valores extremos. A ajustar un ejemplo práctico de Ingeniería Civil a las distribuciones de Gumbel y Frechet.
MARCO TEÓRICO 1. Distribuciones de probabilidad El comportamiento de las variables aleatorias discretas o continuas se describe con la ayuda de Distribuciones de Probabilidad. La variable se designa con mayúscula y un valor específico de ella con minúscula. P(z=a) denota la probabilidad de que un evento asuma el valor a; de forma similar, P(a z b) denota la probabilidad de que un evento se encuentre en el intervalo (a,b). Si se conoce la probabilidad P(a z b) para todos los valores de a y b, se dice que la Distribución de Probabilidades de la variable z es conocida. Si z es un número dado y se considera la probabilidad P(Z z), F(z) = P(Z z), F(z) es la función de distribución acumulada y f(z) es la función densidad de probabilidades de la variable. Para una serie de valores de una variable se tiene las siguientes características: i)
f ( z )dz 1
b
ii) P(a z b) f ( z )dz a
iii)
b
b
f ( z )dz 0
Además:
Gráfico de http://www.derivadas.es/2008/08/24/distribuciones -de-probabilidad/
1.1. Parámetros estadísticos: Extraen información de una muestra indicando las características de la población. En orden de importancia, los principales son: media, varianza, y asimetría.
3
1.1.1.
Media : Es el valor esperado de la variable. Muestra la tendencia central de la distribución.
media poblacional = x f ( x)dx
media muestral= x 1.1.2.
1 n xi n i 1
Varianza ²: Mide la variabilidad de los datos respecto a la media.
varianza poblacional = 2 ( x ) 2 f ( x)dx
varianza muestral = s 2 1.1.3.
Desviación estándar : Es una medida de la dispersión de los datos respecto a la media. Es la raíz cuadrada de la varianza, se representa con la letra s.
Curva con Menor Dispersión Menor desviación respecto a la media
1.1.4.
Curva con Mayor Dispersión Mayor desviación respecto a la media
Coeficiente de variación: Es una medida adimensional de la variabilidad.
Cv 1.1.5.
1 n ( xi x) 2 n 1 i 1
para poblaciones
Cv
Coeficiente de asimetría : La distribución de los valores de una distribución alrededor de la media se mide por la asimetría. Al ser coeficiente, es por supuesto, adimensional.
E[( x )3 ] ( x )3 f ( x)dx ,
1
n
Entonces Cs
4
s para muestras x
n ( x x) 3 i 1
(n 1)( n 2) * s 3
3
E`[( x )3 ]
2. Análisis de frecuencia Se analiza la frecuencia para predecir el comportamiento de los valores de un evento, a partir de los datos registrados. Su confiabilidad depende de la longitud y calidad del registro de datos y de la incertidumbre propia de la distribución de probabilidades seleccionada. El análisis de frecuencia consiste en determinar los parámetros de las distribuciones y determinar después la magnitud del evento para un período de retorno dado. Para determinar la magnitud de eventos extremos cuando la distribución de probabilidades no es una función fácilmente invertible, se requiere conocer la variación de la variable respecto a la media. Chow en 1951, propuso determinar esta variación a partir de un factor de frecuencia KT que se expresa como:
X T KT ,
estimando que
X T x KT s
Se debe recalcar que: - Los datos a ser analizados describen eventos aleatorios independientes entre sí. - Los procesos involucrados son estacionarios a través del tiempo. - Los parámetros poblacionales pueden ser estimados a partir de una muestra. Para una distribución dada, puede determinarse una relación entre K y el período de retorno T que veremos en poco. 3. Ajuste de distribuciones ¿Cómo elegir una distribución? En la modelación de puntos máximos, las principales distribuciones que se utilizan son Log - Normal, Gumbel y Log-Gumbel. Para seleccionar la distribución de probabilidades apropiada se deben tener en cuenta las consideraciones siguientes:
5
Cuando en la serie histórica se observan “valores atípicos” es necesario verificar la sensibilidad del ajuste.
Las distribuciones de dos parámetros fijan el valor del coeficiente de asimetría, lo que en algunos casos puede no ser recomendable. La distribución Log - Normal de dos parámetros sólo es recomendable sí el coeficiente de asimetría es cercano a cero. Las distribuciones Gumbel y Log - Gumbel son recomendables si el coeficiente de asimetría de los eventos registrados es cercano a 1.13.
Para ajustar distribuciones de tres parámetros (Log Normal III, Log Pearson) se requiere estimar el coeficiente de asimetría de la distribución, para ello es necesario disponer de una serie con longitud de registros mayor de 50 años, (Kite, 1988). Las distribuciones de dos parámetros son usualmente preferidas cuando se dispone de pocos datos, porque reducen la varianza de la muestra, (Ashkar, et al. 1994).
Para seleccionar la distribución de probabilidades adecuada se debe tratar de utilizar información adicional del evento al que pertenecen los datos, que permita identificar la forma en que se distribuye la variable. Usualmente es muy difícil determinar las propiedades físicas de los procesos hidrológicos para identificar el tipo de distribución de probabilidad que es aplicable.
El tamaño de la muestra influye directamente en la confiabilidad de los resultados; a mayor período de retorno, mayor longitud de registros necesaria para mejor confiabilidad en los resultados.
Cuando la información es adecuada el análisis de frecuencia es el método más recomendable para la evaluación de eventos extremos, ya que la estimación depende sólo de los valores extremos registrados. Tiene algunas limitaciones relacionadas con el comportamiento de los valores registrados y con el tamaño y calidad del registro.
4. Conceptos importantes -
Período de retorno: se define como el tiempo que transcurre entre dos sucesos iguales. Sea ese tiempo, T.
-
Probabilidad de excedencia: es la probabilidad asociada al período de retorno. Así, P(excedencia) = P( x)= 1/T.
5. Métodos de ajuste a distribuciones Puede ajustarse una serie a una distribución de dos maneras: 1) Con el factor de frecuencia (mostrado y definido anteriormente como K). 2) Hallando la distribución empírica de los datos muestrales, por el método de Plotting Position. Método del Plotting Position Trabaja con la probabilidad de excedencia asignada a cada valor de la muestra. Se han propuesto numerosos métodos empíricos, pero las más frecuentes son: California P Donde
6
m n
Weibull
P
m n 1
Hazen
P
2m 1 2n
P = probabilidad de excedencia n = total de valores m = lugar que ocupa el valor en la lista de valores ordenada descendentemente (m=1 para el valor máximo)
6. Pruebas de ajuste ¿Qué distribución se ajusta mejor a un registro? Kite (1988) y Mamdouh (1993) afirman que no existe consistencia sobre cuál es la distribución que mejor se ajusta a los puntos máximos y recomiendan seleccionar el mejor ajuste a criterio del modelador con dos posibles formas: -
Prueba de ajuste gráfico: se dibujan los valores registrados en la serie contra la distribución teórica de probabilidades y de manera visual (subjetiva) se determina si el ajuste es adecuado o no.
-
Pruebas estadísticas de bondad del ajuste: en las que se calcula un estimador y se compara con un valor tabulado para determinar si el ajuste es adecuado o no. Son: Prueba de Smirnov Kolmogorov, Prueba Chi Cuadrado y Prueba de Anderson Darling.
6.1. Prueba Smirnov Kolmogorov Es un test no paramétrico, válido para distribuciones continuas. Smirnov Kolmogorov consideró la desviación de la función de distribución de probabilidades de la muestra P(x) de la función de probabilidades teórica, escogida Po(x) tal que Dn max( P( x) Po( x)) . La prueba requiere que el valor Dn calculado con la expresión anterior sea menor que el valor tabulado Dn para un nivel de probabilidad requerido. Esta prueba es fácil de realizar y comprende las siguientes etapas: -
-
El estadístico Dn es la máxima diferencia entre la función de distribución acumulada de la muestra y la función de distribución acumulada teórica escogida. Se fija el nivel de probabilidad , valores de 0.05 y 0.01 son los más usuales. El valor crítico D de la prueba se obtiene de tablas en función de y n. Si el valor calculado Dn es mayor que el D, la distribución escogida se debe rechazar.
6.2. Prueba Chi Cuadrado Una medida de la discrepancia entre las frecuencias observadas (fo) y las frecuencias calculadas (fc ) por medio de una distribución teórica está dada por el estadístico χ², k
2 i 1
( fo fc )2 , donde fc
f
o
fc
- Si el estadístico es igual a cero (χ²=0), las distribuciones teórica y empírica se ajustan exactamente. - Si el estadístico es mayor que cero (χ²>0), las distribuciones teórica y empírica difieren. La distribución del estadístico χ² se puede asimilar a una distribución Chi-cuadrado con (k-n-1) grados de libertad, donde:
7
k = número de intervalos n = número de parámetros de la distribución teórica. La función χ² se encuentra tabulada. Suponga que una hipótesis Ho es aceptar que una distribución empírica se ajusta a una distribución Normal. Si el valor calculado de χ² por la ecuación anterior es mayor que algún valor crítico de χ², con niveles de significancia de 0.05 y 0.01 (el nivel de confianza es 1-) se puede decir que las frecuencias observadas difieren significativamente de las frecuencias esperadas (o calculadas) y entonces la hipótesis Ho se rechaza, si ocurre lo contrario entonces se acepta. Cuando la prueba Chi Cuadrado no puede utilizarse por tamaño muestral insuficiente, se debe recurrir a la prueba Fisher.
7. DISTRIBUCIONES SIMÉTRICAS Y ASIMÉTRICAS Muchas variables se ajustan a la distribución normal o de Gauss, llamadas simétricas, pero las que no, se dicen variables de distribución asimétrica. Sus ecuaciones han venido desarrollándose y permiten predecir valores para variables aleatorias continuas con registros de datos “extremos”. Hay variables también, con valores que no se ajustan a la distribución de Gauss, pero sus logaritmos sí, entonces se les llama de distribución log – normal. En hidrología, los valores medios (de precipitaciones o caudales anuales) suelen ajustarse a la distribución simétrica de Gauss, pero los valores máximos no. Por lo tanto, para estimar valores máximos de variables hidrológicas, se utilizan la campana de Gumbel o alguna similar. Las principales distribuciones de probabilidad utilizadas en hidrología son: DISCRETAS • Binomial
7.1.
CONTINUAS • Normal • Log-normal • Log Pearson Tipo III (Pearson=Gama) • Gumbel (Valor extremo tipo I) • Goodrich
Distribución General de Valores Extremos
Una familia importante de distribuciones usadas en el análisis de frecuencia hidrológico es la distribución general de valores extremos. Este tipo de distribuciones se ha utilizado ampliamente para representar el comportamiento de crecientes y sequías (máximos y mínimos). 7.2.
Distribución de Gumbel o extrema tipo I
Si 𝜉 una variable aleatoria con distribución de Gumbel, entonces: -
8
Función Distribución Acumulada:
𝐹(𝑥 ) = 𝑃(𝜉 < 𝑥 ) = 𝑒 −𝑒
−𝛼(𝑥−𝑢)
-
𝑑 𝐹(𝑥 )
𝑓 (𝑥 ) =
Función de densidad:
𝑑𝑥
= 𝛼𝑒 −𝛼 (𝑥−𝑢) 𝑒 −𝛼 (𝑥−𝑢)
𝑓(𝑥 ) = 𝛼𝑒 −𝛼 (𝑥 −𝑢) 𝐹(𝑥) Donde:
-
1 𝛼
= 0.7797 ∗ 𝑠(𝜉)
𝑢 = 𝑚𝑜𝑑𝑎 =
𝐾𝑇 = −
Factor de frecuencia:
− 0.45005 ∗ 𝑠(𝜉)
√6 𝜋
𝑇
∗ (0.5772 + ln(ln(𝑇−1 )))
Donde T = periodo de retorno
-
Xt t(1-) Se
Límites de confianza:
Se
s n 1
[1 1.1396 KT 1.1KT 2 ] 2 Donde:
KT = factor de frecuencia t(1-) = variable normal estandarizada para una probabilidad de no excedencia de 1-.
Para la distribución Gumbel se tiene que el caudal para un período de retorno de 2.33 años es igual a la media de los caudales máximos.
7.3.
Distribución de Frechet
Es un caso especial de la distribución de valores extremos generalizada. Si η es una variable aleatoria que sigue la distribución de Frechet, entonces: η>0 ln(η) = 𝝃 Función de distribución:
𝐹(𝑦) = 𝑃(𝜉 < 𝑦) = 𝑃(ln(η) < ln(𝑦)) = 𝑒 −𝑒 𝑘
𝐹 (𝑦 ) = 𝑒 Donde:
1 𝛼
𝑢=
9
− 𝛼 𝑦
= 0.7797 ∗ 𝑠(𝜉) , 𝛼 > 0 (ln(η)) − 0.45005 ∗ 𝑠(ln(η))
−𝛼(ln(𝑦)−𝑢)
APLICACIONES “El diseño de obras hidráulicas se relaciona siempre con eventos hidrológicos futuros, cuyo tiempo de ocurrencia no puede predecirse; por eso, se debe recurrir al estudio de la probabilidad o frecuencia (Linsley et al., 1988)” (Estimación de funciones de distribución de Probabilidad, para caudales máximos, en la Región del Maule; María Alejandra Aguilera Navarro). Algunas aplicaciones de la teoría de valores extremos, según Kotz y Nadarajah son ráfagas de viento, contaminación en el aire y análisis de corrosión. El matemático Janos Galambos (1978) menciona inundaciones, sequías, efectos de aditivos en alimentos, predicciones de pluviosidad. “Un ejemplo concreto, mencionado por Coles, es el siguiente: supóngase que, como parte de los criterios para el diseño de defensas costeras, se necesita un rompeolas para protegerse de todos los niveles del mar que se espera que haya durante 100 años. Según Coles, posiblemente hay disponibles datos locales de niveles del mar, pero, para un periodo mucho más corto de, 10 años por ejemplo. Lo interesante, es estimar qué niveles del mar se pueden alcanzar en los 100 siguientes años usando los datos de los 10 años anteriores” (Alejandro Ibáñez Rosales, Trabajo de Investigación, Máster Oficial en Estadística Aplicada).
Aplicación Distribución de Gumbel Para un estudio sobre la humedad relativa el Bosque Semiárido de Santa Elena (Provincia de Santa Elena), el MAGAP necesita conocer la distribución de las precipitaciones locales máximas en 24 horas. El registro de datos que se tiene es el siguiente: AÑO Pp máxima en 24 horas AÑO Pp máxima en 24 horas
200 0 18.0
2001 2002
200 9 3.5
2010 2011
35.5
56.0
47.5
40.0
2005 200 7 65.0 21.0
2008
2012 201 3 42.5 78.0
2014
30.0
82.0
El cuadro deja ver que los datos tienen extrema variabilidad. La carencia de series hidrológicas consistentes es muy común en el país, pero, como la zona en estudio, presenta variabilidad extrema, los valores que tendemos a estimar son máximos, por lo tanto, podríamos registrar las 2 o 3 precipitaciones máximas en un año para extender la serie de datos. -
10
Cálculo de la función de distribución de Gumbel
Se determina que:
= 43.25
S = 23.97
Por lo tanto de 𝑢 =
− 0.45005 ∗ 𝑠(𝜉) :
N = 12
𝑢 = 43.25 − 0.450047 ∗ 23.97 = 32.46
Y la función de Gumbel es -
𝐹 (𝑥) = 𝑒 −𝑒
−0.0537(𝑥−32.46)
Tabulación de datos Tabla 1: Registro histórico de datos de precipitación del Bosque Semiárido de Santa Elena n 1 2 3 4 5 6 7 8 9 10 11 12
-
Precipitación Frecuencia Relativa máxima en 24 Acumulada horas n/N+1 (Weibull) 3,50 0,077 18,00 0,154 21,00 0,231 3,00 0,308 35,40 0,385 40,00 0,462 42,50 0,538 47,50 0,615 56,00 0,692 65,00 0,769 78,00 0,846 82,00 0,923
Frecuencia Teórica Acumulada
𝑒−𝑒
−𝛼(𝑥−𝑢)
0,009 0,114 0,158 0,320 0,427 0,513 0,557 0,639 0,753 0,839 0,916 0,932
Aplicación de Kolmogorov – Smirnov De la Tabla 1 Dn max( P( x) Po( x)) , por lo tanto D3 = 0.073. Si el nivel de confianza es del 95% y n=12, de acuerdo a la tabla de distribución normal Dt = 0.375 D3 = 0.073 < Dt = 0.375; Por lo tanto se puede decir que el ajuste es bueno.
-
Utilidad Si la ecuación de la distribución es
𝐹 (𝑥 ) = 𝑒−𝑒
−0.0537(𝑥−32.46)
, despejando x:
Por lo tanto, para determinar el valor de precipitación en 24 horas, asociado a un periodo de retorno y a una probabilidad, recordando la probabilidad de excedencia y el periodo de retorno, sustituimos el periodo que queremos en la ecuación 1 1− = 𝐹(𝑥 )) y luego 𝐹 (𝑥) en la ecuación de x despejada, entonces: 𝑇
11
Tabla 2: Precipitaciones máximas en 24 horas asociadas al periodo de retorno T
Con base en la Tabla 2 se puede concluir que: - Existe un 99% de probabilidades de que en el año 2015 haya una precipitación en 24 horas que no supere los 118.4 mm, o dicho de otro modo, existe un 1% de probabilidad de que haya una precipitación que supere los 118.44 mm. - Existe un 10% de probabilidades de que en el año 2015 en el Bosque Semiárido de Santa Elena, haya una precipitación en 24 horas que supere los 74.52 mm. El mismo análisis se aplica para todos los periodos de retorno involucrados. El número de periodos de retorno considerados no debe ser mayor al número mayor que el doble o triple como máximo, del número de datos en la serie en análisis.
CONCLUSIONES -
-
-
Con aplicaciones concretas de la teoría de distribuciones de probabilidad, predecir valores futuros de variables para análisis importantes, como construcciones dependientes de series de datos de caudales, precipitaciones, oleajes y represas en cuanto a la hidrología. Cuando se desarrolle un análisis estadístico en el que se deba recurrir a distribuciones de probabilidad, aunque cuente con una serie de datos 100 % confiable y de longitud adecuada, el gran número de distribuciones de probabilidad que hay, decidir qué distribución utilizar y además aplicar las pruebas de ajuste, puede ser bastante cansado, por eso es recomendable tomar en cuenta la distribución y los resultados de análisis ya hechos, por ejemplo, en España, los organismos oficiales para precipitaciones máximas aplican la distribución SQRT – max con muy buenas aproximaciones. La estandarización de variables y adaptación de distribuciones asimétricas a la distribución de Gauss, son las herramientas más importantes para analizar el comportamiento de variables aleatorias.
RECOMENDACIONES -
12
Contar con una buena guía de investigación; puede confundirle en la materia y hacerle perder tiempo no tener un libro o sitio web claro, sistemático y completo. Consultar lo necesario en varias fuentes. Contar con el material necesario durante el desarrollo del trabajo, básicamente, tablas y gráficos.
BIBLIOGRAFÍA -
13
Ostle, Bernard. Estadística Aplicada: Técnicas de la estadística, cuándo y dónde aplicarlas. LIMUSA. México 1977. Aparicio, F. 1997. Fundamentos de Hidrología de Superficie. 11 ed. México. Editorial Limusa S.A. 303 p. Araya, S. 2003. Análisis de la Variación Temporal de los Caudales Punta Instantáneos en la Cuenca del Río Purapel, VII Región. Tesis de Ing. Forestal. Talca, Chile. Universidad de Talca, Facultad de Ciencias Forestales. 102 p. Durá, José y López, Javier. Fundamentos de estadística. Ariel, S.A. Barcelona 1992. http://portal.chapingo.mx/irrigacion/planest/documentos/apuntes/hidrologia_sup/FR ECUENCIA.pdf http://datateca.unad.edu.co/contenidos/30172/MODULO%20HIDROLOGIA/leccin_ 29_anlisis_de_datos.html http://fluidos.eia.edu.co/hidrologiai/probabilidad/probabilidad.htm