Analyse fréquentielle
I. Rappels de statistique II. Ajustement d’une série statistique à une loi de distribution III. Loi de Gauss I∇. Loi de Gumbel ∇.
Synthèse Par :
et Dial NIANG Harouna Karambiri et Institut International d'Ingénierie de l'Eau et de l'Environnement (2iE) (Groupe EIER-ETSHER)
Ι. Rappels de statistique
L'anal L'an alys ysee fréq fréque uent ntie iellllee est est une une méth méthod odee stat statis isti tiqu quee de prédiction consistant à étudier les événements passés, caractéristiques d'un processus donné (hydrologique ou autre), afin d'en définir les probabilités d'apparition future. Cette prédiction repose sur la définition et la mise en œuvre d'un modèle fréquentiel, qui est une équation décr décriv ivan antt le comp compor orte teme ment nt stat statis isti tiqu quee d' d'un un proc proces essu sus. s. Cess modè Ce modèle less décr décriv iven entt la prob probab abililit itéé d' d'ap appa pari riti tion on d' d'un un événement de valeur donnée.
Ι. Rappels de statistique
L'anal L'an alys ysee fréq fréque uent ntie iellllee est est une une méth méthod odee stat statis isti tiqu quee de prédiction consistant à étudier les événements passés, caractéristiques d'un processus donné (hydrologique ou autre), afin d'en définir les probabilités d'apparition future. Cette prédiction repose sur la définition et la mise en œuvre d'un modèle fréquentiel, qui est une équation décr décriv ivan antt le comp compor orte teme ment nt stat statis isti tiqu quee d' d'un un proc proces essu sus. s. Cess modè Ce modèle less décr décriv iven entt la prob probab abililit itéé d' d'ap appa pari riti tion on d' d'un un événement de valeur donnée.
Ι. Rappels de statistique
Quelques définitions Un ensemble d’objets ou de personnes d’une étude statistique est appelé population. appelé population. La variable est dite discrète si elle ne prend que des v peut prendre toutes la valeurs d’un intervalle (ex : R : R). ). Une variable est dite aléatoire dite aléatoire si si elle est le résultat d’une épreuve qui dépend du hasard.
Ι. Rappels de statistique
Concepts de probabilité et de fréquence En statistique, l’ensemble des observations des débits d’un cours d’eau durant une année constitue une épreuve ; de chaque épreuve on tire divers résultats dont le module annuel. L’ensemble de toutes les réalisations des résultats m (module) de toutes les épreuves possibles forme une ’ connue qu’une infinie partie l’échantillon E observé des modules sur une période déterminée de N années. La réalisation r dans la population M se produit n fois en N années; on appelle:
Ι. Rappels de statistique -fréquence expérimentale de r dans l’échantillon E:
f
=
n N
- probabilité de r dans la population M:
prob r /
=
lim
N
quand N → ∞
La réalisation est représentée par une valeur numérique variable aléatoire X, dont la fonction de répartition est:
F(x) = Prob { X ≤ x } la dérivée de F(X) est la densité de probabilité f(x) de la variable aléatoire, et l’on peut écrire:
{
}
∫
+∞
Ι. Rappels de statistique
Exercice: On dispose d’une série de données pluviométriques de la station de Payerne de 1901 à 1979. Les valeurs obtenues sont comprises entre 500 et 1600 mm. Calculer les fréquences. Corrigé : Classe -
ni
f i
600-700 700-800 800-900 900-1000
1 5 8 16
0.013 0.063 0.101 0.202
1000-1100 1100-1200 1200-1300
13 16 11
0.165 0.202 0.139
1300-1400
6
0.076
f
=
n
N= 79, ni= effectif par classe, f i = fréquence relative
ΙΙ. Rappels de statistique
Pour la pratique des calculs de e la fréquence expérimentale, on parle tantôt de de fréquence fréquence au au non non dépassement F(x) dépassement F(x)::
F ( x ) = prob X ≤ x tantôt de fréquence au dépassement notée P(x)
On a:
P(x) + F(x) = 1 NB: Si on classe un échantillon par ordre décroissant , on obtient la fréquence au dépassement . Si on classe un échantillon par ordre croissant , on obtient la fréquence au non dépassement.
Ι. Rappels de statistique
Calcul de la fréquence expérimentale Formule de Hazen Hazen::
F ( x ) =
r − 0.5 n
n: taille de l’échantillon; r : rang
Formule de Weibull Weibull::
F ( x ) =
r n +1
Ι. Rappels de statistique
Exemple: calculer la fréquence expérimentale au non dépassement des pluies mensuelles de la station de Payerne avec la formule de Hazen �����
����� ����
����
��������� �������������
1970 1971
43 46
1 2
1973 1974 1975 1976 1977 1978 1979
50 50 53 53 53 54 55
4 5 6 7 8 9 10
0.045 0.136 . 0.318 0.409 0.500 0.591 0.682 0.773 0.864
Ι. Rappels de statistique
Temps de retour: Il est défini comme étant l’inverse de la probabilité de dépassement
T =
1
P
=
1 1 − F
Notion pratique mais ambiguë : La durée de retour caractérise la rareté de l’événement considéré, qu’il s’agisse du dépassement d’une valeur forte ou du non-dépassement d’une valeur faible. Aussi, il vaudrait la
définir comme l’inverse de la probabilité d’occurrence de l’événement considéré.
Ι. Rappels de statistique
Exemple :
Pluie décennale humide : la hauteur de pluie qui, chaque
année, a seulement 10% de chance d’être dépassée, soit une probabilité ou fréquence annuelle de dépassement P = 0,1
Pluie décennale sèche : la hauteur de pluie qui, chaque
année, a seulement 10% de chance de ne pas être atteinte, soit une probabilité ou fréquence annuelle de dépassement P
= 0,9.
Ι. Rappels de statistique
Notion de risque:
1 risque = 1 − 1 − T
n
T= ériode de retour n=durée risque = 1 – – probabilité (n’arrive jamais jamais rien)
Exemple 1: Quel est le risque pour que «quelque chose» de grave se passe en 50 ans pour un débit de projet Q100.
Ι. Rappels de statistique
Solution 1: T = 100 ans probabilité atteinte ou dépassée
– .
1 risque = 1 − 1 − T
n
=
1
=
100
0.01
.
1 = 1 − 1 − 100
50
= 1 − (0.99 ) = 50
0.39
On a donc 39% 39% de risque pour que le débit de projet Q100 soit dépassé durant 50 ans. ans.
Ι. Rappels de statistique
Exemple 2: Calculer la période de retour pour qu’un événemen arrive avec un risque de 10% pour une durée n = 20 ans
Solution 2:
− ⇒
1
T
= 1−
n
−
1
T
n
−
1
n
T
1 − risque ⇒ T =
1 1 − 1 − risque n
T =
1
−
= 190 ans
Ι. Rappels de statistique
Caractéristiques de l’échantillon Description de l’échantillon : Lorsque l’on dispose d’une série importante ( > 30 valeurs) il peut être intéressant de présenter cet échantillon de manière synthétique : numériquement ou graphiquement Synthèse numérique :
1
x =
- moyenne arithmétique :
Σ xi
n
- paramètres de dispersion : Max( x ), Min( x ) i i
valeurs extrêmes : variance
:
écart-type
:
s² =
1
n
∑ ( x − x )²
i
S
variance non-biaisée
:
s² =
1
n −1
∑ ( x − x )²
i
Ι. Rappels de statistique - paramètres de distribution : médiane et quantiles
1er décile : valeur non dépassée dans 10% des cas (F=0.1) médiane : valeur non dépassée dans 50 % des cas (F = 0.5) mode : valeur de probabilité maximale (peut être différente de la valeur moyenne si fonction asymétrique) (F=max)
dernier décile : valeur non atteinte dans 90% des cas (F=0.9)
Synthèse graphique : - histogramme des fréquences empiriques : on fixe des classes [x i ; xi-1] et on compte combien de valeurs de l’échantillon se trouvent dans chaque classe (effectifs). • Très simple mais le nombre de classes et le choix des classes
restent à l’appréciation de l’intervenant !
• Peut être envisagé pour comparer des échantillons de variables
proches (en valeur moyenne).
Synthèse graphique :
- histogramme des fréquences empiriques :
ΙΙ. Ajustement d’une série
statistique à une loi de distribution
Choix du type de loi : -Pluies
annuelles ou débits moyens annuels: loi normale ou
loi lognormale - Pluies
journalières maximales, crues et étiages: loi de
Gumbel, loi de Fréchet ou loi de Pearson
ΙΙΙ. Loi de Gauss
La variable aléatoire X suit une loi normale si sa fonction de répartition ou probabilité de non dépassement est de la forme:
F ( x ) = Pr ob{ X ≤ x} =
avec u =
x − x s
1
∫ 2π
u
−
e
−∞
1 2u
2
du
variable réduite
Cette loi présente 2 paramètres qui sont: - la moyenne x et l’écart type s
Théorème central limite: La somme de N variables aléatoires indépendantes, identiquement distribuées et de variance finie, tend
ΙΙΙ. Loi de Gauss • variable centrée réduite :
u=
x − x s
la transformation en variable réduite (u) ramène à l’étude de la loi Normale N(0,1) Il existe des tables. • loi symétrique par rapport à
: donc médiane = moyenne
• loi unimodale • loi non bornée à droite comme à auche
ΙΙΙ. Loi de Gauss La représentation graphique de la loi normale se fait sur un papier à probabilité normale appelée aussi papier gaussien.
ΙΙΙ. Loi de Gauss
Estimation des quantiles quantiles:: pour la loi normale les quantiles sont calculées avec la formule suivante:
x p
= x + u p × s
avec xp le quantile à la probabilité p, up variable réduite à la probabilité p. Cette droite est aussi appelée droite de Henry.
Quelques Valeurs de u (variable réduite de Gauss) pour non dépassement : quelques probabilités probabilités au non F
0,01
0,025 0,05
0,10
0,15
0,20
0,50
u
-2,33 -1,96 -1,64 -1,28 -1,04 -0,84 0,0
0,80
0,85
0,80 1,04
0,90
0,95
0,975 0,99
1,28 1,64
1,96 2,33
ΙΙΙ. Loi de Gauss
Exercice d’application d’application:: Calculer le module décennal humide (F(x)= 0,90), 90), le module centenaire humide (F(x)= 0,99), 99), le module décennal sec (F(x)= 0,10) 10) et le module centenaire sec (F(x)= 0,01) 01) pour une série de données dont
x = 292 mm et s = 90 Solution:: Solution Les quantiles sont estim s partir de la formule: x p = x + u p × s F(x)
0,01
0,10
0,90
0,99
u
-2,33
-1,28
1,28
2,33
83
177
407
501
Xp (mm)
ΙΙΙ. Loi de Gauss
Calcul des intervalles de confiance: confiance: L’ intervalle de confiance permet d’expliquer l’importance des erreurs d’échantillonnage. d’échantillonnage. Son calcul et son choix découlent de l’étude des distributions d’échantillonnage c’estc’est-à-dire des lois auxquelles sont soumises les caractéristiques empiriques déduites des échantillons
1 Mo Mo enne et écart t ee:: . si N > 30 pour la moyenne et N > 50 pour l’écart type s IC à α% pour x = x ± u N s IC à α% pour s = s ± u 2 N 1−α 2
1−α 2
Exemple:: si α = Exemple = 95% 95% on aura
u
1−α
= 1,96 = u0,025
ΙΙΙ. Loi de Gauss
Calcul des intervalles de confiance: confiance: . si N < 30 pour la moyenne
s t est la variable de Student IC à α% pour x = x ± t 2 N . si N < 50 pour l’écart type Ns Ns < < s IC à α% our la variance suit la loi de 1−α
2
2
2
1
avec
Pr ob[ χ
2
2
2 2
]
[
2
2
]
≤ χ 1 = Pr ob χ ≤ χ 2 = 1−
2
r = N-1 : rr est le nombre de degré de liberté 2°Quantiles ° Quantiles:
IC à α% pour x = x p
p
s ±u 1−α 2
2 N
u
p
2 +2
valable si N ≥ 30 30
ΙV. Loi de Gumbel
F ( x) = e
−e−a
( x − x0 )
Fonction de répartition :
2 paramètres de la loi (xo,a) : x0 = paramètre de position et a = paramètre d’échelle −
0
Loi non symétrique et unimodale : moyenne et mode différents
Loi La
non bornée. loi de Gumbel n’utilise que les fréquences au non
dépassement
ΙV. Loi de Gumbel
u = a( x − x0 ) ⇒ x =
avec
u a
+
x0
En introduisant la valeur de u dans la fonction de répartition on obtient:
F ( x) = e et
−e
−u
u = − ln[− ln (F ( x ))]
Quelques Valeurs de la variable réduite de Gumbel F
0 ,10
0,20
0,50
u
-0,834 -0,476 0,367
0,80
0,90
0,95
0,98
0,99
0,999
1,500
2,250
2,970
3,902
4,600
6,907
ΙV. Loi de Gumbel Ajustement mathématique Méthode des moments
1
=
a
0 , 780 σ −
0
0 , 577
a
Calcul des quantiles
x p
=
up
+ x0
ΙV. Loi de Gumbel Calcul des intervalles de confiance des quantiles
Intervalle de confiance x p
= x p ± u1−α 2
K = 0.780(u p
u1−α u p
− 0.577
σ
n −1
2
1 + 1.4 K + 1.1K
)
= variable réduite de Gauss
[
= − ln − ln
(F ( x ))] = variable réduite de Gumbel
Exercice: Ajuster la loi de Gumbel aux pluies mensuelles de la station
de Payerne. Estimer les quantiles pour F(x)=0.90; 0.95et calculer leur intervalle de confiance
ΙV. Loi de Gumbel
Année
Pluie (mm)
Rang
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980
43 46 49 50 50 53 53 53 54 55 60
1 2 3 4 5 6 7 8 9 10 11
Moyenne x = 51 mm Ecart type σ = 4.59 mm
Fréquence expérimentale 0.045 0.136 0.227 0.318 0.409 0.500 0.591 0.682 0.773 0.864 0.955
Variable de Gumbel -1.1285 -0.6894 -0.3931 -0.1355 0.1123 0.3 5 0.6423 0.9597 1.3555 1.9200 3.0679
ΙV. Loi de Gumbel Calcul des paramètres de la loi 1
=
a x0
0.780 × 4.59 = 3.58 ⇒ a = 0.2793
= 51 − 0.577 × 3.58 =
48.93
Estimation des quantiles
u p p
a avec u p
0
[
= − ln − ln
(F ( x ))]
Calcul des intervalles de confiance des quantiles Intervalle de confiance x p = x p ± u1−α 2
K = 0.780(u p
− 0.577
)
σ
n −1
2
1 + 1.4 K + 1.1K
ΙV. Loi de Gumbel
F(x)
up
x
K U 1− α 2
0.90 0.95 0.99
2.2504 2.9702 4. 001
57.0 59.6 5.4
1.64 1.96 2.57
1.3052 1.8667 3.1381
Borne Borne inférieure supérieure
51.8 54.8 57.4
62.1 64.3 73.4
Test de χ2: On juge généralement l’adéquation d’une loi à un échantillon par le test du χ2, variable aléatoire dont la distribution a été étudiée par Pearson. En pratique, on procède comme suit: 1) découpage en k classes. Ce découpage doit introduire des classes d’égale probabilité théorique et d’un effectif d’au moins 5 . k
2
2) calcul de χ =
∑ 1
(n
i
− n pi
)
2
n pi
avec ni effectif observé de la classe i; npi effectif théorique de cette même classe n pi
=
N
=
effectif total nombre de classes
Test de χ2: 3) Calcul du nombre ν de degrés de liberté
ν =
k − p − 1
avec k le nombre de classes et p le nombre de paramètres de la loi. L’adéquation est admise si P(χ2)≥α α est le seuil du risque d’adéquation. α est choisi généralement égal à 0.05 05.. l’adéquation est rejetée si P(χ2)≤0.05.
Exercice: Tester l’ajustement de la loi de Gauss sur les précipitations annuelles de la station A (1906-1975).
Test de χ2: Numéro
Module
Numéro
(mm)
Module (mm)
1 2
149.5 150.7
32 33
288.5 291.0
3 4 5 6 7 8 9
151.0 161.8 172.1 185.0 185.5 192.8 197.8
34 35 36 37 38 39 40
294.1 294.3 308.0 308.6 310.1 319.1 321.5
10 11 12 13 14 15 16 17 18 19 20
205.0 205.8 206.0 208.5 210.0 214.6 222.1 222.6 225.6 235.7 235.7
41 42 43 44 45 46 47 48 49 50 51
326.9 329.6 333.5 342.0 357.2 360.2 364.5 366.5 367.4 380.9 382.0
21 22 23 24
242.8 246.4 252.6 255.0
52 53 54 55
394.4 399.5 402.1 408.8
25 26 27
257.0 258.5 260.3
56 57 58
413.4 421.2 421.8
28 29
273.0 275.9
59 60
428.7 500.8
Test de χ2: Solution k
2
χ =
∑
(n
i
)
npi effectif théorique de cette même classe
n pi
1 Classe
− n pi
ni effectif observé de la classe i;
2
Limites des classes
n pi ni
=
N
nombre de classes
nc
npi
effectif total
=
(ni-npi)2
ni-npi
(n
i
− n pi
)
2
n pi
1 2 3 4
188.5 188.5 – 231.3 231.1 – 263.3 263.3 – 292.0
7 11 9 6
7.6250 7.6250 7.6250 7.6250
-0.6250 3.3750 1.3750 -1.6250
0.3906 11.3906 1.8906 2.6406
0.0512 1.4938 0.2479 0.3463
5 6 7 8
292.0 – 320.7 320.7 – 352.7 352.7 – 395.6 ≥ 395.6
6 5 8 9
7.6250 7.6250 7.6250 7.6250
-1.6250 -2.6250 0.3750 1.3750
2.6406 6.8906 0.1406 1.8906
0.3463 0.9037 0.0184 0.2479
≤
3.66 2 χ cal
χ
2
= =
3 . 66 11 07
ν =
k − p
−
1
=
8
−
2
−
1
=
5
V. Synthèse l’ajustement d’une série statistique à une loi de distribution comporte 2 étapes: - contrôle et analyse des données
V. Synthèse Contrôle et analyse des données Pour élaborer un modèle statistique à partir des données d'un échantillon, il faut que celles-ci soient d’abord homogènes, stationnaires et indépendantes.
Homogénéité : les données proviennent toutes de la même population. Exemple de non homogénéité: • Crues printanières et crues échantillon.
pluviales dans un même
Stationnarité : Propriétés statistiques invariantes dans le temps, à l’exception des fluctuations aléatoires du climat. Exemple: • Détournement de cours d’eau, urbanisation, changement
V. Synthèse Indépendance : Les données doivent être indépendantes: une valeur de l'échantillon n'est pas influencée par la valeur précédente, donc l'ordre où elle survient n'a pas d'importance. Exemple de données dépendantes: débits journaliers en rivière
V. Synthèse Ajustement d’une loi statistique en hydrologie Choix de la variable à étudier
: pluie annuelle, pluie mensuelle, pluie
journalière maximale annuelle, débit maximum annuel, débit moyen annuel….
Vérifier que l’on a une VA, sans tendance ni cycle :
--> méthode de la moyenne mobile
Vérifier l’homogénéité de la série :
--> méthodes des doubles cumuls, cumuls des résidus...
Description de l’échantillon.
Classement de l’échantillon des réalisations par valeurs croissantes
Choix d’une loi de probabilité adaptée à la variable et à l’étude
Ajustement
de la loi (méthode graphique et/ou numérique)
Validation de l’aptitude de la loi à décrire l’échantillon
Définition de la valeur recherchée Qo avec un intervalle de confiance
associé à cette valeur.
V. Synthèse AJUSTEMENT D'UN ECHANTILLON DE PLUIES ANNUELLE A LA LOI NORMALE
Étapes à suivre dans la pratique : 1. Vérifier l'homogénéité de la série et apporter les corrections nécessaires (voir TD n°1) 2. Description de l'échantillon (moyenne, écart-type, variance, maxi, mini, CV, etc..) 3. Classement de l'échantillon par valeurs croissantes 4. Tracer l'histogramme des fréquences empiriques en prenant comme taille des classes, environ 10% de l'écart maximal (Maxi - Mini) et estimer le mode de l'échantillon. 5. Choix d'une loi de probabilité empirique F(xi) (fréquence expérimentale) F * ( x ) = i
i − 0.5 n
i F * ( x ) = i n + 1
(HAZEN, pour ajustement à une loi de GAUSS)
(WEIBULL, pour ajustement à une loi de GUMBELL)
V. Synthèse 6. Tracer la courbe expérimentale F(xi) et déterminer la médiane. 7. Comparer les valeurs centrales (moyenne, mode, médiane). Si elles sont très peu différentes, on pourra supposer que la distribution est normale ou gaussienne. 8. Reporter les points (xi, F(xi)) sur un papier GAUSS. Si les fréquences expérimentales de non-dépassement suivent rigoureusement une loi normale, tous les points seront alignés (droite). 9. Ajustement graphique d'une droite sur l'ensemble des points. Veuillez à avoir une bonne répartition des points de part et d'autre de la droite. On peut ainsi déterminer n'importe quel quantile par lecture directe sur la droite. 10. Ajustement par le calcul d'une droite sur les points. Pour cela, il faut utiliser la moyenne et l'écart-type, puis calculer les coordonnées de deux points assez éloignés (généralement F = 0.05 et F = 0.95). 11. Choisir une loi parmi les 2 lois ajustées en allant dans le sens de la sécurité. 12. Déterminer l'intervalle de confiance et valider la loi utilisée : On démontre que, sur l'infinité des échantillons d'observations possibles, la valeur xi est distribuée selon une loi normale de paramètres :