Probabilités et statistiques appliquées à l’hydrologie Master « Mécanique appliquée au transport et à l’environnement »
Benjamin RENARD
[email protected]
Année 2004-2005
1
2
Sommaire
I. INTRODUCTION
5
II. STATISTIQUES DESCRIPTIVES
7
II.1. Quelques définitions
7
II.2. Comment résumer un échantillon ? II.2.1. Représentations graphiques d’un échantillon II.2.2. Les indicateurs de localisation II.2.3. Les indicateurs de dispersion II.2.4. Autres indicateurs
7 7 9 10 10
II.3. Etude de deux variables II.3.1. La régression linéaire II.3.2. Représentation fréquentielle d’un couple de variables
11 11 14
III. LE MODELE PROBABILISTE
16
III.1. Quelques rappels de théorie des ensembles
16
III.2. Premières définitions : probabilité et variables aléatoires.
16
III.3. Loi de probabilité d’une variable aléatoire III.3.1. Variable aléatoire discrète III.3.2. Généralisation au cas continu III.3.3. Quelques lois de probabilités classiques III.3.4. Quelques mots sur le cas multivarié
18 18 19 20 25
IV. STATISTIQUE INFERENTIELLE
28
IV.1. Retour sur la notion d’échantillon IV.1.1. La fluctuation d’échantillonnage IV.1.2. L’échantillon du point de vue probabiliste IV.1.3. Quelques théorèmes importants IV.1.4. Techniques de rééchantillonage
28 28 29 30 32
IV.2. L’estimation IV.2.1. Quelques définitions IV.2.2. Estimation par la méthode des moments IV.2.3. Estimation par maximum de vraisemblance
33 33 34 34
3
IV.2.4. Quel estimateur choisir ? IV.2.5. Intervalles de confiance
35 36
IV.3. Les tests statistiques IV.3.1. Le principe des tests statistiques IV.3.2. Quelques tests classiques
37 37 38
V. APPLICATIONS A L’ETUDE DES CRUES
42
V.1. Les données
42
V.2. L’échantillonnage V.2.1. Techniques d’échantillonnage V.2.2. Propriétés probabilistes des échantillons
44 44 46
V.3. Estimation des paramètres des distributions V.3.1. Formulaire des estimateurs V.3.2. Représentation graphique
48 49 49
V.4. Quantiles, périodes de retour et intervalles de confiance
52
VI. ANNEXES
56
4
I. Introduction
Ce fascicule présente les principaux résultats de probabilités et statistiques utilisés en hydrologie. Le cours fait partie de l’UE « cycle de l’eau et risque d’inondation» du Master professionnel « Mécanique appliquée au transport tra nsport et à l’environnement ». Il est décomposé en quatre parties : Dans la première partie, nous donnerons quelques résultats et techniques permettant de résumer ou d’extraire de l’information à partir d’un échantillon de données. L’ensemble de ces méthodes se rapporte au domaine des statistiques descriptives. La théorie des probabilités fournit un ensemble d’outils pour quantifier le hasard. Nous allons en fait étudier une version « allégée » de la théorie probabiliste, qui nécessite pour être abordée en toute rigueur des notions mathématiques assez sophistiquées. Ces deux premières parties seront ensuite utilisées conjointement dans le cadre de la statistique inférentielle, qui permet de quantifier l’influence du hasard dans les processus générateurs de données. Enfin, nous étudierons l’application de ces méthodes pour l’analyse fréquentielle des crues, qui constitue un des outils de base de l’hydrologue. Aucun prérequis particulier n’est nécessaire pour comprendre ce cours, les notions mathématiques utilisées devraient vous être plus ou moins familières. Les ouvrages et sites suivants constituent d’excellentes sources d’information : Saporta, G., 1990. Probabilités, Analyse de données et Statistiques. Editions Technip. Wonnacott, T.H. & Wonnacott, R.J., 1991. Statistique. Editions Economica.
Deux excellents sites : http://www.math-info.univ-paris5.fr/smel/ http://www.agro-montpellier.fr/cnam-lr/statnet/ Cours en ligne : http://www.hds.utc.fr/~ggovaert/sy02/documents/poly.pdf Statistiques descriptives : http://www.lsp.ups-tlse.fr/Besse/pub/sdm1.pdf
Bonne lecture !
5
6
II. Statistiques descriptives Dans cette partie, nous allons nous intéresser à la description d’un ensemble de données, en résumant l’information qu’il contient grâce à quelques grandeurs caractéristiques.
II.1. Quelques définitions Le plus simple est es t de considérer l’exemple suivant : on souhaite étudier é tudier la taille tai lle des Français. On dispose pour cela de valeurs observées sur 35 personnes, que nous noterons (x1 ,…,x35 ). Les ). Les Français constituent la population à laquelle on s’intéresse, via un échantillon d’effectif 35. 35. Chaque personne de cet échantillon est un individu, sur lequel on a mesuré la variable quantitative continue « taille ». Chacun de ces termes peut être utilisé dans toutes les situations que nous rencontrerons, il ne faut donc pas s’attacher à leur signification « démographique ». Ainsi, si on étudie la taille des gouttes d’eau à la sortie d’un mécanisme d’irrigation (http://afeid.montpellier.cemagref.fr/Montreal/Molle.PDF (http://afeid.montpellier.cemagref.fr/Montreal/Molle.PDF), ), alors l’ensemble des gouttes constitue notre population, celles ayant transité par l’appareil de mesure (un spectro pluviomètre optique) sont les individus de notre échantillon, échantil lon, sur lequel on a relevé rele vé la variable varia ble quantitative continue « diamètre de la goutte ». Remarque : la constitution d’un échantillon est la première étape de toute analyse statistique, c’est également une des plus importantes et parfois une des plus difficiles. Il faut en particulier s’assurer de la représentativité de l’échantillon, et rester attentif aux biais pouvant être « cachés » dans les données (la taille de la goutte est sûrement fonction de la distance à l’asperseur). Il est possible de mesurer différents types de variables sur les individus : Variables quantitatives continues, comme dans les exemples précédents. Il s’agit de variables dont les valeurs varient théoriquement de manière continue (entre deux valeurs, il en existe toujours une troisième possible). Dans la pratique, la continuité est souvent limitée par la précision des instruments de mesure. Variables quantitatives discrètes, dont les valeurs possibles sont discontinues (les données issues de comptage, par exemple). Variables qualitatives ordonnées, par exemple l’intensité d’une douleur : faible, moyenne, forte. Variables qualitatives non ordonnées, par exemple la couleur des cheveux de notre échantillon de 35 Français. Dans la suite de ce cours, nous nous intéresserons principalement aux variables quantitatives, continues ou non. Nous noterons (x1 ,…,xn ) ) les valeurs de telles variables observées sur un échantillon de taille n.
II.2. Comment résumer un échantillon ? II.2.1. Représentations graphiques d’un échantillon Il existe une infinité de façons de représenter représente r graphiquement un jeu de données : « camemberts », diagrammes en bâtons, courbes, nuages de point…. Tout dépend de la structure des données, mais également de l’information que l’on souhaite faire passer. Nous allons nous intéresser ici à deux représentations fondamentales pour les données quantitatives : l’histogramme et la courbe des fréquences cumulées. 7
L’histogramme consiste à représenter la fréquence (ou parfois l’effectif) de chaque valeur présente dans l’échantillon. Notre variable varia ble étant supposée ordonnée, il est possible de cumuler ces fréquences par ordre croissant des valeurs rencontrées : on peut ainsi tracer la courbe des fréquences cumulées, qui représente, à chaque abscisse, la proportion de valeurs de l’échantillon inférieures ou égales à cette abscisse. Ces deux représentations sont primordiales, car elles peuvent être reliées aux notions probabilistes de densité et de fonction de répartition, dont nous parlerons prochainement. Exemple 1 : Nombre de crues supérieures à 24.7 m 3.s-1 pour L’Ubaye à Barcelonnette. Ann Année 1990 990 19 1991 19 1992 1993 1994 994 1995 1995 1996 1996 1997 997 1998 998 1999 1999 2000 2000 2001 001 200 2002 2 2003 2003 Nb 1 1 3 1 5 2 1 3 3 5 0 3 5 2 Tableau 1. Tableau de données. Les individus sont ici des années, la variable « nombre de crues » est quantitative discrète. Calcul des effectifs, des fréquences et des fréquences cumulées : Valeur 0 1 2 3 4 5
Effectif 1 4 2 4 0 3
Fréquence 0.07 0.29 0.14 0.29 0.00 0.21
Fréq. cumulée 0.07 0.036 0. 036 0.5 0.79 0.79 1
Tableau 2. Effectifs, fréquences et fréquences cumulées. Histogramme des fréquences
Courbe des fréquences cumulées
0.35
1
0.3
e é l u m u c e c n e u q é r F
0.25
e c 0.2 n e u q 0.15 é r F 0.1
0.8 0.6 0.4 0.2
0.05
0 0
-1 0
1
2
3
4
5
1
3
5
Nombre de crues
Nombre de crues
Figure 1. Histogramme des fréquences
Figure 2. Courbe des fréquences cumulées.
Pour des données quantitatives continues, il y a de fortes chances pour que chaque valeur n’apparaisse qu’une seule fois. Ceci ne pose pas de problème pour le tracé de la courbe des fréquences cumulées, par contre un histogramme dont toutes les ordonnées seraient égales à 1 ne serait pas très informatif. Pour y remédier, on effectue un regroupement des individus en classes, ce qui revient à « discrétiser » notre variable continue. Le choix des classes reste arbitraire ; on essaiera en général de créer entre 5 et 15 classes de même étendue. Exemple 2 : Lors des 14 dernières crues de La Zorn à Waltenheim, les débits journaliers maximaux ont été de 28.9, 45.8, 67.6, 60.8, 53.6, 33.5, 49.9, 58.1, 35.9, 33.3, 28.4, 28.3, 49.5 et 25.9 m3.s-1. L’histogramme des fréquences pour des classes d’étendue 10 m3s-1, en partant de 25 m3s-1, a la forme suivante :
8
Histogramme des fréquences 0.45 0.4 0.35
e 0.3 c n e 0.25 u q 0.2 é r f 0.15 0.1 0.05 0 25-35
35-45
45-55
55-65
65-75
3 -1
Débit journalier maximal (m s )
Figure 3. Histogramme des fréquences. Notez la différence de représentation par rapport au précédent histogramme : on a représenté des rectangles pleins pour bien signifier qu’il s’agit de la fréquence d’une classe, et non d’une valeur ponctuelle discrète. Pour être tout à fait précis, seul ce dernier graphique est un histogramme, le terme de « diagramme en bâtons » est plutôt utilisé pour le cas discret.
II.2.2. Les indicateurs de localisation La moyenne, que nous noterons x .
=
1
n
∑
xi n i =1 La médiane : c’est la valeur qui sépare l’échantillon l’échantil lon ordonné en deux sous-parties sous-partie s de même effectif. Par exemple, la médiane des valeurs 10, 15, 18, 19, 20 vaut 18. Si le nombre de valeurs est pair, on calculera la demi-somme entre les deux valeurs du milieu, soit une médiane de 16.5 pour l’échantillon des quatre premières valeurs ci-dessus. La médiane peut également être lue sur la courbe des fréquences cumulées : c’est la valeur correspondant à une fréquence cumulée de 0.5. L’exemple classique pour bien comprendre la différence entre ces deux indicateurs est le salaire des Français : la moyenne vaut environ 1750 €, la médiane 1400 €… (salaires nets en 2001 dans le secteur privé, source INSEE). Un troisième indicateur est parfois utilisé, surtout pour les données discrètes, il s’agit du mode, qui est la valeur (pas forcément unique) la plus fréquente dans l’échantillon. Pour des données quantitatives continues, il faut (comme pour l’histogramme) procéder à un regroupement des individus. L’inconvénient est que le mode devient dépendant du regroupement arbitraire effectué. Il est également fréquent de s’intéresser aux valeurs extrêmes d’un échantillon. On utilisera pour cela le quantile d’ordre p, qui est la valeur de l’échantillon dont la fréquence cumulée vaut p. p. Le quantile peut donc être lu sur la courbe des fréquences cumulées, en faisant éventuellement une interpolation linéaire entre deux points. La médiane est ainsi le quantile d’ordre 0.5. Exemple 3 : Pour les données de l’Exemple 1, la moyenne moyenne vaut 2.5, la médiane 2 et les modes (distribution bimodale) 2 et 4. Pour l’Exemple 2, le quantile d’ordre 0.9 peut se déduire de la figure ci-après. On trouve environ 60 m 3s-1.
9
Courbe Courbe des fréquences cumulées 1.00 0.90
e 0.80 é l u 0.70 m u 0.60 c e 0.50 c 0.40 n e u 0.30 q é r 0.20 f 0.10 0.00 20
30
40
50
60
70
80
Débit ( m 3s -1)
Figure 4. Courbe des fréquences cumulées
II.2.3. Les indicateurs de dispersion La variance permet de mesurer la façon dont les données se dispersent autour de la moyenne : 2 1 n Var = xi − x n − 1 i =1
∑(
)
On trouve parfois (notamment dans les calculettes ou les tableurs type Excel) une autre définition, qui n’est pas recommandée pour les petits échantillons : 2 1 n * Var = xi − x n i =1
∑(
)
Ces deux définitions deviennent équivalentes lorsque n est grand. Nous verrons ultérieurement la raison pour laquelle ces deux définitions coexistent. On définit également l’écart-type, qui a l’avantage d’avoir la même dimension que les données : σ = Var
=
1
n
∑(
n − 1 i =1
xi
− x)
2
Le coefficient de variation est également utilisé pour comparer la variabilité de plusieurs séries de données dont les ordres de grandeurs ne sont pas comparables : CV =σ . x Il n’est évidemment pas défini pour les données dont la moyenne est nulle.
II.2.4. Autres indicateurs Le moment d’ordre k est est défini de la manière suivante : n k 1 mk = xi n i =1
∑
Pour k=1, k=1, on reconnaît la moyenne. Les moments n’ont pas de signification aussi claire que les autres indicateurs, mais ils seront centraux lorsque nous nous intéresserons à la théorie de l’estimation. On définit de même le moment centré d’ordre k : :
10
mk'
=
1
n
∑ (x n =
i
− x )k
i 1
On peut déduire de ces moments centrés deux indicateurs relatifs à la forme de l’histogramme : Asymétrie β 1
=
m3' σ 3
Applatissement β 2
=
m4' σ 4
II.3. Etude de deux variables Plaçons-nous dans la situation suivante : sur un échantillon, nous avons mesuré deux variables quantitatives, que nous noterons X et Y. Nous obtenons donc deux séries de valeurs x =(x1 ,…,xn ) et y=(y1 ,…,yn ). ). Remarquez les notations, que nous conserverons tout au long du cours : les variables (que nous appellerons plus tard variables aléatoires) sont en majuscules, les observations de ces variables sur l’échantillon en minuscule (gras pour une notation vectorielle). Les deux séries peuvent bien sûr être décrites indépendamment l’une de l’autre, comme expliqué au paragraphe II.2, mais nous allons ici nous intéresser à la liaison qui peut exister entre ces variables.
II.3.1. La régression linéaire Exemple 4 : Sur un échantillon de 10 petits cours d’eau, on a calculé la superficie du bassin versant (X) ainsi que la crue décennale (Y) : BV 1 2 3 4 5 6 7 8 9 10
Superficie 16.2 21.4 38.7 42.3 55.8 62.1 64 68 73 94
Q10 5.77 5.37 7.29 12.66 11.09 25.31 20.18 39.27 39.59 28.30
Tableau 3. Tableau de données. La manière la plus simple de représenter ces données est de projeter les couples (xi,yi) dans le plan : on obtient ainsi un nuage de points.
11
Nuage de points (x i, yi) 45 40 35 30 0 1 25
Q : y 20 15 10 5 0 0
20
40
60
80
100
x: Superficie (km²)
Figure 5. Nuage de points. A la vue de ce graphique, il apparaît que les deux variables ont tendance à évoluer conjointement : les « grands » bassins versants ont des crues décennales plus importantes. C’est cette co-évolution que nous allons tenter d’étudier. Commençons par définir la covariance entre x et et y : n 1 Cov ( x, y ) = ( xi − x )( yi − y ) n − 1 i =1
∑
Cette quantité mesure la manière avec laquelle X et Y varient « ensemble ». Comme pour la variance, on trouve parfois une définition alternative avec 1/n. 1/n. Le coefficient de corrélation linéaire est directement dérivé de la covariance : Cov ( x, y ) r = σ xσ y Il s’agit d’un coefficient adimensionnel, compris entre –1 et 1 : une valeur absolue proche de 1 sera la signature de deux variables liées linéairement, une valeur proche de zéro signifiera l’absence de relation linéaire. Il est important de noter que ceci n’interdit pas que les variables soient liées par un autre type de relation (polynomiale, sinusoïdale, …). Pour notre exemple ci-dessus, nous avons les valeurs suivantes : σ x = 24
= 13.17 Cov ( x , y ) = 255.01 r = 0.81
σ y
Ces chiffres confirment la liaison entre les variables. Nous pouvons essayer d’aller plus loin, en cherchant la droite la plus pertinente qui s’ajusterait au nuage de point, c’est en dire en évaluant une relation du type Y=aX+b. Y=aX+b . Evidemment cette relation ne peut pas être parfaite (tous les points ne sont pas alignés), nous introduisons donc des termes d’erreurs, ce qui nous donne la relation : yi
= axi + b + ei ∀i = 1,..., n
Une « bonne » droite permettrait de minimiser ces erreurs. Nous allons donc définir un critère, dit des moindres carrés, construit à partir de la somme des carrés des erreurs :
12
n
S
= ∑ ei2 i =1
Il s’agit donc à présent de trouver les valeurs de a et b minimisant S . Exercice : 1/ Exprimer S en en fonction de a et b. 2/ Calculer les valeurs de a et b minimisant S , que l’on notera aˆ et bˆ . 3/ Vérifier qu’avec ces valeurs, la somme (et donc la moyenne) des erreurs est nulle. ˆ i + bˆ est la valeur du débit 4/ Démontrer que Var ( y ) = Var ( yˆ ) + Var (e ) , où yˆi = ax décennal estimée par notre modèle. 5/ On définit un critère pour mesurer la qualité de notre modèle, égal à c = 1 −
Var (e ) Var ( y )
.
Interprétez cet indicateur, et démontrer que c=r². La droite de régression dite des moindres carrés est donc définie par les paramètres aˆ et bˆ suivants : aˆ =
Cov( X , Y ) Var ( X )
= r
σ Y
σ X
bˆ = y − aˆx La qualité de cet ajustement est mesurée par r² (qui (qui varie dans [0,1]), qui mesure la part de variance expliquée par notre modèle linéaire. Voici l’ajustement pour les données précédentes :
45 40
y = 0.4426x - 4.2203 2
35
R = 0.651
30 0 1
Q
25 20 15 10 5 0 0
20
40
60
80
100
Superficie (km²)
Figure 6. Ajustement de la droite de regression. La démarche présentée dans ce cadre de recherche de relation linéaire entre variables peut être généralisée à toute forme de dépendance du type Y=f(X) : fonction f Choix d’une fonction f Calcul des paramètres optimaux de cette fonction, au sens d’un certain critère (moindres carrés, par exemple) Var (e ) Evaluation de la qualité de l’ajustement, par un indicateur du type 1 − (qui Var ( y ) n’est plus égal à r² si f si f n’est n’est pas affine)
13
Evidemment, la plupart des calculs se compliquent par rapport au cas linéaire, le recours à des méthodes d’optimisation numérique est souvent indispensable. Une autre extension de la méthode consiste à intégrer plusieurs variables pour en « expliquer » une autre : dans le cas précédent, il pourrait ainsi être bénéfique d’intégrer la pluviométrie ou la nature et l’occupation du sol pour améliorer l’explication du débit décennal. En guise d’exemple, la méthode dite CRUPEDIX est présentée en annexe, il s’agit d’une régression non linéaire multiple visant à estimer le débit décennal sur des sites non jaugés.
II.3.2. Représentation fréquentielle d’un couple de variables Nous allons al lons à présent généraliser la notion d’histogramme au cas c as de deux variables, et en profiter pour proposer quelques définitions. Nous nous appuierons sur un exemple utilisant des données quantitatives discrètes disc rètes ; pour des données continues, le même type de représentation est possible moyennant un regroupement des couples de valeurs en classes. Exemple 5 : 5 : On se propose d’étudier le nombre annuel de crues entre les années 1958 et 2002 pour deux stations S 1 et S2. Le tableau de données est de la forme suivante :
Année 1958 1959 … 2002
N1=Nombre de N2=Nombre de crues en S1 crues en S2 2 1 1 3 … … 0 4
Tableau 4. Tableau de données. Il est fréquent de représenter ce type de données bivariées par un tableau de contingence, qui permet de dénombrer l’effectif ou la fréquence de chaque couple de valeurs possible. Notre tableau de contingence (en fréquence) est ici le suivant : N1 N2 0 1 2 3 4 5 6 cumul
0
1
2
3
4
5
6
cumul
0.044 0.044
0.02 0.022 2
0.044 0.044
0.022 0.022
0.022 0.022
0.000 0.000
0.000 0.000
0.156 0.156
0.044
0.067
0.02 0.022 2
0.022 0.022
0.02 0.022 2
0.00 0.000 0
0.00 0.000 0
0.17 0.178 8
0.044 0.044
0.08 0.089 9
0.111 0.111
0.000 0.000
0.000 0.000
0.000 0.000
0.000 0.000
0.244 0.244
0.000 0.000
0.00 0.000 0
0.067 0.067
0.022 0.022
0.044 0.044
0.000 0.000
0.000 0.000
0.133 0.133
0.022 0.022
0.04 0.044 4
0.022 0.022
0.044 0.044
0.044 0.044
0.000 0.000
0.000 0.000
0.178 0.178
0.000 0.000
0.02 0.022 2
0.000 0.000
0.044 0.044
0.000 0.000
0.000 0.000
0.022 0.022
0.089 0.089
0.000 0.000
0.02 0.022 2
0.000 0.000
0.000 0.000
0.000 0.000
0.000 0.000
0.000 0.000
0.022 0.022
0.156 0.156
0.26 0.267 7
0.267 0.267
0.156 0.156
0.133 0.133
0.000 0.000
0.022 0.022
1.000 1.000
Tableau 5. Tableau de contingence. Ce tableau se lit de la manière suivante: la cellule grisée nous informe que pour 2.2% des années étudiées, on a observé 2 crues en S 1 et 1 crue en S 2. La dernière colonne représente les cumuls de fréquence par ligne, de même pour la dernière ligne. Enfin, la dernière case en bas à droite est le « cumul des cumuls », qui vaut heureusement 1. Le tableau équivalent en effectif peut se déduire aisément en multipliant chaque case par l’effectif de l’échantillon (ici, 45 années). Intéressons-nous à une ligne particulière, la première par exemple. Y figurent les fréquences associées aux différentes valeurs de N1, dans le cas particulier où N 2=0. Nous
14
pouvons identifier identif ier cette première ligne à la distribution conditionnelle de N1, sachant que N2=0. Cette identification est abusive, il faudrait en fait diviser toutes les valeurs par le cumul de leur fréquence (0.156), qui représente la fréquence de la valeur 0 pour N2, en considérant toutes les associations possibles avec N1. En raisonnant de même ligne par ligne, on voit que la dernière colonne représente les fréquences des différentes valeurs prises par N2, compte tenu des différentes associations observées avec N1 : nous parlerons de la distribution marginale de la variable N2. De même, la dernière ligne est la distribution marginale de N 1. Le tableau de contingence représente quant à lui la distribution jointe des variables N1 et N2. Il est possible de représenter cette distribution par un histogramme en trois dimensions :
0.12
0.1
0.08
e c n e u q é r F
0.06
0.04
0.02
0
0 1 2
6 5
3
Nombre de crues en S 2
4 4
3 5
2 1
6
Nombre de crues en S
1
0
Figure 7. Histogramme multidimensionnel. Dans la figure ci-dessus, l’histogramme représenté en noir est proportionnel à la distribution de N2, conditionnellement à N1=0.
15
III. Le modèle probabiliste Nous avons exposé dans le chapitre précédent un certain nombre de méthodes permettant de décrire une série d’observations et d’en extraire de l’information. La théorie des probabilités fournit un cadre pour représenter de manière plus abstraite le comportement de variables « génératrices » de données. La puissance de cette théorie tient à sa généralité, mais en contrepartie, c ontrepartie, la définition même du terme « probabilité » fait fai t appel à des notions mathématiques trop élaborées pour être présentées dans ce cours. Nous allons donc étudier une version « allégée » de la théorie probabiliste, qui sera cependant valable dans l’immense majorité des cas que vous rencontrerez.
III.1. Quelques rappels de théorie des ensembles Sans entrer dans le détail, nous définirons un ensemble E comme comme une collection d’objets bien définis. Ci-après figurent quelques définitions et notations qui nous seront utiles par la suite : l'élément x appartient à E à E . x ∈ E signifie que l'élément x ∅ est l'ensemble vide. l’ensemble A est est inclus dans E dans E : ∈ A ⇒ x ∈ E . A ⊂ E signifie que l’ensemble A ensembles A et et B B.. ∈ A ∪ B ⇔ x ∈ A ou x ∈ B . A ∪ B est la réunion des ensembles A A ∩ B est l’intersection des ensembles A ensembles A et et B B.. ∈ A ∩ B ⇔ x ∈ A et x ∈ B . ensembles A et et B B sont sont disjoints. Si A ∩ B = ∅ on dit que les ensembles A A et B forment B forment une partition de l’ensemble Si A ∩ B = ∅ et A ∪ B = E , on dit que A et E . De même si Ai
∩ A j = ∅ ∀i ≠
j et U Ai
= E .
i
ð A ou A ou A est le complémentaire de A de A.. x ∈ Ac ⇔ x ∉ A . ℘( E ) est l’ensemble des parties de E , c’est à dire l’ensemble de tous les sousensembles de E de E . A ∈℘( E ) ⇔ A ⊂ E . c
AΙ B
A
B
A
AΥ B
A
B
A
Figure 8. Réunion, intersection et complémentaire.
III.2. Premières définitions : probabilité et variables aléatoires. Une probabilité sur un ensemble propriétés suivantes :
Ω
est une fonction P :℘(Ω) a ¡ qui vérif rifie les tro trois
16
P ( A) ≥ 0, ∀A ⊂ Ω P (Ω) = 1
Soit (A ) ) i une suite de sous-ensembles de
Ai
∩ A j = ∅, ∀i ≠
∞
j . Alors P (U Ai ) = i =1
Ω deux
à deux disjoints, c’est à dire
∞
∑= P( A ) i
i 1
Ces trois axiomes conduisent aux propriétés suivantes : P ( A) ∈ [0, 1], ∀A ⊂ Ω P ( ∅ ∅ ) = 0 A ⊂ B ⇒ P ( A) ≤ P ( B )
P ( Ac ) = 1 − P ( A) P ( A ∪ B ) = P ( A) + P (B ) − P (A ∩ B )
Traduction intuitive : Supposons que nous ayons réalisé réa lisé une expérience aléatoire, ou effectué des mesures sur un ensemble d’individus. Ω représente l’ensemble des issues possibles de l’expérience, il est appelé univers ou ensemble fondamental. Un sous-ensemble de A de Ω est appelé un événement. Une probabilité est ainsi une fonction permettant de mesurer la « vraisemblance » d’un événement. Remarque : la définition donnée ci-dessus est abusive, abusive , car il peut exister (cas pathologiques) des sous-ensembles de Ω pour lesquels la probabilité n’est pas définie. Il faut alors définir en ensemble d’évènements mesurables, ce qui requiert des outils mathématiques trop sophistiqués pour être évoqués dans ce cours. Une variable aléatoire réelle est une fonction X : Ω a ¡ . Elle Elle perm permet et de trad tradu uire ire un un événement en nombre réel. Supposons par exemple que nous lancions deux dés, et que nous nous intéressions à la somme des deux faces observées. L’ensemble Ω est ici égal à l’ensemble des couples (a, b), b), où a et b sont des entiers entre 1 et 6. X sera la fonction somme : X : (1,...,6) ,...,6) × (1,...,6) ,...,6) a ¡ ( a, b) a a + b Ainsi, l’événement « la somme s omme des deux dés vaut 4 » sera noté X=4. X=4. Il s’agit d’une notation simplifiée, car en toute rigueur, nous nous intéressons à l’ensemble des couples (a, b) pour lesquels a+b=4, a+b=4 , soit X -1({4})={(1, 3), (3, 1), (2, 2)}. De même X<6 représentera l’événement « La somme des deux dés est strictement inférieure à 6 ». Il est possible de mesurer la probabilité de tels évènements, que nous noterons P(X=4) ou P(X<6). P(X<6). On voit dans ce cas que X que X ne ne prend prend pas ses valeurs valeurs dans ¡ tout entier, entier, mais mais seulement seulement dans un un soussousensembl ensemblee de ¥ : il s’ag s’agit it d’un d’unee variable aléatoire discrète. En des termes plus intuitifs, la variable aléatoire X aléatoire X représente représente tout simplement la variable que nous souhaitons étudier. Etant donné que cette variable est fréquemment mesurée sur des individus, sa définition est en général très naturelle, comme par exemple « Nombre de crues observées en une année » pour l’Exemple 1. Il est es t par contre important de bien faire la différence entre des observations (x1 ,…,xn ), ), qui sont des valeurs numériques mesurées, et la variable aléatoire X aléatoire X qui qui génère ces données, qui est un objet abstrait.
17
III.3. Loi de probabilité d’une variable aléatoire III.3.1. Variable aléatoire discrète Soit X une variable aléatoire discrète, à valeurs dans un ensemble dénombrable ordonné { xi , i ∈ ¥ } .
La
f ( xi ) = P( X
= xi ), ∀i ∈ ¥
loi
de
probabilité
de
X
est
la
donnée
des
quantités
. Cette loi de probabi probabilité lité peut être décrite décrite par un diagramme diagramme en
bâtons :
f ( xi) x1 x 2 x3 x4 x5 Figure 9. Loi de probabilité discrète. Il existe évidemment une analogie entre cette représentation est celle présentée au précédent chapitre, où nous avions reporté les fréquences observées en ordonnées : nous aurons l’occasion de revenir à plusieurs reprises sur cette analogie fréquence / probabilité. Nous définissons également la fonction de répartition F de la variable aléatoire X aléatoire X de de la manière suivante : F ( xi ) = P ( X
≤ xi ) .
F ( x xi) 1
0
x1 x 2 x3 x4 x5 Figure 10. Fonction de répartition discrète. Il est aisé de démontré la relation suivante (à faire en exercice) : F ( xi ) =
i
∑= f ( x ) . En k
k 0
corollaire, F corollaire, F est est une fonction croissante, qui part de 0 et tend vers 1 en l’infini. De ces deux définitions découlent quelques grandeurs caractéristiques de la variable aléatoire X aléatoire X (notez (notez encore une fois l’analogie avec le chapitre précédent) :
L’espérance, E ( X ) =
∞
∑= x
i
f ( xi )
i 0
La variance, Var ( X ) =
∞
∑= ( x
i
− E ( X ))² f ( xi
) , et l’écart type σ ( X ) = Var ( X )
i 0
18
∞
Les moments d’ordre k , µ k
k=1, on reconnaît l’espérance. = ∑ xik f ( xi ) . Si k=1, i =0
Les moments centrés d’ordre k ,
µ k'
∞
k=2, on reconnaît = ∑ ( xi − E ( X ))k f ( xi ) . Si k=2, i =0
la variance.
d’ordre p, noté x Le quantile d’ordre p noté x p , qui , qui vérifie F ( x p ) = p ( ⇔ x p
= F −1 ( p ))
Remarque : Les quantités faisant intervenir des sommes infinies peuvent ne pas exister.
III.3.2. Généralisation au cas continu Nous allons commencer cette fois ci par définir la loi de probabilité d’une variable aléatoire continue X comme la donnée d’une fonction de répartition F , telle que F ( x ) = P ( X ≤ x ), ∀x ∈ ¡ . La densité de probabilité de X de X sera sera alors la fonction f fonction f telle telle que : x
F ( x ) =
termes, f est est la dérivée de la fonction de répartition F répartition F . ∫−∞ f (t )dt . En d’autres termes, f
f
F (a)
x F 1
x
a
Figure 11. Densité et fonction de répartion continues. b
Propriété : si f si f eest continue, alors P (a < X
≤ b ) = ∫ f (t )dt = F (b ) − F (a ) . a
Dans le cas continu, on voit ainsi apparaître une analogie entre la probabilité d’un événement et l’aire sous la courbe de la densité. Cette analogie implique en particulier que
= x0 ) = 0, ∀x0 ∈ R . C’est la raison pour laquelle il n’est pas possible de définir la loi de probabilité directement directe ment à partir des probabilités des éléments de Ω, ce qui conduit à raisonner P ( X
19
sur des intervalles. On remarque encore une fois l’analogie avec les histogrammes dans le cas continu du chapitre précédent, où nous étions obligés de procéder à des regroupements. A partir de la densité de probabilité, il est possible de définir les mêmes grandeurs caractéristiques que dans le cas discret, en remplaçant les sommes par des intégrales : +∞
L’espérance, E (X ) =
∫∞ xf (x)dx
-
+∞
La variance, Var( X ) =
∫ ( x − E ( X ))
2
f (x )dx , et l’écart type σ ( X ) = Var ( X )
-∞
+∞
Les moments d’ordre k , µ k =
∫∞ x
k
k=1, on reconnaît l’espérance. f (x)dx . Si k=1,
-
+∞
Les moments centrés d’ordre k , µ 'k =
∫∞ ( x − E ( X ))
k
k=2, on f (x )dx . Si k=2,
-
reconnaît la variance.
d’ordre p, noté x Le quantile d’ordre p noté x p , qui , qui vérifie F ( x p ) = p ( ⇔ x p
= F −1 ( p ))
Remarque : Encore une fois, rien ne garantit l’existence des intégrales infinies. De plus, certaines lois ne sont pas définies sur R tout R tout entier, ces intégrales doivent alors être réduites aux supports de ces lois.
III.3.3. Quelques lois de probabilités classiques Nous donnons ci-dessous quelques lois de probabilités qui sont régulièrement utilisées, notamment en hydrologie. Ces lois dépendent d’un certain nombre de paramètres afin de pouvoir s’adapter à une plus grande variété de situations. A. Lois discrètes Loi de Bernoulli Be(p) : utilisée pour des variables aléatoires binaires, de type succèséchec ou présence-absence, qui prendront donc pour valeurs 0 ou 1. P ( X = 1) = p, P ( X = 0) = 1− p. E ( X ) = p Var ( X ) = p (1 − p ) Loi binomiale B(n, p) : Si l’on répète n fois indépendamment une épreuve de type Bernoulli, alors la variable aléatoire X aléatoire X mesurant mesurant le nombre de succès suit une loi binomiale : P ( X
= k ) = Cnk p k (1 − p ) n−k ,
avec C nk =
n! k !(n − k ) !
E ( X ) = np Var ( X ) = np (1 − p )
20
B(10, 0.2) 0.35 0.3 0.25
) k 0.2 = X ( 0.15 P 0.1
0.05 0 0
1
2
3
4
5
6
7
8
9
10
k Figure 12. Loi binomiale. Loi de Poisson P( Poisson P( µ µ ) : ) : cette loi est fréquemment utilisée pour décrire des données issues de comptages d’évènements rares (processus d’occurrences de crues, par exemple), et respectant quelques propriétés supplémentaires (stationnarité, indépendance, absence de regroupements). P (X = k ) = e
k
− µ µ
k !
E ( X ) = µ Var ( X ) = µ
Poisson(2) 0.3 0.25
) 0.2 k = 0.15 X ( P 0.1 0.05 0 0
1
2
3
4
5
6
7
8
9
10
k Figure 13. Loi de Poisson.
21
B. Lois continues Loi uniforme U(a, b) : 1 si x ∈ [a, b] f ( x ) = b − a 0 sinon E ( X ) =
a+b
Var ( X ) =
2 (b − a )² 12
U(0,1) 1.2 1 0.8
) x 0.6 ( f 0.4 0.2 0 -1
- 0.5
0
0.5
1
1.5
2
x Figure 14. Loi uniforme. Loi de Gauss ou loi Normale N( µ µ , σ ) ) : Cette loi est centrale en statistiques, puisqu’un grand nombre de phénomènes ont un comportement approximativement Gaussien. De plus, un théorème que nous verrons ultérieurement affirme qu’une somme de variables aléatoires tend (presque) toujours en distribution vers une loi normale. Par exemple, un débit moyen annuel pourra être supposé gaussien. 1 1 f (x ) = exp − [( x − µ ) / σ ]2 σ 2π 2 E ( X ) = µ Var ( X ) = σ 2
22
Loi Norma Normale le 0.9 0.8 0.7 0.6 N(0,1)
0.5
) x 0.4 ( f
N(0,0.5)
0.3
N(1,1)
0.2 0.1 0 -0.1 - 3
-1
1
3
x
Figure 15. Loi Normale. Loi exponentielle Exp(x0 , λ ) ) : en hydrologie, cette loi est utilisée pour modéliser les valeurs de dépassement d’un seuil, ou le temps d’attente entre deux évènements de crue.
1 − x− x λ si x > x0 f ( x) = λ e 0 sinon E ( X ) = x0 + λ 0
Var ( X ) = λ 2
Exp(0,1) 1.2 1 0.8
) x 0.6 ( f 0.4 0.2 0 0
1
2
3
4
5
x Figure 16. Loi exponentielle. La loi de Gumbel Gu( µ µ , λ ) : ) : c’est également une loi très utilisée en hydrologie, puisqu’il s’agit d’une des trois distributions suivies par le maximum d’une suite de variables. Le débit maximum annuel est souvent décrit par cette loi.
23
f ( x ) = µ
> 0,
1
exp −
λ
x − µ λ
x − µ − exp − λ
λ > 0
E ( X ) = µ + γλ , avec γ = 0.5772 (constante d'Euler-Mascheroni) Var ( X ) =
π ²
λ ² 6 La loi généralisée des valeurs extrêmes GEV( µ µ , λ , ξ ) généralise ) généralise la loi de Gumbel : 1 1 ξ ( x − µ ) ξ ξ ( x − µ ) ξ f ( x ) = 1 − exp − 1 − λ λ λ ξ ( x − µ ) µ > 0, λ > 0, ξ ≠ 0, 1 − >0 1
−1
λ
E ( X ) = µ +
λ ξ
(1 − Γ (ξ + 1)) 2
λ Var ( X ) = ( Γ ( 2ξ + 1) − Γ ²(ξ + 1) ) ξ +∞
Γ(t) =
∫ x − e− dx est la fonction gamma. t 1
x
0
Pour ξ = = 0 , on retrouve la loi de Gumbel. Si ξ < < 0 , on obtient la loi de Fréchet, et si ξ > > 0 , la loi de Weibull. 0.018
0.016
0.014
Gu(100, 25) GEV(100, 25, -0.5)
0.012
0.01
) x ( f 0.008
0.006
0.004
0.002
0 0
50
100
150
200
250
300
x
Figure 17. Loi généralisée des valeurs extrêmes.
24
Les trois lois suivantes sont très souvent utilisées en statistiques, notamment pour effectuer des tests d’hypothèses. La loi du « chi-deu chi-deux x », χ ²( n) : c’est la loi suivie par la somme des carrés de n variables gaussiennes N(0,1). gaussiennes N(0,1). n
f ( x ) =
x 2
−1 −
e
x 2
n
2 2 Γ( n / 2) E ( X ) = n Var ( X ) = 2n La
loi
de
n
t(n) :
C’est
la
loi
suivie
par
la
variable
U
, où X / n U : N (0,1 (0,1)) et X : χ ²(n ) , avec U et X et X indépendantes. indépendantes. Cette loi est principalement utilisée via la table de sa fonction de répartition (voir annexe 2). E (t (n)) = 0 si n > 1 Var (t (n)) =
Student
si n > 2
n−2
La loi de Fisher F(n1 ,n2 ) : C’est la loi suivie par la variable
X / n1 Y / n2
, où X et Y suivent
indépendamment des χ ²(n1 ) et χ ²(n2 ) . Cette loi est également tabulée. E ( F (n1 , n2 )) =
n2 n2
−2
Var ( F ( n1 , n2 )) = 2
n22 n1
+ n2 − 2 n1 (n2 − 2)²(n2 − 4) n1
III.3.4. Quelques mots sur le cas multivarié Nous allons nous limiter à aborder quelques aspects concernant concer nant la loi jointe d’un couple de deux variables. Supposons donc que nous étudions une variable aléatoire Z=(X,Y ) à valeurs dans ¡ ² . La fonction de répartition jointe est définie par jointe du couple (X,Y) H ( x, y ) = P({ X ≤ x} ∩ {Y ≤ y}) . Il est possible de définir les fonctions de répartition marginales par F ( x ) = P ( X ≤ x ) = H ( x, ∞ ) et G ( y ) = P (Y ≤ y ) = H (∞ , y ) . Comme dans le cas univarié, la densité de probabilité jointe jointe est égale à la dérivée de la fonction de ∂ ² H ( x, y ) répartition : h( x, y ) = . Enfin, les densités marginales s’obtiennent par ∂ x∂y
∫
∫
¡
¡
f ( x) = h( x, y ) dy et g ( y ) = h ( x, y) dx . La covariance entre covariance entre deux vecteurs aléatoires X aléatoires X et et Y est est définie par : Cov ( X , Y ) = E ( ( X − E ( X ))(Y − E (Y )) )
= ∫∫ ( x − E ( X ))( y − E (Y ))h (x , y )dxdy ¡ ²
Exemple 6 : la loi normale de dimension 2.
25
La dens densit itéé d’un d’un vect vecteu eurr aléa aléato toir iree z = ( x , y ) suivant une loi binormale de paramètres
v1 c
est la suivante : v2 1 1 exp − ( z - µ)t Σ −1 ( z - µ) . h( x, y ) = h( z ) = 1/2 2π (det Σ) 2
µ = ( µ1 , µ 2 ) et Σ =
c
La matrice Σ est la matrice des variances-covariances. On peut alors démontrer que les lois marginales sont également gaussiennes, de moyennes respectives µ 1 et µ 2 ,et de variances v1 et v2. c est la covariance des deux lois marginales. La figure suivante permet de visualiser la loi jointe (vue de dessus) et les lois marginales de X de X (trait (trait plein) et de Y (pointillés). (pointillés).
Figure 18. Loi normale de dimension 2. Une notion capitale en statistiques et probabilités est la notion d’indépendance d’indépendance entre entre deux variables aléatoires X aléatoires X et et Y :
26
X et Y sont indépendantes
⇔ H ( x, y ) = F ( x )G ( y ) ⇔ h( x, y ) = f ( x) g ( y ) (si ces densités existent)
En d’autres termes, la distribution jointe doit être le produit des distributions marginales. Si X et Y sont indépendantes, il suffit donc de connaître les distributions de X et de Y pour obtenir la loi jointe du couple. De manière plus intuitive, ceci signifie que les variables X variables X et et Y n’influent pas l’une sur l’autre, et donc que la connaissance de la valeur prise par Y ne ne change en rien la loi de probabilité de X de X . Quelques relations utiles Les formules ci après peuvent être démontrées à titre d’exercice. Soit Soit a une a une constante E ( a ) = a E ( aX ) = aE ( X ) E ( X + a ) = E ( X ) + a E ( X + Y ) = E ( X ) + E (Y ) X et Y indépendants ⇒ E ( XY ) = E ( X )E (Y ) Var ( X ) = E ( X ²) − (E ( X )) ² Var ( X + a ) = Var ( X ) Var ( X ) Var ( aX ) = a ²Va Var ( X + Y ) = Var ( X ) + Var (Y ) + 2Cov ( X ,Y ) Cov ( X , Y ) = E ( XY XY ) − E ( X )E (Y ) X et Y indépendants ⇒ Cov ( X , Y ) = 0 (réciproque fausse) X et Y indépendants ⇒ Var ( X + Y ) = Var ( X ) + Var (Y ) (réciproque fausse)
27
IV. Statistique inférentielle Les deux chapitres précédents nous ont permis de nous familiariser avec les notions les plus importantes de statistiques descriptives et de probabilités, qui peuvent être abordées indépendamment. Dans ce chapitre, nous allons nous efforcer de relier ces deux domaines, en utilisant la théorie des probabilités pour quantifier plus efficacement les caractéristiques d’un échantillon, en intégrant des notions comme le « risque », la « confiance », la « décision », etc… Dans la pratique, la statistique inférentielle est certainement l’outil le plus utilisé pour assister des décisions dans un contexte où le hasard intervient.
IV.1. Retour sur la notion d’échantillon IV.1.1. La fluctuation d’échantillonnage Reprenons l’exemple concernant la taille des Français, que nous avions évaluée sur un échantillon de 35 individus. Admettons que la moyenne x de cet échantillon vaille 1.81 m. m. Peut-on alors affirmer que les Français mesurent en moyenne 1.81 m ? m ? En d’autres termes, la caractéristique mesurée sur l’échantillon peut-elle être considérée comme valable pour la population entière ? La statistique inférentielle a justement pour but de quantifier, en termes de risque ou de confiance, la transmission d’une caractéristique (ici, la moyenne), entre un échantillon et sa population parente. Pour tenter de répondre à cette question, nous décidons de répéter l’expérience, mais sur 35 autres individus. Nous obtenons alors une moyenne
(1)
= 1.70 m . Evidemment, cette valeur
est différente de celle mesurée sur le premier échantillon. Nous répétons encore l’expérience un certain nombre de fois, et nous obtenons des valeurs moyennes x( 2) ,..., x( k ) . Nous pouvons alors tracer l’histogramme de ces moyennes, et y replacer notre valeur initiale x
= 1.81 m
Figure 19. Illustration de la fluctuation d'échantillonnage.
28
Nous voyons apparaître une distribution liée aux moyennes empiriques calculées sur différents échantillons. Cette nouvelle source de variabilité sera appelée la fluctuation d’échantillonnage, d’échantillonnage, elle est due au fait que notre échantillon n’est pas notre population, et donc que sa représentativité n’est pas absolue. Notons que le même raisonnement vaut pour la variance, ou la médiane, ou toute autre caractéristique de l’échantillon. Pour remédier à ce problème, on peut envisager trois solutions : Echantillonner la population entière : c’est parfois ce qui est fait (le recensement, par exemple), mais dans la plupart des cas, ceci est beaucoup trop coûteux voire impossible (populations infinies). Faire comme dans l’exemple, c’est à dire répéter l’expérience un certain nombre de fois afin d’avoir accès à cette fluctuation d’échantillonnage. Ceci est bien souvent impossible pour diverses raisons (coût en temps ou en argent, mais pas seulement : difficulté de répéter à l’identique une expérience en deux endroits ou deux instants différents). Une alternative consiste à utiliser une technique de rééchantillonnage, que nous aborderons ultérieurement. Se donner un cadre théorique probabiliste permettant de déduire le comportement de caractéristiques caractéristi ques affectées par cette fluctuation d’échantillonnage d’échanti llonnage : c’est cette approche que nous allons détailler maintenant.
IV.1.2. L’échantillon du point de vue probabiliste Soit ( x1 , ..., xn ) un échantillon. Nous allons considérer chaque valeur xi de l’échantillon comme une réalisation d’une parente X i. Plus précisément, nous supposons réalisation d’une variable aléatoire parente X que tous les X les X i sont mutuellement indépendants, et qu’ils ont la même loi de probabilité. Nous parlerons d’échantillons iid pour indépendants et identiquement distribués. distribués . Ainsi, l’échantillon ( x1 , ..., xn ) peut être vu comme la réalisation d’un n-uplet de variables aléatoires indépendantes et de même loi ( X 1 , ..., X n ) . Par extension, ce n-uplet est aussi appelé parfois un échantillon. Malgré cette légère ambiguïté terminologique, il est capital (et les notations sont là pour ça) de bien différencier l’échantillon (
1
, ..., xn ) , qui représente n valeurs
numériques bien précises (et qui n’ont donc rien d’aléatoires) et le n-uplet ( X 1 , ..., X n ) qui est une représentation abstraite d’un processus aléatoire ayant généré les données. Pour bien marquer cette différence, nous emploierons les termes « empirique » ou « observé » pour tout ce qui se rapporte à ( x1 , ..., xn ) , et « théorique » (on rencontre parfois « vrai ») pour ce qui concerne ( X 1 , ..., X n ) . Pour terminer avec ces définitions, nous appellerons Statistique Statistique toute fonction de l’échantillon T
=
f ( X1 , ..., X n ) . Une statistique est donc une variable aléatoire, dont on
obtient une réalisation grâce à l’échantillon observé, Tobs
=
f ( x1 , ..., xn ) .
Illustrons ces définitions grâce à l’exemple de la taille des Français. A partir de notre 1 35 échantillon ( 1 , ..., x35 ) , nous avons calculé la moyenne empirique x = xi . Cette valeur 35 i =1
∑
est l’observation sur l’échantillon de la statistique que nous noterons X
=
1
35
∑
X i . 35 i =1 Supposons par exemple que pour tout i, X i suive une loi normale d’espérance théorique µ et d’écart type théorique σ . Il est possible de montrer que la somme de variables gaussiennes reste gaussienne. Ainsi, en utilisant les formules du chapitre précédent relatives à la manipulation d’espérances et de variances, on parvient aux relations suivantes :
29
E ( X ) =
1
35
1
35
∑ E ( X ) = 35 ∑= µ = µ i
35 i =1
1 Var ( X ) = 35
i 1
2 35
1 Var ( X i ) = ∑ 35 i =1
Soit Soit pour pour l'éc l'écar artt type type σ ( X ) =
2 35
∑= σ ² = σ 35² i 1
σ
35 Nous avons donc, de manière théorique, caractérisé la fluctuation d’échantillonnage de la σ statistique X , X , qui suit donc une loi normale N ( µ , ) . L’histogramme représenté plus haut 35 est une approximation de la densité de cette loi de probabilité. Notons que la validité de ce calcul est dépendante des trois hypothèses que nous avons posées : les données sont issues d’une même loi, qui est une loi normale, et sont indépendantes. Profitons-en pour insister sur le fait qu’indépendance et équi-distribution sont des hypothèses qui sont posées a priori, priori, et non des propriétés démontrées. Il est donc capital, lors du recueil des données, de s’assurer que le protocole garantira au mieux la validité de ces deux hypothèses. Pour finir, remarquons que dans la pratique, les valeurs de µ et et σ ne ne nous sont pas connues, il faut donc les estimer, ce qui fera l’objet du paragraphe IV.2.
IV.1.3. Quelques théorèmes importants Les théorèmes que nous allons présenter ci-après sont des théorèmes de convergence de suites de variables aléatoires. Le temps nous manque pour aborder de manière totalement rigoureuse ces notions de convergence, aussi les théorèmes seront exposés de manière plus ou moins intuitive. Le but est avant tout de justifier la démarche probabiliste entreprise et de donner des résultats dont l’importance pratique est primordiale. Le théorème de Glivenko-Cantelli. Soit (
1
, ..., xn ) un échantillon iid , , issu d’une loi de probabilité de fonction de répartition
F . Soit F Soit F n la courbe empirique des fréquences cumulées (cf II.2.1) obtenu par l’échantillon de taille n. Notons Dn
= sup x
Fn ( x) − F ( x) . Alors Dn →0 n→∞
Ce théorème affirme donc que, si n est suffisamment grand, alors la différence entre les fonctions de répartition empirique et théorique est négligeable. Dit autrement, les fréquences empiriques convergent vers les probabilités théoriques théoriques : ceci justifie donc une analogie fréquence/probabilité que nous avions déjà relevée. Ajoutons que la quantité Dn est à la base d’un test important en statistique, que nous verrons ultérieurement. La loi des grands nombres Soit ( x1 , ..., xn ) un échantillon iid , , issu d’une loi de probabilité d’espérance théorique m. Notons X n
=
1
n
∑ X
n i =1
i
la statistique « moyenne empirique » obtenue à partir de l’échantillon
théorique ( X 1 , ..., X n ) . Alors X n →m. n →∞ Cette convergence mérite quelques explications. En effet, nous avons insisté sur le fait que X n était une variable aléatoire, alors que m est une constante : comment l’une peut-elle converger vers l’autre ? Ce mode de convergence signifie que justement, X n est de « moins
30
en moins aléatoire » à mesure que la taille de l’échantillon augmente, en ce sens que pour tout intervalle autour de m, la probabilité pour que X n soit à l’intérieur de cet intervalle peut être choisie aussi proche de 1 que l’on veut, en choisissant un rang n suffisamment grand. Notons que ce théorème reste vrai quelle que soit la loi dont est issu l’échantillon (pourvu que l’espérance existe). Le théorème central limite. Ce théorème est d’une importance pratique considérable en statistiques. Soit ( X 1 , ..., X n ) un n-uplet de variables aléatoires iid , d’espérance µ et d’écart-type σ . Alors : X 1
+ ... + X n − nµ
→ N (0,1) ⇔ n →∞
X n
− µ
→ N (0,1) n →∞ σ n σ / n La signification du théorème est es t la suivante : quelle que soit la loi dont est issu un échantillon (pourvu qu’espérance et variance existent), la statistique « moyenne empirique » suivra une loi normale, pourvu que n soit suffisamment grand. En pratique, une trentaine d’observation est souvent jugée suffisante pour appliquer l’approximation gaussienne. Reprenons alors notre exemple sur la taille moyenne des Français : il s’avère s’a vère que nos conclusions restent exactes, même si l’échantillon n’est pas issu d’une loi normale ! La figure ci-dessous illustre ces deux derniers théorèmes. Pour trois lois de probabilité bien distinctes, nous avons simulé des échantillons de diverses tailles, et calculé la moyenne empirique. Les histogrammes suivants approximent la densité de la statistique X n . Nous observons alors les deux phénomènes précédemment décrits : d’une part, quand n devient grand, X n est de « moins en mois aléatoire », et ses valeurs se concentrent de plus en plus autour de la valeur théorique de l’espérance. D’autre part, quelle que soit la forme de la distribution parente (première colonne), la distribution d’échantillonnage de X n prend peu à peu une forme Gaussienne, comme le prédit le théorème central limite. n=2
n=1 100
n=5
150
80
n=10
n=500
n=50
100
100
100
100
80
80
80
80
60
60
60
60
40
40
40
40
20
20
20
20
100
N(0,1)
60 40 50 20 0
0 -2
0
-2
50
0
-2
60
30
0
0
2
-2
0
0
2
-2
0
2
-2
100
100
100
100
80
80
80
80
60
60
60
60
40
40
40
40
20
20
20
20
0
2
40 20 20
10 0
0 0
0. 5
1
1000
0 0
0. 5
1
800
800
Be(0.8)
0
2
80
40
U(0,1)
0
2
0 0
0. 5
1
500 400
600
600
0 0
0. 5
1
0 0
400
200
300
150
200
100
100
50
0. 5
1
0 0. 5
1
0. 5
1
0. 5
1
40
0 0
0
60
100
0 0
1
80
200 200
200
0. 5
100
300 400
400
0
0 0
0. 5
1
20
0 0
0. 5
1
0 0
0. 5
1
Figure 20. Illustration du théorème central limite.
31
Le théorème des valeurs extrêmes C’est, en quelque sorte, l’équivalent du théorème central limite pour la statistique n
= Max( X1 , ..., X n ) . La formulation est un peu délicate, nous le retiendrons sous la forme
suivante : si la distribution de M de M n converge, alors c’est forcément vers une loi généralisée des valeurs extrêmes GEV (µ , λ ,ξ ) . La figure suivante permet d’illustrer cette convergence pour les lois N(0,1), N(0,1), U(0,1) U(0,1) et de Cauchy, dont les maximums convergent vers une GEV où le paramètre ξ ξ est respectivement nul (=loi de Gumbel), positif (=loi de Weibull) et négatif (=Loi de Fréchet). Ce théorème justifie l’utilisation de ces lois en hydrologie des valeurs extrêmes, pour décrire le comportement probabiliste des crues. Notons qu’encore une fois, la loi limite du maximum ne dépend pas de la loi parente dont est issu l’échantillon.
Figure 21. Illustration du théorème des valeurs extrêmes.
IV.1.4. Techniques de rééchantillonnage Une autre approche afin d’accéder à la distribution d’échantillonnage d’une statistique T
=
f ( X 1 , ..., X n ) consiste à utiliser des techniques comme le Bootstrap, qui ont gagné en
popularité ces dernières années du fait de leur simplicité et de la puissance accrue des moyens informatiques. Voici l’algorithme du Bootstrap, à partir d’un échantillon observé ( x1 , ..., xn ) :
32
faire pour i=1,…, Nb =1,…, Nb tirer au sort avec remise n individus (certains individus apparaîtront o plusieurs fois, d’autres aucune) o
(i ) calculer T obs sur cet échantillon
fin
(
( N )
b Nous obtenons ainsi un nouvel échantillon To(1) bs ,..., T obs
) dont on montre qu’il est issu
d’une bonne approximation de la distribution d’échantillonnage. La simplicité de cette méthode tient au fait qu’elle ne fait plus appel au cadre probabiliste (même si celui-ci est nécessaire pour démontrer que la technique fonctionne….), et permet donc de prendre en compte cette fluctuation dans un contexte de statistiques descriptives.
IV.2. L’estimation La théorie de l’estimation est un domaine important et vaste des Statistiques. Nous n’en aborderons que quelques aspects, en expliquant comment mesurer la qualité d’un estimateur, et en présentant deux méthodes d’estimation très utilisées en pratique.
IV.2.1. Quelques définitions Considérons un échantillon ( x1 , ..., xn ) iid , réalisation du n-uplet de variables aléatoires ( X 1 , ..., X n ) . Il est fréquent d’avoir une idée a priori priori sur la loi dont devrait être issu cet échantillon, par expérience ou en considérant un des théorèmes limites ci-dessus (ex. : la crue maximale annuelle suit une loi de Gumbel). Nous allons donc supposer que l’échantillon est issu d’une certaine loi, de densité f densité f paramétrée par un certain cer tain nombre de paramètres que nous noterons sous forme vectorielle θ . Nous noterons f ( x | θ ) cette densité. Par exemple, pour une loi normale, θ = ( µ , σ ) . La question est donc à présent d’estimer d’ estimer la valeur des paramètres à partir part ir des données observées. Pour cela, nous allons faire appel à des statistiques statis tiques T
= g ( X 1 , ..., X n ) particulières,
appelées estimateurs. estimateurs . Nous réclamerons que ces estimateurs
satisfassent à un certain nombre de critères garantissant leur qualité. qualité. Parmi ces critères, citons : La convergence convergence : si T n est un estimateur d’un paramètre α , obtenu à partir d’un échantillon de taille n, alors il est souhaitable que T n →α (intuitivement, quand n →∞
l’échantillon tend vers la population, on retrouve la vraie valeur) E(T n )=α )=α . L’absence de biais : biais : E(T
La précision : précision : E (T n
(
− α )² ) , l’erreur quadratique moyenne, moyenne, est minimale.
Notons qu’il n’est pas forcément possible de trouver un estimateur qui satisfasse satisf asse à ces trois critères simultanément. Exemple 7 : Estimateurs d’une espérance et d’une variance. Soit µ l’espérance l’espérance de la loi dont est issu un échantillon. Alors il est facile de montrer que X n est un estimateur de µ convergent convergent et sans biais :
convergent : c’est la loi des grands nombres (cf IV.1.3) 1 n Sans biais : E ( X n ) = E ( X i ) = µ n i =1
∑
33
Supposons à présent que la loi dont est issu l’échantillon est de variance V que nous 1 n souhaitons estimer. Les estimateurs naturels sont (cf II.2.3) T1 = ( X i − X )² et n i =1
∑
T2
=
1
n
∑(X
n − 1 i =1
l’expression T1
i
− X )² . Calculez l’espérance de chacun de ces estimateurs (conseil : utiliser
1 n 2 = ∑ X i − ( X 2 ) ): lequel est sans biais ? n i =1
IV.2.2. Estimation par la méthode des moments L’idée de cette méthode est la suivante : si les paramètres sont bien estimés, alors il devrait y avoir adéquation entre les caractéristiques observées (ou empiriques) et les caractéristiques théoriques. Nous allons rechercher cette adéquation sur les moments, en général le premier moment non centré (c’est à dire la moyenne) et le second moment centré (c’est à dire la variance). Plus précisément, préc isément, supposons que nous ayons p ayons p paramètres paramètres θ1 ,..., θ p à estimer, alors leurs estimateurs θˆ1 ,..., θ ˆ p
= θ ˆ seront solutions du système :
Eθ ˆ ( X ) = m1 Varθ ˆ ( X ) = m2' ....... E X − E X p = m ' ) ) p ˆ( θ θˆ ( La notation E θ ˆ a pour but de bien montrer que ces moments sont des fonctions des paramètres à estimer. Exemple 8 : Estimateurs des paramètres d’une loi normale Soit ( x1 , ..., xn ) iid , un échantillon issu d’une loi normale N( normale N( µ µ , σ ). ). L’espérance vaut donc µ et la variance σ ² ² . Les estimateurs des moments sont donc définis par : ˆ = m1 µ
=x
σˆ ² = m2
⇒ σ ˆ =
m2
En d’autres termes, les estimateurs des moments sont égaux à la moyenne et à l’écart-type empiriques. Exercice : Exprimer les estimateurs des moments pour une loi exponentielle Exp(0, λ) et uniforme U(a,b). U(a,b).
IV.2.3. Estimation par maximum de vraisemblance Cette méthode consiste, étant donné un échantillon (
1 , ..., xn )
iid , de choisir comme
estimateur de θ1 ,..., θ p les valeurs qui rendent l’échantillon le plus « probable » possible. Plus précisément, comme l’échantillon est indépendant, la densité jointe du vecteur aléatoire ( X 1 , ..., X n ) est égale au produit des lois marginales. Nous appellerons vraisemblance l’expression de cette densité prise pour les valeurs ( L ( x1 , ..., xn | θ ) =
1
, ..., xn ) , soit :
n
∏= f ( x
i
| θ )
i 1
34
Il faut donc trouver les valeurs θˆ1 ,..., θ ˆ p qui maximisent cette vraisemblance. Dans la pratique, on aura souvent intérêt à maximiser la log-vraisemblance , LogL ( x1 , ..., xn | θ ) =
n
∑= log ( f ( x
i
| θ )
)
i 1
Pour ce faire, il faut résoudre une équation aux dérivées partielles : ∂ LogL = 0, ∀i = 1, ..., p ∂θ i Exemple 9 : Estimation du paramètre d’une loi exponentielle Exp(0,λ Exp(0,λ ) Soient ( x1 , ..., xn ) les observations issues de cette loi exponentielle, dont la densité s’écrit : 1 − x / λ e . λ La Log-vraisemblance vaut donc : f ( x | λ ) =
LogL ( x1 , ..., xn | λ ) =
n
∑= log ( f ( x
i
| λ )
)
i 1
n
1 = ∑ log e− xi / λ λ i =1 1 n xi = n log − ∑ λ i =1 λ n
= − n log ( λ ) − ∑
xi
i =1
λ
D’où : n n x ∂ LogL =− +∑ i =0 λ i =1 λ ² ∂λ n
⇔ −n + ∑
xi
i =1 λ
n
⇔∑
xi
i =1 λ
⇔ λ =
1
=0
=n n
∑
xi n i =1 L’estimateur du maximum de vraisemblance correspond ici à l’estimateur des moments. Exercice : Exprimer l’estimateur du maximum de vraisemblance pour les lois N( µ µ , σ ) et U(a,b). U(a,b).
IV.2.4. Quel estimateur choisir ? Il n’existe malheureusement pas de réponse à cette question… Dans certains cas, les deux estimateurs présentés plus haut coïncident et sont « optimaux ». Dans d’autres cas, l’un aura des propriétés que l’autre n’aura pas, et vice-versa. En général, l’estimateur du maximum de vraisemblance est utilisé pour les grands échantillons, car la théorie permet d’en déterminer les propriétés asymptotiques (loi, variance). En contrepartie, les calculs détaillés ci-dessus sont souvent inextricables à la main dans des cas plus compliqués, il faut donc recourir à des méthodes d’optimisation numérique, qui ne garantissent d’ailleurs pas la convergence vers un minimum absolu.
35
IV.2.5. Intervalles de confiance Les estimateurs étant en particulier des statistiques, ils sont soumis à la fluctuation d’échantillonnage dont nous avons longuement parlé précédemment : si l’on prend un autre échantillon, la valeur des estimations changera. Il est donc important de prendre en compte cette fluctuation afin de rendre plus interprétables les estimations ponctuelles. un estimateur dont on connaisse la loi de probabilité = g ( X 1 , ..., X n ) est
Supposons que T
F (qui dépend de θ ). ). Un intervalle de probabilité au risque α (ou au niveau de confiance 1α ), noté I α (θ ) , est un intervalle vérifiant la propriété : P (T ∈ I α ) = 1 − α Dans la pratique, on choisira souvent un intervalle [t -,t+] tel que : P (T
< t − ) = α / 2
et P (T
> t + ) = α / 2 ⇔ P (T ≤ t − ) = 1 − α / 2
Les limites de l’intervalle de probabilité sont donc les quantiles d’ordre α /2 et /2 et 1-α 1-α /2 de /2 de la distribution d’échantillonnage de notre estimateur, ils dépendent donc toujours de θ . θ . Or, les observations nous conduisent à une valeur observée de l’estimateur, notée θ . θ ˆ . Une valeur « acceptable » de θ devrait θ devrait donc conduire à une valeur observée θˆ ∈ I α (θ ) . C’est l’ensemble de ces valeurs acceptables que nous appellerons intervalle de confiance au niveau 1-α 1- α . Exemple 10 : Intervalle de confiance de l’estimateur d’une moyenne D’après le théorème central limite,
X n
− µ
suit une N(0,1) une N(0,1).. Notons u p le quantile d’ordre
σ / n p de p de cette loi, nous avons donc par définition du quantile : P (uα / 2
<
X n
− µ
σ / n
≤ u1−α / 2 ) = 1 − α
Un intervalle de probabilité au niveau 1-α 1- α pour pour X n est donc : µ+
σ
µ+
σ
⇔ x −
σ
u1−α / 2 n a été observée, nous recherchons donc l’ensemble des µ vérifiant vérifiant :
uα / 2
< x ≤ µ +
n La valeur
n
< X n ≤ µ +
uα / 2
σ
n
u1−α / 2
≤ µ < x −
σ
uα / 2 n n Si la valeur de σ est est connue, alors nous disposons d’un intervalle de confiance au niveau 1 par son estimateur naturel, mais α . Dans le cas contraire, il faut recommencer en remplaçant σ par la loi de
u1−α / 2
σ
X n
− µ
n’est alors plus Gaussienne. C’est là la principale difficulté de la Estim(σ ) / n détermination des intervalles inter valles de confiance c onfiance : il n’est pas toujours aisé d’accéder à la distribution d’échantillonnage de l’estimateur. Heureusement, de nombreux résultats asymptotiques existent et permettent d’effectuer ce type de calculs, qui sont vraiment nécessaires pour avoir une vision un minimum objective de la confiance que l’on peut accorder à des résultats statistiques.
36
IV.3. Les tests statistiques IV.3.1. Le principe des tests statistiques D’après G. Saporta, Saporta , « un test est es t un mécanisme qui permet de trancher entre deux hypothèses, dont une et une seule est vraie, au vu des résultats d’un échantillon ». Soient H Soient H 0 et H 1 ces deux hypothèses. Il existe alors 4 possibilités, de probabilités différentes, résumées dans le tableau suivant : Vérité
H 0
H 1
H 0
1-α 1-α
β
H 1
α
1- β 1- β
Décision
Tableau 6. Risques d'erreur. H 0 est appelée l’hypothèse nulle, et H 1 l’alternative l’alternative.. Nous allons voir que ces hypothèses nulle, et H ne jouent pas un rôle symétrique, contrairement à ce que ce tableau pourrait laisser croire. α et et β sont sont appelés les risques de première et de seconde espèce. est la puissance du espèce . 1- β est puissance du test. Ces définitions étant posées, comment effectue-t-on la prise de décision ? Nous allons tout d’abord tenter de comprendre le canevas général via un via un exemple : Exemple 11 : La température globale moyenne sur l’année de la planète Terre peut être considérée comme une variable aléatoire gaussienne, de moyenne 14 et d’écart-type 0.25. Au début des années 80, les valeurs suivantes ont été calculées : Année T (°C)
1980 14.27
1981 14.4
1982 14.1
1983 14.34
1984 14.16
1985 14.13
Tableau 7. Tableau de données. Nous souhaitons tester l’hypothèse du réchauffement réchauffe ment de la Terre. Nous allons all ons donc choisir comme hypothèses H hypothèses H 0 : « la température moyenne est de 14°C » contre H contre H 1 : « la température moyenne est supérieure à 14°C ». Pour cela, nous allons commencer par choisir un risque de première espèce α , qui représente le risque d’affirmer à tort que la planète est plus chaude qu’autrefois. Etant donnée la portée d’une telle affirmation, nous allons rester prudents et choisir un risque faible, disons 1%. Etant donné notre échantillon de 6 années, il est possible de calculer la moyenne empirique x , réalisation de la statistique X , X , que l’on appelle la statistique de test. test . Si H 0 est vraie, alors l’échantillon suit une loi normale N(14, 0.25). 0.25). Comme nous l’avons vu précédemment, la statistique X X suit alors une loi normale N (14, 0. 0.25 / 6 ) . L’hypothèse H L’hypothèse H 0 devrait donc être rejetée (i.e. H (i.e. H 1 devrait être acceptée) si la réalisation de cette statistique conduit à une valeur trop grande pour être vraisemblable, c’est à dire si x > k , où k es est à déterminer. La région [k ; +∞[ est appelée la zone de rejet de l’hypothèse H l’hypothèse H 0. Pour calculer k , nous allons nous appuyer sur la définition de α : α :
= P(rejeter H 0 | H 0 ) α = = P( X > k | H 0 ) = 1 − P( X ≤ k | H 0 ) Or, si H si H 0 est vraie, alors nous connaissons la loi de X , X , qui est est une une N (14,0. 14,0.25/ 25/ 6) . De l’équation précédente, il vient que k est est le 1-α 1-α quantile quantile de cette distribution, qui vaut (valeur
37
tabulée ou fonction prédéfinie d’Excel, par exemple) 14.237. Nous allons donc rejeter H 0 si x > k . Avec les données ci-dessus, on trouve x = 14.233 , ce qui nous conduit à ne pas rejeter H 0 : on dit que le test est non significatif , ou encore que la température n’a pas significativement augmenté (au risque 1%). Il subsiste cependant un risque d’erreur, qui est celui d’avoir conservé à tort H tort H 0 : β = P (conserver H 0 | H 1 )
= P( X ≤ k | H 1 ) Or, il nous est impossible ici de calculer ce risque, car, sous l’hypothèse H 1, nous ne connaissons pas la loi dont sont issues les données. Nous voyons donc le rôle asymétrique joué par les deux hypothèses : l’hypothèse H 0 est dite simple simple (le paramètre vaut une valeur précise), tandis que H que H 1 est composite (le paramètre appartien appartientt à un sous-ensemble sous-ensemble de ¡ ). Le Le composite (le paramètre risque de seconde espèce n’est ici calculable que si H si H 1 est également simple. Exercice : refaire le test en intégrant les données des années 1986 à 2004 : Année 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 T (°C) 14.19 14.35 14.42 14.2 14.28 8 14.4 14.49 9 14.4 14.44 4 14.1 14.16 6 14.1 14.18 8 14.3 14.31 1 14.4 14.47 7 14.36 14.4 Année 1998 1999 2000 2001 2002 2003 2004 T (°C) 14.7 14.71 1 14.4 14.44 4 14.4 14.41 1 14.5 14.56 6 14.7 14.7 14.6 14.64 4 14.6 14.61 1 Tableau 8. Tableau de données. La quasi-totalité des tests d’hypothèses suit le même schéma, qui peut se résumer comme suit : 1. 2. 3. 4. 5. 6. 7.
Choix des hypothèses H hypothèses H 0 et H et H 1 Choix du risque de première espèce α Choix de la statistique de test Détermination de la loi de cette statistique sous H sous H 0 Calcul de la zone de rejet Calcul de la valeur expérimentale de la variable de test et décision Si possible, calcul du risque de seconde espèce et de la puissance
Par rapport au test relativement simple donné en exemple, l’étape la plus difficile en général est le calcul de la loi de la statistique de test sous H 0. Bien souvent, des résultats asymptotiques (i.e. valables pour un échantillon suffisamment grand) sont utilisés.
IV.3.2. Quelques tests classiques Tests sur les paramètres d’une loi de Gauss Condition d’application : l’échantillon iid est est issu d’une loi normale N( normale N( µ µ , σ ) H 0 : µ =m =m0 contre H contre H 1 : hypothèse alternative ( µ µ>m > m0, ou µ =m =m1, par exemple) σ connu σ Statistique de test : X : N (m0 , ) sous H 0 n
38
H 0 : µ =m =m0 contre H contre H 1 : hypothèse alternative ( µ µ>m > m0, ou µ =m =m1, par exemple) σ inconnu Statistique de test : T où S
=
1
n
∑(
n i =1
Xi
=
− X )
X
− m0 S
2
n − 1 : Student (n − 1) sous H 0 ,
est l’estimateur de l’écart type.
Note : ces deux tests restent applicables si les données ne sont pas Gaussiennes avec un échantillon d’effectif au moins 30. H 0 : σ =σ 0 contre H contre H 1 : hypothèse alternative µ connu connu n
∑= ( X − µ )² i
Statistique de test :
i 1
σ 02
: χ ²(n ) so sous H 0
H 0 : σ =σ 0 contre H contre H 1 : hypothèse alternative µ inconnu inconnu nS ² Statistique de test : 2 : χ ²(n − 1) sous H 0 σ 0 Tests d’ajustement à une distribution Les deux tests présentés ci-après ont pour but de vérifier que les données sont issues d’une distribution F distribution F 0(x) Test de Kolmogorov Conditions d’applications : F : F 0(x) entièrement spécifiée (i.e. pas de paramètres) et continue. H 0 : données issues de F de F 0(x) contre (x) contre H H 1 : données issues d’une autre distribution Statistique de test : Dn
où F n(x) est (x) est la fonction de répartition empirique = sup Fn ( x) − F0 ( x ) , où F x
Sous H Sous H 0, la loi de D de Dn est tabulée
39
Test du χ ² Conditions d’applications : F 0(x) doit être discrète ou discrétisée. p discrétisée. p1 ,…,pk les probabilités théoriques de chaque classe, et N et N 1 ,…,N k effectifs observés pour chaque classe. k les H 0 : données issues de F de F 0(x) contre (x) contre H H 1 : données issues d’une autre distribution Statistique de test : D 2
k
=∑ i =1
( N i
− npi )² npi
Loi sous H sous H 0 : si F si F 0(x) est entièrement spécifiée, D ² : χ ²(k − 1) asymptotiquement si F 0(x) (x) dépend de l paramètres, alors il faut estimer ces paramètres par maximum de vraisemblance à partir de la loi discrétisée, et D ² : χ ²(k − 1− l ) asymptotiquement Note : on admettra l’approximation asymptotique si npi>5 pour >5 pour toutes les classes (procéder éventuellement à des regroupements) Tests de comparaison d’échantillons Test des variances de Fischer Conditions d’application : deux échantillons indépendants de tailles n1 et n2 et de lois normales N ( µ1 , σ 1 ) et N (µ 2 ,σ 2 ) . H 0 : σ 1=σ 2 contre H contre H 1 : σ 1≠σ 2 Statistique de
− 1) S1*2 test : F = , où = n2 S 22 /(n2 − 1) S 2*2 n1 S12 /(n1
S *2 est l’estimateur sans biais de la
variance. On mettra au numérateur l’échantillon conduisant à la variance estimée la plus grande. Loi sous H sous H 0 : F : Fisher ( n1
− 1, n2 − 1)
Test des moyennes de Student Conditions d’application : deux échantillons indépendants de tailles n1 et n2 et de lois normales N ( µ1 , σ ) et N (µ 2 ,σ ) (écarts-types (écarts-types inconnus mais égaux). H 0 : µ 1=µ 2 contre H contre H 1 : hypothèse alternative Statistique de test : T
=
+ n2 − 2 1 1 ( n1 S12 + n2 S 22 ) + n 1 n2 ( X 1
− X2 )
n1
: Student (n1
+ n2 − 2) sous H 0
Note : Si les deux échantillons sont suffisamment grands (quelques dizaines d’individus), le test de Student peut être appliqué même si les données ne sont pas gaussiennes ou ont des variances inégales. On dit que ce test est « robuste robuste » (i.e. peu sensible au non-respect des conditions d’application).
40
Test des rangs de Wilcoxon Conditions d’application : deux échantillons (
1
, ..., xn ) et ( y1 , ..., yn ) indépendants de 1
2
tailles n1
∑= rg ( x ) − µ i
Statistique de test : S =
i 1
, où µ =
n1 (n1
+ n2 + 1)
et σ =
n1 n2 ( n1
+ n2 + 1)
σ 2 12 Loi sous H sous H 0 : S : N (0,1) dès que le les de deux éc échantillo llons so sont d’ d’eff effecti ctifs su supéri érieurs eurs à 8
Test de corrélation Conditions d’application : deux variables X et Y Gaussiennes dont on cherche à savoir si Cov( X , Y ) elles sont corrélées. Soit ρ = le coefficient de corrélation. σ X σ Y H 0 : ρ =0 =0 contre H contre H 1 : Hypothèse alternative Statistique de test : R =
ρ n − 2 1 − ρ ²
: Student (n − 2) sous H 0
Note : Ce test permet également de tester la nullité du paramètre a d’une régression Y=aX+b, Y=aX+b , puisque aˆ =
Cov ( X , Y ) Var ( X )
= ρ
σ Y σ X
Test de stationnarité Test de Pettitt Conditions d’application : échantillon (
1
, ..., xn ) dont on cherche à savoir s’il présente une
dérive (rupture ou tendance) H 0 : Echantillon stationnaire contre H contre H 1 : Hypothèse alternative k
Statistique de test : S
Loi sous H sous H 0 :
| ) , où U ( k ) = ∑ = max (| U (k ) |) k
n
∑ signe( x
i =1 j = k +1
i
− xj )
−6 s02 P ( S ≥ s0 ) = 2 exp 3 2 n +n
41
V. Applications à l’étude des crues Nous allons à présent appliquer les méthodes décrites précédemment à l’étude des crues en hydrologie. Il existe quelques particularités liées aux types de données utilisées, ou aux « habitudes » des hydrologues, mais le cadre théorique est celui de la statistique inférentielle.
V.1. Les données Il n’existe pas de manière unique de décrire une crue : on peut s’intéresser à une hauteur d’eau, un temps de submersion, une vitesse d’écoulement… La variable la plus utilisée par les hydrologues est le débit, car c’est la variable la moins influencée par les conditions locales aux sites de mesure, et c’est aussi celle qui est physiquement la plus maniable (lien avec la pluie). Malheureusement, un débit ne peut se mesurer instantanément, comme une hauteur ou une température. Pour pouvoir disposer de chroniques de débits les plus continues possibles, on utilise une transformation hauteur/débit, matérialisée par une courbe de tarage. tarage . Pour tracer cette courbe, on effectue quelques mesures conjointes de débit et de hauteur (cf cours de E. Leblois pour la métrologie des débits), et on ajuste à ce nuage de point une courbe par régression :
Courbe de tarage
r u e t u a H
Débit
Figure 22. Courbe de tarage. Cette transformation permet de passer d’une chronique de hauteurs, mesurées quasiment en continu, à une chronique de débits :
42
Figure 23. Chronique de débits. Dans cette chaîne de traitements, plusieurs sources d’incertitudes d’ incertitudes apparaissent apparaissent : Incertitude métrologique liée à la mesure de la hauteur. Incertitude métrologique et opératoire liée aux mesures de débits. Ce type d’erreur peut être assez important pour les débits de crues et d’étia ges. Incertitudes liées à l’ajustement d’une courbe de tarage : plusieurs types de courbes sont ajustables, et plusieurs méthodes d’ajustement peuvent être utilisées. Les lois de l’hydraulique permettent de guider cette étape. Incertitude liée à l’extrapolation : Par nature, les évènements extrêmes sont rares, donc difficiles à mesurer. De plus, effectuer un jaugeage en crue est une opération délicate, voire périlleuse (pour le matériel et les hommes). Ainsi, les débits très faibles ou très forts peuvent ne jamais avoir été jaugés, ce qui conduit, lors de la survenue d’un tel événement, à calculer le débit par une extrapolation éloignée du domaine d’observation, d’où un important risque d’erreur. Toutes ces incertitudes ne sont pas prises en compte en général dans l’analyse probabiliste des crues, qui s’attache à quantifier la fluctuation d’échantillonnage. Il est cependant important de garder à l’esprit qu’un débit est, à la base, une grandeur entachée d’incertitudes. Il sera en particulier totalement inutile de travailler avec de trop nombreux chiffres significatifs.
43
V.2. L’échantillonnage A partir d’une chronique de débit, il s’agit d’extraire des variables caractéristiques des crues. Nous nous intéresserons ici aux pics de débits, mais d’autres variables peuvent être étudiées (volume de crue, durée, temps de montée ou de descente, etc…)
V.2.1. Techniques d’échantillonnage Nous allons nous intéresser aux deux principales principal es techniques utilisées par les hydrologues : l’échantillonnage par valeurs maximales annuelles (MAXAN) et l’échantillonnage par valeurs supérieures à un seuil (SUPSEUIL). L’échantillonnage MAXAN consiste à sélectionner chaque année le débit observé le plus fort. L’échantillonnage SUPSEUIL consiste quant à lui à choisir un seuil, puis à sélectionner les pointes des évènements dépassant ce seuil. Dans la pratique, plutôt qu’un seuil, on se donne en général un nombre d’évènements à sélectionner par an (en moyenne), et par itérations successives, on calcule le seuil conduisant à cet objectif.
Année Année hydrologiq hydrologique ue : Valeurs maximales annuelles
Figure 24. Echantillonnage de type MAXAN. MAXAN.
44
Figure 25. Echantillonnage de type SUPSEUIL. SUPSEUIL. Chacune de ces méthodes présente des avantages et des inconvénients, notamment dans l’optique d’une analyse statistique où nous souhaiterions disposer d’un échantillon iid : MAXAN : La mise en œuvre de cette méthode est très simple. En ne sélectionnant qu’un unique événement par an, on s’assure de l’indépendance entre les valeurs, sauf éventuellement si une crue importante se produit à cheval sur deux années successives, conduisant, par exemple, à échantillonner un débit le 31 décembre 2000 et un autre le 1 er janvier 2001. Pour cette raison, on échantillonne souvent par année hydrologique, chaque année étant séparée par une période d’étiage. L’inconvénient est d’ignorer un certain nombre d’évènements lors des années où beaucoup de crues se sont produites, et inversement de prendre en compte des évènements peu importants lors des années peu actives. L’homogénéité de l’échantillon n’est donc pas optimale. SUPSEUIL : cette technique est plus difficile à mettre en œuvre. En effet, il faut ajouter des contraintes d’indépendance afin de ne pas échantillonner plusieurs fois le même événement hydrologique, comme dans l’exemple ci-dessous :
Figure 26. Illustration de la nécessité des contraintes d'indépendance. 45
On impose en général une contrainte d’espacement temporel minimal entre deux pointes sélectionnées, ainsi qu’une contrainte de redescente vers un débit de base. Bien choisies, ces contraintes permettent de garantir l’indépendance de l’échantillon. Cet échantillon sera également plus homogène que celui fournit par la méthode MAXAN. Autre avantage, il est possible d’étoffer l’échantillon en choisissant, en moyenne, plus d’un événement par an. D’autres subtilités peuvent être employées pour améliorer l’échantillonnage. Citons notamment l’échantillonnage saisonnalisé, qui permet par exemple d’obtenir deux échantillons pour les cours d’eau à régime mixte (pluvio-nival).
V.2.2. Propriétés probabilistes des échantillons Nous noterons X * la variable aléatoire génératrice des données fournies par la méthode MAXAN, et X s la variable aléatoire génératrice des données fournies par la méthode SUPSEUIL. L’expérience (et le théorème des valeurs extrêmes) montrent que les lois suivantes sont bien adaptées pour décrire ces variables :
X * suit une loi généralisée des valeurs extrêmes (GEV) à trois paramètres. On suppose parfois directement que le paramètre de forme est nul, c’est à dire qu’on choisit plutôt de modéliser X modéliser X * par une loi de Gumbel à deux paramètres. Loi de Gumbel Gu( µ µ ,λ , λ ) f ( x) =
1 λ
exp −
x − µ λ
F ( x) = exp − exp − µ
> 0,
x − µ − exp − λ
x − µ
λ
λ > 0
E ( X ) = µ + γλ , avec γ = 0.5772 (constante d'Euler-Mascheroni) Var ( X ) =
π ²
λ ² 6 Loi généralisée des valeurs extrêmes GEV( µ µ , λ , ξ ) : ) : 1 ξ ξ ( x µ ) − f ( x) = 1 − exp − 1 − λ λ λ 1 ξ ξ ( x µ ) − F ( x) = exp − 1 − λ ξ ( x − µ ) µ > 0, λ > 0, ξ ≠ 0, 1 − >0
1
1
ξ ( x − µ ) ξ
−1
λ
E ( X ) = µ +
λ ξ
(1 − Γ (ξ + 1)) 2
λ Var ( X ) = ( Γ ( 2ξ + 1) − Γ ²(ξ + 1) ) ξ
46
X s suit une loi de Pareto généralisée à trois paramètres. De même que pour les échantillons MAXAN, on se contente souvent d’ajuster une loi exponentielle à deux paramètres, ce qui correspond à supposer que le paramètre de forme est nul. Loi exponentielle Exp(x exponentielle Exp(x0 , λ ) )
1 − x− x λ si x > x0 f ( x) = λ e 0 sinon − x − x λ si x > x0 F ( x) = 1 − e 0 sinon E ( X ) = x0 + λ Var ( X ) = λ 2 0
0
Loi de Pareto généralisée GP(x0 , λ , ξ ) f ( x) =
1
1
1 −
ξ ( x − x0 ) ξ
λ
λ
ξ ( x − x0 )
λ
F ( x) = 1 − 1 −
−1
1 ξ
λ > 0 ξ ≠ 0 1−
ξ ( x − x0 ) λ
E ( X ) =
>0
λ 1 + ξ
Var ( X ) =
+ x0 λ 2
(1 + ξ ) 2 (1 (1 + 2ξ )
L’échantillonnage SUPSEUIL conduit à s’intéresser à une autre variable, décrivant le processus d’occurrence des crues. Il est en effet possible de considérer une des variables suivantes : ]. On suppose généralement N t t, le nombre de crues dans un intervalle de temps [0, t ]. que cette variable suit une loi de Poisson : P (N t
= k ) = e
− µ t ( µ t )
k
k ! D’autres lois sont parfois utilisées, comme la loi binomiale ou la loi binomiale négative.
θ , θ , le temps séparant deux occurrences de crue, modélisé par une loi exponentielle simple :
1 − e− µ t si t > 0 P(θ ≤ t ) = 0 sinon
47
Exercice : Démontrer que si N si N t t suit une loi de poisson de paramètre µ , alors θ suit θ suit une loi exponentielle simple de même paramètre µ . Il est possible de démontrer que si le processus d’occurrence suit une loi de Poisson et le processus de dépassement du seuil une loi exponentielle (échantillonnage SUPSEUIL), ces deux variables étant supposées indépendantes, alors le maximum annuel suit une loi de Gumbel (MAXAN). De même, il existe une relation reliant les lois de Poisson + Pareto généralisée à la loi GEV. Exercice : Démontrer que si X si X s suit une loi exponentielle et N et N t t suit une loi de Poisson, avec * X s et N et N t t indépendantes, alors X alors X suit une loi de Gumbel.
V.3. Estimation des paramètres des distributions Une distribution ayant été choisie pour les variables X *, X s ou N t t, l’estimation des paramètres peut se faire par une des deux méthodes décrites au chapitre précédent : la méthode des moments ou la méthode du maximum de vraisemblance. Pour information, les hydrologues utilisent parfois une variante de la méthode des moments, appelée méthode des L-moments, qui a pour but de rendre l’estimation plus robuste vis-à-vis des observations extrêmes. Nous nous contentons ci-après de donner les formules des estimateurs classiques.
48
V.3.1. Formulaire des estimateurs Distribution
Variable
Exponentielle simple Exp( µ µ )
θ , Intervalle
Poisson P( Poisson P( µ µ )
Gumbel Gu( µ µ ,λ , λ )
GEV( µ µ , λ , ξ ) )
ˆ= µ
interoccurrences N ,t t nombre d’évènements dans [0,t [0,t ]
1
idem moments
θ
ˆ = µ = N t
=
idem moments
Nb de crues Durée d'observation d'observation
ˆ 6 S X * λ = π µˆ = X * − γλ ˆ
*
X , debit MAXAN
X *, debit MAXAN
Maximum de vraisemblance
Méthode des moments
Méthode numérique
3 ξ ˆ Γ(3ξˆ + 1) − 3Γ (ξˆ + 1)Γ(2 ( 2ξˆ + 1) + 2Γ (ξˆ + 1) = β X * − 1 3/ 2 | ξ ˆ | Γ(2ξˆ + 1) − Γ 2 (ξ ˆ + 1) − 1/ 2 2 λˆ =| ξˆ | S X * Γ(2ξˆ + 1) − Γ (ξˆ + 1) ˆ λ * 1 − Γ(ξ ˆ + 1) ˆ = − µ X ˆ ξ
X *
La première équation est résolue numériquement. β 1
Méthode numérique. Préférable car l’existence des moments n’est pas assurée.
est
le coefficient d’asymétrie de l’échantillon. Exponentielle Exp(x0 , λ ) )
X s, débit SUPSEUIL
x0 supposé connu (valeur du seuil)
ˆ = λ = X s
− x0
idem moments
x0 supposé connu (valeur du seuil)
Pareto Généralisée GP(x0 , λ , ξ )
X s, débit SUPSEUIL
X − x 1 ˆ λ = ( X S − x0 )² S 2 0 2 S
1 ( X S − x0 )2 ˆ ξ = 2 S 2
X S
X S
− 1
+ 1
Méthode numérique. Préférable car l’existence des moments n’est pas assurée.
V.3.2. Représentation graphique Pour juger de la qualité de l’ajustement, les hydrologues représentent en général sur un même graphique les fonctions de répartition empirique et estimée. Cependant, par rapport aux représentations classiques que nous avons vues précédemment, il existe quelques originalités. Nous allons illustrer ces différences dif férences à partir parti r du jeu de données suivant, représentant les crues 3 -1 supérieures à 72 m .s entre 1960 et 2002 pour l’Ubaye à Barcelonnette :
49
QJX Année classé 72.6 1985 73.5 1973 74 1979 75.6 1994 75.8 1984 77.7 1986 79.9 1977 83 1972 84.1 1983 84.7 1994 91 1983 98.1 2000 100 2001 111 2000 112 1978 120 1963
jour 158 125 152 310 174 141 165 158 160 267 136 165 151 289 162 320
Tableau 9. Tableau de données. Nous allons ajuster une loi exponentielle à cet échantillon. Les formules ci-dessus nous ˆ = X − x = 88.3 − 72 = 16.3 . On peut donc à présent tracer, sur un même donnent λ s 0 graphique, la fonction de répartition estimée et la fonction de distribution empirique (c’est à dire la courbe des fréquences cumulées, dont nous ne représentons que les points observés) :
1.2 e 1 é l u m0.8 u c e 0.6 c n e 0.4 u q é r f 0.2
Estimée Empirique
0 50
70
90
110
1 30
150
Débit
Figure 27. Fonction de répartition. En hydrologie, il est fréquent que les axes soient inversés, c’est à dire que l’on portera en abscisse la fréquence cumulée, ou probabilité de non-dépassement, non-dépassement , et en ordonnée le débit correspondant :
50
150 140 130 120 t 110 i b é 100 D 90 80 70 60 50
Estimée Empirique
0
0.2
0.4
0.6
0.8
1
fréquence cumulée
Figure 28. Fonction de répartition. Le seconde originalité est liée au calcul des fréquences cumulées empiriques : jusqu’ici, nous utilisions la formule i/N . Cependant, la fréquence cumulée est une fonction des observations, c’est donc une statistique soumise à la fluctuation d’échantillonnage. Rien ne prouve que l’estimateur i/N est est optimal dans ce cadre. En fait, des études ont montré que cet estimateur est biaisé pour les distributions que nous utilisons, on lui préfèrera donc la formule i − 0.3 suivante : . Notons que ceci ne change en rien nos estimations, qui ne dépendent pas N + 0.4 des fréquences empiriques.
150 140 130 120 t i 110 b 100 é D 90 80 70 60 50
Estimée Empirique Empirique Empirique débiaisé débiai sé
0
0.5
1
fréquence cumulée
Figure 29. Fonction de répartition. Enfin, il est d’usage de linéariser la figure ci-dessus, en effectuant une transformation sur l’axe des abscisses. Pour un échantillonnage SUPSEUIL, étant donné la définition de la loi
51
exponentielle,
− x− x0 λ F ( x) = 1 − e 0 sinon
si x > x0 , on tracera les débits en fonction de la variable
− log(1 − p) .
Pour un échantillonnage MAXAN, le changement de variable consistera à repor reporter ter en absci abscisse ssess la varia variabl blee − log( log(− log( log( p )) .
150 140 130 120 t 110 i b é 100 D 90
Estimée Empirique débiaisé
80 70 60 50 0
1
2
3
4
-log(1-p)
Figure 30. Fonction de répartition.
V.4. Quantiles, périodes de retour et intervalles de confiance Les graphiques précédents permettent, étant donné une probabilité p, p, de calculer le pquantile de la distribution estimée des débits de crue. Ces quantiles sont des descripteurs du comportement des débits extrêmes sur un site bien précis. Ils ont également une importance réglementaire, en terme d’aménagement du territoire notamment, puisque les ouvrages à risque (centrales nucléaires, réseaux routiers, zones résidentielles ou industrielles) doivent être protégés d’un événement de probabilité donnée, dépendant de la vulnérabilité de l’aménagement. Dans le domaine de l’hydrologie, et plus généralement dans celui de la gestion des risques, la notion de probabilité de non dépassement est généralement remplacée par la notion de période de retour. retour. La période de retour T d’un événement est la durée moyenne qui sépare deux crues supérieures ou égales à cet événement. Inversement, une crue de période de retour T est est une crue qui, en moyenne, est égalée ou dépassée toutes les T unités unités de temps. En général, l’unité de temps est l’année, et les relations suivantes lient les probabilités de non dépassement et les périodes de retour : 1 Echantillonnage MAXAN : 1 − p = T 1 valeurs par an : 1 − p = Echantillonnage SUPSEUIL avec µ valeurs µ T Il est bien important d’avoir conscience que malgré l’utilisation du terme « période », il n’y a pas de périodicité déterministe dans l’occurrence des crues, et il est donc tout à fait possible d’avoir plusieurs crues de période de retour 10 ans au cours de la même année. Il faut donc bien garder à l’esprit que la période de retour n’est rien d’autre qu’une probabilité transformée. Une crue de période de retour 10 ans ( p=0.9) p=0.9) est dite décennale, T=100 ans décennale, centennale si centennale si T=100 ( p=0.99), p=0.99), millennale si millennale si T =1000 =1000 ans ( p=0.999). p=0.999). 52
Il est également possible de calculer analytiquement ces quantiles, en inversant les fonctions de répartition. En effet, un quantile q p vérifie, par définition, F(q p )=p, )=p, soit q p
= F −1 ( p ) Les formules suivantes permettent de calculer les quantiles :
= µ − λ log( − log( p))
Loi de Gumbel : q p
GEV: q p
Loi Exponentielle: q p
Loi de Pareto Généralisée: q p
= µ +
λ
(1 − (− log( p)) ) ξ ξ
= x0 − λ log(1 − p) = x0 +
λ
(1 − (1 − p)ξ )
ξ Dans la pratique, on calcule ces quantiles en remplaçant les paramètres par leur estimation. Ceci implique que les quantiles, comme toute statistique, sont soumis aux fluctuations d’échantillonnage. Il est donc important de quantifier cette incertitude, pour bien cerner les limites de notre approche statistique. Il est en effet possible, analytiquement, de donner une valeur pour un quantile de période de retour 10 000 ans, mais on sent bien intuitivement que cette valeur ne signifierait pas grand chose avec 20 ans de données disponibles pour l’analyse… Le calcul des intervalles de confiance est assez fastidieux. Nous nous bornerons ici à donner quelques formules utiles. La formule suivante donne la variance des quantiles pour p paramètres estimés par la méthode des moments : 2
p ∂q p ∂q ∂q Var (qˆ p ) ≈ ∑ Var (mi ) + 2∑ ∑ p p Cov (mi , m j ) i =1 ∂mi i =1 j ≠ i ∂mi ∂m j p
Avec l’exemple de la loi exponentielle de l’exemple ci-dessus, on obtient (à faire en 2
exercice): Var (qˆ p ) ≈ [ log(1 − p ) ]
2 σ X
s
. n Si on suppose que le quantile est asymptotiquement Gaussien et non biaisé, alors
l’intervalle de confiance au niveau α est est de la forme qˆ p ± u1−(1−α ) / 2 Var (qˆ p ) , où u1-(1-α 1-(1-α )/2 est le quantile de la loi normale N(0,1) normale N(0,1).. La figure ci-dessous présente l’intervalle de confiance à 90% : 250 230 210 190 t 170 i b é 150 D 130 110 90 70 50
Estimée Empirique débiaisé
0
2
4
6
-log(1-p)
Figure 31. Fonction de répartition et intervalle de confiance à 90%.
53
Cette hypothèse de normalité asymptotique des quantiles est à considérer avec précaution, surtout si l’effectif de l’échantillon n’est pas très important. Il existe des théorèmes, proche du théorème central limite, garantissant théoriquement cette normalité, mais certaines lois que nous utilisons peuvent invalider les hypothèses de ces théorèmes. En particulier, les lois GEV et de Pareto Généralisée peuvent avoir des moments infinis. Plusieurs formules plus ou moins empiriques ont donc été établies pour calculer des intervalles de confiance plus réalistes. Pour une loi de Gumbel, on utilise en général l’approximation suivante : ˆ Borne inférieure : qˆ p − h1σ Borne supérieure : qˆ p Avec : h1 =
A − B C
A = u1−(1−α ) / 2 B = (u1−(1−α ) / 2 ) C
= 1−
t p
=
1.1
+ h2 σ ˆ
et h1
=
A + B C
1 + 1.13t p + 1.1( t p ) 2 n 1.1t p + 0.57 2 n
(u1−(1−α ) / 2 ) 2
n − log(− log( p)) − 0.577
1.28 Notons que si n est grand, alors B alors B devient devient négligeable devant A devant A,, et l’intervalle de confiance devient symétrique, signe de convergence vers la normalité. Voici un exemple d’intervalle de confiance à 90% à partir d’un échantillon MAXAN d’effectif 21 :
Figure 32. Fonction de répartition et intervalle de confiance à 90%.
54
On voit clairement que cet intervalle n’est pas symétrique, et que l’estimation de débits de périodes de retour 100 ou 1000 ans avec seulement 20 années de données est illusoire, puisque les valeurs varient dans l’intervalle de confiance du simple au double. Une alternative intéressante et simple à mettre en œuvre pour déterminer ces intervalles est l’utilisation des méthodes de rééchantillonnage, le bootstrap notamment, qui permettent de ne pas poser d’hypothèses a priori sur priori sur la distribution des quantiles.
55
VI. Annexes Annexe 1 : La méthode CRUPEDIX
é m i t s e 0 1 A X I Q
QIXA10 observé
56
Annexe 2 : tables usuelles
Fonction de répartition de la loi normale réduite Probabilité de trouver une valeur inférieure à u
P 0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2 1. 3 1. 4 1. 5 1. 6 1. 7 1. 8 1. 9 2. 0 2. 1 2. 2 2. 3 2. 4 2. 5 2. 6 2. 7 2. 8 2. 9
u F(u) F(u)
0. 00 0. 50 5000 0. 53 5398 0. 57 5793 0. 61 6179 0. 65 6554 0. 69 6915 0. 72 7257 0. 75 7580 0. 78 7881 0. 81 8159 0. 84 8413 0. 86 8643 0. 88 8849 0. 90 9032 0. 91 9192 0. 93 9332 0. 94 9452 0. 95 9554 0. 96 9641 0. 97 9713 0. 97 9772 0. 98 9821 0. 98 9861 0. 98 9893 0. 99 9918 0. 99 9938 0. 99 9953 0. 99 9965 0. 99 9974 0. 99 9981 0. 00
0. 01 0. 50 5040 0. 54 5438 0. 58 5832 0. 62 6217 0. 65 6591 0. 69 6950 0. 72 7291 0. 76 7611 0. 79 7910 0. 81 8186 0. 84 8438 0. 86 8665 0. 88 8869 0. 90 9049 0. 92 9207 0. 93 9345 0. 94 9463 0. 95 9564 0. 96 9649 0. 97 9719 0. 97 9778 0. 98 9826 0. 98 9864 0. 98 9896 0. 99 9920 0. 99 9940 0. 99 9955 0. 99 9966 0. 99 9975 0. 99 9982 0. 01
0. 02 0. 50 5080 0. 54 5478 0. 58 5871 0. 62 6255 0. 66 6628 0. 69 6985 0. 73 7324 0. 76 7642 0. 79 7939 0. 82 8212 0. 84 8461 0. 86 8686 0. 88 8888 0. 90 9066 0. 92 9222 0. 93 9357 0. 94 9474 0. 95 9573 0. 96 9656 0. 97 9726 0. 97 9783 0. 98 9830 0. 98 9868 0. 98 9898 0. 99 9922 0. 99 9941 0. 99 9956 0. 99 9967 0. 99 9976 0. 99 9982 0. 02
0. 03 0. 51 5120 0. 55 5517 0. 59 5910 0. 62 6293 0. 66 6664 0. 70 7019 0. 73 7357 0. 76 7673 0. 79 7967 0. 82 8238 0. 84 8485 0. 87 8708 0. 89 8907 0. 90 9082 0. 92 9236 0. 93 9370 0. 94 9484 0. 95 9582 0. 96 9664 0. 97 9732 0. 97 9788 0. 98 9834 0. 98 9871 0. 99 9901 0. 99 9925 0. 99 9943 0. 99 9957 0. 99 9968 0. 99 9977 0. 99 9983 0. 03
0. 04 0. 51 5160 0. 55 5557 0. 59 5948 0. 63 6331 0. 67 6700 0. 70 7054 0. 73 7389 0. 77 7704 0. 79 7995 0. 82 8264 0. 85 8508 0. 87 8729 0. 89 8925 0. 90 9099 0. 92 9251 0. 93 9382 0. 94 9495 0. 95 9591 0. 96 9671 0. 97 9738 0. 97 9793 0. 98 9838 0. 98 9875 0. 99 9904 0. 99 9927 0. 99 9945 0. 99 9959 0. 99 9969 0. 99 9977 0. 99 9984 0. 04
P=F(u)
0.05 0. 51 5199 0. 55 5596 0. 59 5987 0. 63 6368 0. 67 6736 0. 70 7088 0. 74 7422 0. 77 7734 0. 80 8023 0. 82 8289 0. 85 8531 0. 87 8749 0. 89 8944 0. 91 9115 0. 92 9265 0. 93 9394 0. 95 9505 0. 95 9599 0. 96 9678 0. 97 9744 0. 97 9798 0. 98 9842 0. 98 9878 0. 99 9906 0. 99 9929 0. 99 9946 0. 99 9960 0. 99 9970 0. 99 9978 0. 99 9984 0.05
0.06 0. 52 5239 0. 56 5636 0. 60 6026 0. 64 6406 0. 67 6772 0. 71 7123 0. 74 7454 0. 77 7764 0. 80 8051 0. 83 8315 0. 85 8554 0. 87 8770 0. 89 8962 0. 91 9131 0. 92 9279 0. 94 9406 0. 95 9515 0. 96 9608 0. 96 9686 0. 97 9750 0. 98 9803 0. 98 9846 0. 98 9881 0. 99 9909 0. 99 9931 0. 99 9948 0. 99 9961 0. 99 9971 0. 99 9979 0. 99 9985 0.06
0.07 0. 52 5279 0. 56 5675 0. 60 6064 0. 64 6443 0. 68 6808 0. 71 7157 0. 74 7486 0. 77 7794 0. 80 8078 0. 83 8340 0. 85 8577 0. 87 8790 0. 89 8980 0. 91 9147 0. 92 9292 0. 94 9418 0. 95 9525 0. 96 9616 0. 96 9693 0. 97 9756 0. 98 9808 0. 98 9850 0. 98 9884 0. 99 9911 0. 99 9932 0. 99 9949 0. 99 9962 0. 99 9972 0. 99 9979 0. 99 9985 0.07
0.08 0. 53 5319 0. 57 5714 0. 61 6103 0. 64 6480 0. 68 6844 0. 71 7190 0. 75 7517 0. 78 7823 0. 81 8106 0. 83 8365 0. 85 8599 0. 88 8810 0. 89 8997 0. 91 9162 0. 93 9306 0. 94 9429 0. 95 9535 0. 96 9625 0. 96 9699 0. 97 9761 0. 98 9812 0. 98 9854 0. 98 9887 0. 99 9913 0. 99 9934 0. 99 9951 0. 99 9963 0. 99 9973 0. 99 9980 0. 99 9986 0.08
0. 09 0. 53 5359 0. 57 5753 0. 61 6141 0. 65 6517 0. 68 6879 0. 72 7224 0. 75 7549 0. 78 7852 0. 81 8133 0. 83 8389 0. 86 8621 0. 88 8830 0. 90 9015 0. 91 9177 0. 93 9319 0. 94 9441 0. 95 9545 0. 96 9633 0. 97 9706 0. 97 9767 0. 98 9817 0. 98 9857 0. 98 9890 0. 99 9916 0. 99 9936 0. 99 9952 0. 99 9964 0. 99 9974 0. 99 9981 0. 99 9986 0. 09
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0 1. 1 1. 2 1. 3 1. 4 1. 5 1. 6 1. 7 1. 8 1. 9 2. 0 2. 1 2. 2 2. 3 2. 4 2. 5 2. 6 2. 7 2. 8 2. 9 P
3 3. 1 3.2 3. 3 3. 4 3. 5 3. 6 3. 8 4 4. 5 0.99865 0.998650 0 0.99903 0.999032 2 0.99931 0.999313 3 0.99951 0.999517 7 0.99966 0.999663 3 0.99976 0.999767 7 0.99984 0.999841 1 0.99992 0.999928 8 0.99996 0.999968 8 0.99999 0.999997 7
Lorsque u est négatif, il faut prendre le complément à l’unité de la valeur lue dans la table : F(u)=1-F(-u) Ex. : pour u = 1.21, F(u)= 0.8869, pour u = -1.21, F(u)= 0.1131
57
Fractiles Fracti les de la loi normale normale centrée centrée réduite réduite Valeur de u telle que Prob( X X < u ) = P avec P donnée P 0.00 0.0 0.01 0.0 0.02 0.0 0.03 0.0 0.04 0.0 0.05 0.0 0.06 0.0 0.07 0.0 0.08 0.0 0.09 0.1 0.10 0.1 0.11 0.1 0.12 0.1 0.13 0.1 0.14 0.1 0.15 0.1 0.16 0.1 0.17 0.1 0.18 0.1 0.19 0.2 0.20 0.2 0.21 0.2 0.22 0.2 0.23 0.2 0.24 0.2 0.25 0.2 0.26 0.2 0.27 0.2 0.28 0.2 0.29 0.3 0.30 0.3 0.31 0.3 0.32 0.3 0.33 0.3 0.34 0.3 0.35 0.3 0.36 0.3 0.37 0.3 0.38 0.3 0.39 0.4 0.40 0.4 0.41 0.4 0.42 0.4 0.43 0.4 0.44 0.4 0.45 0.4 0.46 0.4 0.47 0.4 0.48 0.4 0.49
0.000 2.32 .3263 2.05 .0537 1.88 .8808 1.75 .7507 1.64 .6449 1.55 .5548 1.47 .4758 1.40 .4051 1.34 .3408 1.28 .2816 1.22 .2265 1.17 .1750 1.12 .1264 1.08 .0803 1.03 .0364 0.99 .9945 0.95 .9542 0.91 .9154 0.87 .8779 0.84 .8416 0.80 .8064 0.77 .7722 0.73 .7388 0.70 .7063 0.67 .6745 0.64 .6433 0.61 .6128 0.58 .5828 0.55 .5534 0.52 .5244 0.49 .4958 0.46 .4677 0.43 .4399 0.41 .4125 0.38 .3853 0.35 .3585 0.33 .3319 0.30 .3055 0.27 .2793 0.25 .2533 0.22 .2275 0.20 .2019 0.17 .1764 0.15 .1510 0.12 .1257 0.10 .1004 0.07 .0753 0.05 .0502 0.02 .0251 0.000
0.001 3. 09 0902 2.29 .2904 2.03 .0335 1.86 .8663 1.73 .7392 1.63 .6352 1.54 .5464 1.46 .4684 1.39 .3984 1.33 .3346 1.27 .2759 1.22 .2212 1.17 .1700 1.12 .1217 1.07 .0758 1.03 .0322 0.99 .9904 0.95 .9502 0.91 .9116 0.87 .8742 0.83 .8381 0.80 .8030 0.76 .7688 0.73 .7356 0.70 .7031 0.67 .6713 0.64 .6403 0.60 .6098 0.57 .5799 0.55 .5505 0.52 .5215 0.49 .4930 0.46 .4649 0.43 .4372 0.40 .4097 0.38 .3826 0.35 .3558 0.32 .3292 0.30 .3029 0.27 .2767 0.25 .2508 0.22 .2250 0.19 .1993 0.17 .1738 0.14 .1484 0.12 .1231 0.09 .0979 0.07 .0728 0.04 .0476 0.02 .0226 0.001
0.002 2.8782 2.25 .2571 2.01 .0141 1.85 .8522 1.72 .7279 1.62 .6258 1.53 .5382 1.46 .4611 1.39 .3917 1.32 .3285 1.27 .2702 1.21 .2160 1.16 .1650 1.11 .1170 1.07 .0714 1.02 .0279 0.98 .9863 0.94 .9463 0.90 .9078 0.87 .8706 0.83 .8345 0.79 .7995 0.76 .7655 0.73 .7323 0.69 .6999 0.66 .6682 0.63 .6372 0.60 .6068 0.57 .5769 0.54 .5476 0.51 .5187 0.49 .4902 0.46 .4621 0.43 .4344 0.40 .4070 0.37 .3799 0.35 .3531 0.32 .3266 0.30 .3002 0.27 .2741 0.24 .2482 0.22 .2224 0.19 .1968 0.17 .1713 0.14 .1459 0.12 .1206 0.09 .0954 0.07 .0702 0.04 .0451 0.02 .0201 0.002
0.003 2. 74 7478 2.22 .2262 1.99 .9954 1.83 .8384 1.71 .7169 1.61 .6164 1.53 .5301 1.45 .4538 1.38 .3852 1.32 .3225 1.26 .2646 1.21 .2107 1.16 .1601 1.11 .1123 1.06 .0669 1.02 .0237 0.98 .9822 0.94 .9424 0.90 .9040 0.86 .8669 0.83 .8310 0.79 .7961 0.76 .7621 0.72 .7290 0.69 .6967 0.66 .6651 0.63 .6341 0.60 .6038 0.57 .5740 0.54 .5446 0.51 .5158 0.48 .4874 0.45 .4593 0.43 .4316 0.40 .4043 0.37 .3772 0.35 .3505 0.32 .3239 0.29 .2976 0.27 .2715 0.24 .2456 0.21 .2198 0.19 .1942 0.16 .1687 0.14 .1434 0.11 .1181 0.09 .0929 0.06 .0677 0.04 .0426 0.01 .0175 0.003
P=F(u)
0.004 2. 65 6521 2.19 .1973 1.97 .9774 1.82 .8250 1.70 .7060 1.60 .6072 1.52 .5220 1.44 .4466 1.37 .3787 1.31 .3165 1.25 .2591 1.20 .2055 1.15 .1552 1.10 .1077 1.06 .0625 1.01 .0194 0.97 .9782 0.93 .9385 0.90 .9002 0.86 .8632 0.82 .8274 0.79 .7926 0.75 .7588 0.72 .7257 0.69 .6935 0.66 .6620 0.63 .6311 0.60 .6008 0.57 .5710 0.54 .5417 0.51 .5129 0.48 .4845 0.45 .4565 0.42 .4289 0.40 .4016 0.37 .3745 0.34 .3478 0.32 .3213 0.29 .2950 0.26 .2689 0.24 .2430 0.21 .2173 0.19 .1917 0.16 .1662 0.14 .1408 0.11 .1156 0.09 .0904 0.06 .0652 0.04 .0401 0.01 .0150 0.004
0.005 2. 57 5758 2.17 .1701 1.96 .9600 1.81 .8119 1.69 .6954 1.59 .5982 1.51 .5141 1.43 .4395 1.37 .3722 1.31 .3106 1.25 .2536 1.20 .2004 1.15 .1503 1.10 .1031 1.05 .0581 1.01 .0152 0.97 .9741 0.93 .9346 0.89 .8965 0.85 .8596 0.82 .8239 0.78 .7892 0.75 .7554 0.72 .7225 0.69 .6903 0.65 .6588 0.62 .6280 0.59 .5978 0.56 .5681 0.53 .5388 0.51 .5101 0.48 .4817 0.45 .4538 0.42 .4261 0.39 .3989 0.37 .3719 0.34 .3451 0.31 .3186 0.29 .2924 0.26 .2663 0.24 .2404 0.21 .2147 0.18 .1891 0.16 .1637 0.13 .1383 0.11 .1130 0.08 .0878 0.06 .0627 0.03 .0376 0.01 .0125 0.005
0.006 2.5121 2.1 2.1444 444 1.9 1.9431 431 1.7 1.7991 991 1.6 1.6849 849 1.5 1.5893 893 1.5 1.5063 063 1.4 1.4325 325 1.3 1.3658 658 1.3 1.3047 047 1.2 1.2481 481 1.1 1.1952 952 1.1 1.1455 455 1.0 1.0985 985 1.0 1.0537 537 1.0 1.0110 110 0.9 0.9701 701 0.9 0.9307 307 0.8 0.8927 927 0.8 0.8560 560 0.8 0.8204 204 0.7 0.7858 858 0.7 0.7521 521 0.7 0.7192 192 0.6 0.6871 871 0.6 0.6557 557 0.6 0.6250 250 0.5 0.5948 948 0.5 0.5651 651 0.5 0.5359 359 0.5 0.5072 072 0.4 0.4789 789 0.4 0.4510 510 0.4 0.4234 234 0.3 0.3961 961 0.3 0.3692 692 0.3 0.3425 425 0.3 0.3160 160 0.2 0.2898 898 0.2 0.2637 637 0.2 0.2378 378 0.2 0.2121 121 0.1 0.1866 866 0.1 0.1611 611 0.1 0.1358 358 0.1 0.1105 105 0.0 0.0853 853 0.0 0.0602 602 0.0 0.0351 351 0.0 0.0100 100 0.006
0.007 2. 45 4573 2.12 .1201 1.92 .9268 1.78 .7866 1.67 .6747 1.58 .5805 1.49 .4985 1.42 .4255 1.35 .3595 1.29 .2988 1.24 .2426 1.19 .1901 1.14 .1407 1.09 .0939 1.04 .0494 1.00 .0069 0.96 .9661 0.92 .9269 0.88 .8890 0.85 .8524 0.81 .8169 0.78 .7824 0.74 .7488 0.71 .7160 0.68 .6840 0.65 .6526 0.62 .6219 0.59 .5918 0.56 .5622 0.53 .5330 0.50 .5044 0.47 .4761 0.44 .4482 0.42 .4207 0.39 .3934 0.36 .3665 0.33 .3398 0.31 .3134 0.28 .2871 0.26 .2611 0.23 .2353 0.20 .2096 0.18 .1840 0.15 .1586 0.13 .1332 0.10 .1080 0.08 .0828 0.05 .0577 0.03 .0326 0.00 .0075 0.007
0.008 2. 40 4089 2.09 .0969 1.91 .9110 1.77 .7744 1.66 .6646 1.57 .5718 1.49 .4909 1.41 .4187 1.35 .3532 1.29 .2930 1.23 .2372 1.18 .1850 1.13 .1359 1.08 .0893 1.04 .0451 1.00 .0027 0.96 .9621 0.92 .9230 0.88 .8853 0.84 .8488 0.81 .8134 0.77 .7790 0.74 .7454 0.71 .7128 0.68 .6808 0.64 .6495 0.61 .6189 0.58 .5888 0.55 .5592 0.53 .5302 0.50 .5015 0.47 .4733 0.44 .4454 0.41 .4179 0.39 .3907 0.36 .3638 0.33 .3372 0.31 .3107 0.28 .2845 0.25 .2585 0.23 .2327 0.20 .2070 0.18 .1815 0.15 .1560 0.13 .1307 0.10 .1055 0.08 .0803 0.05 .0552 0.03 .0301 0.00 .0050 0.008
0.009 2. 36 3656 2.07 .0748 1.89 .8957 1.76 .7624 1.65 .6546 1.56 .5632 1.48 .4833 1.41 .4118 1.34 .3469 1.28 .2873 1.23 .2319 1.18 .1800 1.13 .1311 1.08 .0848 1.04 .0407 0.99 .9986 0.95 .9581 0.91 .9192 0.88 .8816 0.84 .8452 0.80 .8099 0.77 .7756 0.74 .7421 0.70 .7095 0.67 .6776 0.64 .6464 0.61 .6158 0.58 .5858 0.55 .5563 0.52 .5273 0.49 .4987 0.47 .4705 0.44 .4427 0.41 .4152 0.38 .3880 0.36 .3611 0.33 .3345 0.30 .3081 0.28 .2819 0.25 .2559 0.23 .2301 0.20 .2045 0.17 .1789 0.15 .1535 0.12 .1282 0.10 .1030 0.07 .0778 0.05 .0527 0.02 .0276 0.00 .0025 0.009
0.010 2. 32 3263 2.05 .0537 1.88 .8808 1.75 .7507 1.64 .6449 1.55 .5548 1.47 .4758 1.40 .4051 1.34 .3408 1.28 .2816 1.22 .2265 1.17 .1750 1.12 .1264 1.08 .0803 1.03 .0364 0.99 .9945 0.95 .9542 0.91 .9154 0.87 .8779 0.84 .8416 0.80 .8064 0.77 .7722 0.73 .7388 0.70 .7063 0.67 .6745 0.64 .6433 0.61 .6128 0.58 .5828 0.55 .5534 0.52 .5244 0.49 .4958 0.46 .4677 0.43 .4399 0.41 .4125 0.38 .3853 0.35 .3585 0.33 .3319 0.30 .3055 0.27 .2793 0.25 .2533 0.22 .2275 0.20 .2019 0.17 .1764 0.15 .1510 0.12 .1257 0.10 .1004 0.07 .0753 0.05 .0502 0.02 .0251 0.00 .0000 0.010
0. 00 00 0.01 .01 0.02 .02 0.03 .03 0.04 .04 0.05 .05 0.06 .06 0.07 .07 0.08 .08 0.09 .09 0.10 .10 0.11 .11 0.12 .12 0.13 .13 0.14 .14 0.15 .15 0.16 .16 0.17 .17 0.18 .18 0.19 .19 0.20 .20 0.21 .21 0.22 .22 0.23 .23 0.24 .24 0.25 .25 0.26 .26 0.27 .27 0.28 .28 0.29 .29 0.30 .30 0.31 .31 0.32 .32 0.33 .33 0.34 .34 0.35 .35 0.36 .36 0.37 .37 0.38 .38 0.39 .39 0.40 .40 0.41 .41 0.42 .42 0.43 .43 0.44 .44 0.45 .45 0.46 .46 0.47 .47 0.48 .48 0.49 .49 P
58
Fractiles Fractil es pour la loi du Khi Khi-2 -2 à ndl degrés deg rés de liberté Valeur ² p telle que Prob( X X < ² p) = P
1-p
p
avec P donnée p ndl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100
χ²0.005
χ²0.01
χ²0.025
χ²0.05
χ²0.10
χ²0.25
χ²0.50
χ²0.75
χ²0.90
χ²0.95
χ²0.975
χ²0.99
χ²0.995
χ²0.999
0.0000 0.0100 0.0717 0.207 0.412 0.676 0.989 1.34 1.73 2.16 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79 20.71 27.99 35.53 43.28 51.17 59.20 67.33
0. 0.0002 0. 0.0201 0.115 0.297 0.554 0.872 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 22.16 29.71 37.48 45.44 53.54 61.75 70.06
0. 0.0010 0. 0.0506 0.216 0.484 0.831 1.24 1.69 2.18 2.70 3.25 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79 24.43 32.36 40.48 48.76 57.15 65.65 74.22
0. 0.0039 0.103 0.352 0.711 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 26.51 34.76 43.19 51.74 60.39 69.13 77.93
0. 0.0158 0.211 0.584 1.06 1.61 2.20 2.83 3.49 4.17 4.87 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60 29.05 37.69 46.46 55.33 64.28 73.29 82.36
0.102 0.575 1.21 1.92 2.67 3.45 4.25 5.07 5.90 6.74 7.58 8.44 9.30 10.17 11.04 11.91 12.79 13.68 14.56 15.45 16.34 17.24 18.14 19.04 19.94 20.84 21.75 22.66 23.57 24.48 33.66 42.94 52.29 61.70 71.14 80.62 90.13
0.455 1.39 2.37 3.36 4.35 5.35 6.35 7.34 8.34 9.34 10.34 11.34 12.34 13.34 14.34 15.34 16.34 17.34 18.34 19.34 20.34 21.34 22.34 23.34 24.34 25.34 26.34 27.34 28.34 29.34 39.34 49.33 59.33 69.33 79.33 89.33 99.33
1.32 2.77 4.11 5.39 6.63 7.84 9.04 10.22 11.39 12.55 13.70 14.85 15.98 17.12 18.25 19.37 20.49 21.60 22.72 23.83 24.93 26.04 27.14 28.24 29.34 30.43 31.53 32.62 33.71 34.80 45.62 56.33 66.98 77.58 88.13 98.65 109.14
2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 51.81 63.17 74.40 85.53 96.58 107.57 118.50
3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 55.76 67.50 79.08 90.53 101.88 113.15 124.34
5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 59.34 71.42 83.30 95.02 106.63 118.14 129.56
6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 63.69 76.15 88.38 100.43 112.33 124.12 135.81
7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 41.40 42.80 44.18 45.56 46.93 48.29 49.65 50.99 52.34 53.67 66.77 79.49 91.95 104.21 116.32 128.30 140.17
10.83 13.82 16.27 18.47 20.51 22.46 24.32 26.12 27.88 29.59 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.31 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70 73.40 86.66 99.61 112.32 124.84 137.21 149.45
59
Cen tiles t p po Centiles pour ur la l a d istr istrib ibuti ution on t de Student Student à ndl degrés de liber liberté té X < t p) = P Valeur de t p telle que Prob ( X avec P donnée
ndl
t0.55
t0.60
t0.70
t0.75
t0.80
t0.90
t0.95
t0.975
t0.99
t0.995
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120 99999999
0.158 0.142 0.137 0.134 0.132 0.131 0.130 0.130 0.129 0.129 0.129 0.128 0.128 0.128 0.128 0.128 0.128 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.126 0.126 0.126 0.126
0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.255 0.254 0.254 0.253
0.727 0.617 0.584 0.569 0.559 0.553 0.549 0.546 0.543 0.542 0.540 0.539 0.538 0.537 0.536 0.535 0.534 0.534 0.533 0.533 0.532 0.532 0.532 0.531 0.531 0.531 0.531 0.530 0.530 0.530 0.529 0.527 0.526 0.524
1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.677 0.674
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.845 0.842
3.08 1.89 1.64 1.53 1.48 1.44 1.41 1.40 1.38 1.37 1.36 1.36 1.35 1.35 1.34 1.34 1.33 1.33 1.33 1.33 1.32 1.32 1.32 1.32 1.32 1.31 1.31 1.31 1.31 1.31 1.30 1.30 1.29 1.28
6.31 2.92 2.35 2.13 2.02 1.94 1.89 1.86 1.83 1.81 1.80 1.78 1.77 1.76 1.75 1.75 1.74 1.73 1.73 1.72 1.72 1.72 1.71 1.71 1.71 1.71 1.70 1.70 1.70 1.70 1.68 1.67 1.66 1.64
12.71 4.30 3.18 2.78 2.57 2.45 2.36 2.31 2.26 2.23 2.20 2.18 2.16 2.14 2.13 2.12 2.11 2.10 2.09 2.09 2.08 2.07 2.07 2.06 2.06 2.06 2.05 2.05 2.05 2.04 2.02 2.00 1.98 1.96
31.82 6.96 4.54 3.75 3.36 3.14 3.00 2.90 2.82 2.76 2.72 2.68 2.65 2.62 2.60 2.58 2.57 2.55 2.54 2.53 2.52 2.51 2.50 2.49 2.49 2.48 2.47 2.47 2.46 2.46 2.42 2.39 2.36 2.33
63.66 9 .9 2 5 .8 4 4 .6 0 4 .0 3 3 .7 1 3 .5 0 3 .3 6 3 .2 5 3.1 7 3.1 1 3.0 5 3.0 1 2.9 8 2.9 5 2.9 2 2.9 0 2.8 8 2.8 6 2.8 5 2.8 3 2.8 2 2.8 1 2.8 0 2.7 9 2.7 8 2.7 7 2.7 6 2.7 6 2.7 5 2.7 0 2.6 6 2 .6 2 2.58
60
Distribution F (percentile 95%) La table donne le percentile 95% (valeur ayant 5 chan c hances ces sur 100 d’être égalée ou dépassée) de la fonction F en fonction des nombres de degrés de liberté du numérateur dln et du déno dénom minateur inate ur dld dl d avec dln > dld dln
dld
1 1 161.4 2 18. 51 51 3 10.13 4 7.71 5 6.61 6 5.99 7 5.59 8 5.32 9 5.12 10 4.96 11 4.84 12 4.75 13 4.67 14 4.60 15 4.54 16 4.49 17 4.45 18 4.41 19 4.38 20 4.35 21 4.32 22 4.30 23 4.28 24 4.26 25 4.24 26 4.23 27 4.21 28 4.20 29 4.18 30 4.17 40 4.08 60 4.00 120 3.92 99999999 3. 3.84
2 199. 5 19.00 9.55 6.94 5.79 5.14 4.74 4.46 4.26 4.10 3.98 3.89 3.81 3.74 3.68 3.63 3.59 3.55 3.52 3.49 3.47 3.44 3.42 3.40 3.39 3.37 3.35 3.34 3.33 3.32 3.23 3.15 3.07 3.00
3 215.7 19.16 9.28 6.59 5.41 4.76 4.35 4.07 3.86 3.71 3.59 3.49 3.41 3.34 3.29 3.24 3.20 3.16 3.13 3.10 3.07 3.05 3.03 3.01 2.99 2.98 2.96 2.95 2.93 2.92 2.84 2.76 2.68 2.60
4 224.6 19. 25 25 9.12 6.39 5.19 4.53 4.12 3.84 3.63 3.48 3.36 3.26 3.18 3.11 3.06 3.01 2.96 2.93 2.90 2.87 2.84 2.82 2.80 2.78 2.76 2.74 2.73 2.71 2.70 2.69 2.61 2.53 2.45 2.37
5 230. 2 19.30 9.01 6.26 5.05 4.39 3.97 3.69 3.48 3.33 3.20 3.11 3.03 2.96 2.90 2.85 2.81 2.77 2.74 2.71 2.68 2.66 2.64 2.62 2.60 2.59 2.57 2.56 2.55 2.53 2.45 2.37 2.29 2.21
6 234.0 19.33 8.94 6.16 4.95 4.28 3.87 3.58 3.37 3.22 3.09 3.00 2.92 2.85 2.79 2.74 2.70 2.66 2.63 2.60 2.57 2.55 2.53 2.51 2.49 2.47 2.46 2.45 2.43 2.42 2.34 2.25 2.18 2.10
7 236.8 19.35 8.89 6.09 4.88 4.21 3.79 3.50 3.29 3.14 3.01 2.91 2.83 2.76 2.71 2.66 2.61 2.58 2.54 2.51 2.49 2.46 2.44 2.42 2.40 2.39 2.37 2.36 2.35 2.33 2.25 2.17 2.09 2.01
8 238.9 19. 37 37 8.85 6.04 4.82 4.15 3.73 3.44 3.23 3.07 2.95 2.85 2.77 2.70 2.64 2.59 2.55 2.51 2.48 2.45 2.42 2.40 2.37 2.36 2.34 2.32 2.31 2.29 2.28 2.27 2.18 2.10 2.02 1.94
9 240. 5 19. 38 38 8.81 6.00 4.77 4.10 3.68 3.39 3.18 3.02 2.90 2.80 2.71 2.65 2.59 2.54 2.49 2.46 2.42 2.39 2.37 2.34 2.32 2.30 2.28 2.27 2.25 2.24 2.22 2.21 2.12 2.04 1.96 1.88
10 241. 9 19.40 8.79 5.96 4.74 4.06 3.64 3.35 3.14 2.98 2.85 2.75 2.67 2.60 2.54 2.49 2.45 2.41 2.38 2.35 2.32 2.30 2.27 2.25 2.24 2.22 2.20 2.19 2.18 2.16 2.08 1.99 1.91 1.83
15 15 245.9 19. 43 43 8.70 5.86 4.62 3.94 3.51 3.22 3.01 2.85 2.72 2.62 2.53 2.46 2.40 2.35 2.31 2.27 2.23 2.20 2.18 2.15 2.13 2.11 2.09 2.07 2.06 2.04 2.03 2.01 1.92 1.84 1.75 1.67
20 20 248. 0 19.45 8.66 5.80 4.56 3.87 3.44 3.15 2.94 2.77 2.65 2.54 2.46 2.39 2.33 2.28 2.23 2.19 2.16 2.12 2.10 2.07 2.05 2.03 2.01 1.99 1.97 1.96 1.94 1.93 1.84 1.75 1.66 1.57
40 40 251.1 19.47 8.59 5.72 4.46 3.77 3.34 3.04 2.83 2.66 2.53 2.43 2.34 2.27 2.20 2.15 2.10 2.06 2.03 1.99 1.96 1.94 1.91 1.89 1.87 1.85 1.84 1.82 1.81 1.79 1.69 1.59 1.50 1.39
60 60 252.2 19.48 8.57 5.69 4.43 3.74 3.30 3.01 2.79 2.62 2.49 2.38 2.30 2.22 2.16 2.11 2.06 2.02 1.98 1.95 1.92 1.89 1.86 1.84 1.82 1.80 1.79 1.77 1.75 1.74 1.64 1.53 1.43 1.32
dln =
nombre de degrés de liberté pour la plus grande estimation de fluctuation dld = nombre de degrés de liberté pour la plus petite estimation de fluctuation
61
Table du test de Kolmogorov-Smirnov Kolmogorov-Smirnov Valeurs de d n telles que p=P(D que p=P(Dn
62
Table du test de Kolmogorov-Smirnov (suite) Kolmogorov-Smirnov (suite)
63