Professional Documents
Culture Documents
- Caractéristiques de la population
- Caractéristiques de l'échantillon
6- Pratique de l'ajustement
7- Prévision en temps de retour
8- Conclusion générale
9- 7HVWVG·DGpTXDWLRQ
10- Calcul des intervalles de confiance
Au cours des siècles derniers, la statistique était la science de dénombrement. Il s'agissait donc
d'établir des statistiques en relevant des tableaux de chiffres à partir d'observations systématiques
concernant le phénomène étudié.
Les phénomènes hydrologiques tels que les précipitations et les écoulements sont à caractère
incertain vu le grand nombre de mécanismes et processus qui interviennent dans leur formation.
Ils constituent donc un champ d'application idéal pour ces méthodes statistiques.
Nous citons à titre d'exemple le cas d'un étude où l'ingénieur voudrait construire des ouvrages de
protection contre les inondations. Il dispose d'une série de données pluviométriques ou
hydrométriques relevées en un point du bassin. Si on résonne à court-terme, les constructions se
faisant en été, celui-ci ne connaît pas exactement l'importance de la crue printanière de l'année
suivante, ni de crues futures (à long terme). Or l'ingénieur doit assurer la sécurité des ouvrages et
se protéger contre les fortes pluies. Il doit donc dimensionner les ouvrages pour une crue
maximale probable durant toute la durée de vie du barrage (100 à 1000 ans)
Il devient donc obligatoire au concepteur d'analyser les données disponibles pour pouvoir estimer
l'importance des événements pouvant surgir pendant la période de construction (crue de
chantier) et la durée de vie de l'ouvrage (crue du projet). Il aura donc à faire une analyse
statistique fondée sur un comportement probabiliste pour évaluer l'évolution des précipitations et
des écoulements dans ce bassin à court et à long terme.
Prof N.SERHIR -2- Traitement statistique
2- Etapes d'une analyse statistique
Dans toute analyse d'un phénomène donné, la collecte des données observées pour des
périodes plus ou moins longues et en des points différents de l'espace demeure le point de départ.
Ces données doivent cependant subir des traitements spécifiques selon la nature du
phénomène à analyser et le but escompté de cette analyse.
Le traitement des données est l'ensemble des opérations qui consistent à extraire une
information précise et résumée à partir d'une série de valeurs numériques ou graphiques.
En particulier, les données hydrologiques doivent être traitées statistiquement selon trois
étapes principales :
2.1 Description
Il est de pratique de condenser l'information hydrologique s'étendant sur de nombreuses
années à une station fixe et de la remplacer par quelques caractéristiques bien choisies, à
condition, toutefois, que ces dernières représentent la série chronologique de manière quasi-
exhaustive.
La série d'observations définie sera classée en ordre et décrite par trois types de paramètres :
- valeurs centrales
- paramètres de dispersion
- caractéristiques de forme des courbes de fréquence : hystogrammes
2.2 L'analyse
Cette étape consiste à formaliser les données expérimentales par une expression mathématique
tenant compte des valeurs types calculées à la première étape.
Le problème à résoudre sera de choisir le modèle probabiliste adéquat qui représente au mieux la
série expérimentale. On appelle cette phase la recherche d'un ajustement théorique adéquat.
2.3 La prévision
Dans cette étape, l'ingénieur aura à projeter dans l'avenir le modèle choisi pour pouvoir
organiser l'avenir de la façon la plus avantageuse et pour pouvoir prendre des décisions optimales
et sécuritaires.
Remarque :
Ces 3 phases de l'analyse statistique supposent que les données utilisées sont homogènes,
indépendantes et qu'elles ont subi la phase de contrôle et de critique, phase ultime pour la
fiabilité des résultats qui est en fonction de la qualité des données.
Prof N.SERHIR -3- Traitement statistique
2.4 Enchaînement des opérations dans une étude hydrologique statistique
Nous pouvons donc résumer l'enchaînement des opérations par le schéma suivant :
Contrôle et critique
des données hydrologiques
Traitement des
A nalyse : modèle Probabiliste données
Phases de l'analyse
statistique
L'ensemble des données obtenues par la mesure dans le temps d'un phénomène hydrologique
constitue un échantillon plus ou moins représentatif du phénomène à l'étude : population. Du
point du vue de la théorie statistique, un échantillon est un ensemble de valeurs situées au hasard
parmi une population mère qui suit une loi statistique définie.
Toute déduction sur les propriétés de la population exige que l'échantillon ait été choisi au hasard
donc qu'il définit une variable aléatoire, que les diverses valeurs constituant l'échantillon soient
indépendantes les unes des autres, et que l'échantillon soit homogène, (tiré d'une même
population).
Nous n'avons pas de contrôle sur la méthode d'échantillonnage et il est raisonnable d'admettre
que chaque donnée est fournie selon les lois du hasard.
L'indépendance varie selon la nature des données. En fait, il faut noter que les débits journaliers
successifs ne sont pas indépendants les uns des autres car un débit fort une journée laisse prévoir
un débit fort pour le lendemain. Les ruissellements mensuels ou annuels, par contre, sont plus
indépendants les uns des autres et se prêtent donc mieux à des analyses statistiques.
L'homogénéité peut être vérifiée soit par des procédés purement graphiques : double-masse,
soit par des calculs statistiques : tests. Toute modification physique connue pouvant modifier le
phénomène ou les lectures des appareils de mesure laisse supposer que les échantillons pris avant
et après cette modification ne sont pas tirés d'une même population et donc que l'échantillon
global n'est pas homogène ( construction d'un réservoir qui change le régime d'un cours d'eau,
déplacement d'une station hydrométrique, etc).
Dans les exposés des méthodes statistiques qui suivront, nous supposerons que
l'indépendance et l'homogénéité existent soit de prime d'abord, soit après correction des
données .
Un déversoir de barrage sera conçu pour évacuer une crue d'une fréquence probable
de 0.001 à cause des dommages à la propriété et des pertes de vie qui résulteraient d'une crue
supérieure à la capacité du déversoir ( danger pour la stabilité du barrage lui-même). Par contre
un égout pluvial peut être insuffisant de temps à autre, créant certains dommages à la propriété,
dommages d'un montant inférieur toutefois au capitale qu'il aurait fallu investir pour construire
l'égout plus gros et éviter l'inondation. La capacité de l'égout pluvial sera basée sur un débit
de fréquence probable plus forte que le déversoir, de l'ordre de 0.2.
Un débit d'inondation dont la probabilité d'apparition ou de dépassement est 0.033 est appelé
1
crue de 30 ans ( T 30 ) car la probabilité est établie à l'aide des crues annuelles. L'unité
0.033
de temps de T est la même que celle de la variable qui a servi à déterminer la probabilité.
Il ne faut pas conclure qu'un débit de 30 ans se produira à intervalles fixes de 30 ans ou
que, s'étant produit une fois, il ne se produira plus pendant 30 ans. On doit comprendre
plutôt que sur une longue période, 300 ans par exemple, 10 crues au moins égales à ce
débit se produiront. Autrement, on peut dire qu'à chaque année, il ya 3.3% de chance
qu'un tel débit soit atteint.
b- ponts sur routes importantes où l'exhaussement de l'eau crée par le pont peut
entraîner des dommages importants ou la perte du pont : 50 à 100 ans
Le calcul des probabilités permet de calculer quelles sont les chances de non apparition d'une
valeur égale ou supérieure à X connaissant sa probabilité d'apparition au cours de l'année calculé
l
par : p
T
1
la probabilité de non apparition se calcule par : q 1 P 1
T
La construction d'un histogramme des fréquences de la variable X consiste à graduer l'axe des
abscisses en valeur croissante de la variable étudiée et découpée en intervalles de classes. On
porte alors en ordonnée le nombre d'apparitions constatées dans chaque intervalle. On obtient
ainsi un graphique en "escalier".
Ce sont des courbes qui permettent de donner le pourcentage de probabilité où une valeur
observée a été égalée ou dépassée. Elles ont généralement l'allure d'un S horizontale.
On peut construire soit la distribution des fréquences cumulées au non dépassement soit la
distribution des fréquences cumulées au dépassement.
Si on calcule les fréquences cumulatives de toutes les valeurs inférieures ou égales à une valeur
donnée xi, on obtient la fréquence cumulée au non dépassement de cette valeur. Le classement,
dans ce cas, des valeurs observées, doit être fait en ordre croissant.
Si la taille de l'échantillon devient grande et l'intervalle de classe tend vers zéro, le polygone des
fréquences relatives sera décrit par une courbe à laquelle correspond une certaine fonction de
distribution continue f(x) dite fonction de densité de probabilité, notée fdp. Ainsi l'effectif ou
la fréquence d'apparition d'une valeur xi deviendra, la densité de probabilité f'(xi).
Soit la courbe décrivant les fréquences d'apparition des événements d'une variable X.
Fonction de distribution
x E
³ D
f ( x ). dx P ( x ) et ³ f ( x ). dx
D
1
La dernière expression est évidente, puisqu'elle exprime que la probabilité pour que x soit situé
entre les deux extrêmes possibles, est égale à 1 (ou 100% de chances).
Elle exprime aussi que la totalité de l'aire sous la courbe de la fonction de distribution est égale à
l'unité.
Une fonction de distribution f(x) est caractérisée par sa moyenne m et son écart type V.
De même, la limite du polygone des fréquences cumulées définit une fonction de répartition
appelée loi de répartition de la population, notée F(x) telle que :
dF ( x)
f ( x)
dx
Fonction de répartition
F ( xi ) P( X d xi ) ¦ f(xk )
x k dxi
C'est la probabilité qu'une valeur de la variable X soit inférieure ou égale à la valeur xi.
xi
F ( xi ) ³f f ( x ) dx
Les échantillons étant petits en hydrologie, il sera parfois difficile de déclarer si une loi de
probabilité s'applique d'une façon absolue à un phénomène. On devra souvent se contenter
d'utiliser la loi qui semble le mieux s'appliquer au phénomène étudié, représenté d'une façon plus
ou moins parfaite par l'échantillon disponible.
Exemple 1
Considérons la conception d'un ouvrage hydraulique : un canal conçu pour transporter un débit
de crue centenaire Q100 doit laisser passer ce débit sans qu'il y'ait inondation.
La probabilité d'apparition ou de dépassement de ce débit au cours de la 1ère année est
1
P ( Q ! Q 100 ) F1 0 .01
100
La probabilité de non dépassement au cours de cette même année est :
P(Q d Q100) = 1 - F1 = 0.99
Si le canal doit servir pendant n années, ce qui représente la vie du projet et pendant lesquelles le
débit dans le canal doit rester inférieur à Q100, chaque année devient une expérience de type
binomial, c'est à dire à deux éventualités : dépassement ou non dépassement.
1
La probabilité au non dépassement au cours d'une année étant égale à ( 1 ), celle au cours de
T
n années est : (relation d'intersection).
n
§ 1·
P( Q d Q 100 ) , durant n années ¨1 ¸
© T¹
Si on connaît qu'un débit x a une durée de retour de 100 ans , quelle est la probabilité
d'apparition de ce débit dans les 30 prochaines années ?
30
§ 1 ·
P30 R 30 1 ¨1 ¸
© 100 ¹
R 30 0.26
Il faudrait noter que les caractéristiques de l'échantillon sont elles mêmes de réalisations de
variables aléatoires régies par des lois de distribution. Elles sont plus ou moins dispersées autour
des caractéristiques théoriques de la population qui sont :
* la variance de la population : V²
>
E x m
2
@ ³ x m
2
f ( x ) dx = V²
On cherche à caractériser l'ensemble par une "valeur type", c'est à dire par un nombre unique qui
représentera, en première approximation, l'ordre de grandeur de l'ensemble des observations et
permettra la plus sommaire des comparaisons rationnelles entre deux séries ;; ainsi, s'il s'agit de
résumer brièvement la série de hauteurs de précipitations annuelles afférentes à une longue
période, on choisit le plus souvent comme valeur type le "module pluviométrique annuel
moyen" défini comme la moyenne arithmétique des hauteurs de précipitations annuelles sur une
série aussi longue que possible.
Dans certains cas (répartitions dissymétriques), il peut être plus logique statistiquement parlant -
de remplacer la moyenne arithmétique par la médiane définie plus bas.
¦x i
x 1
n
b- Les moyennes de position
Elles demandent pour leur détermination que la série ait été ordonnée suivant les valeurs
croissantes ou décroissantes du caractère. La plus importante est la médiane, valeur telle que la
fréquence des données plus petites et celle des données plus grandes que la médiane soient égales
à 1/2 . La médiane sépare donc l'ensemble des données en deux groupes également
nombreux.
Le premier quartile Q1 sépare la série de telle sorte que l'effectif des données inférieures soit le
quart de l'effectif total. La médiane est parfois appelée deuxième quartile. Le troisième quartile
Q3 et les centiles seraient définis d'une façon analogue.
C'est, dans le cas que nous avons pris comme exemple, la différence entre les modules
pluviométriques de l'année la plus humide xmax et de l'année la plus sèche xmin :
W = xmax - xmin
x Coefficient de dissymétrie
Il se détermine à l'aide des quartiles trouvés sur la courbe de distribution des fréquences par la
formule :
( Q3 Q2 ) ( Q2 Q1 )
C
( Q3 Q1 )
La valeur de ce coefficient C est nulle lorsque
la distribution est symétrique (loi normale).
x Variance
C'est la moyenne arithmétique des carrés des écarts par rapport à la moyenne x :
S
1
(n 1)
¦ xi x
2
S
1
¦ xi 2 1 ¦ xi 2
(n 1) n(n 1)
Cette dernière expression facilite
le calcul de la variance en évitant le calcul des écarts.
x Ecart type
L'écart type de l'échantillon est la notion de dispersion la plus utilisée ;; elle se définit comme la
racine carrée de la variance. Il est à noter que S est l'écart type de l'échantillon, formé des n
valeurs connues ;; il ne faudra pas le confondre avec V , l'écart type de la loi de distribution
théorique dont il est question plus loin.
x Le coefficient de variation Cv
Il caractérise l'importance de la dispersion autour de la moyenne :
Cv = S/ x
Une estimation des principaux moments utilisés en hydrologie est donnée par les formulations
Suivantes :
1
P1 x
N
¦ xi
1
2
P 2 S⇢
N 1
¦ xi x
N
3
P3
N 1 N 2 ¦ xi x
N⇢
4
N 1 N 2 N 3 ¦
P4 xi x
Vu la mauvaise qualité des données (échantillons trop réduits en particulier), l'hydrologue ne peut
se montrer très difficile sur les lois théoriques qu'il utilise : aussi se contente-il d'un nombre limité
de lois :
x La loi de Gauss est utilisée pour des échantillons constitués de moyennes (en effet, la
somme de variable aléatoires quelconques tend à devenir normale si le nombre de variable pris
en compte augmente) : distribution de modules, de débits ou apports mensuels, de pluie
annuelle ou mensuelle.
x La loi de Gumbel est la seconde loi de base : sa dissymétrie constante semble très bien
adaptée aux événements extrêmes habituellement rencontrés : maxima annuels de
précipitations journalières en particulier - à condition que les précipitations soient homogènes.
Mais également débits de pointe de crues etc.
Il est parfois nécessaire d'utiliser une variable transformée Y = g(x), qui s'adaptera mieux à
x La loi de Pearson III complète ces deux lois fondamentales : à faible coefficient de
variation, elle tend vers la loi de Gauss, à coefficient de variation plus fort, elle se rapproche
de la loi de Gumbel.
x On utilise également les lois de Galton, où le logarithme de la variable suit une loi de
Gauss et la loi de Fréchet, où le logarithme de la variable suit une loi de Gumbel.
Ces lois présentent l'avantage de pouvoir être utilisées comme des lois à trois paramètres, ce qui
leur confère une souplesse presque aussi grande que celle de la loi de Pearson III.
Enfin, on trouve dans la littérature les lois de Pearson , les lois de Halphen, la loi harmonique et
bien d'autres, dont l'utilisation, beaucoup moins pratique, (sauf cas très particuliers) n'apporte rien
de plus à l'hydrologue.
Nous traiterons , avec des étude de cas détaillées , les lois de Gauss,log normale ,
Gumbel et frechet.
La fonction f(x) se représente par une courbe en forme de cloche, symétrique par rapport à x =
m, admettant un maximum pour x = m et tendant asymptotiquement vers 0 pour xo-f et
xo+f.
La distribution normale ne contient plus aucun des paramètres de la distribution de x. C'est une
loi normale de moyenne 0 et d'écart type 1.
t 1 t⇢
F ( t) ³f 2S e 2 dt
On remarque que la loi normale est entièrement déterminée lorsqu'on connaît sa
moyenne m et son écart type V.
Prof N.SERHIR - 15 - Traitement statistique
A partir d'un échantillon, la meilleure estimation de la moyenne de la distribution théorique est
la moyenne de l'échantillon x . Par contre la meilleure estimation de l'écart type de la
fonction de distribution théorique, à partir de n valeurs connues, est donné par :
¦ x
2
¦ x⇢
n
S
n1
Cette théorie permet de déterminer les débits de crues de longues périodes de retour, par l'étude
de la série des crues annuelles. L'échantillon est donc formé en prenant à chaque année une seule
valeur, le débit journalier maximum mesuré au cours de cette année. On pourrait faire une étude
analogue des sécheresses extrêmes en étudiant la série des débits minimums annuels. Les
pressions atmosphériques extrêmes, les températures extrêmes, les précipitations extrêmes sont
des phénomènes qui se prêtent à ce type d'analyse.
Toutefois, cette loi n'est citée que dans la littérature hydrologique. Les calculs théoriques sont très
simples à effectuer car la fonction de répartition est de forme très simple.
a( x x 0 )
ee
F ( x)
où F(x) représente la probabilité au non dépassement de la variable x.
La variable réduite y dite de Gumbel (comparable à t, variable réduite de Gauss) est définie par :
y = a(x - x0) d'où
e y
F ( x) e
où x est la variable étudiée
a et xo sont les paramètres de la loi.
a est un paramètre caractéristique de la dispersion
Ces relations sont vraies pour un échantillon de très grande taille supérieure à 100. En fait, des
développements poussés en statistiques ont montré que ces divers coefficients sont fonction de
la taille de l'échantillon N et que pratiquement, on devrait utiliser les relations suivantes pour
calculer les paramètres de la loi de Gumbel.
ª1 S
«a VN
«
«x 1
x yN
«¬ 0 a
Dans lesquelles :
y N est la moyenne de la variable réduite de Gumbel calculée sur un échantillon de taille N
VN est l'écart type de la variable réduite de Gumbel calculé sur un tel échantillon
qu'on peut tracer sur un papier gausso-logarithmique qui est le papier de la loi Log Normale.
Prof N.SERHIR - 17 - Traitement statistique
Cette loi est donc entièrement définie par les paramètres L n x et S L n x .
Ainsi, la variable X suit une loi de Galton, si la variable Log X suit la loi de Gauss.
2. u = a log (x - x0) + b est une autre forme de la loi Galton
a, b et x0 sont les paramètres de la loi.
u est la variable log normale réduite centrée.
x x
3
4
S 0
P3 S ⇢ 3 x x ⇢ 0
1
a⇢ 2
ªN º
¦ log ⇢ x x0 « ¦ log x i x 0 »
N
i
i
¬ i ¼
N N⇢
¦ log x x0
N
i
b a i
N
N : taille de l'échantillon
xi : les observations
log est décimal
a log x x
1.1513
b 0
a
Ce changement nous permet donc de calculer le quantile X[T], connaissant la période de retour
T. En fait, on calcule la probabilité au dépassement F :
1
F 1
T
Prof N.SERHIR - 18 - Traitement statistique
et on détermine la variable réduite u(F) sur les tables de Gauss. Enfin, on calcule
u ( F ) b
X( T) 10 a x0
L'ajustement graphique à la loi log normale reste analogue à celui de la loi de Gauss, il
faudrait reporter par contre les couples (xi , fréquence expérimentale) sur un diagramme Gausso-
logarithmique.
Le plus pratique
On devrait utiliser les mêmes relations pour calculer les paramètres de la loi de Frechet :
Si N 100 ª1 S LogX
«a VN
«
«( Logx) 1
Logx y N
«
¬
0
a
Sinon
1
° 0.78S LogX
°a
et ®
°( Logx) 0.577
°
Logx
¯
0
a
f x 1 t
*( x) ³ t e dt
0
La fonction factorielle d'Euler est tabulée. ( voir annexe des tables de probabilité)
La méthode des moments appliquée à la fonction Gamma permet d'obtenir les relations
suivantes :
a = x /S²
J = x⇢ /S²
J est un paramètre de forme. En fait, cette fonction admet différentes représentations en fonction
de la valeur de J qui varie de 0 à f. En particulier ,si J = 25, la dissymétrie est déjà très atténuée
et pour J > 60 on obtient une courbe pratiquement symétrique et approximable par la fonction
gaussienne.
Il a été démontré que J est relié à l'échantillon X(x1 ,.....xn) par la relation
M (J) est la fonction complexe dont les valeurs sont tabulées Ainsi connaissant M (J) on
détermine J puis on calcule a par la relation.
a = J/ x
En particulier si J < 10, il est préférable de calculer a et J par la méthode de vraisemblance.
On peut être aussi guider dans le choix par un certain nombre de considérations empiriques. En
effet, des études menées en hydrologie ont montré que le choix peut être limité par le type de la
variable hydrologique étudiée. Ainsi pour les :
Précipitations
annuelles : loi normale - Galton - Pearson
mensuelles : loi normale - Galton - Pearson
journalières : Gamma incomplète
extrêmes : Gumbel ² Goodrich
Dans la pratique, le lissage des distributions empiriques se fait sur un graphique gradué en
probabilité. Ceci permet d'estimer un événement de période de retour fixée ou aussi de
déterminer la probabilité d'un événement observé. Cette procédure est sans doute acceptable et
sans grand risque entre les quantiles 20% et 80% pour des échantillons de 30 à 50 observations.
A l'extérieur de cet intervalle cela devient dangereux car on s'expose à de graves incertitudes
générées par des aléas de l'échantillonnage et de certaines valeurs extrêmes. De plus ce type de
lissage est trop subjectif, deux personnes effectueront rarement un ajustement graphique
identique sur le même échantillon. Des expériences de ce genre, faites sur un grand nombre de
cas, ont montré la grande variabilité des résultats.
Extrapoler la courbe hors de l'intervalle des points de mesure pour déterminer les valeurs du
phénomène rare est équivalent à essayer de déterminer la courbe expérimentale que
'on aurait obtenue à partir d'une série beaucoup plus longue de relevés.
'HVSDSLHUVJUDSKLTXHVDSSURSULpVVRQWFRQVWUXLWVSRXUHIIHFWXHUO·DMXVWHPHQWGHVIRQFWLRQVOHV
plus courantes : normale, Galton et Gumbel. Ils présentent l'avantage de représenter linéairement
la fonction (x, F(x)).
Quand on étudie la distribution empirique des n valeurs d'un échantillon, on peut s'assurer
visuellement qu'une fonction choisie pour représenter cet échantillon, convient ou non. On
pourrait, éventuellement l'ajuster et estimer ainsi graphiquement les paramètres de cette loi.
Un exemplaire de chacun de ces papiers est fournie à la fin de ce chapitre .
9 fréquence empirique
La taille des échantillons hydrologiques est le plus souvent petite (inférieure à 50). Ceci ne permet
pas de tracer un histogramme réaliste des fréquences relatives car les effectifs de chaque classe
sont faibles. Les hydrologues travaillent avec les fréquences empiriques pour établir la courbe
expérimentale des fréquences, représentative de l'échantillon.
On va classer les événements xi , observés dans un ordre chronologique donné, par ordre
décroissant, de sorte que x1 sera la plus grande valeur et xN la plus petite :
(x1 > x2 > ...> xi > ...... > xN).
On peut alors dire que x1 a été atteinte ou dépassée 1 fois sur ces N années, x2 a été atteinte et
dépassée 2 fois sur N années, ....., xN a été atteinte et dépassée N fois sur N années. On pourrait
donc attribuer en première approche à x1 la durée de retour N (sachant que T = l'inverse de la
N
probabilité au dépassement) à x2 , on affecterait la durée de retour ,....etc.
2
On peut donc estimer pour chaque valeur classée de rang i, une fréquence dite empirique de
dépassement qui sera assimilée à la probabilité de dépassement de la population mère infinie,
définie par :
f
P = Prob (X > x) = ³x f ( x ) dx
Remarquons que si l'échantillon est classé en ordre croissant, la fréquence empirique ainsi
calculée est assimilée à la fréquence au non dépassement. S'il est classé en ordre décroissant, elle
est assimilée à la fréquence au dépassement.
Cette seconde fonction du calcul statistique, qu'est la prévision, s'opère par un calcul probabiliste
sur la loi ajustée à l'échantillon. Elle consiste à :
OU u ( F )b
X (T ) 10 a x0
Loi de F rechet : Log ( X (T ))
1
y (T ) ( Logx ) 0
a
y est la variable réduite de Gumbel définie, connaissant
la probabilité F, par :
y = -Log (-log (1-1/T)) , Log népérien.
8- Conclusion générale
Dans un traitement statistique des données hydrologiques, on conçoit qu'il ne faudra pas attendre
de l'échantillon une précision extraordinaire surtout dans les grandes durées de retour. En effet,
celle-ci va dépendre :
Les tests les plus utilisés en hydrologie sont le test de F (Khi - deux) et le test de Kolmogorov
2
Smirnov.
Principe du test
Le test de F permet de faire une comparaison entre la distribution empirique et la distribution
2
théorique.
Le principe consiste à faire l'hypothèse que les deux distributions ne diffèrent presque
pas. Si la probabilité qu'il en soit ainsi est très faible, on rejettera l'hypothèse et on conclura que
la distribution théorique ne s'ajuste pas à l'échantillon étudié.
Si au contraire, cette probabilité est forte, la loi théorique sera adoptée pour le calage de
l'échantillon.
On dispose d'un échantillon de taille N formé par les événements (X1 , X2.....XN).
On voudrait le confronter à une variable aléatoire, issue d'une population distribuée selon la loi
de probabilité F(x) à p paramètres pour laquelle on veut tester l'adéquation.
En réalité, l'effectif réel de chacune des classes i est une valeur ni , plus ou moins différente de vi .
Le problème est de vérifier si l'écart entre les vi et ni des différentes classes est significatif ou non.
La vérification se fait par le calcul de la moyenne des carrés des écarts entre ces deux effectifs.
Soit donc par le biais de la quantité statistique.
2
k ni vi
Z⇢ ¦ vi
i 1
Cette quantité suit une loi de F
2
à Q degré de liberté.
Prof N.SERHIR - 25 - Traitement statistique
Q (se lit nu) se calcule connaissant le nombre de paramètres p de la loi théorique F(x) et le
nombre de classes k.
Q = k-p- 1t1
Il est évident que plus Z², notée F calculée, est faible, meilleure sera la proximité de la loi et de
2
l'échantillon.
F 2 calculée dépend du découpage en k classes et le chiffre obtenu n'a un sens que si la taille de
l'échantillon est importante.
En fait, le test n'est significatif que si :
vi t5
5
Critère du test d'adéquation
Dans la pratique F calculée est comparée à une valeur tabulée, F , fonction du nombre de
2 2
Insistons sur le fait que ceci ne permet pas de choisir la loi mais simplement de rejeter les plus
mauvaises.
Exemple :
30
°k 4 vi ²5
4
°
° 30
®k 5 vi 6
° 5 test possibe
°k 6 vi 5
°
¯
Ceci indique que l'on ne peut au seuil de 5% rejeter l'hypothèse de validité de la loi de Gauss. On
aura 5% de risque de se tromper sur la validité de la loi.
une réalisation possibles sur une infinité de tirages possibles à N valeurs. La moyenne m et
l'écart type V sont donc deux réalisations de ce tirage. S'il s'agit d'un échantillon normal et si
l'effectif est suffisant, on peut calculer la validité de la ième valeur tirée et en déduire le
pourcentage de chance p% de la trouver entre deux limites calculées par les formules ci dessous
pour un échantillon de type gaussique et de type gumbel .
S
avec S X 2 u (T )
2N
Intervalle de confiance autour d'un quantile de Gumbel X (T) :
X (T ) X (T )ru SX
1D
2
V 1 1.13t 2
SX
N F 1.1t F
Ln( Ln F )0,577
tF
1.28
ª º
m est intérieur à
« x u1D S N ,x u
1
D S N»
¬ 2 2 ¼
D = seuil de risque : 5 à 10%
u = variable réduite de Gauss si N t 30
variable de student à (N - 1) ddl si N < 30
si N t 50
S u D S 2N d V d S u D S 2N
1 1
2 2
S⇢ S⇢
si N 50 N 2
d V⇢ d N 2
F1 F2
F 12 = valeur de F ² à D/2 et (N - 1) ddl
F 22 = valeur de F ² à 1-D/2 et (N - 1) ddl
Calculer les paramètres de la loi de Gumbel, ainsi que la moyenne et O¶pFDUW W\SH GH OD
population,
Calculer et tracer la droite de Gumbel.
Calculer la pluie centennale humide et son intervalle de confiance au niveau 80% et 90%.
Conclure.