Professional Documents
Culture Documents
STATISTIQUE
Elments dHydrologie Statistique par R.Ababou,
daprs le cours profess lINP-ENSEEIHT (Toulouse),
Dpartement de Formation Hydraulique & Mcanique des Fluides .
R. ABABOU
HYDROLOGIE STATISTIQUE
R. Ababou
Sommaire
Dcembre 2006 / Janvier 2007 (version v1)
Ch.1-B.
TD 1.
HYDROLOGIE STATISTIQUE
R. Ababou
0.1.
0.2.
0.3.
Ch.1-A.
ii
Ch.1-B.
1-B.Notion de crue
1-B.Crues annuelles et loi(s) des valeurs extrmes
1-B.Evnements rares et loi de Poisson
TD 1.
2.1.
2.1.
2.2.
2.3.
TD 2.
Gnralisations
analyses
statistiques
multi-stations :
analyse corrlatoire multivarie, rgression multiple, et A.C.P.
Matrice de covariance K+1 variables (K explicatives, 1 explique)
Exercice sur une matrice de covariance 3x3 (exemple de pige viter)
Rgression linaire multiple K+1 variables (K explicatives, 1 explique)
Analyse en Composantes Principales (A.C.P) : cf. TD2
iii
de
convolution
pluie-dbit
(P(t)Q(t)) :
iv
Documents en ligne:
http://rachid.ababou.free.fr/
( \\CRI\spi_com\be\hy\... )
Documents polycopis imprims:
Pour les bases statistiques, voir le polycopi intitul :
Cours dHydrologie 1 : Statistique (R.Gaudu).
Enseignants 2005-06 : R.Ababou, A. Al-Bitar.
TD : 8 H
TP : H TRAVAIL PERSONNEL : H
OBJECTIFS
Approfondir le cours d'hydrologie gnrale l'aide d'une approche
statistique et probabiliste des processus pluies-dbits, avec des
mthodes de traitement de donnes spatio-temporelles adaptes aux
problmes de l'hydrologie.
No. TD
TD 1/4
TD 2/4
II.
TD 3/4
III.
TD 4/4
III.
Chaptre
RAPPEL : Une tude de cas sera traite en projet (selon les annes), soit sur une problme destimation gostatistique
(variables rgionalises), soit sur la reconstruction de chroniques hydrologiques (processus alatoires).
BIBLIOGRAPHIE :
Bras R. et I.Rodriguez-Iturbe:
Random Functions in Hydrology, Dover, NY.
Chow, Maidment, et al : Applied Hydrology , 1988.
SUPPORTS DE COURS :
Polycopis et documents en ligne :
(\\CRI\spi_com\be\hy\...) ; http://rachid.ababou.free.fr/
Polycopi imprim :
Pour les bases statistiques, cf. le polycopi intitul :
Cours dHydrologie 1 : Statistique (R.Gaudu).
Autres documents :
Diapositives de cours distribus chaque anne.
Documents de TD et Projet distribus chaque anne.
DTAILS ORGANISATIONNELS :
Evaluation 1 :
Ecrit :
Evaluation 2 :
Ecrit : 2 h
BE :
ou BE : week-end
Oral :
Oral :
Enseignants :
R. Ababou Cours : 12 h
A. Al-Bitar Cours :
Semestre :
TD :
TD : 8 h
TP : h
TP : h
3 Hy Semestre E
CHAP. 0
(INTRO)
Documents en ligne:
http://rachid.ababou.free.fr/
( \\CRI\spi_com\be\hy\... )
0.0.
Ph.Tassi : (Proba-stat)
J.Bass: Elments de calcul des proba
Blanc-Lapierre : (Thorie des focntions alatoires)
W.Feller: An introduction to probability theory and applications.
M.Kendall: Advanced theory of statistics (2 vols.)
R.Ababou et al., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
0.0.
0.1.
DONNES HYDROLOGIQUES
Types de donnes
Chroniques hydrologiques horaires, journalires, mensuelles, annuelles.
Exemples : prcipitations P(t) mm/h avec t = 1 h; dbit Q(t) m3/s avec t =1 j.
Rgimes hydrologiques : dbits de la 1re dcade du mois de Juin des annes 1981-2005.
Donnes spatialement distribues : pluies en 23 stations pluviomtriques
Bulletin Hydro
Dtails: BD Hydro
Bulletin Hydro
Dtails: BD Hydro
10
11
12
Hydrologie
Statistique
Source karstique dAliou
(Pyrnes):
pluie 2005-06
et dbit semi-horaires (t=0.5h).
13
14
R.Ababou
et al., INP/ENSEEIHT:
Rgime des dbits spcifiques bimensuels
(t=15j)
la station dAgaliya (Sri Lanka): analyse 15
Hydrologie
Statistique
2005-06
statistique des donnes interannuelles
par quantiles,
et courbe
du dbit moyen interannuel.
16
17
et jaugeage
al., INP/ENSEEIHT:
Stations pluviomtriques en bleu;R.Ababou
stations de
de dbits en rouge. Bassin versant
Hydrologie Statistique 2005-06
de la Gin Ganga (Sri Lanka). Etude D.E.A. de Karine DESNOS 2001 (IMFT/R.Ababou).
18
19
0.2.
21
Le terme "modlisation" s'applique aussi bien l'approche statistique que mcaniste. Dans les deux
cas, la modlisation est utilise pour la prdiction, l'interpolation, ou l'extrapolation, par exemple
lorsqu'il s'agit de connatre les dbits non observs (scnarios climatiques; crues de projet; etc).
Voici 2 exemples spcifiques justifiant le terme "modlisation" dans l'approche statistique.
Ex.1 : Interpolation d'un modle statistique : rgression linaire simple (donc corrlation)
permettant d'estimer ou reconstituer une donne (dbit de Mai 1976 la station S6), une srie de
donnes (dbits mensuels de 1976 la station S6), ou mme une variable ("dbit mensuel de Mai
la station S6"), non directement observe.
Ex.2 : Extrapolation d'un modle statistique : estimation du dbit d'une crue extrme non observe
(e.g. crue dca-millnale) par extrapolation de sa loi de probabilit, estime par ajustement des
donnes crues annuelles.
22
23
Cette tape consiste en l'application d'une analyse statistique aux donnes disponibles, ou mme,
l'application d'un modle probabiliste vis--vis des variables inconnues ou incertaines (les variables
"expliquer", modliser).
Le modle probabiliste formalise l'information contenue dans les donnes (cf. Duband 1982), mais
aussi, le modle probabiliste propose une estimation prdictive de variables/donnes non directement
observes (c'est le point de vue adopt ici).
Exemples:
Ajustement d'une fonction de rpartition au donnes de pluies annuelles Agadir: application pour
prdire les "scheresses" de temps de retour dcennal et centennal.
Rgression linaire entre deux variables hydrologiques: la variable expliquer est Y=Q2, le dbit
mensuel de Mars la station S2; la variable explicative est X=Q1, le dbit mensuel de Mars la station
S1 dans le mme (petit) bassin versant. La modlisation porte sur l'estimation de Y connaissant X. Ce
peut tre un problme de reconstitution de donnes manquantes en S2.
Plus gnralement, la corrlation multiple et l'ACP (Analyse en Composantes Principales) est utilise
pour analyser les relations entre variables hydrologiques observes en plusieurs stations de mesures.
24
Aprs des tests de validation ventuels du modle statistique, la dernire tape consiste en l'exploitation du
modle (avec au pralable des tches de post-traitement), en vue de rpondre aux objectifs (questions poses
par les "dcideurs").
Exemples (questions poses):
quelles stations de mesures sont redondantes?
quel est le dbit de la crue de projet dca-millnale?
gnrer une chronique de dbits journaliers ou horaires, et sa bande de confiance,
sur le site S d'une rivire non jauge;
proposer une cartographie optimale de la pluviomtrie sur le bassin versant B;
etc
25
_ETUDE_PQ_BV-GinGanga-Sri_7pp.pdf
Hydrologie Statistique 2005-06
26
0.4.
27
0.3.
Rgimes hydrologiques.
Exemple : rgime intra-annuel des pluies et des dbits dans un bassin du Sri Lanka
Problme de la rgionalisation des dbits.
Exemple : extrapolation spatiale des dbits partir de donnes pluies & dbits au Sri Lanka.
Identification de la fonction de transfert pluie-dbit (hydrogramme unitaire statistique)
Exemple : identification de la fonction de transfert pluie-dbit par dconvolution pour des
sources karstiques. Application la reconstitution des dbits, analyse des structures
temporelles des dbits et fonctionnement hydraulique des massifs karstiques.
Fonction de
transfert pluie-dbit
pour de sources
karstiques (MidiPyrnes).
Regimes
hydrologiques et
rgionalisation des
dbits (Sri Lanka)
28
29
CHAP.1-A
Enseignants 2005-06
: R.Ababou,
Hydrologie Statistique
2005-06 A. Al-Bitar.
Documents en ligne:
http://rachid.ababou.free.fr/
Web local R.A. free
( \\CRI\spi_com\be\hy\... )
Introduction proba-stat.
P()=1,
P(AB)=P(A)+P(B),
pour tout couple dvnements (A,B) mutuellement exclusifs ou incompatibles, cest--dire
encore disjoints, tels que A B = . Comme tous les vnements lmentaires sont par
dfinition disjoints (mutuellement exclusifs deux deux) on a donc aussi :
Proba{}
= 0
Proba{pile}
= 1/2
Proba{face}
= 1/2
Proba{pile ou face} = 1
PO
PA
PB
AB
PAB
10
PO
AB
PA
PB
PAB
Pr oba{A I B}
Pr oba{B}
PAB
Pr oba{AB}
Pr oba {A B} =
=
Pr oba{B ou AB} PB + PAB
Pr oba {A B} =
o Proba{A|B} dnote la probabilit conditionnelle que A se produise si B sest produit (de faon
dterministe, sans incertitude). Le signe signifie et, AND. Le signe signifie ou
non exclusif (OR) ne pas confondre avec le ou exclusif (XOR).
11
lim
X 1 + ... + X N
=m
N
lim
X 1 + ... + X N
= Z o Z : 0, 2 suit une loi de Gauss
X
N
La somme dun grand nombre de V.A.s relles Xi a donc tendance suivre une loi de Gauss.
Remarque sur les processus multiplicatifs ( partir des processus additifs ci-dessus) :
Il suffit de poser Xi = ln(Yi), avec Yi positive, pour voir apparatre le produit des Yi (Yi=exp(Xi)) au
lieu de la somme des Xi. Noter que, si Z est gaussienne, la variable exp(Z) est dite log-normale. Le
produit dun grand nombre de VAs Yi relles positives a donc tendance suivre une loi log-normale.
R.Ababou et al., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
12
Gnrateurs entiers multiplicatifs congruentiels. Ceux-ci permettent de gnrer une squence de nombres
entiers Ni purement alatoires entre [0,M], ce qui permettra ensuite de gnrer une squences de v.a. relles
uniformment distribue dans lintervalle [0,1].
Gnrateurs recommands. Exemples de bons gnrateurs dentiers 32 bits [et 64 bits] bien tests.
Problmes et piges. Cycle du gnrateur. Sous-cycles, auto-corrlations, et autres proprits indsirables.
Un gnrateur particulier dentiers alatoires (entiers 32 bits, avec un cycle de 2**18 million).
Spcifier un grain (seed) N0 :
N i = ( L * N i 1 + C ) mod( M ) ,
avec ici :
Multiplicateur :
L = 3+(2**10)
Constante entire :
C=0
Module :
M = 2**20
U i = float ( N i / M )
13
X (i ) = FX1 U (i )
f X ( x) =
FX ( x) =1 e
X (i ) = ln 1 U (i )
Dsavantages : la fonction rciproque FX-1(u) peut tre difficile expliciter : par ex., pour la gaussienne, FX(x)
scrit en termes dune fonction spciale, erf(x), dont il faut obtenir la rciproque (tables numriques, ou
approximations rationnelles cf. Abramowitz et Stegun).
Gnrateurs disponibles dans les logiciels
Voir par exemple les librairies et les fonctions Fortran, ou encore, les fonctions disponibles dans MATLAB :
la fonction rand de MATLAB gnre une V.A. uniforme U[0,1] ;
la fonction randn de MATLAB gnre une V.A. normale N(0,1), i.e., loi gaussienne centre rduite.
R.Ababou et al., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
14
FdR : FX ( x ) = Pr ( X x ) ,
= dFX ( x )
DdP :
f X ( x) =
= FX ( x + dx ) FX ( x )
dFX ( x )
f X ( x )dx =
dx
= Pr ( X x + dx ) Pr ( X x ) .
= Pr ( x X x + dx )
o Note : fX(x)dx reprsente un incrment de probabilit [adimensionnel], tandis que fX(x) est une
densit de probabilit en units inverses de x : [units de x-1]. La relation entre la densit fX(x) et
la frquence f% dun histogramme de frquences est : f% 100 fX(x) x. Utiliser cette
relation pour comparer sur un mme graphe lhistogramme de frquences la densit de proba.
15
LOI DE PROBA DUNE V.A CONTINUE RELLE : FdR, DdP, & estimations empiriques
2.
3.
Soit fj-1/2 = nj-1/2 /N , la frquence empirique pour lintervalle Ij-1/2 centr sur xj-1/2
Lhistogramme des frquences et la DdP empirique sobtiennent alors comme suit :
n j 1/ 2
f j 1/ 2 =
f j 1/ 2
fX ( x )
, x [x j 1 , x j ]
x
j=N
(et : f% = 100f).
x x j 1/ 2 n j 1/ 2
x
N , o (x) est la
x
j =1
fonction crneau unitaire (box function) centre sur lorigine, de largeur unit et hauteur unit.
R.Ababou et al., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
16
LOI DE PROBA DUNE V.A CONTINUE RELLE : FdR, DdP, & estimations empiriques
17
LOI DE PROBA DUNE V.A CONTINUE RELLE : FdR, DdP, & estimations empiriques
o Estimation empirique d'une Fonction de Rpartition : (1) par histogramme
Voir plus haut lhistogramme des frquences : il suffit de le cumuler
On obtient la courbe des frquences cumules, qui est aussi la FdR empirique
estime, soit :
Frquences cumules :
k= j
k= j
k =1
k =1
F j 1/ 2 = f k 1/ 2 =
nk 1/ 2
N (F% = 100F).
F. de Rpartition empirique : FX ( x ) F j 1 / 2 , x x j 1 , x j
DdP: f
FdR: f
18
t25
0.8
0.7
0.6
ZOOM
0.5
0.4
0.3
0.2
0.1
100
200
300
400
500
600
700
800
900
1000
Temps t
reclass
tc1 = t7
tc2 = t18
tc3 = t4
tc25= t11
Indices des
donnes classes
jc1 = 7
jc2 = 18
jc3 = 4
jc25 = 11
Donnes
classes
xc1 = x7
xc2 = x18
xc3 = x4
xc25 = x1
j 1
2 , ( j = 1,..., N )
(x ) =
F
X
j
2. Appliquer la formule de Hazen point par point :
N
FX (x j ) Pr ( X x j ) , ( j = 1,..., N ) .
NB. Intuitivement, cela donne bien :
19
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
100
200
300
400
500
600
700
800
900
1000
20
LOI DE PROBA DUNE V.A CONTINUE RELLE : FdR, DdP, & estimations empiriques
o Estimation empirique d'une Fonction de Rpartition : (2) par points (Hazen)
Exemple de comparaison Hazen / histogramme (donnes = dbits spcifiques)
21
o Estimateurs statistiques de moments : moyenne; variance (et : covar.; coeff de corrl. ; etc)
Soit une VA relle X : on observe N ralisations de X, quon notera : {x1, x2, , xN }. On suppose ici
que la population (le nombre de rpliques thoriquement disponibles) est infinie. On dispose donc de
N ralisations (observations) tires dune population thoriquement infinie.
Estimateur de la moyenne dune V.A. relle partir dun chantillon de taille fini N
Estimation :
m X =
1 i= N
xi
N i =1
Erreur destimation :
RMS (m X ) =
Estimation :
X2 =
Erreur destimation :
RMS ( X ) =
o (par dfinition) :
X ) Var(m X )
RMS ( m
N
N
Estimateur de la variance dune V.A. relle partir dun chantillon de taille fini N
(estimateur sans biais, en supposant la moyenne connue, pour N grand >>1) :
1 i= N
( xi m X )2 do : X =
N 1 i =1
X
1 i= N
( xi m X )2 ().
N 1 i =1
2N
R.Ababou 2
etNal., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
22
m X =
1 i= N
1 i= N
xi = 230.5 mm
X =
( xi m X )2 = 111.9 mm
Ecart-type
:
N i =1
N 1 i =1
NB : lcart-type est estim ici en prenant la racine carre de lestimateur sans biais de la variance.
C X X = 0.48 = 48%. .
m X
Le coeff de variation des pluies annuelles est 50% (forte variabilit interannuelle, climat semi-aride).
Intervalle de confiance 80% de la vraie moyenne interannuelle ?
On cherche lintervalle de confiance 80% de la vraie moyenne interannuelle m (inconnue) autour de
moyenne estime m (connue). On utilise pour cela le rsultat suivant. Pour N suffisamment gra
(supposons ici que N=58 est suffisamment grand), la variable m suit une loi gaussienne N(m,2) o
lcart-type derreur dchantillonnage, ou erreur RMS , donne plus haut. On en dduit que :
I 80% (m X ) = [m X 1.28 m ] = m X 1.28 X = 230.5 19.0 mm.
N
23
n=<(x-m)n>,
2 =2 =<(x-m)2>.
= 2
Le coefficient de variation est quantifie le degr de variabilit d'une variable alatoire positive :
(5)
CV ou C = /m.
Enfin, les moments centrs d'ordre 3 et 4 sont aussi utiles pour les ajustements ; ils sont dfinis par :
(6)
3=<(x-m)3>.
(7)
4=<(x-m)4>
24
A partir des moments centrs dordre 3 et 4, on dfinit les coefficients d'asymtrie (skewness) et
d'aplatissement (kurtosis), ou coefficients de Fisher (Ventsel 1973, Tassi 1989) :
(8)
: On montre que = 0 pour une distribution symtrique, puisque les moments d'ordre impairs sont
alors nuls. Le coefficient est positif pour une loi asymtrique comme la loi log-normale ou la loi
exponentielle (>0: queue de distribution persistante vers les x >> mX). Il est ngatif dans le cas contraire
(exemple : loi suivie par y = x0-x, o x suit une loi exponentielle ou log-normale).
: Le coefficient daplatissement = 0 par construction pour une loi de Gauss ; on a > 0 pour une
densit de probabilit plus pointue que la loi normale, et ngatif pour une densit plus "aplatie".
Exemple : la loi de Laplace densit exponentielle symtrique est trs pointue car elle prsente un
point de rebroussement l'origine ; son coefficient d'aplatissement est fortement positif ( = +6).
25
(10)
1
f X ( x) =
e
2
( x m) 2
2 2
pour x R
3 = 0
Les moments dordre pair de la loi normale (centre rduite) sont (voir par exemple Tassi 1989) :
(9)
x 2 p = 2 p = 2 p
( p + 1 / 2 )
= 1 3 (...) (2 p 1)
(1 / 2)
Les coefficients d'asymtrie et d'aplatissement (dfinis + loin) sont donc nuls : (11)
4 = 3 .
= 0 ; = 0.
La fonction de rpartition (FdR) FX(x) de la loi de gauss, intgrale de fX(x), est une fonction spciale :
1
x
FX ( x ) = 1 + erf
2
2
erf ( x )
e
0
u 2
du ;
erfc( x ) 1 erf ( x ) .
26
27
28
29
0.6
0.5
0.7
Fonction de Rpartition F(x)
0.8
0.4
0.3
0.6
0.5
0.4
0.3
0.2
0.2
0.1
0.1
3.5
4.5
5.5
x
6.5
7.5
3.5
4.5
5.5
6.5
7.5
30
Q(t)
Q(T)
lnQ(t)
x (non classes).
6.5
5.5
4.5
4
1958
1960
1962
1964
1966
1968
t
1970
1972
1974
1976
1.
1.3.
1978
31
...en construction...
32
ANNEXES du CH.1-A
33
Ci-contre,
la
courbe
hypsomtrique
et
l histogramme de frquences
altimtriques, superposs sur un
mme graphe avec aires en
abscisse, altitudes en ordonnes.
NB : comparer au rectangle
quivalent ci-dessous
34
Une ligne isochrone est un contour reliant les points du bassin caractriss par un mme
temps de transfert () de lcoulements de surface (ruissellement net) jusqu un point
exutoire donn. Lexutoire peut tre par exemple une station de jaugeage dun cours
deau. A partir du trac de diffrentes courbes isochrones, correspondant des dlais de
transferts n = n., on dfinit des tranches de bassins supposes contribuer
uniformment au dbit lexutoire avec un dlai connu (le temps n de lisochrone
correspondante). On peut alors construire lhistogramme Time Area (TA) qui est la
reprsentation graphique des contributions successives de ces tranches, en reportant la
surface comprise entre deux lignes isochrones adjacentes en fonction du temps sur un
graphique. [Voir applications dans le cours dhydrologie des bassins.]
35
p.1/2
% On suppose que les dates "t" et les observations "x" sont dj disponibles
% et sont stockes dans une matrice TX=[t x] N lignes et 2 colonnes
% (1re colonne = "t" ; 2me colonne = "x").
% Le 1er vecteur colonne (t) contient les dates des observations,
% ou encore un label numrique associ aux observations, tandis que
% le 2me vecteur colonne x contient les valeurs des observations.
% Voici un exemple pour les crues annuelles de l'Oued Mdez (m3/s):
>>load Q_MDEZ_IN_NOHEADER.txt
(ce fichier contient les 2 colonnes t et x)
>> q_mdez = Q_MDEZ_IN_NOHEADER
(ceci pour simplifier le nom)
>> TX = q_mdez
(autre alias de q_mdez ; rappel : ce tableau contient les 2 colonnes [t x])
>> Excuter alors le programme STAT_PDF.m dont voici des extraits ci-dessous
% PARAMETRES A REGLER EN FONCTION DE L'APPLICATION (ici, cas des donnes crues Mdez)
> Tmin=1955;Tmax=1980;
> Xmin=0; Xmax=1200;
> Xlabel='Crues Annuelles Oued Mdez (m3/s)';
> Tlabel='Annes';
DXbin=input('ENTRER `DXbin`, la largeur des intervalles de l`histogramme : ');
% TX = Matrice Nx2 des dates "t" et des observations "x".
% t = DATES OU LABELS DES OBSERVATIONS (non classes)
% x = OBSERVATIONS (non classes)
% Noter lorganisation des donnes en 2 vecteurs colonnes :
% t
x
% 1956.5 125
1re ligne
%(1957.5) (----)
(anne manquante limine)
% 1958.5
52.7
2me ligne
% ......
...
% 1978.5
85
22me ligne
% 1979.5
1077 23me ligne.
36
(p.2/2)
% Fonction de repartition empirique Fx point par point (empirical CDF, computed pointwise)
% Fx = (i-0.5)/N (formule par points de Hazen)
Fx=(0.5/N:1/N:1-0.5/N);
figure; plot(xc,Fx,Style1,xc,Fx,Style2); grid; axis([Xmin Xmax 0 1]);
xlabel(Xlabel);ylabel('Fonction de Rpartition F(x)');
title('Fonction de Rpartition Empirique (Formule de Hazen)');
% Calculs de diffrents histogrammes : nombre doccurrences (ni), frquence (fri=ni/N),
% et frquences cumules (Fi), cette dernire tant galement la fonction de rpartition.
figure; xbins=[Xmin+(DXbin/2):DXbin:Xmax-(DXbin/2)]; hist(xc,xbins);
title('Histogramme du nombre d`occurrences, ni (adimensionnel).');
figure; fri=hist(xc,xbins)/N; bar(xbins,fri);
title('Histogramme des frquences, fri=ni/N (adimensionnel).');
figure; fi=fri/DXbin; bar(xbins,fi);
title('Histogramme de densit de proba, fi=ni/N/DXbin (units=1/x).');
figure; Fi=cumsum(fri); axis([Xmin Xmax 0 1]); bar(xbins,Fi);
title('Histogramme des frquences cumules ou f. de rpartition, Fi (adim.)');
RETOUR
37
ADDENDUM (3 pages)
0.50
0.60
0.70
0.80
0.90
0.95
0.99
0.995
Question 2.
Soit une rgression linaire Y=aX+b+ entre variables gaussiennes (X,Y).
Obtenir les intervalles de confiance 80% et 98% de Y autour de la droite de
rgression Y=aX+b, connaissant les carts-types : X 1, Y 2, et le
coefficient de corrlation : -0.5 .
On peut consulter une table de la loi normale, ou bien utiliser le tableau sommaire ci-inclus.
Rponse / 1.
L'objectif est de caractriser une rgion (intervalle) t.q. la V.A. ait une
probabilit "P" d'appartenir cette rgion (intervalle). Dans la plupart des
applications, il s'agit de dterminer un intervalle de confiance autour de la
moyenne : c'est ce qu'on demande ici. La procdure est illustre graphiquement
pour l'intervalle I80% (de probabilit P=80%) 2 :
Utiliser la table donnant la FdR normale FU(u) pour U gaussienne centre rduite:
La table donne : FU(u) = Proba(U u) pour une v.a. U de loi normale N(0,1)
(et de mme) :
2
On a utilis la fonction erreur erf(x) de MATLAB pour tracer la FdR de la loi normale: F(x) = 0.5*(1+erf(x/2)).
(etc)
Or :
D'o:
CHAP.1-BB
Enseignants 2005-06
: R.Ababou,
Hydrologie Statistique
2005-06 A. Al-Bitar.
Documents en ligne:
http://rachid.ababou.free.fr/
Web local R.A. free
( \\CRI\spi_com\be\hy\... )
PLAN
Notions de crues (G.Rmniras, Hydrologie de lIngnieur, Ch.IX: Etude des crues).
Crues annuelles, prise de maximum, lois de proba suivies par les V.A. extrmes de
type crues annuelles : 1. Gumbel (double-exponentielle) ; 2. Frchet ; 3. Weibull
Dpassements de seuils ; excursions dune chronique alatoire Y(t) au-dessus dun
seuil >> mY ; mergence du processus de Poisson pour le nombre dvnements
dpassement du seuil ; et application de la loi de Poisson pour lestimation des
probabilits de crues rares , dpassant un seuil lev (temps de retour T >> 1 an).
Dfinition axiomatique de la loi de Poisson et/ou du processus discret de Poisson.
Application : estimation dune crue de projet dcennale et fiabilit de
lestimation. Ref. : Guide Pratique de la Mthode Inondabilit , Agences de lEau,
1998 (Agence Rhne-Mditerrane-Corse / Etude CEMAGREF : O.Gilard, P.Givone,
G.Oberlin, N.Gendreau et al.).
Etude des crues annuelles de lOued Mdez : analyse des crues rares observes parmi
les 23 annes de donnes disponibles(application des lois de Gumbel & de Poisson).
TD1 : Etude des probas de retour des crues historiques de la Garonne Toulouse.
PLAN
Notion(s) de crues : voir par exemple G.Rmniras (Hydrologie de lIngnieur :
Chap.IX : Etude des crues).
Crues annuelles, prise de maximum, lois de proba suivies par les V.A. extrmes de
type crues annuelles : 1. Gumbel (double-exponentielle) ; 2. Frchet ; 3. Weibull
Dpassements de seuils ; excursions dune chronique alatoire Y(t) au-dessus dun
seuil >> mY ; mergence du processus de Poisson pour le nombre dvnements
dpassement du seuil ; et application de la loi de Poisson pour lestimation des
probabilits de crues rares , dpassant un seuil lev (temps de retour T >> 1 an).
Dfinition axiomatique de la loi de Poisson et/ou du processus discret de Poisson.
Application : estimation dune crue de projet dcennale , et fiabilit de
lestimation (cf. Guide Pratique de la Mthode Inondabilit , Agences de lEau, 1998).
Etude des crues annuelles de lOued Mdez : analyse des crues rares observes parmi
les 23 annes de donnes disponibles(application des lois de Gumbel & de Poisson).
TD1 : Etude des probas de retour des crues historiques de la Garonne Toulouse.
Notion(s) de crues
NB : Remarques reprises en partie de G.Rmniras (Hydrologie de lIngnieur, Chap.IX : Etude des crues).
Noter que la hauteur deau en rivire (H) est plus facile mesurer que le dbit (Q). Pourtant, dans
bien des applications, cest le dbit de crue qui est requis, et H(t) sert alors uniquement obtenir
Q(t) par une courbe de tarage pr-ajuste Q=f(H). Dans dautres applications, cependant, la hauteur
deau elle-mme peut jouer un rle direct dans les calculs (protections / plaines dinondations).
De plus, la variable dbit ne suffit pas caractriser le phnomne physique crue . Ainsi, si
lon peut considrer chaque crue comme un processus hydrologique clairement identifiable,
alors lhydrogramme de crue est caractris non seulement par le dbit de pointe, mais aussi par le
volume net de la crue (V) et par sa dure (diffrents temps caractristiques : de concentration, de
base, de rponse ou de pointe). Pour un vacuateur de crue, les pointes sont trs importantes (mais le
volume aussi) ; et pour un rservoir de protection contre les crues, le volume de crue est essentiel.
Exemples de records dintensits de pluies et de dbits spcifiques (Pyrnes Orientales):
i = 4 mm/mn en 1 h ; q = Q/A 25000 l/s/km2 .
R.Ababou et al., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
10
9
8
Dbits
1770
1815
1850
1876
1900
1905
1916
1923
1932
1941
1943
1945
1947
1949
1951
1953
1955
1957
1959
1961
1963
1965
1967
1969
1971
1973
1975
1977
1979
1981
1983
1985
1987
1989
1991
1993
Annes
1 an
(365j)
{X j }
Dfinition. Une V.A. extrme Y rsulte dune prise de maximum : Y = jMax
=1,..., N
{QJOUR ( j )}
Exemple. Le dbit de crue annuel est dfini, chaque anne, par : QCRUE = j =Max
1,..., 365
Rsultat thorique. Lorsque N (ici on a N=365 >> 1) la V.A. extrme (Y) ne dpend
que faiblement de la loi de proba de (Xj), et on sait que (dans des conditions assez
gnrales) la loi de (Y) tend vers une des trois lois de probabilit suivantes :
1. Gumbel (double-exponentielle)
2. Frchet
3. Weibull
X
F ( X ) = exp exp
Relation Paramtres-Moments
et ajustement par les moments
= m X 0.45 X
= X / 1.28
Ajustement graphique de la FdR
sur papier spcial Gumbel (-log(-log))
QMEDIANE
QMAX
mQ
CVQ
10
6X
1
0.780 X
x0 = m X
EULER
a
m X 0.450 X
EULER 0.577...
En appliquant ceci aux dbits de crues Q, avec les moments empiriques mQ271.3 m3/s et
Q270.7 m3/s, on obtient :
a 0.00473606 (m3/s)-1 ,
2. Calculons FQ(1070) :
qo 149.485 m3/s.
1
1
En insrant la F.d.R double-exponentielle (loi de Gumbel) on obtient : q = q0 a ln ln1 T
R
1
1
11
Dpassements de seuils.
Excursions dune chronique alatoire Y(t) au-dessus dun seuil donn bY >> mY.
Une dfinition axiomatique de la loi de Poisson est prsente dans la diapo qui suit
12
A Poisson point process can be defined by three axioms [modified from H.A.Taha, Operations research,
Chap.13: Queueing theory, McMillan Publishing Co., New York, 1976] as follows :
1. The number of events n(t) occuring in [0,t] is a random point process with stationary & independent increments.
Stationary increments: The increments n(t2)-n(t1) and n(+t2)-n(+t1) are identically distributed for all values of .
In other words, the increments depend only on the size of the interval (T=t2-t1), so we can write nT for the
increment n(t2)-n(t1). Note: t1 t2.
Independent increments: Non-overlapping increments are statistically independent. In other words, n(t2)-n(t1) is
independent of n(+t2)-n(+t1) if (t2-t1). For instance, the number of events in [t1,t2] is independent of the
number of events in [t2,t3]. Note: t1 t2 t3.
2. T (0 < T < ) : 0 < Prob{nT = 1} < 1
In other words, for any given interval [t,t+T] of finite non zero size T, there is a non zero (but less than 100%)
probability of having exactly one event within that interval.
Pr{nT 2} = 0
3. Tlim
0 +
That is, in a sufficiently small/infinitesimal time interval, there cannot be more than one occurrence of the random event.
NB: Axiom 1 is used in Axiom 2 and Axiom 3. In particular, we used the fact that Prob{n(t+T)-n(t)=k} does not depend on t, and can be
expressed as Prob{nT = k}, which is is the usual definition of Poissons law (probability of observing k events in time interval of size T).
13
Rponse :
TD
T
R
{
}
P
Pr
K
k
exp TD
k!
14
Dans cette tude, il est suggr quune estimation fiable du dbit de la crue dcennale
requiert N >> 5 annes dobservations de crues annuelles.
De faon plus gnrale, N >> T/2 annes dobservations seraient ncessaires pour
lestimation dune crue de temps de retour T annes mais noter que lapplication de
ce critre lestimation dune crue de projet dca-millennale conduirait requrir plus
de cinquante sicles de donnes de crues [le contexte applicatif est alors sans doute
trs diffrent, dans ce cas, de celui envisag par les auteurs de ltude pr-cite].
15
Voir aussi le TD1 : Etude des probabilits doccurrences des crues rares de la
Garonne Toulouse (donnes modernes et historiques , sur plus de deux sicles).
16
ANNEXE
Pn Loi de Poisson : probabilit dobserver exactement n vnements sur une dure TD fixe.
Q Dbit de crue annuelle (variable alatoire de fonction de rpartition FQ(q))
QTR Dbit de crue de temps de retour TR (par exemple, Q100 = dbit de la crue centennale)
Crues biennales (TR = 2ans), dcennales (TR = 10ans), centennales (TR = 100ans), millennales (TR = 1000ans)
-1-
Formulation du problme
On a tudi la loi de probabilit de la variable alatoire crue annuelle Q. On
connat sa fonction de rpartition FQ(q) empirique, et on dispose dune loi thorique
ajuste celle-ci, par exemple la loi de Gumbel ajuste par la mthode des moments.
On peut donc utiliser la loi modle FQ(q) pour obtenir la valeur du dbit de crue
annuelle ayant par exemple une probabilit 0.90 de ne pas tre dpasse :
TR =
1 FQ (qTR )
1
1 Pr (Q qTR )
1
1
1
FQ (qTR ) =1
qTR = FQ 1
TR
TR
-2-
q100
SEUIL
tANS
-3-
Thorie. Les rsultats de la thorie de Rice pour les processus salatoires tationnaires
gaussiens indiquent que les excursions dun processus alatoire Y(t) au-dessus dun seuil
donn YSEUIL, tendent devenir des vnements ponctuels lorsque le seuil est suffisamment
lev. Les zones dexcursion tendent vers des points. Les valeurs du processus au-dessus du
seuil concident avec des maxima locaux isols de Y(t), avec un seul maximum par intervalle
dexcursion. La distribution des points-excursions (dpassements) suit un processus temporel
de Poisson, ou de faon quivalente, le nombre de dpassements ponctuels sur une dure
dobservation donne (TD) suit une loi de Poisson. Enfin, la densit de la loi de Poisson est
donne par = 1-F(YSEUIL), tant le nombre dvnements / unit de temps.
En appliquant ceci aux dbits de crues annuelles Q(ti), on obtient donc le rsultat thorique :
-4-
Pn Pr{k = n}
( TD )n
n!
exp( TD )
Mais, sachant que la densit de la loi de Poisson (nombre moyen dvnements par
unit de temps) est donne par = 1/TR, la loi scrit aussi,
n
T
D
TR
T
Pn Pr{k = n}
exp D ,
TR
n!
n dpassements de la crue TR-ennale (de temps de retour TR) sur une dure donne TD.
n = .TD
n = Var(n) = .TD
re
re
f
.
e
Densit
de
proba
du
temps
t
de
1
arrive
(1
occurrence)
1
: t1
;
cest une loi exponentielle, de moyenne <t1> = 1/ = TR et dcart-type t1 = <t1> = TR.
Le temps de retour TR est donc, aussi, le temps moyen de 1re occurrence (dun dpassement).
( )
-5-
1
Pn Pr{k = n} exp( 1)
n!
P0 Pr{k = 0}
1 1
e = (2.718) 1 0.368
0!
1
P1 Pr{k = 1} e 1 0.368
1!
1
P2 Pr{k = 2} e 1 0.184
2!
Remarque : la probabilit davoir au moins une crue dcennale en dix ans est de 0.632, soit
environ 63% (ce nest ni 50%, ni 100% comme on pourrait peut-tre le croire) !
-6-
TD1
Univar :
lois de proba
Gumbel+Poisson:
crues Garonne
(sujet & indications)
autour
de
lvaluation
des
temps
Q 1000 m3/s
7000
6000
H3m
H5m
Q 2000 m /s
Q 4000 m3/s ()
5000
4000
Tarage Q=f(H)
3000
2000
1000
H8m
0
0
TD Hydrologie Statistique
Hydrologie Statistique
TD 1
Crues annuelles, vnements rares,
et loi de Poisson
Ahmad Al-Bitar
TD Hydrologie Statistique
Gar
o
nne
Pont-Neuf
TD Hydrologie Statistique
6000
5000
Q (m3/s)
4000
3000
2000
1000
0
0
10
H (m)
TD Hydrologie Statistique
1
0,9
srie historique
0,8
0,7
0,6
0,5
srie scientifique
0,4
0,3
0,2
0,1
2
2,5
3,5
4,5
5,5
hauteur (m)
6,5
7,5
8,5
TD Hydrologie Statistique
H
F ( H ) = exp exp
= mH 0.45 H
= H / 1.28
Mthode dajustement graphique
-graphique en double log
valuation de lajustement
-Test du Khi-Deux
TD Hydrologie Statistique
Test Khi-Deux
TD Hydrologie Statistique
Tableau
TD Hydrologie Statistique
Question 2
Utilisez la FdR propose pour obtenir la crue annuelle
centennale
CHAP. 2
Enseignants 2005-06
: R.Ababou,
Hydrologie Statistique
2005-06 A. Al-Bitar.
Documents en ligne:
http://rachid.ababou.free.fr/
Web local R.A. free
( \\CRI\spi_com\be\hy\... )
FX ,Y ( x, y ) = Pr ( X x, Y y )
2 FX ,Y
f X ,Y ( x, y )dxdy = dFX ,Y ( x, y )
= Pr ( x X x + dx, y Y y + dy )
f X ( x) =
DdP marginale fX :
f X ,Y ( x, y )dy
IR
fY X ( y x ) =
f X ,Y ( x, y )
f X ( x)
f X ,Y ( x, y ) = fY X ( y x ) f X ( x ) = f X Y ( x y ) fY ( y )
f R (r ) =
1 r 2
r exp
2 2
1
2
2
Si lon a X : N(0,X ) et Y : N(0,Y ), avec (X,Y) indpendantes, leur densit jointe est :
f X ,Y ( x, y ) =
1 x 2 y 2
exp 2 + 2
2 X Y
2 X Y
1
1
exp
2 X Y
2
2
1
2
x 2
x y y
+
X
X Y Y
NB. Voir plus loin la loi de probabilit gaussienne multivarie gnrale : vecteur multivari gaussien de taille N :
N(mX,Cxx), o mX est le vecteur moyenne de taille (N) et Cxx la matrice de covariance de taille (NN).
Y2
Cov( X , Y )
Coeff de corrl. : X ,Y =
Cov ( X , Y )
XY
Matrice de corrlation 22
1
R X ,Y =
()
f ( ) = U [0,2 ] .
X = m X + X .G1
Y = mY + Y . G1 + 1 2 G2
Y = a.X+b+e e = Y-a.X-b
Cette dernire quation dfinit du mme coup l'erreur "e", qui est aussi une variable
alatoire. Les coeffs de rgression sont calculs de faon que "e" soit de variance minimale, et
de moyenne nulle ( <e> = 0 ). L'erreur tant sans biais, l'estimation est donc sans biais.
La rgression linaire classique est donc une estimation linaire (optimale et sans biais) de la
variable Y (explique), en fonction de la variable explicative X, qui est alors considre
comme fixe (dterministe).
10
Variable expliquer :
Estimation optimale de Y :
Erreur commise sur Y :
Y = a X +b + e
Y* = <Y|X> = a X +b
e = Y - Y*
Formules classiques doptimalit & non biais :
a = Y/X ;
b = <Y> - a <X> ;
e2 = (1-2) Y2 .
Remarques et conclusions :
La relation Y = aX+b+e est alatoire, tandis que lestimation Y* = aX+b est dterministe.
Le modle de rgression linaire permet non seulement d'estimer Y, mais aussi de
quantifier statistiquement l'erreur d'estimation (variance E2).
L'estimation Y* calcule par rgression linaire reprsente la valeur la plus probable de Y
tant donnes les observations de X (thorie Bayesienne).
Tout ceci n'est vrai, en toute rigueur, que si (X,Y) sont conjointement gaussiennes.
R.Ababou et al., INP/ENSEEIHT:
Hydrologie Statistique 2005-06
11
12
Annes
1928
1929
1930
1931
1932
1933
1934
1935
1936
1937
1938
1939
1940
1941
1942
1943
1944
1945
1946
1947
1976
S1 - MENS
Mars
61
7
109
90
59
33
74
41
56
143
3
53
X
45
19
8
19
19
X
103
57
Avril
84
65
53
40
67
21
135
18
132
56
19
91
X
83
23
25
30
17
X
35
60
S2 - ROISSARD
Mars
44
3
135
116
101
83
88
91
64
188
3
86
50
55
40
12
20
18
60
134
62
Avril
132
79
115
57
89
44
130
131
132
78
7
92
112
117
42
35
30
18
44
31
65
13
14
(i=1,,N)
i=k
Z k = Ei
i =1
Les Ei ont tous les mmes moments univaris : i ce sont des vars gaussiennes de moyenne nulle et d'cart-type E :
<Ei> = 0 i
et
<Ei2> = E2
i
De mme les (Ei,Ej) ont des moments croiss tous gaux (i,j) avec (ij), mais l'esprance <Ei.Ej> n'est pas nulle car les
(Ei,Ej) ne sont pas indpendants cause de la contrainte:
i= N
E2 si i = j
ou encore <Ei.Ej> = E2 [R+(1-R)ij ] ,
R E2 si i j
o R est le coeff. de corrlation crois (Ei,Ej) d la contrainte ZN=0. On obtient alors, successivement :
i=k
<Zk> =
i=k
< Ei >= 0 = 0
i =1
i =1
i =k j =k
i =1 j =1
i =k j =k
i =1 j =1
[R + (1 R) ]
ij
E2 =
i =k
E2
i =1
i =k
j =k
i =1 j =1( j i )
R E2 = 1.k.E2+ R.k.(k-1).E2
Mais on sait par ailleurs que ZN=0 ("contrainte"), d'o ZN2 = 0, ce qui permet de dterminer le coefficient de corrlation
crois des rsidus (R) :
ZN2 = 1.N.E2 + R.N.(N-1).E2 = 0 R = -1 / (N-1).
D'o finalement le rsultat : Zk2 = k [ 1 - (k-1) / (N-1) ] E2
Zk = k 1
k 1
E .
N 1
Conclusions : l'cart-type Zk (k) dcrit une ellipse ; de plus, si les (Xi,Yi) sont gaussiens, les rsidus Ei aussi; et les rsidus
et al., INP/ENSEEIHT:
cumuls Zk aussi ; on a donc : Zk = N(0,R.Ababou
[daprs R.Ababou, 2000] 19
Zk).
Hydrologie Statistique 2005-06
0.30
20
Y (1)
(i )
Y = Y
M
(
N
)
Y
X (1) K X (1)
p
1
M
M
( N)
X (N)
Xet1 al., K
R.Ababou
INP/ENSEEIHT:
p
Hydrologie Statistique 2005-06
21
mX j =
mY =
1
N
1
N
X (ji )
i
Y (i )
x j = X j mX j
y = Y mY
Y = a 0 + a jX j +
j=1
a1
avec a = M
a (1.a) Vars brutes
p
En crivant ceci pour toutes les observations dont on dispose cela donne :
Y
= a0 . 1 +
. a
(1)
(1)
(1)
Y (1)
1 X1 K X p a1
.M + M
M
= a 0 .M + M
(1.b) Variables-Observations
( N)
( N)
(
N
)
1 X K X (N)
a et al., INP/ENSEEIHT:
R.Ababou
Y
p p
1
Hydrologie Statistique 2005-06
22
0 = m =
1 N (i ) 1 T
= N 1 .
N i =1
1 T
1 .{Y a0 .1 X .a}
N
1
a
1
= 1T .Y 0 1T .1 1T . X .a
N
N
N
= m Y a0 m x .a
a0 = mY m X a (2 )
En insrant cette quation dans lquation (1.a)
on obtient, en variables centres :
y = x.a +
en
= y x.a
( 2me approche)
23
2 = y2 2 C y x .a + aT .C x x .a
Condition doptimalit du 1er ordre
2
Grad a ( ) = L
L = 0
a j
2
2 C xy + 2 C x x .a = 0
Do, aprs calculs :
a = C x x 1 . C y x T
(4)
24
Min a T
= y x.a
( 2me approche)
T = ( y x a )T ( y x a ) = y T y y T x a a T x T y + a T x T x a
( T )
T
Grad
(
)
=
L = 0
L
a
La condition doptimalit du 1 ordre se traduit par :
a j
er
2 xT y + 2 xT xa = 0
(p, N)(N,1) (p, p) (p,1)
Do :
a = ( x T x )-1 x T y
(5)
Cx x =
1 T
x .x
N
Cy x =
et
1 T
y x
N
(6)
25
{ }
1 T
1 T
=
y y y T x a a T x T y + a T xT x a
N
N
= y T y y T x( xT x) 1 xT y y T x( xT x) 1 xT y + yT x(( xT x) 1 )T xT x( xT x) 1 xT y
144244
3 14243
N
1
a
Var ( ) =
2 =
{ }
1 T
1
1
1
1
= y T y y T x( xT x) 1 xT y
N
N
N
N
N
Cette formule donne directement la variance derreur (minimale) en fonction des donnes
empiriques. De faon quivalente on peut crire :
2 = y2 C y x C xx1C y x T
2
2y 1 R y x
Rx x R y x
2 = 2y( 1 R 2 )
T
R = R y x Rx x 1 R y x T
26
a = C xx 1C yxT =
x2
cov( x, y ) =
y
x
(4)
2 = y2 (1 2 )
(7)
Y = a0 + X a +
a0 = mY m X a
Ordonne lorigine :
( p ,1)
C X X 1. CY X T
( p, p )
( p ,1)
Variance derreur :
2 = Y2 1 R 2
R = RY X RX X 1 RY X T
(1,1) (1, p ) ( p, p ) ( p,1)
27
28
TD2
Matrice covar,
regression, ACP
(sujet & indications)
N= 1000
Input correl coeff of gaussian vectors [x1],[x2]:
rho = -0.5000
Computed correl coefficient of gaussian vectors:
rho = -0.5072
Input means of gaussian vectors [x1],[x2]:
Mu1 = 0
Mu2 = 0
mu1 = -0.0138
mu2 = 0.0037
Sigma1 = 1.0
sigma2 = 2.0
sigma1 = 1.0311
sigma2 = 2.0234
CX =
1.0632
-1.0581
-1.0581
4.0943
CY =
1.0000
-0.5072
-0.5072
1.0000
VX = -0.9539
-0.3001
-0.3001
0.9539
UY = -0.7071
-0.7071
-0.7071
0.7071
CZ =
0.7303
0.0000
0.0000
4.4271
CW =
0.4928
-0.0000
-0.0000
1.5072
CP2
X2| X1
CP1
X1| X2
Objectifs:
Lobjectif est dutiliser des donnes relles pour sinitier
lAnalyse en Composantes Principales, et rflchir aux
utilisations possibles de lACP. Lexercice propos permet
dillustrer la thorie et dapercevoir les possibilits de lACP
mais on ne cherche pas ici faire un dveloppement exhaustif,
ni de la thorie de lACP, ni de ses nombreuses modalits
dapplications pratiques.
Donnes:
On dispose de donnes hydromtriques en 6 stations
Pyrnennes : coulement mensuel (mm), pour le mois de
mai, entre les annes 1950 1972.
Ces donnes sont (judicieusement) prsentes sous la forme
dune matrice rectangulaire X , appele la matrice
observations-variables (23 lignes 6 colonnes). Ici, les
observations sont les annes {i = 1,, N}, et les variables sont
les stations de jaugeage {j =1,, P}, avec N = 23 et P = 6.
Questions
1. Calculs
1.1 Question pralable : quelle est la signification de la variable
hydrologique analyse (dbit Q -- ou dbit spcifique q ) ? A
quel type de normalisation des dbits cela correspond-il ?
1.2 Moments simples. Calculer la moyenne, la variance et lcart-type
de chaque variable (en utilisant directement les donnes, ou bien
encore, les sommes donnes en annexe).
1.3 Matrice de corrlation. Calculer la matrice de corrlation (i.e., la
matrice de covariance des variables rduites). Remarques ?
1.4 Diagonalisation de la matrice de corrlation. Afin dallger les
calculs, on donne en annexe la matrice diagonale D et la matrice de
passage P. En dduire les valeurs propres, ainsi que les vecteurs
propres ou composantes principales .
Note. Par dfinition, la matrice P transforme le repre initial en un
repre principal, dans lequel la matrice de corrlation devient
diagonale. Les variables hydrologiques transformes, i.e., exprimes
dans le nouveau repre dit principal , y sont donc non corrles.
2. Analyses et applications
2.1 Montrer que, dans le cas prsent, la CP1 reprsente les six
variables avec un poids peu prs gal pour toutes.
Note. On peut en conclure que la CP1 na pas donc de caractre
discriminant trs marqu. De ce fait, bien que son poids explicatif soit
important, on tudiera plutt le comportement et le rle hydrologique
des autres CP condition cependant quelles aient un poids suffisant.
2.2 Calculer le % de variance explique par les K premires CP, en
faisant varier K de 1 6. En dduire que lon ne perd que quelques %
dinformation en liminant les CP4, CP5 et CP6.
2.3 La figure 1 reprsente les 6 stations de jaugeage de dbits
(variables 1,,6) dans le plan des (CP2,CP3). Y a-t-il des
regroupements possibles ? Que pouvez en dduire ?
TABLEAU 1. Ecoulement de Mai (mm) en 6 stations des Pyrnes pour les annes 1950-1972
Anne
Observation
Naguilhes
Lanoux
Izourt
Gnioure
Caillaouas
Bleu
N(j)
X1(j)
X2(j)
X3(j)
X4(j)
X5(j)
X6(j)
1950
232
180
450
450
391
163
1951
228
155
355
337
271
110
1952
416
344
391
376
306
125
1953
479
370
503
490
387
234
1954
323
250
358
334
293
162
1955
379
260
288
269
432
351
1956
423
325
476
505
380
144
1957
154
141
215
197
137
37
1958
523
400
567
590
516
337
1959
10
440
340
337
364
318
137
1960
11
478
370
412
441
518
314
1961
12
431
329
365
386
313
241
1962
13
359
294
313
358
274
160
1963
14
295
271
318
305
208
104
1964
15
464
360
381
415
597
406
1965
16
366
285
451
428
228
139
1966
17
472
353
478
489
377
223
1967
18
383
310
396
404
215
66
1968
19
370
320
423
449
242
95
1969
20
417
359
403
447
372
181
1970
21
334
238
393
400
197
87
1971
22
447
370
471
459
348
170
1972
23
273
242
322
335
205
78
X2= 6866
(X2-m2)= 1.1316e+005
X3= 9066
(X3-m3)= 1.3704e+005
X4= 9228
(X4-m4)= 1.6019e+005
X5= 7525
(X5-m5)= 2.9103e+005
X6= 4064
(X6-m6)= 2.1052e+005
0.025
0.07
0.554
1.123
4.208
-0.317
0.232
-0.473
0.013
0.452
-0.585
0.167
-0.238
-0.621
-0.066
0.428
-0.340
-0.492
0.325
0.383
-0.489
0.388
0.312
0.648
-0.188
0.283
-0.443
0.414
0.045
-0.313
-0.646
0.350
0.447
0.401
-0.158
0.335
0.575
0.203
0.601
0.360
NB : A gauche : variables centres rduites (moyenne nulle et variance unit) ; et droite : variables centres mais pas rduites (variances brutes).
CHAP. 3
Hydrologie Statistique
Chaptre 3 (A):
PROCESSUS HYDROLOGIQUES
(Chroniques Hydrologiques et
Processus Alatoires Autocorrls)
R. Ababou : ababou@imft.fr
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar)
BIBLIO./DOCS :
Bras R. et I.Rodriguez-Iturbe: Random Functions in Hydrology, Dover, NY.
http://rachid.ababou.free.fr Hydro.Stat Proba.Stat.
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar)
No. TD
TD 1/4
TD 2/4
Chap.
I.A ;
I.B
II.
Chap.3 TD 3/4
III.
Chap.3 TD 4/4
III.
RAPPEL : Une tude de cas sera traite en projet (selon les annes), soit sur un problme destimation gostatistique
(variables rgionalises), soit sur la reconstruction de chroniques hydrologiques (processus alatoires, HU statistique).
S2 : C2 :
S3 : C3 :
S4 : TD1 :
S5 : C4 :
S6 : TD2 :
Hydrologie Statistique
Chaptre 3 (A):
PROCESSUS HYDROLOGIQUES
(Chroniques Hydrologiques et
Processus Alatoires Autocorrls)
R. Ababou : ababou@imft.fr
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar)
40
20
0
0
500
1000
1500
2000
2500
3000
3500
4000
3000
3500
4000
time in hours
500
1000
1500
2000
2500
time in hours
Remarques / Rappels:
Moments dordre 2 :
Var(x)=E((x-mx)2),
Cov(x,y)=E((x-mx)(y-my)) CXX(t,t) = X2(t).
Moments dordre > 2 :
Les prochains moments dfinir sont ceux d'ordre 3 [en 1, 2, et 3 points].
Pour un processus gaussien, il suffit de connatre les moments jusqu' l'ordre 2.
Mme si le processus n'est pas gaussien, on se contente souvent de lordre 2.
Le moment d'ordre 3 en 1 point, normalis par X3, donne le coeff. d'asymtrie
qui quantifie l'asymtrie de la d.d.p en 1 point (fX) de X(t). Le processus X(t) peut
tre gaussien si || <<1 (condition ncessaire, non suffisante).
Processus stationnaire
Un processus alatoire X(t) est dit "stationnaire" ou encore "homogne"
(statistiquement) si ses moments sont invariants par translation du temps
(invariance / t t+to)
Stationnarit stricte
Tous les moments d'ordre 1,2,,N (N fini) sont invariants
Stationnarit d'ordre 2
On se contente souvent de supposer l'invariance (stationnarit) des moments d'ordre 1 et 2.
La stationnarit d'ordre 2 implique :
10
X(t) = m0 + t YS(t) ;
X(t) = m0 + e-btYS(eat) ;
Cependant, dans lexemple ci-dessus, les processus X(t) peuvent tre ramens
des processus stationnaires par un dmoyennage ou un filtrage appropri
11
Hypothse d'ergodicit
Pour un processus stationnaire, l'hypothse d'ergodicit pose l'quivalence entre
moyenne d'ensemble (esprance math.) et moyenne temporelle (ou spatiale)
sur un domaine infini, soit :
T
m X E ( X (t ))
1
m =
0 X (s )ds
X Tlim
T
constante
Plus prcisment, l'quivalence doit tre postule pour chaque moment "utile"
(selon les applications envisages) : ergodicit pour la moyenne mX (ci-dessus),
mais aussi ergodicit pour la variance X2 :
E ( X (t ) m X )
2
X
2
X = Tlim
T
( X (s ) m )
ds
constante
C XX ( ) E (( X (t ) m X )( X (t + ) m X ))
1
T T
C XX ( ) = lim
( X (s ) m )( X (s + ) m ) ds
X
= fonction du dlai().
12
13
Fonctions d'auto-corrlation
Fonction d'autocorrlation RXX : dfinition
RXX() = CXX() / X2
Proprits de RXX()
-1 RXX() +1 , IR
RXX() est paire : RXX(-) = RXX(+)
RXX(0)=1 et RXX()0
Exemples de fonctions d'autocorrlation
Exponentielle :
RXX() = exp(-||/o)
Gaussienne :
Bruit blanc :
RXX() = c0 ()
14
* = R XX ( )d
0
* = 0
On voit que le temps caractristique 0 reprsente dans ce cas lchelle intgrale
dautocorrlation du processus X(t).
Autres chelles de fluctuation
On peut dfinir dautres chelles de fluctuation (voir les processus anti-corrls :
cas de l'autocorrlation gaussienne trou)
15
16
50 jours = 2 mois
17
50 quinzaines = 2 ans
18
50 quinzaines = 2 ans
50 jours = 2 mois
t = 0 : X = X 0
= 0; =
m n
mn
n
X n = X (t n );
n = (t n );
t = nt
n
1 = RXX ( 1 ) avec 1 = 1 t ; R XX ( ) =
s = X 1
2
1
C XX ( ) C XX ( )
=
C XX ( 0 )
X2
1
i= N
= Var ( X ) = i =1 ( X i X
N
2
X
21
X n +1 = 1 X n + s n +1
Z t = 1 Z t 1 + at
a2
=
1 12 ,
2
Z
1 = 1
o, par dfinition : 1 =
Cov(Z (t + t ), Z (t ))
2
Z
CZZ (t )
Z2
= ZZ (t ) .
22
dX
Langevin : dt + 0 X (t ) = 0 f (t ) pour t 0 ; et X(0) = 0.
Le forage f(t) est un bruit blanc unitaire gaussien dautocovariance : Cff() = ().
Et g(t)=0 f(t) est un bruit blanc non-unitaire dintensit c0 = 02 : Cgg() = c0 ().
La condition initiale dterministe X(0) = Xo = 0 fait que X(t) nest pas stationnaire
aux temps courts ; mais pour t, X(t) tend quand mme vers un processus
stationnaire de moyenne nulle et de covariance :
23
dX
Langevin : dt + 0 X (t ) = 0 f (t ) pour t 0 ; et X(0) = 0.
24
dX
+0 X (t )= 0 f (t )
dt
? ? X n+1 = 1 X n + s n+1
PROCESSUS << AR1>>
PROCESSUS de LANGEVIN
s = c0 t
1 =
( 2)
1 + (t )
2
1 t
25
X t = 1.( X t 1 ) + X . 1 12 .Wt
t = n.t
j = 1,..., J
Saison j=1 Saison j=2 Saison j=3 Saison j=4 Saison j=1 Saison j=2 Saison j=3 Saison j=4
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar)
26
X n +1 = 1 X n + s n +1
Equation du processus AR1 :
t = 0: X = X0
X n = X (t n ); n = (t n ); t n = n.t
Notations :
X n +1 = 1 X n + s n +1
Moyenne :
X n +1 = 1 X n + 0
X n +1 = (1 )
n +1
X0
X0 = 0 Xn = 0
(n )
27
X n X m = ...
X n X m = X n X n+k
Calcul auxiliaire : X n + k =
X n X n+k
j =k
X n + s. j 1 n + k j +1
k
j =1
j =k
= X n X n + s. j 1 n + k j +1
j =1
j =k
X n X n + k = k X n X n + s. j 1 X n n + k j +1
j =1
X n n + k j +1 = 0 (k j + 1) 1
En effet, les Xn ne dpendent pas des m futurs (m>n)
X n X n + k = k X n X n X n X m = m n X n X n m > n
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar)
28
X n X m = ...
Covariance (suite):
X n X n + k = k X n X n X n X m = m n X n X n m< n
Covariance (fin) :
nm
Var ( X (min(t n , t m )))
(m< n) : X n X m =
Variance.
X n = X 0 + s. j 1 n j +1
k
R-utilisons la formule :
Var ( X n ) = X n X n
j =1
j =n
= k X 0 + s. j 1 n j +1
j =1
j =n
= 2 n X 0 X 0 + 2 n s. j 1 X 0 n j +1
29
X n = X 0 + s. j 1 n j +1
k
R-utilisons la formule :
Var ( X n ) = X n X n
... =
2n
j =1
j =n
k
= X 0 + s. j 1 n j +1
j =1
j =n
X 0 X 0 + 2 s.
n
j =1
j 1
i =n j =n
X 0 n j +1 + s . i 1 j 1 n i +1 n j +1
2
i =1 j =1
2
Xo
= X0X0
30
Var ( X n ) =
2n
2
Xo
+s
1 2n
1 2
2
1 2
1
1
2
2
Var ( X n ) = 2 n Xo
s2
+
s
=
s
Xo
1 2
1 2
1 2 .
Var ( X n ) =
2
Xo
s2
=
1 2
31
X n +1 = 1 X n + s n +1 .
Ce modle gnre un processus Xn stationnaire de moyenne nulle, si on prend pour
condition initiale X0 une variable alatoire de moyenne nulle et de variance
Xo2 = s2/(1-12). On obtient alors un processus Xn ayant une variance stationnaire
nm
Xn2 = s2/(1-12), n 0, et une autocorrlation stationnaire : XX (n, m ) = (1 )
,
o n et m reprsentent des temps discrets (ici exprims en nombres de pas de temps).
On veut utiliser un modle AR1 pour gnrer des chroniques de dbits (Qn)
journaliers, mensuels, ou mme annuels, en prenant par exemple Xn Qn-mQ. La
1re tape indispensable est lidentification des paramtres du modle AR1.
1. Proposer une procdure simple pour identifier s et 1 partir des
moments empiriques de Qn .
2. Reprsenter graphiquement XX (n, m) dans 2 cas : 1 positif, 1 ngatif
3. Examiner les chroniques de dbits du Sri Lanka (voir figures plus haut) :
peuvent-elles correspondre un modle de type AR1 ? Argumenter la rponse
dans les deux cas prsents : (i) dbits journaliers ; (ii) dbits bi-mensuels.
32
BIBLIO./DOCS :
Bras R. et I.Rodriguez-Iturbe: Random Functions in Hydrology, Dover, NY.
http://rachid.ababou.free.fr Hydro.Stat Proba.Stat.
Hydrologie Statistique 2005-06 (R.Ababou, A. Al-Bitar)
33
Chap.
TD 1/4
I.A ;
I.B
II.
Chap.3 TD 3/4
III.
Chap.3 TD 4/4
III.
Date
TD 2/4
RAPPEL : Une tude de cas sera traite en projet (selon les annes), soit sur un problme destimation gostatistique
(variables rgionalises), soit sur la reconstruction de chroniques hydrologiques (processus alatoires, HU statistique).
34
MODLES PLUIEDBIT :
Identification de Fonction de Transfert - Approches Dterministe et Statistique
Synoptique Abrg
(A)
(B)
MODLE PLUIE-DBIT
DTERMINISTE
MODLE PLUIE-DBIT
STATISTIQUE
HYPOTHSES COMMUNES :
Evnement averse-crue
Isol, bien dfini.
Evnements averses-crues
composites, complexes.
Q (t ) =
h (t s ) P ( s )ds
FORMULATION FAIBLE
Q (t ) = 0 h(t s ) P( s )ds + (t )
= Q (t )
+ (t )
{[
(solution forte).
]}
MODLES PLUIEDBIT :
Identification de Fonction de Transfert - Approches Dterministe et Statistique
RPQ ( ) =
Equation non-causale
en temps continu [-T,+T] :
RPQ ( ) =
+T
en temps discret (i ))
AVANTAGES ET INCONVNIENTS
AVANTAGES ET INCONVNIENTS
conditionnement,
fonctions
de
transfert divergentes ou ngatives.
MODLES PLUIEDBIT :
Identification de Fonction de Transfert - Approches Dterministe et Statistique
Synoptique Dtaill
(A)
(B)
Modle Pluie-Dbit
Modle Pluie-Dbit
dterministe
statistique
Q (t ) =
h(t s ) P ( s )ds
Q( t ) =
h(t s) P( s)ds + (t ) = Q$ (t ) + (t )
{[
A2)INTERPRTATION DTERMINISTE
]}
P(t),Q(t) sont 2 signaux dterministes P(t) et Q(t) sont deux processus alatoires
correspondant un vnement
corrls et stationnaires (statistiquement
averse-crue unique et bien identifi.
invariants par translation).
h(t) est une fonction de transfert h(t) est une fonction de transfert
dterministe, solution d'un systme
dterministe, solution d'un problme
linaire (galit stricte: solution forte).
d'optimisation (min. erreur: solution faible)
MODLES PLUIEDBIT :
Identification de Fonction de Transfert - Approches Dterministe et Statistique
)
=
h( s ) RPP ( s )ds , 0<<T
matriciel carr P H = Q, o la matrice
PQ
0
des pluies est triangulaire infrieure
o T dure totale des observations (P,Q).
(causale)
-1
Solution directe H = P Q obtenue L'quation en temps continu et sa rsolution
par transforme de Laplace sont connues
par substitution (algorithme rcursif).
sous le nom de Wiener-Hopf. La solution est
complique par la contrainte de causalit. (voir
Papoulis 1964).
RPQ ( ) =
+T
les
MODLES PLUIEDBIT :
Identification de Fonction de Transfert - Approches Dterministe et Statistique
H ( ) =
1 S PQ ( )
2 S PP ( )
Mthode
relativement
robuste,
applicable des vnements composites
ou complexes et (donc) des chroniques
longues.
TD 3/4 HU
F.d.Transfert
P(t)Q(t)
0.025
0.02
0.015
0.01
0.005
-0.005
-0.01
-100
-80
-60
-40
-20
0
20
Delai discret (discrete lag)
40
60
80
100
-1
5500
5600
5700
5800
5900
6000
6100
6200
6300
6400
6500
ZOOM 3
REFERENCES
OUVRAGES DE GEOSTATISTIQUE
ISAAKS, E. H., R. M. SRIVASTAVA. 1989. An Introduction to Applied
Geostatistics. Oxford: Oxford University Press: 561pp.
GSLIB : Geostatistical Library (.)
JOURNEL, A. G., C. J. HUIJBREGTS. 1978. Mining Geostatistics. New
York: Academic Press: 600pp.
MARSILY, de , G., 1986. Quantitative Hydrogeology (Groundwater
Hydrology for Engineers). Academic Press. New York. 440 pp.
OUVRAGES PROBABILIT-STATISTIQUE
BAIN L.J. Statistical Analysis of Reliability and Life-Testing Models
(Theory and Methods). Marcel Dekker Inc. New-York and Basel. 19xx.
BASS J.: Elments de calcul des proba
BLANC-LAPIERRE : (Thorie des focntions alatoires)
CHEENEY, R.F. 1983. Statistical Methods in Geology. George Allen &
Unwin. London.
CAUTROT B., et al.: Les mthodes de prvision. PUF "Que Sais-Je?".
FELLER W.: An introduction to probability theory and applications.
GASQUET C., P.WITOMSKI, 1990, Analyse de Fourier et Applications
(filtrage, calcul numrique, ondelettes), Masson, Paris, 354 pp.
JENKINS G.M., WATTS D.G., 1968. Spectral analysis ant its applications.
Holden Day. 525 p.
KENDALL M.G., A. STUART A., (1977), "The Advanced Theory of
Statistics", Vol. 1, Distribution Theory, MacMillan, New York, 472 pp.
KENDALL M.G. (1977), "The Advanced Theory of Statistics", Vol. 2,
KENKEL, J.L. Introductory Statistics for Management and Economics. 2nd
Edition. Boston, Massachusetts, Duxbury Press. 1984.
LOVE M., (1963,1978), Probability Theory, Vol. II; Springer-Verlag, 1978.
MAX J., 1980. Mthodes et techniques de traitement du signal et applications
aux mesures physiques, Masson Paris, 379 p. (2 vols.)
MONIN A.S., YAGLOM A.M., (1965), Statistical Fluid Mechanics:
Mechanics of Turbulence (Volume 2), Ed. J. L. Lumley, The MIT Press,
Cambridge, Mass. (874 pp). [Contient un expos dtaill de la thorie des
fonctions alatoires].
PAPOULIS A., 1965 : Probability, Random Variables, and Stochastic
Processes. Mc Graw-Hill Book Company, New York. 1965.
PAPOULIS A., et al. (idem - nouvelle dition augmente)
PRIESTLEY M.B.1981. Spectral analysis and time series. Acad. Press, 890p.
PRIESTLEY M.B., 1988. Non-linear and non-stationnary time series
analysis. Academic Press, 237 p.
TASSI Ph., 1989 : Mthodes statistiques, Economica.
VANMARCKE, E. 1983. Random Fields: Analysis and Synthesis.
Cambridge, Mass.: Massachusetts Institute of Technology Press: 382pp.
VENTSEL H., 1973 : Thorie des probabilits. Editions Mir, Moscou.
[French translation, from Russian, by A. Sokova, MIR, Moscow, USSR]
YAGLOM, A. M. 1962. Stationary Random Functions. R. A. Silverman,
trans. & ed. New York: Dover: 235pp.
ANNEXES
ANNEXE
La "mthode des moments" consiste comparer, pour une loi de probabilit thorique donne, les moments thoriques aux
moments empiriques d'ordres levs, ceci en attribuant aux moments thoriques d'ordre moins levs leurs valeurs
empiriques (rappelons que les moments "empiriques" sont issus du dpouillement statistique des simulations numriques).
On utilisera ici les quatre premiers moments statistiques, ou certains coefficients obtenus partir de ces quatre premiers
moments : coefficients de variation, d'asymtrie, et d'aplatissement. On peut par exemple, pour une loi deux paramtres,
fixer les deux premiers moments, ou la moyenne et le coefficient de variation, pour essayer de prdire/ajuster les moments
d'ordre 3 et 4, ou les coefficients d'asymtrie et d'aplatissement. On prsentera sous forme de tableaux les comparaisons
entre les moments empiriques d'ordre 3 et 4 obtenus pour certains jeux de donnes, et les moments thoriques
correspondants prdits par les modles (les "modles" tant les lois thoriques tester). Le calcul des moments thoriques
(prdits) se fait, si possible, grce des formules analytiques closes, de la forme:
(1)
.
emp.
3thou
, emp. )
4 = f (m
On peut alors calculer une erreur relative, ou cart relatif, dfini par :
(2)
nth. nemp.
=
nth.
Ce critre permet d'valuer l'adquation des modles thoriques la loi empirique, ainsi que la marge de confiance associe.
1.2.
n=<(x-m)n>,
o <> reprsente l'oprateur d'esprance mathmatique et m la moyenne, qui est aussi le moment non centr d'ordre 1. Nous
nous intresserons plus particulirement ici, outre la moyenne, aux moments centrs d'ordre 2, 3 et 4, ainsi qu' divers
coefficients adimensionnels pouvant tre forms partir de ces moments.
Le moment centr d'ordre 2 (2) est reprsente la variance, encore note plus couramment 2 . On a donc :
(4)
2 =2 =<(x-m)2>.
A partir de la moyenne (m) et de l'cart-type (), on peut dfinir un coefficient de variation not "CV" ou simplement "C".
Le coefficient de variation est particulirement utile pour quantifier le degr de variabilit d'une variable alatoire positive.
Il est dfini par la relation :
(5)
C = /m.
Les moments centrs d'ordre 3 et 4, et. Les moments centrs d'ordre 3 et 4 sont dfinis par :
(6)
3=<(x-m)3>.
(7)
4=<(x-m)4>
A partir de ces deux derniers moments centrs, on dfinit les coefficients d'asymtrie et d'aplatissement, ou coefficients de
Fisher (Ventsel 1973, Tassi 1989) :
(8)
=
: coefficient d' asymtrie (Skewness).
Il est facile de montrer que = 0 pour une distribution symtrique, puisque les moments d'ordre impairs sont alors nuls. Le
coefficient est un bon indicateur de symtrie de la loi considre. Ce coefficient est positif pour une loi asymtrique telle
que la loi log-normale, la loi exponentielle, etc. Il serait ngatif, par exemple, pour une variable alatoire x < x0 telle que
(x0-x) suit une loi exponentielle ou log-normale.
La dfinition du coefficient fait rfrence la forme de la loi normale N(0,1). En effet, on obtient pour la loi normale
(voir par exemple Tassi 1989) :
(9)
x2p
1
5
( p + )
( )
2 =4 2 =3
= 2p
4
1
1
( )
( )
2
2
On en dduit que = 0 pour une loi normale. Plus gnralement, est positif pour une densit de probabilit "pointue"
(plus pointue que la loi normale), et ngatif pour une densit de probabilit "aplatie" (plus aplatie que la loi normale). La loi
de Laplace, exponentielle symtrique avec un point de rebroussement l'origine, a un coeff. d'aplatissement positif ( = +6).
On retiendra que les coefficients et sont dfinis de telle manire que la loi de probabilit empirique s'approche d'une loi
normale, du moins en ce qui concerne les moments jusqu' l'ordre 4, ds lors que || et || sont trs infrieurs l'unit.
(10)
f X ( x) =
1
e
2
( x m) 2
2 2
pour x R
(11)
= 0
= 0
b. Loi log-normale :
On considre ici la loi log-normale deux paramtres (m,). Il s'agit d'une loi de probabilit support positif, dont la
densit de probabilit est donne par :
(12)
f X ( x) =
1
x 2
( Ln ( x ) m ) 2
2 2
pour x R +
o m et 2 reprsentent la moyenne et la variance du logarithme de x. La loi lognormale est directement lie la loi
normale. En effet, si la variable y = ln(x) suit une loi normale N(m,), alors la variable x = exp(y) suit une loi log-normale
donne par l'quation ci-dessus.
Dsignons plus prcisment par mx et my les moyennes de x et y, et par x2 et y2 les variances de x et y. On a alors les
relations suivantes, extraites de Ababou et Wood (1990), Tassi (1989), et Vanmarcke (1983).
La moyenne (arithmtique) de la variable lognormale x satisfait la relation :
y2
(13)
x = m x = x g e
x g = e ln( x ) = e
my
D'o la relation :
(15)
mx = e
(my +
y2
2
x2
xg2
y2
( y2 1)
(17)
x2
mx2
y2
(e
y2
1) Cx = (e
1
1) 2
Cette dernire quation donne la variance, et le coefficient de variation, de la variable lognormale x en fonction des deux
premiers moments de la variable normale y = ln(x). On peut montrer que :
(18) x = 3 Cx + Cx 3
(19) x = Cx 8 + 6 Cx 6 + 15 Cx 4 + 16 Cx 2
Ces deux dernires quations donnent les coefficients d'asymtrie et d'aplatissement d'une variable lognormale x en fonction
de son coefficient de variation.
Lorsque y est faible ou au plus de l'ordre de l'unit, on peut en dduire par dveloppement de Taylor que Cx ~ y. En
d'autres termes, on obtient pour une variable lognormale x la relation approche:
(20)
Cx ~ ln(x) ,
Considrons le cas des variables hydrologiques K positives, strictement ou non (dbits Q, prcipitations P, mais aussi
paramtres physiques tels que permabilit, etc). Le dernier rsultat ci-dessus montre que lnK est un bon indicateur
adimensionnel du degr de variabilit du phnomne lorsque K est suppose distribue suivant une loi lognormale.
c. Loi exponentielle :.
On considre ici la loi exponentielle un seul paramtre ().
Cette loi est support positif, et sa densit de probabilit est donne par.
(21)
f X ( x) =
pour x R +
(22)
CX = 1.
(23)
= 2.
(24)
= 6.
Notons que le coefficient de variation d'un variable loi exponentielle est toujours gal un, ce qui permet de dcider
rapidement si une variable est susceptible ou non de suivre cette loi.
Comme cette loi nest qu un seul paramtre, elle nest pas trs flexible. Elle est cependant lie une loi trs intressante,
la loi de Poisson, dite loi des vnements rares (voir la section consacre la loi de Poisson). Elle constitue aussi un cas
particulier de la loi Gamma Incomplte (voir ci-dessous).
f X ( x) =
1
e
2
pour x R .
(26a)
(26b)
= 2
= 3.
(27)
1 x
f X ( x) =
e
( )
pour x R + .
f. Loi de Weibull :
On prsente galement la loi de Weibull deux paramtres (,), qui sera utilise plus loin (cf. test du Khi 2).
La densit de probabilit de la loi de Weibull est donne par :
(31)
f X ( x) = x
1 x
pour x R + .
m=
(1 +
; =
(1 +
) 2 (1 +
(33)
2
1
2
(
1
)
(
1
+
)
C= =
1
m
(1 + )
= f ( )
Cette relation permet de calculer connaissant le coefficient de variation (C), en rsolvant l'quation f()-C = 0
numriquement, par une mthode de dichotomie. On peut ensuite obtenir le paramtre partir de la relation sur m, en
identifiant m la moyenne empirique connue, soit :
1 + 1
.
=
(34)
m
Cette procdure permet donc finalement de calculer les deux paramtres (,) de la loi de Weibull en fonction des moments
empiriques m et . Elle peut tre utile lors de l'application du test du Khi 2.
11
1.4.
Les rsultats de la mthode des moments sont prsents dans les TABLEAUX (...).
Ces tableaux sont directement utilisables pour une analyse de la loi de probabilit univarie de la variable tudie. Ils
contiennent les valeurs des moments et coefficients empiriques, ainsi que les valeurs thoriques calcules grce aux relations
ci-dessus, et enfin les valeurs des indicateurs d'erreurs dfinis plus haut.
Les indicateurs derreur n'tant pas toujours applicables, par exemple lorsque le moment test s'annulle ( th = 0 ), on
applique alors un critre qualitatif du type : " th << 1 ? " Si la rponse cette question est positive, on inscrit OUI (admis)
dans le tableau; si la rponse est ngative, on inscrit NON (refus).
12
13
2.1.
On a dj identifi plus haut les densits de probabilit thoriques des diverses lois proposes comme modles (cf. mthode
des moments). Le test du 2 est utilis ici pour comparer les lois empiriques aux lois thoriques, les paramtres de ces
dernires lois tant calculs partir des valeurs des moments empiriques. *
Ainsi, la loi normale est une loi deux paramtres (m,), dont la densit de probabilit a t donne plus haut. Les deux
paramtres utiliser sont donc tout simplement la moyenne empirique (m), et l'cart-type empirique ().
La loi lognormale est une loi deux paramtres (m,), et support positif, dont la densit de probabilit a t donne plus
haut. Ici, les paramtres (m,) sont la moyenne et l'cart-type de y=ln(x), o x est la variable lognormale en question. Ces
paramtres peuvent tre calculs en fonction de la moyenne empirique mx et du coefficient de variation empirique Cx de la
variable lognormale x, par rsolution du systme suivant [ voir quations (12)-(20) ]:
(35)
2
= ln(C x + 1) 2
m = ln(m x )
Une procdure plus sophistique, mais pas ncessairement plus performante, consisterait ajuster automatiquement les paramtres de la loi modle de faon minimiser les
carts avec la loi empirique, avant d'appliquer le test du Khi 2 proprement dit.
14
La loi exponentielle est une loi un seul paramtre (), et support positif, dont la densit de probabilit a t donne plus
haut. Rappelons que le paramtre est la fois gal la moyenne et l'cart-type. On choisit ici de caler par rapport la
moyenne empirique, soit : = m.
La loi de Laplace, ou exponentielle symtrique centre l'origine, est une loi un paramtre (). Sa densit de probabilit a
t donne plus haut. On utilise ici la relation = /2 [quations (21)-(26)].
La loi -incomplte est une loi deux paramtres (,), et support positif. La densit de probabilit et les relations entre
paramtres et moments ont t donnes plus haut [ voir quations (27)-(30) ].
On examinera galement la loi de Weibull deux paramtres (,), non encore utilise. La densit de probabilit de la loi
de Weibull a t donne plus haut, et l'on a galement dcrit une procdure de calcul des paramtres de cette loi en fonction
des moments [ voir quations (31)-(34) ]. Cette procdure nous permet ici de calculer les deux paramtres (,) de la loi de
Weibull en fonction des moments empiriques m et , et d'appliquer le test du khi 2.
15
2.2.
Rappelons que deux tests statistiques ont t considrs initialement : le test du 2 (khi-deux), et le test de KolmogorovSmirnov (ou test de "K-S"). C'est le test du 2 que nous avons retenu dans cet expos.
Le test du 2 va nous permettre d'valuer l'importance de l'cart entre les lois modles (thoriques) et les lois empiriques,
une fois donns les paramtres des lois modles. Ce test est pratiqu sur les valeurs (discrtes) de la fonction de rpartition
empirique et les valeurs (discrtises) de la fonction de rpartition thorique. Rappelons que les fonctions de rpartitions
sont les densits de probabilits intgres; ou, en version discrte, les frquences cumules. La statistique du 2 (dite aussi
"distance du 2") est une mesure de la "distance" entre deux fonctions de rpartitions discrtes (ou discrtises) que l'on
souhaite comparer.
Cette statistique du 2 ou distance du 2 est donne par :
(36)
Ntot
i =1
( N i ni ) 2
ni
o Ni est le nombre d'vnements observs dans le ime intervalle et ni le nombre prvu d'vnements selon la loi modle.
La fonction de probabilit du 2, note :
(37)
2
Q( )
16
(28a)
(28b)
(28c)
m = ;
2 = 2 ;
3 = 23;
(28d)
4 = 3(+2)4 ,
(29a)
(29b)
=2C,
= 6 C2 .
Finalement, en "inversant" les relations prcdentes, nous obtenons les paramtres de la loi gamma incomplte en fonction
de ses deux premiers moments :
(30)
C2
= mC 2
10
est une fonction gamma-incomplte (rsultat thorique classique en statistique). Le paramtre est le degr de libert de
la loi du 2. Pour les cas qui nous intressent -- soit l'valuation de lois dont certains paramtres ont ts pralablement
estims -- le nombre de degrs de libert de la loi du 2 est donn par:
(38)
= Ntot-k-1 ,
si l'on a estim k paramtres de la loi. Dans notre cas (...), le nombre de paramtres estims est variable mais trs infrieur
Ntot (k est faible, gal un, deux, ou trois au plus).
Interprtation. A proprement parler, Q(2/) reprsente la probabilit pour que la somme des carrs de variables
alatoires normales de variance unit soit plus grand que 2 . Or, les termes entrants dans la somme du 2 [quation (36) cidessus] ne sont pas individuellement normaux. Cependant, si l'on considre la fois un nombre lev (>>1) d'intervalles, et
un nombre lev (>>1) d'vnements observs dans chaque intervalle, alors la fonction de probabilit Q(2/) est une bonne
approximation de la vraie distribution de 2.
Utilisation. La fonction Q(2/) peut donc tre utilise pour estimer si le test est significatif ou non, puisque cette
statistique reprsente peu prs la probabilit pour que la somme des carrs des carts entre la loi empirique et la loi modle
ait la valeur 2 observe.
Implmentation numrique. Pour l'application pratique, on a utilis la procdure dcrite dans l'ouvrage "Numerical
Recipes" de PRESS et al. (1986), et en particulier la subroutine Fortran CHSONE.
R.ABABOU
Circa 1994
Partiellement retap en 2004 (eqs.)
17