You are on page 1of 33

CHAPITRE

TRAITEMENT STATISTIQUE DES DONNEES


1- Pourquoi l'analyse statistique en hydrologie ?
2- Etapes d'une analyse statistique

2-1 L'hydrologie descriptive


2-2 L'analyse
2-3 La prévision

3- Concepts de l'analyse statistique

3-1 Variable aléatoire, homogénéité, indépendance


3-2 Probabilité d'apparition d'une valeur - intervalle moyen de récurrence
3-3 Distribution d'une série statistique
3-4 La notion du risque hydrologique

4- La population , l'échantillon et leurs paramètres

- Caractéristiques de la population
- Caractéristiques de l'échantillon

5- Lois de distribution utilisés en hydrologie

5-1 Présentation des lois


5-2 Distribution normale : loi de Gauss
5-3 Distribution des valeurs extrêmes : loi de Gumbel
5-4 Principe des distributions des lois de Galton et Frechet , Pearson III

6- Pratique de l'ajustement
7- Prévision en temps de retour
8- Conclusion générale
9- 7HVWVG·DGpTXDWLRQ
10- Calcul des intervalles de confiance

Etudes de cas traitées en travaux Pratiques sur le logiciel HYFRAN :

9 Etude statistique des pluies annuelles :


9 Etude statistique des crues sur un bassin versant
x Calcul des paramètres et distribution empiriques
Ajustement à la loi de Gauss log normal, à la loi Gumbel et Frechet
x $SSOLFDWLRQGHVWHVWVG·DGpTXDWLRQ
x Prévision en temps de retour
x lntervalles de confiance

Prof N.SERHIR -1- Traitement statistique


CHAPITRE

TRAITEMENT STATISTIQUE DES DONNEES

1- Pourquoi l'analyse statistique en hydrologie ?


Comment définir l'analyse statistique ?

C'est un ensemble de méthodes permettant d'étudier des phénomènes se produisant de façon


aléatoire, donc en présence d'incertitudes.

Au cours des siècles derniers, la statistique était la science de dénombrement. Il s'agissait donc
d'établir des statistiques en relevant des tableaux de chiffres à partir d'observations systématiques
concernant le phénomène étudié.

Avec le développement des mathématiques et des probabilités, il ya eu cette nouvelle conception


de la statistique introduisant la notion d'induction, c'est à dire, à partir des résultats d'expérience,
utiliser des modes de raisonnement probabilistes pour expliquer et connaître la structure interne
d'un phénomène observé. Ce qui permettra d'extraire des informations concernant ce
phénomène et par la suite faire de la prévision à court ou à long terme.

Les phénomènes hydrologiques tels que les précipitations et les écoulements sont à caractère
incertain vu le grand nombre de mécanismes et processus qui interviennent dans leur formation.
Ils constituent donc un champ d'application idéal pour ces méthodes statistiques.

En particulier, l'ensemble des hauteurs de précipitations journalières, mensuelles ou même


annuelles relevées pendant de longues périodes à une station forme une vaste série de données
assez ou même difficilement maniable. Il est donc indispensable de résumer et de condenser cette
multitude de chiffres en quelques éléments synthétiques, en nombre assez faible mais suffisant
pour caractériser la station et pour estimer l'évolution du phénomène dans le temps afin
d'extraire l'information recherchée.
La statistique est l'outillage de base dans ce type d'analyse.

Nous citons à titre d'exemple le cas d'un étude où l'ingénieur voudrait construire des ouvrages de
protection contre les inondations. Il dispose d'une série de données pluviométriques ou
hydrométriques relevées en un point du bassin. Si on résonne à court-terme, les constructions se
faisant en été, celui-ci ne connaît pas exactement l'importance de la crue printanière de l'année
suivante, ni de crues futures (à long terme). Or l'ingénieur doit assurer la sécurité des ouvrages et
se protéger contre les fortes pluies. Il doit donc dimensionner les ouvrages pour une crue
maximale probable durant toute la durée de vie du barrage (100 à 1000 ans)

Il devient donc obligatoire au concepteur d'analyser les données disponibles pour pouvoir estimer
l'importance des événements pouvant surgir pendant la période de construction (crue de
chantier) et la durée de vie de l'ouvrage (crue du projet). Il aura donc à faire une analyse
statistique fondée sur un comportement probabiliste pour évaluer l'évolution des précipitations et
des écoulements dans ce bassin à court et à long terme.
Prof N.SERHIR -2- Traitement statistique
2- Etapes d'une analyse statistique
Dans toute analyse d'un phénomène donné, la collecte des données observées pour des
périodes plus ou moins longues et en des points différents de l'espace demeure le point de départ.

Ces données doivent cependant subir des traitements spécifiques selon la nature du
phénomène à analyser et le but escompté de cette analyse.
Le traitement des données est l'ensemble des opérations qui consistent à extraire une
information précise et résumée à partir d'une série de valeurs numériques ou graphiques.

En particulier, les données hydrologiques doivent être traitées statistiquement selon trois
étapes principales :

2.1 Description
Il est de pratique de condenser l'information hydrologique s'étendant sur de nombreuses
années à une station fixe et de la remplacer par quelques caractéristiques bien choisies, à
condition, toutefois, que ces dernières représentent la série chronologique de manière quasi-
exhaustive.

Le statistique descriptive s'adapte parfaitement à ce type de problème. Elle définit certains


paramètres types analysant fidèlement le phénomène à étudier.

La série d'observations définie sera classée en ordre et décrite par trois types de paramètres :

- valeurs centrales
- paramètres de dispersion
- caractéristiques de forme des courbes de fréquence : hystogrammes

2.2 L'analyse
Cette étape consiste à formaliser les données expérimentales par une expression mathématique
tenant compte des valeurs types calculées à la première étape.

Le problème à résoudre sera de choisir le modèle probabiliste adéquat qui représente au mieux la
série expérimentale. On appelle cette phase la recherche d'un ajustement théorique adéquat.

2.3 La prévision
Dans cette étape, l'ingénieur aura à projeter dans l'avenir le modèle choisi pour pouvoir
organiser l'avenir de la façon la plus avantageuse et pour pouvoir prendre des décisions optimales
et sécuritaires.

Remarque :

Ces 3 phases de l'analyse statistique supposent que les données utilisées sont homogènes,
indépendantes et qu'elles ont subi la phase de contrôle et de critique, phase ultime pour la
fiabilité des résultats qui est en fonction de la qualité des données.
Prof N.SERHIR -3- Traitement statistique
2.4 Enchaînement des opérations dans une étude hydrologique statistique
Nous pouvons donc résumer l'enchaînement des opérations par le schéma suivant :

fixer l'objectif de l'étude

inventorier le Réseau de mesure disponible

Collecte et saisie des données brutes

Contrôle et critique
des données hydrologiques

Description : données nettes


réduites

Traitement des
A nalyse : modèle Probabiliste données

Phases de l'analyse
statistique

Prévision :exploitation du modèle

3- Concepts de l'analyse statistique


3.1 Variable aléatoire - homogénéité - indépendance

L'ensemble des données obtenues par la mesure dans le temps d'un phénomène hydrologique
constitue un échantillon plus ou moins représentatif du phénomène à l'étude : population. Du
point du vue de la théorie statistique, un échantillon est un ensemble de valeurs situées au hasard
parmi une population mère qui suit une loi statistique définie.

Prof N.SERHIR -4- Traitement statistique


Comme tous les phénomènes hydrologiques sont la résultante d'une série de facteurs ayant une
influence plus ou moins grande sur le phénomène, les méthodes statistiques sont utilisées avec
avantage pour la détermination des lois du phénomène.
Il faut réaliser cependant que nous n'avons aucune liberté quant au choix de la méthode
d'échantillonnage puisque nous mesurons des phénomènes naturels, dont l'importance des
événements peut varier de l'ordinaire (cas des événements observés sur des séries de plusieurs
dizaines années) à l'exceptionnel dans les deux extrêmes (cas des crues dévastatrices rares : les
typhons, ou des étiages).

Toute déduction sur les propriétés de la population exige que l'échantillon ait été choisi au hasard
donc qu'il définit une variable aléatoire, que les diverses valeurs constituant l'échantillon soient
indépendantes les unes des autres, et que l'échantillon soit homogène, (tiré d'une même
population).
Nous n'avons pas de contrôle sur la méthode d'échantillonnage et il est raisonnable d'admettre
que chaque donnée est fournie selon les lois du hasard.

L'indépendance varie selon la nature des données. En fait, il faut noter que les débits journaliers
successifs ne sont pas indépendants les uns des autres car un débit fort une journée laisse prévoir
un débit fort pour le lendemain. Les ruissellements mensuels ou annuels, par contre, sont plus
indépendants les uns des autres et se prêtent donc mieux à des analyses statistiques.

L'homogénéité peut être vérifiée soit par des procédés purement graphiques : double-masse,
soit par des calculs statistiques : tests. Toute modification physique connue pouvant modifier le
phénomène ou les lectures des appareils de mesure laisse supposer que les échantillons pris avant
et après cette modification ne sont pas tirés d'une même population et donc que l'échantillon
global n'est pas homogène ( construction d'un réservoir qui change le régime d'un cours d'eau,
déplacement d'une station hydrométrique, etc).

Dans les exposés des méthodes statistiques qui suivront, nous supposerons que
l'indépendance et l'homogénéité existent soit de prime d'abord, soit après correction des
données .

3.2 Probabilité d'apparition d'une valeur - Intervalle moyen de récurrence


Pour le dimensionnement des structures conditionnées par un phénomène naturel, il est
important que l'ingénieur connaisse la probabilité d'apparition de ce phénomène et son
importance afin d'établir des critères de dimensionnement adéquats. Des considérations socio-
économiques ont établi certaines règles (règles de I'Art) qui font que l'ingénieur assurera des
capacités hydrauliques variables, selon le dommage qui peut résulter d'un événement dépassant
cette capacité.

Un déversoir de barrage sera conçu pour évacuer une crue d'une fréquence probable
de 0.001 à cause des dommages à la propriété et des pertes de vie qui résulteraient d'une crue
supérieure à la capacité du déversoir ( danger pour la stabilité du barrage lui-même). Par contre
un égout pluvial peut être insuffisant de temps à autre, créant certains dommages à la propriété,
dommages d'un montant inférieur toutefois au capitale qu'il aurait fallu investir pour construire
l'égout plus gros et éviter l'inondation. La capacité de l'égout pluvial sera basée sur un débit
de fréquence probable plus forte que le déversoir, de l'ordre de 0.2.

Prof N.SERHIR -5- Traitement statistique


On définit l'intervalle moyen de récurrence, dit période de retour, par l'équation :
l
T
P
P : probabilité qu'une valeur au moins égale à une valeur donnée se produise. La probabilité est
exprimée en fraction.

Un débit d'inondation dont la probabilité d'apparition ou de dépassement est 0.033 est appelé
1
crue de 30 ans ( T 30 ) car la probabilité est établie à l'aide des crues annuelles. L'unité
0.033
de temps de T est la même que celle de la variable qui a servi à déterminer la probabilité.

Il ne faut pas conclure qu'un débit de 30 ans se produira à intervalles fixes de 30 ans ou
que, s'étant produit une fois, il ne se produira plus pendant 30 ans. On doit comprendre
plutôt que sur une longue période, 300 ans par exemple, 10 crues au moins égales à ce
débit se produiront. Autrement, on peut dire qu'à chaque année, il ya 3.3% de chance
qu'un tel débit soit atteint.

Les intervalles de récurrence recommandés pour le dimensionnement de certaines structures sont


comme suit :

a- déversoirs de barrages où un crue dépassant la capacité peut mettre le barrage en


danger et créer des dommages considérables et des pertes de vie : 500 à 1000 ans ou 10
000 ans

b- ponts sur routes importantes où l'exhaussement de l'eau crée par le pont peut
entraîner des dommages importants ou la perte du pont : 50 à 100 ans

c- ponts sur routes secondaires ou ponceaux sur routes importantes : 25 ans


d- ponceaux sur routes secondaires, égouts pluviaux, fossés de drainage : 5 à 10 ans
e- égouts pluviaux de moindre importance : 1 à 2 ans

Le calcul des probabilités permet de calculer quelles sont les chances de non apparition d'une
valeur égale ou supérieure à X connaissant sa probabilité d'apparition au cours de l'année calculé
l
par : p
T
1
la probabilité de non apparition se calcule par : q 1 P 1
T

3.3 Distribution d'une série statistique


Un échantillon hydrologique formé de n valeurs constitue une série continue dont l'effectif ou la
fréquence d'apparition varie avec la valeur de la variable. On peut construire avec cet échantillon
un histogramme ou polygone des fréquences d'apparition, une courbe des valeurs classées,
une courbe de distribution des fréquences.

Prof N.SERHIR -6- Traitement statistique


a- Polygone des fréquences d'apparition

Soit un échantillon de N observations décrivant une variable aléatoire X (x1, x2,.....xN).

La construction d'un histogramme des fréquences de la variable X consiste à graduer l'axe des
abscisses en valeur croissante de la variable étudiée et découpée en intervalles de classes. On
porte alors en ordonnée le nombre d'apparitions constatées dans chaque intervalle. On obtient
ainsi un graphique en "escalier".

b- Courbe des valeurs classées Ces courbes sont obtenues en portant :

en ordonnée : les valeurs observées, classées en ordre décroissant

en abscisse : la fréquence d'apparition de l'ensemble des valeurs supérieures à la


valeur portée en ordonnée.

Ce sont des courbes qui permettent de donner le pourcentage de probabilité où une valeur
observée a été égalée ou dépassée. Elles ont généralement l'allure d'un S horizontale.

c- La courbe de distribution des fréquences

On peut construire soit la distribution des fréquences cumulées au non dépassement soit la
distribution des fréquences cumulées au dépassement.
Si on calcule les fréquences cumulatives de toutes les valeurs inférieures ou égales à une valeur
donnée xi, on obtient la fréquence cumulée au non dépassement de cette valeur. Le classement,
dans ce cas, des valeurs observées, doit être fait en ordre croissant.

Inversement, le classement des données de l'échantillon par ordre décroissant et le calcul de la


fréquence cumulée de toutes les valeurs supérieures à une valeur donnée xi, permet de tracer la
graphique des fréquences cumulées au dépassement.

d- Fonction de densité de probabilité - Fonction de répartition

Si la taille de l'échantillon devient grande et l'intervalle de classe tend vers zéro, le polygone des
fréquences relatives sera décrit par une courbe à laquelle correspond une certaine fonction de
distribution continue f(x) dite fonction de densité de probabilité, notée fdp. Ainsi l'effectif ou
la fréquence d'apparition d'une valeur xi deviendra, la densité de probabilité f'(xi).
Soit la courbe décrivant les fréquences d'apparition des événements d'une variable X.

Fonction de distribution

Prof N.SERHIR -7- Traitement statistique


Si P(b) est la probabilité d'obtenir x < b
et si P(a)) est la probabilité d'obtenir x < a, alors la probabilité d'avoir a < x < b est :
Prob (a d x d b) = P(b) - P(a)

L'on peut démontrer que la probabilité d'avoir a < x <b


b
Prob (a d x d b) = P(b) - P(a) = ³a
f ( x ). dx
C'est-à-dire égale à la surface hachurée de la courbe
Si D est la plus petite valeur possible de x et E la plus grande, on aura par définition :

x E
³ D
f ( x ). dx P ( x ) et ³ f ( x ). dx
D
1
La dernière expression est évidente, puisqu'elle exprime que la probabilité pour que x soit situé
entre les deux extrêmes possibles, est égale à 1 (ou 100% de chances).

Elle exprime aussi que la totalité de l'aire sous la courbe de la fonction de distribution est égale à
l'unité.

Une fonction de distribution f(x) est caractérisée par sa moyenne m et son écart type V.

De même, la limite du polygone des fréquences cumulées définit une fonction de répartition
appelée loi de répartition de la population, notée F(x) telle que :

dF ( x)
f ( x)
dx

Fonction de répartition

Soit un échantillon X de valeurs observées (x1, ........xN), classées en ordre croissant.

F ( xi ) P( X d xi ) ¦ f(xk )
x k dxi
C'est la probabilité qu'une valeur de la variable X soit inférieure ou égale à la valeur xi.
xi
F ( xi ) ³f f ( x ) dx

Prof N.SERHIR -8- Traitement statistique


Cette fonction est connue aussi sous le nom de la fonction de répartition au Non dépassement.
Elle prend des valeurs de 0 à 1.

Par opposition, le complément de cette fonction s'appelle la fonction de répartition au


Dépassement et se définit par :

F1 (xi) = P(X > xi) = 1 - F(xi)

Le calcul au dépassement nécessite le classement de l'échantillon en ordre décroissant.


Les lois mathématiques de distribution de probabilité peuvent être comparées à la distribution de
l'échantillon disponible. Si la loi mathématique s'applique à l'échantillon, on peut déclarer que
cette loi s'applique au phénomène et en déduire les probabilités de toutes les valeurs que peut
prendre la variable étudiée.

Les échantillons étant petits en hydrologie, il sera parfois difficile de déclarer si une loi de
probabilité s'applique d'une façon absolue à un phénomène. On devra souvent se contenter
d'utiliser la loi qui semble le mieux s'appliquer au phénomène étudié, représenté d'une façon plus
ou moins parfaite par l'échantillon disponible.

3.4 Notion du risque hydrologique


Le concept du risque hydrologique est à la base du choix de la période de récurrence utilisée pour
la conception des ouvrages hydrauliques. Il représente la probabilité qu'un critère de conception
soit dépassé au moins une fois (1, 2,...........ou n fois) pendant la période de retour T calculée.

Exemple 1
Considérons la conception d'un ouvrage hydraulique : un canal conçu pour transporter un débit
de crue centenaire Q100 doit laisser passer ce débit sans qu'il y'ait inondation.
La probabilité d'apparition ou de dépassement de ce débit au cours de la 1ère année est
1
P ( Q ! Q 100 ) F1 0 .01
100
La probabilité de non dépassement au cours de cette même année est :
P(Q d Q100) = 1 - F1 = 0.99

Si le canal doit servir pendant n années, ce qui représente la vie du projet et pendant lesquelles le
débit dans le canal doit rester inférieur à Q100, chaque année devient une expérience de type
binomial, c'est à dire à deux éventualités : dépassement ou non dépassement.

1
La probabilité au non dépassement au cours d'une année étant égale à ( 1  ), celle au cours de
T
n années est : (relation d'intersection).
n
§ 1·
P( Q d Q 100 ) , durant n années ¨1 ¸
© T¹

On définit le risque hydrologique R comme étant la probabilité de dépassement de Q100


au cours des n années de la vie du projet. Soit donc :

Prof N.SERHIR -9- Traitement statistique


n
§ 1·
R 1  ¨1  ¸
© T¹
Exemple 2
Quelle est la période de retour que l'ingénieur doit considérer dans le dimensionnement d'un
écluse en acceptant un risque de 10% et pour 5 années prochaines.
5
§ 1·
R 1  ¨1  ¸
© T¹
5
§ 1·
10% 1  ¨1  ¸ Ÿ T 48.1
© T¹
Ÿ T = 48 années
Exemple 3

Si on connaît qu'un débit x a une durée de retour de 100 ans , quelle est la probabilité
d'apparition de ce débit dans les 30 prochaines années ?
30
§ 1 ·
P30 R 30 1  ¨1  ¸
© 100 ¹
R 30 0.26

4- La population - l'échantillon et leurs paramètres

4-1 /Caractéristiques de la population


L'analyse statistique permet de définir les caractéristiques de l'échantillon. Toutefois, ce dernier ne
donne qu'une image déformée (approximative) de la population. Ces caractéristiques convergent
vers celles de la population quand sa taille grandit.

Il faudrait noter que les caractéristiques de l'échantillon sont elles mêmes de réalisations de
variables aléatoires régies par des lois de distribution. Elles sont plus ou moins dispersées autour
des caractéristiques théoriques de la population qui sont :

* l'espérance mathématique ou moyenne :


E ( x ) ³ x f ( x ) dx m

* la variance de la population : V²
>
E x  m
2
@ ³ x  m
2
f ( x ) dx = V²

* les moments d'ordre k par rapport à la moyenne


>
E x  m
k
@ ³ x  m
k
f ( x ) dx = Pk

Prof N.SERHIR - 10 - Traitement statistique


4-2 / Caractéristiques de l'échantillon
Il est de pratique de condenser l'information hydrologique s'étendant sur de nombreuses années
à une station fixe et de la remplacer par quelques caractéristiques bien choisies, à condition,
toutefois, que ces dernières représentent la série chronologique de manière quasi-exhaustive.

La statistique descriptive s'adapte parfaitement à ce type de problème. Elle définit certains


paramètres types, analysant fidèlement le phénomène à étudier. Ainsi une série d'observations
peut être décrite statistiquement par trois types de caractéristiques :

- la valeur centrale ou dominante (moyenne, médiane, mode) ;;


- la dispersion ou fluctuation autour de la valeur centrale (écart-type, variance,
moments centrés, quartiles) ;;
- les caractéristiques de forme des courbes de fréquence des observations
(coefficient d'asymétrie, d'aplatissement) ;;

Les principales valeurs calculées sont :

a- Valeur centrale ou dominante d'une série

On cherche à caractériser l'ensemble par une "valeur type", c'est à dire par un nombre unique qui
représentera, en première approximation, l'ordre de grandeur de l'ensemble des observations et
permettra la plus sommaire des comparaisons rationnelles entre deux séries ;; ainsi, s'il s'agit de
résumer brièvement la série de hauteurs de précipitations annuelles afférentes à une longue
période, on choisit le plus souvent comme valeur type le "module pluviométrique annuel
moyen" défini comme la moyenne arithmétique des hauteurs de précipitations annuelles sur une
série aussi longue que possible.

Dans certains cas (répartitions dissymétriques), il peut être plus logique statistiquement parlant -
de remplacer la moyenne arithmétique par la médiane définie plus bas.

Si n est le nombre d'années d'observations et xi la valeur de l'observation afférente à l'année de


rang i, la moyenne arithmétique de la série a pour expression
n

¦x i
x 1

n
b- Les moyennes de position
Elles demandent pour leur détermination que la série ait été ordonnée suivant les valeurs
croissantes ou décroissantes du caractère. La plus importante est la médiane, valeur telle que la
fréquence des données plus petites et celle des données plus grandes que la médiane soient égales
à 1/2 . La médiane sépare donc l'ensemble des données en deux groupes également
nombreux.

Le premier quartile Q1 sépare la série de telle sorte que l'effectif des données inférieures soit le
quart de l'effectif total. La médiane est parfois appelée deuxième quartile. Le troisième quartile
Q3 et les centiles seraient définis d'une façon analogue.

Prof N.SERHIR - 11 - Traitement statistique


c- Dispersion ou fluctuation des diverses observations autour de la valeur
centrale
Cette caractéristique d'une série d'observations est essentielle pour l'ingénieur qui ne peut
généralement se contenter de la seule considération des valeurs moyennes ;; elle pourra être
traduite quantitativement par l'un des procédés suivants qui sont classés par ordre de complexité
croissante :

x Intervalle de variation ou l'étendue

C'est, dans le cas que nous avons pris comme exemple, la différence entre les modules
pluviométriques de l'année la plus humide xmax et de l'année la plus sèche xmin :

W = xmax - xmin

x Coefficient de dissymétrie

Il se détermine à l'aide des quartiles trouvés sur la courbe de distribution des fréquences par la
formule :
( Q3  Q2 )  ( Q2  Q1 )
C
( Q3  Q1 )
La valeur de ce coefficient C est nulle lorsque
la distribution est symétrique (loi normale).

x Variance
C'est la moyenne arithmétique des carrés des écarts par rapport à la moyenne x :

S
1
(n  1)
¦ xi  x
2

L'on peut montrer que S² peut se mettre sous la forme :

S
1
¦ xi 2  1 ¦ xi 2
(n  1) n(n  1)
Cette dernière expression facilite
le calcul de la variance en évitant le calcul des écarts.

x Ecart type
L'écart type de l'échantillon est la notion de dispersion la plus utilisée ;; elle se définit comme la
racine carrée de la variance. Il est à noter que S est l'écart type de l'échantillon, formé des n
valeurs connues ;; il ne faudra pas le confondre avec V , l'écart type de la loi de distribution
théorique dont il est question plus loin.

x Le coefficient de variation Cv
Il caractérise l'importance de la dispersion autour de la moyenne :

Cv = S/ x

Prof N.SERHIR - 12 - Traitement statistique


x
x Le Coefficient d'aplatissement

C'est un coefficient de forme de la distribution. On peut l'estimer soit :


1 Q 3  Q1
par la formule de Kelley : Ca .
2 D 9  D1
P4
par la formule de Pearson : Ca = 3
S4

D1 et D9 sont le 1er et le 9ème décile de la série.


P4 est le moment d'ordre 4.

d- Les moments empiriques de l'échantillon

Une estimation des principaux moments utilisés en hydrologie est donnée par les formulations
Suivantes :
1
P1 x
N
¦ xi
1

2
P 2 S⇢
N 1
¦ xi  x

N

3
P3
N  1 N  2 ¦ xi  x

N⇢

4

N  1 N  2 N  3 ¦
P4 xi  x

Pi : moment empirique d'ordre i

5- Lois de distribution utilisées en hydrologie


5-1/ Présentation des lois

Vu la mauvaise qualité des données (échantillons trop réduits en particulier), l'hydrologue ne peut
se montrer très difficile sur les lois théoriques qu'il utilise : aussi se contente-il d'un nombre limité
de lois :

x La loi de Gauss est utilisée pour des échantillons constitués de moyennes (en effet, la
somme de variable aléatoires quelconques tend à devenir normale si le nombre de variable pris
en compte augmente) : distribution de modules, de débits ou apports mensuels, de pluie
annuelle ou mensuelle.

x La loi de Gumbel est la seconde loi de base : sa dissymétrie constante semble très bien
adaptée aux événements extrêmes habituellement rencontrés : maxima annuels de
précipitations journalières en particulier - à condition que les précipitations soient homogènes.
Mais également débits de pointe de crues etc.
Il est parfois nécessaire d'utiliser une variable transformée Y = g(x), qui s'adaptera mieux à

Prof N.SERHIR - 13 - Traitement statistique


la loi de Gumbel.

x La loi de Pearson III complète ces deux lois fondamentales : à faible coefficient de
variation, elle tend vers la loi de Gauss, à coefficient de variation plus fort, elle se rapproche
de la loi de Gumbel.

x On utilise également les lois de Galton, où le logarithme de la variable suit une loi de
Gauss et la loi de Fréchet, où le logarithme de la variable suit une loi de Gumbel.

Ces lois présentent l'avantage de pouvoir être utilisées comme des lois à trois paramètres, ce qui
leur confère une souplesse presque aussi grande que celle de la loi de Pearson III.
Enfin, on trouve dans la littérature les lois de Pearson , les lois de Halphen, la loi harmonique et
bien d'autres, dont l'utilisation, beaucoup moins pratique, (sauf cas très particuliers) n'apporte rien
de plus à l'hydrologue.

Nous traiterons , avec des étude de cas détaillées , les lois de Gauss,log normale ,
Gumbel et frechet.

Distribution normale : loi de Gauss


Lorsqu'une variable x subit l'influence de causes nombreuses très petites et indépendantes les
unes des autres, les valeurs de cette variable se distribuent suivant une fonction de distribution,
dite "normale". C'est la loi la plus commune et la mieux étudiée. Elle est définie par :
1  ( x  m )⇢
f (x) exp
V 2S 2V ⇢
dont les deux seuls paramètres sont la moyenne m et l'écart type V.
Dans cette distribution, x peut varier de manière continue de -f à +f et
f
³f f ( x ). dx 1

La fonction f(x) se représente par une courbe en forme de cloche, symétrique par rapport à x =
m, admettant un maximum pour x = m et tendant asymptotiquement vers 0 pour xo-f et
xo+f.

Les points d'inflexion se situent à (m - V) et (m + V) .

Prof N.SERHIR - 14 - Traitement statistique


Ainsi , il ya une probabilité de 95.5% d'avoir une valeur de x dans un intervalle de 2V de part et
d'autre de la moyenne et pratiquement toutes les valeurs de x se trouveront dans un intervalle de
3V de part et d'autre de la moyenne.

Ceci explique que cette distribution s'adapte avec suffisamment de précision au


domaine de variation réel des variables observées, bien qu'en principe x puisse aller de -
f à +f.

Notons maintenant que se on opère le changement de variable


x m
t
V
La distribution devient :
1  t⇢
M( t) .e 2 
2S
M(t) est appelé "distribution normale réduite" et t "variable réduite".

La distribution normale ne contient plus aucun des paramètres de la distribution de x. C'est une
loi normale de moyenne 0 et d'écart type 1.

Des tables ont été construites et permettent de donner : :

a- la probabilité d'apparition des valeurs comprises entre 0 et 1


t 1 t⇢
0 2S e
)( t ) ³ 2 dt

b- la probabilité cumulée au non dépassement

t 1  t⇢
F ( t) ³f 2S e 2 dt
On remarque que la loi normale est entièrement déterminée lorsqu'on connaît sa
moyenne m et son écart type V.
Prof N.SERHIR - 15 - Traitement statistique
A partir d'un échantillon, la meilleure estimation de la moyenne de la distribution théorique est
la moyenne de l'échantillon x . Par contre la meilleure estimation de l'écart type de la
fonction de distribution théorique, à partir de n valeurs connues, est donné par :

¦ x
2

¦ x⇢ 
n
S
n1

Distribution des valeurs extrêmes : loi de Gumbel

Certains phénomènes naturels de nature continue s'écartent parfois considérablement de leurs


limites normales de variation et l'analyse statistique de ces valeurs extrêmes (maximums ou
minimums) permet de prévoir leur fréquence d'apparition grâce à la théorie de Gumbel
concernant la distribution des valeurs extrêmes d'un phénomène.

Cette théorie permet de déterminer les débits de crues de longues périodes de retour, par l'étude
de la série des crues annuelles. L'échantillon est donc formé en prenant à chaque année une seule
valeur, le débit journalier maximum mesuré au cours de cette année. On pourrait faire une étude
analogue des sécheresses extrêmes en étudiant la série des débits minimums annuels. Les
pressions atmosphériques extrêmes, les températures extrêmes, les précipitations extrêmes sont
des phénomènes qui se prêtent à ce type d'analyse.

Toutefois, cette loi n'est citée que dans la littérature hydrologique. Les calculs théoriques sont très
simples à effectuer car la fonction de répartition est de forme très simple.

 a( x x 0 )
ee

F ( x)
où F(x) représente la probabilité au non dépassement de la variable x.

La variable réduite y dite de Gumbel (comparable à t, variable réduite de Gauss) est définie par :
y = a(x - x0) d'où
 e y
F ( x) e
où x est la variable étudiée
a et xo sont les paramètres de la loi.
a est un paramètre caractéristique de la dispersion

On démontre que xo est le mode : valeur la plus probable.

La loi de distributionde la variable réduite de Gumbel y est donnée par :

y = -Log (-Log (F)) F est la probabilité au Non dépassement, le Log


est népérien.

Prof N.SERHIR - 16 - Traitement statistique


Il suffit donc de déterminer les valeurs numériques de a et x0 lorsqu'on étudie un échantillon
donné pour connaître la probabilité de n'importe quelle valeur de x,. A cette fin, on utilise les
équations suivantes :
­1
° 0.78S
°a
et®
°x 0.577
°
x
¯
0
a

où S est l'écart type de l'échantillon X


x est la moyenne de l'échantillon X

Ces relations sont vraies pour un échantillon de très grande taille supérieure à 100. En fait, des
développements poussés en statistiques ont montré que ces divers coefficients sont fonction de
la taille de l'échantillon N et que pratiquement, on devrait utiliser les relations suivantes pour
calculer les paramètres de la loi de Gumbel.

ª1 S
«a VN
«
«x 1
x yN
«¬ 0 a

Dans lesquelles :
y N est la moyenne de la variable réduite de Gumbel calculée sur un échantillon de taille N
VN est l'écart type de la variable réduite de Gumbel calculé sur un tel échantillon

Ces valeurs sont données au tableau 5, en fonction de N.

La loi de Galton : Loi Log Normale


Lorsque les valeurs d'une variable X ne sont pas distribuées normalement, il arrive que le
logarithme de ces valeurs soit normalement distribué.
Cette loi résulte donc de la loi Normale rendue dissymétrique positive par un changement de
variable. Ainsi, au lieu de travailler avec la variable aléatoire X(x 1 , ........xn), on travaillera avec son
logarithme (népéreen ou décimal) ou encore avec une fonction linéaire de ce logarithme. En
pratique deux applications de cette loi sont utilisées :
Lnx  Lnx
1. u où
SL x
n
L n x est la moyenne arithmétique des logarithmes népéréens des x.
S L x est l'écart type des LnX.
n

l'équation de la variable réduite u se présente sous forme d'une droite :


L x = L n x + u SL nx
n

qu'on peut tracer sur un papier gausso-logarithmique qui est le papier de la loi Log Normale.
Prof N.SERHIR - 17 - Traitement statistique
Cette loi est donc entièrement définie par les paramètres L n x et S L n x .
Ainsi, la variable X suit une loi de Galton, si la variable Log X suit la loi de Gauss.
2. u = a log (x - x0) + b est une autre forme de la loi Galton
a, b et x0 sont les paramètres de la loi.
u est la variable log normale réduite centrée.

Calcul des paramètres de cette nouvelle forme

x0 se détermine en résolvant les équations :

x  x
3
4
S 0

P3 S ⇢  3 x  x ⇢ 0

a et b peuvent être estimés par deux méthodes.

9 La méthode du maximum de vraisemblance

1
a⇢ 2
ªN º
¦ log ⇢ x  x0 « ¦ log x i  x 0 »
N
i
i
¬ i ¼
N N⇢
¦ log x  x0
N
i
b a i
N

N : taille de l'échantillon
xi : les observations
log est décimal

9 Méthode des moments méthode d'estimation qui considère les caractéristiques


de l'échantillon :
1.517
a
§ ·
¨ S⇢ ¸
log ¨  1¸

2
¨ x  x0 ¸
© ¹

 a log x  x
1.1513
b 0
a

Ce changement nous permet donc de calculer le quantile X[T], connaissant la période de retour
T. En fait, on calcule la probabilité au dépassement F :
1
F 1
T
Prof N.SERHIR - 18 - Traitement statistique
et on détermine la variable réduite u(F) sur les tables de Gauss. Enfin, on calcule
u ( F ) b
X( T) 10 a  x0

L'ajustement graphique à la loi log normale reste analogue à celui de la loi de Gauss, il
faudrait reporter par contre les couples (xi , fréquence expérimentale) sur un diagramme Gausso-
logarithmique.

Le plus pratique

1- On vérifie d'abord l'ajustement de la distribution empirique par rapport à la droite


L n x u S L x
théorique : x e n

( L n x et S L n x doivent être calculés à partir des données de l'échantillon).

Si l'alignement est visible et bon alors l'ajustement graphique est accordé.

2- Si non, on vérifie l'ajustement par rapport à la deuxième forme de u = a log (x-x0)+b

Loi de Frechet : Gumbel - logarithmique.


De la même manière, on dit que la variable X suit une loi de Frechet si la variable Log X suit
une loi de Gumbel.
La variable réduite y est définie par :

y = a (Log x - (Log X)0) où


y = -Log (-Log (F))
F est la probabilité au Non dépassement,
le Log est népérien.

On devrait utiliser les mêmes relations pour calculer les paramètres de la loi de Frechet :

Si N 100 ª1 S LogX
«a VN
«
«( Logx) 1
Logx  y N
«
¬
0
a
Sinon

­1
° 0.78S LogX
°a
et ®
°( Logx) 0.577
°
Logx 
¯
0
a

Prof N.SERHIR - 19 - Traitement statistique


Loi Gamma incomplète à deux paramètres : loi Pearson III
Sa fonction de répartition s'écrit :
a J 1 x  ax J 1
* ( J ) ³0 e
F ( x) . x . dx

où a est un paramètre d'échelle


J est le paramètre de forme
X = a x Pour faciliter les calculs, ou posera :
1  X J 1
la fdp devient : f ( X) e .X
*(J )
avec *(x) l'intégrale eulérienne définie par :

f x 1  t
*( x) ³ t e dt
0

et *(x) = (x-1) *(x-1)


en particulier si x est un entier :
*(x) = (x-1) !

La fonction factorielle d'Euler est tabulée. ( voir annexe des tables de probabilité)

La méthode des moments appliquée à la fonction Gamma permet d'obtenir les relations
suivantes :
a = x /S²
J = x⇢ /S²

la fonction est donc entièrement définie par sa moyenne et sa variance.

J est un paramètre de forme. En fait, cette fonction admet différentes représentations en fonction
de la valeur de J qui varie de 0 à f. En particulier ,si J = 25, la dissymétrie est déjà très atténuée
et pour J > 60 on obtient une courbe pratiquement symétrique et approximable par la fonction
gaussienne.

La méthode de vraisemblance permet aussi de déterminer les paramètres a et J :

Il a été démontré que J est relié à l'échantillon X(x1 ,.....xn) par la relation

M (J) = log x  log x

M (J) est la fonction complexe dont les valeurs sont tabulées Ainsi connaissant M (J) on
détermine J puis on calcule a par la relation.

a = J/ x
En particulier si J < 10, il est préférable de calculer a et J par la méthode de vraisemblance.

Prof N.SERHIR - 20 - Traitement statistique


-Connaissant J :
9 On se fixe un certain nombre de probabilités au non dépassement (10%, 20% ,
30%) ,......90%).

9 On détermine à partir des tables de la loi de Pearson III la variable X


correspondante à chaque F.
1
9 On calcule ensuite le quantile x(T) correspondant à la probabilité F = 1- par
T
la
X(F )
relation : x( T )
a

Conclusion sur le choix d'une loi


Il existe en hydrologie un arsenal fort important de fonctions de répartitions. Dans la pratique, la
seule justification à l'emploi d'une fonction de répartition est en général purement empirique : on
constate la cohérence des résultats dans un grand nombre d'applications comparables (régionales
surtout).

Parfois plusieurs fonctions de répartition peuvent être pratiquement confondues dans un


domaine d'intervalle. Pour caractériser un phénomène ;; si l'on ne dispose pas d'éléments
complémentaires permettant d'aider au choix, la règle générale consiste à utiliser la fonction la
plus simple qui contient le moins de paramètres.

On peut être aussi guider dans le choix par un certain nombre de considérations empiriques. En
effet, des études menées en hydrologie ont montré que le choix peut être limité par le type de la
variable hydrologique étudiée. Ainsi pour les :

Précipitations
annuelles : loi normale - Galton - Pearson
mensuelles : loi normale - Galton - Pearson
journalières : Gamma incomplète
extrêmes : Gumbel ² Goodrich

Débits annuels : loi normale - Galton - Pearson


extrêmes : Gumbel (crues), Frechet (étiages)

Dans la pratique, le lissage des distributions empiriques se fait sur un graphique gradué en
probabilité. Ceci permet d'estimer un événement de période de retour fixée ou aussi de
déterminer la probabilité d'un événement observé. Cette procédure est sans doute acceptable et
sans grand risque entre les quantiles 20% et 80% pour des échantillons de 30 à 50 observations.

A l'extérieur de cet intervalle cela devient dangereux car on s'expose à de graves incertitudes
générées par des aléas de l'échantillonnage et de certaines valeurs extrêmes. De plus ce type de
lissage est trop subjectif, deux personnes effectueront rarement un ajustement graphique
identique sur le même échantillon. Des expériences de ce genre, faites sur un grand nombre de
cas, ont montré la grande variabilité des résultats.

Prof N.SERHIR - 21 - Traitement statistique


6 - Pratique de l'ajustement
Quand un hydrologue fait l'ajustement d'une loi à un échantillon, c'est à peu près toujours pour
en déduire les valeurs de "Temps de retour" donné, c'est à dire pour prévoir les valeurs rares du
phénomène caractérisé par l'échantillon des valeurs observées.

Extrapoler la courbe hors de l'intervalle des points de mesure pour déterminer les valeurs du
phénomène rare est équivalent à essayer de déterminer la courbe expérimentale que
'on aurait obtenue à partir d'une série beaucoup plus longue de relevés.

'HVSDSLHUVJUDSKLTXHVDSSURSULpVVRQWFRQVWUXLWVSRXUHIIHFWXHUO·DMXVWHPHQWGHVIRQFWLRQVOHV
plus courantes : normale, Galton et Gumbel. Ils présentent l'avantage de représenter linéairement
la fonction (x, F(x)).
Quand on étudie la distribution empirique des n valeurs d'un échantillon, on peut s'assurer
visuellement qu'une fonction choisie pour représenter cet échantillon, convient ou non. On
pourrait, éventuellement l'ajuster et estimer ainsi graphiquement les paramètres de cette loi.
Un exemplaire de chacun de ces papiers est fournie à la fin de ce chapitre .

9 fréquence empirique

Dans la pratique de l'ajustement statistique, il est nécessaire d'estimer la fréquence d'apparition de


chaque événement xi de l'échantillon X de taille N (xi, i = 1 à N) étudié.

La taille des échantillons hydrologiques est le plus souvent petite (inférieure à 50). Ceci ne permet
pas de tracer un histogramme réaliste des fréquences relatives car les effectifs de chaque classe
sont faibles. Les hydrologues travaillent avec les fréquences empiriques pour établir la courbe
expérimentale des fréquences, représentative de l'échantillon.

Quelle est l'approche utilisée ?


Supposons que l'on ait observé une variable hydrologique quelconque. La pluie moyenne
annuelle, le débit maximal annuel etc.... Ceci permet de composer un échantillon de N valeurs.

On va classer les événements xi , observés dans un ordre chronologique donné, par ordre
décroissant, de sorte que x1 sera la plus grande valeur et xN la plus petite :
(x1 > x2 > ...> xi > ...... > xN).

On peut alors dire que x1 a été atteinte ou dépassée 1 fois sur ces N années, x2 a été atteinte et
dépassée 2 fois sur N années, ....., xN a été atteinte et dépassée N fois sur N années. On pourrait
donc attribuer en première approche à x1 la durée de retour N (sachant que T = l'inverse de la
N
probabilité au dépassement) à x2 , on affecterait la durée de retour ,....etc.
2
On peut donc estimer pour chaque valeur classée de rang i, une fréquence dite empirique de
dépassement qui sera assimilée à la probabilité de dépassement de la population mère infinie,
définie par :
f
P = Prob (X > x) = ³x f ( x ) dx

Prof N.SERHIR - 22 - Traitement statistique


La formulation exacte de cette fréquence empirique a fait l'objet de plusieurs critiques
controversées de la part des spécialistes. L'expression :
F exp i N &·HVWODIRUPXOHGH&DOLIRUQLH
i
Elle a été améliorée en introduisant des termes correctifs pour tenir compte de la taille réduite de
l'échantillon et du type des données hydrologiques étudiées.
Une formule générale est donnée par : ia
F
exp i ( xi ) N  1  2a
Nous retiendrons enfin de compte deux expressions les plus utilisées au Maroc :

Cas des valeurs moyennes : i  0.5 Formule de Hazen


F exp i
( xi )
N
i
Cas des valeurs extrêmes : F expi
( xi )
N  1 Formule de Gumbel
i est le rang dans l'échantillon classé HW1ODWDLOOHGHO·pFKDQWLOORQ

Remarquons que si l'échantillon est classé en ordre croissant, la fréquence empirique ainsi
calculée est assimilée à la fréquence au non dépassement. S'il est classé en ordre décroissant, elle
est assimilée à la fréquence au dépassement.

7 - Prévision en temps de retour


La statistique part d'un échantillon de valeurs observées de taille N finie.
L'ajustement d'une loi probabiliste à cet échantillon, permet de :
- résumer l'échantillon
- prévoir statistiquement

Cette seconde fonction du calcul statistique, qu'est la prévision, s'opère par un calcul probabiliste
sur la loi ajustée à l'échantillon. Elle consiste à :

- extrapoler les valeurs observées : chercher la valeur centennale ou milléniale,


du phénomène à partir d'un échantillon de taille 50.

- interpoler les valeurs observées : chercher à partir de 50 ans d'observations la


valeur décennale ou médiane par exemple.

L'extrapolation permettra de prévoir les phénomènes catastrophiques : crues et étiages


exceptionnels.
L'interpolation détermine les phénomènes ordinaires, permettent de réaliser une gestion
optimale d'une retenue, d'un réseau agricole, de faire des calculs économiques etc......

Ainsi, connaissant la période de retour T de l'événement X à prévoir, on calculera le quantile X


(T) par exemple pour :

Loi de Gauss : X (T) = x + u (T) * S


u (T) est la variable réduite de Gauss, à déterminer sur les tables connaissant la
Prof N.SERHIR - 23 - Traitement statistique
1
probabilité F de non apparition de l'événement : F 1
T
x et S VRQWOHVSDUDPqWUHVHPSLULTXHVGHO·pFKDQWLOORQ
1
Loi de G umbel X(T)y  x0
a
y est la variable réduite de Gumbel définie, connaissant la probabilité F, par :

y = -Log (-log F) , Log népérien.


1/a et x0 sont les paramètres de la loi Gumbel.

Loi Log Normale :


Suivant le changement de variable adopté , on calcule par :
Ln xu( F ) S L x
X (T ) e n

OU u ( F )b
X (T ) 10 a  x0
Loi de F rechet : Log ( X (T ))
1
y (T )  ( Logx ) 0
a
y est la variable réduite de Gumbel définie, connaissant
la probabilité F, par :
y = -Log (-log (1-1/T)) , Log népérien.

8- Conclusion générale
Dans un traitement statistique des données hydrologiques, on conçoit qu'il ne faudra pas attendre
de l'échantillon une précision extraordinaire surtout dans les grandes durées de retour. En effet,
celle-ci va dépendre :

- du type de "loi" ajustée


- du mode d'ajustement
- de la qualité des mesures
- de la taille de l'échantillon

Il restera, après ajustement et prévision, à chiffrer convenablement la confiance, à accorder aux


UpVXOWDWVREWHQXV/HVWHVWVG·DGpTXDWLRQGHO·DMXVWHPHQW KHI deux par exemple ) et le calcul des
intervalles de confiance autour des paramètres et quantiles estimés permettent de qualifier la
validité des résultats obtenus .
De même, il faut signaler que, vu les progrès de l'informatique, il ya eu mise au point de logiciels
de calcul ( et de tracé) d'ajustement fréquentiel. Ils permettent, après introduction des N données
observées de connaître pour une ou plusieurs lois choisies:
- les paramètres estimés par telle ou telle méthode
- les quantiles calculés par une loi donnée à une probabilité donnée
- le tracé graphique des ajustements statistiques choisis
- la validité d'adéquation (test F )
2

 Les intervalles de confiance autour des paramètres et observations.

Prof N.SERHIR - 24 - Traitement statistique


9 - /HVWHVWVG·DGpTXDWLRQ
Il y'a toujours des écarts entre les fréquences expérimentales des valeurs observées et les
fréquences des mêmes valeurs calculées à partir d'une fonction de répartition quelconque.
Certains tests ont été développés pour évaluer l'importance de ces écarts. Ces tests peuvent
mener au rejet ou à l'acceptation de certaines fonctions de répartition.

Les tests les plus utilisés en hydrologie sont le test de F (Khi - deux) et le test de Kolmogorov
2

Smirnov.

9-1/ Le test d'adéquation de F ⇢


Il est donc difficile de choisir à priori, une forme de distribution théorique susceptible de s'ajuster
de manière adéquate à la distribution empirique.
L'ajustement graphique est la première étape à faire mais il ne suffit pas pour conclure sur le
choix définitif de la loi théorique.
Le test de F permet de tester la qualité d'un ajustement graphique ou numérique réalisé.
2

Principe du test
Le test de F permet de faire une comparaison entre la distribution empirique et la distribution
2

théorique.

Le principe consiste à faire l'hypothèse que les deux distributions ne diffèrent presque
pas. Si la probabilité qu'il en soit ainsi est très faible, on rejettera l'hypothèse et on conclura que
la distribution théorique ne s'ajuste pas à l'échantillon étudié.

Si au contraire, cette probabilité est forte, la loi théorique sera adoptée pour le calage de
l'échantillon.

La mise en oeuvre du test de F


2

On dispose d'un échantillon de taille N formé par les événements (X1 , X2.....XN).

On voudrait le confronter à une variable aléatoire, issue d'une population distribuée selon la loi
de probabilité F(x) à p paramètres pour laquelle on veut tester l'adéquation.

La mise en oeuvre consiste à subdiviser l'échantillon en k classes équiprobables, chacune ayant


une probabilité théorique : Pi telle que Pi = vi /N où vi est l'effectif théorique (nombre
d'éléments) de chaque classe i ( vi = N.Pi).

En réalité, l'effectif réel de chacune des classes i est une valeur ni , plus ou moins différente de vi .
Le problème est de vérifier si l'écart entre les vi et ni des différentes classes est significatif ou non.
La vérification se fait par le calcul de la moyenne des carrés des écarts entre ces deux effectifs.
Soit donc par le biais de la quantité statistique.
2
k ni  vi
Z⇢ ¦ vi
i 1
Cette quantité suit une loi de F
2
à Q degré de liberté.
Prof N.SERHIR - 25 - Traitement statistique
Q (se lit nu) se calcule connaissant le nombre de paramètres p de la loi théorique F(x) et le
nombre de classes k.
Q = k-p- 1t1

k t p + 2 ce qui impliquera que :

Il est évident que plus Z², notée F calculée, est faible, meilleure sera la proximité de la loi et de
2

l'échantillon.

F 2 calculée dépend du découpage en k classes et le chiffre obtenu n'a un sens que si la taille de
l'échantillon est importante.
En fait, le test n'est significatif que si :
vi t5
5
Critère du test d'adéquation

Dans la pratique F calculée est comparée à une valeur tabulée, F , fonction du nombre de
2 2

degrés de liberté, et du seuil de signification D imposé en général égal à 5%.

Des tables donnant la loi de F à la probabilité D de dépassement existent. D'autres tables


2

permettent de donner la loi à la probabilité au Non dépassement (1 - D).

Le critère du test se résume à la vérification suivante :

Soit Ho l'hypothèse de la validité de la loi : "l'échantillon empirique est représenté par la


loi théorique".

Ho sera rejetée si, nous avons, au seuil de signification D fixé :


F 2 calculée > F 2 tabulée, Q , D

Nous retiendrons la loi lorsque :


F 2 calculée d F2 tabulée, Q , D

Insistons sur le fait que ceci ne permet pas de choisir la loi mais simplement de rejeter les plus
mauvaises.

Exemple :

Supposons par exemple que pour un échantillon de taille N = 30 , on obtienne F cal = 2.


2

La loi de Gauss étant testée pour une subdivision de 6 classes.

Pour faire le test de F il faut donc avoir


2
k t p +2 et vi t 5
p = 2 donc k t 4

Prof N.SERHIR - 26 - Traitement statistique


N = 30 donc on peut faire le test pour les subdivisions suivantes :

­ 30
°k 4 vi ²5
4
°
° 30
®k 5 vi 6
° 5 Ÿ test possibe
°k 6 vi 5
°
¯

k 7 vi ¢ 5 Ÿ test non possible

faisons le test pour k = 6. On obtient alors : F 2 calculée = 2

Le F tabulée devrait être déterminé pour Q = k - p - 1 = 6 - 2 -1 = 3 ddl et pour un seuil de


2

5%, par exemple : F 2 tab = 7.81 > F 2 calculée

Ceci indique que l'on ne peut au seuil de 5% rejeter l'hypothèse de validité de la loi de Gauss. On
aura 5% de risque de se tromper sur la validité de la loi.

9-2/ Le test de Kolmogorov - Smirnov


Ce test se base sur la fonction de répartition empirique Fn (x) définie par :
Nombre d ' observations
Fn ( x ) dx
N
On comparera la fonction théorique F(x) qu'on veut appliquer à l'échantillon par le principe
suivant :
x On calcule la quantité Dn telle que :
N
Dn max F ( x i )  F n ( x i )
i 1
Pour chaque événement xi , observé, on calcule sa fréquence théorique F(xi) et Fn (xi).

Dn est la valeur maximale de toute les quantités calculées F ( x i )  F n ( x i ) .


x Le test repose sur la valeur de Dn. Si celle-ci est assez grande, la loi sera rejetée.

x Le principe consiste à déterminer la quantité DN,D , fonction de la taille de l'échantillon


N, et d'un seuil de risque imposé D sur des tables appropriées au test de Kolmogorov -
Smirnov.

Dn > DN,D Si alors l'hypothèse de validité est


rejetée.

Prof N.SERHIR - 27 - Traitement statistique


10 -Intervalles de confiance, limites de validité :
Pour chiffrer de façon plus précise la validité des résultats, il est bon de passer par le
calcul de l'intervalle de confiance (IC) pour un niveau de confiance p% donné.

Intervalle de Confiance sur les observations :


Il s'agit de trouver la limite du domaine à l'intérieur duquel on doit comptabiliser p% des
observations ( soit p % = 80 à 90%).

Le problème posé ici est celui de la légitimité du choix de la loi.


Est-il raisonnable de penser que tel échantillon expérimental est issu de telle loi ?

La démarche adoptée consiste à rechercher l'enveloppe théorique des points expérimentaux à


90% par exemple et à vérifier qu'il y'a bien 90% des points observés à l'intérieur de cette
enveloppe. Confier les études de cas traitées en classe.

On suppose que l'échantillon de N valeurs étudié ( de paramétres empiriques x et s ) est


2

une réalisation possibles sur une infinité de tirages possibles à N valeurs. La moyenne m et
l'écart type V sont donc deux réalisations de ce tirage. S'il s'agit d'un échantillon normal et si
l'effectif est suffisant, on peut calculer la validité de la ième valeur tirée et en déduire le
pourcentage de chance p% de la trouver entre deux limites calculées par les formules ci dessous
pour un échantillon de type gaussique et de type gumbel .

Intervalle de confiance autour d'un quantile normal X (T)


š
X (T )  u D. S X d X (T )d X (T ) u D .S X
1 1
2 2

S
avec S X 2  u (T )
2N
Intervalle de confiance autour d'un quantile de Gumbel X (T) :
š
X (T ) X (T )ru SX
1D
2
V 1  1.13t 2
SX
N F 1.1t F

 Ln( Ln F )0,577
tF
1.28

2QFDOFXOHDXVVLO·LQFHUWLWXGHVXUOHVO·HVWimation des paramètres de la loi : moyenne et variance


en particulier :

Prof N.SERHIR - 28 - Traitement statistique


Intervalle de confiance autour de la moyenne m

ª º
m est intérieur à
« x  u1D S N ,x  u
1
D S N»
¬ 2 2 ¼
D = seuil de risque : 5 à 10%
u = variable réduite de Gauss si N t 30
variable de student à (N - 1) ddl si N < 30

Intervalle de confiance autour de l'écart type V

si N t 50
S u D S 2N d V d S  u D S 2N
1 1
2 2

S⇢ S⇢
si N  50 N 2
d V⇢ d N 2
F1 F2
F 12 = valeur de F ² à D/2 et (N - 1) ddl
F 22 = valeur de F ² à 1-D/2 et (N - 1) ddl

Prof N.SERHIR - 29 - Traitement statistique


Travaux Pratiques avec le logiciel HYFRAN
TP 1 : rang F1 Pluies annuelles
Une station pluviométrique a été classées ( en mm )
observée sur une période de 38 ans 1 0,01316 1757
Les modules annuels obtenus sont 2 0,03947 1675
résumés dans le tableau ci-aprés. 3 0,06579 1624
Ils sont classées par ordre décroissant 4 0,09211 1599
F1 la fréquence au dépassement 5 0,11842 1456
donnée par Hazen :
F1 = ( i - 0.5) / N 6 0,14474 1396
i est le rang du classement 7 0,17105 1387
8 0,19737 1344
Le but de l'application est d'étudier 9 0,22368 1337
l'ajustement de ces pluies annuelles à 10 0,25000 1312
une loi de Gauss et à une loi log
normale et de Choisir la meilleure loi 11 0,27632 1310
qui s'ajuste à cet échantillon. 12 0,30263 1293
13 0,32895 1276
¾ Calculer les caractéristiques 14 0,35526 1269
HPSLULTXHVGHO·pFKDQWLOORQ 15 0,38158 1269
centrales et de dispersion ;;
¾ Tracer les histogrammes de
16 0,40789 1261
fréquences et courbes
17 0,43421 1231
expérimentales correspondants ;;
18 0,46053 1228
¾ Calculer les courbes 19 0,48684 1226
20 0,51316 1197
correspondantes aux deux lois
étudiées : Gauss et log normale 21 0,53947 1190
22 0,56379 1182
¾ (IIHFWXHUO·DMXVWHPHQWGH 23 0,59211 1153
O·pFKDQWLOORQDX[GHX[ORLVHW 24 0,61842 1149
conclure.
25 0,64474 1145
¾ Confirmer avec le test
G·DGpTXDWLRQde KHI 2
26 0,67105 1131
¾ Calculer les modules 27 0,69737 1118
pluviométriques de 100 , 500 et 28 0,72368 1107
1000 ans et leur IC à 95 % 29 0,75000 1047
30 0,77632 1010
¾ Calculer le module décennal
faible et son intervalle de 31 0,80263 998
confiance à 95% 32 0,82895 986
33 0,85526 917
¾ Déterminer la période de 34 0,88158 900
retour du module pluviométrique 35 0,90789 878
observé le plus fort.
36 0,93421 874
Prof N.SERHIR - 30 -
37 0,96053
Traitement statistique
794
38 0,98684 757
TP HYFRAN
Application2 : Étude des crues sur un bassin versant de 110 km².

On dispose d'un échantillon, noté X, de 18 valeurs de débit max instantanés, classés


par ordre décroissant,(cf tableau 1). O n propose de lui ajuster deux lois de probabilités :
G umbel, et F rechet. La fréquence expérimentale est calculée par H azen.

I) A justement à la loi G umbel


a) représenter la distribution empirique sur le papier Gumbel.
b) Calculer la droite de Gumbel et la tracer .

I I) A justement à la loi F rechet

On procède à la transformation des valeurs des débits du tableau 1 en logarithmes


népériens et on ajuste à cette nouvelle variable, notée Z, la loi de Gumbel classique :
c'est ce qu'on définit par la loi de F rechet.

a) Calculer les paramètres de la loi F rechet.


b) Tracer la courbe de cette nouvelle loi sur le même papier de Gumbel utilisé en I/
c) Laquelle parmi ces deux lois s'ajuste le mieux à l'échantillon?
En déduire le débit millénaire (T = 1000).

T ableau des débits max instantannées classes en ordre décroissant

Prof N.SERHIR - 31 - Traitement statistique


TP sur HYFRAN
Application 3 : Étude Statistique des Pluies Journalières Maximales
Les tableaux ci dessous donnent les valeurs de pluie journalière maximale de 1921 à 1965.
ainsi que le classement de ces pluies par ordre croissant, avec leur fréquence de non-
dépassement calculé par Weibull.

ƒ Tracer la courbe chronologique des pluies max


ƒ &DOFXOHUODPR\HQQHHWO¶pFDUWW\SHGHO¶pFKDQWLOORQ

ƒ Calculer les paramètres de la loi de Gumbel, ainsi que la moyenne et O¶pFDUW W\SH GH OD
population,
ƒ Calculer et tracer la droite de Gumbel.
ƒ Calculer la pluie centennale humide et son intervalle de confiance au niveau 80% et 90%.
ƒ Conclure.

Prof N.SERHIR - 32 - Traitement statistique


Prof N.SERHIR - 33 - Traitement statistique

You might also like