You are on page 1of 94

Conditions dapplication des

mthodes statistiques
paramtriques :


applications sur ordinateur
GLELE KAKA R., SODJINOU E., FONTON N.











Cotonou, Dcembre 2006 Cotonou, Dcembre 2006 Cotonou, Dcembre 2006 Cotonou, Dcembre 2006

2








Conditions dapplication des mthodes
statistiques paramtriques :


applications sur ordinateur







Gll Kaka R., Sodjinou E., Fonton H. Gll Kaka R., Sodjinou E., Fonton H. Gll Kaka R., Sodjinou E., Fonton H. Gll Kaka R., Sodjinou E., Fonton H. N. N. N. N.






2006
3





Dans la mme collection



Gll Kaka R., Kokode G. (2004). Techniques statistiques univaries et
multivaries: applications sur ordinateur. Bibliothque Nationale, Bnin,
67p.

Gll Kaka R., Palm R., Kokode G. (2005). Lanalyse discriminante
dcisionnelle : aspects thoriques et applications sur ordinateur.
Bibliothque Nationale, Bnin, 64p.






































4


















Auteurs : Gll Kaka R., Sodjinou E., Fonton N.

Citation :


Gll Kaka R., Sodjinou E., Fonton N. (2006). Conditions dapplication des
mthodes statistiques paramtriques : application sur ordinateur. Bibliothque
Nationale, Bnin, 86 p.

Dpt lgal : N3278 du 28/09/2006, 3me trimestre, Bibliothque Nationale,
Rpublique du Bnin.

ISBN : -10-99919-61-15-1
-13-97899919-61-15-6

5





Table des matires



1. Introduction....

9

2. Conditions dapplication des mthodes statistiques
paramtriques....

11
2.1. Prsentation des principales mthodes avec leurs
conditions dapplication.......

11
2.1.1. Cas dune variable.

11
2.1.2. Cas de deux variables..

12
2.1.3. Mthodes multivaries..

12
2.2. Cadre thorique dtablissement des mthodes statistiques
paramtriques...


14
2.2.1. Les mthodes statistiques relatives une ou plusieurs
moyennes


14
2.2.1.1. Test de conformit dune moyenne..

14
2.2.1.2. Test dgalit de deux moyennes et ses
variantes

15
2.2.1.3. Lanalyse de la variance univarie et multivarie

16
2.2.2. Les mthodes statistiques relatives une ou plusieurs
variances.


18
2.2.2.1. Test de conformit dune variance

18
2.2.2.2. Test dgalit de deux ou plusieurs variances

19
2.2.3. Les mthodes statistiques relatives la rgression
linaire.




20
2.2.4. Les mthodes danalyse discriminante dcisionnelle..

21
2.3. Importance pratique du respect des conditions d'application.

23
2.3.1. Importance de la normalit en infrence statistique.

23
2.3.2. Importance pratique de la condition dhomoscdasticit
en infrence statistique...



23
2.4. Consquences pratiques du non-respect des conditions
d'application..

24
2.4.1. Non-normalit associe une homoscdasticit.

25
2.4.2. Htroscdasticit associe une normalit

27
2.4.3. Non-normalit et Htroscdasticit..

30
6





2.5. Alternatives au non-respect des conditions dapplication..

33


3. Tests dhypothses pour la vrification des conditions
dapplication...

35
3.1. Introduction.

35
9
3.2. Tests de normalit une dimension.

36
3.2.1. Mthode graphique de vrification de la normalit
dune srie dobservations



36

3.2.2. Mthodes paramtriques du test de normalit....


39
3.2.2.1. Test de normalit de Shapiro-Wilk..


39
3.2.2.2. Test de normalit de Ryan-Joiner...

40
3.2.2.3. Test de normalit de Kolmogorov-Smirnov...

41
3.2.3. Applications avec les logiciels statistiques...

42
3.2.3.1. Logiciel Minitab...

42
3.2.3.2. Logiciel SPSS.

44
3.2.3.3. Logiciel SAS

48
3.3. Tests de normalit plusieurs dimensions...

50
3.3.1. Le test de Rao-Ali .

50
3.3.2. Le test de Mardia..

51
3.3.3. Application avec le langage Matlab...

53
3.3.3.1. Conception dune Fonction normalite dans le
langage Matlab


53
3.3.3.2. Lecture des donnes dans le langage Matlab..

55
3.3.3.3. Enregistrement de la fonction Normalite dans
dans Matlab\R2006a\work

57
3.3.3.4. Excution de la fonction Normalite.

57
3.4. Tests dhomoscdasticit une dimension.

60
3.4.1. Tests dgalit des variances..

60
3.4.1.1. Comparaison de deux populations..


60
3.4.1.2. Comparaison de plus de deux populations

63
3.4.1.3. Test dhomognit des rsidus de rgression....

67
3.4.2. Application avec les logiciels statistiques..

69
3.4.2.1. Logiciel Minitab...

69
7





3.4.2.2. Logiciel SPSS.

73
3.4.2.3. Logiciel SAS

79
3.5. Tests dgalit des matrices de variances-covariances



83
3.5.1. Test dhomoscdasticit du rapport de vraisemblance

83
3.5.2. Test M de Box.




85
3.5.3. Applications avec les logiciels statistiques.

86
3.5.3.1. Logiciel SPSS..

86
3.5.3.2. Logiciel SAS.

88


4. Conclusion.
91

5. Rfrences bibliographiques
93





8






Pralable


Cela fait tout juste un an que la rdaction de la prsente note de
biomtrie a dbut. Lide dcrire une telle note mest venue dun certain
nombre de constats. En effet, les diffrentes consultations statistiques que jai
effectues, les discussions que jai eu avec des tudiants, chercheurs et
enseignants-chercheurs mont permis de noter que trs souvent, lutilisateur
des mthodes statistiques paramtriques se soucie trs peu ou pas du tout de
leurs conditions dapplication. Ceci est gnralement li au fait que ces
conditions sont souvent inconnues de lutilisateur. Certains utilisateurs bien que
connaissant les conditions dapplication, ne les prennent pas en compte tout
simplement parce quils ne mesurent pas ou plutt ne savent pas les
consquences lies leur non-respect. Dautres utilisateurs par contre
connaissent limportance de ces conditions dapplication mais ne savent pas
comment les vrifier du moins en saidant de lordinateur.

Jai alors dcid dcrire une note de biomtrie pour traiter ces
diffrents aspects afin de sensibiliser la communaut scientifique sur
limportance du respect des conditions dapplication des mthodes statistiques
paramtriques et par la mme occasion dexposer en pratique la vrification de
ces conditions avec les moyens informatiques.

Les proccupations tant multiples, jai sollicit laide de mon collgue
Sodjinou E. pour la ralisation de cette uvre. La collaboration scientifique qui
en est rsulte a permis la rdaction de la prsente note qui a t soumise
notre an dans le domaine, le professeur Fonton pour la touche finale. Cest le
lieu pour moi de remercier les personnes qui nous ont aids dune manire ou
dune autre notamment le Professeur R. Palm de la Facult Universitaire des
Sciences Agronomiques de Gembloux (Belgique) dont les remarques et
suggestions ont permis damliorer la qualit scientifique de louvrage.

Mon souhait est que la prsente note contribue au renforcement de
lexcellence scientifique travers lamlioration de la qualit des rsultats de
travaux de recherche.






Gll Kaka R.

9






1. Introduction



Les mthodes statistiques paramtriques ncessitent le respect des
hypothses de base faites lors de leur conception. La violation des conditions
dapplication de ces mthodes statistiques donne souvent lieu de fausses
interprtations des rsultats obtenus puisque rien ne garantit la prcision des
mthodes en dehors de leurs hypothses dutilisation.

La mconnaissance par lutilisateur des hypothses dutilisation de ces
mthodes lamne souvent ignorer cette tape importante du traitement des
donnes de recherche.

La prsente note de biomtrie a pour but essentiel de prsenter les
hypothses dutilisation des mthodes statistiques paramtriques courantes, le
cadre thorique dlaboration des mthodes statistiques paramtriques, les
consquences lies la violation de ces conditions ainsi que les tests
dhypothses utiliss pour leur vrification.

Aprs cette introduction (chapitre 1), nous abordons au chapitre 2 les
principales mthodes statistiques paramtriques avec leurs conditions
dutilisation, le cadre thorique dtablissement des mthodes statistiques,
limportance du respect des conditions dapplication et les consquences
pratiques de leur violation.

Le chapitre 3 aborde les principes sous-tendant les tests dhypothse pour
la vrification de ces hypothses avec chaque tape, une prsentation claire
et illustre de lapplication de ces tests dans les logiciels statistiques Minitab,
SPSS et SAS, afin daider le lecteur mieux comprendre leur fondement et
pouvoir les appliquer sur ordinateur. Pour le logiciel, Minitab, la version 13
franaise est utilise alors que dans le cas de SPSS, cest la version franaise
10.1.3 qui est prise en compte. Quant au logiciel SAS, nous avons utilis la
version 9.1. Dans certains cas, nous avons eu recours de la conception de
procdures dans le langage Matlab pour les tests non disponibles dans les trois
logiciels ci-dessus cits. La version du langage Matlab utilise cet effet est
R2006a.

10





11





2. Conditions dapplication des mthodes
statistiques paramtriques



2.1. Prsentation des principales mthodes avec leurs
conditions dapplication


2.1.1. Cas dune variable

Les diffrents tests et leurs conditions dutilisation sont prsents au
tableau 1.


Tableau 1. Mthodes statistiques paramtriques pour une variable et
conditions dutilisation.

Mthodes statistiques
paramtriques
Conditions dapplication
Test de conformit dune proportion
Test dgalit de 2 ou plusieurs
proportions
- Echantillons alatoires simples et
indpendants.
Test de conformit dune moyenne
- Echantillon alatoire simple.
- Echantillon tir de population normale.
Test dgalit de deux moyennes
- Echantillons alatoires simples et
indpendants.
- Echantillons tirs de populations
normales.
- Egalit des variances de deux
Test t pour donnes apparies
- Echantillons alatoires simples et
dpendants.
- Echantillons tirs de populations
normales.
Test de conformit dun ou de deux
carts-types (ou variances)
- Echantillons alatoires, simples et
indpendants (ou non)
1
.
.

- Echantillons tirs de populations
normales.
Test de conformit du rapport de deux
carts-types ou de deux variances une
valeur thorique.
- Echantillons alatoires et simples.
- Echantillons tirs de populations
normales.
Test dgalit de plusieurs carts-types
ou de plusieurs variances (test de
Bartlett, test de Levene, etc.).
- Echantillons alatoires, simples et
indpendants.
- Echantillons tirs de populations
normales ou non
2
.
Analyse de la variance p critres de
classification.
- Echantillons alatoires et indpendants.
- Echantillons tirs de populations
normales.
- Egalit des variances des populations.
2.1.2. Cas de deux variables

1
Les tests dgalit de deux carts-types ou de deux variances varient selon le caractre dpendant
ou non des chantillons.
12






Dans le cas de deux variables considres simultanment, le tableau 2
prsente les mthodes statistiques paramtriques souvent utilises et leurs
conditions dutilisation.



Tableau 2. Mthodes statistiques pour deux variables observes
simultanment et conditions dutilisation.

Mthodes statistiques paramtriques Conditions dapplication
Test dindpendance ou test du Chi2.
- Echantillons alatoires et
simples.
Test de signification ou de conformit
dun coefficient de corrlation.

Test dgalit de deux coefficients de
corrlation.
- Echantillons alatoires et
simples.
- Echantillons tirs de populations
normales bivaries.
- Valeurs de variables connues
sans erreurs de mesure.
Rgression linaire simple.

Test dgalit de deux coefficients de
rgression.

Test de conformit dun coefficient de
rgression.
- Normalit des rsidus de
rgression.
- Nullit de la moyenne des
rsidus.
- Homognit des rsidus de
rgression.
- Indpendance des rsidus de
rgression.



2.1.3. Mthodes multivaries

Les conditions dapplication des mthodes statistiques multivaries sont
prsentes au tableau 3.



13





Tableau 3. Mthodes statistiques multivaries et conditions dutilisation.

Mthodes statistiques
paramtriques
Conditions dapplication
Analyse en composantes
principales (ACP)
- Aucune condition
Analyse factorielle des
correspondances (AFC)
- Tableau de contingence.
La classification numrique - Aucune condition
Analyse discriminante linaire et
quadratique
- Echantillons alatoires et simples.
- Echantillons tirs de populations
multinormales.
- Egalit ou non
1
des matrices de
variances-covariances.
Analyse de la variance multivarie
et analyse canonique discriminante
- Echantillons alatoires et simples.
- Echantillons tirs de populations
multinormales.
- Egalit des matrices de variances-
covariances.
Lanalyse de la corrlation canonique
- Echantillons alatoires et simples.
- Echantillons tirs de populations
multinormales.


1
Lanalyse discriminante linaire ncessite lgalit des matrices de variances-covariances, ce qui est
le contraire de lanalyse discriminante quadratique.
14





2.2. Cadre thorique dtablissement des mthodes
statistiques paramtriques

Nous exposons dans ce paragraphe le fondement des mthodes
statistiques paramtriques avec pour objectif dexpliquer et justifier lorigine des
hypothses dutilisation de ces mthodes.


2.2.1. Les mthodes statistiques relatives une ou plusieurs moyennes

Parmi ces mthodes, nous pouvons citer le test de conformit dune
moyenne, le test t dgalit de deux moyennes et ses variantes ainsi que
lanalyse de la variance.


2.2.1.1. Test de conformit dune moyenne

Le test de conformit dune moyenne permet de tester lgalit de la
moyenne inconnue m dun caractre donne dune population une valeur
connue
0
m partir dun chantillon tir de cette population. Lhypothse nulle
relative ce test est :

0 0
: H m m = .

Si la moyenne de la population tait connue, il serait assez trivial de la
comparer la valeur
0
m et de dcider si elles sont gales ou diffrentes.
Puisque la moyenne de la population est inconnue, on considre un chantillon
de cette population. La moyenne x du caractre, calcul partir de
lchantillon est une estimation non biaise de la moyenne m de la population.
Lorsque les limites de variabilit admises de lestimation de la moyenne de la
population sont connues ou plus prcisment lorsque les limites de confiance
de la moyenne estime de la population peuvent tre calcules, il est alors
facile de vrifier lhypothse nulle
0
H . En effet, si la valeur
0
m est contenue
dans lintervalle de confiance de la moyenne estime, on accepte lhypothse
nulle
0
H . Dans le cas contraire, cette hypothse est rejete. Pour dterminer
ces limites de confiance de la moyenne estime, il faut mettre lhypothse de
variance minimum de cette estimation. Cette hypothse nest vrifie que pour
un nombre trs limit de distributions thoriques dont la distribution normale. De
plus, lorsque cette hypothse est accepte, il faut pouvoir trouver une mthode
de calcul des limites de confiance. Le calcul des limites de confiance de cette
estimation est assez complexe mais est facilit par la supposition du caractre
normal de la population considre. En dautres termes, lorsque la population
considre suit une distribution normale et sa variance est connue, il est
possible de dterminer de faon simple les limites de confiance
1
x et
2
x de la
moyenne estime partir de la variable normale rduite (Dagnelie, 1998) :
15








1
x = x n u /
2 / 1
et
2
x = x n u /
2 / 1
+ . (2.2.1)

Lorsque la variance de la population nest pas connue, ce qui est
courant en pratique, elle peut tre estime ( ) partir de lchantillon
considr ; de ce fait la variable normale rduite est remplace par la variable t
de Student qui est asymptotiquement normale :



1
x = x n t /
2 / 1
et
2
x = x n t /
2 / 1
+ . (2.2.2)


La dtermination des limites de confiance de la moyenne estime dune
population dans le cas du test de conformit dune moyenne est donc
subordonne lhypothse du caractre normal de la population. On peut alors
comprendre que la normalit de la population est une condition importante la
ralisation du test. Lorsque la population considre ne suit pas la distribution
normale, les rsultats du test peuvent tre sensiblement biaiss.


2.2.1.2. Test dgalit de deux moyennes et ses variantes

Supposons que lon veuille comparer les moyennes inconnues de deux
populations pour un caractre donn. Lhypothse nulle de ce test est :

2 1 0
: H m m = .

Puisque les moyennes des deux populations ne sont pas connues, on
considre un chantillon alatoire et simple de chacune des deux populations
partir desquels on dtermine les moyennes estimes
1
m et
2
m des deux
populations. En supposant que ces deux populations considres sont
normales de moyennes
1
m et
2
m et dcarts-types
1
et
2
, les moyennes
1
m et
2
m des chantillons supposs indpendants, de tailles
1
n et
2
n sont des
valeurs de deux variables alatoires de moyennes
1
m et
2
m et dcarts-types
1 1
/ n et
2 2
/ n . Du fait des proprits dadditivit et de linarisation des
distributions normales, la diffrence de moyennes
1
m -
2
m est une valeur dune
variable normale de moyenne
1
m -
2
m et dcart-type
2
2
2 1
2
1
/ / n n + . De
ce fait, on peut dterminer comme dans le cas du test de conformit dune
moyenne, les limites de confiance de cette diffrence et vrifier si la valeur 0 est
contenue dans cet intervalle de confiance de la diffrence. Dans le cas o les
variances des populations seraient inconnues, on utilise la distribution t de
Student qui est asymptotiquement normale.

16





Comme on peut donc le constater ci-dessus, la condition de normalit est
essentielle pour lapplication de cette mthode statistique dont le fondement
thorique suppose que les populations considres sont normales.

Par ailleurs, le fait de dterminer un cart-type commun pour la variable
alatoire normale relative la diffrence entre les moyennes des deux
populations suppose lgalit des cart-types de ces populations pour obtenir
une estimation non biaise. Le biais de cette estimation est dautant plus lev
que lingalit entre les carts-types des populations est importante. Ceci
amne considrer une seconde condition lutilisation du test t classique de
comparaison de deux moyennes savoir, lgalit des variances des
populations. Nanmoins, dans le cas o lgalit des variances des populations
ne serait pas vrifie, il est possible de dterminer de manire approche
lestimateur non biais de lcart-type commun des deux populations en
dterminant de faon indpendante les sommes des carrs des carts des
deux populations. Cette mthode de dtermination de lcart-type commun des
deux populations conduit lune des variantes du test t de Student, appele
test de Welch
1
. Lautre variante du test t de Student est le test t pour donnes
apparies utilis lorsque les chantillons considrs sont dpendants les uns
des autres ; ce test ncessite seulement la condition de normalit des
populations.

On peut donc noter que la condition de normalit est ici aussi ncessaire
pour une application sans risque des tests t dgalit de deux moyennes.


2.2.1.3. Lanalyse de la variance univarie et multivarie

Considrons une population avec un caractre donn dont la moyenne est
inconnue. On tire un chantillon de cette population et on calcule la moyenne
du caractre qui est une estimation non biaise de la moyenne de la population
qui est de variance minimum (cf. paragraphe 2.2.1.1). Cette variance-seuil est
assez complexe calculer sauf si on suppose que la population considre suit
une distribution normale.

Sans perte de gnralits, supposons que lon veuille comparer les
moyennes
1
m ,
2
m , .., p m de p populations pour un caractre donn. Pour
ce faire, on considre lhypothse nulle :

p m m m ... : H
2 1 0
= = .

Pour vrifier cette hypothse, on considre p chantillons tirs de faon
alatoire et indpendante des p populations et on calcule les moyennes
estimes. Lhypothse nulle
0
H tablie ci-dessus suppose lgalit des
moyennes des populations ou encore que les chantillons considrs
appartiennent une mme population du moins pour le caractre considr. En

1
En anglais : Welchs approximate t-test.
17





faisant une telle hypothse, les observations des p chantillons sont
considres comme celles dun seul chantillon tir dune mme population. De
ce fait, on calcule une variance factorielle de ladite (ou suppose) population
rsultant de la diffrence entre les chantillons. Si les chantillons
appartenaient une mme population pour le caractre considr, cette
variance factorielle ne devrait pas dpasser la variance minimum admise dune
population qui ne peut par ailleurs, tre approche quen supposant le caractre
normal des populations considres comme on la notifi au dbut du
paragraphe. Cette variabilit rsiduelle est mesure par une variance rsiduelle
issue de la diffrence entre les observations des p chantillons. Lorsque la
variance factorielle dpasse la variance rsiduelle admise pour une population,
on conclut que les chantillons nappartiennent en fait pas une mme
population. On peut donc noter de ce qui prcde que lhypothse nulle dans le
cas dune analyse de la variance peut tre encore formule de la faon
suivante : la variance observe entre les chantillons est purement alatoire,
c'est--dire nest due quau hasard et non des diffrences effectives entre les
chantillons. En ralit, puisque les deux types de variances sont estims
partir dchantillons tirs des p populations, leur comparaison ne peut pas se
faire sur un seul jeu dchantillons. De ce fait, en tablissant la distribution du
rapport des deux variances (la variance factorielle tant au numrateur), il est
possible de dterminer une valeur-seuil de ce rapport, au-del de laquelle
lhypothse nulle de variance alatoire sera rejete. En considrant que les p
populations suivent chacune une distribution normale de mme variance et en
utilisant les proprits particulires des distributions normales, on peut montrer
que chacun des deux types de variances (factorielle et rsiduelle) suit une
constante prs une distribution Chi-carr. Puisque le rapport de deux variables
Chi-carr donne une variable F de Fisher-Snedecor, on peut admettre que le
rapport des deux types de variances suit une distribution F et permet ainsi de
dterminer dans le cas de lhypothse nulle, la valeur-seuil du rapport des deux
variances et donc de raliser le test danalyse de la variance.

De ce qui prcde, on note aisment que la distribution normale a servi de
base llaboration de lanalyse de la variance. De ce fait, la normalit et
lgalit des variances des populations ainsi que le caractre alatoire et simple
des chantillons sont les conditions dapplication de cette mthode statistique.
La condition dgalit des variances est surtout ncessaire lors de la
structuration des moyennes la suite dune analyse de la variance rvlant une
diffrence significative entre les moyennes des populations.

Lorsque plusieurs variables quantitatives sont observes de faon
simultane sur les mmes objets, au lieu de raliser une srie danalyses
univaries indpendantes, lanalyse de la variance multivarie est plus indique
puisquelle prend en compte les corrlations qui existent trs souvent entre les
variables tudies. Lanalyse de la variance multivarie est une extension
naturelle de lanalyse de la variance univarie. Ainsi, les conditions dapplication
de lanalyse de la variance multivarie sont aussi des extensions naturelles des
conditions dapplication de lanalyse de la variance univarie : il faut que les
chantillons soient alatoires, simples et indpendants ; il faut en outre que les
18





populations considres aient des distributions multinormales, de mme
matrice de variances-covariances. Ces conditions sont aussi ncessaires pour
lapplication de lanalyse canonique discriminante encore appele analyse
factorielle discriminante qui constitue un complment logique de lanalyse de la
variance multivarie. En effet, cette mthode a pour but de dcrire les
diffrences lies aux facteurs tudis, du moins lorsque ces diffrences
existent.


2.2.2. Les mthodes statistiques relatives une ou plusieurs variances

Linfrence statistique relative une ou plusieurs variances ou cart-types
prend en compte le test de conformit dun cart-type et le test de comparaison
de deux ou plusieurs cart-types ou variances.


2.2.2.1. Test de conformit dune variance

Lobjectif poursuivi ici est la comparaison de la variance dune
population donne une valeur
0
et lhypothse nulle est alors:


0 0
: H =

Puisque la variance de la population est gnralement inconnue. On
considre un chantillon tir de cette population et on estime la variance
thorique par la variance estime partir de lchantillon. On dtermine
ensuite lintervalle de confiance ou encore les limites de cette variance estime.
Lorsque la valeur
0
se trouve dans lintervalle de confiance de la variance
estime , on accepte lhypothse nulle et on conclut que la variance de la
population est gale
0
dans le cas contraire, on rejette lhypothse nulle.

Pour dterminer la variance estime, on va utiliser une proprit donne
de la distribution dchantillonnage de la variance qui stipule que (Dagnelie,
1998) dans le cas dun chantillonnage alatoire et simple et quelle que soit la
distribution de la population considre, la variance pour un caractre donn
est estime sans biais lorsque la somme des carrs des carts est divise par
le nombre de degrs de libert. De ce fait, on a :


=
n
i
i
x x
n
1
2
) (
1
1
. (2.2.3)

La variance tant estime sans biais, on va pouvoir dterminer les limites de
confiance de cette estimation. Si lestimation sans biais de la variance est
obtenue quelle que soit la distribution de la population considre, il nen ait pas
de mme pour le calcul des limites de confiance de cette estimation. En effet, la
dtermination de lintervalle de confiance de la variance estime est assez
complexe et ne conduit pas une relation simple. Nanmoins, en supposant
19





que la population considre suit une distribution normale du moins pour le
caractre considr, les observations faites pour ce caractre sont alors celle
dune variable alatoire normale. La variance du caractre tant une
constante prs, le carr de la transformation linaire de la variable normale (cf.
formule 2.2.3), elle suit une distribution Chi-carr de Pearson. De ce fait, les
limites
1
s et
2
s de la variance estime, en supposant un chantillonnage
alatoire et simple et surtout le caractre normal de la population considre
est alors:



1
s =
2
2 / 1
SCE/

et
2
s =
2
2 /
SCE/ (2.2.4)

On note alors de ce qui prcde que le test de conformit dune variance
ou dun cart-type est conu en supposant le caractre normal de la population
considre. On peut donc comprendre que lapplication de ce test une
population non normale peut conduire des rsultats errons.


2.2.2.2. Test dgalit de deux ou plusieurs variances

Pour comparer deux populations du point de vue de leurs variances
1
et
2
, lhypothse nulle considrer est :

2 1 0
: H = .

Si les variances de ces deux populations taient connues, la comparaison
serait simple et vidente. Mais puisque ce nest pas le cas, en dterminant la
distribution du rapport des deux variances, il est possible de dterminer la
valeur-seuil de ce rapport au-del de laquelle lhypothse nulle sera rejete. La
distribution de ce rapport est assez complexe et ne peut pas tre tablie quelle
que soit la distribution des populations. Comme toujours, puisque la distribution
normale est la plus simple et la plus intuitive, on suppose que les populations
considres sont normales et que les chantillons servant estimer leurs
variances sont tirs de faon alatoire, simple et indpendante des populations.
De ce fait, les deux variances sont les valeurs observes de deux variables
alatoires suivant chacune une distribution Chi-carr. Le carr de deux
variables Chi-carr tant une variable F de Fisher-Snedecor, le rapport des
deux variances suit une distribution F et sert donc raliser le test de
comparaison des deux variances. On peut donc comprendre que lune des
conditions essentielles de ce test est la normalit des populations considres
puisque cette distribution a servi de base llaboration du test.

Dans le cas de plus de deux populations, la plupart des tests utiliss
notamment les tests de Hartley et de Bartlett suppose aussi la normalit des
populations considres. Le test de Levene par ailleurs, ne ncessite pas la
condition de normalit pour son application comme on peut le noter par la suite.
20





2.2.3. Les mthodes statistiques relatives la rgression linaire

Pour tablir une relation permettant de prdire une variable donne
appele variable dpendante en fonction dune ou de plusieurs variables dites
explicatives ou indpendantes, on peut utiliser la mthode de rgression
linaire qui ajuste des observations au modle linaire.

Sans perte de gnralits, considrons une variable alatoire Y que lon
veut estimer partir dune autre variable alatoire X en utilisant le modle
linaire. De ce fait, pour toutes observations x et y des variables alatoires
X et Y, on peut crire :

y = bx a + .

En considrant un chantillon bivari tir de la population considre, les
paramtres a et b peuvent tre estims par la mthode des moindres carrs.
Lorsque lajustement est ainsi tabli, on cherche tester sa signification en
dautres termes, si les valeurs obtenues pour ces deux paramtres sont dues
au hasard de lchantillonnage, donc sont en ralit nulles ou au contraire, si
elles sont diffrentes de zro. De plus, on pourra tudier la distribution des
carts entre les valeurs relles observes y de la variable alatoire Y et les
valeurs estimes y partir de lquation tablie. Ces carts sont appels les
rsidus e :

y y e = .

Pour dterminer les limites de confiance de chaque estimation de la
variable dpendante, il est ncessaire non seulement de connatre la
distribution dchantillonnage de la variance des rsidus mais aussi celle des
paramtres a et b . En supposant que les rsidus e suivent une distribution
normale, il est plus simple de calculer les limites de confiance de la variance
rsiduelle. En effet, dans de telles conditions, la variance rsiduelle suit une
distribution bien connue savoir la distribution Chi-carr de Pearson. Dans le
cas des paramtres a et b , il faut en plus admettre la constante de la variance
rsiduelle. Si cette condition nest pas remplie, lestimateur au sens des
moindres carrs nest plus de variance minimum et le calcul des limites de
confiance ne serait plus prcis (Palm, 1994).

On peut donc comprendre que les conditions dapplication de la rgression
linaire sont la normalit, lhomoscdasticit et lindpendance des rsidus.
21





2.2.4. Les mthodes danalyse discriminante dcisionnelle


Lanalyse discriminante dcisionnelle
1
est une mthode statistique
daffectation dobservations inconnues un groupe, parmi deux ou plusieurs
groupes connus a priori sur la base dobservations antrieures.

Considrons une situation o lon cherche affecter un individu i ,
caractris par un vecteur dobservations
i
x , au groupe le plus probable,
parmi g groupes ou populations connues a priori. Le groupe le plus probable
est celui pour lequel la probabilit thorique dappartenance de lindividu i ,
connaissant son vecteur dobservations
i
x , est la plus leve. Soit r , la rgle
de classement tablie cet effet, de sorte que la notation k r = ) (
i
x signifie que le
vecteur dobservations
i
x ou encore lindividu i est class dans le
me
k

groupe
( g k ,..., 1 = ). Elle peut alors tre dfinie, pour des probabilits a priori gales de
la manire suivante (Gll Kaka et al., 2005) :

k r
i
= ) (x si ) ( ) (
i j i k
f f x x , j = 1, k -1, k +1,, g . (2.2.5)

Cette rgle ci-dessus dfinie est base sur le calcul de la valeur des
fonctions de densit de probabilit thoriques des individus dans chacune des
g populations. De tout ce qui prcde, la rgle de classement, r , ne peut tre
applique que si les paramtres rels des populations sont connus et constitue
ainsi la rgle idale . En pratique, les paramtres des populations ne sont
pas connus. Les valeurs exactes des fonctions de densit de probabilit
thoriques des individus dans les diffrents groupes ne peuvent donc plus tre
calcules. Beaucoup dautres rgles de classement sont alors conues de sorte
quelles peuvent tre tablies sur des chantillons reprsentatifs des g
populations de dpart, par lestimation des fonctions de densit thoriques par
exemple. Parmi celles-ci, nous pouvons citer la rgle linaire
2
et la rgle
quadratique
3
.

Les rgles linaire et quadratique supposent la normalit des populations
considres. De ce fait, il est plus simple destimer les fonctions de densit de
probabilit.

Dans le cas de la rgle linaire, pour lindividu i , de vecteur
dobservations
i
x , on a alors (Dagnelie, 1998) :


)

2
1
exp(
) 1 ( 2
1
) (
2
1
2
2 1
1 i i
d f

= x
(2.2.6)
et

1
En anglais : discriminant analysis, predictive discriminant analysis.
2
En anglais : linear discriminant analysis.
3
En anglais : quadratic discriminant analysis.
22







)

2
1
exp(
) 1 ( 2
1
) (
2
2
2
2 1
2 i i
d f

= x
, (2.2.7)

avec :

] [

]' [

1
1
1
2
1
x x x x =

i i i
d et ] [

]' [

2
1
2
2
2
x x x x =

i i i
d .


On peut noter des expressions (2.2.6) et (2.2.7) que seules les distances
i
d
1

et
i
d
2

changent, toutes les autres composantes tant constantes dune


expression lautre. Ces deux distances prennent chacune en compte la
matrice de variances-covariances groupe des deux chantillons, ce qui
suppose une galit des matrices de variances.

Ainsi, comme on peut le noter de ce qui prcde, les conditions de
multinormalit et dgalit de matrice de variances-covariances doivent tre
remplies pour une performance optimale de la rgle linaire discriminante, du
moins en esprance. Lorsque lgalit des matrices de variances-covariances
des populations considres nest pas acquise, lutilisation de la rgle
quadratique discriminante est conseille. Mais de rcentes tudes, notamment
celle de Gll Kaka et Palm (2004), ont montr que la rgle linaire
discriminante prsente un taux derreur plus faible que la rgle quadratique en
cas dhtroscdasticit modre.


23





2.3. Importance pratique du respect des conditions
d'application


2.3.1. Importance de la normalit en infrence statistique

La normalit de la population dont est issu lchantillon est lune des
conditions les plus importantes dans lutilisation des mthodes paramtriques.
Ainsi, de faon gnrale, en infrence statistique, le calcul de la probabilit
associe un test, de mme que lestimation et la dtermination des limites de
confiance dune moyenne ou dun cart-type se basent sur lhypothse de
normalit des observations. On peut donc comprendre que lorsquune telle
hypothse (la normalit) nest pas satisfaite, lutilisation de la mthode
statistique peut conduire des rsultats biaiss.

La proprit de normalit asymptotique de la distribution dchantillonnage
de la moyenne rend moins importante la condition de normalit pour de grands
chantillons dans le cas des tests dgalit de moyennes ou de vecteurs de
moyennes. Malheureusement, il nen est pas de mme lorsquon sintresse
la structuration de moyennes aprs une analyse de la variance (tests de
Newman et Keuls, de Dunnett, de Bonferroni, de Tukey, etc.). De plus, les tests
dgalit des variances, carts-types ou matrices de variances-covariances sont
nettement plus sensibles la non-normalit des populations-parents.


2.3.2. Importance pratique de la condition dhomoscdasticit en
infrence statistique

La condition dhomoscdasticit en infrence statistique concerne
lhypothse dgalit des variances ou carts-types des chantillons dans le cas
des tests univaris, et lgalit des matrices de variances-covariances dans le
cas des tests multivaris.

En infrence statistique deux ou plusieurs dimensions, la condition
dhomoscdasticit est ncessaire surtout en cas de structuration des vecteurs
de moyennes avec lanalyse canonique discriminante puisquelle utilise
lestimation commune des matrices de variances-covariances des populations.

En infrence statistique une dimension (tests de comparaison de
moyennes, analyse de la variance etc.), lhypothse dgalit des variances des
chantillons prend toute son importance dans lestimation et la dtermination
des limites de confiance ainsi que la dtermination du nombre dobservations.
En effet, pour ces diffrentes situations, cest la variance estime commune des
diffrentes populations qui est utilise. Ceci suppose que ces variances doivent
tre significativement gales pour garantir une bonne prcision de calcul de la
variance commune. Il en est de mme en analyse discriminante linaire o les
matrices de variances-covariances doivent tre significativement gales pour
une estimation non biaise de la matrice de variances-covariances groupe des
populations multivaries considres.


24





2.4. Consquences pratiques du non-respect des conditions
d'application


Pour illustrer les consquences du non-respect des conditions
dapplication des mthodes statistiques paramtriques nonces ci-dessus,
nous considrons un exemple relatif au test t de comparaison de deux
moyennes pour lequel les conditions dapplication sont la normalit et lgalit
des variances des populations.


2.4.1. Non-normalit associe une homoscdasticit

Considrons deux populations normales, lune P
1
, de moyenne 3 et
dcart-type 1 et lautre, P
2
, de moyenne 2 et dcart-type 1. Considrons deux
autres populations telle que la premire, P
3
est normale de moyenne 3 et
dcart-type 2 et lautre, P
4
, de distribution Chi-carr 2 degrs de libert. Nous
rappelons que la moyenne et lcart-type dune distribution Chi-carr k degrs
de libert est respectivement k et k 2 . On note que les populations P
1
et P
2

remplissent les conditions dapplication du test t de Student (normalit et galit
des variances) et ont des moyennes diffrentes, la diffrence de moyennes
tant gale 1. Le couple de populations (P
3
,P
4
) ne remplit par contre que la
condition dgalit des variances ( 2
2 1
= = ). En effet, la population P
4
suit
une distribution non-normale (Chi-carr 2 degrs de libert). Les moyennes
de ces deux populations sont aussi diffrentes et la diffrence entre les deux
moyennes est gale aussi lunit. Les fonctions de densit de probabilit de
ces deux couples de populations sont prsentes la figure 1. Les distributions
utilises sont centres et rduites.















Figure 1. Fonctions de densit de probabilit des distributions considres
dans le cas dgalit des variances mais de non-normalit.


Pour illustrer les consquences de la non-normalit sur la prcision des
-4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
f(x)
P
2
P
1

-5 -4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
x
f(x)
P
3
P
4

25





rsultats du test t dgalit des moyennes, nous gnrons un couple
dchantillons de n observations de chacun des deux couples de populations
(P
1
,P
2
) et (P
3
,P
4
) ci-dessus considrs et raliser le test t dgalit des
moyennes des populations.

Les moyennes des couples de populations tant diffrentes dans les deux
cas (3 et 2), on devrait sattendre ce que lhypothse dgalit des moyennes
soit rejete, en dautres termes, que la probabilit lie au test t dgalit des
moyennes excuter soit infrieure 0,05. Nous rappelons que les conditions
dapplication de ce test sont respectes dans le premier cas (populations P
1
et
P
2
) alors que dans le second cas (populations P
3
et P
4
), la condition de
normalit nest pas respecte, la distribution de P
4
ntant pas normale.

Pour diffrentes valeurs de la taille commune n des chantillons tirs des
couples de populations (P
1
,P
2
) et (P
3
,P
4
), la puissance du test dgalit des
moyennes est calcule dans les deux cas. La puissance du test, note 1- est
la probabilit de rejeter lhypothse nulle (galit des moyennes des
populations) alors quelle est fausse. Elle est un critre de performance des
tests infrentiels. Ainsi, puisque les moyennes des deux populations dans les
deux cas sont diffrentes (hypothse nulle fausse), on sintressera la
probabilit que le test rejette cette hypothse nulle dans les deux cas et pour
diffrentes tailles dchantillons. Pour ce faire, 5000 couples dchantillons de
taille n sont gnrs partir de chacun des couples de populations (P
1
,P
2
) et
(P
3
,P
4
). Le test t dgalit des moyennes est effectu dans les deux cas sur
chacun des 5000 couples dchantillons et le nombre N de fois que le test
rejette lhypothse nulle dgalit des moyennes est not et permet destimer la
puissance du test partir de la relation :

Puissance = 1- =
5000
N
.

Les valeurs de puissance du test dgalit des moyennes calcules pour
diffrentes tailles dchantillons dans les deux cas sont reprsentes
graphiquement la figure 2.
26





Figure 2. Non-normalit : puissance du test dgalit
des moyennes pour les couples de populations
(P
1
,P
2
) et (P
3
,P
4
).


On note de cette figure que, de faon gnrale, la puissance du test dgalit
des moyennes augmente avec laccroissement de la taille des chantillons. Par
ailleurs, lorsque la condition de normalit est remplie (populations P
1
et P
2
), la
valeur maximale de la puissance est vite atteinte, notamment partir de la taille
n gale 50, ce qui nest pas le cas des populations P
3
et P
4
pour lesquelles
cette condition nest pas remplie. En effet, dans une telle situation, pour des
tailles dchantillons infrieures 50, la puissance 1- est au plus de 50 % ; en
dautres termes, une fois sur deux, le test t conduit des conclusions errones.
De plus, pour une mme taille dchantillons n, la valeur de puissance du test
lorsque la normalit est respecte est sensiblement plus leve que dans le cas
du non-respect de cette condition, la diffrence de valeur de puissance allant
jusqu 0,48 pour certaines valeurs de n. En rsum, en cas de non-normalit,
la probabilit de rejeter une fausse hypothse est assez faible ; de ce fait, il
sera relativement plus facile de conclure une galit de moyennes de
populations alors quen ralit ces moyennes sont diffrentes.

De faon gnrale, les consquences du non-respect de la condition de
normalit en infrence statistique ont t abordes par nombre dauteurs,
notamment Dehlert (2000) du moins en ce qui concerne lanalyse de la
variance. Pour tudier les consquences du non-respect de la condition de
normalit, cet auteur considre deux paramtres savoir, les coefficients de
symtrie et daplatissement dont ceux de Fisher sont nots
1
et
2

respectivement. Nous rappelons que pour la distribution normale, ces deux
coefficients sont tous gaux 0. Il ressort de son tude les conclusions
prsentes ci-aprs.


Pour des valeurs
1
(de la population-parent) suprieures 0, le risque de
premire espce du test danalyse de la variance se dplace un niveau
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
10 20 30 40 50 60 70 80 90 100
n
P
u
i
s
s
a
n
c
e

(
1
-
b

t
a
)
(P1,P2
)
(P3,P4
27





suprieur 5 % de sorte que lutilisateur de la mthode conclura facilement
une diffrence significative alors quil en est rien. On parle de test libral.

Pour des valeurs ngatives de
1
, le test danalyse de la variance
prsente un risque rel infrieur au risque nominal de 5 %. On parle de test
conservateur.


Pour des valeurs
2
suprieures 0, le test de lanalyse de la variance
prsente un risque rel infrieur la valeur 5 % du risque nominal (test
conservateur).


Pour des valeurs
2
infrieures 0, le test danalyse de la variance
prsente un risque rel suprieur la valeur 5 % du risque nominal (test
libral).

Pour des valeurs positives des coefficients
1
et
2
, le risque rel est
souvent infrieur au risque nominal car
2
a une plus grande influence. Le test
devient donc conservateur. Ceci rejoint les conclusions tires plus haut en ce
qui concerne le test t de Student.

Par ailleurs, leffet du non-respect de la condition de normalit multivarie
en infrence multivarie est tudi par nombre dauteurs du moins en ce qui
concerne lanalyse discriminante dcisionnelle (Lachenbruch et al., 1973 ;
Clarke et al., 1979 ; Bayne et al., 1983 ; Tomassone et al., 1988 ; Gll Kaka et
Palm, 2004 ; Gll Kaka et Palm, 2005). Les conclusions de ces diffrentes
tudes sont les suivantes : le taux derreur rel associ la rgle linaire
augmente avec la non-normalit des populations ; Il en est de mme de la rgle
quadratique de classement. Par exemple, Gll Kaka et Palm (2005) sont
arrivs la conclusion que le taux derreur rel de la rgle linaire est de 15,7
% lorsque la statistique r du test combin de multinormalit de Rao-Ali et Ryan-
Joiner prsente des valeurs suprieures 0,999 (normalit) alors que pour des
valeurs de r infrieures 0,85 (non-normalit), le taux derreur rel est de 22,2
%. Mais il est noter que la rgle linaire prsente encore de bonnes
performances en cas de non-normalit modre (Gll Kaka et Palm, 2005).


2.4.2. Htroscdasticit associe une normalit

Pour illustrer les consquences du non-respect de la condition
dhomoscdasticit (galit des variances ou des matrices de variances-
covariances), considrons que la population P
3
est normale de moyenne 3 et
dcart-type 1 alors que P
4
est normale de moyenne 2 et dcart-type 2. Les
populations P
1
et P
2
sont conserves et constituent la situation souhaite de
normalit et dgalit des variances. On peut noter que les populations P
3
et P
4

ne remplissent que la condition de normalit mais prsentent des carts-types
diffrents ( 1
1
= ; 2
2
= ). Les moyennes des deux populations sont diffrentes,
la diffrence de moyennes tant gale lunit. Les fonctions de densit de
probabilit des deux couples de populations sont prsentes la figure 3.
28


















Figure 3. Fonctions de densit de probabilit des distributions considres
dans le cas de normalit et dingalit des variances.



Comme prcdemment, la puissance du test t dgalit de deux moyennes
est calcule pour diffrentes tailles dchantillons dans les deux cas et les
rsultats sont prsents sous forme graphique la figure 4. On note de cette
figure que, de faon gnrale, la puissance du test dgalit des moyennes
augmente ici aussi avec laccroissement de la taille des chantillons. Par
ailleurs, lorsque la condition dgalit des variances est remplie (populations P
1

et P
2
), la valeur maximale de la puissance est vite atteinte, notamment partir
de la taille n gale 50. En situation dingalit des variances, la valeur
maximale de la puissance 1- est seulement atteinte lorsque la taille commune
des chantillons est de 100. De plus, pour une mme taille dchantillons n, la
valeur de puissance du test en cas dgalit des variances est sensiblement
plus leve que dans le cas du non-respect de cette condition, la diffrence de
valeur de puissance allant jusqu 0,38 pour certaines valeurs de n.












-4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
f(x)
P
1
P
2

-4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
f(x)
x
P
4
P
3

29





Figure 4. Htroscdasticit : puissance du test dgalit
des moyennes pour les couples de populations (P
1
,P
2
)
et (P
3
,P
4
).



En rsum, en cas dingalit des variances, la probabilit de rejeter une
fausse hypothse est assez faible ; de ce fait, il sera ici aussi, relativement plus
facile de conclure une galit de moyennes de populations alors quen ralit
ces moyennes sont diffrentes. Mais notons que leffet de la non-normalit sur
la prcision des rsultats du test t dgalit des moyennes semble plus
important que celui de lingalit des variances du moins en ce qui concerne
lexemple considr. Cela peut tre lie au degr de non-normalit relativement
lev de la distribution Chi-carr deux degrs de libert utilis dans lexemple.

De faon gnrale, les consquences de la non-homognit des
variances en infrence statistique sont abordes par Dehlert (2000). Les
rsultats de son tude peuvent tre rsums ci-dessous :

En cas dgalit des tailles de deux chantillons, si le rapport des
variances est infrieur 5, le risque rel est de 50 % suprieur au risque
nominal (5 %). De ce fait, les valeurs de probabilits sont sous-estimes
conduisant un test libral (signification plus facile).

En cas dingalit des tailles avec un rapport des variances infrieur 5 et
si de plus, les plus grandes variances sont relatives aux plus grands
chantillons, la valeur F de Fisher-Snedecor diminue et le risque rel est
infrieur au risque nominal. De ce fait, les valeurs de probabilit sont
surestimes : on parle de test conservateur car il serait difficile de rejeter
lhypothse nulle.

En cas dingalit des tailles avec un rapport des variances infrieur 5 et si de
plus, les plus grandes variances sont relatives aux plus petits chantillons, le
risque rel est suprieur de 400 % au risque nominal. Il y a augmentation de la
valeur de F et les valeurs de probabilit sont largement sous-estimes. Le test
est alors trs libral : il serait facile de rejeter lhypothse nulle.

0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
10 20 30 40 50 60 70 80 90 100
n
P
u
i
s
s
a
n
c
e

(
1
-
b

t
a
)
(P1,P2)
(P3,P4)
30





Par ailleurs, en infrence multivarie, leffet du non-respect de la condition
dhomoscdasticit sur la performance de lanalyse discriminante linaire est
tudie par Gll Kaka et Palm (2005) qui sont arrivs la conclusion que
pour de faibles degrs dhtroscdasticit (

<1,2), la rgle linaire


occasionne un taux derreur rel denviron 16,2 % alors quen cas de forte
htroscdasticit (

> 5), cette rgle enregistre un taux derreur rel de 22,5


%. Dans cette tude, le paramtre dhtroscdasticit est dfini pour k
matrices de variances-covariances
i
( i =1, k ) par (Gll Kaka et Palm,
2006) :

=

k
i 1
ln
(|
i
|/| |), (2.4.1)

o est la matrice de variances-covariances groupe des populations.

Mais il est noter que la rgle linaire prsente encore de bonnes
performances en cas dhtroscdasticit modre (Gll Kaka et Palm,
2005).


2.4.3. Non-normalit et Htroscdasticit

Leffet du non-respect des deux conditions (normalit et galit des
variances) sur la prcision des rsultats du test t dgalit des moyennes est
illustr en considrant que la population P
3
est normale de moyenne 3 et
dcart-type 1 alors que P
4
suit une distribution Chi-carr 2 degrs de libert.
Les populations P
1
et P
2
sont conserves et constituent la situation souhaite
de normalit et dgalit des variances. On peut noter que les populations P
3
et
P
4
ne remplissent ni la condition de normalit, ni la condition dgalit des
variances (homoscdasticit). Les fonctions de densit de probabilit de ces
deux couples de populations sont prsentes la figure 5.

Comme au paragraphe 2.4.1, la puissance du test t dgalit de deux
moyennes est calcule pour diffrentes tailles dchantillons dans les deux cas
et les rsultats sont prsents sous forme graphique la figure 6.

31

















Figure 5. Fonctions de densit de probabilit des distributions considres
dans le cas de non-normalit et dingalit des variances.


Figure 6. Non-normalit et htroscdasticit :
puissance du test dgalit des moyennes pour
les couples de populations (P
1
,P
2
) et (P
3
,P
4
).



On note de cette figure que, de faon gnrale, la puissance du test
dgalit des moyennes augmente ici aussi avec laccroissement de la taille des
chantillons. Par ailleurs, lorsque les deux conditions sont remplies (populations
P
1
et P
2
), la valeur maximale de la puissance est vite atteinte, notamment
partir de la taille n gale 50. En situation dingalit des variances, la valeur
maximale de la puissance 1- nest pas atteinte mme avec la taille maximale
considre qui est ici de 100.


De plus, pour une mme taille dchantillons n, la valeur de puissance du
-5 -4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
f(x)
x
P
3
P
4

-4 -3 -2 -1 0 1 2 3 4
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
f(x)
P
1
P
2

0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
10 20 30 40 50 60 70 80 90 100
n
P
u
i
s
s
a
n
c
e

(
1
-
b

t
a
)
(P1,P2)
(P3,P4)
32





test en cas dgalit des variances est sensiblement plus leve que dans le
cas du non-respect de cette condition, la diffrence de valeur de puissance
allant jusqu 0,34 pour certaines valeurs de n. Nanmoins, les consquences
du non-respect de ces deux conditions sur la prcision des rsultats du test t de
Student semblent moins importantes que le seul non-respect de la normalit du
moins pour lexemple considr.


33





2.5. Alternatives au non-respect des conditions dapplication

La dcision prendre en cas de non-respect des conditions dapplication
dune mthode statistique paramtrique pressentie pour des donnes
collectes nest pas aussi aise. Le problme est trs vaste et il ny a pas de
rponse toute faite. Nous proposons dans ce paragraphe des pistes de
solutions lutilisateur des mthodes statistiques pour une dcision
consquente.

2.5.1. Les transformations de variables

Lune des possibilits de traitement des donnes en cas de non-respect
des conditions dapplication est la transformation de variable. A ce titre, nous
conseillons ici quelques familles de transformations de variable savoir, la
transformation de Box et Cox et la transformation angulaire.
Considrons une variable alatoire X ne suivant pas une distribution normale.
Soit Y la variable transforme de X dans le but de la rendre normale, la
transformation de Box et Cox scrit :









Dans la formule ci-dessus, est une constante quelconque et peut tre
calcule lorsque les moyennes et variances des diffrents chantillons sont
lies par une fonction puissance :

X
2
X
km = , 2.5.2

avec ) 1 ( 2 = ou 2 / 1 = .

La relation (2.5.2) peut tre tablie au moyen dune transformation
logarithmique suivie dune rgression linaire. Les cas particuliers de la
transformation de Box et Cox sont les transformations courantes savoir la
transformation logarithmique et la transformation racine-carr.

La transformation angulaire scrit :

X arcsin 2 Y= ,

X pouvant aller de 0 1.


Cette transformation sapplique aux variables binomiales.

= Y

/ ) 1 (X

si 0

LnX si = 0

.
2.5.1.
34





2.5.2. Les tests non paramtriques


Les mthodes statistiques non paramtriques sont conseilles en cas de
non-respect des conditions dapplications malgr lapplication de transformation
linaires. Nous prsentons au tableau 4 une synthse des mthodes non
paramtriques.


Tableau 4. Tests non paramtriques correspondant aux tests paramtriques
courants.

Test paramtrique
Test non-paramtrique
correspondant
Observations par rapport
au test non paramtrique
Test t 1 chantillon Test de Wilcoxon
Comparaison dune mdiane
une valeur connue (donnes
de rangs)
Test t 2 chantillons
Test de Mann-Whitney
Comparaison de deux
mdianes (donnes de rangs)
ANOVA 1 critre Test de Kruskal-Wallis
Comparaison de deux ou
plusieurs mdianes
ANOVA 1 critre Test de la mdiane de Mood
Comparaison de deux ou
plusieurs mdianes
ANOVA 2 critres Tests de Friedman Donnes apparies
Rgression linaire
Rgression linaire
pondre
Rgression non linaire

Analyse discriminante
linaire et quadratique
Analyse discriminante
logistique ; Mthodes du
noyau ; mthodes
neuronales etc.



On note du tableau 4 les mthodes statistiques non paramtriques
relatives aux comparaisons de mdiane 1, 2 ou plus de deux chantillons
ainsi que les mthodes multivaries non paramtriques. En ce qui concerne
lanalyse de la variance 1 critre, nous avons prsent deux mthodes
savoir le test de Kruskal-Wallis et le test de Mood qui est rsistant vis--vis des
valeurs aberrantes et des erreurs de donnes. Il est particulirement adapt
aux tapes prliminaires de l'analyse. Le test de la mdiane de Mood est plus
rsistant que le test de Kruskal-Wallis vis--vis des valeurs aberrantes, mais il
est moins puissant pour des donnes provenant de nombreuses distributions, y
compris la loi normale (Minitab, 1996).

35





3. Tests dhypothses pour la vrification des
conditions dapplication




3.1. Introduction


Les pages antrieures ont abord les conditions dapplication des
mthodes statistiques paramtriques courantes, leurs importances ainsi que les
consquences du non-respect des conditions. Ce chapitre prsente le principe
des mthodes de vrification de ces conditions ainsi que leur application dans
les logiciels statistiques. Pour une prsentation simple et claire de ce chapitre,
nous commenons dabord par prsenter au tableau 5, les principales
conditions dapplication des mthodes statistiques, les tests dhypothses pour
la vrification de ces conditions et la disponibilit de ces tests dans les logiciels
statistiques MINITAB, SPSS et SAS.


Tableau 5. Rcapitulatif des tests de vrification des conditions dapplication
et leur disponibilit dans les logiciels statistiques.

Condition
dapplication
Tests disponibles
Disponibilit du test dans
les logiciels Statistiques
MINITAB SPSS SAS
Normalit
univarie
Test de Ryan-Joiner
Test de Shapiro-Wilk
Test de Kolmogorov-Smirnov
Anderson-Darling
x
--
x
x
--
x
x
--
--
x
x
x
Normalit
multivarie
Test de Rao-Ali
Test de Mardia
--
--
--
--
--
--

Homognit
des variances

Test F

Test de Bartlett

Test de Hartley

Test de Levene et ses variantes
x
x
--
x
--
--
--
x
--
x
--
x
Homognit
des rsidus de
rgression
Test de White
Test de Breusch-Pagan
--
--
--
--
x
x
Egalit des
matrices de
variances-
covariances
Test du rapport de vraisemblance
Test M de Box
--
--
--
x
x
--

x : disponible dans le logiciel statistique ; -- : non disponible dans le logiciel.
Le test de Mardia, plus prcisment le test daplatissement multivari est disponible dans le
logiciel SAS en utilisant la procdure CALIS (Proc Calis) avec spcification de loption Kurtosis.
36





On note de ce tableau que tous les tests dhypothse de vrification des
conditions dapplication des mthodes statistiques ne sont pas disponibles dans
les logiciels statistiques. De plus, les tests dhypothse pour la vrification de la
condition de normalit multivarie (test de Rao-Ali et test de Mardia) ne sont
disponibles dans aucun des logiciels statistiques utiliss dans la prsente note.
De ce fait, nous avons conu dans le langage Matlab une procdure reprenant
les principes des tests de Rao-Ali et de Mardia, et qui permet de vrifier cette
condition de normalit multivarie. Notons par ailleurs que les tests dhypothse
numrs au tableau 5 ne sont pas exhaustifs, seuls les tests courants sont
prsents.


3.2. Tests de normalit une dimension

3.2.1. Mthode graphique de vrification de la normalit

Le contrle de la normalit dun nombre de sries de donnes peut se
faire par lexamen pralable dun histogramme de la srie de donnes ou
encore dun diagramme de probabilit en portant en abscisses les
observations. Les ordonnes sont dtermines de telle sorte que les fonctions
de rpartition ) F(x apparaissent comme des droites. Ce type de
reprsentation peut tre appliqu aux sries statistiques en portant en
abscisse les valeurs observes
i
x classes par ordre croissant et en
ordonnes les quantits :

n i x N i / ) 2 / 1 ( ) ( ' = , (3.2.1)

avec ) ( ' i x N la frquence relative cumule de lobservation i et n le nombre
dobservations. La droite obtenue est parfois appele droite de Henry.
Mais lorsquon souhaite utiliser en ordonnes, une chelle de quantiles
de la variable normale rduite, on calcule des quantiles par la fonction inverse
de la fonction de rpartition ) (u de la distribution normale rduite, soit :

)] ( ' [
1
i i x N u

= = ] / ) 2 / 1 [(
1
n i

. (3.2.2)


Les quantits n i / ) 2 / 1 ( sont souvent remplaces par des valeurs
) 4 / 1 /( ) 8 / 3 ( ) ( ' + = n i x N i qui permettent notamment dobtenir, partir des
diagrammes de probabilits, des estimations plus correctes des carts-types
des populations considres. Dans ce cas, on a :



)] 4 / 1 /( ) 8 / 3 [( ' + = n i u i . (3.2.3)

Les valeurs
i
u et
i
u' ainsi dfinies sont gnralement appeles
37





quantiles normaux ou scores normaux
1
. Notons que les valeurs
i
u' de
lexpression (3.2.3) peuvent tre obtenues de faon automatique par la
commande Nscores du logiciel Minitab (Minitab, 1996). Lorsque les
observations sont tires de populations normales, La relation entre les
observations et leurs scores normaux est de type linaire et la droite
correspondante est appele droite de HENRY.

Considrons des donnes relatives la densit en Acacia auriculiformis de
peuplements mlangs, prsentes au tableau 6 (Fonton et al., 2002).



Tableau 6. Densit en pieds dAcacia
de peuplements mlangs

Peuplement Densit
92/01 450
92/04 333
92/22 546
91/02 508
91/03 353
91/05 743
91/16 523
91/17 455
91/22 294
90/03 97
90/07 600
90/09 764



Nous allons faire un examen pralable de la normalit de cette srie de
donnes. Puisque les chantillons de densit de ces 3 peuplements ont des
moyennes diffrentes, un test de normalit effectu sur une telle srie de
donnes aboutirait de fausse conclusion. En effet, la diffrence entre les
moyennes des 3 chantillons pourrait conduire une non-normalit
apparente. De ce fait, la normalit pourrait tre examine pour chacun des
trois chantillons. On peut aussi raliser le test de normalit sur lensemble
des observations des trois chantillons mais en prenant soin de centrer
chaque observation par la moyenne de son groupe ou peuplement
dappartenance afin dliminer la non-normalit apparente. Cette dernire
option est choisie et les scores normaux relatifs aux observations centres
sont calculs en utilisant la formule (3.2.3) et prsents au tableau 7.



1
En anglais : Normal score.
38





Tableau 7. Scores normaux des densits de pieds dAcacia.


Peuplement
Densit en
pieds dAcacia
Donnes
centres
Scores
normaux
92/01 450 7,0 -0,102
92/04 333 -110,0 -0,536
92/22 546 103,0 0,536
91/02 508 28,7 0,102
91/03 353 -126,3 -0,792
91/05 743 263,7 1,114
91/16 523 43,7 0,312
91/17 455 -24,3 -0,312
91/22 294 -185,3 -1,114
90/03 97 -390,0 -1,635
90/07 600 113,0 0,792
90/09 764 277,0 1,635


Les donnes centres ainsi que les scores normaux prsents au
tableau 7 ont permis dtablir le diagramme de probabilit prsent la figure
7.



Figure 7. Densit des peuplements mlangs en Acacia :
diagramme de probabilit.


Cette figure nous donne dj une ide de la normalit de la srie de
donnes. En effet, les densits centres des peuplements, reprsentes par
les points sur la figure ne scartent pas trop de la droite de HENRY. On peut
donc conclure une normalit de la srie dobservations sur base de
lexamen graphique.
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
-400 -300 -200 -100 0 100 200 300 400
Donnes centres
Q
u
a
n
t
i
l
e
s

n
o
r
m
a
u
x
39





3.2.2. Mthodes paramtriques du test de normalit

Diffrents tests de normalit dune srie de donnes peuvent tre
considrs comme dcoulant plus ou moins directement des diagrammes de
probabilit. Ils mesurent en fait le degr de linarit des observations. Nous
prsentons ici les deux catgories de tests les plus utiliss savoir les tests
bass sur la distribution thorique de la srie de donnes
1
et les tests bass sur
la distribution empirique des sries de donnes
2
. Dans la premire catgorie,
lun des tests les plus puissants et utiliss est le test de Shapiro-Wilk que nous
prsenterons dans la suite. Il sera suivi du test de Ryan-Joiner. Dans la
deuxime catgorie de tests, nous pouvons citer les tests de Kolmogorov-
Smirnov, de Cramer Von Miss et le test dAnderson-Darling. Nous ne
prsenterons dans cette catgorie que le test de Kolmogorov-Smirnov.


3.2.2.1. Test de normalit de Shapiro-Wilk
3


Le test de normalit de Shapiro-Wilk ncessite le calcul de la statistique
obs
W dont lexpression est :

=
=

=
n
i
i
n
i
i i
obs
x x
x c
W
1
2
2
1
) (
) (
. (3.2.4)

Les coefficients
i
c sont donns sous forme de tables fournies entre autres par
Shapiro et Wilk (1965). Le symbole n reprsente le nombre dobservations et
x , la moyenne des observations
i
x (i = 1,,n).

Le rejet de lhypothse de normalit intervient quand :


) (
obs
W W P

La mthode de dtermination des valeurs de probabilits p (la probabilit
dobtenir une valeur de n W infrieure ou gale
obs
W ) est assez complexe.
Elle est fonction de leffectif n des chantillons. Lorsque n =3, la distribution de
probabilit de n W est connue et est utilise pour dterminer la probabilit. Pour
n > 4, la transformation suivante est utilise (SAS, 1999) :




1
En anglais : Exact distribution function.
2
En anglais : Empirical Distribution Function.
3
En anglais : Shapiro-Wilks test.
40














Les valeurs , et sont des fonctions de n et sont obtenues par des
rsultats de simulations. Les valeurs leves de n Z indiquent un cart lev
par rapport la normalit et puisque la statistique n Z est connue pour avoir
une distribution normale, elle est utilise pour calculer les valeurs de probabilit
pour n > 4.

Ainsi, les valeurs critiques n W sont donnes dans les mmes tables que
celles des coefficients
i
c .

Selon Dagnelie (1998), la valeur n W de Shapiro-Wilk nest autre quun
coefficient de dtermination des couples (
i
c ,
i
x ). Ce coefficient est gal 1
quand tous les points de coordonnes (
i
c ,
i
x ) sont strictement colinaires ou
encore lorsque tous les points de la figure 7 se retrouvent exactement sur la
droite de HENRY.

Comme on peut le noter de la formule (3.2.5), le test de Shapiro-Wilk nest
pas conseill lorsque la taille de lchantillon considr est suprieure 2000.
Dans un tel cas, le test de Kolmogorov-Smirnov est prconis.


3.2.2.2. Test de normalit de Ryan-Joiner
1


Les coefficients
i
c sont comparables aux quantiles normaux
i
u ou
i
u'
relatifs aux diagrammes de probabilits. Ainsi, Ryan et Joiner (1976)
proposent de remplacer les valeurs
i
c par les quantiles normaux dans
lexpression (3.2.4).

La statistique du test de Ryan-Joiner est donc le coefficient de corrlation
linaire entre les donnes et les scores normaux. Cest le rapport entre la
covariance des deux variables et le produit de leurs carts-types respectifs,
soit :


1
En anglais : Ryan-Joiners test.

(3.2.5)
/ ] ) 1 [ln( n W si 4 n 11
/ ] ) 1 [ln( n W si 12 n 2000
n Z =
41






=
=


= =
n
i
i i
n
i
i i
u x
u u x x
u u x x
s s
u x
1
2 / 1 2 2
1
obs
] ) ( . ) ( [
) )( (
.
) , cov(

(3.2.6)

La formule de calcul de la statistique,
th
, de Ryan-Joiner dpend de la
taille n de lchantillon considr et est donne ici pour un niveau de confiance
de 0,95 :

th
= ) / 3505 , 1 ( ) / 6118 , 0 ( ) / 1288 , 0 ( 0063 , 1
2
n n n + si n < 50

th
= ) / 5582 , 3 ( ) / 7726 , 1 ( ) / 0178 , 0 ( 9995 , 0
5 , 1
n n n + + si n > 50.

Lhypothse de normalit est rejete lorsque
obs
est infrieur
th
.

Lapplication du test de normalit de Ryan-Joiner aux donnes du
tableau 7 donne une valeur du coefficient de corrlation gale 0,981.
Leffectif des donnes du tableau 7, qui est de 12, tant infrieur 50, la
premire formule de calcul de la statistique de Ryan-Joiner est utilise et
donne une valeur de 0,923. Puisque la valeur observe (0,981) est suprieure
la valeur critique, on accepte lhypothse nulle et on conclut au caractre
normal des donnes du tableau 7.


3.2.2.3. Test de normalit de Kolmogorov-Smirnov
1


Pour toute srie dobservations X
1
,...,X
n
de mme fonction de distribution,
une fonction de distribution empirique f(x) peut tre dfinie. Sous lhypothse
nulle, f(x) suit une distribution normale. Supposons que les observations soient
classes par ordre croissant tel que : X
(1)
, ... ,X
(n)
. La fonction de distribution
empirique f
n
(x) est dfinie de la manire suivante :










Notons que f
n
(x) est une fonction par intervalles qui prend un pas de hauteur
1/n chaque observation. Cette fonction estime la valeur de la distribution f(x).

1
En anglais: Kolmogorov-Smirnovs test
) ( f x n =
0 si x < X
(1)

n
1
si X
(i)
< X
(i+1), i = 1,,n-1

1 si X
(n)
x
42





A chaque valeur x, f
n
(x) est la proportion des observations infrieures ou gales
x, alors que f(x) est la probabilit pour quune observation soit infrieure ou
gale x. La statistique EDF (Empirical Distribution Function) mesure la
dissimilarit entre f
n
(x) et f(x).

De faon gnrale, les tests EDF utilisent la fonction de rpartition U =
F(x). Si f(X) est la fonction de distribution de X, la variable alatoire U est
uniformment distribue entre 0 et 1. Soient n observations X
(1)
, ... ,X
(n)
, les
valeurs U
(i)
= f(X
(i)
) sont calcules.

La statistique D du test de Kolmogorov-Smirnov est dfinie de la faon
suivante :

) ( ) ( sup x F x F D n x = (3.2.7)

La statistique de Kolmogorov-Smirnov est base sur la plus grande
diffrence verticale entre F(x) et F
n
(x). Elle est calcule en considrant le
maximum de
+
D et

D , o
+
D est la plus grande distance verticale entre la
fonction de distribution empirique et la fonction exacte de distribution lorsque
EDF est suprieure la fonction de distribution, et D
-
est la distance verticale la
plus grande lorsque EDF est plus petite que la fonction de distribution.


) ( max
) (i i
U
n
i
D =
+
;
)
1
( max
) (
n
i
U D
i i

=
;
) , ( max

+
= D D D .



3.2.3. Application avec les logiciels statistiques

Dans ce paragraphe nous prsentons lapplication des tests de normalit
dans les logiciels statistiques Minitab, SPSS et SAS. Nous sparons les tests
de normalit une dimension des tests de normalit plusieurs dimensions.


3.2.3.1. Logiciel Minitab

Afin de mieux expliquer la procdure de ralisation du test de normalit
une dimension avec le logiciel statistique Minitab, nous reprenons les donnes
du tableau 7. Le test de normalit appliqu ces donnes sexcute en
slectionnant Stat > Statistiques lmentaires > Test de normalit
comme le montre la figure 8. Aussitt slectionn, la bote de dialogue de la
figure 9 saffiche.



43







Figure 8. Procdure dexcution du test de normalit
une dimension avec Minitab.




Dans cette bote de dialogue (figure 9), la variable donnes centres du
tableau 7 est mise dans la fentre Variable . Dans la fentre Probabilits
de rfrence on peut de manire facultative insrer une colonne contenant
des probabilits insrer sur le graphique de la courbe normale. Les valeurs
contenues dans cette colonne doivent tre comprises entre 0 et 1. La fentre
Titre permet de donner un titre au graphique, mais ceci est aussi facultatif.




Figure 9. Procdure dexcution du test de normalit une
dimension avec Minitab : bote de dialogue 1.


De plus, la figure 9 montre que le logiciel Minitab permet de raliser trois
types de test de normalit, savoir le test de Anderson-Darling, le test de
Ryan-Joiner et le test de Kolmogorov-Smirnov. Comme indiqu dans le
44





paragraphe 3.2.2, les tests de Anderson-Darling et de Kolmogorov-Smirnov
sont fonds sur un test EDF (fonction de rpartition empirique), alors que celui
de Ryan-Joiner se base sur un test de corrlation. Le test de Ryan-Joiner a t
choisi (figure 9). On obtient les rsultats de la figure 10.






Figure 10. Densit des peuplements mlangs en Acacia :
rsultats du test de normalit avec Minitab.



Le graphique obtenu est le mme que celui de la figure 7. En bas et
gauche du graphique, Minitab donne la statistique lie au test de Ryan-Joiner
qui est gale 0,981, la mme valeur que celle obtenue au paragraphe 3.2.2.2.
La valeur de la probabilit (Prob > 0,05) permet daccepter lhypothse nulle de
normalit des donnes du tableau 7. On peut reprendre les mmes procdures
en choisissant le test de Anderson-Darling ou de Kolmogorov-Smirnov.


3.2.3.2. Logiciel SPSS

Le logiciel SPSS propose deux tests de normalit savoir le test de
Kolmogorov-Smirnov et celui de Shapiro-Wilk. Il est utile de noter que la version
9 du logiciel SPSS ralise le test de Shapiro-Wilk uniquement pour des tailles
dchantillon infrieures 50. Par contre, la version 10 du logiciel donne les
rsultats du mme test quelle que soit la taille de lchantillon.

Le test de normalit est ralis en slectionnant Analyse > Statistiques
descriptives > Explorer , comme le montre la figure 11. La bote de
dialogue de la figure 12 saffiche. On slectionne la variable Densite dans la
fentre Dependent List .
Moyenne : 0,0166667
Ecart-type : 187,691
N : 12
W-test pour la normalit
R: 0,9805
Valeur de P (approximatif) : > 0,1000
-400 -300 -200 -100 0 100 200 300
,001
,01
,05
,20
,50
,80
,95
,99
,999
P
r
o
b
a
b
i
l
i
t

Donnes centres
Graphique de la courbe normale ou droite de Henry
45








Figure 11. Procdure dexcution du test de normalit
une dimension avec SPSS.



Figure 12. Procdure dexcution du test de normalit
une dimension avec SPSS : bote de dialogue 1.



Pour raliser le test de normalit, il faut cliquer sur le bouton
diagramme , puis cocher Graphes de rpartition gaussiens avec
tests (cf. figure 13).

46






Figure 13. Procdure dexcution du test de normalit
une dimension avec SPSS : bote de dialogue 2.






On obtient les rsultats de la figure 14. La droite de HENRY obtenue est la
mme que celle obtenue avec le logiciel Minitab. De plus, les rsultats des deux
tests de normalit permettent daccepter lhypothse nulle de normalit de la
population dont sont issues les donnes.

Tests de normalit
,115 12 ,200* ,965 12 ,846 CENTRES
Statistique ddl Signification Statistique ddl Signification
Kolmogorov-Smirnov
a
Shapiro-Wilk
Il s'agit d'une borne infrieure de la signification relle.
*.
Correction de signification de Lilliefors
a.
Normogramme Q-Q des rsidus de CENTRES
Valeur observe
300 200 100 0 -100 -200 -300 -400
N
o
r
m
a
l
e

t
h

o
r
i
q
u
e
1,5
1,0
,5
0,0
-,5
-1,0
-1,5


Figure 14. Densit des peuplements mlangs en Acacia:
rsultats du test de normalit avec SPSS.

Il est noter que, dans le cas de la rgression linaire, le test de normalit est
47





intgr la procdure de rgression dans les logiciels Minitab et SPSS. En
Minitab par exemple, la procdure dexcution de la rgression est illustre la
figure 15.


Figure 15. Procdure dexcution de la rgression avec Minitab.





On peut noter de cette figure que la rgression est excute en
slectionnant Stat > Rgression > Rgression . On obtient la bote de
dialogue situe du ct droit de la figure. Dans cette bote de dialogue, la
variable dpendante est mise dans la fentre Rponse alors que les
variables indpendantes ou explicatives sont introduites dans la fentre
Prdicteurs . Pour afficher les rsultats de lexamen de la normalit des
rsidus dans les rsultats de la rgression linaire, on clique sur la commande
Graphiques de la bote de dialogue de la figure 15. Dans le logiciel SPSS,
on slectionne Analyse > Regression > Linaire . Ensuite, on
slectionne la commande Diagrammes et on coche Diagramme P-P
gaussien dans la bote de dialogue qui saffiche (figure 16).



Figure 16. Procdure dexcution du test de normalit
des rsidus de rgression avec SPSS.


48





3.2.3.3. Logiciel SAS

Des tests de normalit une dimension peuvent aussi tre raliss avec
le logiciel statistique SAS. Ce dernier propose quatre types de test savoir, les
tests de Shapiro-Wilk, de Kolmogorov-Smirnov, de Cramer-von Mises et de
Anderson-Darling. La ralisation de ces tests se fait travers la procdure
univariate , avec utilisation de loption normal ou normaltest .
Lutilisation de loption qqplot dans la procdure permet dobtenir le
diagramme de probabilit. Pour illustrer la procdure de ralisation des tests de
normalit dans SAS, reprenons les donnes du tableau 7. La figure 17 donne la
procdure utilise ce propos.



DATA DATA DATA DATA dens;
Input centrees;
Cards;
7
-110
103
28.7
-126.3
263.7
43.7
-24.3
-185.3
-390
113
277
;
Proc Proc Proc Proc univariate univariate univariate univariate Normaltest;
Qqplot centrees/Normal;
Run Run Run Run;


Figure 17. Programme SAS pour la ralisation du test de
normalit sur les donnes du tableau 7.



On note de la figure 17 que le logiciel SAS donne, aux arrondis prs, les
mmes rsultats que SPSS et Minitab. Contrairement ce qui est observ avec
les logiciels SPSS et Minitab, les axes du graphique produit par le logiciel SAS
sont inverss (cf. figures 10, 14 et 18). Dans tous les cas, la normalit des
donnes est accepte.

49







Tests for Normality

Test --Statistic--- -----p Value

Shapiro-Wilk W 0.964567 Pr < W 0.8465
Kolmogorov-Smirnov D 0.115125 Pr > D >0.1500
Cramer-von Mises W-Sq 0.027879 Pr > W-Sq >0.2500
Anderson-Darling A-Sq 0.210303 Pr > A-Sq >0.2500




Figure 18. Densit des peuplements mlangs en Acacia : rsultats
du test de normalit avec SAS.


50





3.3. Tests de normalit plusieurs dimensions

Nous abordons essentiellement deux tests de normalit multivaris
savoir le test de Rao-Ali et le test de Mardia.


3.3.1. Le test de Rao-Ali

Supposons que lon veuille comparer deux types de pturage sur la base
de leurs poids en gramine et lgumineuse (tableau 8). Une manire
judicieuse de faire une telle comparaison est dappliquer lanalyse de la
variance multivarie qui prend en une fois les deux variables considres. Une
des conditions dapplication de ce test est le caractre multinomial des
donnes. Nous proposons dutiliser la mthode de Rao et Ali pour ce faire.
Ces deux auteurs proposent de transformer toutes les variables dont on veut
vrifier le caractre normal en une seule variable.



Tableau 8. Poids en gramines et lgumineuses
de divers types de pturage.

Type Pture Gramines Lgumineuses
1 120 315
1 450 30
1 757 0
1 212 120
1 185 244
1 451 52
2 598 164
2 599 1203
2 0 219
2 5855 2616
2 5520 211
2 2540 696


De faon gnrale, considrons un chantillon global, reprsentatif de g
groupes, de nombre p de variables (dans le cas prsent, la valeur de g est de
2 et le nombre de variables est de 2). Leffectif global, N , des donnes est
obtenu par la formule :

N =

=
g
j
j
n
1
,

51





j
n , tant leffectif du groupe j . Dans le cas prsent, la valeur de N est de
12.

Les diffrentes tapes de la procdure de Rao et Ali sont les suivantes :

- chaque observation i est centre et rduite par le vecteur de moyennes
et la racine-carre de la matrice de variances-covariances de son groupe
dappartenance. Ainsi, toute observation i du groupe k ( k =1,, g ),
reprsente par le vecteur
ki
x , est centre et rduite, respectivement par le
vecteur de moyennes,
k
x et la racine-carre de la matrice de variances-
covariances,
1/2
k
, du groupe k pour obtenir un nouveau vecteur
dobservations
ki
y ,

ki
y = ) (
-1/2
k
x x
ki k
;

- toutes les pN composantes de tous les vecteurs
ki
y (i = 1,N,
k =1,, g ) de tous les g groupes sont considres comme des observations
dun nouvel chantillon univari, deffectif pN , sur lequel tout test de
normalit univari peut tre appliqu (tests de Ryan-Joiner, dAnderson-
Darling, de Kolmogorov-Smirnov, etc.).


Lapplication de la mthode de Rao et Ali aux donnes du tableau 8,
avec utilisation du test de Ryan-Joiner donne une valeur du coefficient de
corrlation,
obs
, gale 0,898. Cette valeur observe tant infrieure la
valeur critique,
th
, de Ryan-Joiner (0,928), on rejette lhypothse de
multinormalit des donnes.


3.3.2. Le test de Mardia
1


Ce test est encore appel tests des coefficients de symtrie et
daplatissement de Mardia. Soient
1
X , ..., n X un chantillon alatoire
compos de n vecteurs-lignes X. Soit p le nombre de variables de chaque
vecteur-ligne, n , le nombre dobservations et , le vecteur de moyennes.

Une mesure de la symtrie multivarie
2
de cette srie de vecteurs est
donne par lexpression canonique (Mardia, 1980) :



1
En anglais : Mardia's test.
2
En anglais : Multivariate skewness
52






1
b =
3 1
'
1 1
2
)] ( ) [(
1
X S X

= =
j i
n
i
n
j
n
(3.3.1)


Dans lexpression (3.3.1), S est la matrice de variances-covariances de
lchantillon.

Mardia (1980) a montr que sous lhypothse nulle de multinormalit,
1
6 b n ) / ( a
asymptotiquement une distribution Chi-Carr 6 2 1 / ) )( ( + + p p p degrs de
libert.

Une mesure de laplatissement multivari
1
est donne par lexpression
canonique (Mardia, 1980) :


2
b =
2 1
'
1
)] ( ) [(
1
X S X

=

i i
n
i
n
(3.3.2)

Sous lhypothse nulle de multinormalit,
2
b suit asymptotiquement une
distribution normale de moyenne ) ( 2 + p p et de variance n p p / ) ( 2 8 + (Mardia,
1980).

Dans le cas des donnes du tableau 8, la valeur de p est gale 2 et n
est gale 12. La moyenne et la matrice de variances-covariances de
lchantillon donnent respectivement :



S=






Pour le test de symtrie multivarie, la valeur
2
obs
=
1
6 b n ) / ( donne
12,499. La probabilit associe cette valeur, suivant la distribution
2
4
degrs de libert ( 6 2 1 / ) )( ( + + p p p = 4) est gale 0,014. On rejette donc
lhypothse de symtrie deux dimensions des donnes du tableau 8.

Pour le test daplatissement multivari, la valeur
obs
U est de 11,495 et la
probabilit associe cette valeur suivant la distribution normale de moyenne 8


1
En anglais : Multivariate kurtosis.
On a :
1
b = 6,249 et
2
b = 11,495.
= [ 1440,6 ; 489,2 ] .

;
4371700 97790



97790 56360
53





( ) ( 2 + p p =8) et de variance 5,33 ( n p p / ) ( 2 8 + =5,33) est gale 0,065. De ce
fait, on accepte au seuil de 5 % lhypothse daplatissement normal des
donnes du tableau 8.

En conclusion, lhypothse de symtrie multivarie tant rejete, les
donnes du tableau 8 ne proviennent pas de populations multinormales malgr
lacceptation de lhypothse daplatissement normal.



3.3.3. Application avec le langage Matlab

3.3.3.1. Conception dune Fonction normalite dans le langage Matlab

Le test de normalit plusieurs dimensions nest pas disponible dans les
logiciels statistiques SAS, Minitab et SPSS. Pour permettre lutilisateur de
vrifier cette condition de multinormalit des populations, nous avons conu
une fonction dans le langage Matlab appele normalite . Pour des
informations sur le langage Matlab, consulter la note de Akossou et al. (2001).
La fonction normalite conue dans le langage Matlab peut tre utilise pour
excuter le test de Mardia et le test de Rao-Ali associ au test de Ryan-Joiner
(cf. paragraphes 3.3.1 et 3.3.2). La figure 19 prsente le programme conu.




54
































































Figure 19. Fonction Matlab pour la ralisation de tests de normalit multivarie.
function [Test1,R1,note,NB1,Test2,R2,Note,NB2]=normalite(X)

% % % % % % % % % % % % % % % % % % % % % % % % % % % % %
% Fonction MATLAB permettant la ralisation des tests %
% de normalit multivarie de Ryan-Joiner et de Rao-Ali %
% X est la matrice de donnes dont on veut tester la %
% normalit. Les sorties de la fonction donnent les %
% rsultats des tests. %
% Auteur: GLELE K. Romain. Date: 04/05/2006. %
% % % % % % % % % % % % % % % % % % % % % % % % % % % % %
Test1=[' TEST DE MARDIA'];
Test2=[' TEST DE RAO-ALI'];
[n,p]=size(X); c=cov(X);mu=mean(X);ic=inv(c);
for i=1:n
for j=1:n
bo1(i,j)=(X(i,:)-mu)*ic*(X(j,:)-mu)';
end
bo2(i,1)=(X(i,:)-mu)*ic*(X(i,:)-mu)';
end
b1=(1/n^2)*sum(sum(bo1.^3));b2=(1/n)*sum(bo2.^2);
pb1=(n/6)*b1;ddl=p*(p+1)*(p+2)/6;p1=1-
cdf('chi2',pb1,ddl);m=p*(p+2);v=8*p*(p+2)/n;
bp2=(b2-m)/sqrt(v); p2=1-(normcdf(bp2,0,1)); R1=[b1,b2,p1,p2];
note1=['1re valeur: coefficient de symtrie multivarie
'];
note2=['2me valeur: coefficient d''aplatissement multivari
'];
note3=['3me valeur: probabilit lie l''hypothse de symtrie normal
'];
note4=['4me valeur: probabilit lie l''hypothse d''aplatissement
normal '];
note=[note1;note2;note3;note4];
if p1<=0.05 | p2<=0.05
NB1=['hypothse de multinormalit rejete'];
else
NB1=['hypothse de multinormalit accepte'];
end
s=cov(X);m=mean(X);f=inv(sqrtm(s));yn=(X-repmat(m,n,1))*f;
y=sort(yn(:));wa1=(1:n*p)';Nw1=(wa1-(3/8))/((n*p)+0.25);
xw1=norminv(Nw1,0,1);rw1=corrcoef(y,xw1);
rw1=rw1(2,1);rwe(1,1)=rw1;
if n<=50
rl05=1.0063-(0.1288/sqrt(n))-(0.6118/n)+(1.3505/(n^2));
end
if n>50
rl05=0.999494+(0.0177805/sqrt(n))-(1.77265/n)+(3.55823/(n^1.5));
end
note1=['1re valeur: coefficient de corrlation au sens de Rao-Ali'];
note2=['2me valeur: coefficient de corrlation-seuil '];
Note=[note1;note2];R2=[rwe,rl05];
if rwe<rl05
NB2=['hypothse de multinormalit rejete'];
end
if rwe>=rl05
NB2=['hypothse de multinormalit accepte'];
end

55





3.3.3.2. Lecture des donnes dans le langage Matlab

Lorsque la matrice de donnes faire lire par le langage Matlab nest pas
trs large, on peut la copier directement dans le logiciel comme le montre la
figure 20. Il sagira de copier la matrice de donnes dans la fentre
MATLAB en la mettant entre crochets et en lui affectant un nom. Dans le
cas prsent, la matrice est note X. Aprs cela, on valide la lecture des
donnes en appuyant le bouton correspondant du clavier de lordinateur.




Figure 20. Processus de lecture de la
matrice X dans Matlab.


Lorsque la matrice des donnes a une taille trs importante, il est plus ais
de la transfrer du logiciel Excel dans le langage Matlab. Il existe en effet, une
telle procdure de transfert des donnes.













Figure 21. Processus dactivation de la procdure excllink partir
de Excel.
56





Aprs avoir saisi les donnes dans une feuille de calcul Excel, on active la
procdure excllink du langage Matlab partir du logiciel Excel. Il sagira
douvrir le fichier excllink qui se trouve dans le rpertoire C:\Program
Files\Matlab\R2006a\Toolbox\exlink\excllink si le logiciel Matlab est install
sur un disque dur C:\ comme le montre la figure 21. Dans le cas o le
logiciel est install sur un autre disque D:\ par exemple, alors le fichier
excllink ouvrir partir de Excel se trouve dans le rpertoire D:\Program
Files\Matlab\R2006a\Toolbox\exlink\excllink .

Lors de louverture du fichier excllink, il peut arriver que lordinateur
demande sil faut activer ou dsactiver les macros (figure 22). Dans un tel cas,
on accepte dactiver les macros.




Figure 22. Activation des macros lors de
louverture du fichier excllink.


Ds louverture du fichier excllink dans le logiciel Excel, quatre nouveaux
menus sajoutent la barre de menu Excel savoir : Startmatlab, putmatrix,
getmatrix et evalstring. Aprs avoir slectionn les donnes
1
transfrer
dans le langage Matlab (figure 23), on clique sur le menu putmatrix et la bote
de dialogue situe dans la partie gauche dans la figure 23 apparat.



Figure 23. Transfert des donnes dans le langage Matlab.

1
Slectionner uniquement les donnes et non les donnes avec les noms des colonnes.
57





Il faut spcifier un nom pour la matrice des donnes ainsi transfres dans
le langage Matlab. Dans le prsent exemple, la matrice de donnes est note
X. Les donnes sont ainsi transfres.


3.3.3.3. Enregistrement de la fonction Normalite dans Matlab\R2006a\work

Une fois la matrice de donnes transfre ou copie dans Matlab, on
copie la fonction normalite de la figure 19 dans la fentre Editor et on
enregistre le fichier dans le sous-rpertoire work du rpertoire R2006a\Matlab
situ dans C:\Program Files ( Matlab\R2006a\work ) comme le montre la
figure 24.



Figure 24. Copie et enregistrement de la fonction
normalite dans Matlab\work.



3.3.3.4. Excution de la fonction Normalite

On copie dans la fentre Matlab, le titre de la fonction Normalite cest--
dire la 1
re
ligne de la fonction sans le nom function comme le montre la
figure 25 et on valide en tapant sur la touche du clavier de lordinateur.






58









Figure 24. Excution de la fonction Normalite.


Il est noter que dans le cas o la matrice de donnes est copie ou transfre
dans le langage Matlab sous un nom diffrent, par exemple A au lieu de
X , lappel de la fonction se fait en remplaant X par A comme le
montre la figure 26. Il est aussi utile de noter que le langage Matlab est sensible
la casse des lettres. En dautres termes, une matrice de donnes note x
(minuscule) est diffrente dune matrice de donnes note X (majuscules).
De ce fait, il est important de tenir compte de la casse du nom de la matrice de
donnes copie ou transfre dans Matlab lors de lappel de la fonction
normalite. Lapplication de la fonction normalite aux donnes du tableau 8
donne les rsultats de la figure 27.


Figure 26. Appel de la fonction normalite avec
changement de nom de la matrice de donnes.
59
































Figure 27. Sortie du langage Matlab aprs excution de la fonction
normalite sur les donnes du tableau 8.



Ces rsultats indiquent que les probabilits lies aux tests de symtrie et
daplatissement multivaris de Mardia sont respectivement gales 0,014 et
0,0651. En dautres termes, lhypothse de normalit multivarie est rejete.
Ces rsultats montrent galement que le test de Rao-Ali et Ryan-Joiner
effectu donne une corrlation des observations avec les scores normaux gale
0,899. La corrlation-seuil tant de 0,9275, ce test indique aussi le rejet de
lhypothse nulle de multinormalit. De ce fait, les donnes de la matrice X
(tableau 8) ne proviennent pas de populations multinormales.
[Test1,R1,note,NB1,Test2,R2,Note,NB2]=normalite(X)

Test1 =
TEST DE MARDIA

R1 =
6.2499 11.4949 0.0140 0.0651

note =
1re valeur: coefficient de symtrie multivarie
2me valeur: coefficient d'aplatissement multivari
3me valeur: probabilit lie l'hypothse de symtrie normal
4me valeur: probabilit lie l'hypothse d'aplatissement
normal

NB1 =
hypothse de multinormalit rejete

Test2 =
TEST DE RAO-ALI

R2 =
0.8985 0.9275

Note =
1re valeur: coefficient de corrlation au sens de Rao-Ali
2me valeur: coefficient de corrlation-seuil

NB2 =
hypothse de multinormalit rejete
60





3.4. Tests dhomoscdasticit une dimension

3.4.1. Tests dgalit des variances

3.4.1.1. Comparaison de deux populations

- Echantillons indpendants

Supposons que lon veuille comparer les peuplements de 1991 et 1992 du
tableau 8, du point de vue du diamtre moyen des arbres des placettes
chantillonnes. Pour ce faire, nous devons vrifier au pralable lhypothse
dgalit des variances diamtriques des deux peuplements. Les donnes
relatives ces deux peuplements sont prsentes au tableau 9.



Tableau 9. Diamtre moyen (cm) des peuplements
de 1991 et 1992.

Diamtre moyen des
peuplements de 1991
Diamtre moyen des
peuplements de 1992
11,09 14,60
11,29 13,01
13,40 13,67
9,55 12,68
10,15 13,13
14,44 11,81
15,24 12,12
16,28 -
14,63 -
12,00 -
10,87 -
14,04 -
12,71 -
12,96 -
14,06 -
13,71 -
11,60 -
11,62 -
12,37 -
12,76 -
11,61 -
12,06 -
12,05 -
10,14 -
2
1
= 2,889

1
n = 24
2
2
= 0,886

2
n = 7


61





On note du tableau 9 que nous disposons de 24 observations relatives aux
peuplements de 1991 et 7 observations en ce qui concerne les peuplements de
1992. Les deux sries dobservations sont indpendantes de variances
respectives
2
1
et
2
2
. Puisque le test dgalit des variances ncessite
lhypothse de normalit des populations, le test de normalit de Ryan-Joiner a
t effectu. Les probabilits obtenues pour les donnes de chacun des deux
peuplements sont toutes suprieures 0,1 et permettent de conclure la
normalit des deux populations.



Lhypothse nulle du test dgalit des variances est :


2
2
2
1
0 : H = .

Les symboles
2
1
et
2
2
reprsentent les variances des peuplements
desquelles sont issus les chantillons. Pour effectuer le test, on calcule la
quantit :


2
inf
2
sup

F = c . (3.4.1)

On rejette lhypothse nulle si :

) ddl ; (ddl F F 2 1
2 / 1
> c ou 2 / F) P(Fc > avec 1 ddl
1
1 =n et 1 2 ddl
2
=n .

Les symboles 1 ddl et 2 ddl sont les nombres de degrs de libert.

Dans le cas des donnes du tableau 9,
2
2
2
1

F = c = 3,258, 1 ddl =23 et 2 ddl =6.


La valeur ) 6 ; 23 ( F
2 / 1
est gale 5,128 et 146 , 0 F) P(Fc = > . De ce fait, on
accepte lhypothse nulle pour un niveau de confiance de 0,95 et on conclut
lgalit des variances diamtriques des deux peuplements.


- Echantillons non indpendants

Supposons que lon veuille comparer pour chacun des 11 peuplements du
tableau 6, le volume estim partir dune quation donne et le volume calcul
partir dune autre quation. Le tableau 10 prsente les deux sries de
volumes obtenues partir des deux quations.

Il est ais de noter de ce tableau que, pour chaque peuplement, nous
disposons de deux valeurs de volume en bois : volume estim1 et volume
estim2. Ainsi, les deux chantillons constitus respectivement des volumes-
peuplements estims de deux faons sont dpendants lun de lautre. En
dautres termes, ils sont constitus de volumes provenant dune mme srie de
peuplements. Dans un tel cas, lhypothse dgalit des variances-populations
62





(hypothse nulle), ncessaire la comparaison des moyennes (par un test t par
paires) peut tre vrifie en calculant la quantit :



2
2 1
2 1
2
2
SPE SCE SCE
n SCE SCE
tobs


= , (3.4.2)

1
SCE et
2
SCE tant les sommes des carrs des carts relatives
respectivement aux volumes-peuplements estims partir des deux quations
(
1

V et
2

V ). On les calcule de la faon suivante :



=
=
n
i
V V SCE
1
2
1 1 1
)

( et

=
=
n
i
V V SCE
1
2
2 2 2
)

( .


Le symbole SPE reprsente la somme des produits des carts entre volumes-
peuplements estims et calculs :

SPE= )

)(

(
1
2 2 1 1
=

n
i
V V V V .



Tableau 10. Volumes-peuplements estims de deux
manires.

Peuplement
Volume
calcul (
1

V )
Volume
estim (
2

V )
92/01 68,033 69,803
92/04 57,685 53,851
92/22 63,561 61,991
91/02 49,749 49,698
91/03 29,400 28,910
91/05 50,907 51,827
91/16 69,616 73,151
91/17 48,618 48,309
91/22 33,549 33,999
90/03 36,966 36,787
90/07 41,554 43,561
90/09 80,319 77,148
Variance 248,763 243,332


Dans le cas des donnes du tableau 10, nous avons :

63






1
SCE = 2736,40 ;
2
SCE = 2676,70 ; SPE= 2682,42 et obs t = 0,263.

Nous rejterons lhypothse nulle dgalit des variances lorsque :



2 / 1
t t
obs
avec n -2 degrs de libert.


Dans le cas des donnes du tableau 10, pour un risque = 0,05, la valeur
975 , 0
t (10) = 2,228. On constate que
975 , 0
t t
obs
< (10) ; on accepte donc
lhypothse nulle dgalit des variances lies aux volumes-peuplements. La
probabilit lie ce test est en ralit de 0,601.


3.4.1.2. Comparaison de plus de deux populations

- Echantillons indpendants

Supposons, titre didactique quon veuille comparer les peuplements de
90, 91 et 92 du point de vue de leur densit en Acacia auriculiformis (tableau 7).
Une analyse de la variance un critre de classification permettra de faire une
telle comparaison.

Nous allons au pralable vrifier lhypothse dgalit des variances des
peuplements, lhypothse de normalit des populations tant dj accepte
laide du test de Ryan-Joiner (Paragraphe 3.2.2.2). Il est ais de constater
quici, nous disposons de plus de deux populations (3 peuplements).

Pour raliser ce test, lhypothse nulle peut scrire de la faon suivante :


2 2
2
2
1
0 ... : H p = = = (3.4.3)


Lexpression (3.4.3) signifie que les variances des p populations (ici,
p =3) sont gales.

Nous proposons les trois mthodes les plus utilises dans la ralisation de
ce test savoir le test de Bartlett, le test de Hartley et le test de Levene. Le test
de Bartlett
1
sapplique des chantillons deffectifs gaux ou ingaux mais issus
de populations normales, ce qui ncessite au pralable un test de normalit. Le
test de Hartley
2
sapplique des chantillons deffectifs gaux issus de
populations normales. Le test de Levene
3
sapplique aux chantillons de
distributions continues non ncessairement normales. Rappelons que ces
diffrents tests peuvent aussi tre appliqus dans le cas de comparaison de
variances de deux populations.

1
En anglais : Bartletts test.
2
En anglais : Hartleys test.
3
En anglais : Levenes test.
64







Test de Bartlett

Nous avons dj vrifi la condition de normalit des donnes du tableau
7, nous pouvons donc appliquer le test de Bartlett.

Pour raliser ce test, on calcule la statistique
2
obs
donne par la formule
suivante :


[ ]
]
.
1
)
1
1
[(
) 1 ( 3
1
1
ln ) 1 ( ln ) . (
1
1
2 2
2

=
=


+

=
p
i
i
p
i
i
i
obs
p n n p
n p n
. (3.4.4)


Dans lexpression (3.4.4), ) . /(
2
p n SCE = avec :


=
=
p
i
i
SCE SCE
1
; ) 1 /(
2
=
i i i
n SCE .

Le symbole . n reprsente leffectif total :
. .
1
=
=
p
i
i
n n


On rejette lhypothse nulle dgalit des variances lorsque :
2
1
2


obs
( 1 p degrs de libert). De faon plus exacte, la probabilit
associe ce test est de la forme :

) (
2 2
obs
P .

Lorsque la valeur de cette probabilit est infrieure 0,05, on rejette
lhypothse dgalit des variances des peuplements. Pour les donnes du
tableau 7, nous avons :


2
1
= 11379 ;
2
2
= 24630 ;
2
3
= 120799 ;
2
= 43056 ; p =3 ;
SCE = 387510 ; . n = 12.

2

obs
=2,870 avec ) P(
2 2
obs
= 0,238.


La probabilit associe au test tant suprieure 0,05, on accepte
lhypothse nulle dgalit des variances en densit des trois peuplements. On
pouvait toutefois comparer la valeur
2
obs
celle de
2
1
(2 degrs de libert)
qui est de 5,99. La valeur de tant prise gale 0,05, on constate que
2
obs

65





est infrieur 5,99.


Test de Hartley

Le test de Hartley est conu pour les chantillons deffectifs gaux et est
bas sur la statistique :



2
min
2
max
obs

H = . (3.4.5)


Les symboles
2
max
et
2
min
dans lexpression (3.4.5) reprsentent
respectivement la plus grande et la plus petite des variances des p
chantillons. On rejette lhypothse nulle lorsque ) 1 (ddl H H
1 obs
=

n . Les
valeurs particulires
obs
H sont disponibles sous forme de tables quon peut
trouver par exemple dans Dagnelie (1998).

Lorsque les effectifs des diffrents chantillons sont ingaux, sans tre
trop diffrents les uns des autres, il est possible dutiliser ce test de faon
approche en prenant comme valeur critique la valeur
1
H

qui correspond la
moyenne des nombres de degr de libert (Dagnelie, 1998).

Bien que le test de Hartley ne soit pas appropri aux donnes du tableau
7, du fait de lingalit marque entre les effectifs des chantillons, nous allons
appliquer ce test ces donnes pour des raisons strictement didactiques. La
valeur
obs
H donne 5,325. La moyenne arrondie des nombres de degr de
libert est de 3. La valeur 1 H est gale 27,8 pour un risque = 0,05.
Puisque
obs
H < 1 H , on accepte lhypothse nulle dgalit des variances des
densits des 3 peuplements. Nanmoins, il est noter que ce rsultat est biais
du fait de lingalit des effectifs des chantillons.


Test de Levene

Le test de Levene (1960) est bas sur une analyse de la variance
effectue sur les carts absolus par rapport la moyenne de chaque
chantillon. La statistique du test s'obtient comme suit :

= =
=


=
p
i
n
j
i ij
p
i
i i
V V p
V V n p N
L
1 1
2
.
1
2
..
.
) ( ) 1 (
) ( ) (
(3.4.6)
66






o

i ij ij
X X V = et .. V est la moyenne des
. ij
V ;

=
=
i
n
j
ij
i
i
V
n
V
1
.
1
et avec
1 = i ,, p ; = j 1,, n , et
i
X , la moyenne des { }
i
in
i
X X ,...,
1
.


La variable L suit une distribution F de Fisher-Snedecor de p -1 et N - p
degrs de libert. On rejette lhypothse nulle dgalit des variances des
populations lorsque :


2 / 1
F L

ou 2 / L) P(F .

Il est utile de noter que des modifications ultrieures ont t apportes au test
original de Levene. Brown et Forsythe (1974) proposent de remplacer la
moyenne
i
des observations de chaque chantillon par leur mdiane,
i

~
.
Dautres modifications comme celle de O'Brien (1979) ont aussi t apportes
au test original de Levene mais le test de Brown et Forsythe (1974) parat le
plus prcis parmi les autres modifications apportes au test original de Levene
car, en utilisant la mdiane plutt que la moyenne de l'chantillon, les tests sont
plus robustes pour des chantillons plus petits et la procdure est
asymptotiquement indpendante de la distribution (Olejnik et Algina, 1987).

Dans le cas des donnes du tableau 7, lutilisation du test de Brown et
Forsythe (1974) donne les rsultats ci-dessous:


N = 11, p = 3,

p
i
i i
V V n
1
2
..
.
)
~ ~
( = 37958 ;

= =

p
i
n
j
i ij
i
V V
1 1
2
.
)
~
(
= 187300
et

L = 0,912. Pour =0,05,
2 / 1
F

(2 , 8) = 6,060 ; ) (F L P = 0,436.

On constate que L <
2 / 1
F

(2 , 8) ou encore ) (F L P > 0,025.



On accepte donc lhypothse nulle dgalit des variances des densits des
trois peuplements.








- Echantillons non indpendants

Dans un tel cas, la mthode de Levene peut encore tre utilise (Dagnelie,
1998).


67





3.4.1.3. Test dhomognit des rsidus de rgression

Lune des conditions dapplication de la rgression linaire est
lhomognit des rsidus de rgression. En dautres termes, lquation de
rgression tablie sera valide lorsque la variance conditionnelle des rsidus
est constante quelle que soit lobservation considre. Lorsque cette hypothse
nest pas vrifie, on parle dhtroscdasticit des rsidus et lquation de
rgression tablie peut conduire des estimations biaises.

Plusieurs mthodes de vrification de lhomognit des rsidus sont
proposes dans la littrature. On peut citer entre autres le test de White (1980)
et le test de Breusch-Pagan (1979). Le test de Breusch-Pagan est plus
spcifique la vrification de lhypothse dhomognit que celui de White
(1980) qui est plus gnral en dtectant des formes danomalie des rsidus
autres que lhtroscdasticit (non-normalit par exemple). De ce fait, le test
de White peut rejeter lhypothse dhomognit en labsence
dhtroscdasticit des rsidus lorsque que le modle de rgression est
imprcis dans un autre sens (Thursby, 1982). Le test de Breusch-Pagan est
prsent ci-dessous. Nous proposons la version modifie de ce test qui est
moins sensible une non-normalit que le test originel (Greene, 1993).

Pour Breusch-Pagan (1979), la variance rsiduelle
i
de lindividu i de
vecteur dobservations
i
z peut tre crite sous la forme :

) (
0
2 2
i i
z ' + = (3.4.7)

avec
0
lordonne lorigine ; ' le transpos du vecteur de coefficients de
rgression partiels et
2
une constante relle.

Lhypothse nulle du test est :

0 = ' : H0 .

La statistique de ce test est :

) ( ' ) ' ( )' (
1 1
i u i u u Z Z Z Z u
v
bp =

(3.4.8)


Dans lexpression (3.4.8), u= [
2 2
2
2
1
..., , , n e e e ] avec
i
e le rsidu de
lobservation i. i est le vecteur-colonne unitaire (n 1), u est la moyenne du
vecteur u et Z , la matrice des observations. Par ailleurs, v est une constante
calcule laide de la formule :

68





=
=
n
i
n
e
n
v
1
2 2
1
) (
1 e e'
.

Dans lexpression ci-dessus, e est le vecteur de rsidus de rgression.

Sous lhypothse nulle dhomognit des variances rsiduelles, bp suit une
distribution Chi-carr p degrs de libert. La probabilit associe cette
hypothse est :

) (
2
bp P .

Lorsque la valeur de cette probabilit est infrieure 0,05, on rejette
lhypothse dhomognit des rsidus.

Pour illustrer ce test, considrons un exemple relatif ltablissement
dune quation permettant de prdire le volume de peuplement de Acacia
auriculiformis en fonction de certains paramtres notamment la surface terrire
( G), la densit du peuplement (
p N ). Les donnes ayant servi ltablissement
de cette quation sont prsentes au tableau 11. Dans ce tableau, les
peuplements sont dsigns comme auparavant par lanne de plantation et le
numro dordre dinstallation. Ainsi, le premier peuplement 92/01 est install en
1992 avec le numro dordre 01.


Lquation obtenue de cet ajustement est la suivante :



) ln( 296 , 0 ) ln( 239 , 1 344 , 3 ) ln( Np G Vp + = (3.4.9)

99 , 0
2
= R


Pour vrifier lhomognit des rsidus de cette quation de rgression,
nous avons appliqu le test de Breusch-Pagan aux rsidus de rgression
prsents dans le tableau 11. La valeur de bp obtenue est gale 1,78 avec
une probabilit de 0,41. En dautres termes, on accepte lhypothse
dhomognit des rsidus de la rgression.

69





Tableau 11. Donnes ayant servi la construction du tarif de cubage-
peuplement.

peuplement lnVp(m
3
/ha) lnG(m
2
/ha) lnNp(t/ha)
Rsidus de
la rgression
92/01 4,220 2,310 6,623 -0,027
92/04 4,055 2,108 6,654 0,068
92/22 4,152 2,240 6,731 0,024
91/02 3,907 2,037 6,628 0,000
91/03 3,381 1,379 5,704 0,016
91/05 3,930 2,041 6,503 -0,019
91/16 4,243 2,349 6,628 -0,050
91/17 3,884 2,006 6,594 0,006
91/22 3,513 1,593 6,052 -0,014
90/03 3,610 1,379 4,890 0,004
90/07 3,727 1,858 6,324 -0,048
90/09 4,386 2,353 6,465 0,039



3.4.2. Application avec les logiciels statistiques

Plusieurs logiciels statistiques offrent des possibilits de ralisation des
tests dgalit des variances ou de matrices de variances-covariances (tests
dhomoscdasticit). Certains de ces tests sont intgrs aux modules danalyse
de la variance des logiciels statistiques. Les autres peuvent tre excuts
indpendamment de lanalyse de la variance. Nous prsentons ici lapplication
de ces tests aux donnes des tableaux 9 et 11 en utilisant les logiciels Minitab,
SPSS et SAS.


3.4.2.1. Logiciel Minitab

Nous reprenons lexemple du tableau 9 afin dexposer la procdure de
ralisation du test dgalit des variances de deux populations avec le logiciel
Minitab. Pour ce faire, les donnes peuvent tre saisies de deux diffrentes
manires :

- les deux chantillons peuvent tre mis dans une seule colonne et les
indices didentification des deux populations dans une autre colonne ;

- dans le second cas, chaque chantillon peut tre plac dans deux
colonnes distinctes. Les chantillons peuvent ne pas tre de mme effectif.

Utilisons la premire manire denregistrement des donnes et dsignons
le peuplement de 1991 par lindice 1 et celui de 1992 par lindice 2. Le test
dgalit des variances des deux peuplements se ralise en slectionnant :
Stat > Statistiques lmentaires > 2 variances (cf. figure 28). Dans la
bote de dialogue qui saffiche (figure 29), on introduit la colonne contenant les
70





chantillons dans la fentre Echantillons et la colonne des indices
didentification des chantillons dans la fentre Indices . Dans le cas o les
deux chantillons sont placs dans deux colonnes diffrentes (deuxime
possibilit), il faut plutt slectionner loption Echantillons dans plusieurs
colonnes . Ensuite, il faut insrer la colonne contenant les donnes du
premier chantillon dans la fentre Premier et celle contenant les donnes
du second chantillon dans la fentre Deuxime .




Figure 28. Procdure dexcution du test dgalit de deux
variances avec le logiciel Minitab.


Figure 29. Procdure dexcution du test dgalit de deux
variances avec le logiciel Minitab: bote de dialogue 1.



71







Figure 30. Diamtre moyen (cm) des peuplements de 1991 et 1992 :
rsultats du test dgalit de variances avec Minitab.



Quelle que soit la procdure utilise, on obtient les rsultats de la figure 30
dans le cas des donnes du tableau 9. Comme le montre cette figure, Minitab
fournit deux types de tests savoir le test F et le test modifi de Levene ou test
de Brown et Forsythe (1974). Pour ce qui est du test F, les rsultats fournis par
Minitab sont, aux arrondis prs, les mmes que ceux obtenus manuellement au
paragraphe 3.4.1.1. Le test F indique que lhypothse nulle doit tre accepte
au seuil de 5 % et on peut conclure lgalit des variances diamtriques des
deux peuplements. Les rsultats du test de Levene indiquent aussi une
acceptation de lhypothse dgalit des variances diamtriques.

Pour plus de deux populations, Minitab offre une autre procdure pour le
test dgalit des variances. Pour illustrer cette procdure, reprenons lexemple
du tableau 6 relatif la densit en Acacia auriculiformis de peuplements
mlangs. Lexcution du test se fait en slectionnant Stat > ANOVA > Test
de l'galit des variances comme le montre la figure 31. On obtient la bote
de dialogue de la figure 32. Pour lexcution de la procdure, les chantillons
doivent tre mis dans une seule colonne et les indices identifiant les
populations dans une autre colonne. Ces indices prennent seulement en
compte les deux derniers chiffres de lanne de plantation comme le montre la
figure 33. La colonne contenant les chantillons doit tre place dans la fentre
Rponse et les indices dans la fentre Facteurs . Dans cette dernire
fentre, on a la possibilit de spcifier jusqu neuf facteurs. Dans le cas de
notre exemple, lexcution de la procdure donne les rsultats de la figure 33.


0,5 1,5 2,5
95% Intervalle de confiance pour sigma
2
1
9,5 10,5 11,5 12,5 13,5 14,5 15,5 16,5
Botes moustaches des donnes brutes
DIAMETRE
Test F
Statistique du test : 3,258
P : 0,146
Test de Levene
Statistique du test : 2,675
P : 0,113
Niveauxdu facteur
1
2
Test de lgalit des variances pour DIAMETRE
72







Figure 31. Procdure dexcution du test dgalit de plus de
deux variances avec le logiciel Minitab.




Figure 32. Procdure dexcution du test dgalit de plus de
deux variances avec le logiciel Minitab : bote de dialogue.


73








Figure 33. Densit en pieds dAcacia de peuplements mlangs :
rsultats du test dgalit des variances avec Minitab.



Les rsultats de la figure 33 montrent que Minitab propose deux types de
tests dgalit des variances de plus de deux populations : le test de Bartlett et
le test modifi de Levene (Brown et Forsythe, 1974). Les statistiques de Bartlett
et de Levene et les probabilits associes sont identiques aux rsultats obtenus
au paragraphe 3.4.1.2.

Il est noter que la procdure dexcution du test dgalit des variances
de plus de deux populations peut galement tre utilise pour tester lgalit
des variances de deux populations. Dans ce cas, le test de Bartlett est
automatiquement remplac par un test F. Rappelons galement que le test de
Bartlett est utilis lorsque les donnes sont issues de lois normales alors que le
test de Levene peut tre utilis mme si la distribution ne suit pas une loi
normale. Autrement dit, le test de Levene est robuste en cas d'cart par rapport
la normalit.

3.4.2.2. Logiciel SPSS

Le logiciel SPSS propose plusieurs procdures pour le test de lgalit des
variances de deux ou plusieurs populations. Mais contrairement Minitab qui
propose le test de Levene et de Bartlett, SPSS ne fournit que le test de Levene.
Nous allons prsenter trois procdures pour la ralisation du test, en nous
basant sur les mmes donnes que celles utilises dans le paragraphe 3.4.1.1.
74





La premire procdure est celle qui est ralise en slectionnant Analyse >
Statistiques descriptives > Explorer (cf. figure 11). On obtient alors la
bote de dialogue de la figure 12. On insre ensuite la variable dpendante (ici,
Diamtre) dans la fentre Variables dpendantes : puis la colonne
contenant les indices didentification des populations dans la fentre
Variable(s) active(s) : (cf. figure 34).


Figure 34. Procdure dexcution du test dgalit des
variances avec le logiciel SPSS : bote de dialogue 1.


Pour excuter les tests dgalit des variances dans le logiciel SPSS, il
faut cliquer sur la commande Diagramme de la figure 34, puis cocher
Estimation dexposants (cf. figure 35).



Figure 35. Procdure dexcution du test dgalit des
variances avec le logiciel SPSS : bote de dialogue 2.


On obtient les rsultats de la figure 36. Ces rsultats montrent que SPSS fournit
quatre types de test de Levene. La mthode base sur les mdianes donne les
mmes rsultats que le test de Levene fournit par Minitab, cest--dire le test de
Brown-Forsythe.

75







Figure 36. Diamtre moyen (cm) des peuplements de 1991 et 1992 :
rsultats du test dgalit de variances avec SPSS.


La deuxime procdure de ralisation du test dgalit des variances avec
SPSS est celle qui seffectue en slectionnant Analyse > Comparer les
moyennes > ANOVA 1 facteur> (cf. figure 37). On obtient la bote de
dialogue de la figure 38, dans laquelle il faut insrer la variable dpendante
diamtre dans la fentre Variables dpendantes puis la colonne
pop contenant les indices didentification des populations dans la fentre
Critre : .



Figure 37. Procdure dexcution du test dgalit des variances
avec le logiciel SPSS (seconde procdure).





Test d'homognit de la variance
3,149 1 29 ,086
2,675 1 29 ,113
2,675 1 26,287 ,114
3,061 1 29 ,091
Bas sur la moyenne
Bas sur la mdiane
Bas sur la mdiane
et avec ddl ajust
Bas sur la moyenne
tronque
DIAMTRE
Statistique
de Levene ddl1 ddl2 Signification
76







Figure 38. Procdure dexcution du test
dgalit des variances avec le logiciel SPSS :
bote de dialogue de la seconde procdure.




Pour raliser le test dgalit des variances en SPSS, il faut cliquer sur la
commande Options de la figure 38, puis cocher Test dgalit des
variances (cf. figure 39).



Figure 39. Procdure dexcution du test
dgalit des variances avec le logiciel SPSS :
bote de dialogue de la commande Options .



Lexcution donne les rsultats prsents la figure 40. Lobservation de
cette figure permet de noter que les rsultats fournis par cette seconde
procdure correspondent ceux de la mthode base sur la moyenne (figure
36). Ce sont les rsultats fournis par dfaut par le logiciel SPSS lorsquon
choisit dutiliser la deuxime ou la troisime procdure qui seffectue en
slectionnant Analyse > Modle linaire gnral > univarie> (cf. figure 41,
42 et 43). Cette troisime procdure permet dobtenir les rsultats prsents
la figure 44.

77







Figure 40. Diamtre moyen des peuplements de 1991 et
1992 : rsultats du test dgalit des variances avec
SPSS (seconde procdure).





Figure 41. Procdure dexcution du test dgalit des
variances avec le logiciel SPSS (troisime procdure).


Figure 42. Procdure dexcution du test dgalit
des variances avec le logiciel SPSS : bote de dialogue.
de la troisime procdure.
Test d'homognit des variances
DIAMTRE
3,149 1 29 ,086
Statistique
de Levene ddl1= ddl2 Signification
78







Figure 43. Procdure dexcution du test dgalit
des variances avec le logiciel SPSS : bote de
dialogue de la commande Options .




Figure 44. Diamtre moyen des peuplements de 1991 et 1992 :
rsultats du test dgalit de variances avec SPSS (troisime
procdure).


Il est noter que lune ou lautre de ces trois procdures peut tre utilise
pour la ralisation du test dgalit des variances, que lon ait deux ou plus de
deux populations. La premire procdure prsente le test original de Levene, le
test de Brown-Forsythe avec ou sans ajustement de nombre de degrs de
libert ; la deuxime et la troisime procdures prsentent le test original de
Levene. Une des limites de la premire procdure est quelle ne ralise le test
de Levene que lorsque chacune des populations contient plus de trois
observations. Dans le cas des donnes du tableau 6, lutilisation de la
deuxime procdure dexcution du test dgalit des variances donne les
rsultats de la figure 45.
Test d'galit des variances des erreurs de Levene
a
Variable dpendante: DIAMTRE
3,149 1 29 ,086
F ddl1 ddl2 Signification
Teste l'hypothse nulle que la variance des erreurs de la
variable dpendante est gale sur les diffrents groupes.
Plan : Intercept+POP
a.
79






Figure 45. Densit en pieds dAcacia des 3 peuplements :
rsultats du test dgalit de variance avec SPSS (2
nde
procdure).


3.4.2.3. Logiciel SAS

Tout comme Minitab et SPSS, le logiciel SAS peut aussi tre utilis pour le
test dgalit des variances de deux ou plus de deux populations. Quatre types
de test dgalit des variances sont proposs par SAS savoir le test de
Bartlett, le test de Brown-Forsythe, le test de Levene et le test de O'Brien. De
manire pratique, ces diffrents tests sexcutent travers lutilisation de la
procdure PROC GLM lie lanalyse de la variance. Dans cette procdure, on
spcifie la commande MEANS puis loption HOVTEST. A titre dillustration,
reprenons lexemple du tableau 6 et excutons les trois tests avec le logiciel
SAS. La figure 46 donne la procdure de ralisation des tests.




Data Data Data Data Dens;
Input Pop Densite;
Cards;
92 450
92 333
92 546
91 508
91 353
91 743
91 523
91 455
91 294
90 97
90 600
90 764
;
Proc glm Proc glm Proc glm Proc glm data = Dens;
Class Pop;
Model Densite = Pop;
Means Pop / Hovtest=Bartlett Hovtest=BF
Hovtest=Levene(Type=ABS);
Run Run Run Run;


Figure 46. Procdure SAS dexcution des tests dgalit des
variances.
Test d'homognit des variances
DENSIT
2,953 2 9 ,103
Statistique
de Levene ddl1= ddl2 Signification
80





Nous prsentons la figure 46, trois des quatre tests savoir le test de
Bartlett, le test de Brown et Forsythe (1974) et le test originel de Levene. Les
rsultats de lexcution du programme sont prsents la figure 47 et sont
identiques ceux obtenus plus haut au paragraphe 3.4.1.2. Que lon ait deux
ou plus de deux populations, la procdure prsente la figure 46 peut tre
utilise.




Figure 47. Densit des peuplements 1990, 1991 et 1992 : rsultats
des tests dgalit de variances avec SAS.



On peut noter de cette figure que la probabilit lie au test de Levene est la
mme que celle prsente la figure 45. Les rsultats des tests de Brown-
Forsythe et de Bartlett sont identiques ceux obtenus au paragraphe 3.4.1.2. et
la figure 33.

Pour le test de Breusch-Pagan, la procdure SAS utilise est prsente
la figure 48.
81







data data data data acacia;
input lnVp lnG lnNp;
cards;
4.22 2.310 6.623
4.055 2.108 6.654
4.152 2.240 6.731
3.907 2.037 6.628
3.381 1.379 5.704
3.930 2.041 6.503
4.243 2.349 6.628
3.884 2.006 6.594
3.513 1.593 6.052
3.610 1.379 4.89
3.727 1.858 6.324
4.386 2.353 6.465
;
proc proc proc proc model model model model data=acacia;
fit lnVp / white breusch = (1 11 1 lnG lnNp);
run run run run;


Figure 48. Procdure SAS de ralisation des tests de White
et Breusch-Pagan dhomognit des rsidus.



Nous ne prsentons pas les rsultats de lapplication de la procdure de la
figure 48 ; la version 9.1 du logiciel SAS que nous avons utilise ne comporte
pas cette procdure.
















82





83





3.5. Tests dgalit des matrices de variances-covariances

Dans le prsent paragraphe et pour des raisons didactiques, nous
comparons les deux types de pturages du tableau 8 du point de vue du poids
moyen en gramines et en lgumineuses. Pour effectuer statistiquement une
telle comparaison, la mthode approprie est lanalyse de la variance
multivairie
1
, suivie le cas chant de lanalyse canonique discriminante
2
. Lune
des conditions dapplication de ces deux mthodes est lgalit des matrices de
variances-covariances ou homoscdasticit
3
. Nous dcrivons dans cette note
deux mthodes de vrification de lhomoscdasticit : le test dhomoscdasticit
du rapport de vraisemblance
4
et le test M de Box
5
qui utilisent globalement les
mmes principes.


3.5.1. Test dhomoscdasticit du rapport de vraisemblance


Considrons g populations dans lesquelles sont tirs g chantillons
deffectifs respectifs
i
n ) ,..., 1 ( g i= . Leffectif global tant n =

=
g
i
i
n
1
.

Le test dhomoscdasticit du rapport de vraisemblance sous lhypothse
de normalit des donnes a pour hypothse nulle :


0
H : =
i
). ,..., 1 ( g i = (3.5.1)

Le test est bas sur la statistique :

=
=
g
i
i
n
1
ln[|

| / |
i

|]. (3.5.2)

Dans lexpression (3.5.2),
i

est la matrice de variance-covariance de


lchantillon tir de la population
i
G ) ,..., 1 ( g i = et

=
=
g
i
i i
n n
1

) / (

.
Sous lhypothse
0
H , suit asymptotiquement une distribution Chi-carr
) 1 ( ) 1 (
2
1
+ p p g degrs de libert (McLachlan, 1992).

Lorsque les effectifs
i
n sont ingaux, le test bas sur est biais et de
ce fait, on utilise en pratique la statistique modifie (McLachlan, 1992) :


1
En anglais : Multivariate analysis of variance (MANOVA).
2
En anglais : Canonical discriminant analysis.
3
En anglais : Homoscedasticity.
4
En anglais : Likelihood ratio test for homoscedasticity.
5
En anglais : Boxs M test.
84





=
=
g
i
i
*
n
1
ln ) 1 ( [|
i
S | / | S|], (3.5.3)

o

) 1 /(

=
i i i i
n n S

est lestimation non biaise de
i
) ,..., 1 ( g i = et ) /(

g n n = S ,
lestimation non biaise de la matrice de variances-covariances commune
sous lhypothse dhomoscdasticit.

Greenstreet et Connor (1974) ont montr comment la statistique ou
*

peut tre modifie par un facteur multiplicatif constant pour donner un test de
mme puissance que prcdemment mais avec des valeurs de ou
*
plus
faibles.

Dans le cas de
*
, le facteur multiplicatif constant est dfini par :


(

+ +
)
`

=

=
) 1 )( 1 ( 6 / ) 1 3 2 (
1
)
1
1
( 1
2
1
p g p p
g n
n
C
g
i i
.


Il est utile de noter que Layard (1974) a dmontr la non-robustesse de ce
test par rapport une non-normalit.

En pratique, lhypothse dhomoscdasticit est rejete lorsque
2
1
*



ou ) P(
*
2
.

Pour les donnes du tableau 8, nous avons les rsultats suivants : g =2,
1
n = 6,
2
n =6 ; p = 2.

*
= 36,142.



6,8180 -3,1327

-3,1327 1,9259
1

S =


8125800 1488000

1488000 1090600

2

S =
4097000 72830


72830 55490
S

=
.
85





En appliquant le facteur multiplicatif ( C = 0,7833), la valeur de
*
devient
28,311. Le nombre de degr de libert tant gale 3, la probabilit
correspondante lhypothse nulle dans le cas dutilisation de la valeur
modifie de
*
est infrieure 0,0001 (0,0000031). On rejette donc
lhypothse nulle et on conclut lhtroscdasticit du modle. En dautres
termes, les matrices de variances-covariances des donnes relatives aux deux
pturages sont significativement ingales.

3.5.2. Test M de Box

Le test de Box est une gnralisation du test de Bartlett dans le cas de
donnes multivaries. Ce test est bas sur lhypothse de multinormalit des
donnes. Ainsi, sous une telle hypothse, la statistique M de Box a pour
expression :

=
=
g
i
i i
n g N M
1
ln ) 1 ( ln ) (
. (3.5.4)

Le symbole
i
reprsente la matrice de variances-covariances du groupe ou
population i et

=
g
i
i i
n
g N
1
) 1 (
) (
1

reprsente la matrice de variances-
covariances inter-classes combine.

Soient
1
e et
2
e , deux rels dont les expressions sont les suivantes :


(

=

=
)) /( 1 ( )) 1 /( 1 (
1
1
g N n e
g
i
i
) 1 )( 1 ( 6
1 3 2
2
+
+
p g
p p

et

(

=

=
) ) /( 1 ( ) ) 1 /( 1 (
2 2
1
2
g N n e
g
i
i
) 1 ( 6
) 2 )( 1 (

+
g
p p
.



Soient
1
t ,
2
t et b , trois rels tels que :

2 / ) 1 ( ) 1 (
1
+ = p p g t ;
2
1 2 1 2
/ ) 2 ( e e t t + = et

) / 1 /(
2 1 1 1
t t e t si
2
1 2
e e >

) / 2 1 /(
2 1 2
t e t + si
2
1 2
e e <


Le rapport :



F=

b M/ si
2
1 2
e e >

) ( /
1 2
M b t M t si
2
1 2
e e <


(3.5.5)
86










suit une distribution de Fisher-Snedecor
1
t et
2
t degrs de libert. Dans le
cas o
2
1
e -
2
e est proche de 0, on utilise la statistique M e ) 1 (
1
qui est
approximativement une
2

1
t degrs de libert (Saporta, 1990).

Dans le cas des donnes du tableau 8, en supposant la multinormalit des
donnes, nous avons :

2
1
e = 0,0469
2
e = 0,0466 ;
2
1 2
e e < donc b = ) / 2 1 /(
2 1 2
t e t + = 22975 ;
M = 36,142. F= 9,453 ;
1
t =3 et
2
t = 17999,9.


La probabilit ) 17999 (F P pour 3 et 17999 degrs de libert est
gale 0,000. On rejette alors lhypothse dgalit des matrices de variances-
covariances des deux groupes de peuplements.

Par ailleurs, puisque
2
1
e -
2
e est assez proche de 0, on devrait utiliser la
statistique M e ) 1 (
1
qui donne la valeur 28,311 du paragraphe 3.5.1 et la
probabilit correspondante est gale 0,000. Dans tous les cas, on rejette
lhypothse nulle dgalit des matrices de variances-covariances.


3.5.3. Applications avec les logiciels statistiques

La version 13Fr du logiciel Minitab utilis ne comporte aucun test dgalit
de matrices de variances-covariances. De ce fait, lapplication des tests se fera
dans les logiciels SAS et SPSS. Le logiciel SAS prend en compte le test
dhomoscdasticit du rapport de vraisemblance alors que SPSS pend en
compte le test M de Box.

3.5.3.1. Logiciel SPSS

En SPSS, le test M de Box est intgr la procdure danalyse de la
variance multivarie. Pour raliser ce test, on slectionnant Analyse >
Modle linaire gnral > Multivarie (cf. figure 49). On obtient alors la
bote de dialogue de la figure 50 dans laquelle on insre les variables
dpendantes (ici, gramine et legum) dans la fentre Variables
dpendantes : puis la colonne contenant les indices didentification des
pturages dans la fentre Facteur(s) fix(s) : . En cliquant sur le bouton
option , on obtient la bote de dialogue de la figure 51 dans laquelle on
coche Tests dhomognit .
87








Figure 49. Procdure dexcution du test M de Box en SPSS.



Figure 50. Procdure dexcution du test M de Box
en SPSS : bote de dialogue 1.
88






Figure 51. Procdure dexcution du test M de
Box en SPSS : bote de dialogue 2.


Les rsultats obtenus et prsents la figure 52 sont identiques ceux
obtenus au paragraphe 3.5.2. De ce fait, on rejette lhypothse dgalit des
matrices de variances-covariances des deux populations.




Figure 52. Test M de Box : rsultats obtenus avec SPSS.


3.5.3.2. Logiciel SAS

Dans le logiciel SAS, le test du rapport de vraisemblance pour la
comparaison des matrices de variances-covariances ou test gnralis de
Bartlett est intgr la procdure danalyse discriminante. Les rsultats de ce
test permettent en effet lutilisateur de choisir lanalyse discriminante linaire
en cas dacceptation de lhypothse dgalit des matrices de variances-
Test d'galit des matrices
de covariance de Box
a
36,142
9,435
3
18000,000
,000
M de Box
F
ddl1
ddl2
Signification
Teste l'hypothse nulle selon laquelle
les matrices de covariances observes
des variables dpendantes sont
gales sur l'ensemble des groupes.
Plan : Intercept+PATURAGE
a.
89





Data Data Data Data paturage;
Input pature gramine legumineuse;
Cards;
1 120 315
1 450 30
1 757 0
1 212 120
1 185 244
1 451 52
2 598 164
2 599 1203
2 0 219
2 5855 2616
2 5520 211
2 2540 696
;
Proc Proc Proc Proc discrim discrim discrim discrim Data=paturage Method=Normal OUT=Sortie All
Pool=test;
Class pature;
Run Run Run Run;

covariances et dutiliser lanalyse discriminante quadratique dans le cas
contraire, pour autant que les populations soient multinormales. La procdure
utiliser est applique aux donnes du tableau 8 et est prsente la figure 53.



Figure 53. Procdure SAS dexcution du test gnralis de Bartlett
pour la comparaison de deux matrices de variances-covariances.



Les rsultats obtenus de lexcution de la procdure ci-dessus sont
prsents la figure 54 et sont identiques ceux du paragraphe 3.5.1. Le
logiciel prsente dabord la mthodologie de ralisation du test gnralis de
Bartlett pour la comparaison des matrices de variances-covariances. Cette
mthodologie est diffrente de celle prsente au paragraphe 3.5.1 mais
elles conduisent aux mmes rsultats.







90






Figure 54. Test du rapport de vraisemblance pour la comparaison des
matrices de variances-covariances : rsultats obtenus avec SAS.


















Test of Homogeneity of Within Covariance Matrices
Notation: K = Number of Groups
P = Number of Variables
N = Total Number of Observations - Number of Groups
N(i) = Number of Observations in the i'th Group - 1
__ N(i)/2
|| |Within SS Matrix(i)|
V = -----------------------------------
N/2
|Pooled SS Matrix|
_ _ 2
| 1 1 | 2P + 3P - 1
RHO = 1.0 - | SUM ----- - --- | -------------
|_ N(i) N _| 6(P+1)(K-1)
DF = .5(K-1)P(P+1)
_ _
| PN/2 |
| N V |
Under the null hypothesis: -2 RHO ln | ------------------ |
| __ PN(i)/2 |
|_ || N(i) _|
is distributed approximately as Chi-Square(DF).
Chi-Square DF Pr > ChiSq
28.311248 3 <.0001
91





4. Conclusion



La vrification des conditions dapplication est une tape importante dans
lutilisation des mthodes statistiques paramtriques. Lorsque ces conditions
ne sont pas respectes, il est possible que les rsultats obtenus soit biaiss.
Nous avons expos dans la prsente note, le cadre thorique dtablissement
des mthodes pour montrer limportance des hypothses sous-tendant leur
application ainsi que les consquence du non-respect de ces hypothses.
Dans le cas dune non-normalit des populations, le risque de premire
espce peut tre modifi de sorte que le test infrentiel effectu est soit plus
libral ou plutt conservateur. De la mme manire, le non-respect de la
condition dhomoscdasticit affecte le risque nominal et surtout la prcision
des tests de structuration de moyennes en analyse de la variance. De mme,
le non-respect de lhypothse de normalit multivarie peut affecter lanalyse
de la variance multivarie ainsi que la qualit des rgles de classement
paramtriques tablies en analyse discriminante. Par ailleurs, une forte
htroscdasticit peut affecter spcifiquement la rgle linaire de
classement.

Nous avons aussi abord, entre autres, les mthodes de vrification du
respect des hypothses dutilisation des tests statistiques paramtriques. Pour
la normalit univarie, les mthodes de vrification abordes sont le test de
Ryan-Joiner, le test de Shapiro-Wilk et le test de Kolmogorov-Smirnov alors
que la normalit multivarie est vrifie laide des tests de Mardia et de Rao-
Ali. Lgalit des variances est vrifie avec les tests de Hartley, de Bartlett,
de Levene et le test modifi de Breusch-Pagan pour la vrification de
lhypothse dhomognit des rsidus. Lgalit des matrices de variances-
covariances est vrifie par le test gnralis du rapport de vraisemblance de
Bartlett et le test M de Box.

Lapplication de ces diffrentes mthodes de vrification des tests
paramtriques sur ordinateur est aborde avec notamment, les logiciels SAS,
Minitab, SPSS et Matlab. Ceci donne lutilisateur un ventail de possibilits
dexcution de ces mthodes dans les logiciels statistiques. Il y trouve ainsi un
moyen rapide pour viter une utilisation abusive des mthodes statistiques
courantes.

Enfin, il est noter que toutes les conditions dapplication des mthodes
statistiques paramtriques ne sont pas exposes dans cette note de biomtrie
comme par exemple le test de paralllisme des droites de rgression
ncessaire lexcution de lanalyse de la covariance. Lobjectif poursuivi a t
de prsenter les conditions dapplication des mthodes les plus courantes dans
le traitement des donnes.
92





93





5. Rfrences bibliographiques


Akossou A.J.Y., Fonton N.H., Claustriaux J.J. (2001). Introduction la
programmation avec Matlab sous windows. Notes Biom. Info.
Bibliothque Nationale.

Bayne C. K., Beauchamp, J. J., Kane, V. E., McCabe, G. P. (1983).
Assessment of Fisher and logistic linear and quadratic discrimination
models. Comput. Stat. Data Anal., 1: 257-273.

Breusch T.S. and Pagan, A.R., (1979). A Simple Test for Heteroscedasticity
and Random Coefficient Variation. Econometrica, 47 (5), 1287--1294.

Brown M.B., Forsythe, A.B. (1974), Robust Tests for Equality of Variances.
Journal of the American Statistical Association, 69 : 364 -367.

Clarke, W. R., Lachenbruch, P. A., Broffit, B. (1979). How nonnormality affects
the quadratic discrimination function. Communications in Statistics-
Theory and Methods, A8, 1285-1301.

Dagnelie P. (1998). Statistique thorique et applique vol. 1 & 2. Paris, De
Boeck et Larcier.

Dehlert G.W. (2000). A first course in Design and Analysis of Experiments,
Freeman and company, NY, USA.
Fonton N. H., Gll Kaka R., Rondeux J. (2002). Etude dendromtrique de
Acacia auriculiformis (Cunn A.) en mlange sur du vertisol au Bnin.
Biotechnol. Agron. Soc. Environ. 6 (1) : 29-37.


Gll Kaka R., Palm. R. (2006). Methodological contribution to control
heteroscedasticity in discriminant analysis studies Global Journal of
Pure and Applied Sciences, 12 (1), 107-110.
Gll Kaka R., Palm. R. (2005). Minimal Error Rate Of Linear, Quadratic And
Logistic Rules In Discriminant Analysis. Global Journal Of Mathematical
Sciences. 4 (1 , 2), 89-93.
Gll Kaka R., Palm R. (2004). Performance relative des rgles linaire,
quadratique et logistique en analyse discriminante. 35me journes
franaises de statistique, 24 28 mai 2004, Montpellier, France (CD
Rom).Website : http://www.agro-montpellier.fr/sfds/CD/textes/glele1.pdf
Gll Kaka R., Palm R., Kokode G. (2005). Lanalyse discriminante
dcisionnelle : aspects thoriques et applications sur ordinateur. Notes
tech. Biom. Bibliothque Nationale, Bnin.
Greenstreet R.L. et Connor R.J. (1974). Power of tests for equality of
covariance matrices. Technometrics, 16 : 27-30.

McLachlan G. J. (1992). Discriminant analysis and statistical pattern
recognition, Wiley, New York.

Lachenbruch P. A., Sneeringer C., Revo L. T. (1973). Robustess of the linear
and quadratique discriminant function to certain types of non-normality.
Comm. Stat., 1, 39-57.

Layard M.W.J. (1974). A Monte Carlo comparison of tests for equality of
covariance matrices. Biometrika, 16 : 461-465.

Levene H. (1960). Contributions to Probability and Statistics, pp.278-292.
94





Stanford University Press, CA.

Mardia K. V. (1980). Measures of Multivariate Skewness and Kurtosis with
Applications. Biometrika, 57(3): 519-530

Minitab (1996). Minitab for Windows Release 11. Minitab, Inc., State College,
PA, USA.

O'Brien R.G. (1979). A General ANOVA Method for Robust Tests of Additive
Models for Variances. Journal of the American Statistical Association,
74 : 877 880.

Olejnik S.F., Algina J. (1987). Type I Error Rates and Power Estimates of
Selected Parametric and Non-parametric Tests of Scale. Journal of
Educational Statistics, 12 : 45 -61.

Owen D.B. (1962). Handbook of statistical tables. Reading, Addison-Wesley.

Palm R. (1994). La rgression linaire pondre : principes et application.
Notes Stat. Inform. 94/4 (Gembloux).

Ryan T.A., Joiner B.L. (1976). Normal Probability Plots and Tests for Normality.
Technical Report, Statistics Department, The Pennsylvania State
University.

Saporta G. (1990). Probabilits analyse des donnes et statistique.
Technip, Paris.

SAS Institute Inc. (1999). SAS OnlineDoc, Version 8, Cary, NC: SAS Institute
Inc.
Shapiro S.S, Wilk M.B. (1965). An analysis of variance test for normality.
Biometrika, 52(3) : 591-599.

Tomassone R., Donzart M., Daudin J. J., Masson J. P. (1988). Discrimination et
classement, Masson, Paris.

Thursby J. (1982). Misspecification, Heteroscedasticity, and the Chow and
Goldfield-Quandt Test. Review of Economics and Statistics, 64: 314-
321.
White H. (1980). A Heteroskedasticity-Consistent Covariance Matrix Estimator
and a Direct Test for Heteroskedasticity. Econometrica, 48 (4): 817-
838.

You might also like